創新互聯www.cdcxhl.cn八線動態BGP香港云服務器提供商,新人活動買多久送多久,劃算不套路!
創新互聯建站是一家以網站建設公司、網頁設計、品牌設計、軟件運維、成都網站推廣、小程序App開發等移動開發為一體互聯網公司。已累計為展覽展示等眾行業中小客戶提供優質的互聯網建站和軟件開發服務。小編給大家分享一下python提取字符串的方法,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
在Python中,要提取文本的字符串,有多中方法,如使用正則表達式,BeautifulSoup或Xpath等來提取。下面講解用正則表達式來提取字符串。
一、單個位置的字符串提取
這種情況我們可以使用(.+?)這個正則表達式來提取。 舉例,一個字符串"a123b",如果我們想提取ab之間的值123,可以使用findall配合正則表達式,這樣會返回一個包含所以符合情況的list。
代碼如下:
import re str = "a123b" print re.findall(r"a(.+?)b",str)#
輸出['123']
1.1貪婪和非貪婪匹配
如果我們有一個字符串”a123b456b”,如果我們想匹配a和最后一個b之間的所有值而非a和第一個出現的b之間的值,可以用?來控制正則貪婪和非貪婪匹配的情況。
代碼如下:
import re str = "a123b456b" print re.findall(r"a(.+?)b", str)
輸出
['123']#?控制只匹配0或1個,所以只會輸出和最近的b之間的匹配情況
print re.findall(r"a(.+)b", str)
輸出
['123b456']
print re.findall(r"a(.*)b", str)
輸出
['123b456']
1.2多行匹配
如果你要多行匹配,那么需要加上re.S和re.M標志. 加上re.S后。將會匹配換行符,默認.不會匹配換行符。
代碼如下:
str = "a23b\na34b" re.findall(r"a(\d+)b.+a(\d+)b", str)
輸出[]
因為不能處理str中間有\n換行的情況
re.findall(r"a(\d+)b.+a(\d+)b", str, re.S)
s輸出[('23', '34')]
加上re.M后,^$標志將會匹配每一行,默認^和$只會匹配第一行。
代碼如下:
str = "a23b\na34b" re.findall(r"^a(\d+)b", str)
輸出['23']
re.findall(r"^a(\d+)b", str, re.M)
輸出['23', '34']
二、連續多個位置的字符串提取
這種情況我們可以使用(?P<name>…)這個正則表達式來提取。舉例,如果我們有一行webserver的access日志:'192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "http://abc.com/search" "Mozilla/5.0"',我們想提取這行日志里面所有的內容,可以寫多個(?P<name>expr)來提取,其中name可以更改為你為該位置字符串命名的變量,expr改成提取位置的正則即可。
代碼如下:
import re line ='192.168.0.1 25/Oct/2012:14:46:34 "GET /api HTTP/1.1" 200 44 "http://abc.com/search" "Mozilla/5.0"' reg = re.compile('^(?P<remote_ip>[^ ]*) (?P<date>[^ ]*) "(?P<request>[^"]*)" (?P<status>[^ ]*) (?P<size>[^ ]*) "(?P<referrer>[^"]*)" "(?P<user_agent>[^"]*)"') regMatch = reg.match(line) linebits = regMatch.groupdict() print linebits for k, v in linebits.items() : print k+": "+v
輸出的結果為:
status: 200 referrer: request: GET /api HTTP/1.1 user_agent: Mozilla/5.0 date: 25/Oct/2012:14:46:34size: 44 remote_ip: 192.168.0.1
以上是python提取字符串的方法的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注創新互聯-成都網站建設公司行業資訊頻道!
文章名稱:python提取字符串的方法-創新互聯
地址分享:http://m.newbst.com/article16/dggdgg.html
成都網站建設公司_創新互聯,為您提供網站營銷、App開發、電子商務、外貿網站建設、品牌網站建設、網站策劃
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯