利用Python怎么計算單詞出現的次數-創新互聯

利用Python怎么計算單詞出現的次數？針對這個問題，這篇文章詳細介紹了相對應的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

創新互聯公司服務項目包括武威網站建設、武威網站制作、武威網頁制作以及武威網絡營銷策劃等。多年來，我們專注于互聯網行業，利用自身積累的技術優勢、行業經驗、深度合作伙伴關系等，向廣大中小型企業、政府機構等提供互聯網行業的解決方案，武威網站推廣取得了明顯的社會效益與經濟效益。目前，我們服務的客戶以成都為中心已經輻射到武威省份的部分城市，未來相信會繼續擴大服務區域并繼續獲得客戶的支持與信任！題目：

統計一個文件中每個單詞出現的次數，列出出現頻率最多的5個單詞。

前言：

這道題在實際應用場景中使用比較廣泛，比如統計歷年來四六級考試中出現的高頻詞匯，記得李笑來就利用他的編程技能出版過一本背單詞的暢銷書，就是根據詞頻來記單詞，深受學生喜歡。這就是一個把編程技能用來解決實際問題的典型場景。另外，在數據分析時，那些詞云效果本質上都是基于詞頻統計來調整字體的大小，如果你能熟練運用Python中的知識來解決問題的話，說明你真的入門Python了。

分析

本題主要考察以下幾個方面的知識點：

1、如何正確讀寫文件

在python中讀寫文件可以使用內置函數open()，而 open 函數在python2 和 python3 中有一定的區別，比如 Python 中可以指定讀寫文件的編碼格式，而 Python 則不可以，為了同時兼容2和3，我們通常會使用io模塊下面的 open 函數，大家可以查文檔搞清楚它們之間的區別，培養主動學習能力和查資料的習慣。

另外一點是讀寫文件完成之后是需要關閉文件描述符的，除了可以使用 try...except...finally的語法之后，我們還可以使用更優雅的 with … as 的語法來自動關閉文件。

2、如何對數據進行排序

sorted函數是一個使用頻率很高的內置函數，它的用法也很強大，因為它可以通過指定參數 key 來進行自定義排序，也就意味著你不僅可以對數字排序、對字母排序、還可以對列表、字典、自定義的對象進行排序，你只需要要告訴 sorted 函數的排序規則是什么，比如一個people對象，我既可以根據年齡排序也可以根據身高體重來排序，所以這個函數時非常靈活的，另外，對于列表對象有自帶的 sort 方法，如果能區分清楚 list.sort 與 sorted 之間區別那說明你已經能靈活運用了。

3、字典數據類型的運用

做詞頻統計，用字典無疑是最合適的數據類型，單詞作為字典的key，單詞出現的次數作為字典的 value，很方便地就記錄好了每個單詞的頻率，字典很像我們的電話本，每個名字關聯一個電話號碼。另外，字典大的特點就是它的查詢速度會非常快。理想情況下時間復雜度為O(1)，我是說理想情況，如果你想深入了解字典的話，建議看看這篇文章 https://www.laurentluce.com/posts/python-dictionary-implementation/

4、正則表達式的運用

對文本、字符串處理，正則表達式簡直是神器，無論是做數據爬蟲還是數據清洗使用非常廣泛，當然，正則表達式并不是Python特有的東西，所有編程語言都支持，我們要做的除了學習正則表達式還有他的API，只有熟悉了API我們才能運用到實際場景中去。關于正則表達式推薦一篇文章：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html ，另外我還發現有同學引入了jieba分詞庫，這個庫在做中文分詞非常有用，感興趣的可以去了解一下。

實現

分析完之后，我們實現起來其實是非常快的。所以我們在拿到一個需求的時候，首先肯定是把需求弄清楚，想想大概可以用哪些技術來實現，隨后才是動手寫代碼，其實我們在工作上，真正寫代碼的時間還不到一半。

# -*- coding:utf-8 -*-
import io
import re
class Counter:
 def __init__(self, path):
 """
 :param path: 文件路徑
 """
 self.mapping = dict()
 with io.open(path, encoding="utf-8") as f:
  data = f.read()
  words = [s.lower() for s in re.findall("\w+", data)]
  for word in words:
  self.mapping[word] = self.mapping.get(word, 0) + 1
 def most_common(self, n):
 assert n > 0, "n should be large than 0"
 return sorted(self.mapping.items(), key=lambda item: item[1], reverse=True)[:n]
if __name__ == '__main__':
 most_common_5 = Counter("importthis.txt").most_common(5)
 for item in most_common_5:
 print(item)

打印結果：

('is', 10)
('better', 8)
('than', 8)
('the', 6)
('to', 5)

關于利用Python怎么計算單詞出現的次數問題的解答就分享到這里了，希望以上內容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關注創新互聯行業資訊頻道了解更多相關知識。

新聞標題：利用Python怎么計算單詞出現的次數-創新互聯
當前URL：http://m.newbst.com/article12/dcijgc.html

成都網站建設公司_創新互聯，為您提供電子商務、企業建站、定制網站、軟件開發、網站排名、網站策劃

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

免费观看又色又爽又黄的小说免费_美女福利视频国产片_亚洲欧美精品_美国一级大黄大色毛片

利用Python怎么計算單詞出現的次數-創新互聯