优草派 > Python

为什么我们要进行词频统计?Python词频统计有什么用?

陈信         优草派

python的词频统计是用来统计一篇文章中,某一个字段出现的次数,从而了解文章的重点,关键字,方便理解作者的想法。在使用python获取文件后,我们有时需要对其进行词频统计,那如何统计呢?我们以一篇英文的词频统计为例。

为什么我们要进行词频统计?Python词频统计有什么用?

我们要统计英文的词频,第一步就是要分解并且提前英文文章中的单词,计数不能够区分大小写,而我们的单词却有大小写这些不同的形式,所以要使用lower()把全部英文字母都改成小写的。例:

txt=txt.lower()

文章中还有许多的标点符号,如,.;",我们要通过replace()将这些特殊字符和标点变成空格,然后提取单词。例:

for ch in ',.?!"':
    txt=txt.replace(ch,' ')
ky = txt.split()

定义字典,统计单词出现的次数,以及把字典转换成列表并且对其进行排序。

True 是使所求值降序的意思。range(10)意思是显示前10行,如果想要全部显示则输入range(len(items)。冒号前的0和1表示输出的顺序,冒号后的<表示向左对齐。

counts={}
for i in ky:
    counts[i]=counts.get(i,0)+1
items = list(counts.items())
items.sort(key=lambda x:x[1],reverse = True)
for i in range (10):
    i,count = items[i]
    print('{0:5}'.format(i,count))

词频统计能帮我们快速查找想要的数据的出现频率,而词频统计也不止只有英文统计,还有中文的词频统计。 同时,词频统计还是计算机二级的一大考点。

  • 微信好友

  • 朋友圈

  • 新浪微博

  • QQ空间

  • 复制链接

取消
5天短视频训练营
新手入门剪辑课程,零基础也能学
分享变现渠道,助你兼职赚钱
限时特惠:0元
立即抢
新手剪辑课程 (精心挑选,简单易学)
第一课
新手如何学剪辑视频? 开始学习
第二课
短视频剪辑培训班速成是真的吗? 开始学习
第三课
不需要付费的视频剪辑软件有哪些? 开始学习
第四课
手机剪辑app哪个好? 开始学习
第五课
如何做短视频剪辑赚钱? 开始学习
第六课
视频剪辑接单网站APP有哪些? 开始学习
第七课
哪里可以学短视频运营? 开始学习
第八课
做短视频运营需要会什么? 开始学习
【原创声明】凡注明“来源:优草派”的文章,系本站原创,任何单位或个人未经本站书面授权不得转载、链接、转贴或以其他方式复制发表。否则,本站将依法追究其法律责任。

客服热线:0731-85127885

湘ICP备19005950号-1  

工商营业执照信息

违法和不良信息举报

举报电话:0731-85127885 举报邮箱:tousu@csai.cn

优草派  版权所有 © 2024