jieba库词频统计_运用jieba库进行词频统计

古城微笑少年丶 2022-11-05 00:45 211阅读 0赞

Python第三方库jieba(中文分词)

一、概述

jieba是优秀的中文分词第三方库

\- 中文文本需要通过分词获得单个的词语

\- jieba是优秀的中文分词第三方库，需要额外安装

\- jieba库提供三种分词模式，最简单只需掌握一个函数

二、安装说明

全自动安装：(cmd命令行)  pip install jieba

安装成功显示

三、特点 —— jieba分词

1. 原理：jieba分词依靠中文词库

\- 利用一个中文词库，确定中文字符之间的关联概率

\- 中文字符间概率大的组成词组，形成分词结果

\- 除了分词，用户还可以添加自定义的词组

2. 三种分词模式：

精确模式：试图将句子最精确地切开，不存在冗余单词，适合文本分析；

全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，有冗余，不能解决歧义；

搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

四、jieba库常用函数

代码示例

结果输出：\['中国', '是', '一个', '伟大', '的', '国家'\]

2. jieba.lcut(s, cut\_all=True) \#全模式，返回一个列表类型的分词结果，存在冗余

代码示例

jieba.lcut("中国是一个伟大的国家",cut\_all=True)

结果输出： \['中国', '国是', '一个', '伟大', '的', '国家'\]

3. jieba.lcut\_for\_sear ch(s) \#搜索引擎模式，返回一个列表类型的分词结果，存在冗余

代码示例

jieba.lcut\_for\_search(“中华人民共和国是伟大的")

结果输出:   \['中华', '华人', '人民', '共和', '共和国', '中华人民共 和国', '是', '伟大', '的'\]

4. jieba.add\_word(w) \#向分词词典增加新词w

代码示例

jieba.add\_word("蟒蛇语言")

运用jieba库进行词频统计

实例——  对西游记第一回进行词频统计

代码

importjieba

path\_txt= 'C:\\\\Users\\86136\\Desktop\\西游记.txt' \#文档在电脑上所在位置

txt = open(path\_txt,"r").read()

excludes= \{"，","：","“","。","”","、","；"," ","！","？","　","\\n"\}

words=jieba.lcut(txt)

counts=\{\}for word inwords:

counts\[word\]= counts.get(word,0)+1

for word inexcludes:delcounts\[word\]

items=list(counts.items())

items.sort(key=lambda x:x\[1\],reverse =True)for i in range(15):

word, count=items\[i\]print("\{0:<10\}\{1:>5\}".format(word,count))

运行结果

利用jieba库统计三国演义中任务的出场次数

mport jieba

txt= open("D:\\\\三国演义.txt", "r", encoding='utf-8').read()

words= jieba.lcut(txt) \#使用精确模式对文本进行分词

counts = \{\} \#通过键值对的形式存储词语及其出现的次数

for word inwords:if len(word) == 1: \#单个词语不计算在内

continue

else:

counts\[word\]= counts.get(word, 0) + 1 \#遍历所有词语，每出现一次其对应的值加 1

items= list(counts.items())\#将键值对转换成列表

items.sort(key=lambda x: x\[1\], reverse=True) \#根据词语出现的次数进行从大到小排序

for i in range(15):

word, count=items\[i\]print("\{0:<5\}\{1:>5\}".format(word, count))

发表评论取消回复

表情：

评论列表（有 0 条评论，211人围观）

还没有评论，来说两句吧...

相关阅读

相关 MapReduce - 词频统计

统计一个文本的词频 package Test01; import org.apache.hadoop.conf.Configuration;...

布满荆棘的人生/ 2024年04月17日 23:15/ 0 赞/ 95 阅读

相关 hadoop 词频统计

1)先写words文件 ![20180425155914434][]![Image 1][]![Image 1][] 2)再将words上传到hdfs中，可以直接运行

悠悠/ 2024年02月18日 19:51/ 0 赞/ 25 阅读

相关利用Python及第三方库进行词频统计工作

jieba（结巴）是Python的一个第三方库，用于中文分词，它有以下三种特性：支持 3 种分词模式：精确模式、全模式、搜索引擎模式支持繁体分词支持自

谁借莪１个温暖的怀抱￠/ 2023年02月18日 08:16/ 0 赞/ 147 阅读

相关词频统计之《三国演义》

描述：‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪

淩亂°似流年/ 2022年11月16日 01:44/ 0 赞/ 244 阅读

相关 jieba库词频统计_运用jieba库进行词频统计

Python第三方库jieba(中文分词) 一、概述 jieba是优秀的中文分词第三方库 \- 中文文本需要通过分词获得单个的词语 \- jieba是优秀的中文分词第三

古城微笑少年丶/ 2022年11月05日 00:45/ 0 赞/ 212 阅读

相关中文词频统计

中文词频统计 -------------------- 这个作业的要求来自于：[https://edu.cnblogs.com/campus/gzcc/GZCC-16

小鱼儿/ 2022年01月12日 13:23/ 0 赞/ 401 阅读

相关 jieba库词频统计

一、jieba 库简介 (1) jieba 库的分词原理是利用一个中文词库，将待分词的内容与分词词库进行比对，通过图结构和动态规划方法找到最大概率的词组；除此之外，ji

红太狼/ 2022年01月07日 00:43/ 0 赞/ 318 阅读

相关中文词频统计

本次作业的要求来自于：[https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773][https_edu.cnbl

浅浅的花香味﹌/ 2021年12月20日 20:39/ 0 赞/ 329 阅读

相关中文词频统计

作业要求来自： [https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2773][https_edu.cnblogs

柔光的暖阳◎/ 2021年12月17日 08:37/ 0 赞/ 278 阅读

相关 Python学习笔记--Jieba库文件词频统计

今天介绍一下Python中第三方库-Jieba库的使用有时候我们是需要对文本中的单词的频率进行统计的常规的做法单词出现频率的统计将文本进行处理

一时失言乱红尘/ 2021年09月28日 23:06/ 0 赞/ 427 阅读