基于规则的中文分词方法

谁借莪１个温暖的怀抱￠ 2023-08-17 17:05 103阅读 0赞

## 前记 ##

目前，常见的中文分词方法可以分为三类：

1.  **基于字典、词库匹配的分词方法(基于规则)。**这种方法是将待分的句子与一个充分大的词典中的词语进行匹配。常用的有：正向最大匹配，逆向最大匹配，最少切分法。实际应用中，将机械分词作为初分手段，利用语言信息提高切分准确率。优先识别具有明显特征的词，以这些词为断点，将原字符串分为较小字符串再机械匹配，以减少匹配错误率，或将分词与词类标注结合。
2.  **基于词频度统计的分词方法（基于统计）。**相邻的字同时出现的次数越多，越有可能构成一个词语，对语料中的字组频度进行统计，基于词的频度统计的分词方法是一种全切分方法。这种方法的代表是jieba分词工具。
3.  **基于知识理解的分词方法。**该方法主要基于句法、语法分析，并结合语义分析，通过对上下文内容所提供信息的分析对词进行定界，它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。这种分词方式是现在需要攻克的难点。

根据前面的描述可知，在基于规则进行匹配的时候，我们需要建立一个非常庞大的词典，这样才可能让分词结果变得更加的精确，这个是基于规则分词的缺点。但是基于规则分词效果好是其优点，所以一般情况下，将基于规则的分词方式作为初分的话会比较好。

### 基于规则的分词方式的要求 ###

既然存存在许许多多的分词方式，我们的前人也探究出了最优的分词方式，最优的分词方式往往是基于以下的规则来体现的：

1.  **颗粒度越大越好**。用于进行语义分析的文本分词，要求分词结果的颗粒度越大，即单词的字数越多，所能表示的含义越确切。
2.  **切分结果中非词典词越少越好，单字字典词数越少越好。**这里的“非词典词”就是不包含在词典中的单字，而“单字字典词”指的是可以独立运用的单字。
3.  **总体词数越少越好。**在相同字数的情况下，总词数越少，说明语义单元越少，那么相对的单个语义单元的权重会越大，因此准确性会越高。

**正向最大匹配**

从左到右，逐步去掉右部（底部）的字进行新一轮匹配

**逆向最大匹配**

从右到左，逐步去掉左部（底部）的字进行新一轮匹配

**双向最大匹配法**

我们可以想到，正向最大匹配和逆向最大匹配都有其优点和缺点，这将往往造成一些不可预料的事。我们想要减少这种损失，于是提出了双向最大匹配法。双向最大匹配法就是选择最优的正向匹配或者是逆向匹配。

2 种算法都切一遍，然后根据大颗粒度词越多越好，非词典词和单字词越少越好的原则，选取其中一种分词结果输出。

## 基于规则的匹配方式示例 ##

首先假设我们的dict中有如下内容：

研究
    研究生
    生命
    命
    的
    起源

假定最大匹配字数设定为5，现在我们要将 **研究生命的起源** 这一句话进行分词。

### **正向最大匹配过程** ###