[微信机器人_04]自然语言处理简单实现

128 阅读 0 评论 85 点赞

我是靠谱客的博主能干金毛，这篇文章主要介绍[微信机器人_04]自然语言处理简单实现，现在分享给大家，希望可以做个参考。

这篇博文中将介绍奇迹蛋自然语言处理模块的实现，自然语言处理的三个关键词：分词、建库、匹配。

建库：

先来看两个对话：

问：今天吃什么答：火锅

问：今天吃面条答：不好吃

机器人要如何来记忆这两组对话呢?

1、直接存储

问题	答案
今天吃什么	火锅
今天吃面条	不好吃

这样存储当然没有问题，但是显然太土了，有没有其它的办法呢？

2、树

在存储过程中，总是希望能够去除冗余，即相同的词语能够只存储一次。很容易想到，把句子拆分成词来存储。

如图所示，每个问题都拆分成词，并以词为节点建立树。每个几点可以与一个答案（或者多个答案）关联。这样的存储方式比直接存储要精细很多，存储空间小、查找效率高。

实际建立的树结构如下：

树存储特点介绍

Ø 根节点不存储任何信息；

Ø 内部节点和叶子节点都可以与答案关联；

Ø 这棵树类似于B树的结构，即一个节点可以有N个子节点；

Ø 树的高度与一个句子中包含的词语个数有关。

分词

注意到以树来记忆对话，需要把问题进行拆分，即分词。

分词是自然语言处理里非常关键的一部分，用于把句子拆分成词，进行存储、匹配。分词的实现包含两个部分：

Ø 分词算法

即按照什么样的规则来切割句子，比如从头开始切还是从结尾开始切，有多种切割选择时如何决策等等。

Ø 知识库

知识库即一些常用的词语，分词算法依赖知识库来识别元词（即由多个汉字组成的有意义的词）。知识库是否丰富，对算法的精确度有很大的影响。

分词算法我是不太懂，这里也不做过多的描述，有兴趣可以去研究下比较有名的开源分词软件如：IK分词器等。

不懂分词算法没关系，我的目的只是得到分词的结果，“拿来主义”是程序员的优良传统，可以使用开放的API来帮咱完成分词的工作，在前面的博文提到过，我这里使用的是sina的api：http://5.tbip.sinaapp.com/api.php?str=[sentence]&type=[json]

比如在浏览器中输入

http://5.tbip.sinaapp.com/api.php?str=今天吃什么&type=json

返回json格式的结果：

[

{

"word":"u4ecau5929",

"word_tag":"132",

"index":"0"

},

{

"word":"u5403",

"word_tag":"170",

"index":"1"

},

{

"word":"u4ec0u4e48",

"word_tag":"123",

"index":"2"

}

]

匹配

匹配算法也很简单，关键是几个模糊匹配的规则。

假设数据库中记录了这样一个问题：ABCD，其中，A、B、C、D分别代表一个词语。

而可能遇到的问题有如下几种：

1. ABC

由于数据库中没有ABC对应的答案，而前几个词完全匹配，那么继续搜寻C的子节点，知道找到有答案的节点，将该答案作为ABC的答案返回。比如，记录的对话为：

问题：你在干嘛呢

答案：发呆

此时如果用户提问：你在干嘛，会匹配到“你在干嘛呢”这个问题，并获得答案“发呆”。

2. ABCD

完全匹配，不多说。

3. ABCDE

虽然前四个词完全匹配，但是多了一个E，则认为是一个新问题，不能匹配，没有答案。

4. XABC

5. XABCD

6. XABCDE

4、5、6这三种情况可分别转换为1、2、3三种情况。当发现问题的首字不匹配时，则去掉首字，重新匹配。比如，记录的对话为：

问题：今天还有火车票吗

答案：卖完了

此时如果用户提问：请问今天还有火车票吗，首词“请问”无法匹配，则去掉首词，得到新的问题今天还有火车票吗，与原问题匹配，得到答案“卖完了”。