我是靠谱客的博主 超帅超短裙,最近开发中收集的这篇文章主要介绍自然语言处理中的一些概念,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

一、概念

1. 语言学方面

     语法学:研究句子结构成分之间的相互关系和组成句子序列的规则。

     语义学:研究如何从一个语句中词的意义,以及这些词在该语句中句法结构中的作用来推导出该语句的意义。

     语用学:研究不同上下文中语句的应用,以及上下文对语句理解所产生的影响。

2. 信息论方面

     相对熵(简称KL距离):衡量两个相对随机分布的差距。

     交叉熵:衡量估计模型与真实概率分布之间的差异情况。

     困混度:代替交叉熵衡量语言模型的好坏。

     混乱度:熵越大,混乱度越高,说明分布越统一。

     噪声信道模型:目标是优化噪声信道中信号传输的吞吐量和准确率,输出以一定概率依赖于输入。

3. 概率论方面

      涉及到概率、极大似然估计、条件概率、贝叶斯法则、随机变量、二项分布、联合和条件概率分布、贝叶斯决策理论、期望和方差等等。

4. 其他

     信息抽取:把信息从不同文档中转换成数据库记录的系统,提取指定信息而不是查找。

     信息检索:只找出满足检索条件的整片文档或段落,而后人必须阅读去查找(由人阅读、理解、提取)。

        附:信息抽取和信息检索的区别:

               功能不同,前者得到的是文档列表,后者直接获得事实信息;

               处理技术不同:前者用统计和关键词匹配的方法,后者使用自然语言处理相关技术,分析处理句子篇章。

               使用领域不同:前者与领域无关的,任何领域均使用;后者是领域相关的,只能抽取系统预先设定的有限种

        类的事实信息。

二、分类

1.  语料库

     按内容构成和目的划分:异质的和同质的、系统的和专用的

     按语言种类分:单语的、多语的

     其他:平衡语料库和平行语料库、共时语料库和历时语料库

2. 汉语分词常见歧义

     交叉歧义:AB||C  或 A||BC

     组合歧义

3. 模型分类

    基于统计的:

           布尔模型:自动生成布尔表达式,共现频率高用AND。

           扩展模型:比较文档索引项和表达式相似度

           向量空间模型:考虑项的选取和权重评价方法。

           概率模型

   基于语义的:

          潜在语义索引模型、神经网络

   基于集合理论的:

         布尔模型、扩展模型、基于模糊集的模型

   基于代数理论:

         空间向量模型、潜在语义索引模型

   基于概率统计理论的:

         二元独立模型、推理网络模型、信度网络模型(指文档对检索的覆盖程度)、贝叶斯网络模型

三、方法总结

1. 自然语言处理的方法

    基于规则的方法:形式语言、语法理论、词法理论、推理方法等。(理性主义流派:基于chomsky的语言原则)

    基于统计的方法:语言模型、HMM、机器学习、搜索算法等。(经验主义流派:基于shannon的信息论)

2. 汉语自动分词方法

    有词典切分:最大匹配法(正向、逆向、双向)、最少分词法(也叫最短路径法)

    无词典切分

    基于规则的方法

    基于统计的方法

3. 文本分类的方法

     基于统计的:朴素贝叶斯、KNN、类中心向量、回归模型、支持向量机、最大熵。

     基于连接的:人工神经网络

     基于规则的:决策树、关联规则

4. 向量空间模型中的特征选择方法

    文档频度DF、信息增益IG、互信息MI、卡方统计量等。

5. 数据平滑(“劫富劫贫”)的方法

     加一法、减值法、Good-Turing估计、Back-off(后备/后退)方法、绝对减值法、线性减值法、删除插值法。

6. 词义消歧方法

    基于互信息、基于贝叶斯判别、基于词典释义、基于义类词典、基于判定表。

7. 句法分析方法

      传统非概率方法和概率方法、完全句法分析和部分句法分析、自顶向下分析(基于预测)和自底向上(基于归约)分析、确定性和非确定性分析等。

8. 文本聚类的方法

  (1)基于划分的:通过迭代把数据对象划分到不同的簇中,以求目标函数最小化,从而使生成的簇尽可能的紧凑和独立。(局部最优,改进:调整K,调整初始聚类中心,用类核代替类心)。

         K-means、K中心点算法

  (2)基于层次的:进行层次分解。

           层次聚类:递归实现

          会聚层次聚类:设定相似度函数(一般用文本向量的余弦相似度),重复合并最相似的类别,合并过程成层次结构。

          会聚聚类:以每个样本独自一类开始,迭代合并到越来越大的类中。

          分裂聚类 :将所有样本不断划分到类别中,不需要实现判定类别,需要终止条件。

          平均连通凝聚聚类:又分为单连通、全连通、两者折中。

  (3)基于密度的:只要临近区域的密度超过一定的阈值,就继续聚类,可过滤噪声和孤立点,发现任意形状的类。

  (4)基于网格的:将样本空间量化为有限数目的单元,形成一个网络结构,在其上进行聚类操作。

  (5)基于模型的:为每个类假定一个模型,寻找数据对给定模型的最佳拟合。

9. 相似度计算方法

    最近成员的相似度:sim((i,j),k)=max(sim(i,k),sim(j,k))

    最远成员的相似度:sim((i,j),k)=min(sim(i,k),sim(j,k))

    成员间平均相似度

最后

以上就是超帅超短裙为你收集整理的自然语言处理中的一些概念的全部内容,希望文章能够帮你解决自然语言处理中的一些概念所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(35)

评论列表共有 0 条评论

立即
投稿
返回
顶部