概述
从这个月开始,进入NLP方向了,因此,系统了看了一遍《自然语言处理综论》,对NLP做了点系统性的了解,后面抽时间一个一个业务或者方向进行实现学习。这里主要是入门的认识,因此,大多数不涉及每个业务应用的最佳实现,比如基本没有深度学习层面的(因为那本书只总结了2009年之前的),不过有了这个基础,每个业务应用,可以针对性深入了解,作为一个大纲吧。
参考:https://www.jianshu.com/p/ee484fd1c6d8
NLP是什么呢?
1.语言是生物同类之间由于沟通需要而制定的具有统一编码解码标准的声音(图像)指令。包含手势、表情、语音等肢体语言,文字是显像符号。
2.自然语言通常是指一种自然地随文化演化的语言。例如英语、汉语、日语等。有别于人造语言,例如世界语、编程语言等。
3.自然语言处理包括自然语言理解和自然语言生成。自然语言理解是将自然语言变成计算机能够理解的语言,及非结构化文本转变为结构化信息。
4.NLP的 四大经典“AI 完全 ” 难题:问答、复述、文摘、翻译,只要解决其中一个,另外三个就都解决了。问答就是让机器人很开放的回答你提的各种各样问题,就像真人一样;复述是让机器用另外一种方式表达出来;文摘就是告诉你一篇很长的文章,让你写一个100字的文摘,把它做出来是非常难做的;翻译也是很困难的,英语思维方式和中文思维方式转换过来,中间会涉及到很多复杂的问题。
NLP算法归类整理
下面对我们的算法做一些比较简单的举例。
1.词法分析(分词、词性、实体):
–算法:基于Bi-LSTM-CRF算法体系,以及丰富的多领域词表
–应用:优酷、YunOS、蚂蚁金服、推荐算法、资讯搜索等
2.句法分析(依存句法分析、成分句法分析):
–算法:Shift-reduce,graph-based,Bi-LSTM
–新闻领域、商品评价、商品标题、搜索Query
–应用:资讯搜索、评价情感分析
3.情感分析(情感对象、情感属性、情感属性关联):
–算法:情感词典挖掘,属性级、句子级、篇章级情感分析
–应用:商品评价、商品问答、品牌舆情、互联网舆情
4.句子生成(句子可控改写、句子压缩):
–算法:Beam Search、Seq2Seq+Attention
–应用:商品标题压缩,资讯标题改写,PUSH消息改写
5.句子相似度(浅层相似度、语义相似度):
–算法:Edit Distance,Word2Vec,DSSM
–应用:问大家相似问题、商品重发检测、影视作品相似等
6.文本分类/聚类(垃圾防控、信息聚合):
–算法:ME,SVM,FastText
–应用:商品类目预测、问答意图分析、文本垃圾过滤、舆情聚类、名片OCR后语义识别等
7.文本表示(词向量、句子向量、篇章向量、Seq2Seq):
–Word2Vec、LSTM、DSSM、Seq2Seq为基础进行深入研究
8.知识库
–数据规模:电商同义词,通用同义词,电商上下位,通用上下位,领域词库(电商词、娱乐领域词、通用实体词),情感词库
–挖掘算法:bootstrapping,click-through mining,word2vec,k-means,CRF
–应用:语义归一、语义扩展、Query理解、意图理解、情感分析
9.语料库
–分词、词性标注数据,依存句法标注数据
上面这些,应该是阿里推出的应用介绍。我决定以后每个问题,都实现一次。。。
下面是我整理的书的笔记,好像也没啥用。留着吧。
最后
以上就是刻苦雪糕为你收集整理的系统学习NLP(三)--NLP入门综述的全部内容,希望文章能够帮你解决系统学习NLP(三)--NLP入门综述所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复