概述
自然语言处理
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
自然语言处理研究的内容
- 机器翻译:实现一种语言到另一种语言的自动翻译。
- 自动文摘:将原文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。
- 信息检索:信息检索也称情报检索,就是利用计算机系统从海量文档中找到符合用户需要的相关文档。面向两种及两种以上语言的信息检索叫做跨语言信息检索。
- 文档分类:文档分类也称文本分类或信息分类,其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如主题或内容划分等)实现自动归类。
- 问答系统:通过计算机系统对用户提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并作出相应的回答。
- 信息过滤:通过计算机系统自动识别和过滤那些满足特定要求的文档信息。
- 信息抽取:指从文本中抽取特定的事件或事实信息,有时候又称事件抽取。
- 文本挖掘:有时又称数据挖掘,是指从文本中获取高质量文本信息的过程。
- 舆情分析
- 隐喻计算:是研究自然语言语句或篇章中隐喻修辞的理解方法。
- 文字编辑和自动校对:对文字拼写、用词,甚至语法、文档格式等进行自动检查、校对和编排。
- 作文自动评分
- 光读字符识别:通过计算机系统对印刷体或手写体等文字进行自动识别,将其转化为电子文本。
- 语音识别
- 文语转换:将文字转换成语音。
- 说话人识别/认证/验证
信息论基本概念
一、熵
其中,约定0log0=0。
熵又称为自信息,可以视为描述一个随机变量的不确定性的数量。熵最大时,随机变量最不确定。
二、联合熵与条件熵
熵率:
最后
以上就是斯文烤鸡为你收集整理的自然语言处理——基本概念自然语言处理的全部内容,希望文章能够帮你解决自然语言处理——基本概念自然语言处理所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复