我是靠谱客的博主 坚定天空,最近开发中收集的这篇文章主要介绍信息抽取_CodingPark编程公园基本概念新词提取,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

基本概念

信息抽取是一个宽泛的概念,指的是从非结构化文本中提取结构化信息的一类技术。这类技术依然分为基于规则的正则匹配、有监督学习和无监督学习等各种实现方法。我们将使用一些简单实用的无监督学习方法。由于不需要标注语料库,所以可以利用海量的非结构化文本。

信息抽取 => 按照颗粒度从小到大的顺序,分为抽取新词、关键词、关键短语和关键句的无监督学习方法。

新词提取

概述

新词是一个相对的概念,每个人的标准都不一样,所以我们这里定义: 词典之外的词语(OOV)称作新词。

新词的提取对中文分词而言具有重要的意义,因为语料库的标注成本很高。那么如何修订领域词典呢,此时,无监督的新词提取算法就体现了现实意义。

如果文本足够大,再用通用的词典过滤掉“旧词”,就可以得到“新词”。

片段(待检测词) 外部左右搭配的丰富程度,可以用 信息熵 来衡量,
而片段内部搭配的固定程度可以用子序列的 互信息 来衡量。

代码展示

# -*- coding:utf-8 -*-
# Author:hankcs
# Date: 2018-07-30 21:03
# 《自然语言处理入门》9.1 新词提取<

最后

以上就是坚定天空为你收集整理的信息抽取_CodingPark编程公园基本概念新词提取的全部内容,希望文章能够帮你解决信息抽取_CodingPark编程公园基本概念新词提取所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(75)

评论列表共有 0 条评论

立即
投稿
返回
顶部