我是靠谱客的博主 眯眯眼香菇,最近开发中收集的这篇文章主要介绍python文本特征提取_机器学习:文本特征提取,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

机器学习算法往往无法直接处理文本数据,需要把文本数据转换为数值型数据,One-Hot表示把文本转换为数值的一种方法。

一,One-Hot表示

One-Hot表示是把语料库中的所有文本进行分词,把所有单词(词汇)收集起来,并对单词进行编号,构建一个词汇表(vocabulary),词汇表是一个字典结构,key是单词,value是单词的索引

vocabulary = { 'one':0,'hot':1, ...'term':n-1}

如果词汇表有n个单词构成,那么单词的索引从0开始,到n-1结束。

有了词汇表之后,就可以使用向量来表示单个词汇。每一个词汇都表示为一个由n列构成的向量,称作词向量,词向量的第0列对应词汇表(vocabulary)中的第0号索引,词向量的第1列对应词汇表(vocabulary)中的第1号索引,依次类推。

词汇向量有n列,但是只有一列的值为1,把值为1的列的索引带入到词汇表(vocabulary)中,就可以查找到该词向量表示的词汇,也就是说,对于某个单词 term,如果它出现在词汇序列中的位置为 k,那么它的向量表示就是“第 k 位为1,其他位置都为0 ”,这就是One-Hot(独热)名称的由来。

1,用One-Hot表示单词

例如,有语料库(corpus)如下:

John likes to watch movies. Mary likes movies too.</

最后

以上就是眯眯眼香菇为你收集整理的python文本特征提取_机器学习:文本特征提取的全部内容,希望文章能够帮你解决python文本特征提取_机器学习:文本特征提取所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(35)

评论列表共有 0 条评论

立即
投稿
返回
顶部