概述
from sklearn.feature_extraction.text import **
1. 向量的统计、tf-idf 的计算
考虑如下预料,三行 ⇒ 三个文档,不重复的单词共有 8 个,
corpus = ['I love you',
'You love him',
'He loves me']
from sklearn.feature_extraction.text import CountVectorizer
# 大写字母开头,显然是一个类
vectorizer = CountVectorizer()
csr_mat = vectorizer.fit_transform(corpus)
print(type(csr_mat))
# scipy.sparse.csr.csr_matrix
# 稀疏矩阵,一般而言,预料信息都是十分海量的,出于节省内存的考虑,将其作为稀疏形式存储。
print(csr_mat)
print(csr_mat.todense())
再来计算 tf-idf 的值:
from sklearn.feature_extraction.text import TfidfTransformer
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(csr_mat)
print(type(tfidf))
print(tfidf)
print(tfidf.todense())
# 最终算下来会与得到的结果有一定的不同,
# 这是因为在 sklearn 内部会做一些去停用词、平滑、正则化等的操作,
另外,需要注意的是:note that CountVectorizer discards “words” that contain only one character, such as “s”。中文也是如此,我
和 I
都不会被 CountVectorizer 当作 term。
教你成为全栈工程师(Full Stack Developer) 三十三-利用scikit-learn计算tf-idf做文本词频分析 - SharEDITor - 关注大数据技术
TF-IDF与余弦相似性的应用(一):自动提取关键词
阮老师的这篇文章,计算 idf 时取的对数是以 10 为底的对数,则蜜蜂的 tf-idf 为 201000⋅log10250/0.484≈0.0543
转载于:https://www.cnblogs.com/mtcnn/p/9423105.html
最后
以上就是懵懂路灯为你收集整理的sklearn 文本处理的全部内容,希望文章能够帮你解决sklearn 文本处理所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复