概述
文章系列:
python学习 文本特征提取(一) DictVectorizer shuihupo
python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理
python学习文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试
DictVectorizer对使用字典储存的数据进行特征提取与向量化
python3
处理字典数据
# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。
measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
# 从sklearn.feature_extraction 导入 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
# 初始化DictVectorizer特征抽取器
vec = DictVectorizer()
# 输出转化之后的特征矩阵。
print(vec.fit_transform(measurements).toarray())
# 输出各个维度的特征含义。
print (vec.get_feature_names())
# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。
measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
# 从sklearn.feature_extraction 导入 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
# 初始化DictVectorizer特征抽取器
vec = DictVectorizer()
# 输出转化之后的特征矩阵。
print(vec.fit_transform(measurements).toarray())
# 输出各个维度的特征含义。
print (vec.get_feature_names())
输出转化之后的特征矩阵。
[[ 1. 0. 0. 33.]
[ 0. 1. 0. 12.]
[ 0. 0. 1. 18.]]
即对源数据中无法直接计算处理的符号化文字,进行特征抽取。
对名义型变量 无法直接数字化表示,采取同逻辑回归相同的0/1虚拟编码,进行向量化;而数值型变量,维持原始值。
输出各个维度的特征含义。
[‘city=Dubai’, ‘city=London’, ‘city=San Fransisco’, ‘temperature’]
参考
网络资源及书本《python 机器学习实战——从零开始通往Kaggle竞赛之路》第三章
代码名称:Chapter_3.1.1.1.ipynb
整书百度网盘地址:https://pan.baidu.com/s/1hpVqUTngF1r7qQlGUJ720g
下篇博客预告:python学习 文本特征提取(二) CountVectorizer
ps:文章在shuihupo同时发布。
最后
以上就是爱笑铃铛为你收集整理的python学习 文本特征提取(一) DictVectorizerDictVectorizer对使用字典储存的数据进行特征提取与向量化的全部内容,希望文章能够帮你解决python学习 文本特征提取(一) DictVectorizerDictVectorizer对使用字典储存的数据进行特征提取与向量化所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复