我是靠谱客的博主 爱笑铃铛,最近开发中收集的这篇文章主要介绍python学习 文本特征提取(一) DictVectorizerDictVectorizer对使用字典储存的数据进行特征提取与向量化,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

文章系列:

  • python学习 文本特征提取(一) DictVectorizer shuihupo

  • python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理

  • python学习文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试

DictVectorizer对使用字典储存的数据进行特征提取与向量化

python3

处理字典数据

# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。
measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
# 从sklearn.feature_extraction 导入 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
# 初始化DictVectorizer特征抽取器
vec = DictVectorizer()
# 输出转化之后的特征矩阵。
print(vec.fit_transform(measurements).toarray())
# 输出各个维度的特征含义。
print (vec.get_feature_names())
# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。
measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San Fransisco', 'temperature': 18.}]
# 从sklearn.feature_extraction 导入 DictVectorizer
from sklearn.feature_extraction import DictVectorizer
# 初始化DictVectorizer特征抽取器
vec = DictVectorizer()
# 输出转化之后的特征矩阵。
print(vec.fit_transform(measurements).toarray())
# 输出各个维度的特征含义。
print (vec.get_feature_names())

输出转化之后的特征矩阵。

[[ 1. 0. 0. 33.]
[ 0. 1. 0. 12.]
[ 0. 0. 1. 18.]]
即对源数据中无法直接计算处理的符号化文字,进行特征抽取。
对名义型变量 无法直接数字化表示,采取同逻辑回归相同的0/1虚拟编码,进行向量化;而数值型变量,维持原始值。

输出各个维度的特征含义。

[‘city=Dubai’, ‘city=London’, ‘city=San Fransisco’, ‘temperature’]

参考

网络资源及书本《python 机器学习实战——从零开始通往Kaggle竞赛之路》第三章
代码名称:Chapter_3.1.1.1.ipynb
整书百度网盘地址:https://pan.baidu.com/s/1hpVqUTngF1r7qQlGUJ720g

下篇博客预告:python学习 文本特征提取(二) CountVectorizer
ps:文章在shuihupo同时发布。

最后

以上就是爱笑铃铛为你收集整理的python学习 文本特征提取(一) DictVectorizerDictVectorizer对使用字典储存的数据进行特征提取与向量化的全部内容,希望文章能够帮你解决python学习 文本特征提取(一) DictVectorizerDictVectorizer对使用字典储存的数据进行特征提取与向量化所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(32)

评论列表共有 0 条评论

立即
投稿
返回
顶部