概述
1. 对于特征较多的DF,进行数据预处理时需要对每个特征变量进行相关处理,为了避免混乱,可以DF.info()后将输出复制到sublime,然后在sublime中针对每个特征变量进行处理方式标注
# 非python代码,只是为了展示在sublime中的效果
action_type 30697 non-null object[get dummies]
combined_shot_type 30697 non-null object[get dummies]
game_event_id 30697 non-null int64[del]
game_id 30697 non-null int64[del]
lat 30697 non-null float64[remain]
loc_x 30697 non-null int64[del]
loc_y 30697 non-null int64[del]
lon 30697 non-null float64[remain]
minutes_remaining 30697 non-null int64[process then del]
period 30697 non-null int64[remain]
playoffs 30697 non-null int64[remain]
season 30697 non-null object[get dummies]
seconds_remaining 30697 non-null int64[process then del]
shot_distance 30697 non-null int64[remain]
shot_made_flag 25697 non-null float64[tag] # 指该列为标签列
shot_type 30697 non-null object[get dummies]
shot_zone_area 30697 non-null object[del]
shot_zone_basic 30697 non-null object[del]
shot_zone_range 30697 non-null object[del]
team_id 30697 non-null int64[del]
team_name 30697 non-null object[del]
game_date 30697 non-null object[del]
matchup 30697 non-null object[del]
opponent 30697 non-null object[get dummies]
shot_id 30697 non-null int64[del]
2. 对于object类型的数据,通常可以考虑get dummies,转换成数值型数据
3. 对于一些单位不同,但是衡量同一指标的特征变量,可以通过单位换算化成同单位进行合并
4.名称、ID类特征一般直接删除
5. 对数据进行预处理后,最好将处理好的数据重新另存,保留原始数据。
最后
以上就是欣慰网络为你收集整理的【经验总结】数据预处理经验总结1的全部内容,希望文章能够帮你解决【经验总结】数据预处理经验总结1所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复