概述
目录
背景介绍:
数据探索性分析:
特征工程(时间序列特征)
背景介绍:
赛题以医疗数据挖掘为背景,要求选手使用提供的心跳信号传感器数据训练模型并完成不同心跳信号的分类的任务。
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/HeartbeatClassification
阿里天池:https://tianchi.aliyun.com/competition/entrance/531883/information
评测标准:
需提交4种不同心跳信号预测的概率,选手提交结果与实际心跳类型结果进行对比,求预测的概率与真实值差值的绝对值(越小越好)。具体计算公式如下:
针对某一个信号,若真实值为[y1,y2,y3,y4],模型预测概率值为[a1,a2,a3,a4],那么该模型的平均指标abs−sum为
例如,心跳信号为1,会通过编码转成[0,1,0,0],预测不同心跳信号概率为[0.1,0.7,0.1,0.1],那么这个预测结果的abs−sum为
数据探索性分析:
探索性数据分析(Exploratory Data Analysis,简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。
所需工具:数据科学库(pandas、numpy、scipy)、可视化库(matplotlib、seabon)
主要步骤:导入工具库 -> 载入数据集 -> 数据总览 -> 判断数据缺失和异常 -> 了解预测值的分布
导入数据后,要养成观察数据集首尾和行列的信息。
代码小结:
data.head().append(data.tail())
——观察首尾数据data.shape
——观察数据集的行列信息data.describe()
——获取数据的相关统计量(个数、平均值、方差、最小值、中位数25% 50% 75% 、以及最大值)data.info()
——获取数据类型(数据每列的type)data.isnull().sum()
——查看每列的存在nan情况
特征工程(时间序列特征)
特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。
心跳信号是时间序列数据,下图是时间构造以及时间序列构造的具体方法:
特征抽取 **Tsfresh(TimeSeries Fresh)**是一个Python第三方工具包。 它可以自动计算大量的时间序列数据的特征。此外,该包还包含了特征重要性评估、特征选择的方法,因此,不管是基于时序数据的分类问题还是回归问题,tsfresh都会是特征提取一个不错的选择。官方文档:Introduction — tsfresh 0.17.1.dev24+g860c4e1 documentation
未完待续。。。
最后
以上就是无语眼睛为你收集整理的心电图心跳分类背景介绍:数据探索性分析:特征工程(时间序列特征)的全部内容,希望文章能够帮你解决心电图心跳分类背景介绍:数据探索性分析:特征工程(时间序列特征)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复