概述
一个规范的数据科学项目必须起始于问题的确定,我们首先必须明确问题是什么,然后根据问题制定目标,然后才能设计和执行后续步骤。
问题和目标都涉及两个层面:
①用户层面
现实中的具体问题
针对用户的具体问题,我们应该做好充足的背景调查,然后制定出相应的用户层面的目标。
案例一:某银行对他们的不良贷款率不满意
????希望降低不良贷款
案例二:某医疗机构对于某种疾病的早期诊断和预警不满意
????认为在例行的紧急医护手段后死亡率依然太高,希望能通过提前预警降低死亡率
案例三:某个汽车销售门店对他们过去三个月的销售业绩不满意
????想要找到原因并作出改善
②数据科学层面
现实问题的抽象化
从数据科学角度,我们可以把用户层的任务抽象成:
分类,关联化,预测,特征提取,排名或打分,聚类…
分类:是指对于给定的数据,依据一定的规则进行两个或两个以上的类别划分,获得的输出是针对输入的数据所分配的类别标签。
预测:是指基于已知数据对将来状态作出估计或判断。预测的结果是连续的数量值或类别标签。
例:基于以往的用户行为数据,估计用户对某个将要投放的广告实施点击的概率
例:依据以往的天气数据,估计未来7天的天气
例:依据父母的身高预测孩子成年时的身高
打分或排名:对于实体的某种属性或响应进行数量化描述或进行排序。
例:某单位根据员工的行为和业绩数据,对前100名员工进行奖励
排名和打分最简单的是依据单一属性,但是现实生活中依据多个属性的情况也越来越普遍。
关联化/去关联化:在实体的众多属性特征中,寻找有相互关联特征以便相互替代,从而实现特征的相互“解释”或数据降维;而对于非关联的特征则需予以保留以实现对样本的全面描述。
例:某网在其用户的众多特征中,找到与其年消费额最相关的或最不相关的特征
例:根据用户对电影的标签式评价,找到与票房最相关或无关的因素
特征提取:基于实体的众多特征,构造最反映目标的,或最能指示某种分类的复合特征。
聚类:指根据样本间的相似度将样本分组。
案例一:案例一:某银行对他们的不良贷款率不满意
用户层面????希望降低不良贷款
数据科学层面????不良贷款率高说明很多实际的“高风险客户”未被鉴别出来,所以我们首先应该识别出“高风险客户”,这样问题就被抽象化为对贷款申请客户进行“普通客户”/“高风险客户”二分类的问题。我们就要考察现阶段银行对“高风险客户”的识别率是多少,并设定我们的目标。
案例二:某医疗机构对于某种疾病的早期诊断和预警不满意
用户层面????认为在例行的紧急医护手段后死亡率依然太高,希望能通过提前预警降低死亡率
数据科学层面????这很明显在数据科学层面是一个预测问题,那么我们需要了解目前的方法是在什么时间发现病人有危险的?我们需要将这个预警时刻提前多少,就能达到降低死亡率的目标?
案例三:某个汽车销售门店对他们过去三个月的销售业绩不满意
用户层面????想要找到原因并作出改善
数据科学层面????这是一个关联化问题,那么我们能找出这些因素与业绩之间的相互作用表达式吗?找到后的话,做怎样的调整能有望实现销售业绩的目标呢?
此文章为学习完中国大学慕课中南京大学的探索数据的奥秘课程第一讲后所写
最后
以上就是过时大神为你收集整理的数据科学项目(二)之明确问题及确立目标的全部内容,希望文章能够帮你解决数据科学项目(二)之明确问题及确立目标所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复