概述
分享一下鹅厂数据分析师的 wisehuang 的干货经验。
数据分析的下限,取决于逻辑归纳。与其说提高分析质量,不如说提升逻辑归纳能力。
逻辑归纳,需要拥有良好的逻辑思维,并结合领域知识形成该领域的分析方法。而领域方法,进一步归纳则能够成为通用了方法论。
关于数据分析,本文将从逻辑思维和分析方法2个角度进行解读,其中分析方法会介绍数据分析前的准备以及数据如何为我们创造长期价值。
一、数据分析应有的逻辑思维
逻辑思维,是在认识事物的过程中借助概念、判断、推理等思维形式反映客观现实的理性认识过程。借助逻辑思维,能够确立执行方向,减少方向的偏移度以及分析的误差。
原始的数据并没有太多的价值,它是已经发生的事实或者结果。从中发掘价值则是数据分析的目的。
在数据分析中,其过程是与逻辑归纳相近的,过程如下:提出问题➟分析问题➟提出假设➟验证假设➟输出结论
只有具备了良好逻辑思维,才能更好的帮助我们数据分析。
认识逻辑,先从逻辑论证的三要素开始,如下图所示:
在训练自己逻辑思维时,首先要保证信息的完整性,其次才是讨论准确性。如果陈述和提问不够清晰,后续论证是没有意义的。
初步了解了逻辑,接下来将与各位分享4种思维方式以及其运用方法,分别是目标、结构化、推理、逆向思维。
01 目标思维
目标思维,作用是明确目标的定义及完整性,校准执行的方向。
从逻辑论证的要素来看,目标只是一个论点,而判断论点是否有效、正确,则需要细究其论据和论证方式。
将目标映射至三要素并进行结构化拆解,会变成我们熟悉的需求4要素,再次延伸又会变成5W2H法。
熟练运用目标思维,不仅能帮助我们分析问题,还能运用于生活的许多方面。
在陈述问题时所使用的KWIC方法,其实也是逻辑要素的延伸:1)K(KEY):核心观点2)W(Widen):扩展核心观点包含的内容3)I(Illustrate):举例说明佐证观点4)C(Conclude):总结
信息越全面,沟通的成本越低,后续的论证质量才能更高。
02 结构化思维
目标思维强调的是方向,结构化思维强调的是拆解和延伸。
在上一节中目标的拆解和延伸使用的就是结构化的思维,它能够帮助我们将无序、散乱的信息进行聚焦、归纳、分类。
2-1、问题树
问题树,是大家较为熟悉的方法,也是我们常使用的“脑图”。它是一种以树状图形来分析存在的问题及其相互关系的方法,也是逻辑树的一种类型。
在逻辑树中,每一层都是下一层的总结概括,同树干内的延伸范围相同,不同树干的延伸范围相互独立。
在使用问题树时将一个已知问题当成树干,然后根据相关问题增加树干或树枝,它能够帮助我们更全面的找到相关项。
设置第一条树干时有两种方式,自上而下以及自下而上。
自上而下其实是以终为始,通过最终的目标进行拆解;自下而上则常见于头脑风暴,当缺少拆解思路时,我们可以将信息完全罗列,并对其进行归类逐层向上聚合。
在拆解时,我们应注意树干间的平衡,假设某个树干上的树枝过多或过长,其上层的拆解维度可能是不正确的。
2-2、公式法及过程法
公式法,是问题树的一种延伸。
公式在横向表示时,我们也称为金字塔原理。
在逻辑树的使用场景下,公式法不太关注细分场景以及整体漏斗。在进行细化分析时结合场景、操作流程,对公式进行进一步的细化。
在结合过程法时,须注意的点是完全穷举。
举个例子:在活动中分析成交时,会使用访问人数、点击购买按钮人数、成交人数去分析漏斗。但漏斗数据往往是不完整的,这会影响推断的准确性。
结合场景、操作流程并输出公式进行数据分析,会比漏斗更为直观。
以下载app后用户的注册流程为例,通过上图,可以拆解出以下公式:
a、app注册人数=手机号注册人数+微信注册人数
b、微信注册人数=进入注册页面人数+浏览其他页面引流进入人数-进入注册页面人数*跳失率-登录人数-点击手机号登录注册人数
c、手机号注册人数=进入注册页面人数+浏览其他页面引流进入人数-进入注册页面人数*跳失率-登录人数-点击微信登录注册人数-进入手机号登录页面人数*跳失率-输入手机号未获取验证码人数-获取验证码未输入人数-输入验证码未登录人数
公式罗列清楚后,代入数据就能够了解是哪个数据和我们的预期不同,然后再根据数据优化我们的交互。
2-3、二分法及矩阵法
这两种结构化方式,其实不太适合用于数据分析,但能够帮助我们梳理思路便于全局思考。
二分法不适用于数据分析的原因是,世界不是非黑即白的,它很难将某个数据指标的值枚举完毕。
而矩阵法所呈现的是结果数据,难以细化。
以时间管理中的四象限法为例:
四个象限能够很好的用于任务分类,关于“重要”和“紧急”的程度,我们也可以使用坐标轴的值进行标记,但如果要细究哪个元素影响了”重要“和”紧急“的值,矩阵法就难以承载了。
03 推理思维
确认论点,结构化论据,下一步是论证。在论证中运用推理思维能够帮助我们迅速找到问题的异同点,从而发现它们的规律。
推理主要使用的方法是归纳、演绎、类比法,而在推理过程中还贯穿着对因果的辩证。
3-1、归纳法
归纳法,指从特殊(部分样本)到一般(全量样本)的过程,通俗的说是从个别的经验归纳出普遍规律的方法。它更偏感性思维,其推理方式不够严谨,常用于开拓思路。
在产品工作中我们会遇见许多使用归纳法的情景,如:“很多用户都需要这个功能,所以我们应该尽快实现。”
通过归纳法拆解后如下图所示:
这实质上是以偏概全的方法,一旦有一个用户不满足这个前提,这个结论就无法成立。
这里并不是说如果有用户不需要这个功能需求就不承接了,而是要增加更多的衡量维度,如样本数量、样本占比、投入产出比等。
在输出结论之前需要判断样本是否足够有代表性,判断是必然事件还是随机事件。
这也是为什么数据分析需要长时间的收集样本并观察数据,样本量太小会使其代表性不足,观察周期太短会被数据的波动所迷惑,很容易让我们做出错误的判断。
3-2、演绎法
演绎法则与归纳法相反,是从既有经证实的普遍性结论,推导出个别性结论的一种方法,常见的表现形式是逻辑三段论。
逻辑三段论的格式为:大前提、小前提、结论。
假设大前提为真,小前提为真,那结论一定为真。演绎法追求的是前后一致,不自相矛盾,但大部分人都倒在了第一步,即大前提本身是不成立的。
不成立的原因是,大前提并非经证实的普遍性结论,而是通过归纳法输出的结论。要避开归纳法的陷阱,我们则需要对其因果进行辩证。
3-3、因果关系分析法
因果辩证,同时适用于演绎和归纳法,它们都是由因及果的过程。
近期互联网保险的营销活动由于监管原因,无法使用现金及优惠券奖品促进成交,一定程度上减少了活动的数量。
我们试着拆解出可能的因果关系:
拆解完毕后先不进行辩证,而是先对因果关系进行枚举:
枚举完毕后,辩证时提问3个问题:1)原因是否真实?2)结果是否真实3)这个原因一定会引起这个结果吗?是否有其他的原因?
在上述的案例中假设原因和结果都为真,套入第3点做出以下提问:1)使用现金及优惠券奖品,一定会使成交效果更好吗,是否有其他的方式?2)不使用这2种奖品,活动一定不能做吗,是否有其他的奖品?3)活动没法做,一定不能促进成交吗,是否有其他的方式?
看到这里,我们会发现这些原因只是结果的必要不充分条件。
在推理中,论证完毕也不应盖棺定论。
我们应先对结论提出假设,并设计实验或采取其他的手段验证假设,最终验证后的结果才是真正的结论。
04 逆向思维法”反过来想,总是反过来想。“— — 查理·芒格
逆向思维,同时具有聚焦和发散两种作用。
聚焦,是以终为始,问题树中的“自上而下”拆解是其表现形式之一。
发散,是因为从正向思考变为逆向思考,思考习惯的改变能够开拓我们的思路,并帮助我们补全逻辑。
在数据分析中,我们能够怎么使用逆向思维呢?
个人总结的逆向方法如下:1)主宾反转正向:用户购买商品数量提升了,为什么?逆向:商品被用户购买的数量提升了,为什么?
从用户出发并没有错误,从商品出发能帮助我们补全分析的维度。
2)谓语反转
正向:活跃度降低了,分析用户进入活动入口逆向:活跃度降低了,分析用户的跳出原因
同样是活跃度降低,”进入“这个词会从入口出发,分析其流量情况。从”跳出“出发,则会从交互、设计层面出发分析。
3)次序反转
正向:引导用户成交,捐款后获得奖品
逆向:给予用户奖品后,引导用户成交
这里的逆向主要是为了开拓思路,并不是说要直接给予用户奖品。在开拓思路后进一步延伸,方案可以调整为,给予用户部分奖品,成交后再给予另一部分。
小结
校正方向,使用目标思维;分解问题和提出假设,使用结构化思维;逻辑推理用于论证,而逆向思维则用于补全我们的逻辑。
良好的逻辑思维,结合领域知识能够帮助我们快速形成不同领域的方法,并解决问题。
二、数据分析的方法
01 数据分析前的准备
数据分析前的准备过程,在我看来比实际的分析更为重要。
假设目标是错的,我们就不应该执行。而目标不同,分析类型和分析内容也不同,同时执行多个方向,很容易使自己陷入混乱。
1-1、分清楚目标和指标
数据分析,能帮助我们了解业务运行状况,并从中发现问题、优化问题。其次,还能够帮助洞察下一个增长点。
但数据分析的意义,往往在数据产生之前。我们应围绕产品目标,进行产品设计以及运营策划。如果最开始的目标及指标设置错误,后续的工作将难以为继。
目标是结果,而指标是对结果分拆的具体要求,是对目标的衡量。
假设我们的目标是提升年度成交金额,那衡量这个目标的方法是什么呢?
根据衡量的方法我们才能定向的设置调整产品设计及运营策略。如果缺少可衡量目标的单位和方法,目标会难以达成。
而围绕目标设置数据的采集方案,可以大大节省数据过滤和清洗的时间。
甚至于在明确指标后再最开始就设置好分析模型,通过监测模型中的数据情况更及时的发现问题,做出更高质、高效的决策。
1-2、辨别指标的目的
辨别了目标和指标,下一步则是运用结构化思维进行拆解、延伸。
在拆解之前,需要对自己提问:拆解出的指标目的是什么?根据目的我们才能有倾向性的分析。
根据指标目的,可以分为结果指标、过程指标以及观察指标。
结果指标用于衡量目标,过程指标用于体现如何完成。观察指标则指的受影响指标,其是否会受到自变量(结果指标)的影响,导致上升或下降。
在上图中,基于成交订单数,设置过程指标为订单平均金额及商品分布能帮助我们了解完成的方式。
而观察指标的设置,是为了跳出框架思考。
上图的用户付费率,可以监测成交订单数上升,是否带动用户付费率的上升,从而判断是局部还是整体上升;而成交深度及ARPU/LTV则可以帮助我们考察下一个增长点是什么。
在设置结果指标时,除了核心指标,还应辅以制衡性指标,它的目的是希望核心指标完成的更为健康。
核心指标和制衡性指标所延展的过程、观察指标是不同的。
1-3、确认分析类型完成了目标和指标的设置,接下来是对每个指标进行细化分析,分析类型包含:描述性分析、预测性分析和规范性分析。类型不同,作用也不同。
1)描述性分析表现形式:数据报表
数据报表能够帮助我们描述事件发展的情况,但很难解释某种结果发生的原因和未来可能的趋势。
它更偏向结果性的描述,此前的结果对此后是不具备太多参考意义的。
2)预测性分析表现形式:用户相似度及物品相似度计算、用户购买饱和度、用户成交影响因子
预测性分析可以理解为对结果和变量的关系进行预测的过程,包含相似度、相关性分析、回归分析等。
相似度多用于推荐算法,通过计算用户的相似度和商品相似度从而推荐给用户。而相关分析用于预测变量的关联性,如用户的成交会受什么因素影响。
3)实证性分析及规范性分析
表现形式:A/B实验
实证性分析,指是什么,偏向于客观;规范性分析指应当做什么,偏向于主观。
在实际使用过程,上述的4种分析类型常常会被混合使用,混合使用时应明确不同类型我们应采取的分析维度。
数据分析是有顺承关系的,先采集事实,再根据事实或者预测,提出我们的假设。逐步灰度地验证假设,最终才输出我们的结论。
不能将主观猜测强加于事实之上,已经发生的结果并不一定是未来的结果
02 数据分析如何带来长期价值
学习了方法,做好了准备,终于进入了分析的环节。
笔者此前面向的数据分析,常常是“一锤子买卖”,花了很大的力气采集数据却没有了下文。
为了使有用功更多,下文将从用户和收益2个维度分享数据如何为我们沉淀长期价值。
2-1、了解我们的用户
这一步是为了让我们知道完成指标的用户是谁,常常以产品的会员体系作为切入点。会员体系越清晰,分析效果越好。
本节将以电商产品为例,和各位分享如何基于用户的延伸分析。
1)基础信息
基础信息,指用户本身的属性。
身份特征,可以从自然属性、社会属性向下细分,包含用户的性别、年龄、职业、教育等。
渠道属性,指用户的注册时间、注册平台、注册来源等。
2)决策类型
决策类型,主要分为决策周期、品类偏好、促销偏好、对象偏好,这是用户分析中常常被忽略的一方面。
决策周期中的首次访问,指的首次触及该商品的时间。结合次数、时长以及成交时间,从而了解用户的决策周期。
品类偏好,结合品牌和历史成交单数,能够帮助我们获悉品牌、价格综合对用户的影响。
而成交品类、商品、单数则是帮助我们理解其品类购买深度及路径,用于进行关联推荐和评判用户的价值。
促销偏好,结合品类和折扣金额了解用户的敏感度,能更好的提高其转化率。对象偏好,同样是了解购买深度及路径,不过维度不同。
在用户层面的分析,此前接触的一些朋友都非常热衷于使用RFM模型,在使用过程中也应“因地制宜”。
3)购买路径
品类深度、对象深度是影响决策类型的因子,当它们在购买路径时则聚焦于次序。
根据次序,制定运营的发力点,再遵循用户的购买路径制定转化路径。
在用户分布相对稳定的前提下,应顺从用户的购买规律而非倾力于另一条主线。
一专多强的前提是专,只有聚焦优势品类或主题建立了优势,才能为其他的方向供应炮弹。
4)增长观察
前面解决的问题是:他是谁,买什么以及怎么买。最后一点,则是增长观察。
购买路径聚焦于次序,增长观察聚焦于深度。购买的次序是运营的主线,购买的深度用于精细化运营。
了解用户在品类和对象的购买深度,再辅以ARPU与LTV的比对,从用户的剩余潜力寻找平台增长点的方式。
2-2、建立你的用户模型
了解用户的下一步,是建立用户模型。
在一次交流会上,前辈阿翘对我提问:“你所负责的产品,用户画像是怎么样的?”
当时我把平台用户的地域、年龄、性别等分布介绍了一番。紧接着他提问:“根据这样的画像你能够做什么呢?”
再后来,我才学会了把数据聚合成特征,把特征集合成模型。
基于对用户的认识建立模型,以上一小节的决策模型为例。
将决策类型、品类偏好、对象偏好、促销偏好4个因子的关联,并辅以用户的基础信息进行组合。
如:“精打细算、专注大牌、疼爱孩子的母亲”。
这样一来冰冷的数据也被赋予了情感化的表达,无论是产品设计、交互设计、产品运营都会变得容易的多。
建立起用户模型,才能够更好地进行情感化设计、精细化运营。
2-3、分析与收益相关的行为
收益,常用成交或ROI进行衡量。那我们怎么判断与收益相关的行为呢?有关程度又有多高?
判断相关性及其程度时,使用的方法是:相关性分析。
相关性分析主要用于:a、判断两个或多个变量之间的统计学关联;b、如果存在关联,进一步分析关联强度和方向。
根据数据的类型不同,所采取分析方法不同。
关于收益及影响收益的行为,二者都属于无序分类变量,此类数据的分析方法是卡方校验。
卡方检验,用于统计样本的实际观测值与理论推断值之间的偏离程度,如果卡方值越大,实际观测值与理论推断值偏差程度越大。
反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
在实际分析时,会先进行假设,并通过计算判定其假设成立的概率从而反推其不成立的概率。
以判定关注与成交行为是否有关为例,介绍卡方校验。
1)提出假设假设:关注与成交无关
2)计算实际观测数据及理论推测数据将关注及成交的相关数据进行统计,可得出下表:
根据表格,可计算出综合的成交率等于58.3%。
假设关注与成交行为无关,成交率应不随关注行为变化而变化,或数据抖动较小。
将观测的成交率代入原表,并得出理论推断值。
完成了这一步,就可以进行卡方检验的计算了。
3)卡方校验计算
继续代入公式
当我们计算出卡方值时,可以初步判定由于卡方值较大,实际观测值与理论推断值差异较为明显,原假设关注与成交无关成立的可能性是比较小的。
4)计算自由度及P值而到了判定可能性具体的程度,则是根据P值(用于判断判定假设检验结果)进行校验,P值越小,原假设关注与成交无关的概率也越小。
由于其自由度等于1,结合卡方值再查询卡方分布表可得P<0.01,所以原假设成立的可能也越小,即关注与成交有关的概率非常大。
在实际使用时,同样的也须兼顾样本和观测时间周期,样本包含准确性和数量,观测时间周期则用于分辨其抖动性。这2者较为基础也就不过多描述了。
相关性分析,用于代表相关程度,只能说明有关但并不能说明因果性。
对变量之间的依赖关系进行定量关系及因果关系的研究,我们还会使用回归分析进行计算。但由于计算方式并非本文的重心,在此也不过多的赘述了。
本小节,也有较多的概念并未在本文提及,此部分将附在文末。
小结
个人认为数学方法是非常重要的领域知识,很多时候不是不会数据分析,而是不知道使用什么方法分析。因为不曾见过,所以也未曾往陌生的方向思考。
遇到这样的问题时,先运用逆向思维确认分析目标,其次再进行结构化的拆解,再逐层学习分析时应该使用的方法。
若时间宽裕,还是建议阅读统计学相关的书籍。耐下性子阅读,工具书的收益会比大部分同领域的文章都大。
最后
以上就是矮小猫咪为你收集整理的如何迅速成长成为一名数据分析师(都是干货)?的全部内容,希望文章能够帮你解决如何迅速成长成为一名数据分析师(都是干货)?所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复