概述
第一章 统计与数据
1.数据分析的5个W和一个H:
数据分析的第一步,明确你为什么(why,也就是目的)要分析这些数据,数据表中的每一行指代的是谁(who),涉及哪些变量(what,数据表中的列名),至少在明确认识了这三个因素之后,才能进行数据的描述和解释。此外,最好知道when(时间),where(地点)以及how(如何解决的)
2.抽样调查
抽样调查的种类:
1)简单随机抽样
每个样本有同等的机会被抽中,这样的抽样方式叫做简单随机抽样,得到的样本叫简单随机样本。
2)分层抽样
在正式抽取样本之前,通常需要把总体划分成具有共同特征的组(层),然后运用简单随机抽样方法从各层中分别抽取样本单位,最后得到整个样本。
如了解同学们对足球的某种看法,某学校男生60%,女生40%,选择100个样本,由于男女生对足球的看法不一致,使用简单随机抽样不公平,采用分层,即女生中随机抽取40人,男生中随机抽取60人。
3)整群与阶段抽样
如要用教科书中的一段话来考察阅读情况,从书中随机挑选几页,数一数其中包含了多少段话,然后据此测试。若每页都能用来考察对整本书的阅读情况,将整本书划分成一系列的群(每一页),然后抽取一些页并对这些页的所有句子都进行测试,称为整群抽样。在每个群分别代表整体的情况下,整群抽样具有无偏性。
整群抽样与分层抽样的共同点:在抽样之前先对整体进行划分;
整群抽样与分层抽样的不同点:分层抽样在分层后,再从每一层中抽取样本,队层来说是全面调查,抽样调查体现在层内样本的抽取上;整群抽样在划分后,以群为抽样对象,抽样调查体现在群的抽取上,针对群的调查属于全面调查。
阶段抽样:表示将以上几种抽样方法结合起来
4)系统抽样
将总体中的个体按照某种标识排列,然后按照相等的时间间隔抽取样本单位。
第二章 属性数据的描述分析
1.属性资料的分析要领
在描述分析属性数据时,应当遵循以下三个原则:
1)选择合适的图表。
(哪种图表适合表示哪种信息)
2)提炼出必要的信息,以便对现象进行描述。展示出原始表中看不出来的信息,使我们发现隐藏在数据背后的信息,状态以及关系。
(明确分析哪个数据,你要从数据中挖掘什么信息)
3)有助于发现数据本身的重要特征。比如采集的数据中,是否含有奇异值或者错误的值。
(通过数据分析,发现异常值所在)
2.频数分布
1)一般分布
频数分布表和频率分布表:能够说明属性中每个类别的分布情况
属性分类及其对应出现的个体数目的表格,称为频数分布。(Python 中的 value_counts 函数可直接获得)
每个属性类别的个数除以全部观察数据的数目的结果,称为频率分布
2)列联分布
知道每个属性类别的分布数目后,接着需要分析,每个属性的类别与标签的关系,如船舱的等级与生还情况是什么关系。以下表称为列联表,表示每个属性类别上,不同标签的数量分布。加入行频率和列频率和总频率。
3).条件分布
条件分布,一方面,我们分析,在生还和没有生还的条件下不同等级船票旅客的分布,此时分析行频率。即该属性类别下生的数目/生还的总人数,表示该属性该类别的数目与标签每一类数目的比值。
(除以标签的类别的数量)
另一方面,在相应的船票等级条件下,生还和没有生还的旅客的分布,此时关注列频率。如,一等舱的生还人数/一等舱的总人数。
(除以属性的数量)
4.属性图像描述
1)柱状图
可以表示属性的类别的数目以及频数
2)饼状图
3)族形柱状图与结构柱状图
最后
以上就是彪壮季节为你收集整理的统计学基础(一)----读书笔记的全部内容,希望文章能够帮你解决统计学基础(一)----读书笔记所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复