概述
//读书总结
数据准备内容:
1.认识数据的特点与要求,它是以字段和记录的形式存储在数据表中,数据类型主要有字符型和数值型两大类。了解数据表的六点要求。
2.熟悉几种数据来源,学习数据导入方法与调查问卷常见的五种题型及录入格式。
数据准备----理解数据 + 数据来源
做数据分析必须要有数据,从一开始的数据收集、数据处理、数据分析都离不开数据,也要有分析工具(这里选择Excel,后面的数据处理、分析相关的操作都用它完成)。
1.理解数据:构造、种类、要求-----要清楚的认识到数据分析对数据有什么要求。
(1)数据长什么模样-----字段和记录。
例:某学期学生考试成绩表
从横向看,每一行都是同学的基本情况和成绩;从纵向看,每一列都描述了一类数据。
从数据分析的角度看这样的成绩表,它是一个典型的数据库。最上面的“姓名”、“性别”等为字段(表头),而每位同学的基本情况和成绩就构成了一条一条的数据记录(一行)。如下图:
从数据分析的角度理解字段和记录的概念:
数据需要由字段和记录共同组合而成。
· 字段:是事务或现象的某种特征。如成绩表中的“学号”、“姓名”等都是字段,在统计学中称为变量。
· 记录:是事务或现象某种特征的具体表现。比如成绩单中的“性别”可以是男或女,“总分”可以是273或230等,记录也称为数据或变量值。
(2)数据类型
最常用的数据类型有三类:数字、文字、日期,还有其他数据类型:时间、货币等。
· 查看有多少数据类型:Excel中单元格格式查看所有的数据类型。
步骤:1.选择Excel中任意一个单元格,单击鼠标右键,选择“设置单元格格式”。
2.在弹出的“设置单元格格式”对话框中,可以看到各种不同的数据类型,比如:数值、文字、日期、货币、会计专用、时间、百分比、分数、 科学计数、特殊等。
Excel这么多数据类型,最终都可归结为两大类。
· 字符型数据:不具有计算能力的文字数据类型,包括中文字符、英文字符、数字字符(非数值型)等字符。
如,成绩表中的“姓名”、“性别”、“总分”三个变量均为字符型数据。
· 数值型数据:直接使用自然数或度量单位进行计量的数值数据。
如,成绩表中的“语文”、“数学”、“英语”三科成绩汇总即得到“总分”这个字段。
对于数值型数据,可直接用算术方法进行汇总和分析,这一点是区别数据是否属于数值型数据的重要依据。
(3)数据表----由字段、记录和数据类型构成的数据表
数据分析所需要的数据表,是有一定要求的。一张数据表的制作,可以侧面反映出制作者的数据沉淀及应用水平。
数据表的设计要求
序号 | 要求 |
1 | 数据表由标题行和数据部分组成 |
2 | 第一行是表的列标题(字段名),列标题不能重复 |
3 | 第二行起是数据部分,数据部分的每一行数据称为一个记录,并且数据部分不允许出现空白行和空白列 |
4 | 数据表中不能有合并单元格存在 |
5 | 数据表与其他数据之间应该留出至少一个空白行和空白列 |
6 | 数据表需要以一维的形式存储,但是在实际操作中接触的数据往往是以二维表格的形式存在的,此时应将二维表转化为一维表的形式存储数据 |
· 一维表和二维表及有什么区别:
看到:一维表的列标签是字段,而且表中每个指标就对应一个取值;而二维表的列标签是数据:2006年、2007年、2008年, 将一维表中的所有年份真实值都放置在列标签里了。
·区分左边的二维表和右边的一维表的关键:
“维”指的是分析数据的角度,2006年、2007年、2008年,从数据的角度来说,应该都是“年份”的范畴,是描述 各省GDP的一个因素,若要换成一维表,则应该使用同一个字段,将年份单独作为列标签。
将二维表转化为一维表的操作:如何利用数据透视表进行二维表到一维表的转换。
转换过程要用到数据透视表的“数据透视表和数据透视向导”功能,采用“添加功能选项”方式,把其添加至选项卡。
二维表转换为一维表的具体操作:
①添加“数据透视表和数据透视图向导”功能:【文件】-->【选项】-->【自定义功能区】-->在“从下列位置选择命令”中选择“不在功能区中的命令”,找到“数据透视表和数据透视图向导”,选中它,在【自定义功能区】选择【主选项卡】-->【数据】选项卡下-->添加【新建组】,选中-->【添加】按钮,即可把“数据透视表和数据透视图向导”添加到“数据”主选项卡的“新建组”中。
出现图标:
②单击①刚添加好的“数据透视表和数据透视图向导”图标,弹出对话框,在数据源类型中选中“多重合并计算数据区域”-->【下一步】
数据透视表和数据透视图向导 Step1
或 使用快捷方式打开“数据透视表和数据透视图向导”:快捷键“Alt+D+P”----先按“Alt+D”,然后松开,再按“P”,即可打开“数据透视表和数据透视图向导”对话框。
③选中“创建单页字段”-->【下一步】
数据透视表和数据透视图向导 Step2a
④在“选定区域”项中选择整个二维表的数据区域“二维表!$A$1:$D$6”-->【添加】按钮-->【下一步】
数据透视表和数据透视图向导 Step2b
⑤在“数据透视表显示位置”选择“新建工作表”项-->【完成】。即可完成数据透视表的创建。
数据透视表和数据透视图向导 Step3
得到初步完成的数据透视表:
⑥在“数据透视表字段列表”窗格中,取消对“选择要添加到报表的字段”列表中的“列”和“行”字段的勾选,即将“行”“列”前面的“√”去掉。
或 用鼠标拖动法,将列标签里的“列”及行标签里的“行” 拖回至“选择要添加到报表的字段”列表中,(如上图箭头所示)。
得到经过移除“行”“列”字段整理后的数据透视表:
⑦双击上图的B4单元格(唯一的汇总数据),Excel会自动创建一个新工作表,并基于原二维表数据源生成新的一维表。
得到由数据透视表生成的一维表:
或 直接双击“初步完成的数据透视表”中的最后一个单元格E10也能达到同样的效果,最后把数据表的列标题(字段名)改为相应的字段名即可。
【关于数据透视表的具体功能等在数据分析工具处再介绍。】
2.数据来源:从哪里来---如何获取数据
获取数据的方式分为两种:导入外部数据和自己录入数据。
(1)导入数据----导入的外部数据最常见的两种来源:文本和网站数据来源。
· 导入文本数据:如何把文本文件导入Excel
例:在员工满意度调查中我们有一份文本型的“问卷录入结果”文件,导入这份文件为例,实践一下导入文本数据的 具体操作:
①鼠标单击“数据”选项卡-->选择“自文本”选项-->Excel会自动弹出相对应的对话框
②找到保存的“问卷录入结果.txt”文件。
或,选项卡【文件】-->【打开】-->Excel会自动弹出对话框-->【文件类型】-->选择【文本文件】-->从要打开的文本文件所在位置打 开“问卷录入结果.txt”文件-->会弹出“文本导入向导”对话框。
文本导入向导---Step1:
③在上图Step1对话框中有两个选项“分隔符号”、“固定宽度”。如果文本文件中的列标签以制表符、冒号、分号、空格或其他字符分隔,则选择“分隔符号”;如果你想自己设定每列分隔的具体位置,则选择“固定宽度”。
由于我们的文本数据是以Tab键分隔的,所以这里选择“分隔符号”,单击【下一步】,得到下图对话框
文本导入向导---Step2 :
④在上图Step2对话框中,有Tab键、分号、逗号、空格的分隔符可供选择,如果分隔符是其他字符,则选中“其他”复选框,然后在后面的文本框中输入字符。
这里,我们选择“Tab键”-->【下一步】-->弹出如下对话框
文本数据导入向导---Step3:
⑤如果不需要将某列导入Excel中,可以在“数据预览”中选择此列-->勾选“不导入此列(跳过)”,则该列就不会输出在Excel文件里。
这里,我们不需要删除某列,所以,选择“常规”即可-->【完成】
⑥弹出“导入数据”对话框,在其中选择存放数据的位置,单击【红框标注的按钮】,拖动或缩放单元格区域,再次单击【红框标注的按钮】恢复对话框-->【确定】
导入文本数据:
⑦返回工作表,文本文件中的数据就会按所设置的格式自动导入到其中,如下图
文本数据导入结果 :
· 自动导入网站数据
Excel设置有“刷新控件”功能,即导入的网络数据可以进行即时更新,当网页数据发生变化时,不需要重新导入数据就能获得最新数据。
导入网站数据的具体步骤:
①单击【数据】选项卡-->选择【自网站】选项-->Excel会弹出“新建Web查询”对话框
②在对话框地址栏输入要导入数据的网址,这里我们输入国家统计局“消费者信心指数(2010年9月)”数据的网址:http://www.stats.gov.cn./tjsj/jdsj/t20101105_402681367.htm,单击【转到】按钮,对话框中将显示相应的页面,单击【】按钮,使其图标变为【绿色对号】,在这里单击表格前面的
图标。
导入网站数据:
③单击【导入】按钮-->弹出“导入数据”对话框-->在工作表中选择需要放置数据的区域,这里我们选择默认位置A1-->【确定】-->网站中的数据将自动导入到Excel中,导入效果如下图
网站数据导入结果:
-->不用打开网页也能自动更新数据-->方式有三种:即时刷新、定时刷新、打开文件时自动刷新。
· 即时刷新:单击【数据】主选项卡-->【刷新数据】,或,选择导入的外部数据所在区域中的任意一个单元格,然后单击鼠标右键,选择【刷新】。
即时刷新网站数据:
· 定时刷新:选择导入外部数据所在区域中的任意一个单元格-->鼠标右键(上图方法二)-->选择【数据范围属性】-->弹出“外部数据区域属性”对话框,如下图。在此对话框中勾选“刷新频率”复选框,选择刷新的间隔时间,就能实现定时刷新。
· 打开文件时自动刷新:在弹出的“外部数据区域属性”对话框-->选择“打开文件时刷新数据”复选框,即能实现打开文件时数据自动刷新。
外部数据区域属性:
-->导入网站数据的另一种方法:
先【Ctrl+C】,再【Ctrl+V】,直接将网页数据复制粘贴过来-->在工作表中粘贴数据后,数据区域的右下角会出现“粘贴”按钮,单击它,选择“可刷新的Web查询”命令,在弹出的对话框中进行相应设置即可。
直接粘贴网站数据:
(2)问卷录入要求-----手工录入,以问卷录入为例
经常接触到的调查问卷数据,其输入也是有讲究的。对于不同类型的问题,有不同的录入格式要求。
问卷题目大致可分为哪几类?怎样分辨这几种类型?每种类型采取怎样的录入格式?
例:以员工满意度调查为例,讲解每种题型。
公司员工满意度问卷示例:
①数值题:上示例问卷第3题,数值题一般要求被调查者填入相应的数值、或者打分。
录入人员只需输入被调查者实际填入的数值即可。
②单选题:单选题的特征就是答案只能有一个选项,所以编码时只需定义一个变量,即给该题留一列进行数据的录入。
录入时可采用1、2、3、4分别代表A、B、C、D四个选项。
对于示例问卷中的第7题,只需在该份问卷的记录中对应第7题所在的位置录入1/2/3/4即可。
③多选题:多选题的特征是答案可以有多个选项,其中又分为:
项数不定多选(即,对所选择选项的数目不做限定);
项数限定多选(即,有“最多选**项”)。上例第25题就是对项数有限制。
多选题的录入有两种方式:
· 二分法:把每一个相应选项定义为一个变量,每一个变量值均做如下定义:“0”代表未选,“1”代表已选,即对于被调查者选中的选 项录入为1,对未选的选项录入为0。
比如,示例问卷中被调查者选ACF,则A、B、C、D、E、F、G的选项下分别录入为1、0、1、0、0、1、0。
· 多重分类法:事先定义录入的数值,比如1、2、3、4、5、6、7分别代表选项A、B、C、D、E、F、G,并且根据限选的项数确 定应录入的变量个数。
例如,示例问卷第25题限选3项,那么需要设立3个变量,被调查者在该题选ACF,则在3个变量的值分别为1、3、6。
④排序题:对于排序题需要对选项重要性进行排序,如示例问卷第31题,总共6个选项,需要按重要程度排出前3名。
排序题的录入与多重分类法类似,先定义录入的数值,1、2、3、4、5、6分别代表选项A、B、C、D、E、F,然后按 照被调查者填写的顺序录入选项。所以,对第31题,我们按顺序录入3、4、1。
⑤开放性文字题:一般放在问卷的末尾,需要被调查者自己填写一些文字表述观点或建议,如示例问卷第40题。
对于开放性文字题,如果可能的话可以按照含义相似的答案进行归类编码,转换成为多选题进行分析。
或,如果答案内容较为丰富,就应对这类问题直接做定性分析。
问卷录入结果:
下一节详细讲解数据处理的过程。
最后
以上就是虚拟溪流为你收集整理的数据分析(三)的全部内容,希望文章能够帮你解决数据分析(三)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复