python读取sas数据集_针对SAS用户：Python数据分析库pandas(1)

301 阅读 0 评论 199 点赞

我是靠谱客的博主欣慰小鸭子，这篇文章主要介绍python读取sas数据集_针对SAS用户：Python数据分析库pandas(1)，现在分享给大家，希望可以做个参考。

Python部落(python.freelycode.com)组织翻译，禁止转载，欢迎转发。

作者：Randy Betancourt 日期：2016年12月19号

这篇文章是Randy Betancourt的用于SAS用户的快速入门中的一章。Randy编写这本指南，让SAS用户熟悉Python和Python的各种科学计算工具。

本文包括的主题：

pandas简介

本章介绍pandas库（或包）。pandas为 Python开发者提供高性能、易用的数据结构和数据分析工具。该包基于NumPy（发音‘numb pie’）中，一个基本的科学计算包，提供ndarray，一个用于数组运算的高性能对象。我们将说明一些有用的NumPy对象来作为说明pandas的方式。

对于数据分析任务，我们经常需要将不同的数据类型组合在一起。一个例子是使用频率和计数的字符串对分类数据进行分组，使用int和float作为连续值。此外，我们希望能够附加标签到列、透视数据等。

我们从介绍对象Series和DataFrame开始。可以认为Series是一个索引、一维数组、类似一列值。可以认为DataFrames是包含行和列的二维数组索引。好比Excel单元格按行和列位置寻址。

换句话说，DataFrame看起来很像SAS数据集（或关系表）。下表比较在SAS中发现的pandas组件。

第6章，理解索引中详细地介绍DataFrame和Series索引。

导入包

为了使用pandas对象, 或任何其它Python包的对象，我们开始按名称导入库到命名空间。为了避免重复键入完整地包名，对NumPy使用np的标准别名，对pandas使用pd。

Series

可以认为Series是含标记的一维数组。这个结构包括用于定位数据键值的标签索引。Series 中的数据可以是任何数据类型。pandas数据类型的详情见这里。在SAS例子中，我们使用Data Step ARRAYs类同于 Series。

以创建一个含随机值的Series开始：

注意：索引从0开始。大部分SAS自动变量像_n_使用1作为索引开始位置。SAS迭代DO loop 0 to 9结合ARRAY产生一个数组下标超出范围错误。

下面的SAS例子，DO循环用于迭代数组元素来定位目标元素。

SAS中数组主要用于迭代处理如变量。SAS/IML更接近的模拟NumPy数组。但SAS/IML 在这些示例的范围之外。

一个Series可以有一个索引标签列表。

Series由整数值索引，并且起始位置是0。

SAS示例使用一个DO循环做为索引下标插入数组。

返回Series中的前3个元素。

该示例有2个操作。s2.mean()方法计算平均值，随后一个布尔测试小于计算出的平均值。

Series和其它有属性的对象，它们使用点（.）操作符。.name是Series对象很多属性中的一个。

DataFrames

如前所述，DataFrames是带有标签的关系式结构。此外，一个单列的DataFrame是一个Series。

像SAS一样，DataFrames有不同的方法来创建。可以通过加载其它Python对象的值创建DataFrames。数据值也可以从一系列非Python输入资源加载，包括.csv文件、DBMS表、网络API、甚至是SAS数据集（.sas7bdat）等等。具体细节讨论见第11章— pandas Readers。

从读取UK_Accidents.csv文件开始。该文件包括从2015年1月1日到2015年12月31日香港的车辆事故数据。.csv文件位于这里。

一年中的每一天都有很多报告，其中的值大多是整数。另一个.CSV文件在这里，将值映射到描述性标签。

读.csv文件

在下面的示例中使用默认值。pandas为许多读者提供控制缺失值、日期解析、跳行、数据类型映射等参数。这些参数类似于SAS的 INFILE/INPUT处理。

注意额外的反斜杠\来规范化Windows路径名。

PROC IMPORT用于读取同一个.csv文件。它是SAS读.csv文件的几个方法之一。这里我们采用默认值。

与SAS不同，Python解释器正常执行时主要是静默的。调试时，调用方法和函数返回有关这些对象的信息很有用。这有点类似于在SAS日志中使用PUT来检查变量值。

下面显示了size、shape和ndim属性（分别对应于，单元格个数、行/列、维数）。

读校验

读取一个文件后，常常想了解它的内容和结构。.info()方法返回DataFrame的属性描述。

在SAS PROC CONTENTS的输出中，通常会发现同样的信息。

英文原文：https://blog.dominodatalab.com/pandas-for-sas-users-part-1/

译者：wangyc

最后

以上就是欣慰小鸭子最近收集整理的关于python读取sas数据集_针对SAS用户：Python数据分析库pandas(1)的全部内容，更多相关python读取sas数据集_针对SAS用户内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(199)

本文分类：python读取sas数据集
浏览次数：301 次浏览
发布日期：2024-08-08 03:55:02

相关文章

python怎么识别拼音-python+拼音

python怎么识别拼音-python+拼音

SAS编程基础 - 数据获取与数据集操作(1)

SAS编程基础 - 数据获取与数据集操作(1)

Python模型完美切换SAS，还能这么玩。。

Python模型完美切换SAS，还能这么玩。。

python内建方法会自动调用吗,有没有一种方法可以使用循环在Python中自动执行用户功能？...

python内建方法会自动调用吗,有没有一种方法可以使用循环在Python中自动执行用户功能？...

python读取sas数据集_针对SAS用户：Python数据分析库pandas(1)

python读取sas数据集_针对SAS用户：Python数据分析库pandas(1)

python 读取sas数据集_[求助]批量将文本文件中数据导入SAS数据集

python 读取sas数据集_[求助]批量将文本文件中数据导入SAS数据集

【无标题】

python组合数据类型集合类型及操作序列类型及操作实例：基本统计值计算字典类型及操作jieba库的使用实例：文本词频统计（英文&中文）

python组合数据类型集合类型及操作序列类型及操作实例：基本统计值计算字典类型及操作jieba库的使用实例：文本词频统计（英文&中文）

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部