概述
pycharm + python3.6 + pandas
课程:使用pandas进行数据分析
part 4 表示课程对应的第四小节
课程笔记 part 4 - part 10
- part 4 显示
- 加载pandas
- 读取文件
- 默认显示前五行
- 显示文件的各项属性
- 显示文件行列数
- 显示文件数据类型
- part 5 重命名
- 读取文件前五行
- 读取文件列标题
- 对列标题重命名,方法一
- 自定义新名字
- 重命名方法二
- 重命名方法三
- part 6 删除
- 去除文件的一个特定列
- 去除文件两列
- 去除特定行,【0,1】为index
- part 7 排序
- 将标题按照字母顺序排序,并显示排序后的标题
- 按文件中顺序显示标题,只显示标题
- part 8 筛选
- 筛选满足条件的数据
- 在表中直接筛选符合条件的数据
- 在筛选后的数据里只显示genre的数据
- part 9 进行多个筛选操作
- 设置多个筛选条件,与
- 只要满足一个即可,或
- 对单列内的数据筛选
part 4 显示
加载pandas
import pandas as pd
读取文件
movies = pd.read_csv
默认显示前五行
movies.head()
显示文件的各项属性
movies.describe()
显示文件行列数
movies.shape()
显示文件数据类型
movies.dtypes()
type(movies)
movies.describe(include=[‘object’])
part 5 重命名
import pandas as pd
ufo = pd.read_csv()
读取文件前五行
ufo.head()
读取文件列标题
ufo.columns
对列标题重命名,方法一
ufo.rename(columns = {‘Colors Reported’: ‘new name’, ‘Shape Reported’: ‘new name’})
自定义新名字
ufo_cols = [‘自定义新标题’,‘自定义2’]
重命名方法二
ufo.columns = ufo_cols
重命名方法三
ufo = pd.read_csv(‘路径’, name=ufo_cols,
header=0)
part 6 删除
import pandas as pd
ufo = pd.read_csv()
去除文件的一个特定列
ufo.drop(‘Color Reported’, axis=1, inplace=True)
去除文件两列
ufo.drop([‘City’, ‘State’], axis=1, inplace=True)
去除特定行,【0,1】为index
ufo.drop([0, 1], axis=0, inplace=True)
part 7 排序
import pandas as pd
movies = pd.read_csv(‘文件路径’)
将标题按照字母顺序排序,并显示排序后的标题
movies.title.sort_values()
按文件中顺序显示标题,只显示标题
movies[‘title’]
对文件中所有行按指定的内容进行排序文件中所有行,以标题为主,按照顺序排列,显示的是所有内容,同理,可指定其他列标题
movies.sort_values(‘title’)
同上,但为逆序排列
movies.sort_values(‘title’,ascending=False)
同上,但是先以第一个列标题排序,然后在第一个标题排好序的第一批内容里按第二列标题排序
movies.sort_values([‘title’,‘duration’])
注意,排序不会变更源文件,只是在排序命令行处显示排序结果
part 8 筛选
import pandas as pd
movies = pd.read_csv(‘文件路径’)
筛选满足条件的数据
is_long = movies.duration >= 200
is_long.head
在表中直接筛选符合条件的数据
movies[movies.duration >= 200]
在筛选后的数据里只显示genre的数据
movies[movies.duration >= 200][‘genre’]
第二种方式
movies.loc[movies.duration >= 200, ‘genre’]
第三种方式
movies[movies.duration >= 200].genre
part 9 进行多个筛选操作
import pandas as pd
#读取文件
movies = pd.read_csv(‘文件路径’)
设置多个筛选条件,与
movies[(movies.duration >= 200) and (movies.genre == ‘Dramma’)]
movies[(movies.duration >= 200) & (movies.genre == ‘Dramma’)]
只要满足一个即可,或
movies[(movies.duration >= 200) | (movies.genre == ‘Dramma’)]
对单列内的数据筛选
筛选genre这一列中,内容为Crime,Drama,Action的数据
movies[movies.genre.isin([‘Crime’, ‘Drama’, ‘Action’])]
最后
以上就是搞怪铃铛为你收集整理的数据分析入门笔记(一)part 4 显示part 5 重命名part 6 删除part 7 排序part 8 筛选part 9 进行多个筛选操作的全部内容,希望文章能够帮你解决数据分析入门笔记(一)part 4 显示part 5 重命名part 6 删除part 7 排序part 8 筛选part 9 进行多个筛选操作所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复