Python数据分析-看了这篇文章，数据清洗你也就完全掌握了

发布时间：2019-09-12 14:13:44 所属栏目：教程来源：哗啦圈的梦

导读：所有做数据分析的前提就是：你得有数据，而且已经经过清洗，整理成需要的格式。不管你从哪里获取了数据，你都需要认真仔细观察你的数据，对不合规的数据进行清理，虽然不是说一定要有这个步骤，但是这是一个好习惯，因为保不齐后面分析的时候发现之前因为

副标题[/!--empirenews.page--]

所有做数据分析的前提就是：你得有数据，而且已经经过清洗，整理成需要的格式。

不管你从哪里获取了数据，你都需要认真仔细观察你的数据，对不合规的数据进行清理，虽然不是说一定要有这个步骤，但是这是一个好习惯，因为保不齐后面分析的时候发现之前因为没有对数据进行整理，而导致统计的数据有问题，今天小编就把平时用的数据清洗的技巧进行一个梳理，里面可能很多你都懂，那就当温习了吧!

文章大纲：

如何更有效的导入你的数据
全面的观察数据
设置索引
设置标签
处理缺失值
删除重复项
数据类型转换
筛选数据
数据排序
处理文本
合并&匹配

导入数据：

pd.read_excel("aa.xlsx") 
pd.read_csv("aa.xlsx") 
pd.read_clipboard

如何有效的导入数据：

1、限定导入的行，如果数据很大，初期只是为了查看数据，可以先导入一小部分：

pd.read_csv("aaa.csv",nrows=1000) 
pd.read_excel("aa.xlsx",nrows=1000)

2、如果你知道需要那些列，而且知道标签名，可以只导入需要的数据：

pd.read_csv("aaa.csv",usecols=["A","B"]) 
pd.read_excel("aa.xlsx",usecols=["A","B"])

3、关于列标签，如果没有，或者需要重新设定：

pd.read_excel("aa.xlsx",header=None)#不需要原来的索引，会默认分配索引：0，1，2 
pd.read_excel("aa.xlsx",header=1)#设置第二行为列标签 
pd.read_excel("aa.xlsx",header=[1,2])#多级索引 
pd.read_csv("aaa.csv",header=None) 
pd.read_csv("aaa.csv",header=1) 
pd.read_csv("aaa.csv",header=[1,2])

4、设置索引列，如果你可以提供一个更有利于数据分析的索引列，否则分配默认的0，1，2：

pd.read_csv("aaa.csv",index_col=1) 
pd.read_excel("aa.xlsx",index_col=2)

5、设置数值类型，这一步很重要，涉及到后期数据计算，也可以后期设置：

pd.read_csv("aaa.csv",converters = {'排名': str, '场次': float}) 
data = pd.read_excel(io, sheet_name = 'converters', converters = {'排名': str, '场次': float})

全面的查看数据：

查看前几行：

data.head()

python数据分析-看了这篇文章，数据清洗你也就完全掌握了

查看末尾几行：

查看数据维度：

data.shape(16281, 7)

查看DataFrame的数据类型

df.dtypes

查看DataFrame的索引

df.index

查看DataFrame的列索引

df.columns

查看DataFrame的值

df.values

查看DataFrame的描述

df.describe()

某一列格式：

df['B'].dtype

设置索引和标签：

有时我们经常需要重新设置索引列，或者需要重新设置列标签名字：

重新设置列标签名：

df.rename(columns={"A": "a", "B": "c"}) 
df.rename(index={0: "x", 1: "y", 2: "z"})

重新设置索引：

df.set_index('month')

重新修改行列范围：

df.reindex(['http_status', 'user_agent'], axis="columns") 
new_index= ['Safari', 'Iceweasel', 'Comodo Dragon', 'IE10', 'Chrome'] 
df.reindex(new_index)

取消原有索引：

df.reset_index()

处理缺失值和重复项：

判断是否有NA：df.isnull().any()

填充NA：

pf.fillna(0)

删除含有NA的行：

rs=df.dropna(axis=0)

删除含有NA的列：

rs=df.dropna(axis=1)

（编辑：52站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

1/7

尾页

移动硬盘无法识别,教您	电脑怎么截图,教您电脑
360定时关机,教您360定	怎么查看隐藏文件,教您