Pandas 教程


Pandas教程

Pandas是一种Python数据分析库。它提供了高性能的数据结构,以及数据操作和数据清洗的工具。Pandas可以处理多种类型的数据,包括数据表、时间序列数据和面板数据。

安装Pandas

在使用Pandas之前,需要先安装它。可以通过以下命令在终端中安装Pandas:

pip install pandas

读取数据

Pandas支持多种数据格式,包括csv、Excel、SQL、HTML等。下面是一个从csv文件中读取数据的示例代码:

import pandas as pd

df = pd.read_csv('data.csv')

数据结构

Pandas提供了两种主要的数据结构,分别是Series和DataFrame。

Series

Series是一种一维数据结构,类似于Python中的列表或字典。每个Series对象包含了一个数据数组和一个与之相关的索引。

下面是创建一个Series的示例代码:

import pandas as pd

data = [1, 2, 3, 4, 5]

s = pd.Series(data)

print(s)

输出结果如下:

0    1
1    2
2    3
3    4
4    5
dtype: int64

DataFrame

DataFrame是一种二维数据结构,类似于电子表格或数据库中的表格。每个DataFrame对象包含了一个数据表和两个与之相关的索引,分别是行索引和列索引。

下面是创建一个DataFrame的示例代码:

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [23, 25, 27, 29]}

df = pd.DataFrame(data)

print(df)

输出结果如下:

       name  age
0     Alice   23
1       Bob   25
2   Charlie   27
3     David   29

数据操作

Pandas提供了多种数据操作和数据清洗的工具。下面是一些最常用的操作。

数据切片和选择

使用loc和iloc属性可以通过标签或位置对数据进行切片和选择。下面是一些示例代码:

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [23, 25, 27, 29]}

df = pd.DataFrame(data)

# 选择第一行
print(df.loc[0])

# 选择第一列
print(df.loc[:, 'name'])

# 选择前两行
print(df.iloc[:2])

# 选择年龄大于25的行
print(df[df['age'] > 25])

数据清洗

Pandas提供了多种数据清洗的工具,包括删除、替换、合并等。下面是一些示例代码:

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'], 'age': [23, 25, 27, 29]}

df = pd.DataFrame(data)

# 删除第一列
df.drop('name', axis=1, inplace=True)

# 将年龄小于25的人的年龄替换为0
df.loc[df['age'] < 25, 'age'] = 0

# 将两个数据表水平合并
df1 = pd.DataFrame({'name': ['Alice', 'Bob'], 'age': [23, 25]})
df2 = pd.DataFrame({'name': ['Charlie', 'David'], 'age': [27, 29]})
df = pd.concat([df1, df2], axis=1)

print(df)

输出结果如下:

     name  age     name  age
0   Alice   23  Charlie   27
1     Bob   25    David   29

总结

Pandas是一种强大的Python数据分析库,支持多种数据格式和数据操作工具。通过学习本教程中的示例代码,可以快速掌握Pandas的基本使用方法。