【量化培训】第四十四节：Pandas中的常用函数|魔方商学院

课程小结：

pd.read_csv(filename) 读取 CSV 文件；
pd.read_excel(filename) 读取 Excel 文件；
pd.read_json(json_string) 从 JSON 字符串中读取数据；

df.head(n) 显示前 n 行数据；
df.tail(n) 显示后 n 行数据；
df.info() 显示数据的信息，包括列名、数据类型、缺失值等；
df.describe() 显示数据的基本统计信息，包括均值、方差、最大值、最小值等；
df.shape 显示数据的行数和列数。

df.dropna() 删除包含缺失值的行或列；
df.fillna(value) 将缺失值替换为指定的值；
df.replace(old_value, new_value) 将指定值替换为新值；
df.duplicated() 检查是否有重复的数据；
df.drop_duplicates() 删除重复的数据。

df[column_name] 选择指定的列；
df.loc[row_index, column_name] 通过标签选择数据；
df.iloc[row_index, column_index] 通过位置选择数据；
df.ix[row_index, column_name] 通过标签或位置选择数据；
df.filter(items=[column_name1, column_name2]) 选择指定的列；
df.filter(regex=’regex’) 选择列名匹配正则表达式的列；
df.sample(n) 随机选择 n 行数据。

df.sort_values(column_name) 按照指定列的值排序；
df.sort_values([column_name1, column_name2], ascending=[True, False]) 按照多个列的值排序；
df.sort_index() 按照索引排序。

df.describe() 计算基本统计信息，如均值、标准差、最小值、最大值等。
df.mean() 计算每列的平均值。
df.median() 计算每列的中位数。
df.mode() 计算每列的众数。
df.count() 计算每列非缺失值的数量。