data.frame 实用方法
pd.read_csv
读入文件作为data.frame
header:指定是否有标题,None无标题
sep:指定文件分隔符 超级实用
df.shape
返回df的行数和列数
超级实用
df.columns
返回列名
df.info()
返回df各变量的信息
df["列名"]
选取某列数据
df.describe()
返回数值类型列的描述性统计结果,包含均值、标准差、范围等。
df.head()
显示数据前5行
超级实用
df.sort_values(by= , ascending=False)
按照
by
指定列进行排序,默认为升序,使用
ascending=False
改为降序。
超级实用
df['列名'].mean
对任意一列计算均值
df['列名'].min
对任意一列计算最小值
df['列名'].max
对任意一列计算最大值
df['列名'].sum
对任意一列求和。,此外,可对bool行求和,以获得True的个数
df['列名'] == 1
索引,该列值是否等于1 ,返回True或False
df[df['列名'] == 1]
返回符合索引条件的行,属性依旧是data.frame。
超级实用
df[(df['列名a'] == 1) & (df['列名b'] == 1)]
结合逻辑判断使用多个索引条件。
超级实用
data.frame 子集提取命令
loc
,
iloc
loc
为名称索引,
iloc
为数字索引
df.loc['行名']
按行名提取子集
df.loc['行名','列名']
提取指定行,列的内容
df.loc['行名','列名'] = 1
修改指定行,列内容。取一行或一列时用列表。
df.iloc[0:2, 0:2]
提取前两行、前两列的内容
使用哈希替换某列的值
d = {'No': False, 'Yes': True}
df['列名'] = df['列名'].map(d)