python 之 data.frame

data.frame 实用方法

pd.read_csv 读入文件作为data.frame
header:指定是否有标题,None无标题
sep:指定文件分隔符 超级实用 df.shape 返回df的行数和列数 超级实用 df.columns 返回列名 df.info() 返回df各变量的信息 df["列名"] 选取某列数据 df.describe() 返回数值类型列的描述性统计结果,包含均值、标准差、范围等。 df.head() 显示数据前5行 超级实用 df.sort_values(by= , ascending=False) 按照 by 指定列进行排序,默认为升序,使用 ascending=False 改为降序。 超级实用 df['列名'].mean 对任意一列计算均值 df['列名'].min 对任意一列计算最小值 df['列名'].max 对任意一列计算最大值 df['列名'].sum 对任意一列求和。,此外,可对bool行求和,以获得True的个数 df['列名'] == 1 索引,该列值是否等于1 ,返回True或False df[df['列名'] == 1] 返回符合索引条件的行,属性依旧是data.frame。 超级实用 df[(df['列名a'] == 1) & (df['列名b'] == 1)] 结合逻辑判断使用多个索引条件。 超级实用

data.frame 子集提取命令 loc , iloc

loc 为名称索引, iloc 为数字索引

df.loc['行名'] 按行名提取子集 df.loc['行名','列名'] 提取指定行,列的内容 df.loc['行名','列名'] = 1 修改指定行,列内容。取一行或一列时用列表。 df.iloc[0:2, 0:2] 提取前两行、前两列的内容

使用哈希替换某列的值

d = {'No': False, 'Yes': True}
df['列名'] = df['列名'].map(d)