python 之 data.frame

data.frame 实用方法


          pd.read_csv

读入文件作为data.frame
header:指定是否有标题，None无标题
sep:指定文件分隔符 超级实用


          df.shape

返回df的行数和列数 超级实用


          df.columns

返回列名


          df.info()

返回df各变量的信息


          df["列名"]

选取某列数据


          df.describe()

返回数值类型列的描述性统计结果，包含均值、标准差、范围等。


          df.head()

显示数据前5行 超级实用


          df.sort_values(by= , ascending=False)

按照

by

指定列进行排序，默认为升序，使用


          ascending=False

改为降序。 超级实用


          df['列名'].mean

对任意一列计算均值


          df['列名'].min

对任意一列计算最小值


          df['列名'].max

对任意一列计算最大值


          df['列名'].sum

对任意一列求和。，此外，可对bool行求和，以获得True的个数


          df['列名'] == 1

索引，该列值是否等于1 ，返回True或False


          df[df['列名'] == 1]

返回符合索引条件的行，属性依旧是data.frame。 超级实用


          df[(df['列名a'] == 1) & (df['列名b'] == 1)]

结合逻辑判断使用多个索引条件。 超级实用

loc 为名称索引， iloc 为数字索引


           df.loc['行名']

按行名提取子集


           df.loc['行名','列名']

提取指定行，列的内容


           df.loc['行名','列名'] = 1

修改指定行，列内容。取一行或一列时用列表。


           df.iloc[0:2, 0:2]

提取前两行、前两列的内容

d = {'No': False, 'Yes': True}
df['列名'] = df['列名'].map(d)