最专业的微网站开发,做淘宝要网站,长沙招聘网58同城,自己做网站的域名pandas 是一个基于 Numpy 构建, 强大的数据分析工具包 主要功能 独特的数据结构 DataFrame, Series集成时间序列功能提供丰富的数学运算操作灵活处理缺失数据Series 一维数组 Series 是一种类似于一维数组的对象, 由一组数据和一组与之相关的数据标签(索引)组成 创建方式 pd.Se… pandas 是一个基于 Numpy 构建, 强大的数据分析工具包 主要功能 独特的数据结构 DataFrame, Series集成时间序列功能提供丰富的数学运算操作灵活处理缺失数据Series 一维数组 Series 是一种类似于一维数组的对象, 由一组数据和一组与之相关的数据标签(索引)组成 创建方式 pd.Series([4, 7 ,5, -3])
pd.Series([4, 7 ,5, -3], index[a, b, c, d])
pd.Series({a:1, b, 2})
pd.Series(0, index[a, b, c, d])# 获取值数组
sr pd.Series([4, 7 ,5, -3])
sr.value# 获取索引数组
sr pd.Series([4, 7 ,5, -3])
sr.index Series 支持array的特性(下标) 从 ndarry 创建 Series与标量直接运算两个 Series 运算索引切片通用函数 np.abs(sr)布尔值过滤 sr[sr0]Series 支持字典的特性(标签) 从字典创建 Series Series(dict)in 运算键索引整数索引 如果索引是整数, 则根据下标取值时总是面向标签的. 此时可通过 loc方法(将索引解释为标签)和iloc方法(将索引解释为下标) Series 数据计算 sr1 pd.Series([12,23,34], index[c, a, d])
sr2 pd.Series([11,20,10], index[d, c, a])
print(sr1 sr2)
# 相关计算方法 add, sub, div, mul pandas 在进行两个 Series 对象运算时, 会按索引进行对齐然后计算. 数据对齐 若两个 Series 对象的索引不完全相同, 则结果的索引是两个操作数索引的并集. 如果只有一个对象在某索引下有值, 则结果中该索引的值为NaN. 缺失数据处理办法 sr1.add(sr2, fill_value0) 填充缺失的值
dropna() 过滤掉值为NaN的行
fillna() 填充缺失数据
isnull() 返回布尔数组, 缺失值对应为True
notnull() 返回buer数据, 缺失值对应为False# 过滤缺失数据
sr.dropna()
sr[data.notnull()] DataFrame DataFrame 是一个表格型的数据结构, 含有一组有序的列. 可以看做是 Series 组成的字典, 并且公用一个索引. 创建 DataFrame 的方法有很多种 # 手动创建
pd.DataFrame({one:[1,2,3,4], two:[4,3,2,1]})
pd.DataFrame({one:pd.Series([1,2,3], index[a,b, c]), two:pd.Series([1,2,3,4], index[a,b,c,d])# 从csv文件读取与写入
df.read_csv(filename.csv)
df.to_csv() 常用属性 index 获取索引T 转置columns 获取列索引values 获取值数组describe() 获取快速统计索引和切片 DataFrame 是一个二维数据类型, 所以有行索引和列索引, 可以通过标签和位置两种方法进行索引和切片 loc 索引方法和 iloc 下标方法 使用方法: 逗号隔开, 前面是行索引, 后面是列索引行/列索引部分可以是常规索引, 切片, 布尔值索引, 花式索引任意搭配数据对齐与缺失数据 DataFrame 对象在运算时, 同样会进行数据对齐, 其行索引和列索引分别对齐 处理缺失数据的相关方法 dropna(axis0, whereany, ...)fillna()isnull()notnull()pandas 常用方法 mean(axis0, skipnaFalse) 对列(行)求平均值sum(axis1) 对列(行)求和sort_index(axis, ..., ascending) 对列(行)索引排序sort_values(by, axis, ascending) 按某一列(行)的值排序apply(func, axis0) 将自定义函数应用在各行或各列上, func可返回标量或SeriesNumPy 的通用函数同样适用于pandasapplymap(func) 将函数应用在 DataFrame 各个元素上map(func) 将函数应用在 Series 各个元素上时间处理 pandas基于dateutil来处理时间对象 dateutil.parser.parse() dateutil 原生时间处理方法pd.to_datetime() pandas 成组处理时间对象data_range() 产生时间对象数组 start 开始时间end 结束时间periods 时间长度freq 时间频率, 默认为D, 可选为H(our), W(eek), B(usiness), S(emi-)M(onth), (min)T(es), S(econd), A(year)时间序列 时间序列是以时间对象为索引的Series或DataFrame, datetime对象作为索引时是存储在DatetimeIndex对象中的. 时间序列的特色功能: 传入年或年月作为切片方式传入日期范围作为切片方式丰富的函数支持: resample(), strftime(), ...文件处理 read_csv 和 read_table 函数 sep 制定分隔符, 可用正则表达式如\sheader None 指定文件无列名name 指定列名index_col 指定某列为索引skip_row 指定跳过某些行na_values 指定某些字符串表示缺失值parse_dates 指定某些列是否被解析为日期, 类型为布尔值或列表to_csv 函数 sep 指定文件函数na_rep 指定缺失值转换的字符串, 默认为空字符串headerFalse 不输出列名一行indexFalse 不输出行索引一列columns 指定输出的列, 传入列表转载于:https://www.cnblogs.com/haoxi/p/9363501.html