当前位置：首页 > news >正文

北京网站定制建设腾讯视频网站源码

news 2025/11/19 0:02:29

北京网站定制建设,腾讯视频网站源码,网上商城开发网站建设,东台企业网站建设说明#xff1a;文章所有内容均截选自实验楼教程【Pandas 使用教程】#xff0c;想要查看教程完整内容#xff0c;点击教程即可~前言#xff1a;Pandas 是非常著名的开源数据处理工具#xff0c;我们可以通过它对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之…说明文章所有内容均截选自实验楼教程【Pandas 使用教程】想要查看教程完整内容点击教程即可~前言Pandas 是非常著名的开源数据处理工具我们可以通过它对数据集进行快速读取、转换、过滤、分析等一系列操作。除此之外Pandas 拥有强大的缺失数据处理与数据透视功能可谓是数据预处理中的必备利器。文章带你学会 Pandas 中的一些常用的基本方法。知识点数据读取与存储Head Tail统计方法计算方法标签对齐排序数据文件学习本课程之前请先打开在线环境终端下载本文可能会用到的两个数据文件。wget http://labfile.oss.aliyuncs.com/courses/906/los_census.csvwget http://labfile.oss.aliyuncs.com/courses/906/los_census.txt两个文件均为为洛杉矶人口普查数据仅格式有区别。下面的内容均在 iPython 交互式终端中演示你可以通过在线环境左下角的应用程序菜单附件打开。如果你在本地进行练习推荐使用 Jupyter Notebook 环境。Pandas 常见的基本方法1 数据读取与存储Pandas 支持大部分常见数据文件读取与存储。一般清楚下读取文件的方法以 pd.read_ 开头而写入文件的方法以 pd.to_ 开头。详细的表格如下。拿刚刚下载好的数据文件举例如果没有下载请看文章开头的数据文件的获取方法。import pandas as pddf pd.read_csv(los_census.csv) #读取 csv 文件print df可以看到文件已经读取出来了。由于列数太多所以分段显示了。输出的最下方会有一个行数和列数的统计。这里是 319 行 X 7 列。我们可以发现由 pandas 读取的文件就已经是 DataFrame 结构了。上面演示了 csv 文件的读取其余格式的文件也很相似。不过很多时候我们拿到手的数据是像 los_census.txt 文件样式的数据如下图所示。import pandas as pddf pd.read_table(los_census.txt) #读取 txt 文件print df其实 los_census.txt 也就是 los_census.csv 文件因为 csv 文件又叫逗号分隔符文件数据之间采用逗号分割。那么我们怎样将这种文件转换为 DataFrame 结构的数据呢这里就要使用到读取方法中提供的一些参数了例如 sep[] 分隔符参数。import pandas as pddf pd.read_table(los_census.txt, sep,) #读取 txt 文件print df除了 sep读取文件时常用的参数还有header用来选择将第几行作为列索引名称。names[]自定义列索引名称。例如import pandas as pddf pd.read_csv(los_census.csv, header1 ) #将第二行作为列索引名称。print dfimport pandas as pddf pd.read_csv(los_census.csv, names[A, B, C, D, E, F, G]) #自定义列索引名称。print df好了说了这么久的读取文件再说一说存储文件。存储文件的方法也很简单。比如我们将 los_census.csv 文件存储为 json 格式的文件。import pandas as pddf pd.read_csv(los_census.csv) #读取 csv 文件df.to_json(1.json) # 将其存储为 json 格式文件当然你也可以通过 to_excel(1.xlsx) 储存为 Excel 默认支持的 .xlsx 格式。只是需要注意在线环境会报错。这时候需要再补充安装 openpyxl 包就好了sudo pip install openpyxl2 Head Tail有些时候我们读取的文件很大。如果全部输出预览这些文件既不美观又很耗时。还好Pandas 提供了 head() 和 tail() 方法它可以帮助我们只预览一小块数据。顾名思义head() 方法就是从数据集开头预览不带参数默认显示头部的 5 条数据你也可以自定义显示条数。import pandas as pddf pd.read_csv(los_census.csv) #读取 csv 文件print df.head() # 默认显示前 5 条print df.head(7) # 显示前 7 条tail() 方法就是从数据集尾部开始显示了同样默认 5 条可自定义。import pandas as pddf pd.read_csv(los_census.csv) #读取 csv 文件print df.tail() # 默认显示后 5 条print df.tail(7) # 显示后 7 条3 统计方法Pandas 提供了几个统计和描述性方法方便你从宏观的角度去了解数据集。1). describe()describe() 相当于对数据集进行概览会输出该数据集的计数、最大值、最小值等。import pandas as pddf pd.read_csv(los_census.csv) #读取 csv 文件print df.describe()例如上面针对一个 DataFrame 会对每一列的数据单独统计。2). idxmin() idxmax()idxmin() 和 idxmax() 会计算最小、最大值对应的索引标签。import pandas as pddf pd.read_csv(los_census.csv) #读取 csv 文件print df.idxmin()print df.idxmax()3). count()count() 用于统计非空数据的数量。import pandas as pddf pd.read_csv(los_census.csv) #读取 csv 文件print df.count()4).value_counts()value_counts() 仅仅针对 Series它会计算每一个值对应的数量统计。import pandas as pdimport numpy as nps pd.Series(np.random.randint(0, 9, size100)) # 生成一个 Series并在 0-9 之间生成 100 个随机值。print sprint s.value_counts()4 计算方法除了统计类的方法Pandas 还提供了很多计算类的方法。1). sum()sum() 用于计算数值数据的总和。import pandas as pddf pd.read_csv(los_census.csv) #读取 csv 文件print df.sum()2). mean()mean() 用于计算数值数据的平均值。import pandas as pddf pd.read_csv(los_census.csv) #读取 csv 文件print df.mean()3). median()median() 用于计算数值数据的算术中值。import pandas as pddf pd.read_csv(los_census.csv) #读取 csv 文件print df.median()除此之外剩下的一些常见计算方法如下表所示。5 标签对齐索引标签是 Pandas 中非常重要的特性有些时候由于数据的缺失等各种因素导致标签错位的现象或者想匹配新的标签。于是 Pandas 提供了索引标签对齐的方法 reindex()。reindex() 主要有三个作用重新排序现有数据以匹配新的一组标签。在没有标签对应数据的位置插入缺失值(NaN)标记。特殊情形下使用逻辑填充缺少标签的数据(与时间序列数据高度相关)。import pandas as pds pd.Series(data[1, 2, 3, 4, 5], index[a, b, c, d, e])print sprint s.reindex([e, b, f, d])我们可以看到重新排列的数据中原有索引对应的数据能自动匹配而新索引缺失的数据通过 NaN 补全。当然对于 DataFrame 类型的数据也是一样的。import pandas as pddf pd.DataFrame(data{one: [1, 2, 3], two: [4, 5, 6], three: [7, 8, 9]}, index[a, b, c])print dfprint df.reindex(index[b, c, a], columns[three, two, one])你甚至还可以将上面 Series 的数据按照下面的 DataFrame 的索引序列对齐。print s.reindex(df.index)6 排序既然是数据处理就少不了排序这一常用的操作。在 Pandas 中排序拥有很多「姿势」下面就一起来看一看。1). 按索引排序首先是按照索引排序其方法为Series.sort_index()或者是DataFrame.sort_index()。import pandas as pddf pd.DataFrame(data{one: [1, 2, 3], two: [4, 5, 6], three: [7, 8, 9], four: [10, 11, 12]}, index[a, c, b])print df下面按索引对行重新排序print df.sort_index()或者添加参数进行倒序排列print df.sort_index(ascendingFalse)2). 按数值排序第二种是按照数值排序其方法为Series.sort_values()或者是DataFrame.sort_values()。举个例子import pandas as pddf pd.DataFrame(data{one: [1, 2, 3, 7], two: [4, 5, 6, 9], three: [7, 8, 9, 2], four: [10, 11, 12, 5]}, index[a, c, b,d])print df将第三列按照从小到大排序print df.sort_values(bythree)也可以同时按照两列print df[[one, two, three, four]].sort_values(by[one,two])最后文章带你熟悉了 Pandas 中一些基本方法这些方法是针对数据集操作过程中经常遇到的。当然由于不可能面面俱到这里面提到的方法也只是冰山一角。在数据分析实践中还需要多多依据需求查阅官方文档。教程【Pandas 使用教程】总共5节文章截选的是第2节内容教程列表如下Pandas 安装与数据结构Pandas 常用的基本方法Pandas 数据选择与过滤Pandas 进行缺失值处理Pandas 时间序列分析如果你还想学习机器学习其他教程点击这里即可~你可以可以点击【机器学习】学习路径照着路径学习机器学习~

查看全文

http://www.pierceye.com/news/631673/