景点旅游网站开发与设计,用什么软件做公司网站,阿里云域名注册企业邮箱,微信手机版登录入口数据分析#xff08;2#xff09;
本文介绍pandas的另一种数据类型DataFrame,中文叫数据框
DataFrame
定义#xff1a;
DataFrame是一个二维的矩阵数据表#xff0c;通过行和列#xff0c;可以定位一个值。 在某种程度上#xff0c;可以认为DataFrame是“具有相同ind…数据分析2
本文介绍pandas的另一种数据类型DataFrame,中文叫数据框
DataFrame
定义
DataFrame是一个二维的矩阵数据表通过行和列可以定位一个值。 在某种程度上可以认为DataFrame是“具有相同index的series的集合”
定位
1.行索引index,可以用来定位到具体的某一行
2.列索引columns用来定位到具体的某一列
通过index和columns可以定位到一个值能快速进行数据的筛选和定位
DataFrame构造函数
import pandas as pddata {rank:[1,2,3,4],GDP:[80855,77388,68024,47251]}
city [GD,JS,SD,ZJ]
df pd.DataFrame(data,indexcity)
print(df)运行结果
第一个常用参数data表示需要传入的数据可以是字典列表等。若不传入数据会生成一个空的DataFrame。
第二个常用参数index参数index用于定义DataFrame的行索引index,如果不传入可选参数index就会默认从0开始生成。
import pandas as pddata {rank:[1,2,3,4],GDP:[80855,77388,68024,47251]}
city [GD,JS,SD,ZJ]
df pd.DataFrame(data,indexcity)
print(df.dtypes) #输出df每一列数据的数据类型
print(df.values) #输出df的每一列的数据的值
print(df.index) #输出变量df的行索引运行结果
DataFrame的轴
轴(axis)是用来为超过一维的数组定义属性二维数组有两个轴三维数组有三个轴以此类推。
eg对于DataFrame而言,第0轴垂直向下即axis0是垂直方向进行操作第1轴水平向右即asix1是水平方向进行操作。
如果要按行或者按列来对DataFrame内的数据进行求和可以使用sum()函数。
那么在sum()函数中就可以使用axis参数来指定求和的方向。
如下图所示
当axis0时是在垂直的方向上进行求和操作
当axis1时是在水平的方向上进行求和操作。
文件读取
在大多数情况下处理数据和分析数据时我们的数据来源都是CSV文件和Excel文件 pandas的DataFrame有大量数据处理的方法所以pandas会将数据读取为DataFrame对象以便进行后续的数据处理操作。
CSV(Comma-Separated Values)文件以纯文本的形式存储数字、文本等表格数据。它的数据格式如图所示文件中多个数据之间通常用逗号分隔每一列的数据都是相同的结构。
读取CSV文件
在pandas模块中读取CSV文件主要使用pd.read_csv()函数。
import pandas as pddata pd.read_csv(path)参数 必选参数 要读取的CSV文件的文件路径
可选参数1.指定行索引index_col
2.获取指定列
3.添加colums:headerNone和names
4.设置格式参数encoding“utf-8”,避免读取csv文件乱码
保存CSV文件
保存CSV文件主要使用DataFrame变量名.to_csv()
data.to_csv(path)必选参数要保存CSV文件的文件路径
可选参数设置索引参数index False,这样就不会将行索引信息写入第一列
设置参数encoding“utf-8-sig”避免产生csv文件乱码
读取Excel文件
在pandas模块中读取excel文件主要使用pd.read_excel()函数。
datapd.read_excel(.xlsx,sheet_nameXXX)参数 必选参数要读取的Excel文件的文件路径
可选参数当我们需要读取指定工作表时pd.read_excel()函数提供了一个参数sheet_name “”,将要读取的工作表名称作为字符串传入该参数即可
江湖可能因为少了谁而失色却不会因为少了谁后就不再是江湖。 —高手寂寞