Python中的数据类型
与数据统计分析紧密相关的是数据类型(也叫数据结构),即数据是以什么样的结构存储起来的。为此,我们需要首先掌握Python中的几个基本数据类型和第三方包提供的常用数据类型。
查看数据类型
内置函数type()可以查看数据的类型,例如:type(1)会输出<class 'int'>。
Python 中的基本数据类型
在 Python 中,有数字、字符串、元组、列表、字典、集合六种基本的数据类型。其中字符串、元组、列表为序列类型,字典为映射类型,集合为集合类型。
数字类型
Python3 中有 3 种类型的数字,即int、float、complex,分别是整数、浮点数、复数类型。其中bool类型是int的子类型,因为该类型的数字只能是0和1。
关于数字类型的详细内容见数字类型 。
序列类型
所谓序列sequence,指的是一块可存放多个值的连续内存空间,这些值按一定顺序排列,可通过每个值所在位置的编号(称为索引)访问它们。在Python中,字符串str、元组tuple、列表list都是序列。
关于序列的详细内容见序列。
字符串
字符串str是由 Unicode 码位构成的不可变序列。使用单引号' '、双引号" "或者三引号""" """、''' '''指定字符串。例如'字符串'、"abc"、"""字符串"""。
关于字符串的详细内容见字符串。
元组
元组tuple是一维序列,长度固定,不可变。元组用圆括号()表示,其中的成员用逗号,分隔。例如(1,2,3)。
关于元组的详细内容见元组。
列表
列表list是一维序列,但长度可变,内容可编辑。列表用方括号[]表示,其中的成员用逗号,分隔。如[1,2,3]
关于列表的详细内容见列表。
映射类型:字典
字典dict是将键key和值value一一对应的一种数据类型,字典的大小和内容是可变的。字典用花括号{}表示,键与对应的值用冒号:连接,键值对之间用逗号,分隔。如{'姓名':'小明','性别':'男'}。
关于字典的详细内容见字典。
集合类型
集合set是由唯一元素组成的无序集合,可看成是只有键没有值的字典,集合set是可变的。集合用花括号{}来表示,成员之间用逗号,隔开。例如{1,2,3}。
第三方包提供的常用数据类型
数组ndarray
数组ndarray是第三方包Numpy提供的数据类型,可以是一维(也被叫作向量vector)、二维(也被叫作矩阵matrix)和多维,数组中的元素类型都是相同类型。数组由实际数据和元数据(维度、类型)构成,例如np.array(data1, dtype=np.float32)。
数组的创建案例见:数组的创建。
系列series
系列series是第三方包Pandas提供的数据类型,由索引Seires.index和一维数值Series.values组成,Series可以理解为有序号的单列表格。不同与Numpy中的一维数组,Pandas中的系列除了可以存储数字外,还可存储字符、对象等多种类型的数据。使用Pandas提供的函数Series可以创建系列。
系列数据的基本操作见:系列series
数据框dataframe
数据框(dataframe)是由第三方包[[../pandas/Pandas|Pandas]]提供的一种带标签的二维数组,是一种表格结构的数据,因此也有文档中把这种数据叫作表。数据框由行索引(index)、列索引(columns)和二维数组(values)组成。 数据框的每一列和每一行都是一个系列(series)。
数据框的更多内容见:数据框基础知识。
常用数据数据类型转换
使用数据类型函数可以转换常用类型。如str、int、dict等等。
还可以将DataFrame类型转化为列表类型。例如
df.to_dict(orient='records')