Python数据处理pandas中使用CSV作为IO工具的读写操作
时间:2023-05-08 17:20
而相应的 注意:后面会用到 读取文本文件的主要函数是 可以是文件路径、文件 文件分隔符,如果设置为 此外,如果设置的字符长度大于 例如 用作列名的行号,默认行为是对列名进行推断: 如果未指定 如果设置了 也可以为 需要设置的列名列表,如果文件中不包含标题行,则应显式传递 用作 注意: 只读取指定的列。如果是列表,则所有元素都必须是位置(即文件列中的整数索引)或字符串,这些字符串必须与 列表中的顺序会被忽略,即 如果是可调用函数,将会根据列名计算,返回可调用函数计算为 使用此参数可以大大加快解析时间并降低内存使用 如果解析的数据只包含一列,那么返回一个 当没有标题时,添加到自动生成的列号的前缀,例如 重复的列将被指定为 数据或列的数据类型。例如。 要使用的解析器引擎。 用于在某些列中对值进行转换的函数字典。键可以是整数,也可以是列名 数据值解析为 数据值解析为 跳过分隔符之后的空格 在文件开头要跳过的行号(索引为 如果可调用函数,则对索引应用函数,如果返回 需要跳过文件末尾的行数(不支持 要读取的文件行数,对于读取大文件很有用 如果为 需要转换为 解析数据时是否包含默认的 注意:如果 检测缺失值标记(空字符串和 如果为 如果为 如果为 如果为 如果为 如果设置为 用于将字符串序列转换为日期时间实例数组的函数。默认使用 传递一个或多个数组( 将 使用一个或多个字符串(对应于 如果为 在解析重复的日期字符串,特别是带有时区偏移量的日期字符串时,可能会显著提高速度。 返回 用于对磁盘数据进行即时解压缩。如果为 如果使用 也可以使用字典的方式,键为 数值在千位的分隔符 小数点 指定 用于表示被引用数据的开始和结束的字符。带引号的数据里的分隔符将被忽略 用于跳过该字符开头的行,例如,如果 设置编码格式 默认情况下,字段太多的行(例如,带有太多逗号的 如果设置为 如果 您可以指示整个 你可以使用 或者,您可以在读取数据后使用 它将所有有效的数值转换为浮点数,而将无效的解析为 最后,如何处理包含混合类型的列取决于你的具体需要。在上面的例子中,如果您只想要将异常的数据转换为 然而,如果您想要强制转换所有数据,而无论类型如何,那么使用 注意 在某些情况下,读取包含混合类型列的异常数据将导致数据集不一致。 如果您依赖 这就导致 以上就是Python数据处理pandas中使用CSV作为IO工具的读写操作的详细内容,更多请关注Gxl网其它相关文章!前言
pandas
的 IO
API
是一组顶层的 reader
函数,比如 pandas.read_csv()
,会返回一个 pandas
对象。writer
函数是对象方法,如 DataFrame.to_csv()
。StringIO
,请确保导入# python3from io import StringIO# python2from StringIO import StringIO
1 CSV 和文本文件
read_csv()
1 参数解析
read_csv()
接受以下常用参数:1.1 基础
filepath_or_buffer
: 变量URL
或任何带有 read()
函数的对象sep
: str
,默认 ,
,对于 read_table
是
None
,则 C
引擎无法自动检测分隔符,而 Python
引擎可以通过内置的嗅探器工具自动检测分隔符。1
,且不是 's+'
,那么该字符串会被解析为正则表达式,且强制使用 Python
解析引擎。'\r\t'
,但是正则表达式容易忽略文本中的引用数据。delimiter
: str
, 默认为 None
sep
的替代参数,功能一致1.2 列、索引、名称
header
: int
或 list
, 默认为 'infer'
names
参数其行为类似于 header=0
,即从读取的第一行开始推断。names
,则行为与 header=None
相同。header
设置列表,表示多级列名。如 [0,1,3]
,未指定的行(这里是 2
)将会被跳过,如果 skip_blank_lines=True
,则会跳过空行和注释的行。因此 header=0
并不是代表文件的第一行names
: array-like
, 默认为 None
header=None
,且此列表中不允许有重复值。index_col
: int
, str
, sequence of int/str
, False
, 默认为 None
DataFrame
的索引的列,可以字符串名称或列索引的形式给出。如果指定了列表,则使用 MultiIndex
index_col=False
可用于强制 pandas
不要将第一列用作索引。例如,当您的文件是每行末尾都带有一个分隔符的错误文件时。usecols
: 列表或函数, 默认为 None
names
参数提供的或从文档标题行推断出的列名相对应。usecols=[0, 1]
等价于 [1, 0]
True
的名称In [1]: import pandas as pdIn [2]: from io import StringIOIn [3]: data = "col1,col2,col3
a,b,1
a,b,2
c,d,3"In [4]: pd.read_csv(StringIO(data))Out[4]: col1 col2 col30 a b 11 a b 22 c d 3In [5]: pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"])Out[5]: col1 col30 a 11 a 22 c 3
squeeze
: boolean
, 默认为 False
Series
prefix
: str
, 默认为 None
'X'
表示 X0
, X1
...mangle_dupe_cols
: boolean
, 默认为 True
'X'
,'X.1'
…'X.N'
,而不是 'X'
... 。如果在列中有重复的名称,传递 False
将导致数据被覆盖1.3 常规解析配置
dtype
: 类型名或类型字典(column -> type
), 默认为 None
{'a':np.float64,'b':np.int32}
engine
: {'c', 'python'}
C
引擎更快,而 Python
引擎目前功能更完整converters
: dict
, 默认为 None
true_values
: list
, 默认为 None
True
false_values
: list
, 默认为 None
False
skipinitialspace
: boolean
, 默认为 False
skiprows
: 整数或整数列表, 默认为 None
0
)或要跳过的行数True
,则应跳过该行,否则返回 False
In [6]: data = "col1,col2,col3
a,b,1
a,b,2
c,d,3"In [7]: pd.read_csv(StringIO(data))Out[7]: col1 col2 col30 a b 11 a b 22 c d 3In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0)Out[8]: col1 col2 col30 a b 2
skipfooter
: int
, 默认为 0
C
引擎)nrows
: int
, 默认为 None
memory_map
: boolean
, 默认为 False
filepath_or_buffer
参数指定了文件路径,则将文件对象直接映射到内存中,然后直接从那里访问数据。使用此选项可以提高性能,因为不再有任何 I/O
开销1.4 NA 和缺失数据处理
na_values
: scalar
, str
, list-like
, dict
, 默认为 None
NA
值的字符串keep_default_na
: boolean
, 默认为 True
NaN
值。根据是否传入 na_values
,其行为如下keep_default_na=True
, 且指定了 na_values
, na_values
将会与默认的 NaN
一起被解析keep_default_na=True
, 且未指定 na_values
, 只解析默认的 NaN
keep_default_na=False
, 且指定了 na_values
, 只解析 na_values
指定的 NaN
keep_default_na=False
, 且未指定 na_values
, 字符串不会被解析为 NaN
na_filter=False
,那么 keep_default_na
和 na_values
参数将被忽略na_filter
: boolean
, 默认为 True
na_values
的值)。在没有任何 NA
的数据中,设置 na_filter=False
可以提高读取大文件的性能skip_blank_lines
: boolean
, 默认为 True
True
,则跳过空行,而不是解释为 NaN
值1.5 日期时间处理
parse_dates
: 布尔值、列表或嵌套列表、字典, 默认为 False
.True
-> 尝试解析索引[1, 2, 3]
-> 尝试将 1, 2, 3
列解析为分隔的日期[[1, 3]]
-> 将 1, 3
列解析为单个日期列{'foo': [1, 3]}
-> 将 1, 3
列作为日期并设置列名为 foo
infer_datetime_format
: 布尔值, 默认为 False
True
且设置了 parse_dates
,则尝试推断 datetime
格式以加快处理速度date_parser
: 函数, 默认为 None
dateutil.parser.parser
进行转换,pandas
将尝试以三种不同的方式调用 date_parser
parse_dates
定义的列)作为参数;parse_dates
定义的列中的字符串值连接到单个数组中,并将其传递;parse_dates
定义的列)作为参数,对每一行调用 date_parser
一次。dayfirst
: 布尔值, 默认为 False
DD/MM
格式的日期cache_dates
: 布尔值, 默认为 True
True
,则使用唯一的、经过转换的日期缓存来应用 datetime
转换。1.6 迭代
iterator
: boolean
, 默认为 False
TextFileReader
对象以进行迭代或使用 get_chunk()
来获取块1.7 引用、压缩和文件格式
compression
: {'infer', 'gzip', 'bz2', 'zip', 'xz', None, dict}
, 默认为 'infer'
"infer"
,则如果 filepath_or_buffer
是文件路径且以 ".gz"
,".bz2"
,".zip"
或 ".xz"
结尾,则分别使用 gzip
,bz2
,zip
或 xz
解压,否则不进行解压缩。"zip"
,则 ZIP
文件必须仅包含一个要读取的数据文件。设置为 None
表示不解压method
的值从 {'zip', 'gzip', 'bz2'}
中选择。例如compression={'method': 'gzip', 'compresslevel': 1, 'mtime': 1}
thousandsstr
, 默认为 None
decimal
: str
, 默认为 '.'
float_precision
: string
, 默认为 None
C
引擎应该使用哪个转换器来处理浮点值。普通转换器的选项为 None
,高精度转换器的选项为 high
,双向转换器的选项为 round_trip
。quotechar
: str
(长度为 1
)comment
: str
, 默认为 None
comment='#'
,将会跳过 #
开头的行encoding
: str
, 默认为 None
1.8 错误处理
error_bad_linesboolean
, 默认为 True
csv
文件)会引发异常,并且不会返回任何 DataFrame
。False
,则这些坏行将会被删除warn_bad_linesboolean
, 默认为 True
error_bad_lines=False
且 warn_bad_lines=True
,每个坏行都会输出一个警告2. 指定数据列的类型
DataFrame
或各列的数据类型In [9]: import numpy as npIn [10]: data = "a,b,c,d
1,2,3,4
5,6,7,8
9,10,11"In [11]: print(data)a,b,c,d1,2,3,45,6,7,89,10,11In [12]: df = pd.read_csv(StringIO(data), dtype=object)In [13]: dfOut[13]: a b c d0 1 2 3 41 5 6 7 82 9 10 11 NaNIn [14]: df["a"][0]Out[14]: '1'In [15]: df = pd.read_csv(StringIO(data), dtype={"b": object, "c": np.float64, "d": "Int64"})In [16]: df.dtypesOut[16]: a int64b objectc float64d Int64dtype: object
read_csv()
的 converters
参数,统一某列的数据类型In [17]: data = "col_1
1
2
'A'
4.22"In [18]: df = pd.read_csv(StringIO(data), converters={"col_1": str})In [19]: dfOut[19]: col_10 11 22 'A'3 4.22In [20]: df["col_1"].apply(type).value_counts()Out[20]: <class 'str'> 4Name: col_1, dtype: int64
to_numeric()
函数强制转换类型In [21]: df2 = pd.read_csv(StringIO(data))In [22]: df2["col_1"] = pd.to_numeric(df2["col_1"], errors="coerce")In [23]: df2Out[23]: col_10 1.001 2.002 NaN3 4.22In [24]: df2["col_1"].apply(type).value_counts()Out[24]: <class 'float'> 4Name: col_1, dtype: int64
NaN
NaN
,那么 to_numeric()
可能是您的最佳选择。read_csv()
的 converters
参数会更好pandas
来推断列的类型,解析引擎将继续推断数据块的类型,而不是一次推断整个数据集。In [25]: col_1 = list(range(500000)) + ["a", "b"] + list(range(500000))In [26]: df = pd.DataFrame({"col_1": col_1})In [27]: df.to_csv("foo.csv")In [28]: mixed_df = pd.read_csv("foo.csv")In [29]: mixed_df["col_1"].apply(type).value_counts()Out[29]: <class 'int'> 737858<class 'str'> 262144Name: col_1, dtype: int64In [30]: mixed_df["col_1"].dtypeOut[30]: dtype('O')
mixed_df
对于列的某些块包含 int
类型,而对于其他块则包含 str
,这是由于读取的数据是混合类型。