掌握 Pandas 读取 Excel 的方法：从入门到精通

在数据分析和处理领域，Microsoft Excel 电子表格无疑是最常见的数据存储格式之一。无论你是从客户那里接收数据，从网站下载报告，还是团队内部共享信息，Excel 文件几乎无处不在。而 Pandas 作为 Python 中强大的数据处理库，其核心功能之一就是能够轻松、高效地读取和处理各种数据格式，其中就包括 Excel 文件。

Pandas 提供的 pd.read_excel() 函数是读取 Excel 数据的首选工具。它功能强大，参数众多，可以应对各种复杂的 Excel 文件结构和数据格式。掌握 read_excel() 的各种参数及其用法，将极大地提升你的数据处理效率，让你能够从容地处理各种“奇形怪状”的 Excel 文件。

本文将带你从入门开始，深入探索 pd.read_excel() 函数的各项功能和参数，帮助你全面掌握读取 Excel 数据的方法。

1. 安装必要的库

在开始之前，确保你已经安装了 Pandas 和读取 Excel 文件所需的引擎库。 Pandas 本身并不直接内置 Excel 的读写功能，它依赖于其他第三方库。

对于 .xlsx 文件 (Excel 2007 及以后版本)，推荐使用 openpyxl 或 xlsxwriter (写入时常用)。
对于较老的 .xls 文件 (Excel 2003 及以前版本)，则需要 xlrd 库。

安装方法如下（推荐使用 pip 包管理器）：

bash pip install pandas openpyxl xlrd

通常情况下，安装 openpyxl 和 xlrd 就足够应对大多数 Excel 文件了。 Pandas 会自动选择合适的引擎来读取文件。

2. `pd.read_excel()` 的基本用法

最简单的 read_excel() 用法只需要指定文件的路径：

“`python
import pandas as pd

假设你的文件名为 ‘sample_data.xlsx’

file_path = ‘sample_data.xlsx’

try:
df = pd.read_excel(file_path)
print(“成功读取 Excel 文件！”)
print(“前 5 行数据：”)
print(df.head())
print(“\n数据框信息：”)
df.info()
except FileNotFoundError:
print(f”错误：文件未找到，请检查路径是否正确：{file_path}”)
except Exception as e:
print(f”读取文件时发生错误：{e}”)

“`

这段代码会读取指定路径下的 Excel 文件，并默认读取第一个工作表 (Sheet)。如果 Excel 文件包含表头 (header)，Pandas 默认会将第一行识别为列名。读取的数据会存储在一个 Pandas DataFrame 对象中，你可以对其进行后续的数据分析和操作。

3. 核心参数详解：应对各种场景

pd.read_excel() 函数提供了数十个参数，用于精细控制读取过程。下面我们将详细介绍其中最常用和最重要的参数，以及它们的应用场景。

3.1 `io`: 指定文件路径或文件对象

这是第一个也是最重要的参数，用来指定你要读取的 Excel 文件在哪里。

文件路径 (字符串): 可以是相对路径或绝对路径。这是最常见的用法。
python df = pd.read_excel('data/sales_report.xlsx')
文件对象 (BytesIO, open file object等): 你也可以传递一个已经打开的文件对象，或者从内存中的字节流读取。这在处理网络下载的文件、上传的文件或处理内存中的二进制数据时非常有用。
“`python
from io import BytesIO
import requests

从 URL 下载文件并直接读取

url = ‘http://example.com/data/remote_data.xlsx’
response = requests.get(url)
excel_data = BytesIO(response.content)
df = pd.read_excel(excel_data)

读取本地文件对象

with open(‘local_file.xlsx’, ‘rb’) as f:
df = pd.read_excel(f)
“`
使用文件对象的好处是避免了先将文件保存到磁盘再读取的过程，提高了效率，尤其是在处理临时文件或网络数据时。

3.2 `sheet_name`: 指定要读取的工作表

一个 Excel 文件通常包含一个或多个工作表 (Sheet)。 sheet_name 参数用于指定要读取哪个工作表。

整数 (0-indexed): 指定工作表的索引。 0 代表第一个工作表，1 代表第二个，以此类推。
python # 读取第二个工作表 df = pd.read_excel(file_path, sheet_name=1)
字符串: 指定工作表的名称。这是最直观的方式。
python # 读取名为 'Sheet2' 的工作表 df = pd.read_excel(file_path, sheet_name='Sheet2')
列表 (整数或字符串的混合列表): 读取多个指定的工作表。这将返回一个字典，键是工作表名称，值是对应的 DataFrame。
python # 读取第一个工作表和名为 'Summary' 的工作表 all_sheets = pd.read_excel(file_path, sheet_name=[0, 'Summary']) df_sheet1 = all_sheets[0] # 或者 all_sheets['Sheet1'] 如果它叫 Sheet1 df_summary = all_sheets['Summary'] print(type(all_sheets)) # 输出：<class 'collections.OrderedDict'>
注意：返回的是一个 OrderedDict (有序字典)，工作表的顺序与你在列表中指定的顺序一致。键通常是工作表名称（即使你指定了索引），值是 DataFrame。
None: 读取所有工作表。同样返回一个 OrderedDict，键是工作表名称，值是对应的 DataFrame。
python # 读取所有工作表 all_sheets_dict = pd.read_excel(file_path, sheet_name=None) print("所有工作表名称：", list(all_sheets_dict.keys()))
默认值: 如果不指定 sheet_name，默认值为 0，即读取第一个工作表。

根据你的需求，选择合适的值来指定要读取的工作表。这是处理包含多个工作表的 Excel 文件时最常用的参数。

3.3 `header`: 指定表头所在的行

Excel 文件通常有表头，用于标识列的含义。header 参数告诉 Pandas 哪一行或哪几行是表头。

整数 (0-indexed): 指定作为列名的行索引。
python # 假设第二行（索引为 1）是表头 df = pd.read_excel(file_path, header=1)
如果你的文件在数据之前有一些描述性文字，而真正的表头在第 N 行，这个参数就非常有用。
列表 (整数列表): 指定多行作为多级表头 (MultiIndex columns)。
python # 假设前两行（索引 0 和 1）组成了多级表头 df = pd.read_excel(file_path, header=[0, 1]) print(df.columns) # 输出一个 MultiIndex 对象
这对于处理带有分组或层次结构列名的 Excel 文件非常有用。
None: 表示文件没有表头。Pandas 会自动生成默认的列名 (0, 1, 2, …)。
python # 文件没有表头，从第一行就是数据 df = pd.read_excel(file_path, header=None) print(df.columns) # 输出一个 RangeIndex 对象，如 Int64Index([0, 1, 2, 3, ...], dtype='int64')
如果你的文件确实没有表头，或者你想自己指定列名，使用 header=None。
默认值: 默认值为 0，即认为第一行（索引 0）是表头。

正确设置 header 参数是确保数据被正确解析为 DataFrame 的关键一步。

3.4 `names`: 自定义列名

如果你不满意 Excel 文件中的表头名称，或者文件没有表头 (header=None)，你可以使用 names 参数提供一个自定义的列名列表。

列表 (字符串列表): 提供与列数相同的字符串列表作为新的列名。
python # 文件没有表头，或者想覆盖现有表头 # 假设文件有3列 new_column_names = ['ID', '名称', '数值'] df = pd.read_excel(file_path, header=None, names=new_column_names) print(df.columns) # 输出：Index(['ID', '名称', '数值'], dtype='object')
请注意，当使用 names 参数时，通常需要将 header 参数设置为 None，否则 Pandas 会先尝试读取 header 指定的行作为列名，然后可能会产生混淆或错误。如果 header 不是 None，names 会替换掉由 header 读取到的列名。

3.5 `index_col`: 指定用作索引的列

DataFrame 的索引 (Index) 是用于唯一标识每一行数据的标签。默认情况下，Pandas 会生成一个从 0 开始的整数序列作为索引。但你也可以指定 Excel 文件中的某一列或多列作为 DataFrame 的索引。

整数 (0-indexed): 指定某一列的索引作为索引。
python # 假设第一列（索引 0）是用于唯一标识数据的 ID df = pd.read_excel(file_path, index_col=0) print(df.index) # 输出一个 Index 对象，包含第一列的值
字符串: 指定某一列的名称作为索引。
python # 假设有一个列叫做 'CustomerID' df = pd.read_excel(file_path, index_col='CustomerID')
列表 (整数或字符串列表): 指定多列作为多级索引 (MultiIndex)。
python # 假设 'Year' 和 'Quarter' 两列组成多级索引 df = pd.read_excel(file_path, index_col=['Year', 'Quarter']) print(df.index) # 输出一个 MultiIndex 对象
这对于处理具有层次结构的索引数据非常有用。
False: 强制 Pandas 不使用任何列作为索引，即使 Excel 文件中的第一列看起来像索引。这通常与 header=None 和 names 一起使用。
python # 不使用任何列作为索引，使用默认的整数索引 df = pd.read_excel(file_path, index_col=False)
默认值: 默认值为 None，即不使用 Excel 文件中的任何列作为索引，使用默认的整数索引。

选择合适的索引列有助于更方便地进行数据查找、对齐和分析。

3.6 `usecols`: 选择要读取的列

有时你只需要 Excel 文件中的一部分列，而不是全部。usecols 参数可以让你指定要读取哪些列，从而节省内存和处理时间。

列表 (整数列表): 指定列的索引。
python # 只读取第 0, 2, 4 列 df = pd.read_excel(file_path, usecols=[0, 2, 4])
列表 (字符串列表): 指定列的名称。
python # 只读取名为 'Product', 'Price', 'Quantity' 的列 df = pd.read_excel(file_path, usecols=['Product', 'Price', 'Quantity'])
注意：使用列名时，header 参数必须正确设置，以便 Pandas 能够找到这些列名。
混合列表 (整数和字符串): Pandas 2.0+ 版本支持混合使用。
python # 读取索引为 0 的列和名为 'Sales' 的列 df = pd.read_excel(file_path, usecols=[0, 'Sales'])
字符串: 可以使用 Excel 的列字母表示法或列名/索引的混合范围表示法。
- 列字母范围:
  python # 读取从 A 列到 C 列的所有列 df = pd.read_excel(file_path, usecols='A:C') # 读取 A, C, E 列 df = pd.read_excel(file_path, usecols='A,C,E') # 读取 A, C, F 到 H 列 df = pd.read_excel(file_path, usecols='A,C,F:H')
- 混合范围 (Pandas 2.0+):
  python # 读取索引 0 到 2 的列，以及名为 'Notes' 的列 df = pd.read_excel(file_path, usecols='0:2,Notes')
Callable 函数: 传递一个函数，该函数接受列名列表（或索引）作为输入，并返回一个布尔数组，用于选择要读取的列。
“`python
# 只读取列名中包含 ‘Total’ 的列
df = pd.read_excel(file_path, usecols=lambda x: ‘Total’ in x)

只读取索引大于 5 的列 (慎用，索引会随 header/index_col 变化)

通常使用列名更稳定

df = pd.read_excel(file_path, usecols=lambda x: x.name > 5) # 这里的 x 是 Series/Index
“`
Callable 用法非常灵活，可以根据复杂的条件筛选列。

usecols 是处理宽表格或只需要部分数据的有效方法。

3.7 `dtype`: 指定列的数据类型

Pandas 会尝试自动推断每一列的数据类型（整数、浮点数、字符串、日期等）。但在某些情况下，自动推断可能不准确，或者你想强制指定某种类型以节省内存或避免后续类型转换的麻烦。dtype 参数允许你为指定的列设置数据类型。

字典: 键是列名或列索引，值是 NumPy 或 Pandas 的数据类型（例如 'int', 'float', 'str', 'bool', 'datetime64[ns]', np.int64, pd.UInt32Dtype() 等）。
“`python
# 指定 ‘CustomerID’ 列为字符串，’Quantity’ 列为整数
dtype_spec = {‘CustomerID’: ‘str’, ‘Quantity’: ‘int’}
df = pd.read_excel(file_path, dtype=dtype_spec)

使用列索引指定类型 (如果header=None或header指定了索引)

dtype_spec_indexed = {0: ‘str’, 3: ‘int’}

df = pd.read_excel(file_path, dtype=dtype_spec_indexed)

`` 强烈建议为包含标识符（如邮政编码、ID 号码等）的列指定‘str’或‘object’类型，以避免前导零丢失或被错误地当作数字处理。指定dtype` 可以帮助减少内存使用，尤其是在处理包含大量数字但实际表示标识符的列时。

3.8 `na_values`: 指定缺失值表示

Excel 文件中，单元格为空通常被 Pandas 识别为缺失值 (NaN)。但有时，缺失值可能用特定的字符串表示，如 “N/A”, “-“, “Missing” 等。 na_values 参数可以指定哪些字符串应该被视为缺失值。

列表 (字符串列表): 将指定的字符串列表中的所有值都识别为缺失值。
python # 将 'N/A' 和 '-' 识别为缺失值 df = pd.read_excel(file_path, na_values=['N/A', '-'])
字典: 为不同的列指定不同的缺失值表示。
python # 'Price' 列中的 '-' 和 'Quantity' 列中的 'Missing' 识别为缺失值 na_spec = {'Price': ['-'], 'Quantity': ['Missing']} df = pd.read_excel(file_path, na_values=na_spec)
默认值: Pandas 默认会识别一些常见的缺失值表示，如 ”, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’. 你可以通过设置 keep_default_na=False 来禁用这些默认值，只使用 na_values 参数指定的。

正确处理缺失值对于数据清洗和分析至关重要。

3.9 `parse_dates`: 解析日期列

Excel 文件中的日期数据有时可能被存储为文本、数字或其他格式。parse_dates 参数可以帮助 Pandas 将指定的列尝试解析为日期时间格式。

布尔值 (True): 尝试解析索引列以及任何看起来像日期的列。通常只对索引列有效。
python # 尝试解析索引列为日期 df = pd.read_excel(file_path, index_col=0, parse_dates=True)
列表 (整数或字符串列表): 指定要解析为日期的列的索引或名称。
python # 将 'OrderDate' 和索引为 2 的列解析为日期 df = pd.read_excel(file_path, parse_dates=['OrderDate', 2])
列表 (列表的列表或字典): 将多列合并解析为一个日期时间列。
- 列表的列表: [[col1, col2, ...]] 将这些列的值合并。
  python # 假设有 'Year', 'Month', 'Day' 三列，将它们合并解析为日期 df = pd.read_excel(file_path, parse_dates=[['Year', 'Month', 'Day']]) print(df.info()) # 会看到一个新的 'Year_Month_Day' 列，类型为 datetime64[ns]
- 字典: {new_col_name: [col1, col2, ...]} 将指定列合并解析为新列名。
  python # 将 'Year' 和 'WeekNum' 合并解析为新的 'WeekStartDate' 列 date_spec = {'WeekStartDate': ['Year', 'WeekNum']} df = pd.read_excel(file_path, parse_dates=date_spec) print(df.info()) # 会看到 'WeekStartDate' 列

正确解析日期时间数据是时间序列分析的基础。

3.10 `date_parser`: 自定义日期解析函数

如果 parse_dates 无法正确解析你的日期格式，你可以提供一个自定义的函数来处理日期字符串。这个函数应该接收一个字符串作为输入，并返回一个 datetime 对象。然而，在 Pandas 2.0+ 版本中，parse_dates 参数与 date_format 参数结合使用通常更灵活和高效，date_parser 现在已不推荐使用或在某些引擎中不受支持。

推荐做法 (Pandas 2.0+): 使用 parse_dates 结合 date_format

“`python

假设日期格式是 ‘YYYY-MM-DD’

df = pd.read_excel(file_path, parse_dates=[‘OrderDate’], date_format=’%Y-%m-%d’)

假设日期格式是 ‘DD/MM/YYYY HH:MM’

df = pd.read_excel(file_path, parse_dates=[‘Timestamp’], date_format=’%d/%m/%Y %H:%M’)
``date_format使用标准的 Pythonstrftime()格式代码。这比自定义date_parser` 更简单且性能更好。

3.11 `thousands`, `decimal`: 处理数字格式

Excel 文件中的数字有时可能包含千位分隔符（如逗号 ,）或使用逗号作为小数分隔符而不是点号 .. 这在某些地区很常见。这些符号会干扰 Pandas 将列识别为数字。

thousands (字符串): 指定千位分隔符。
decimal (字符串): 指定小数分隔符。

“`python

假设数字用逗号作为千位分隔符，点号作为小数分隔符 (例如: 1,234.56)

df = pd.read_excel(file_path, thousands=’,’)

假设数字用点号作为千位分隔符，逗号作为小数分隔符 (例如: 1.234,56)

df = pd.read_excel(file_path, thousands=’.’, decimal=’,’)
“`
这些参数可以帮助 Pandas 正确地将看起来像文本的数字字符串解析为数值类型。

3.12 `skiprows`, `skipfooter`: 跳过行

如果你的 Excel 文件在顶部有非数据行（如报告标题、说明文字等）或者在底部有汇总行，可以使用这两个参数跳过它们。

skiprows (整数或列表):
- 整数: 跳过文件开头的指定行数。
  python # 跳过前 5 行 df = pd.read_excel(file_path, skiprows=5)
- 列表 (整数列表): 跳过指定的行索引（0-indexed）。
  python # 跳过第 0 行, 第 2 行, 第 5 行 df = pd.read_excel(file_path, skiprows=[0, 2, 5])
- Callable 函数: 接收行索引作为输入，返回 True 则跳过该行。
  python # 跳过所有偶数行 (除了header行) df = pd.read_excel(file_path, skiprows=lambda x: x > 0 and x % 2 == 0)
skipfooter (整数): 跳过文件末尾的指定行数。
python # 跳过最后 3 行 df = pd.read_excel(file_path, skipfooter=3)
skiprows 和 skipfooter 对于处理带有额外信息或汇总行的报告文件非常有用。

3.13 `nrows`: 只读取指定行数

有时你只想读取文件的前 N 行来快速查看数据结构或进行测试，而不是加载整个大型文件。nrows 参数可以限制读取的行数（不包括 header 行）。

“`python

只读取前 100 行数据 (从 header 行之后开始计数)

df = pd.read_excel(file_path, nrows=100)
“`
这对于处理非常大的 Excel 文件时进行快速验证或抽样非常有帮助。

3.14 `mangle_dupe_cols`: 处理重复的列名

如果你的 Excel 文件中有多个列具有相同的名称，Pandas 默认会通过在列名后添加 .1, .2 等后缀来区分它们（例如 ‘Name’, ‘Name.1’, ‘Name.2’）。mangle_dupe_cols 参数控制此行为。

布尔值 (True): (默认) 启用重命名重复列的功能。
python df = pd.read_excel(file_path, mangle_dupe_cols=True) # 默认行为
布尔值 (False): 禁用此功能。如果存在重复列名，Pandas 将只保留最后一个同名列的数据，并可能发出警告。
python df = pd.read_excel(file_path, mangle_dupe_cols=False) # 重复列名会被覆盖
通常建议保持默认值 True 以避免数据丢失。

3.15 `engine`: 指定解析引擎

Pandas 默认会尝试使用合适的引擎来读取 Excel 文件。但在某些特定情况下，或者当你遇到兼容性问题时，你可能需要显式指定要使用的引擎。

字符串 ('openpyxl', 'xlrd', 'odf'): 指定要使用的引擎。
“`python
# 强制使用 openpyxl 引擎
df = pd.read_excel(file_path, engine=’openpyxl’)

强制使用 xlrd 引擎 (适用于旧版 .xls 文件)

df = pd.read_excel(file_path, engine=’xlrd’)

使用 odf 引擎读取 OpenDocument Spreadsheets (.ods)

df = pd.read_excel(‘data.ods’, engine=’odf’)

``openpyxl用于.xlsx文件，xlrd用于.xls文件，odf用于.ods文件。如果你遇到XLRDError: Excel xlsx format is not supported或类似的错误，可能是因为尝试用xlrd读取.xlsx文件，这时就需要确保安装了openpyxl并让 Pandas 自动选择或显式指定engine=’openpyxl’`.

3.16 其他参数

read_excel 还有一些其他参数，虽然不常用，但在特定场景下可能有用：

comment: 字符或字符串，用于标识文件中的注释行，这些行将被跳过。在 Excel 文件中不常见，但在其他分隔符文件中更常见。
verbose: 布尔值，如果为 True，则在解析过程中打印一些调试信息。
keep_default_na: 布尔值，是否包括默认的缺失值列表。默认为 True。设置为 False 时，只有 na_values 指定的值才会被视为缺失值。
converters: 字典，用于指定某些列在读取时应用转换函数。键是列名或索引，值是函数。例如 {'列名': lambda x: x.lower()}。

4. 组合使用参数：处理复杂场景

在实际应用中，你通常需要组合使用多个参数来正确读取 Excel 文件。例如，一个文件可能包含多个工作表，每个工作表有不同的表头位置，且某些列需要指定数据类型和处理特定的缺失值。

“`python

假设要读取 ‘Sales_Data’ 工作表

表头在第 3 行 (索引 2)

跳过表头前的 2 行和表头后的 1 行（可能是空白行）

只读取 ‘OrderID’, ‘Product’, ‘Quantity’, ‘Price’ 列

‘Quantity’ 和 ‘Price’ 列可能包含 ‘-‘ 表示缺失，且它们应该是数值类型

‘OrderID’ 列应作为索引，并保持字符串类型以防止前导零丢失

file_path = ‘complex_report.xlsx’
sheet_name = ‘Sales_Data’
header_row_index = 2 # Excel 中的第四行

try:
df = pd.read_excel(
file_path,
sheet_name=sheet_name,
header=header_row_index,
skiprows=lambda x: x < header_row_index, # 跳过表头之前的行
# skipfooter=1, # 如果文件末尾有汇总行可以加上
usecols=[‘OrderID’, ‘Product’, ‘Quantity’, ‘Price’],
index_col=’OrderID’,
dtype={‘OrderID’: ‘str’, ‘Quantity’: ‘float’, ‘Price’: ‘float’}, # 先设为float以处理缺失值’-‘
na_values=[‘-‘] # 将’-‘识别为缺失值
)

# 读取后可以进一步处理数据类型，例如将 Quantity 转换为整数（如果合适）
# df['Quantity'] = df['Quantity'].astype('Int64') # 使用 Pandas 的 Nullable Integer 类型

print(f"成功读取工作表 '{sheet_name}'")
print(df.head())
print("\n数据框信息：")
df.info()
print("\n缺失值统计：")
print(df.isnull().sum())

except Exception as e:
print(f”读取文件时发生错误：{e}”)

`` 这个例子展示了如何通过组合使用sheet_name,header,skiprows,usecols,index_col,dtype,na_values` 等参数来精确控制读取过程，以适应更复杂的数据文件结构。

5. 常见问题与错误处理

在使用 read_excel() 时，可能会遇到一些常见问题：

FileNotFoundError: 文件路径不正确。检查文件是否存在以及路径是否输入正确。
XLRDError 或 openpyxl.utils.exceptions.InvalidFileException: 没有安装对应的引擎库 (xlrd 或 openpyxl)，或者文件格式与使用的引擎不匹配。确保安装了必要的库，Pandas 通常会自动选择，但遇到问题时可以尝试指定 engine 参数。
ValueError: 参数值不正确，例如 sheet_name 不存在，header 或 index_col 超出范围，usecols 指定的列不存在等。检查你的参数设置是否与 Excel 文件结构一致。
数据类型错误: 列被错误地识别为数字导致前导零丢失，或者日期未能正确解析。使用 dtype 和 parse_dates/date_format 参数来解决。
重复列名导致数据丢失: 如果 mangle_dupe_cols=False 且存在重复列名，数据可能会被覆盖。保持默认值 True 或手动处理重复列名。
内存错误 (MemoryError): 文件太大，无法一次性加载到内存。考虑使用 nrows 参数分块读取，或者使用 usecols 和 dtype 减少内存占用。

在遇到问题时，仔细阅读错误信息通常能提供解决问题的线索。查看 read_excel() 的官方文档也是一个很好的资源。

6. 总结与展望

pd.read_excel() 是 Pandas 中一个强大且灵活的函数，能够帮助你轻松应对各种复杂的 Excel 文件读取任务。通过掌握 sheet_name, header, names, index_col, usecols, dtype, na_values, parse_dates, skiprows, skipfooter 等核心参数，你可以精确地控制数据读取的过程，确保数据被正确地加载到 DataFrame 中，为后续的数据清洗、转换和分析奠定坚实的基础。

虽然本文详细介绍了 read_excel() 的主要参数，但实际应用中的 Excel 文件格式千变万化。最好的学习方法是结合实际遇到的文件，动手尝试不同的参数组合，直到能够准确地读取你的数据。

熟练掌握 read_excel() 只是 Pandas 数据处理旅程的第一步。一旦数据被成功加载到 DataFrame 中，你就可以利用 Pandas 提供的丰富功能进行数据清洗、转换、聚合、可视化等等。

希望本文能帮助你更好地理解和使用 pd.read_excel() 函数，让你在数据处理的道路上更加顺畅高效！现在，就拿起你的 Excel 文件，打开 Jupyter Notebook 或 Python 脚本，开始你的 Pandas 数据处理之旅吧！

掌握 Pandas 读取 Excel 的方法：从入门到精通

1. 安装必要的库

2. pd.read_excel() 的基本用法

假设你的文件名为 ‘sample_data.xlsx’

3. 核心参数详解：应对各种场景

3.1 io: 指定文件路径或文件对象

从 URL 下载文件并直接读取

读取本地文件对象

3.2 sheet_name: 指定要读取的工作表

3.3 header: 指定表头所在的行

3.4 names: 自定义列名

3.5 index_col: 指定用作索引的列

3.6 usecols: 选择要读取的列

只读取索引大于 5 的列 (慎用，索引会随 header/index_col 变化)

通常使用列名更稳定

3.7 dtype: 指定列的数据类型

使用列索引指定类型 (如果header=None或header指定了索引)

dtype_spec_indexed = {0: ‘str’, 3: ‘int’}

df = pd.read_excel(file_path, dtype=dtype_spec_indexed)

3.8 na_values: 指定缺失值表示

3.9 parse_dates: 解析日期列

3.10 date_parser: 自定义日期解析函数

假设日期格式是 ‘YYYY-MM-DD’

假设日期格式是 ‘DD/MM/YYYY HH:MM’

3.11 thousands, decimal: 处理数字格式

假设数字用逗号作为千位分隔符，点号作为小数分隔符 (例如: 1,234.56)

假设数字用点号作为千位分隔符，逗号作为小数分隔符 (例如: 1.234,56)

3.12 skiprows, skipfooter: 跳过行

3.13 nrows: 只读取指定行数

只读取前 100 行数据 (从 header 行之后开始计数)

3.14 mangle_dupe_cols: 处理重复的列名

3.15 engine: 指定解析引擎

强制使用 xlrd 引擎 (适用于旧版 .xls 文件)

df = pd.read_excel(file_path, engine=’xlrd’)

使用 odf 引擎读取 OpenDocument Spreadsheets (.ods)

df = pd.read_excel(‘data.ods’, engine=’odf’)

3.16 其他参数

4. 组合使用参数：处理复杂场景

假设要读取 ‘Sales_Data’ 工作表

表头在第 3 行 (索引 2)

跳过表头前的 2 行和表头后的 1 行（可能是空白行）

只读取 ‘OrderID’, ‘Product’, ‘Quantity’, ‘Price’ 列

‘Quantity’ 和 ‘Price’ 列可能包含 ‘-‘ 表示缺失，且它们应该是数值类型

‘OrderID’ 列应作为索引，并保持字符串类型以防止前导零丢失

5. 常见问题与错误处理

6. 总结与展望

发表评论 取消回复

2. `pd.read_excel()` 的基本用法

3.1 `io`: 指定文件路径或文件对象

3.2 `sheet_name`: 指定要读取的工作表

3.3 `header`: 指定表头所在的行

3.4 `names`: 自定义列名

3.5 `index_col`: 指定用作索引的列

3.6 `usecols`: 选择要读取的列

3.7 `dtype`: 指定列的数据类型

3.8 `na_values`: 指定缺失值表示

3.9 `parse_dates`: 解析日期列

3.10 `date_parser`: 自定义日期解析函数

3.11 `thousands`, `decimal`: 处理数字格式

3.12 `skiprows`, `skipfooter`: 跳过行

3.13 `nrows`: 只读取指定行数

3.14 `mangle_dupe_cols`: 处理重复的列名

3.15 `engine`: 指定解析引擎

发表评论取消回复