Pandas DataFrame：缺失值处理

在数据分析和机器学习中，处理缺失值是一项至关重要的任务。 Pandas DataFrame 提供了强大的工具来识别、处理和分析缺失值，确保数据质量和模型可靠性。本文将深入探讨 Pandas DataFrame 中缺失值的各种处理方法，涵盖从简单的删除到复杂的插补技术。

1. 缺失值的识别

Pandas 主要使用两种值表示缺失值：NaN (Not a Number) 和 None。NaN 用于表示数值类型的缺失值，而 None 则更常用于表示对象类型的缺失值。在实际应用中，Pandas 通常会将 None 转换为 NaN 以方便统一处理。

我们可以使用以下方法来检测 DataFrame 中的缺失值：

isnull()：返回一个布尔型 DataFrame，指示每个单元格是否为缺失值。
notnull()：与 isnull() 相反，返回一个布尔型 DataFrame，指示每个单元格是否不是缺失值。
isna()：与 isnull() 功能相同。
notna()：与 notnull() 功能相同。

“`python
import pandas as pd
import numpy as np

data = {‘A’: [1, 2, np.nan, 4], ‘B’: [5, np.nan, 7, 8], ‘C’: [9, 10, 11, None]}
df = pd.DataFrame(data)

print(df.isnull())
print(df.notnull())
“`

此外，还可以使用以下方法来统计缺失值的数量：

sum()：对 isnull() 或 isna() 的结果求和，可以得到每列缺失值的数量。
count()：统计每列非缺失值的数量。

2. 缺失值的删除

删除缺失值是最简单的处理方法，但可能会导致数据量减少，尤其是在缺失值较多的情况下。Pandas 提供了以下方法来删除缺失值：

dropna()：删除包含缺失值的行或列。
- axis=0 (默认)：删除包含缺失值的行。
- axis=1：删除包含缺失值的列。
- how='any' (默认)：只要一行/列中存在缺失值就删除。
- how='all'：只有当一行/列中所有值都为缺失值时才删除。
- thresh=n：保留至少包含 n 个非缺失值的行/列。
- subset：指定要检查缺失值的列。

python print(df.dropna()) # 删除包含缺失值的行 print(df.dropna(axis=1)) # 删除包含缺失值的列 print(df.dropna(how='all')) # 只删除所有值都缺失的行 print(df.dropna(thresh=3)) # 保留至少包含3个非缺失值的行 print(df.dropna(subset=['A', 'B'])) # 只检查A和B列的缺失值

3. 缺失值的填充

填充缺失值是一种更常用的方法，它可以保留更多的数据信息。Pandas 提供了多种填充方法：

fillna()：用指定的值填充缺失值。
- value：用于填充的值，可以是标量、字典或 Series。
- method='ffill' 或 method='pad'：用前一个非缺失值填充。
- method='bfill' 或 method='backfill'：用后一个非缺失值填充。
- limit：限制填充的连续缺失值的数量。
- inplace=True：直接修改 DataFrame，而不是返回一个新的 DataFrame。

python print(df.fillna(0)) # 用0填充所有缺失值 print(df.fillna({'A': 0, 'B': 1, 'C': 2})) # 用不同的值填充不同的列 print(df.fillna(method='ffill')) # 用前一个非缺失值填充 print(df.fillna(method='bfill')) # 用后一个非缺失值填充

使用均值、中位数或众数填充：

python print(df['A'].fillna(df['A'].mean())) # 用A列的均值填充A列的缺失值 print(df['B'].fillna(df['B'].median())) # 用B列的中位数填充B列的缺失值 print(df['C'].fillna(df['C'].mode()[0])) # 用C列的众数填充C列的缺失值

使用插值方法填充:

Pandas 支持多种插值方法，例如线性插值、多项式插值等。

python print(df.interpolate()) # 使用线性插值填充 print(df.interpolate(method='polynomial', order=2)) # 使用二次多项式插值填充

4. 高级缺失值处理技巧

使用 KNNImputer：

sklearn.impute.KNNImputer 可以根据 K 个最近邻的均值来填充缺失值。

“`python
from sklearn.impute import KNNImputer

imputer = KNNImputer(n_neighbors=2)
df_filled = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
print(df_filled)
“`

使用 IterativeImputer：

sklearn.experimental.enable_iterative_imputer 和 sklearn.impute.IterativeImputer 可以使用机器学习模型来迭代地填充缺失值。

“`python
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

imp_mean = IterativeImputer(random_state=0)
df_filled = pd.DataFrame(imp_mean.fit_transform(df), columns=df.columns)
print(df_filled)
“`

5. 选择合适的缺失值处理方法

选择合适的缺失值处理方法取决于数据的特点和分析目标。

如果缺失值较少，可以直接删除。
如果缺失值较多且随机分布，可以使用均值、中位数或众数填充。
如果数据具有时间序列特性，可以使用前向或后向填充。
如果需要更精确的填充结果，可以使用插值方法或 KNNImputer、IterativeImputer 等高级方法。

总结:

Pandas 提供了丰富的工具来处理 DataFrame 中的缺失值。理解各种方法的优缺点，并根据实际情况选择合适的处理策略，对于数据分析和机器学习至关重要。本文详细介绍了各种缺失值处理方法，从简单的删除和填充到更高级的插值和基于模型的填充方法，希望能帮助读者更好地处理数据中的缺失值，提高数据质量和分析结果的可靠性。在实际应用中，建议先分析缺失值产生的原因和模式，再选择最合适的处理方法。同时，记录缺失值的处理过程，以便后续分析和解释结果。