Numpy Polyfit: 简介与应用

在数据科学和工程领域，我们经常需要从一组离散的数据点中找出潜在的趋势或关系。多项式拟合是一种强大而灵活的曲线拟合技术，它通过寻找一个多项式函数来最佳地近似给定的数据点集。NumPy 库中的 numpy.polyfit 函数正是实现这一目标的核心工具。

简介

numpy.polyfit 是 NumPy 提供的一个函数，用于执行一元多项式拟合。它的核心思想是利用最小二乘法，在给定数据点 (x, y) 的基础上，找到一个指定次数的多项式，使得该多项式曲线与所有数据点之间的平方误差之和最小。通过这种方式，我们能够从噪声或不规则的数据中提取出平滑的趋势，为数据分析、预测和建模提供基础。

基本用法

numpy.polyfit 的基本语法如下：

python numpy.polyfit(x, y, deg, rcond=None, full=False, w=None, cov=False)

其中最主要的参数是：
* x：一维数组，代表自变量（输入数据）的值。
* y：一维数组，代表因变量（输出数据）的值，与 x 的长度相同。
* deg：一个整数，表示要拟合的多项式的次数。例如，deg=1 拟合一条直线（一次多项式），deg=2 拟合一条抛物线（二次多项式）。

numpy.polyfit 函数的返回值是一个数组，其中包含了拟合多项式的系数。这些系数是按照从最高次幂到最低次幂的顺序排列的。例如，如果 deg=2，返回的系数 [p0, p1, p2] 对应于多项式 p0 * x**2 + p1 * x + p2。

通常，为了方便地使用这些系数来计算多项式的值或进行绘图，我们会将 polyfit 返回的系数与 numpy.poly1d 函数结合使用。numpy.poly1d 可以将系数数组转换为一个可调用的多项式函数。

工作原理简述

numpy.polyfit 采用的是最小二乘法来确定多项式系数。这意味着它会寻找一组系数，使得拟合出的多项式曲线与原始数据点之间垂直距离的平方和最小。这种方法对数据中的随机误差具有一定的鲁棒性，但对离群值（outliers）较为敏感。

应用示例

下面通过一个具体的例子来展示 numpy.polyfit 的使用，并使用 matplotlib 进行可视化：

“`python
import numpy as np
import matplotlib.pyplot as plt

1. 生成示例数据

假设我们有一些带有噪声的数据点，模拟真实世界的数据

x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
y = np.array([1, 3, 2, 5, 7, 8, 8, 9, 10, 12]) + np.random.normal(0, 0.5, len(x))

2. 使用 polyfit 进行多项式拟合

拟合一个2次多项式 (deg=2)，即 ax^2 + bx + c 形式

poly_coeffs = np.polyfit(x, y, deg=2)
print(f”拟合多项式的系数 (从高次到低次): {poly_coeffs}”)

3. 使用 poly1d 创建可调用的多项式函数

将 poly_coeffs 转换为一个函数，可以直接用 x 值进行计算

poly_function = np.poly1d(poly_coeffs)
print(f”拟合的多项式函数: \n{poly_function}”)

4. 预测拟合曲线上的点

使用拟合出的多项式函数在原始 x 值上进行预测，得到拟合的 y 值

y_fitted = poly_function(x)

5. 绘制结果

plt.figure(figsize=(10, 6))
plt.scatter(x, y, label=’原始数据点’, color=’blue’, zorder=2) # 原始数据点
plt.plot(x, y_fitted, label=f’拟合曲线 (次数={poly_function.order})’, color=’red’, linestyle=’-‘, linewidth=2, zorder=1) # 拟合曲线
plt.title(‘Numpy Polyfit 多项式拟合示例’)
plt.xlabel(‘X轴’)
plt.ylabel(‘Y轴’)
plt.legend()
plt.grid(True)
plt.show()

此外，我们也可以尝试拟合一个1次多项式（即线性拟合）

poly_coeffs_linear = np.polyfit(x, y, deg=1)
poly_function_linear = np.poly1d(poly_coeffs_linear)
y_fitted_linear = poly_function_linear(x)

plt.figure(figsize=(10, 6))
plt.scatter(x, y, label=’原始数据点’, color=’blue’, zorder=2)
plt.plot(x, y_fitted_linear, label=f’线性拟合曲线 (次数={poly_function_linear.order})’, color=’green’, linestyle=’–‘, linewidth=2, zorder=1)
plt.title(‘Numpy Polyfit 线性拟合示例’)
plt.xlabel(‘X轴’)
plt.ylabel(‘Y轴’)
plt.legend()
plt.grid(True)
plt.show()
“`

运行上述代码，你将看到原始散点数据和两条不同次数的拟合曲线（二次和一次），直观地展示了多项式拟合如何捕捉数据趋势。

关键注意事项与最佳实践

数据点数量与多项式次数: 拟合多项式的次数 deg 必须小于或等于数据点的数量减一。如果 deg 过高，可能会导致过拟合（overfitting），即模型在训练数据上表现良好，但在新数据上泛化能力差。
最小二乘法的局限性: polyfit 默认使用的最小二乘法对异常值比较敏感。数据中存在的离群点可能会显著扭曲拟合结果。在进行拟合之前，通常需要对数据进行清洗或使用更鲁棒的拟合方法。
数值稳定性: 对于高次多项式拟合，尤其是在 x 值范围较大或数据点分布不均匀时，可能会出现数值不稳定问题，导致计算出的系数不精确。NumPy 官方文档建议，在新代码中，如果追求更高的数值稳定性，可以考虑使用 numpy.polynomial 模块中的 Polynomial.fit 方法，它提供了更先进的算法。
系数顺序: 始终记住 polyfit 返回的系数是从最高次幂到最低次幂的顺序。这对于正确构建和理解多项式表达式至关重要。
选择合适的次数: 多项式次数的选择是一个关键的决策。通常需要结合领域知识、数据可视化和模型评估指标（如R²值、均方误差等）来确定最能平衡拟合优度和模型复杂度的次数。

结论

numpy.polyfit 是一个功能强大且易于使用的工具，它使得在 Python 中进行一元多项式拟合变得简单高效。无论是用于探索数据趋势、进行数据插值还是构建预测模型，polyfit 都提供了一个坚实的基础。然而，在使用时也应注意其潜在的局限性，并结合实际应用场景选择合适的参数和方法，以确保获得准确和稳定的拟合结果。