NumPy 数组复制：`repeat()` 函数的全面解析

在数据分析和科学计算中，NumPy 库以其强大的 N 维数组对象（ndarray）而闻名。高效地操作和处理这些数组是数据科学生命周期的关键部分。在众多数组操作中，复制数组元素是一项常见任务，而 NumPy 的 repeat() 函数为此提供了一个灵活且强大的解决方案。本文将深入探讨 repeat() 函数，从其基本语法到高级用法，再到实际应用场景，力求全面解析，帮助您充分掌握这一工具。

1. `repeat()` 函数：基础入门

1.1. 核心功能：元素重复

numpy.repeat() 函数的核心功能是沿着指定的轴重复数组中的元素。与简单地复制整个数组不同，repeat() 允许您控制每个元素重复的次数，以及重复发生的轴。

1.2. 基本语法

python numpy.repeat(a, repeats, axis=None)

a: 输入数组。可以是任何形状的 NumPy 数组、列表或元组。
repeats: 每个元素重复的次数。它可以是一个整数，表示所有元素都重复相同的次数；也可以是一个与 a 沿着指定轴（axis）长度相同的数组，表示每个元素重复不同的次数。
axis: 沿着哪个轴重复元素。
- axis=None（默认值）：将输入数组展平（flatten）为一维数组，然后重复元素。
- axis=0：沿着垂直方向（行）重复。
- axis=1：沿着水平方向（列）重复。
- 对于更高维度的数组，axis 可以取更大的整数值，对应不同的维度。

1.3. 返回值

repeat() 函数返回一个新的数组，其中包含重复后的元素。返回数组的形状取决于输入数组 a 的形状、repeats 参数以及 axis 参数。

1.4. 简单示例

让我们从一些基本示例开始，以直观地理解 repeat() 函数的工作方式：

“`python
import numpy as np

示例 1：重复单个数字

arr1 = np.repeat(5, 3) # 将数字 5 重复 3 次
print(arr1) # 输出: [5 5 5]

示例 2：重复一维数组，所有元素重复相同次数

arr2 = np.array([1, 2, 3])
arr2_repeated = np.repeat(arr2, 2) # 每个元素重复 2 次
print(arr2_repeated) # 输出: [1 1 2 2 3 3]

示例 3：重复一维数组，每个元素重复不同次数

arr3 = np.array([1, 2, 3])
arr3_repeated = np.repeat(arr3, [2, 3, 1]) # 第一个元素重复2次，第二个3次，第三个1次
print(arr3_repeated) # 输出: [1 1 2 2 2 3]

示例 4：重复二维数组，axis=None

arr4 = np.array([[1, 2], [3, 4]])
arr4_repeated = np.repeat(arr4, 2) # 展平后重复
print(arr4_repeated) # 输出: [1 1 2 2 3 3 4 4]

示例 5：重复二维数组，axis=0

arr5 = np.array([[1, 2], [3, 4]])
arr5_repeated = np.repeat(arr5, 2, axis=0) # 沿着行重复
print(arr5_repeated)

输出:

[[1 2]

[1 2]

[3 4]

[3 4]]

示例 6：重复二维数组，axis=1

arr6 = np.array([[1, 2], [3, 4]])
arr6_repeated = np.repeat(arr6, 2, axis=1) # 沿着列重复
print(arr6_repeated)

输出:

[[1 1 2 2]

[3 3 4 4]]

示例7：重复二维数组，axis=1, 每个元素重复次数不同

arr7 = np.array([[1, 2], [3, 4]])
arr7_repeated = np.repeat(arr7, [2,1], axis=1)
print(arr7_repeated)

输出：

[[1 1 2]

[3 3 4]]

“`

2. `repeat()` 函数：进阶用法

2.1. 与多维数组的交互

repeat() 函数在处理多维数组时特别有用，尤其是在需要沿着特定维度进行元素复制时。

“`python
import numpy as np

创建一个三维数组

arr = np.arange(1, 9).reshape(2, 2, 2)
print(“原始数组:\n”, arr)

[[[1 2]

[3 4]]

[[5 6]

[7 8]]]

沿着 axis=0 重复

arr_repeated_0 = np.repeat(arr, 2, axis=0)
print(“沿着 axis=0 重复:\n”, arr_repeated_0)

[[[1 2]

[3 4]]

[[1 2]

[3 4]]

[[5 6]

[7 8]]

[[5 6]

[7 8]]]

沿着 axis=1 重复

arr_repeated_1 = np.repeat(arr, 2, axis=1)
print(“沿着 axis=1 重复:\n”, arr_repeated_1)

[[[1 2]

[1 2]

[3 4]

[3 4]]

[[5 6]

[5 6]

[7 8]

[7 8]]]

沿着 axis=2 重复

arr_repeated_2 = np.repeat(arr, 2, axis=2)
print(“沿着 axis=2 重复:\n”, arr_repeated_2)

[[[1 1 2 2]

[3 3 4 4]]

[[5 5 6 6]

[7 7 8 8]]]

`` 通过指定不同的axis` 值，我们可以灵活地控制在哪个维度上进行复制。

2.2. `repeats` 参数的广播机制

当 repeats 参数是一个数组时，NumPy 会利用其广播机制来确定每个元素的重复次数。广播机制允许 NumPy 在不同形状的数组之间进行算术运算，前提是它们的形状满足一定的兼容性规则。

在 repeat() 函数中，如果 repeats 数组的形状与输入数组 a 沿着 axis 的形状不完全相同，NumPy 会尝试将 repeats 数组广播到与 a 沿着 axis 相同的形状。

“`python
import numpy as np

arr = np.array([[1, 2, 3], [4, 5, 6]])

repeats 数组的形状为 (2,)，与 arr 沿着 axis=1 的形状 (3,) 不兼容

但是，NumPy 会将 (2,) 广播为 (2, 1)，然后再广播为(2,3),使其最终可用于计算

repeats = np.array([2, 3])
arr_repeated = np.repeat(arr, repeats, axis=1)
print(arr_repeated)

输出:

[[1 1 2 2 2]

[4 4 5 5 5]]

“`

在这个例子中,repeats被当做[[2],[3]],然后根据广播原则,最终成为[[2,2,2],[3,3,3]],然后与原数组结合.

2.3. 与结构化数组的交互

repeat() 也可以用于结构化数组（structured arrays），但需要注意一些细节。结构化数组允许您为数组的每个元素定义不同的数据类型。

“`python
import numpy as np

创建一个结构化数组

dtype = [(‘name’, ‘S10’), (‘age’, int), (‘height’, float)]
data = [(‘Alice’, 25, 1.65), (‘Bob’, 30, 1.80), (‘Charlie’, 22, 1.75)]
structured_arr = np.array(data, dtype=dtype)

重复结构化数组

repeated_structured_arr = np.repeat(structured_arr, 2)

print(repeated_structured_arr)

输出：

[(b’Alice’, 25, 1.65) (b’Alice’, 25, 1.65) (b’Bob’, 30, 1.8 )

(b’Bob’, 30, 1.8 ) (b’Charlie’, 22, 1.75) (b’Charlie’, 22, 1.75)]

“`

当对结构化数组使用 repeat() 时，它会重复整个结构化元素，而不是单独重复每个字段。

3. `repeat()` 函数：实际应用场景

repeat() 函数在数据分析和科学计算中有许多实际应用：

3.1. 数据增强

在机器学习中，数据增强是一种常用的技术，用于通过对现有数据进行微小的修改来扩充数据集。repeat() 函数可以用于创建重复的样本，从而增加数据集的大小。

“`python
import numpy as np

假设有一个包含图像特征的数组

features = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

将每个样本重复 3 次，进行数据增强

augmented_features = np.repeat(features, 3, axis=0)

print(augmented_features)
“`

3.2. 创建重复模式

repeat() 函数可以用于创建具有特定重复模式的数组。例如，如果您需要一个数组，其中包含交替出现的 0 和 1，可以使用 repeat() 来实现：

“`python
import numpy as np

pattern = np.array([0, 1])
repeated_pattern = np.repeat(pattern, 5)

print(repeated_pattern) # 输出: [0 0 0 0 0 1 1 1 1 1]
“`

3.3. 插值和上采样

在信号处理和图像处理中，插值和上采样是常见的操作，用于增加数据的分辨率。repeat() 函数可以作为一种简单的插值方法，通过重复现有数据点来填充新的采样点。

“`python
import numpy as np

假设有一个低分辨率的信号

signal = np.array([1, 2, 3, 4])

通过重复每个采样点来进行上采样

upsampled_signal = np.repeat(signal, 2)

print(upsampled_signal) # 输出: [1 1 2 2 3 3 4 4]
“`

3.4. 构建测试数据

在软件开发和测试中，经常需要创建具有特定结构的测试数据。repeat() 函数可以帮助您快速生成符合要求的测试数据。

“`python
import numpy as np

创建一个包含重复 ID 的数组，用于模拟数据库中的重复记录

ids = np.array([1, 2, 3])
repeated_ids = np.repeat(ids, [2, 1, 3]) # 模拟 ID 1 重复 2 次，ID 2 重复 1 次，ID 3 重复 3 次

print(repeated_ids) # 输出: [1 1 2 3 3 3]
“`

3.5 权重复制

在某些机器学习算法中,需要对样本进行加权,此时可以利用repeat函数,根据样本权重,复制样本.

“`python
import numpy as np

samples = np.array([[1,2],[3,4],[5,6]])
weights = np.array([2,1,3])

weighted_samples = np.repeat(samples, weights, axis=0)
print(weighted_samples)

输出:

[[1 2]

[1 2]

[3 4]

[5 6]

[5 6]]

“`

4. `repeat()` 函数：与其他复制方法的比较

NumPy 提供了多种复制数组的方法，除了 repeat() 函数外，还有 tile() 函数、copy() 方法以及直接索引等。了解这些方法之间的区别和联系，有助于您在不同场景下选择最合适的方法。

4.1. `repeat()` vs. `tile()`

tile() 函数的功能是平铺数组，即以整个数组为单位进行复制。与 repeat() 沿着元素级别进行复制不同，tile() 将整个数组视为一个单元，并在指定的维度上重复这个单元。

“`python
import numpy as np

arr = np.array([[1, 2], [3, 4]])

使用 repeat() 沿着 axis=0 重复

arr_repeated = np.repeat(arr, 2, axis=0)
print(“repeat() 结果:\n”, arr_repeated)

[[1 2]

[1 2]

[3 4]

[3 4]]

使用 tile() 在行方向上重复 2 次

arr_tiled = np.tile(arr, (2, 1)) # (2, 1) 表示在行方向重复 2 次，列方向重复 1 次
print(“tile() 结果:\n”, arr_tiled)

[[1 2]

[3 4]

[1 2]

[3 4]]

`` 从示例可以看出,repeat是每个元素各自重复,而tile`是整个数组作为一个单元,进行块状重复.

4.2. `repeat()` vs. `copy()`

copy() 方法用于创建数组的副本。与 repeat() 不同，copy() 只是简单地复制整个数组，而不改变数组的形状或内容。

“`python
import numpy as np

arr = np.array([1, 2, 3])

使用 copy() 复制数组

arr_copy = arr.copy()

修改副本不会影响原始数组

arr_copy[0] = 10

print(“原始数组:”, arr) # 输出: 原始数组: [1 2 3]
print(“副本:”, arr_copy) # 输出: 副本: [10 2 3]
“`

4.3. `repeat()` vs. 直接索引

直接索引也可以用于复制数组的某些部分，但通常不如 repeat() 函数灵活。

“`python
import numpy as np

arr = np.array([1, 2, 3, 4, 5])

使用直接索引复制部分元素

arr_subset = arr[1:4] # 复制索引 1 到 3 的元素

print(arr_subset) # 输出: [2 3 4]
`` 直接索引适合于提取连续的子数组，而repeat()` 更适合于按照特定模式重复元素。

5. 总结

NumPy 的 repeat() 函数是一个功能强大的工具，用于沿着指定轴重复数组中的元素。通过灵活控制 repeats 参数和 axis 参数，您可以实现各种复杂的数组复制操作。repeat() 函数在数据增强、创建重复模式、插值、构建测试数据、机器学习样本加权等场景中都有广泛的应用。

掌握 repeat() 函数，并将其与其他 NumPy 数组操作（如 tile()、copy() 和直接索引）结合使用，可以显著提高您处理 NumPy 数组的效率和灵活性。希望本文的详细解析能够帮助您深入理解 repeat() 函数，并在实际工作中熟练运用。

NumPy 数组复制：repeat() 函数的全面解析

1. repeat() 函数：基础入门

1.1. 核心功能：元素重复

1.2. 基本语法

1.3. 返回值

1.4. 简单示例

示例 1：重复单个数字

示例 2：重复一维数组，所有元素重复相同次数

示例 3：重复一维数组，每个元素重复不同次数

示例 4：重复二维数组，axis=None

示例 5：重复二维数组，axis=0

输出:

[[1 2]

[1 2]

[3 4]

[3 4]]

示例 6：重复二维数组，axis=1

输出:

[[1 1 2 2]

[3 3 4 4]]

示例7：重复二维数组，axis=1, 每个元素重复次数不同

输出：

[[1 1 2]

[3 3 4]]

2. repeat() 函数：进阶用法

2.1. 与多维数组的交互

创建一个三维数组

[[[1 2]

[3 4]]

[[5 6]

[7 8]]]

沿着 axis=0 重复

[[[1 2]

[3 4]]

[[1 2]

[3 4]]

[[5 6]

[7 8]]

[[5 6]

[7 8]]]

沿着 axis=1 重复

[[[1 2]

[1 2]

[3 4]

[3 4]]

[[5 6]

[5 6]

[7 8]

[7 8]]]

沿着 axis=2 重复

[[[1 1 2 2]

[3 3 4 4]]

[[5 5 6 6]

[7 7 8 8]]]

2.2. repeats 参数的广播机制

repeats 数组的形状为 (2,)，与 arr 沿着 axis=1 的形状 (3,) 不兼容

但是，NumPy 会将 (2,) 广播为 (2, 1)，然后再广播为(2,3),使其最终可用于计算

输出:

[[1 1 2 2 2]

[4 4 5 5 5]]

2.3. 与结构化数组的交互

创建一个结构化数组

重复结构化数组

输出：

[(b’Alice’, 25, 1.65) (b’Alice’, 25, 1.65) (b’Bob’, 30, 1.8 )

(b’Bob’, 30, 1.8 ) (b’Charlie’, 22, 1.75) (b’Charlie’, 22, 1.75)]

3. repeat() 函数：实际应用场景

3.1. 数据增强

假设有一个包含图像特征的数组

将每个样本重复 3 次，进行数据增强

3.2. 创建重复模式

3.3. 插值和上采样

假设有一个低分辨率的信号

通过重复每个采样点来进行上采样

3.4. 构建测试数据

创建一个包含重复 ID 的数组，用于模拟数据库中的重复记录

3.5 权重复制

输出:

[[1 2]

[1 2]

NumPy 数组复制：`repeat()` 函数的全面解析

1. `repeat()` 函数：基础入门

2. `repeat()` 函数：进阶用法

2.2. `repeats` 参数的广播机制

3. `repeat()` 函数：实际应用场景

4. `repeat()` 函数：与其他复制方法的比较

4.1. `repeat()` vs. `tile()`

4.2. `repeat()` vs. `copy()`

4.3. `repeat()` vs. 直接索引