Python OpenCV 新手入门指南：零基础带你玩转图像处理

欢迎来到激动人心的计算机视觉世界！如果你对图像处理、视频分析或任何与“让计算机看懂世界”相关的技术感兴趣，那么 OpenCV 绝对是你不可错过的强大工具。而将 OpenCV 与易学易用的 Python 语言结合，更是让你事半功倍。

本指南旨在帮助完全没有 OpenCV 或计算机视觉基础的 Python 开发者快速上手。我们将从环境搭建开始，逐步深入 OpenCV 的核心概念和基本操作，带你亲自动手处理图像和视频。

预计阅读时间： 15-20 分钟
目标读者： 对计算机视觉感兴趣的 Python 初学者

引言：什么是 OpenCV？为什么选择 Python？

OpenCV (Open Source Computer Vision Library) 是一个开源的计算机视觉和机器学习软件库。它拥有超过2500个优化过的算法，涵盖了计算机视觉领域的诸多方面，例如：

图像和视频的读取、写入和显示
基本的图像处理（滤波、边缘检测、形态学操作等）
特征检测与匹配
目标检测（如人脸检测）
目标跟踪
相机标定
三维重建
机器学习算法（K-Means、SVM 等）

OpenCV 最初由 Intel 开发，现在由 Willow Garage 和 Itseez（已被 Intel 收购）维护，并在 Apache 2 License 下提供，可以免费用于学术和商业用途。

为什么选择 Python 与 OpenCV 结合？

Python 语言以其简洁的语法和丰富的库生态系统而闻名。将 Python 与 OpenCV 结合有以下显著优势：

易于学习和使用： Python 代码易于阅读和编写，大大降低了计算机视觉的入门门槛。
快速原型开发： Python 的交互式特性和强大的库支持（如 NumPy, Matplotlib）使得快速测试和迭代想法变得非常容易。
丰富的生态系统： Python 拥有庞大的科学计算和数据处理库，可以方便地与 OpenCV 集成，例如使用 NumPy 进行图像数据操作，使用 Matplotlib 进行可视化。
社区支持： Python 和 OpenCV 都有庞大的用户社区，遇到问题时很容易找到解决方案。

虽然 OpenCV 库的核心算法通常由 C++ 实现以保证性能，但 Python 接口提供了极大的便利性，对于大多数应用而言，Python 的性能已经足够。

第一步：环境搭建

开始之前，你需要确保系统中已经安装了 Python。推荐使用 Python 3.6 或更高版本。

安装 Python OpenCV 库非常简单，只需使用 Python 的包管理器 pip：

打开终端或命令提示符，运行以下命令：

bash pip install opencv-python

如果你需要访问一些额外的非免费或 contrib 模块（比如 SIFT、SURF 等专利算法，尽管新版本中 SIFT/SURF 已开源），可以安装 opencv-contrib-python：

bash pip install opencv-contrib-python
对于新手，opencv-python 通常已经足够。

验证安装：

安装完成后，可以在 Python 解释器中测试是否安装成功：

python import cv2 print(cv2.__version__)

如果成功打印出 OpenCV 的版本号，说明安装成功！

第二步：核心概念 – 图像与 NumPy 数组

在 OpenCV 中，图像被表示为 NumPy 数组。这是理解 OpenCV 操作的基础。

图像是多维数组： 一张彩色图像是一个三维 NumPy 数组，维度通常是 (高度, 宽度, 通道数)。一张灰度图像是一个二维 NumPy 数组，维度是 (高度, 宽度)。
通道数：
- 彩色图像通常有 3 个通道，代表颜色信息。
- 重要提示： OpenCV 默认的颜色顺序是 BGR（蓝、绿、红），而不是常见的 RGB。这是一个常见的陷阱，请务必记住！
- 灰度图像只有 1 个通道。
- 带有透明度信息的图像（如 PNG）可能有 4 个通道（BGR + Alpha）。
像素值： 数组中的每个元素代表一个像素的亮度或颜色值。
- 对于 8 位图像（最常见），像素值范围通常是 0 到 255。
- 数据类型通常是 uint8（无符号 8 位整数）。

理解图像是 NumPy 数组的好处在于，你可以直接使用 NumPy 提供的强大功能来操作图像数据，例如切片、索引、数学运算等。

第三步：加载、显示和保存图像

这是 OpenCV 最基本的操作。

1. 加载图像 (cv2.imread)

“`python
import cv2
import numpy as np

指定图像文件路径

请确保同目录下有这张图片，或者提供完整的路径

image_path = ‘my_image.jpg’

使用 cv2.imread() 加载图像

第一个参数是图像路径

第二个参数是读取方式：

cv2.IMREAD_COLOR 或 1: 加载彩色图像 (默认)

cv2.IMREAD_GRAYSCALE 或 0: 加载灰度图像

cv2.IMREAD_UNCHANGED 或 -1: 加载包含 Alpha 通道的原始图像

img = cv2.imread(image_path, cv2.IMREAD_COLOR)

检查图像是否成功加载

if img is None:
print(f”错误：无法加载图像文件 {image_path}”)
else:
print(f”图像加载成功，其 NumPy 数组形状为: {img.shape}”)
# img.shape 对于彩色图像是 (height, width, channels)
# img.shape 对于灰度图像是 (height, width)
“`

注意： 如果 cv2.imread 返回 None，说明文件路径不正确或文件损坏。

2. 显示图像 (cv2.imshow)

加载图像后，你需要一个窗口来显示它。

“`python

假设 img 已经成功加载

使用 cv2.imshow() 显示图像

第一个参数是窗口的名称 (字符串)

第二个参数是要显示的图像 (NumPy 数组)

cv2.imshow(‘我的第一张图像’, img)

cv2.waitKey() 是一个键盘绑定函数

它等待用户按下键盘上的任意键（参数为 0 时）

或等待指定的毫秒数（参数大于 0 时）

如果在指定的毫秒数内没有按键，函数返回 -1

这个函数是必须的，它让 OpenCV 窗口保持显示，并处理窗口事件

cv2.waitKey(0) # 等待无限长，直到用户按键

cv2.destroyAllWindows() 销毁所有 OpenCV 创建的窗口

cv2.destroyWindow(window_name) 可以销毁指定名称的窗口

cv2.destroyAllWindows()
“`

一个完整的加载和显示彩色图像的例子：

“`python
import cv2

image_path = ‘my_image.jpg’ # 替换成你的图片路径

img = cv2.imread(image_path, cv2.IMREAD_COLOR)

if img is None:
print(f”错误：无法加载图像文件 {image_path}”)
else:
cv2.imshow(‘彩色图像’, img)
print(“窗口已显示，请按任意键关闭…”)
cv2.waitKey(0)
cv2.destroyAllWindows()

“`

加载和显示灰度图像：

“`python
import cv2

image_path = ‘my_image.jpg’ # 替换成你的图片路径

img_gray = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)

if img_gray is None:
print(f”错误：无法加载图像文件 {image_path}”)
else:
cv2.imshow(‘灰度图像’, img_gray)
print(“窗口已显示，请按任意键关闭…”)
cv2.waitKey(0)
cv2.destroyAllWindows()

“`

3. 保存图像 (cv2.imwrite)

处理完图像后，你可能想将结果保存到文件。

“`python
import cv2

假设 img_processed 是你处理后的图像 NumPy 数组

output_path = ‘output_image.png’ # 指定输出文件路径和格式

使用 cv2.imwrite() 保存图像

第一个参数是保存路径和文件名（根据文件扩展名自动确定格式）

第二个参数是要保存的图像 (NumPy 数组)

success = cv2.imwrite(output_path, img_processed)

if success:
print(f”图像已成功保存到 {output_path}”)
else:
print(f”保存图像到 {output_path} 失败”)

“`

cv2.imwrite 支持多种格式，如 .jpg, .png, .bmp, .tif 等，OpenCV 会根据文件扩展名选择相应的编码器。

第四步：图像基础操作

了解了图像的加载、显示和保存，接下来我们看看一些基本的图像操作。

1. 访问和修改像素值

由于图像是 NumPy 数组，你可以直接使用 NumPy 的索引来访问和修改像素。

“`python
import cv2
import numpy as np

image_path = ‘my_image.jpg’
img = cv2.imread(image_path, cv2.IMREAD_COLOR)

if img is not None:
# 访问彩色图像的像素：img[行, 列] 返回该像素的 BGR 数组 [B, G, R]
# 注意：OpenCV 使用 (行, 列) 的坐标顺序，对应 NumPy 的 (y, x)
pixel_color = img[100, 150] # 访问 (150, 100) 坐标处的像素 (列150, 行100)
print(f”彩色图像 (150, 100) 处的像素 BGR 值: {pixel_color}”)

# 访问灰度图像的像素：img_gray[行, 列] 返回该像素的灰度值
img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
pixel_gray = img_gray[100, 150]
print(f"灰度图像 (150, 100) 处的像素灰度值: {pixel_gray}")

# 修改彩色图像的像素：将 (50, 50) 处的像素设为红色 (B=0, G=0, R=255)
img[50, 50] = [0, 0, 255] # [B, G, R]

# 修改一块区域的像素：将左上角 50x50 的区域设为蓝色
img[0:50, 0:50] = [255, 0, 0] # [B, G, R]

# 注意：直接逐像素访问和修改效率较低，适合少量操作。
# 对于大批量操作，应尽量使用 OpenCV 的内置函数或 NumPy 的数组操作。

cv2.imshow('修改像素后的图像', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

else:
print(f”错误：无法加载图像文件 {image_path}”)
“`

2. 获取图像属性

可以通过 NumPy 数组的属性获取图像的各种信息：

“`python

假设 img 已经加载

if img is not None:
print(f”图像形状 (高, 宽, 通道数): {img.shape}”)
print(f”像素总数: {img.size}”) # 高 * 宽 * 通道数
print(f”图像数据类型: {img.dtype}”) # 例如 uint8

# 获取图像的高度和宽度
height, width = img.shape[:2] # 使用切片 [0:2] 或 [:2] 获取前两个维度 (高, 宽)
print(f"图像高度: {height}, 图像宽度: {width}")

if img.ndim == 3: # 检查是否是彩色图像 (3 维度)
    channels = img.shape[2]
    print(f"图像通道数: {channels}")

“`

3. 图像裁剪 (Cropping)

裁剪图像就是从 NumPy 数组中提取一个子区域，这通过 NumPy 的切片操作实现：

“`python

假设 img 已经加载

if img is not None:
# 裁剪图像： img[起始行:结束行, 起始列:结束列]
# 注意：NumPy 切片是 [start, end)，不包含 end
# 例如：img[100:300, 200:400] 会提取从第100行到第299行，从第200列到第399列的区域

# 裁剪出一块区域，例如从 (100, 50) 点开始，向下 200 像素，向右 300 像素
start_row, start_col = 100, 50
end_row, end_col = start_row + 200, start_col + 300

cropped_img = img[start_row:end_row, start_col:end_col]

cv2.imshow('原始图像', img)
cv2.imshow('裁剪后的图像', cropped_img)
print("窗口已显示，请按任意键关闭...")
cv2.waitKey(0)
cv2.destroyAllWindows()

else:
print(f”错误：无法加载图像文件 {image_path}”)

“`

4. 图像缩放 (Resizing)

改变图像的尺寸是一个非常常见的操作。使用 cv2.resize() 函数。

“`python

假设 img 已经加载

if img is not None:
# 定义新的尺寸 (宽度, 高度)
# 注意：resize 函数的尺寸参数是 (宽度, 高度)，与 shape 的 (高度, 宽度) 相反
new_width = 300
new_height = 200
new_dim = (new_width, new_height)

# 使用 cv2.resize() 进行缩放
# 插值方法 (interpolation) 选择：
# cv2.INTER_AREA: 图像缩小时推荐
# cv2.INTER_CUBIC: 图像放大时推荐 (较慢)
# cv2.INTER_LINEAR: 默认方法，图像放大时较快
resized_img = cv2.resize(img, new_dim, interpolation = cv2.INTER_AREA)

# 也可以根据比例缩放
# fx, fy 分别是沿水平和垂直方向的比例因子
scale_factor = 0.5 # 缩小到原来的一半
resized_img_scale = cv2.resize(img, None, fx=scale_factor, fy=scale_factor, interpolation = cv2.INTER_LINEAR)


print(f"原图尺寸: {img.shape[:2]}")
print(f"固定尺寸缩放后尺寸: {resized_img.shape[:2]}")
print(f"比例缩放后尺寸: {resized_img_scale.shape[:2]}")

cv2.imshow('原始图像', img)
cv2.imshow('缩放图像 (固定尺寸)', resized_img)
cv2.imshow('缩放图像 (比例)', resized_img_scale)
print("窗口已显示，请按任意键关闭...")
cv2.waitKey(0)
cv2.destroyAllWindows()

else:
print(f”错误：无法加载图像文件 {image_path}”)

“`

第五步：颜色空间转换

图像通常以 BGR 或 RGB 颜色空间表示。但有时为了特定的处理目的，我们需要将图像转换到其他颜色空间，最常见的是灰度图像和 HSV 图像。

HSV (Hue, Saturation, Value) 颜色空间更符合人类感知颜色的方式，它将颜色信息（色相 Hue）、颜色纯度（饱和度 Saturation）和亮度（明度 Value）分离开来，这在基于颜色的目标检测或分割中非常有用。

使用 cv2.cvtColor() 函数进行颜色空间转换。

“`python
import cv2

image_path = ‘my_image.jpg’
img = cv2.imread(image_path) # 默认加载彩色图像

if img is not None:
# 转换为灰度图像
gray_img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 转换为 HSV 图像
hsv_img = cv2.cvtColor(img, cv2.COLOR_BGR2HSV)

# 显示结果
cv2.imshow('原始图像 (BGR)', img)
cv2.imshow('灰度图像', gray_img)
cv2.imshow('HSV 图像', hsv_img) # 注意 HSV 图像直接显示看起来怪怪的，因为 imshow 默认按 BGR 或灰度解释

print("窗口已显示，请按任意键关闭...")
cv2.waitKey(0)
cv2.destroyAllWindows()

else:
print(f”错误：无法加载图像文件 {image_path}”)

“`

cv2.cvtColor 支持非常多的颜色空间转换，详细列表可以查阅 OpenCV 文档。常用的转换码包括：

cv2.COLOR_BGR2GRAY：BGR 到灰度
cv2.COLOR_GRAY2BGR：灰度到 BGR (用于将灰度图转换为彩色图，例如方便在上面绘制彩色图形)
cv2.COLOR_BGR2HSV：BGR 到 HSV
cv2.COLOR_HSV2BGR：HSV 到 BGR
cv2.COLOR_BGR2RGB：BGR 到 RGB (有时需要与 Matplotlib 等库兼容)
cv2.COLOR_RGB2BGR：RGB 到 BGR

第六步：在图像上绘制图形和文字

OpenCV 提供了一系列函数，可以在图像上绘制线条、矩形、圆形等多图形以及添加文本。

重要： 绘制函数通常会直接修改原始图像数组。如果你想保留原始图像，请在绘制前创建一个副本 (img.copy())。

“`python
import cv2
import numpy as np

image_path = ‘my_image.jpg’
img = cv2.imread(image_path)

if img is not None:
# 创建一个副本进行绘制
img_drawn = img.copy()

# 绘制直线
# cv2.line(图像, 起始点坐标, 结束点坐标, 颜色, 线条粗细)
# 坐标是 (x, y) 元组
# 颜色是 (B, G, R) 元组
cv2.line(img_drawn, (50, 50), (200, 50), (0, 255, 0), 2) # 绿色水平线

# 绘制矩形
# cv2.rectangle(图像, 左上角坐标, 右下角坐标, 颜色, 线条粗细)
# 如果线条粗细是 -1，则绘制实心矩形
cv2.rectangle(img_drawn, (50, 100), (200, 200), (255, 0, 0), 3) # 蓝色矩形框

# 绘制圆形
# cv2.circle(图像, 圆心坐标, 半径, 颜色, 线条粗细)
# 如果线条粗细是 -1，则绘制实心圆形
cv2.circle(img_drawn, (300, 150), 50, (0, 0, 255), -1) # 红色实心圆

# 绘制文字
# cv2.putText(图像, 文字内容, 起始坐标, 字体, 字体大小, 颜色, 线条粗细, 线条类型)
# 起始坐标是文字基线（baseline）的左下角
font = cv2.FONT_HERSHEY_SIMPLEX
cv2.putText(img_drawn, 'Hello OpenCV!', (50, 300), font, 1, (255, 255, 255), 2, cv2.LINE_AA) # 白色文字

# 显示绘制结果
cv2.imshow('绘制图形和文字', img_drawn)
print("窗口已显示，请按任意键关闭...")
cv2.waitKey(0)
cv2.destroyAllWindows()

else:
print(f”错误：无法加载图像文件 {image_path}”)

“`

第七步：处理视频和摄像头

OpenCV 不仅能处理静态图像，还能轻松处理视频流，无论是读取视频文件还是捕获摄像头输入。

1. 读取视频文件或摄像头

使用 cv2.VideoCapture() 创建一个视频捕获对象。

“`python
import cv2

参数可以是视频文件路径，或者摄像头的设备索引

通常 0 代表默认摄像头，如果有多个摄像头，可能是 1, 2 等

cap = cv2.VideoCapture(‘my_video.mp4’) # 读取视频文件

cap = cv2.VideoCapture(0) # 捕获默认摄像头

检查是否成功打开

if not cap.isOpened():
print(“错误：无法打开视频源或摄像头”)
else:
print(“视频源/摄像头已打开”)

# 可以获取视频的一些属性，例如帧宽、帧高、帧率等
frame_width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
frame_height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
fps = cap.get(cv2.CAP_PROP_FPS)
print(f"帧宽度: {frame_width}, 帧高度: {frame_height}, 帧率: {fps}")

# 循环读取视频帧
while True:
    # cap.read() 读取下一帧
    # ret 是一个布尔值，表示是否成功读取帧
    # frame 是读取到的帧图像 (一个 NumPy 数组)
    ret, frame = cap.read()

    # 如果没有成功读取帧，可能是视频结束或出错
    if not ret:
        print("无法读取(更多)帧，退出。")
        break

    # 在这里可以对每一帧进行图像处理
    # 例如，将帧转换为灰度
    gray_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)

    # 显示处理后的帧
    cv2.imshow('视频流 (原始)', frame)
    cv2.imshow('视频流 (灰度)', gray_frame)

    # 设置退出条件：等待 1 毫秒，如果按下 'q' 键，则退出循环
    # waitKey(1) 表示每隔 1 毫秒检查一次按键
    if cv2.waitKey(1) & 0xFF == ord('q'):
        break

# 释放视频捕获对象和销毁所有窗口
cap.release()
cv2.destroyAllWindows()

“`

这个例子实现了一个简单的摄像头预览功能，同时将每一帧转换为灰度并显示。你可以将之前学习的各种图像处理操作应用到 frame 变量上。

第八步：进阶之路 (Beyond the Basics)

本指南涵盖了 OpenCV 的最基本概念和操作，为你打开了计算机视觉的大门。OpenCV 的功能远不止于此。一旦你掌握了这些基础，可以继续探索：

图像滤波： 平滑（模糊）、锐化、边缘检测（Sobel, Canny 等）。
形态学操作： 腐蚀、膨胀、开运算、闭运算等，常用于处理二值图像。
阈值分割： 将灰度图像转换为二值图像。
轮廓检测与分析： 寻找图像中的对象边界。
特征检测： SIFT, SURF (在新版本中已开源), ORB 等，用于识别图像中的关键点。
目标检测： Haar Cascades (常用于人脸检测), HOG + SVM, 以及集成深度学习模型（如 YOLO, SSD）。
目标跟踪： 跟踪视频中的特定对象。
相机标定和姿态估计。
图像拼接、立体视觉、增强现实。

学习这些更高级的功能通常需要结合一些数学知识（如线性代数、概率论）以及对算法原理的理解，但这正是计算机视觉的魅力所在。

总结

恭喜你！走到这里，你已经迈出了使用 Python 和 OpenCV 进行图像处理的第一步。我们学习了：

安装 Python OpenCV 库。
理解图像是 NumPy 数组这一核心概念。
如何加载、显示和保存图像。
进行基本的图像操作，如访问像素、裁剪和缩放。
进行颜色空间转换。
在图像上绘制图形和文字。
处理视频和摄像头输入。

这只是冰山一角。计算机视觉是一个广阔而活跃的领域。最重要的是多实践、多尝试。从简单的项目开始，比如：

检测图像中的特定颜色。
对图像应用不同的滤镜效果。
在摄像头画面中实时检测人脸（使用 OpenCV 内置的 Haar Cascade 分类器）。

动手实践是掌握技能的最佳方式。查阅官方文档、参考书籍、在线教程和开源项目，不断提升你的计算机视觉技能。

希望这篇新手指南对你有所帮助。祝你在计算机视觉的学习之旅中一切顺利！

Python OpenCV 新手入门指南：零基础带你玩转图像处理

引言：什么是 OpenCV？为什么选择 Python？

第一步：环境搭建

第二步：核心概念 – 图像与 NumPy 数组

第三步：加载、显示和保存图像

指定图像文件路径

请确保同目录下有这张图片，或者提供完整的路径

使用 cv2.imread() 加载图像

第一个参数是图像路径

第二个参数是读取方式：

cv2.IMREAD_COLOR 或 1: 加载彩色图像 (默认)

cv2.IMREAD_GRAYSCALE 或 0: 加载灰度图像

cv2.IMREAD_UNCHANGED 或 -1: 加载包含 Alpha 通道的原始图像

检查图像是否成功加载

假设 img 已经成功加载

使用 cv2.imshow() 显示图像

第一个参数是窗口的名称 (字符串)

第二个参数是要显示的图像 (NumPy 数组)

cv2.waitKey() 是一个键盘绑定函数

它等待用户按下键盘上的任意键（参数为 0 时）

或等待指定的毫秒数（参数大于 0 时）

如果在指定的毫秒数内没有按键，函数返回 -1

这个函数是必须的，它让 OpenCV 窗口保持显示，并处理窗口事件

cv2.destroyAllWindows() 销毁所有 OpenCV 创建的窗口

cv2.destroyWindow(window_name) 可以销毁指定名称的窗口

假设 img_processed 是你处理后的图像 NumPy 数组

使用 cv2.imwrite() 保存图像

第一个参数是保存路径和文件名（根据文件扩展名自动确定格式）

第二个参数是要保存的图像 (NumPy 数组)

第四步：图像基础操作

假设 img 已经加载

假设 img 已经加载

假设 img 已经加载

第五步：颜色空间转换

第六步：在图像上绘制图形和文字

第七步：处理视频和摄像头

参数可以是视频文件路径，或者摄像头的设备索引

通常 0 代表默认摄像头，如果有多个摄像头，可能是 1, 2 等

cap = cv2.VideoCapture(‘my_video.mp4’) # 读取视频文件

检查是否成功打开

第八步：进阶之路 (Beyond the Basics)

总结

发表评论 取消回复

发表评论取消回复