Python OpenCV 详解：安装、使用与核心功能

OpenCV (Open Source Computer Vision Library) 是一个开源的计算机视觉和机器学习软件库。它包含了超过2500种优化的算法，这些算法涵盖了计算机视觉领域的诸多方面，如图像处理、物体检测、人脸识别、运动跟踪、三维重建等等。Python 作为一种简洁、易学且拥有强大社区支持的语言，与 OpenCV 的结合（通常称为 cv2 模块）使得计算机视觉应用的开发变得更加高效和便捷。本文将详细介绍 Python OpenCV 的安装、基本使用方法以及其核心功能。

一、OpenCV 的历史与重要性

OpenCV 最初由英特尔公司于1999年启动，旨在推动计算机视觉研究和商业应用的发展。它采用 C/C++ 编写，但也提供了 Python, Java, MATLAB 等语言的接口。其跨平台特性（支持 Windows, Linux, macOS, Android, iOS）和 BSD 开源许可证使其在全球范围内得到了广泛的应用。

OpenCV 的重要性体现在：

学术研究的基础：许多计算机视觉领域的研究论文和项目都基于 OpenCV 实现其算法。
工业应用的加速器：从安防监控、医疗影像分析到自动驾驶、机器人视觉，OpenCV 提供了成熟的工具集，大大缩短了开发周期。
教育和学习的良师益友：对于初学者而言，OpenCV 提供了丰富的示例和易用的API，是进入计算机视觉领域的绝佳途径。
庞大的社区支持：遇到问题时，可以方便地从网络、论坛和社区中找到解决方案和帮助。

二、安装 Python OpenCV

安装 OpenCV 的 Python 绑定通常非常简单，主要依赖 Python 的包管理工具 pip。

1. 环境准备：

Python 环境：确保你的系统已经安装了 Python。推荐使用 Python 3.6 或更高版本。可以从 Python 官网 (python.org) 下载并安装。
pip 工具：pip 是 Python 的包安装器，通常随 Python 一同安装。可以通过在命令行输入 pip --version 来检查其是否可用。如果需要升级，可以运行 python -m pip install --upgrade pip。
NumPy 库：OpenCV 严重依赖 NumPy 进行图像数据的处理（图像在 OpenCV 中以 NumPy 数组的形式表示）。通常在安装 OpenCV 时，如果 NumPy 未安装，pip 会自动处理依赖并安装它。但手动先安装也是一个好习惯：pip install numpy

2. 安装 OpenCV 主包：

对于大多数用户，推荐安装包含主要模块的包：
bash pip install opencv-python
这个包包含了 OpenCV 库的核心功能。

3. 安装包含贡献模块的包（可选但推荐）：

OpenCV 社区维护着一个名为 opencv_contrib 的仓库，其中包含了一些额外的、实验性的或者有专利限制（需要注意使用场景）的模块，例如 SIFT, SURF 等特征检测算法（尽管较新版本的 OpenCV 可能已将部分此类算法移出或标记为非自由）。如果需要这些高级功能，可以安装：
bash pip install opencv-contrib-python
注意：opencv-python 和 opencv-contrib-python 不能同时安装。如果你安装了 opencv-contrib-python，它已经包含了 opencv-python 的所有内容。如果之前安装了前者，需要先卸载 (pip uninstall opencv-python) 再安装后者。

4. 无头版本（服务器环境）：

如果在没有图形界面的服务器上运行（例如，不需要通过 cv2.imshow() 显示图像），可以选择安装无头版本：
* pip install opencv-python-headless
* pip install opencv-contrib-python-headless

5. 验证安装：

安装完成后，可以在 Python 解释器中导入 cv2 模块并打印其版本号来验证是否安装成功：
python import cv2 print(cv2.__version__)
如果成功打印出版本号（如 4.5.5），则表示 OpenCV 已成功安装。

三、Python OpenCV 基本使用

掌握了安装之后，我们来看一些 OpenCV 的基本操作。

1. 导入模块：
在 Python 脚本的开头，首先需要导入 cv2 模块：
python import cv2 import numpy as np # 通常也会导入numpy

2. 读取图像：
使用 cv2.imread() 函数读取图像。
“`python

读取图像，参数1：图像路径，参数2：读取方式

cv2.IMREAD_COLOR : 加载彩色图像。任何图像的透明度都将被忽略。这是默认标志。

cv2.IMREAD_GRAYSCALE : 以灰度模式加载图像

cv2.IMREAD_UNCHANGED : 加载图像，包括alpha通道（如果存在）

img_path = ‘path/to/your/image.jpg’
image = cv2.imread(img_path, cv2.IMREAD_COLOR)

检查图像是否成功加载

if image is None:
print(f”错误：无法加载图像 {img_path}”)
else:
print(“图像加载成功!”)
“`
OpenCV 读取的彩色图像默认是以 BGR (Blue, Green, Red) 顺序存储像素值的，而不是常见的 RGB 顺序。

3. 显示图像：
使用 cv2.imshow() 函数显示图像。
“`python
cv2.imshow(‘Image Title’, image) # 参数1：窗口标题，参数2：图像对象

cv2.waitKey() 是一个键盘绑定函数。其参数是以毫秒为单位的时间。

如果传递0，它将无限期地等待一次击键。

它还处理GUI事件，所以必须使用它来显示图像。

key = cv2.waitKey(0) # 等待用户按键

cv2.destroyAllWindows() 销毁我们创建的所有窗口。

如果只想销毁特定窗口，请使用 cv2.destroyWindow() 并传递确切的窗口名称。

cv2.destroyAllWindows()

如果按下 ‘s’键，则保存图像并退出

if key == ord(‘s’):
cv2.imwrite(‘saved_image.png’, image)
cv2.destroyAllWindows()
“`

4. 保存图像：
使用 cv2.imwrite() 函数保存图像。
python cv2.imwrite('output_image.jpg', image) # 参数1：保存路径及文件名，参数2：图像对象

5. 获取图像属性：
图像在 OpenCV 中是以 NumPy 数组的形式存在的。
“`python
height, width, channels = image.shape
print(f”图像高度: {height} 像素”)
print(f”图像宽度: {width} 像素”)
print(f”图像通道数: {channels}”) # 彩色图通常是3 (BGR)，灰度图是1

size = image.size # 图像的总像素数 (height * width * channels)
print(f”图像总像素数: {size}”)

dtype = image.dtype # 图像数据类型，通常是 uint8 (0-255)
print(f”图像数据类型: {dtype}”)
“`

6. 访问和修改像素值：
可以直接通过 NumPy 数组的索引来访问和修改像素。
“`python

获取 (row, col) 处的像素值 (例如第100行，第50列)

(b, g, r) = image[100, 50]
print(f”Pixel at (100, 50) – Blue: {b}, Green: {g}, Red: {r}”)

修改 (row, col) 处的像素值为白色

image[100, 50] = [255, 255, 255]

也可以单独操作某个通道

将 (100,50) 处蓝色通道的值设为0

image[100, 50, 0] = 0 # 0是B通道，1是G通道，2是R通道
“`
注意：对于大规模像素操作，直接使用 NumPy 的数组运算会比逐个像素循环访问高效得多。

7. 图像ROI（Region of Interest）：
可以使用 NumPy 的切片功能方便地选取图像的感兴趣区域。
“`python
roi = image[100:200, 200:300] # 选择行从100到199，列从200到299的区域
cv2.imshow(‘ROI’, roi)
cv2.waitKey(0)
cv2.destroyAllWindows()

也可以将ROI复制到图像的其他位置

image[0:100, 0:100] = roi # 将roi区域复制到图像左上角
“`

8. 视频处理：
OpenCV 也能处理视频，可以从文件读取或从摄像头捕获。

从文件读取视频：
“`python
cap = cv2.VideoCapture(‘path/to/your/video.mp4’)

if not cap.isOpened():
print(“错误: 无法打开视频文件”)
else:
while cap.isOpened():
ret, frame = cap.read() # ret 是布尔值，表示是否成功读取帧；frame是读取到的帧
if ret:
cv2.imshow(‘Video Frame’, frame)
# 按 ‘q’ 键退出循环
if cv2.waitKey(25) & 0xFF == ord(‘q’): # 等待25ms，如果期间按下’q’则退出
break
else:
break # 视频结束或读取错误

cap.release() # 释放VideoCapture对象
cv2.destroyAllWindows()
“`
从摄像头捕获：
“`python
cap = cv2.VideoCapture(0) # 0通常代表默认摄像头，可以尝试1, 2等选择其他摄像头

if not cap.isOpened():
print(“错误: 无法打开摄像头”)
else:
# 获取并设置摄像头分辨率（可选）
# cap.set(cv2.CAP_PROP_FRAME_WIDTH, 640)
# cap.set(cv2.CAP_PROP_FRAME_HEIGHT, 480)
```
while True:
    ret, frame = cap.read()
    if ret:
        # 可以对frame进行各种处理
        # gray_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)
        cv2.imshow('Camera Feed', frame)
        if cv2.waitKey(1) & 0xFF == ord('q'):
            break
    else:
        print("无法接收帧 (数据流结束?). 正在退出 ...")
        break
```
cap.release()
cv2.destroyAllWindows()
“`

四、OpenCV 核心功能详解

OpenCV 的功能非常强大，这里列举一些最常用和核心的功能。

1. 图像基本处理：

颜色空间转换 cv2.cvtColor()：
OpenCV 支持多种颜色空间之间的转换，最常用的是 BGR 与灰度图 (Grayscale)、HSV (Hue, Saturation, Value) 之间的转换。
python gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) hsv_image = cv2.cvtColor(image, cv2.COLOR_BGR2HSV) # cv2.imshow('Grayscale', gray_image) # cv2.imshow('HSV', hsv_image) # cv2.waitKey(0) # cv2.destroyAllWindows()
灰度图像常用于简化算法和减少计算量。HSV 颜色空间对于颜色检测和跟踪非常有用，因为它将颜色信息 (Hue) 与亮度信息 (Value) 分离。
图像阈值处理 cv2.threshold()：
阈值处理是将灰度图像转换为二值图像（只有黑色和白色）的常用方法。
“`python
# ret, binary_image = cv2.threshold(src, thresh, maxval, type)
# src: 输入图像，通常是灰度图
# thresh: 阈值
# maxval: 当像素值超过阈值（或小于阈值，取决于type）时赋予的新值
# type: 阈值类型，如 cv2.THRESH_BINARY, cv2.THRESH_BINARY_INV, cv2.THRESH_TRUNC, cv2.THRESH_TOZERO, cv2.THRESH_TOZERO_INV

ret, thresh1 = cv2.threshold(gray_image, 127, 255, cv2.THRESH_BINARY)

大于127的像素变为255（白色），小于等于127的变为0（黑色）

`` 还有自适应阈值cv2.adaptiveThreshold()，它会根据图像不同区域的亮度动态计算阈值，对于光照不均的图像效果更好。Otsu's Binarization (cv2.THRESH_OTSU`) 是一种自动计算全局阈值的有效方法。

2. 图像滤波与平滑：
图像滤波用于去噪、平滑图像或锐化图像。

均值滤波 cv2.blur() 或 cv2.boxFilter()： 用卷积核覆盖区域所有像素的平均值来替代中心元素。
python blurred_image = cv2.blur(image, (5, 5)) # (5,5)是卷积核大小
高斯滤波 cv2.GaussianBlur()： 与均值滤波类似，但卷积核中的数值满足高斯分布，中心的像素有更高的权重。去噪效果更好，边缘保留相对较好。
python gaussian_blurred = cv2.GaussianBlur(image, (5, 5), 0) # 第三个参数是sigmaX，如果为0则自动计算
中值滤波 cv2.medianBlur()： 用卷积核区域内像素值的中值来替代中心像素的值。对去除椒盐噪声（salt-and-pepper noise）特别有效。
python median_blurred = cv2.medianBlur(image, 5) # 核大小必须是奇数
双边滤波 cv2.bilateralFilter()： 能够在去除噪声的同时保持边缘清晰。它不仅考虑了像素间的空间邻近度，还考虑了像素值相似度。
python bilateral_filtered = cv2.bilateralFilter(image, 9, 75, 75) # 参数: d（邻域直径）, sigmaColor（颜色空间标准差）, sigmaSpace（坐标空间标准差）

3. 形态学转换 (Morphological Transformations)：
这是一系列基于形状的图像处理操作，通常在二值图像上进行。需要一个结构元素（kernel）来定义操作的范围。

腐蚀 (Erosion) cv2.erode()： “腐蚀”掉前景物体的边界。使白色区域（前景）变小，黑色区域（背景）扩大。可用于去除小的白色噪点。
膨胀 (Dilation) cv2.dilate()： 与腐蚀相反，使前景物体扩张。可用于连接断开的白色区域或填充物体内的小孔。
python kernel = np.ones((5,5), np.uint8) # 定义一个5x5的矩形结构元素 eroded_image = cv2.erode(binary_image, kernel, iterations=1) dilated_image = cv2.dilate(binary_image, kernel, iterations=1)
开运算 (Opening) cv2.morphologyEx(..., cv2.MORPH_OPEN, ...)： 先腐蚀后膨胀。主要用于去除小的噪点（暗背景上的亮点）。
闭运算 (Closing) cv2.morphologyEx(..., cv2.MORPH_CLOSE, ...)： 先膨胀后腐蚀。主要用于填充前景物体中的小洞或连接邻近物体。
形态学梯度 cv2.morphologyEx(..., cv2.MORPH_GRADIENT, ...)： 膨胀图与腐蚀图之差，可以得到物体的轮廓。
顶帽 (Top Hat) cv2.morphologyEx(..., cv2.MORPH_TOPHAT, ...)： 原图像与开运算结果之差。用于分离比邻近点亮的斑块。
黑帽 (Black Hat) cv2.morphologyEx(..., cv2.MORPH_BLACKHAT, ...)： 闭运算结果与原图像之差。用于分离比邻近点暗的斑块。

4. 几何变换：

缩放 cv2.resize()：
python resized_image = cv2.resize(image, None, fx=0.5, fy=0.5, interpolation=cv2.INTER_LINEAR) # fx, fy 是缩放因子；或者直接指定目标尺寸 (width, height) # resized_image_abs = cv2.resize(image, (new_width, new_height), interpolation=cv2.INTER_AREA) # INTER_AREA 适合缩小，INTER_CUBIC (慢) 或 INTER_LINEAR 适合放大。
平移 cv2.warpAffine()： 需要一个2×3的变换矩阵 M。
python rows, cols, _ = image.shape M_translate = np.float32([[1, 0, 100], [0, 1, 50]]) # x方向平移100，y方向平移50 translated_image = cv2.warpAffine(image, M_translate, (cols, rows))
旋转 cv2.getRotationMatrix2D() 和 cv2.warpAffine()：
python center = (cols // 2, rows // 2) # 旋转中心 angle = 45 # 旋转角度（逆时针为正） scale = 1.0 # 缩放因子 M_rotate = cv2.getRotationMatrix2D(center, angle, scale) rotated_image = cv2.warpAffine(image, M_rotate, (cols, rows))
仿射变换 cv2.getAffineTransform() 和 cv2.warpAffine()：
需要原图中不共线的3个点及其在目标图像中的对应位置。
python pts1 = np.float32([[50,50],[200,50],[50,200]]) pts2 = np.float32([[10,100],[200,50],[100,250]]) M_affine = cv2.getAffineTransform(pts1, pts2) affine_transformed_image = cv2.warpAffine(image, M_affine, (cols, rows))
透视变换 cv2.getPerspectiveTransform() 和 cv2.warpPerspective()：
需要原图中不共线的4个点及其在目标图像中的对应位置。常用于校正倾斜的文档或物体。
python # 假设我们有源图像上的四个点 src_pts 和目标图像上对应的四个点 dst_pts # src_pts = np.float32([[x1,y1],[x2,y2],[x3,y3],[x4,y4]]) # dst_pts = np.float32([[x1',y1'],[x2',y2'],[x3',y3'],[x4',y4']]) # M_perspective = cv2.getPerspectiveTransform(src_pts, dst_pts) # perspective_transformed_image = cv2.warpPerspective(image, M_perspective, (output_width, output_height))

5. 边缘检测：

Canny 边缘检测 cv2.Canny()： 一个非常流行的多阶段边缘检测算法。
python edges = cv2.Canny(image, threshold1=100, threshold2=200) # threshold1 和 threshold2 是最小和最大阈值，用于滞后阈值化。 # 先对图像进行高斯模糊去噪通常能得到更好的Canny边缘。 # blurred_for_canny = cv2.GaussianBlur(gray_image, (5,5), 0) # edges = cv2.Canny(blurred_for_canny, 50, 150)
其他边缘检测算子还有 Sobel, Scharr, Laplacian 等，它们主要计算图像梯度。

6. 轮廓 (Contours) 处理：
轮廓可以简单地解释为连接所有具有相同颜色或强度的连续点（沿边界）的曲线。

查找轮廓 cv2.findContours()：
python # 通常在二值图像上查找轮廓 # ret, thresh_img = cv2.threshold(gray_image, 127, 255, cv2.THRESH_BINARY) contours, hierarchy = cv2.findContours(thresh1, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE) # contours: 一个Python列表，每个元素是一个轮廓（即Numpy数组，包含轮廓上点的(x,y)坐标） # hierarchy: 轮廓的层级信息 # cv2.RETR_EXTERNAL: 只检索最外层的轮廓 # cv2.RETR_LIST: 检索所有轮廓，但不建立父子关系 # cv2.RETR_CCOMP: 检索所有轮廓，并将它们组织为两层结构 # cv2.RETR_TREE: 检索所有轮廓，并重构嵌套轮廓的完整层级 # cv2.CHAIN_APPROX_NONE: 存储所有轮廓点 # cv2.CHAIN_APPROX_SIMPLE: 压缩水平、垂直和对角线段，只保留其端点。例如，矩形的轮廓只有4个点。
绘制轮廓 cv2.drawContours()：
python image_with_contours = image.copy() # 创建副本以绘制轮廓，避免修改原图 cv2.drawContours(image_with_contours, contours, -1, (0, 255, 0), 3) # -1表示绘制所有轮廓，(0,255,0)是绿色，3是线条粗细 # cv2.imshow('Contours', image_with_contours) # cv2.waitKey(0)
轮廓特征：
可以计算轮廓的多种特征，如面积 (cv2.contourArea())、周长 (cv2.arcLength())、轮廓近似 (cv2.approxPolyDP())、凸包 (cv2.convexHull())、边界矩形 (cv2.boundingRect(), cv2.minAreaRect())、最小包围圆 (cv2.minEnclosingCircle()) 等。这些特征对于物体识别和分析非常有用。

7. 直方图 (Histograms)：
直方图是图像中像素强度分布的图形表示。

计算直方图 cv2.calcHist()：
“`python
# 对于灰度图
hist_gray = cv2.calcHist([gray_image], [0], None, [256], [0, 256])
# [gray_image]: 源图像列表
# [0]: 通道索引（灰度图只有一个通道0）
# None: 掩码图像，如果处理整个图像则为None
# [256]: HISTSIZE，BINS的数量
# [0, 256]: 像素值范围

对于彩色图 (分别计算B, G, R通道的直方图)

color = (‘b’, ‘g’, ‘r’)
for i, col in enumerate(color):
hist_channel = cv2.calcHist([image], [i], None, [256], [0, 256])
# plt.plot(hist_channel, color=col) # 可以用matplotlib绘制
# plt.xlim([0, 256])

plt.show()

* **直方图均衡化 `cv2.equalizeHist()`：** 一种改善图像对比度的方法，通常用于灰度图像。python
equalized_gray = cv2.equalizeHist(gray_image)
`` 对于彩色图像，通常先转到 HSV 或 YUV 等颜色空间，对亮度通道 (V 或 Y) 进行均衡化，然后再转回 BGR。CLAHE (Contrast Limited Adaptive Histogram Equalization) (cv2.createCLAHE()`) 是一种更高级的自适应直方图均衡化方法，效果通常更好。

8. 图像金字塔：
图像金字塔是一系列从原始图像派生出来的图像，分辨率逐渐降低。主要有两种类型：高斯金字塔和拉普拉斯金字塔。
* 高斯金字塔 cv2.pyrDown() 和 cv2.pyrUp()：
pyrDown()：对图像进行高斯模糊然后下采样（尺寸减半）。
pyrUp()：对图像进行上采样然后高斯模糊（尺寸加倍，但会损失信息）。
python lower_res = cv2.pyrDown(image) higher_res = cv2.pyrUp(lower_res) # 注意，higher_res 不会和原图 image 完全一样

9. 特征检测与描述：
这是计算机视觉中的一个核心领域，用于识别图像中的显著点（特征点），并为这些点生成描述子，以便进行匹配、跟踪等。

Harris 角点检测 cv2.cornerHarris()： 检测图像中的角点。
Shi-Tomasi 角点检测 cv2.goodFeaturesToTrack()： Harris 角点的改进版。
SIFT (Scale-Invariant Feature Transform), SURF (Speeded Up Robust Features)： 强大的特征检测和描述算法，对尺度、旋转、光照变化具有不变性。但需要注意，在某些 OpenCV 版本中，这些算法可能因为专利问题被放在 opencv-contrib-python 包的 xfeatures2d 模块中，并且可能被标记为非自由软件。
ORB (Oriented FAST and Rotated BRIEF) cv2.ORB_create()： SIFT/SURF 的一个高效、免费的替代方案。
“`python
# 以ORB为例
orb = cv2.ORB_create()
keypoints, descriptors = orb.detectAndCompute(gray_image, None)
# keypoints: 检测到的关键点列表
# descriptors: 关键点的描述子，是一个NumPy数组

绘制关键点

image_with_keypoints = cv2.drawKeypoints(image, keypoints, None, color=(0,255,0), flags=0)

cv2.imshow(‘ORB Keypoints’, image_with_keypoints)

cv2.waitKey(0)

* **特征匹配 `cv2.BFMatcher()` 或 `cv2.FlannBasedMatcher`：** 一旦从两幅图像中提取了特征描述子，就可以使用匹配器来寻找它们之间的匹配。python

假设有 img1, img2 和它们对应的描述子 des1, des2

bf = cv2.BFMatcher(cv2.NORM_HAMMING, crossCheck=True) # NORM_HAMMING用于ORB等二进制描述子

matches = bf.match(des1, des2)

matches = sorted(matches, key = lambda x:x.distance) # 按距离排序

img_matches = cv2.drawMatches(img1, kp1, img2, kp2, matches[:10], None, flags=2) #绘制前10个匹配

“`

10. 物体检测：
OpenCV 提供了多种物体检测方法。

Haar 级联分类器 cv2.CascadeClassifier()：
一种基于机器学习的有效物体检测方法，常用于人脸、眼睛、行人等的检测。OpenCV 自带了预训练好的 Haar 分类器 XML 文件。
“`python
face_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + ‘haarcascade_frontalface_default.xml’)
eye_cascade = cv2.CascadeClassifier(cv2.data.haarcascades + ‘haarcascade_eye.xml’)

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

faces = face_cascade.detectMultiScale(gray_image, scaleFactor=1.1, minNeighbors=5, minSize=(30, 30))

scaleFactor: 图像尺寸每次缩小的比例

minNeighbors: 每个候选矩形应该有多少个邻居才被保留

minSize: 物体的最小尺寸

for (x, y, w, h) in faces:
cv2.rectangle(image, (x, y), (x+w, y+h), (255, 0, 0), 2) # 在人脸上画蓝色矩形
roi_gray = gray_image[y:y+h, x:x+w]
roi_color = image[y:y+h, x:x+w]
eyes = eye_cascade.detectMultiScale(roi_gray)
for (ex, ey, ew, eh) in eyes:
cv2.rectangle(roi_color, (ex, ey), (ex+ew, ey+eh), (0, 255, 0), 2) # 在眼睛上画绿色矩形

cv2.imshow(‘Face Detection’, image)

cv2.waitKey(0)

* **HOG (Histogram of Oriented Gradients) 特征：** 常与 SVM 分类器结合用于行人检测。 * **深度学习模型 (DNN 模块 `cv2.dnn`)：** OpenCV 的 `dnn` 模块支持加载和运行预训练的深度学习模型，例如来自 TensorFlow, Caffe, PyTorch, Darknet (YOLO) 等框架的模型，用于更高级的物体检测、图像分割和分类任务。python

示例：使用预训练的 MobileNet SSD 模型进行物体检测

model_path = “path/to/MobileNetSSD_deploy.caffemodel”

config_path = “path/to/MobileNetSSD_deploy.prototxt.txt”

net = cv2.dnn.readNetFromCaffe(config_path, model_path)

blob = cv2.dnn.blobFromImage(cv2.resize(image, (300, 300)), 0.007843, (300, 300), 127.5)

net.setInput(blob)

detections = net.forward()

# 解析 detections 以获取物体类别、置信度和边界框

“`

11. 视频分析：
除了基本的视频读写，OpenCV 还提供了一些视频分析工具。

背景减除：
cv2.createBackgroundSubtractorMOG2() 或 cv2.createBackgroundSubtractorKNN() 可以创建背景减除器对象，用于从视频中分离前景物体。
光流估计：
cv2.calcOpticalFlowFarneback() (稠密光流) 或 cv2.calcOpticalFlowPyrLK() (Lucas-Kanade 稀疏光流) 用于估计视频帧之间像素的运动。

五、总结与展望

Python OpenCV 是一个功能极其丰富的库，为计算机视觉开发者提供了强大的工具。从基础的图像读写、颜色转换、滤波，到高级的特征检测、物体识别、视频分析，乃至深度学习模型的集成，OpenCV 几乎涵盖了计算机视觉的方方面面。

本文详细介绍了 OpenCV 的安装过程、基本图像和视频操作，并对一些核心功能（如图像处理、形态学、几何变换、边缘检测、轮廓、直方图、特征工程、物体检测等）进行了深入的阐述。

要精通 OpenCV，除了理解这些基础知识和核心功能外，还需要大量的实践。尝试将这些技术应用于实际问题，例如创建自己的图像滤镜、实现简单的物体跟踪器、或者构建一个基于 Haar 特征的人脸打卡系统等。随着深度学习的兴起，将 OpenCV 与 TensorFlow, PyTorch 等框架结合使用，可以解决更复杂的视觉任务。

计算机视觉是一个不断发展的领域，OpenCV 也在持续更新和进步。保持学习的热情，关注社区动态，你将在计算机视觉的世界中发现无限可能。

希望这篇文章能够帮助您全面了解 Python OpenCV！

Python OpenCV 详解：安装、使用与核心功能

一、OpenCV 的历史与重要性

二、安装 Python OpenCV

三、Python OpenCV 基本使用

读取图像，参数1：图像路径，参数2：读取方式

cv2.IMREAD_COLOR : 加载彩色图像。任何图像的透明度都将被忽略。这是默认标志。

cv2.IMREAD_GRAYSCALE : 以灰度模式加载图像

cv2.IMREAD_UNCHANGED : 加载图像，包括alpha通道（如果存在）

检查图像是否成功加载

cv2.waitKey() 是一个键盘绑定函数。其参数是以毫秒为单位的时间。

如果传递0，它将无限期地等待一次击键。

它还处理GUI事件，所以必须使用它来显示图像。

cv2.destroyAllWindows() 销毁我们创建的所有窗口。

如果只想销毁特定窗口，请使用 cv2.destroyWindow() 并传递确切的窗口名称。

如果按下 ‘s’键，则保存图像并退出

获取 (row, col) 处的像素值 (例如第100行，第50列)

修改 (row, col) 处的像素值为白色

也可以单独操作某个通道

将 (100,50) 处蓝色通道的值设为0

也可以将ROI复制到图像的其他位置

四、OpenCV 核心功能详解

大于127的像素变为255（白色），小于等于127的变为0（黑色）

对于彩色图 (分别计算B, G, R通道的直方图)

plt.show()

绘制关键点

image_with_keypoints = cv2.drawKeypoints(image, keypoints, None, color=(0,255,0), flags=0)

cv2.imshow(‘ORB Keypoints’, image_with_keypoints)

cv2.waitKey(0)

假设有 img1, img2 和它们对应的描述子 des1, des2

bf = cv2.BFMatcher(cv2.NORM_HAMMING, crossCheck=True) # NORM_HAMMING用于ORB等二进制描述子

matches = bf.match(des1, des2)

matches = sorted(matches, key = lambda x:x.distance) # 按距离排序

img_matches = cv2.drawMatches(img1, kp1, img2, kp2, matches[:10], None, flags=2) #绘制前10个匹配

gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

scaleFactor: 图像尺寸每次缩小的比例

minNeighbors: 每个候选矩形应该有多少个邻居才被保留

minSize: 物体的最小尺寸

cv2.imshow(‘Face Detection’, image)

cv2.waitKey(0)

示例：使用预训练的 MobileNet SSD 模型进行物体检测

model_path = “path/to/MobileNetSSD_deploy.caffemodel”

config_path = “path/to/MobileNetSSD_deploy.prototxt.txt”

net = cv2.dnn.readNetFromCaffe(config_path, model_path)

blob = cv2.dnn.blobFromImage(cv2.resize(image, (300, 300)), 0.007843, (300, 300), 127.5)

net.setInput(blob)

detections = net.forward()

# 解析 detections 以获取物体类别、置信度和边界框

五、总结与展望

发表评论 取消回复

发表评论取消回复