掌握 Wget：文件与网站下载实用教程

在网络世界的浩瀚海洋中，我们每天都在进行着信息获取与交互。而文件下载，作为获取数字资源最基本的方式之一，贯穿于我们使用电脑和网络的全过程。无论是下载一个软件安装包、一个文档、一部影片，还是备份一个网页、甚至整个网站，我们通常依赖于浏览器提供的下载功能。然而，对于许多高级用户、系统管理员、开发者或者仅仅是需要更高效、更灵活下载方式的人来说，一个强大的命令行工具——wget，则是一个不可或缺的利器。

wget 是一个自由、非交互式的网络下载工具，支持 HTTP、HTTPS 和 FTP 协议。它的设计理念是简单、可靠、强大，尤其擅长处理那些需要自动化、批量化、或者在网络条件不稳定环境下进行的下载任务。与浏览器下载相比，wget 运行在命令行环境中，这意味着它可以轻松地被脚本调用，实现自动化下载；它支持断点续传，即使下载过程中连接中断，也可以在恢复连接后从中断处继续下载；它能够递归下载，可以下载整个网站或特定目录下的文件；它还提供了丰富的选项，允许用户精细控制下载过程，比如限制速度、设置重试次数、模拟用户代理等等。

本文将带你深入了解 wget 的世界，从基础用法到高级技巧，从单文件下载到整个网站的镜像，让你彻底掌握这个强大的下载工具。

1. Wget 的安装

wget 是一个跨平台的工具，可以在绝大多数类 Unix 系统（如 Linux、macOS）以及 Windows 系统上运行。安装过程通常非常简单。

Linux:
在大多数 Linux 发行版中，wget 通常已经预装。如果没有，可以使用相应的包管理器进行安装：
* Debian/Ubuntu:
bash sudo apt update sudo apt install wget
* Fedora/CentOS/RHEL:
bash sudo yum install wget # 或者对于较新的版本 sudo dnf install wget
* Arch Linux:
bash sudo pacman -S wget

macOS:
在 macOS 上，可以使用 Homebrew 这个流行的包管理器来安装 wget：
bash /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" brew install wget

Windows:
在 Windows 上安装 wget 有几种方法：
1. 使用包管理器: 如果你使用 Chocolatey 或 Scoop 这样的 Windows 包管理器，安装就像在 Linux 上一样简单：
* 使用 Chocolatey: choco install wget
* 使用 Scoop: scoop install wget
2. 下载预编译的二进制文件: 你可以从 GnuWin32 或其他第三方网站下载 wget 的 Windows 版本可执行文件（.exe 文件），然后将其所在的目录添加到系统的 PATH 环境变量中，或者直接在文件所在目录使用命令行。
3. 使用 Windows Subsystem for Linux (WSL): 如果你安装了 WSL，就可以在 WSL 环境中使用 Linux 的 wget 版本，这是推荐的 Windows 用户使用 wget 的方式。

安装完成后，打开终端或命令提示符，输入 wget --version，如果能看到版本信息，说明安装成功。

2. Wget 的基本用法：下载单个文件

wget 最基本的功能是下载指定的 URL。只需要在 wget 命令后面加上要下载文件的 URL 即可：

bash wget [选项] <URL>

示例：下载一个安装包

假设我们要下载一个名为 example.tar.gz 的文件，其 URL 是 http://example.com/files/example.tar.gz。

bash wget http://example.com/files/example.tar.gz

执行这个命令后，wget 会连接到 example.com 服务器，请求下载 /files/example.tar.gz 文件。下载过程中，它会在终端显示下载进度、速度、剩余时间等信息。下载完成后，文件会被保存在当前命令行所在的目录下，文件名通常就是 URL 中最后一个斜杠后面的部分，即 example.tar.gz。

指定保存的文件名：-O 或 --output-document

有时候我们希望将下载的文件保存为不同的文件名，或者将其保存到特定的路径下。这时可以使用 -O 选项：

bash wget -O my_download.tar.gz http://example.com/files/example.tar.gz

这会将下载的文件保存为 my_download.tar.gz，而不是默认的 example.tar.gz。

将文件保存到指定目录： -P 或 --directory-prefix

如果你想将文件保存到指定的目录下，可以使用 -P 选项：

bash wget -P /path/to/save/directory http://example.com/files/example.tar.gz

这会将 example.tar.gz 文件下载并保存到 /path/to/save/directory 目录下。

3. 进阶下载技巧

掌握了基本下载，我们来看看 wget 如何应对更复杂的场景。

断点续传：-c 或 --continue

这是 wget 的一个非常重要的特性。当下载大文件时，网络连接可能会中断。使用 -c 选项，可以在中断后重新运行相同的 wget 命令，它会检查本地已下载的文件大小，然后从上次中断的地方继续下载，而不是重新开始。

bash wget -c http://example.com/large_file.zip

如果下载中断了，再次运行相同的命令，wget 会接着上次的进度下载。

下载多个文件：通过文件列表

如果你需要下载大量的 URL，将它们逐个输入命令行既不方便也容易出错。wget 允许你将所有要下载的 URL 放在一个文本文件中，每行一个 URL，然后使用 -i 选项来读取这个文件进行批量下载。

首先，创建一个文本文件，比如 urls.txt，内容如下：

http://example.com/files/file1.pdf http://example.com/files/file2.zip http://example.com/files/file3.tar.gz

然后，使用 -i 选项进行下载：

bash wget -i urls.txt

wget 会依次下载 urls.txt 文件中列出的所有 URL。

后台下载：-b 或 --background

对于长时间的下载任务，你可能不希望它占用当前的终端会话。使用 -b 选项可以让 wget 在后台运行。

bash wget -b http://example.com/very_large_file.iso

执行后，wget 会立即返回命令行提示符，并在后台开始下载。下载过程的输出会被重定向到一个日志文件（默认为 wget-log）。你可以通过查看这个日志文件来监控下载进度。

查看后台下载日志：

bash tail -f wget-log

如果你需要指定日志文件的名称，可以使用 -o 选项：

bash wget -b -o my_download.log http://example.com/another_large_file.iso

限制下载速度：--limit-rate

为了避免下载任务占用过多的带宽影响其他网络应用，你可以使用 --limit-rate 选项来限制下载速度。这个选项接受一个速度值，单位可以是 k (千字节/秒) 或 m (兆字节/秒)。

bash wget --limit-rate=500k http://example.com/speed_limited_download.zip

这将把下载速度限制在 500 KB/s。

处理需要认证的下载：--user 和 --password

如果需要从一个需要用户名和密码的 FTP 或 HTTP 服务器下载文件，可以使用 --user 和 --password 选项提供凭据。

bash wget --user=myuser --password=mypassword ftp://ftp.example.com/private/document.pdf

注意： 在命令行直接输入密码存在安全风险，因为密码会记录在命令行历史中。更安全的方式是使用 .wgetrc 文件或者在脚本中避免直接暴露密码。对于 HTTP 认证，wget 也可以处理基本的 HTTP 认证提示。

忽略 robots.txt：-e robots=off (慎用)

网站通常会通过 robots.txt 文件来告诉爬虫和下载工具哪些页面或目录不允许访问。wget 默认会遵守 robots.txt 的规则。但有时出于特殊目的（如备份你自己的网站，你知道没有限制问题），你可能需要忽略 robots.txt 的限制。可以使用 -e robots=off 选项，但请务必注意，忽略 robots.txt 可能违反网站的使用政策，并可能对服务器造成不必要的负担，应谨慎使用。

bash wget -e robots=off http://example.com/some_restricted_file.zip

4. 递归下载与网站镜像

wget 最强大的功能之一是递归下载，这使得下载整个网站或网站的一部分成为可能。这通常用于创建网站的离线备份，或者下载某个目录下所有特定类型的文件。

基本递归下载：-r 或 --recursive

使用 -r 选项可以让 wget 递归地跟踪链接并下载页面及其引用的资源。

bash wget -r http://example.com/

这个命令会从 http://example.com/ 开始，下载首页以及首页链接到的其他页面，再下载这些页面的链接，以此类推。默认情况下，wget 会跟踪最多 5 层深度。它也会尝试下载页面所需的资源，比如 CSS 文件、图片等。

限制递归深度：-l 或 --level

默认的 5 层深度对于下载整个网站可能太深，会下载很多你不需要的内容。你可以使用 -l 选项来限制递归的深度。

bash wget -r -l 2 http://example.com/docs/

这个命令会从 /docs/ 目录开始，只向下递归 2 层。

镜像整个网站：--mirror

--mirror 选项是 -r -N -l inf --no-host-directories 的简化，它设计用于创建网站的本地镜像。它会进行无限深度的递归下载，尝试获取页面所有必需的文件，并会根据服务器上的时间戳来决定是否重新下载文件（如果本地文件比服务器上的旧则更新）。同时，它默认不会创建以主机名命名的顶级目录，而是直接将文件保存在当前目录下（可以通过其他选项更改此行为）。

bash wget --mirror http://example.com/

这个命令是备份网站的常用方式。

重要选项与网站镜像结合：

为了让镜像的网站可以在本地正常浏览，通常需要结合使用以下选项：

--convert-links: 下载完成后，将文件中的链接转换为可以在本地文件系统中工作的相对链接。这对于离线浏览非常重要。
--page-requisites: 下载显示页面所需的所有文件，如 CSS 样式表、图片等。
--no-parent: 在递归下载时，不跟踪到上级目录的链接。这可以防止 wget 跳出指定的起始目录，特别是在只希望下载网站某个部分时非常有用。
--wait=秒数: 在两次下载请求之间等待指定的秒数。这是出于礼貌，可以减轻服务器的负担，避免被网站封锁 IP。
--random-wait: 在指定的等待秒数范围内随机等待。这更能模拟人类用户的行为。

一个创建可离线浏览的网站镜像的典型命令组合是：

bash wget --mirror --convert-links --page-requisites --no-parent --wait=1 --random-wait http://example.com/

这个命令会下载 example.com 的所有内容（无限深度），转换链接以便离线浏览，下载页面所需的所有资源，不跳到上级目录，并在每次下载请求之间随机等待 0 到 1 秒。

排除或只包含特定文件类型：-A 和 -R

在递归下载时，你可能只关心特定类型的文件（如 PDF 文档）或者想排除某些文件类型（如视频文件）。可以使用 -A (accept) 和 -R (reject) 选项。它们接受一个逗号分隔的文件名后缀列表。

示例：只下载 .pdf 和 .docx 文件

bash wget -r -l 5 -A .pdf,.docx http://example.com/docs/

这会递归下载 /docs/ 目录及其子目录下最多 5 层深的所有 .pdf 和 .docx 文件。

示例：排除所有图片文件 (.jpg, .png, .gif)

bash wget --mirror --convert-links --page-requisites --no-parent -R .jpg,.png,.gif http://example.com/

这会镜像网站，但不下载任何 JPG、PNG 或 GIF 图片。

你可以同时使用 -A 和 -R 选项。wget 会首先应用 -A 规则（只考虑匹配的文件），然后再应用 -R 规则（从匹配的文件中排除）。

5. 处理 HTTP 头部和用户代理

有时候，网站会检查请求的 HTTP 头部信息，特别是 User-Agent，来判断请求是否来自正常的浏览器，并可能阻止非浏览器的请求（比如默认的 wget 请求）。

修改 User-Agent：--user-agent

你可以使用 --user-agent 选项来修改 wget 发送的 User-Agent 头部信息，模拟常见的浏览器。

bash wget --user-agent="Mozilla/5.0 (Windows NT 10.0; rv:68.0) Gecko/20100101 Firefox/68.0" http://example.com/some_file.zip

这将使 wget 伪装成 Firefox 浏览器进行下载。你可以根据需要更改引号中的字符串来模拟其他浏览器。

添加自定义头部：--header

如果你需要添加其他的 HTTP 头部信息，比如 Cookie，可以使用 --header 选项。

bash wget --header="Cookie: sessionid=abcdef123456" http://example.com/private_page.html

这对于下载需要登录后才能访问的页面可能有用（假设你已经知道 Cookie 的值）。

6. 其他常用选项与技巧

安静模式：-q 或 --quiet
禁止 wget 输出除了错误信息以外的任何内容。对于脚本或定时任务非常有用。
bash wget -q http://example.com/silent_download.zip
非详细模式：-nv 或 --no-verbose
减少输出信息，只显示进度条和错误信息。比完全安静模式更友好一些。
bash wget -nv http://example.com/less_verbose_download.tar.gz
重试次数：-t 或 --tries
设置下载失败后的重试次数。默认是 20 次（对于 HTTP/HTTPS）或无限次（对于 FTP）。设置为 0 表示无限重试。
bash wget -t 5 http://example.com/unstable_download.dat
设置超时时间：--timeout
设置连接和读取的超时时间（秒）。如果连接在指定时间内无响应，wget 会放弃或重试。
bash wget --timeout=10 http://example.com/slow_server_file.txt
处理文件名中的特殊字符：--restrict-file-names=mode
默认情况下，wget 在保存文件时会处理 URL 中的特殊字符。mode 可以是 windows (限制为 Windows 文件名允许的字符，并将不允许的字符替换为 _) 或 unix (相对更宽松)。通常使用默认设置即可，但如果你需要在不同操作系统之间迁移下载的文件，这个选项可能有用。
显示服务器信息：-S 或 --server-response
在下载开始前，显示服务器发送的响应头信息。对于调试下载问题（如查看重定向、认证方式、内容类型等）很有帮助。
bash wget -S http://example.com/some_page.html
强制使用 IPv4 或 IPv6：-4 或 -6
在网络环境中同时存在 IPv4 和 IPv6 时，可以使用这两个选项强制 wget 只使用其中一种协议进行连接。
bash wget -4 http://example.com/

7. 常见问题与故障排除

下载失败，显示 404 Not Found：
- 原因： URL 错误，文件不存在于服务器上。
- 解决方法： 仔细检查 URL 是否正确，区分大小写，确保文件路径无误。
下载失败，显示 403 Forbidden：
- 原因： 服务器拒绝访问。可能的原因包括：IP 被阻止、需要认证但未提供、网站通过 robots.txt 禁止了访问、需要特定的 User-Agent 或其他头部信息。
- 解决方法： 检查是否需要认证，尝试设置 --user-agent，检查网站的 robots.txt (wget 默认遵守)，或者联系网站管理员。
下载失败，显示 5xx Internal Server Error：
- 原因： 服务器端发生错误。
- 解决方法： 这通常是服务器的问题，你无法直接解决。可以稍后再试，或者联系网站管理员。
连接超时或网络错误：
- 原因： 网络不稳定，防火墙阻止连接，服务器过载等。
- 解决方法： 检查网络连接，尝试使用 -t 增加重试次数，使用 --timeout 调整超时时间，或者稍后重试。
下载速度慢：
- 原因： 服务器限速，你的网络带宽不足，网络拥堵等。
- 解决方法： 如果是服务器限速，无能为力。如果是网络问题，检查本地网络环境。注意 wget 默认会尽量使用所有带宽，如果需要限制速度，使用 --limit-rate。
递归下载没有下载所有内容：
- 原因： 可能受 robots.txt 限制，递归深度不够 (-l 选项)，未包含所有所需文件类型 (-A 选项)，或者链接是 JavaScript 生成的 wget 无法识别。
- 解决方法： 检查 robots.txt (必要时用 -e robots=off 慎用)，增加 -l 深度，使用 -A 包含更多文件类型。注意 wget 不会执行 JavaScript，所以对于大量依赖 JavaScript 加载内容的网站，wget 可能无法完整镜像。
递归下载后链接无法在本地打开：
- 原因： 未使用 --convert-links 选项转换链接。
- 解决方法： 确保在递归或镜像时使用了 --convert-links。

在遇到问题时，查看 wget 的输出信息（除非使用了 -q）和日志文件（默认是 wget-log，或者使用 -o 指定的文件）是诊断问题最有效的方法。

8. 道德与法律考量

虽然 wget 是一个强大的工具，可以方便地下载文件和网站，但在使用它时，必须考虑到道德和法律层面的问题：

尊重 robots.txt： 大多数网站的 robots.txt 文件包含了网站所有者不希望被自动工具访问的部分。除非你完全理解自己在做什么并且有正当理由（例如备份自己的网站），否则应该遵守 robots.txt 的规定。
不要过度请求： 递归下载，尤其是镜像整个大型网站，会在短时间内对服务器产生大量的请求。这可能会导致服务器负载过高，影响其他用户访问，甚至可能被认为是拒绝服务攻击。使用 --wait 和 --random-wait 是基本的礼貌。
版权问题： 下载和分发受版权保护的内容可能违反法律。只下载你有权访问或属于公共领域的内容。
网站服务条款： 许多网站的服务条款可能包含关于自动化访问、抓取或下载内容的具体规定。在使用 wget 之前，了解并遵守这些条款非常重要。

总而言之，负责任地使用 wget 是至关重要的。

9. 总结

wget 作为一个命令行下载工具，其强大和灵活性远超浏览器自带的下载功能。从简单的单文件下载到复杂的网站镜像，从断点续传到速度限制，从处理认证到修改头部信息，wget 提供了丰富的选项来满足各种下载需求。

通过本文的学习，你应该已经掌握了 wget 的基本用法和许多进阶技巧，包括：

安装 wget
下载单个文件并指定保存名称或路径
利用文件列表批量下载
实现断点续传
进行后台下载并查看日志
限制下载速度
处理需要认证的下载
递归下载与创建网站镜像 (--mirror, --convert-links, --page-requisites, --no-parent)
根据文件类型过滤下载内容 (-A, -R)
修改 User-Agent 和添加自定义 HTTP 头部
以及其他常用选项和故障排除方法

掌握 wget，不仅能让你更高效地进行文件下载，更能自动化许多重复性任务，为你在命令行世界中处理网络资源提供强大助力。记住，实践是最好的老师，多尝试在不同的场景中使用 wget，结合其丰富的选项，你将能完全发挥出它的潜力。同时，请务必牢记并遵守网络使用的道德规范和法律法规，负责任地使用这个强大的工具。

现在，打开你的终端，开始探索 wget 的奇妙之旅吧！

掌握Wget：文件与网站下载实用教程 – wiki基地

掌握 Wget：文件与网站下载实用教程

1. Wget 的安装

2. Wget 的基本用法：下载单个文件

3. 进阶下载技巧

4. 递归下载与网站镜像

5. 处理 HTTP 头部和用户代理

6. 其他常用选项与技巧

7. 常见问题与故障排除

8. 道德与法律考量

9. 总结

发表评论取消回复

掌握 Wget：文件与网站下载实用教程

1. Wget 的安装

2. Wget 的基本用法：下载单个文件

3. 进阶下载技巧

4. 递归下载与网站镜像

5. 处理 HTTP 头部和用户代理

6. 其他常用选项与技巧

7. 常见问题与故障排除

8. 道德与法律考量

9. 总结

发表评论 取消回复

发表评论取消回复