请注意,如果您的机器上 DNS 配置不正确,您需要编辑 “/etc/resolv.conf” 才能使其正常工作……
执行互联网地址的简单查找(使用域名系统,DNS)。只需输入
host ip_address |
或
host domain_name |
“域名信息挖掘器”工具。比 host 更高级…… 如果您提供一个主机名作为参数,它将输出关于该主机的信息,包括其 IP 地址、主机名和各种其他信息。
例如,要查找关于 “www.amazon.com” 的信息,请输入
dig www.amazon.com |
要查找给定 IP 地址的主机名(即反向查找),请使用带有 `-x' 选项的 dig。
dig -x 100.42.30.95 |
这将查找地址(可能存在也可能不存在),并返回主机的地址,例如,如果那是 “http://slashdot.org” 的地址,那么它将返回 “http://slashdot.org”。
dig 接受大量的选项(多到有点过分),请参阅手册页以获取更多信息。
(现在是 BW whois)用于从 “whois” 数据库中查找联系信息,服务器可能只保存主要站点的信息。请注意,联系信息很可能被隐藏或限制,因为它经常被黑客和其他寻找方法对组织造成恶意破坏的人滥用。
(GNU Web get)用于从万维网下载文件。
要归档单个网站,请使用 -m 或 --mirror (mirror) 选项。
如果您已经拥有文件,请使用 -nc (no clobber) 选项来阻止 wget 覆盖文件。
使用 -c 或 --continue 选项来继续下载被 wget 或其他程序中断的文件。
简单用法示例
wget url_for_file |
这将简单地从站点获取一个文件。
wget 还可以使用标准通配符检索多个文件,与 bash 中使用的类型相同,例如 *、[ ]、?。只需像往常一样使用 wget,但在 URL 上使用单引号 (' ') 以防止 bash 扩展通配符。如果您从 http 站点检索,则会存在复杂情况(见下文……)。
高级用法示例,(摘自 wget 手册页)
wget --spider --force-html -i bookmarks.html |
这将解析文件 bookmarks.html 并检查所有链接是否存在。
高级用法:这是您如何使用 http 下载多个文件(使用通配符……)。
注意:http 不支持使用标准通配符下载,ftp 支持,因此您可以将通配符与 ftp 一起使用,并且它可以正常工作。下面显示了针对 http 限制的解决方法
wget -r -l1 --no-parent -A.gif http://www.website.com[1] |
这将(递归地)下载,深度为 1,换句话说,在当前目录中而不是在当前目录之下。此命令将忽略对父目录的引用,并下载任何以 “.gif” 结尾的文件。如果您还想下载以 “.pdf” 结尾的文件,请在网站地址之前添加 -A.pdf。只需更改网站地址和要下载的文件类型即可下载其他内容。请注意,执行 -A.gif 与执行 -A “*.gif” 相同(仅双引号,单引号不起作用)。
wget 有更多选项,请参阅手册页的示例部分,该工具的文档非常完善。
![]() | 替代网站下载器 |
---|---|
您可能想尝试像 httrack 这样的替代品。一个完整的 GUI 网站下载器,用 python 编写,可用于 GNU/Linux |
curl 是另一个远程下载器。此远程下载器旨在无需用户交互即可工作,并支持各种协议,可以上传/下载,并且针对各种情况有大量的技巧/解决方法。它可以访问字典服务器 (dict)、ldap 服务器、ftp、http、gopher,请参阅手册页以获取完整详细信息。
要访问此命令的完整手册(内容非常多),请输入
curl -M |
对于一般用法,您可以像 wget 一样使用它。您还可以使用用户名登录,方法是使用 -u 选项并输入您的用户名和密码,如下所示
curl -u username:password http://www.placetodownload/file |
要使用 ftp 上传,您可以使用 -T 选项
curl -T file_name ftp://ftp.uploadsite.com |
要继续下载文件,请使用 -C 选项
curl -C - -o file http://www.site.com |
[1] | 这种绕过通配符限制的方法是从 wget 手册页 中采用的(经过少量编辑),有关更多信息,请参阅 参考文献 中的 [9]。 |