- Lynx允许直接从终端会话中访问网站,只不过Web页面上的哪些漂亮的图片被替换成了HTML文本标签,使用向右方向键可以跟随一个链接到下一个Web页面;Lynx程序还提供了一个功能,允许你将Web页面的文本内容转储到STDOUT中,这个功能非常适合用来挖掘Web页面中包含的数据;
sudo apt-get install lynx-cur
;
- Web页面由三种类型的数据组成:HTTP头部;cookie;HTML内容;HTTP头部提供了连接中传送的数据类型、发送数据的服务器以及采用的连接安全类型的相关信息,如果你发送的是特殊类型的数据,比如:视频或者音频,服务器会将其在HTTP头部中标示出来,Lynx程序允许你查看Web页面会话中发送的所有HTTP头部;lynx命令提供了一些选项来查看Web服务器发送的cookie,还可以接受或拒绝服务器发过来的特定的cookie;Lynx程序支持三种不同的格式来查看Web页面实际的HTML内容:在终端会话中利用curses图形库显示文本图形;文本文件,文本内容是从Web页面中转储的原始数据;文本文件,文本内容是从Web页面中转储的原始HTML源码;Lynx命令的基本格式:
lynx options URL
:其中URL是你要连接的HTTP或HTTPS地址,options则是一个或多个选项,这些选项可以在Lynx与远程网站交互时改变他的行为,许多命令行参数定义了Lynx的行为,可以用来控制全屏模式下的Lynx,允许在浏览Web页面时对其进行定制;
- lynx命令会从配置文件和从读取大量的参数设置,该文件的文件名是
lynx.cfg
;配置文件中条目的格式是:PARAMETER:value
;其中PARAMETER是参数的全名,value是跟参数关联的值;比如:ACCRPT_ALL_COOKIES参数就等同于设置了-accept-all-cookies命令行参数;FORCE_SSL_COOKIES_SECURS配置文件参数设置可以用-force_secure命令行参数覆盖掉;最常见的是不能在命令行上设置的配置参数是代理服务器,有些公司网络使用代理服务器作为客户端浏览器和目标网站的桥梁,客户端浏览器不能直接向远程Web服务器发送HTTP请求,而是必须将他们的请求发到代理服务器上,然后由代理服务器将请求转发给远程服务器,获取结果,在将结果回传到客户端浏览器;代理服务器可以过滤不良的内容和恶意代码,甚至可以发现钓鱼网站,代理服务器还可以帮助降低网络带宽的使用,因为它缓存了经常浏览的web页面并将其直接返回给客户端,而不用再从原始地址处下载页面;NO_PROXY
参数是逗号分隔的网站列表,对于列表中的这些网站,不希望使用代理服务器直接访问,这些通常都是不需要过滤的内部网站;