Skip to content

Latest commit

 

History

History
11 lines (11 loc) · 3.5 KB

README-web.md

File metadata and controls

11 lines (11 loc) · 3.5 KB

使用Web

  • Lynx允许直接从终端会话中访问网站,只不过Web页面上的哪些漂亮的图片被替换成了HTML文本标签,使用向右方向键可以跟随一个链接到下一个Web页面;Lynx程序还提供了一个功能,允许你将Web页面的文本内容转储到STDOUT中,这个功能非常适合用来挖掘Web页面中包含的数据;

安装Lynx

  • sudo apt-get install lynx-cur

Lynx命令行

  • Web页面由三种类型的数据组成:HTTP头部;cookie;HTML内容;HTTP头部提供了连接中传送的数据类型、发送数据的服务器以及采用的连接安全类型的相关信息,如果你发送的是特殊类型的数据,比如:视频或者音频,服务器会将其在HTTP头部中标示出来,Lynx程序允许你查看Web页面会话中发送的所有HTTP头部;lynx命令提供了一些选项来查看Web服务器发送的cookie,还可以接受或拒绝服务器发过来的特定的cookie;Lynx程序支持三种不同的格式来查看Web页面实际的HTML内容:在终端会话中利用curses图形库显示文本图形;文本文件,文本内容是从Web页面中转储的原始数据;文本文件,文本内容是从Web页面中转储的原始HTML源码;Lynx命令的基本格式:lynx options URL:其中URL是你要连接的HTTP或HTTPS地址,options则是一个或多个选项,这些选项可以在Lynx与远程网站交互时改变他的行为,许多命令行参数定义了Lynx的行为,可以用来控制全屏模式下的Lynx,允许在浏览Web页面时对其进行定制;

Lynx配置文件

  • lynx命令会从配置文件和从读取大量的参数设置,该文件的文件名是lynx.cfg;配置文件中条目的格式是:PARAMETER:value;其中PARAMETER是参数的全名,value是跟参数关联的值;比如:ACCRPT_ALL_COOKIES参数就等同于设置了-accept-all-cookies命令行参数;FORCE_SSL_COOKIES_SECURS配置文件参数设置可以用-force_secure命令行参数覆盖掉;最常见的是不能在命令行上设置的配置参数是代理服务器,有些公司网络使用代理服务器作为客户端浏览器和目标网站的桥梁,客户端浏览器不能直接向远程Web服务器发送HTTP请求,而是必须将他们的请求发到代理服务器上,然后由代理服务器将请求转发给远程服务器,获取结果,在将结果回传到客户端浏览器;代理服务器可以过滤不良的内容和恶意代码,甚至可以发现钓鱼网站,代理服务器还可以帮助降低网络带宽的使用,因为它缓存了经常浏览的web页面并将其直接返回给客户端,而不用再从原始地址处下载页面;NO_PROXY参数是逗号分隔的网站列表,对于列表中的这些网站,不希望使用代理服务器直接访问,这些通常都是不需要过滤的内部网站;

从Lynx中获取数据

  • 在shell脚本中使用lynx时,大多数情况下你只是要提取web页面中的某条特定的信息,完成这个任务的方法被称为屏幕抓取,在屏幕抓取过程中,你要尝试通过编程寻找图形化屏幕上某个特定位置的数据,这样你才能获取他并在脚本中使用;用lynx进行屏幕抓取的最简单办法是用-dump选项,这个选项不会在终端屏幕上显示web页面,相反,他会将web页面文本数据直接显示在STDOUT上;可以将数据重定向到指定文件中,然后对这个文件进行操作: image