phpspider-2.1.5-stable
1、断点续采如果不继续会清空redis所有数据,所以一个项目要用一个redis db,清空的时候flushdb,解决缓存数据量太大清空redis的性能问题
2、解决url匹配不够完美问题,目前遇见url如下:
<a href="?xxx"
<a href="//xxx"
<a href="//www.host.com/xxx"
<a href="//www.host.com//xxx"
<a href="/xxx"
<a href="/?xxx"
<a href="xxx"
<a href="./xxx"
<a href="../xxx"
<a href="/../xxx"
3、增加redis集合,可以随机读取url进行采集,进行多域并发
4、缩短redis前缀,减少redis占用空间
5、记录速度较慢域名花费抓取时间,超过设置时间则不对该域名进行采集,为了避免掉入蜘蛛陷阱设置的,有些垃圾站,蜘蛛池,无限多的页面让你爬,还很慢
6、增加泛域名采集
7、增加子域名数量限制,避免蜘蛛陷阱,有的变态会把一个网站弄一堆域名,比如:a.xxx.com/1.html、b.xxx.com/1.html,这两个1.html其实是同一个,但是url不同,会重复采集