Skip to content

Latest commit

 

History

History
16 lines (10 loc) · 311 Bytes

README.md

File metadata and controls

16 lines (10 loc) · 311 Bytes

baidubaike-scrapy

spider_main.py包括以下几个模块

  1. spider_main.py
  2. url_Manager.py
  3. html_Downloader.py
  4. html_Parser.py
  5. html_Outputer.py

mypider.py 对spider_main的所有模块重写

output.html为结果,约3750个词条,程序不再进行

可能达到list长度限制