Skip to content

Latest commit

 

History

History
19 lines (13 loc) · 418 Bytes

README.md

File metadata and controls

19 lines (13 loc) · 418 Bytes

Python3爬虫:爬取百度百科Python下100个页面的数据

python3.0 使用的模块:urllib、BeautifulSoup4、re

说明

爬取的数据会存储于生成的output.html文件中,使用浏览器可查看数据

修改spider_main.py文件count数值可以设置爬取数

``` bash if count == 100: break ```

运行步骤

IDE下运行spider_main (推荐使用pycharm)