鉴于豆瓣无意提供豆瓣小组的API,所以我便自行写了一个豆瓣小组的爬虫。它能够抓取小组的介绍、成员、帖子信息、评论内容等等。由于豆瓣小组的信息都是开放的,所以这里无需登录,唯一需要注意的是:豆瓣对于连续访问的限制。
具体来说,这个爬虫能够做到:
- 抓取的文本都放入文本文件中,按行存储,列之间用分隔符分开
- 抓取小组的介绍信息、创建时间和组长ID
- 所有的小组成员ID
- 所有帖子的标题、创建人、帖子内容、评论、推荐、喜欢,以及它们相应的时间信息。
- 帖子评论之间的层次关系,即A回复了B关系
目前它还做不到:
- 抓取图片(只能获得图片地址),只是文字信息
- 小组收藏
- 小组成员之间的关注关系
使用方法:
(To be added)