Skip to content

hitalex/douban-group-crawler

Repository files navigation

豆瓣小组爬虫

鉴于豆瓣无意提供豆瓣小组的API,所以我便自行写了一个豆瓣小组的爬虫。它能够抓取小组的介绍、成员、帖子信息、评论内容等等。由于豆瓣小组的信息都是开放的,所以这里无需登录,唯一需要注意的是:豆瓣对于连续访问的限制。

具体来说,这个爬虫能够做到:

  • 抓取的文本都放入文本文件中,按行存储,列之间用分隔符分开
  • 抓取小组的介绍信息、创建时间和组长ID
  • 所有的小组成员ID
  • 所有帖子的标题、创建人、帖子内容、评论、推荐、喜欢,以及它们相应的时间信息。
  • 帖子评论之间的层次关系,即A回复了B关系

目前它还做不到:

  • 抓取图片(只能获得图片地址),只是文字信息
  • 小组收藏
  • 小组成员之间的关注关系

使用方法:

(To be added)

About

A douban group crawler

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages