Skip to content

基于Redis的Bloomfilter去重,并将其扩展到Scrapy框架。

Notifications You must be signed in to change notification settings

yyyy777/Scrapy_Redis_Bloomfilter

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 

Repository files navigation

##bloomfilterOnRedis.py:## 基于Redis的Bloomfilter去重,已经封装成一个类,只需两行代码即可实现去重。更多介绍见:《基于Redis的Bloomfilter去重(附Python代码)》



##scrapyWithBloomfilter_demo:## 一个简单的scrapy demo,对scrapy_redis模块作了一些修改,将去重模块替换成了Bloomfilter去重。更多介绍见:《scrapy_redis去重优化(已有7亿条数据),附Demo福利》



##种子优化:## 在scrapyWithBloomfilter_demo中我对默认的种子作了一些修改,在settings.py中将 SCHEDULER_QUEUE_CLASS 改成 'scrapyWithBloomfilter_demo.scrapy_redis.queue.SpiderSimpleQueue' 即可。详细介绍见:《scrapy_redis种子优化》

About

基于Redis的Bloomfilter去重,并将其扩展到Scrapy框架。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%