基于webmagic的ossean爬虫因占用过大,经常出现爬虫进程被挤掉的情况,需要频繁检查服务器上的爬虫进程,此情况尤其以stackoverflow站点爬虫为甚。改用pyspider编写ossean爬虫,测试运行期间未出现中断现象,稳定性较webmagic版的爬虫有了很大提升,现已经将爬虫完全迁移至新版。
新爬虫可以通过消息队列机制实现分布式部署,现投入4台服务器进行数据爬取工作。每一台机器的占用情况:在爬虫组件及爬取站点全开的情况下,总占用约为300M,为旧爬虫占用的二分之一至三分之一(实际上,组件全开并不必要)。新爬虫还可动态地添加或删除服务器节点,管理十分方便。
目前,stackoverflow站点每5分钟进行一次新帖抓取,可以捕捉到该站点的实时更新,其余站点依更新速度的不同,抓取间隔均进行了合适的调整。至此尚未出现稳定性问题。