> wangtao 写到: > 另,CSDN的博客列表是如何得到的? csdn博客有个列表页(blog.csdn.net),只会显示20页新的被推荐的博文,我们抓的是这个,并不能全站抓取
> wangtao 写到: > 一个解决方案是: > 进入OsChina博客首页,找到一批种子用户,比如20个用户,进入用户每个用户首页,分析每个用户的(关注者+粉丝),再将这一批新得到的用户去重后作为种子用户,不断迭代,直到最终只有少量新用户(比如10个)出现就停止迭代。 > 然后通过(http://my.oschina.net/用户名?ft=blog&scope=2)进入每个用户的博客页面,即可以抓取到每个用户所写的博客列表。 > > 问题是如何获得新注册用户以及他们的博客? 这个要针对性的写垂直爬取程序,现在的程序主要做通用化方案(列表页形式),您提的方案不能用在现在的爬虫上
一个解决方案是: 进入OsChina博客首页,找到一批种子用户,比如20个用户,进入用户每个用户首页,分析每个用户的(关注者+粉丝),再将这一批新得到的用户去重后作为种子用户,不断迭代,直到最终只有少量新用户(比如10个)出现就停止迭代。 然后通过(http://my.oschina.net/用户名?ft=blog&scope=2)进入每个用户的博客页面,即可以抓取到每个用户所写的博客列表。 问题是如何获得新注册用户以及他们的博客?