11?1648889181

【任务】 OsChina博客等板块数据爬取 正常


王涛添加于 2015-09-11 15:19
目前OsChina博客等几个板块的数据都没有抓取下来,请志星和溢昂想办法将相关板块的爬取加入进来
回复(5)
  • 929?1442652660
    甘谊昂 9年前

    > wangtao 写到: > 另,CSDN的博客列表是如何得到的? csdn博客有个列表页(blog.csdn.net),只会显示20页新的被推荐的博文,我们抓的是这个,并不能全站抓取

  • 929?1442652660
    甘谊昂 9年前

    > wangtao 写到: > 一个解决方案是: > 进入OsChina博客首页,找到一批种子用户,比如20个用户,进入用户每个用户首页,分析每个用户的(关注者+粉丝),再将这一批新得到的用户去重后作为种子用户,不断迭代,直到最终只有少量新用户(比如10个)出现就停止迭代。 > 然后通过(http://my.oschina.net/用户名?ft=blog&scope=2)进入每个用户的博客页面,即可以抓取到每个用户所写的博客列表。 > > 问题是如何获得新注册用户以及他们的博客? 这个要针对性的写垂直爬取程序,现在的程序主要做通用化方案(列表页形式),您提的方案不能用在现在的爬虫上

  • 11?1648889181
    王涛 9年前

    另,CSDN的博客列表是如何得到的?

  • 11?1648889181
    王涛 9年前

    有了用户,相应的OsChina资讯数据也能够获得链接

  • 11?1648889181
    王涛 9年前

    一个解决方案是: 进入OsChina博客首页,找到一批种子用户,比如20个用户,进入用户每个用户首页,分析每个用户的(关注者+粉丝),再将这一批新得到的用户去重后作为种子用户,不断迭代,直到最终只有少量新用户(比如10个)出现就停止迭代。 然后通过(http://my.oschina.net/用户名?ft=blog&scope=2)进入每个用户的博客页面,即可以抓取到每个用户所写的博客列表。 问题是如何获得新注册用户以及他们的博客?

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 甘谊昂
  • 里程碑 --
  • 开始日期 2015-09-11
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×