【任务】 github 数据爬取 正常
综合考虑:后续处理必须用到homepage,且尽量保证信息的完整性,计划用第二种方式
2.还是利用/repositories/ API
目前打算用第二种方式,因为它返回的数据本身都是按创建时间排序的
因为数据量太多,想用分布式的形式爬,大体思路如下:
尹老师,可以利用他提供的api获取所有public的repos
恩。但是,自己爬的话,如何实现对github中所有repo页面的覆盖式爬取呢?
尹老师您的意思是咱们用gittorrent的数据来获取历史数据?但是它的数据集里没有项目的homepage这个字段,而后续的去重模块要用到这个字段。所以才打算要自己去爬。
这个数据不需要实时,一个月的延迟都没关系。
好的,尹老师,我这就着手搞起来。
另外,gittorrent目前最新的mysql数据集是3月16号的,应该没有停止发布,他是先把数据以nosql的形式存到mongdb中,频率是每天一次;然后再抽取成结构化数据存到mysql中,这个的频率不太固定,十天半月的应该都有可能。
很好的思考和设计!readme如果是一个痛点,可以先不考虑。
另外gittorrent,是不是已经停止发布了?
© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号
加入QQ群
关注微信APP
预览