经过统计项目社区中没有抽取到的页面元素分别是:
Oschina: 没有抽取的页面元素是软件首页链接,软件文档链接,软件下载链接;
Sourceforge: 没有抽取的页面元素是 Reviews number;
Openhub: 页面元素Project links中包含homepage, download
和Forums link ,其中的forums link没有抽取。
另外未抽取的还有 Licenses,Similar projects, last_update_time(其形式有十几种,处理成datetime类型的字符串很复杂,处理不好会严重降低抽取成功率,之前讨论过)。
Freecode:页面元素Links中包含的homepage ,demo等链接没有抽取;
softpedia :没有抽取的页面元素是Starts of level ,Last_update_time;
gna和Apache两个项目社区现在无法访问。
wangtao 写到: 重新抽取完成后数据表直接切换到_copy吗?师兄,原表的表名加_copy,如:sourceforge_project改为sourceforge_project_copy,原表中数据不动,新抽取的数据存到新数据库表中(表名和原表的表名一致,增加了新抽字段),重新抽完后把数据表切换到新表,这个过程中不会影响ossean的服务。
测试结果:每个项目社区中的homepage元素都成功抽取,项目社区中的有些元素还需要进一步处理才能存储到数据库表中,如softpedia中的reviews_num和sourceforge中的lastupdatetime等。
和湛云沟通后确定的数据更新方案是:项目社区的数据重新抽取一遍,原表的数据保留,表名改为加后缀_copy的命名格式,新抽取的数据存放到新建的表中,数据更新的过程不影响OSSEAN的服务。
zhanyun 写到: 去重部分会用到各项目社区的homepage字段,麻烦方哥能将这个字段抽取出来,方便新的项目数据尽快流动,感谢!
好的,项目中只要含有homepage字段都会抽取出来,程序这边已经改好了,接下来会以一种可行的方式部署,尽量减小对ossean服务产生的影响。