由zhanyun 更新于 2015-11-23 22:04
经过统计项目社区中没有抽取到的页面元素分别是:
Oschina: 没有抽取的页面元素是软件首页链接,软件文档链接,软件下载链接;
Sourceforge: 没有抽取的页面元素是 Reviews number;
Openhub: 页面元素Project links中包含homepage, download
和Forums link ,其中的forums link没有抽取。
另外未抽取的还有 Licenses,Similar projects, last_update_time(其形式有十几种,处理成datetime类型的字符串很复杂,处理不好会严重降低抽取成功率,之前讨论过)。
Freecode:页面元素Links中包含的homepage ,demo等链接没有抽取;
softpedia :没有抽取的页面元素是Starts of level ,Last_update_time;
gna和Apache两个项目社区现在无法访问。
经过统计项目社区中没有抽取到的页面元素分别是:
Oschina: 没有抽取的页面元素是软件首页链接,软件文档链接,软件下载链接;
Sourceforge: 没有抽取的页面元素是 Reviews number;
Openhub: 页面元素Project links中包含homepage, download
和Forums link ,其中的forums link没有抽取。
另外未抽取的还有 Licenses,Similar projects, last_update_time(其形式有十几种,处理成datetime类型的字符串很复杂,处理不好会严重降低抽取成功率,之前讨论过)。
Freecode:页面元素Links中包含的homepage ,demo等链接没有抽取;
softpedia :没有抽取的页面元素是Starts of level ,Last_update_time;
gna和Apache两个项目社区现在无法访问。