张方:对openhub社区的抽取结果进行分析,发现有部分项目的属性没有完全抽取,出现这种问题的原因主要是:1.该项目的这些属性信息缺失,从而不能抽取到,这属于正常情况;2.项目的创建时间不同,时间跨度比较大,有一些项目的页面布局和其他项目不一致,对其进行抽取时某些页面元素定位失败,导致抽不到内容。接下来会统计出项目信息不能完整抽取的项目个数,对不能抽取的数据项逐个进行分析,设法改进现有的抽取模板,或者针对这些抽取不完整的项目再重新写一个新的抽取模板进行二次抽取
> wangtao 写到: > 你前两天的实验不是已经取消了对这两个元素不能为空的限制吗,为什么还有那么多抽取失败的? 取消了对这两个元素不能为空的限制之后发现抽取的成功率仍然没有上去,进一步分析发现对抽取到的licenses数据元素处理存在问题,注释掉对licenses数据元素处理到代码,利用error表中的html页面作为测试数据,发现之前抽取失败的页面都可以抽取成功,证明问题是出在这里。接下来要重新改写数据处理相关代码,抽取率会上去
根据之前对抽取失败页面结构的分析,description和license 为空的页面都不能抽取成功,是由于将这两个数据元素作为必须不能为空的项,如果为空,则验证时将该页面作为错误页面存放到OpenHub_error_page表中,所以首先解除对这两个数据元素不能为空的限制条件。