完成了项目的汇总操作:
1. 固定id表(项目id,项目urlMD5)维护项目固定id
2. 更新表(项目id,项目更新时间)维护汇总表中已经完成了更新的项目
每次程序修改后重跑,首先查看固定id表中有没有相应项目的id,存在则插入对应id的项目;更新表可以对需要记录抽取表中重复的更新项目,重跑后面的程序并用更新操作代替插入操作。
完成了同义词提取的修改:
在原来的基础上增加了同义词限制条件:
1. 项目名与提取描述信息结果全部与部分的关系
A. 例如:Mozilla Firefox, 程序在提取结果中匹配每个词,如果有则认为是别名(Firefox)
B. 例如:Firefox, 程序无法在描述信息中匹配到Mozilla Firefox的描述(想法是利用类似wordnet的层次化词典对对应的词汇扩展进行匹配,对于这类望师兄师姐提出宝贵意见)
2. 项目名与提取描述信息结果全程与缩写的关系
A. 例如:OGRE, 对应项目描述信息中提取出Object-Oriented Graphics Rendering Engine
B. 相反的情况仍成立
存在问题:
对于openhub sourceforge oschina存在homepage属性 但是抽取程序中没有抽出,去重程序中拟采用homepage匹配的方法匹配相同的项目