3675?1667865017

【缺陷】 去重程序重构


张迅晖添加于 2015-11-19 22:54

完成了项目的汇总操作:

1. 固定id表(项目id,项目urlMD5)维护项目固定id

2. 更新表(项目id,项目更新时间)维护汇总表中已经完成了更新的项目

每次程序修改后重跑,首先查看固定id表中有没有相应项目的id,存在则插入对应id的项目;更新表可以对需要记录抽取表中重复的更新项目,重跑后面的程序并用更新操作代替插入操作。

完成了同义词提取的修改:

在原来的基础上增加了同义词限制条件:

1. 项目名与提取描述信息结果全部与部分的关系

    A. 例如:Mozilla Firefox, 程序在提取结果中匹配每个词,如果有则认为是别名(Firefox)

    B. 例如:Firefox, 程序无法在描述信息中匹配到Mozilla Firefox的描述(想法是利用类似wordnet的层次化词典对对应的词汇扩展进行匹配,对于这类望师兄师姐提出宝贵意见)

2. 项目名与提取描述信息结果全程与缩写的关系

    A. 例如:OGRE, 对应项目描述信息中提取出Object-Oriented Graphics Rendering Engine

    B. 相反的情况仍成立

存在问题:

对于openhub sourceforge oschina存在homepage属性 但是抽取程序中没有抽出,去重程序中拟采用homepage匹配的方法匹配相同的项目

回复
0?1470885445
登录后可添加回复
  • 当前状态 正在解决
  • 选定优先级
  • 指派给 张迅晖
  • 里程碑 --
  • 开始日期 2015-11-19
  • 结束日期 2015-11-22
  • 预计工时(H) 0.00 小时
  • 完成度 40%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×