3091?1442652665

【缺陷】 项目去重问题 正常


湛云添加于 2016-03-28 17:29

1.OSChina的项目因为描述信息为中文,且没有标签,跟其它社区做去重的时候无法进行语义关联。单纯利用homepage去重率不高。

2.别名提取存在别名重复,且别名提取率不高。


建议:对于像apache hive等这样有多个单词且名称一致的项目可考虑直接合并;OSChina的项目去重是否考虑直接按项目名称去重?

回复(2)
  • 3091?1442652665
    湛云 8年前

    别名重复是指synonyms字段里一个别名存了两次,如<git>,<git>

  • 3091?1442652665
    湛云 8年前

    另,像带apache、mozilla、GNU等前缀的项目是否直接去前缀作为项目别名?

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 张迅晖
  • 里程碑 --
  • 开始日期 2016-03-28
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×