人工查找相同项目过程,搜索平台github、openhub
1、查找项目关键字yii,得到如下结果
2、根据项目名称,初步判断,Github的第一个项目与Openhub的第一个项目为同一项目
3、分别查看详情,通过以下特征,确定为同一项目
1)、两个平台中项目homepage均指向 http://www.yiiframework.com
2)、两个平台显示,项目的核心开发语言相同,为PHP
3)、github中项目描述信息包含Openhub中项目名称全名
4)暂无
去重实现思路
1、沿用现有策略,Homepage相同的视为同一项目,抽取识别度高的名称作为项目名,如yii的项目名称为Yii PHP Framework。(会有如下情况,github中,不同项目但homepage相同,如yii/yii2在github被视为不同项目,而在openhub中同一个homepage的项目名称为Yii PHP Framework,可将这两个项目名称作为别名)
2、用项目名称查找重复项目,如果核心开发语言相同的,则视为重复项目
3、使用1步的别名,查找与别名重复的项目
4、根据描述信息+项目标签的相似度判断重复项目
初步整理,待结合实际项目运行情况完善优化