OSSEAN近期需要升级优化的地方:
(ps: 的个数代表相应任务的紧急程度)
第一部分:数据流
1. 保证有一套系统可以随时正常访问
2. 配合汇总、去重,确认把oschina、openhub、sourceforge、apache、gnu这几个站点的软件信息全面覆盖(根据以往几次测试,这几个站点的信息基本可以先应对常见的搜索了)
3. 尽量把github的数据流进来
第二部分:搜索
对任何一个搜索参考展示以下内容:
1. 用户搜索 -》 是否可以加上 ‘搜索建议’(利用大师兄的feature 库或者标签同现)
2. 准确答案 -》关联搜索的前几个(如果有的话)
3. 网页文档列表 -》 文本匹配&热度排序(或者2和3用其它的方式综合起来;如果时间充足,再搞一下最近想的‘搜索结果的局部调整’)
4. 软件卡片(查询中涉及到的软件的介绍)
第三部分:推荐
1. 目前的 ‘相似软件推荐’ 和 ‘相关软件推荐’效果不是太好,暂停该算法,先用 word embedding的结果顶着,日后实现软件 知识图谱后 再进行深度优化。
2. 关键关联网络 先用 ‘标签同现’顶上去
第四部分:态势分析
主要是 数据更新