1、爬虫:爬虫55那台服务器的性能出现问题,主要在内存方面,甘谊昂昨天开始时已经提过。爬虫吃了stackoverflow的站点爬取稳定外,对其他站点的爬取不是很稳定。同时我感觉应该对爬虫的结果进行监控,之前就发生过:列表页的爬取频率过大,详情页的url积累过多,导致详情页面的爬取始终没有赶上最新的页面。
2、抽取:抽取已经按照师兄的意思改成了多线程的模式:当有站点又抽取任务时,启动对应的抽取线程。抽取程序还是放在55那台的服务器上,还没移植到104那台服务器上,目前抽取还有改进的地方,基于线程池抽取程序的日志,还没有解决好,现在是所有的站点的日志放到了一起,这样不利于对各个站点的维护,不利于单个站点的维护与修改。
3、汇总:汇总各个站点的抽取结果到一种总表,目前发现的问题是:在对帖子汇总的时候对帖子的分类没有做好,导致最后前端展示的时候无法很好的展示帖子内容。
4、帖子的去重:程序有待改进,可维护性与扩展性不是很好,比如之前的数据转移时,源数据表与目的数据表的字段没有对齐,导致了前端的现实出了问题。
5、推荐系统:目前的推荐系统只是对平台现有的项目进行了推荐,开源项目之间的推荐也仅仅是有了两个项目之间的相似度与相关度两个权重,结果过于单一。推荐系统展示的前端展示还有问题:项目的具体描述时,有些描述信息出现了不应该出现的字段。
6、监控系统:整个监控系统需要升级,有很多问题,比如我发现每个环节的程序都没有很好的实时监控,与通知环节的相应负责人,这个现在都是人为查询监控。
7、55的服务器ADSL轮询ip重置也发现了一个问题,由于爬虫组对每次重启服务器时没有进行重新拨号,应该把这个写入脚本,重新开机时自动执行拨号。