计划将数据流变化为如下过程:爬取->抽取->去重和汇总->项目筛选->数据分析->展示。按照这个过程,我们需要做的具体工作如下:
1.去重部分,去掉原本在去重程序里的筛选过程,将各个项目分表用于筛选的字段取并集汇入项目总表。需对各个项目分表的所有项目做去重,将去重的迭代过程变为增量过程,即每次去重程序修改无需对所有项目重跑,尽可能的利用之前跑的结果,将重复过程降到最少。
2.项目筛选部分,对项目总表增加一个筛选标识字段和是否是新增项目标识字段,筛选标识用于记录我们后续对留下的项目做分析和展示,新增标识用于匹配的增量过程。
3.匹配部分,只对筛选标识为1的(即经过筛选过程保留的)项目匹配;读取新项目的方式变为扫描筛选标识为1且新增标识为1的项目。
4.前端展示:搜索和项目列表只展示筛选标识为1的项目。
我们的主要目的是避免每次各个环节的程序修改就要重跑并影响后续过程甚至导致后续过程都要重跑的问题,具体各个环节如何迭代待讨论完善并实践之后再做总结。