【缺陷】
UrlExtractor存在不能返过去更新已抽取htnl_list的问题!
高
由
甘谊昂添加于 2014-12-26 23:03
原因:
(1)ListHtmlCrawler使用
pageMd5=DigestUtils.md5Hex(page.getHtml().get())方式设置pageMd5
(2)UrlExtractor使用
Html html = new Html(s);
pageMd5 = DigestUtils.md5Hex(html.get());
两边pageMd5可能不同!