929?1442652660

【缺陷】 UrlExtractor存在不能返过去更新已抽取htnl_list的问题!


甘谊昂添加于 2014-12-26 23:03
原因: (1)ListHtmlCrawler使用 pageMd5=DigestUtils.md5Hex(page.getHtml().get())方式设置pageMd5 (2)UrlExtractor使用 Html html = new Html(s); pageMd5 = DigestUtils.md5Hex(html.get()); 两边pageMd5可能不同!
回复(1)
  • 929?1442652660
    甘谊昂 10年前

    状态新增 变更为 已解决

    % 完成0 变更为 100

    两个表的pageMd5已经统一。

0?1470885445
登录后可添加回复
  • 当前状态 已解决
  • 选定优先级
  • 指派给 甘谊昂
  • 里程碑 --
  • 开始日期 2014-12-26
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 100%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×