241?1445561792

【支持】 OSSEAN平台各开源社区数据抽取率统计 正常


张方添加于 2015-09-01 12:22

lagou  85.7%

neitui  99.6%

iteye_blog  94.1%

codeproject  99.9%

51CTO_blog  93.7%

oschina_question  86.2%

oschina_project   99.4%

Cnblogs_news  99.9%

csdn_topics  99.8%

stackoverflow  99.6%

sourceforge_project  91.2%

openhub_project  99.9%

dewen_question   99.9%

cnblog_question  90.8%

iteye_ask   99.9%

csdn_ask   64.6%

freecode_project   99.9%

lupaworld   99.9%

gna   99.9%

apache   99.1%

phpchina  99.9%

softpedia   41.0%

slashdot  71.2%

 linuxtone   99.8%

csdn_blogs   99.5%

回复(7)
  • 11?1648889181
    王涛 9年前

    很好!请说明具体的解决方法,结果验证情况

  • 241?1445561792
    张方 9年前

    > wangtao 写到: > 请张方先把csdn_ask的抽取问题解决好。 csdn_ask的抽取问题已解决,正在写本周的ow2周报。

  • 11?1648889181
    王涛 9年前

    OpenHub抽取问题是否完全解决?

  • 11?1648889181
    王涛 9年前

    请张方先把csdn_ask的抽取问题解决好。

  • 241?1445561792
    张方 9年前

    csdn_ask总数据量是34365,抽取到的是22214,抽取率比较低的原因是csdn网站的问答板块有新的版本上线了,元素在页面中的位置发生了变化,后来爬到的都是版本更新后的html页面,而抽取规则还是之前的,一些抽取验证不能为空的属性没有抽取到,从而将该页面放入error表中。 softpedia总数据量是16494,抽取到的数据是6762,slashdot总数据量是3049,抽取到的数据是2172, 造成它们抽取率比较低的原因是部分元素的抽取规则有问题

  • 241?1445561792
    张方 9年前

    各个社区的抽取率可以集成到monitor中一起展示出来,这三个社区抽取率比较低的原因正在分析,今天晚上给您反馈一个结果。

  • 11?1648889181
    王涛 9年前

    描述 已更新。 (查看差别)

    能否将抽取率自动化并集成到monitor中? 另外,csdn_ask和softpedia、slashdot的抽取率为什么会这么低?

0?1470885445
登录后可添加回复
  • 当前状态 新增
  • 选定优先级 正常
  • 指派给 张方
  • 里程碑 --
  • 开始日期 2015-09-01
  • 结束日期
  • 预计工时(H) 0.00 小时
  • 完成度 0%
  • 关联Commit

© Copyright 2007~2021 国防科技大学Trustie团队 & IntelliDE 湘ICP备 17009477号

问题和建议
还能输入50个字符 提交

加入QQ群

关注微信APP


×