> wangtao 写到: > 志星分析的很对,咱们目前主要关注“文档”中“所有专区”这一个模块就可以了,软件项目暂不考虑@starlee,@zhangfang 好的,师兄,那志星你就把筛选条件为所有专区的帖子爬下来吧,刚看了下共有帖子13869个,数量不小。之前爬的博客url都是不同主题的列表页链接,有239个主题,每个主题里面都有不少的博客,所以总的博客量还是比较大的,问题是我们怎样能够找到一个统一的入口,把这些博客的详情页一网打尽。PS:王涛师兄,实验室的无线网卡没有流量了,干不了活,大家都挺着急的,请师兄解决一下,嘿嘿@wangtao
> wangtao 写到: > 张方你编写的项目、博客和论坛三个模块对应的URL分别是什么? 分析发现,项目的url直接链到了很多个不同网站,所以软件项目的抽取模板就没有写了。博客的url是这样的https://www.ibm.com/developerworks/community/blogs/Wc94215ea1fb1_47ff_8125_356a7eaad5c1/entry/d%25c3%25a9veloppement_d_une_plateforme_permettant_d_impliquer_les_citoyens_dans_la_gestion_des_ressources_budg%25c3%25a9taires_de_l_etat_et_recommandant_des_solutions_optimales_aux_minist%25c3%25a8res1?lang=zh 论坛也分了很多主题,每个主题下面都有子论坛,最后抽取的详情页链接是这样https://www.ibm.com/developerworks/community/forums/html/topic?id=a717b150-6d04-4e55-984d-61371518dabd&ps=25
我刚才看了一下,帖子的详细页url提取问题是:1,抽取的csspath没有限制好,导致一些非详细页的url也被提取了2,bbs和blog的混在一起了,忽略了提取规则不同。另外,我发现之前确定的论坛和博客的列表页入口有些问题,这个是不是更合适呢(http://www.ibm.com/developerworks/cn/views/opensource/libraryview.jsp?sort_by=&show_abstract=true&show_all=&search_flag=&contentarea_by=Open+source&search_by=&product_by=-1&topic_by=-1&type_by=%E6%89%80%E6%9C%89%E7%B1%BB%E5%88%AB&ibm-search=%E6%90%9C%E7%B4%A2,或者筛选条件选为“所有专区”),请师兄进一步确定要抽取的页面,我再重新安排爬取。
状态 从 新增 变更为 反馈
https://www.ibm.com/developerworks/网站存在的问题主要有:开源项目爬到的html页面有130个,但是有一半来自我们之前已经爬取过的Apache和sourceforge网站,另外项目来自将近70个同的网站,页面结构不一致,抽取代价太大。帖子爬到的html页面有239个,但是爬到的是列表页面,而不是详情页面,另外详情页面的页面也有不同的页面结构。