> wangtao 写到: > > zhanyun 写到: > > openhub中没有code location的有39704,如果只根据这一个字段筛选会保留22万项目。加上OSChina3万,SourceForge15万,总共就有40万左右的项目,去重之后估计也会有38万往上。这样会不会太多了? > > 有code location且contributorNum>0的有138008。有code location且contributorNum=0的有8万多,这些项目的activity都是“Activity Not Available” ,其中有88个项目的followers_num>0。 > > 我的建议是按照:有code location,并且满足contributorNum>0或者followers_num>0,这样共留下138053。 > 我觉得去重之后不会有38万项目,OpenHub的数据源应该涵盖了Sourceforge,因此SourceForge中有的在OpenHub中应该大部分都会有。你可以随机选择sourceForge中的十几个项目看一下 我看了下SourceForge中是有很多项目在openhub中存在的。那openhub的项目我们先初步按照把没有代码库的去掉。
> zhanyun 写到: > openhub中没有code location的有39704,如果只根据这一个字段筛选会保留22万项目。加上OSChina3万,SourceForge15万,总共就有40万左右的项目,去重之后估计也会有38万往上。这样会不会太多了? > 有code location且contributorNum>0的有138008。有code location且contributorNum=0的有8万多,这些项目的activity都是“Activity Not Available” ,其中有88个项目的followers_num>0。 > 我的建议是按照:有code location,并且满足contributorNum>0或者followers_num>0,这样共留下138053。 我觉得去重之后不会有38万项目,OpenHub的数据源应该涵盖了Sourceforge,因此SourceForge中有的在OpenHub中应该大部分都会有。你可以随机选择sourceForge中的十几个项目看一下
openhub中没有code location的有39704,如果只根据这一个字段筛选会保留22万项目。加上OSChina3万,SourceForge15万,总共就有40万左右的项目,去重之后估计也会有38万往上。这样会不会太多了? 有code location且contributorNum>0的有138008。有code location且contributorNum=0的有8万多,这些项目的activity都是“Activity Not Available” ,其中有88个项目的followers_num>0。 我的建议是按照:有code location,并且满足contributorNum>0或者followers_num>0,这样共留下138053。
> wangtao 写到: > Freecode应该有4万7千多个项目,为什么OSSEAN中只有4万?请候翔核实一下@houxiang 师兄抽取框架还需改进,对没有抽取成功的页面没有进行再处理,这个还在想办法
> wangtao 写到: > > zhanyun 写到: > > > wangtao 写到: > > > 1、2中两个因素求并集得到的项目数量是多少?@zhanyun > > 1中,followers_num>0且contributorNum>0的有8164, followers_num>0且contributorNum>1的有5856。 > > 2中取并集是26779。 > 求并集而不是交集 额抱歉师兄,定向思维了。。1 中followers_num>0或contributorNum>0的有138322,followers_num>0或contributorNum>1的有120030,followers_num>0或contributorNum>2的有58848。 2中,取并集是150573。
> zhanyun 写到: > > wangtao 写到: > > 1、2中两个因素求并集得到的项目数量是多少?@zhanyun > 1中,followers_num>0且contributorNum>0的有8164, followers_num>0且contributorNum>1的有5856。 > 2中取并集是26779。 求并集而不是交集
> wangtao 写到: > 1、2中两个因素求并集得到的项目数量是多少?@zhanyun 1中,followers_num>0且contributorNum>0的有8164, followers_num>0且contributorNum>1的有5856。 2中取并集是26779。
初步统计结果如下: 1.openHub:平台共有261923,contributorNum>0的138185,contributorNum>1的119321,contributorNum>2的57625;followers_num>0的8301。 2.SourceForge:平台共有364965,download>0的145551,stars>0的31801,download和stars都大于0的26779。 3.OSChina:平台共有29971。 4.FreeCode:平台共有40705。