【支持】
爬取部分,性能分析
正常
由
甘谊昂添加于 2015-04-16 23:11
3个流程中对应的进程,以线程方式,整合在1个进程后。
以爬取stackoverflow为例,windows平台下,进行监控。
堆内存峰值在40M,CPU稳定在2%下。
以3进程方式运行:
ListHtmlCrawler堆内存峰值在20M左右,
UrlExtractor堆内存使用峰值在30M左右,
DetailHtmlCrawler堆内存使用峰值在18M左右。
*以1主进程3线程运行方式可以改善当前内存占用情况。*
评估时候,运行时间不长且进程单独运行,还不清楚同时启动数个进程,在长时间运行下会出现什么情况。
以上面情况来看,同时运行30个程序,是应该没问题的,为什么会出现内存不足情况,还不能明确原因。
Linux下还没测试。