论坛风格切换
  • 96阅读
  • 0回复

大规模采集数据会引起什么问题 [复制链接]

上一主题 下一主题
 

发帖
44
大洋
310
贡献值
92
zencart外贸建站外贸网站建站深圳外贸B2C建站外贸建站,信用卡通道集成,Amazon分类审核建站。请QQ联系
QQ:1023206115 QQ:2257583107 QQ:3038328260

1.速度问题 
大规模的采集数据,那肯定是越快越好,但提高采集速度对目标影响非常大,同时也容易暴露爬虫的身份,这就要求你合理的控制好采集的速度,同时还要最快的采集到数据。 
大规模采集可以使用多线程,提高下载速度,但也不能无限增加线程,因为线程数越大消耗的系统资源就越多,同时过多的CPU切换反而会增加整体花费的时间。 
也可以使用多进程采集,即并行的执行多个任务,代理ip提高运行效率。虽然相对于多线程,多进程爬虫更重,更慢,但也可靠。 
因为PYTHON本身由于GIL的关系,也就是它本质一个PYTHON进程只可能有一个线程,不管说的是多少线程都是模拟出来的多线程,所以,你真要快速,这个要用多进程来处理。 
2.代理问题 
不管是采集什么样的数据,都需要使用代理,更何况大规模的数据采集,这是为什么呢? 
频繁的请求,会被目标限制,这需要通过更换IP的方法来突破访问次数的限制,这需求这是代理,至于这IP池怎来,就看你如果搭建的,效果最好的当然是使用服务器搭建IP池,这种方法需要考虑成本以及维护问题。 
或者直接从代理IP商那购买后直接提高IP,比如黑洞代理。又或者在网上提取免费的IP资源,当然这效果特别差。 
如果不想花大量的成本,在性价比上来说选择代理IP商不错,有效果,也能控制成本。 
对于“大规模采集数据会引起什么问题”,本文介绍了大规模采集数据会引起的速度与代理问题,当然肯定不止这两个问题,但这是必定会遇到的问题。另外在爬取时,要注意爬取主要的数据,尽量少爬取其他的信息,因为任何额外请求或者数据析取都会影响爬取的速度。 
黑洞代理ip是一款可以改变浏览器IP的软件,使用HTTP代理IP,软件自带IP过滤器,用户可根据实际需要选择过滤间隔时间,大大减少了IP重复率问题;IP随时更新,不断加入新鲜IP也使黑洞代理ip的安全性、稳定性更高;黑洞代理ip切换简单,点击一键换IP按键轻松改变IP,在日常工作学习中给我们带来了十足便利。 
 
 

快速回复
限80 字节
如果您提交过一次失败了,可以用”恢复数据”来恢复帖子内容(---删除纯表情和无意义内容,扣1分---)
 
上一个 下一个