也想出现在这里? 联系我们

使用爬虫采集网站时,解决被封IP的几种方法

作者 : 小编 本文共984个字,预计阅读时间需要3分钟 发布时间: 2021-06-12 共1.7K人阅读
也想出现在这里? 联系我们

方法1.之前由于公司项目需要,采集过google地图数据,还有一些大型网站数据。经验如下:1.IP必须需要,像@alswl 说的非常正确,ADSL。如果有条件,其实可以跟机房多申请外网IP。2.在有外网IP的机器上,部署代理服务器。3.你的程序,使用轮训替换代理服务器来访问想要采集的网站。好处:1.程序逻辑变化小,只需要代理功能。2.根据对方网站屏蔽规则不同,你只需要添加更多的代理就行了。3.就算具体IP被屏蔽了,你可以直接把代理服务器下线就OK,程序逻辑不需要变化。方法2.有小部分网站的防范措施比较弱,可以伪装下IP,修改X-Forwarded-for(貌似这么拼。。。)即可绕过。大部分网站么,如果要频繁抓取,一般还是要多IP。我比较喜欢的解决方案是国外VPS再配多IP,通过默认网关切换来实现IP切换,比HTTP代理高效得多,估计也比多数情况下的ADSL切换更高效。方法3.ADSL + 脚本,监测是否被封,然后不断切换 ip设置查询频率限制正统的做法是调用该网站提供的服务接口。方法4.8年多爬虫经验的人告诉你,国内ADSL是王道,多申请些线路,分布在多个不同的电信区局,能跨省跨市更好,自己写好断线重拨组件,自己写动态IP追踪服务,远程硬件重置(主要针对ADSL猫,防止其宕机),其余的任务分配,数据回收,都不是大问题。我的已经稳定运行了好几年了,妥妥的!方法5.1 user agent 伪装和轮换2 使用代理 ip 和轮换3 cookies 的处理,有的网站对登陆用户政策宽松些友情提示:考虑爬虫给人家网站带来的负担,be a responsible crawler 🙂方法6.尽可能的模拟用户行为:1、UserAgent经常换一换;2、访问时间间隔设长一点,访问时间设置为随机数;3、访问页面的顺序也可以随机着来方法8.网站封的依据一般是单位时间内特定IP的访问次数.我是将采集的任务按 目标站点的IP进行分组 通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.方法9.1. 对爬虫抓取进行压力控制;2. 可以考虑使用代理的方式访问目标站点。-降低抓取频率,时间设置长一些,访问时间采用随机数-频繁切换UserAgent(模拟浏览器访问)-多页面数据,随机访问然后抓取数据-更换用户IP

1. 本站所提供的源码模板(主题/插件)等资源仅供学习交流,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担,有部分资源为网上收集或仿制而来,若模板侵犯了您的合法权益,请来信通知我们(Email: rayer@88.com),我们会及时删除,给您带来的不便,我们深表歉意!
2. 分享目的仅供大家学习和交流,请不要用于商业用途!
3. 如果你也有好源码或者教程,可以到用户中心发布投稿,分享有金币奖励和额外收入!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务 请大家谅解!
5. 如有链接无法下载、失效或广告,请联系站长,可领回失去的金币,并额外有奖!
6. 如遇到加密压缩包,默认解压密码为"www.zyfx8.cn",如遇到无法解压的请联系管理员!
本站部分文章、资源来自互联网,版权归原作者及网站所有,如果侵犯了您的权利,请及时联系我站删除。免责声明
资源分享吧 » 使用爬虫采集网站时,解决被封IP的几种方法

常见问题FAQ

免费下载或者VIP会员专享资源能否直接商用?
本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
织梦模板使用说明
你下载的织梦模板并不包括DedeCMS使用授权,根据DedeCMS授权协议,除个人非盈利站点外,均需购买DedeCMS商业使用授权。购买地址: http://www.desdev.cn/service-dedecms.html

发表评论

Copyright 2015-2020 版权所有 资源分享吧 Rights Reserved. 蜀ICP备14022927号-1
开通VIP 享更多特权,建议使用QQ登录