对于爬虫程序来说,最需要注意的字段就是:User-Agent
很多网站都会建立 user-agent白名单,只有属于正常范围的user-agent才能够正常访问。
缺点:容易伪造头部。
对于爬虫程序而言:
如果不设置User-Agent,服务器端只会收到一个单纯的对于该页面访问的请求,但是服务器并不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,而缺失这些信息的请求往往都是非正常的访问,例如爬虫。
所以需要伪造User-Agent进行请求【可以手动设置一个User-Agent,但是更好的是提供多个User-Agent】
2、IP限制
如果一个固定的ip在短暂的时间内,快速大量的访问一个网站,后台管理员可以编写IP限制,不让该IP继续访问。
缺点:可以使用免费/付费代理,绕过检测。
对于爬虫程序而言:使用代理(池)
以上就是本篇文章【【爬虫学习】反爬虫技术】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/18947.html
栏目首页
相关文章
动态
同类文章
热门文章
网站地图
返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多