针对爬虫的各种伪装,检测手段如下。
基础手段:
ua黑名单,分出自我标识的“善良的”爬虫
基于ua/bev_id/ip的统计手段:
ua行为检测,同一个ua下不同bev_id的访问次数,如果这个平均次数接近于1,意味着这是打乱bev_id但是没有打乱ua的爬虫
可疑的ip,如果某个ip的所有请求中,有大量不同的bev_id但是几乎没有登录用户(user_id),或者大量bev_id的访问时间很短,则认为这个ip可疑
打乱ip,如果一个bev_id的访问量过大,而且该bev_id对应的ip值很多,则说明该bev_id采用了打乱ip的方法,较可能为爬虫。
是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
爬虫检测是指爬虫所要爬取的网站需要对客户端的操作进行检查,一般是根据robots协议来进行的