日常生活中我们浏览网站时总是被各种各样的验证码拦截,要求证明你是个人类而不是robot。当然网站开发者本意是为了防止登录接口被黑客爆破,不过随着黑客工具与技术不断进步像之前那种简单的验证码方式已经拦不住他们了,顶多给他们造成一点点的困扰。
于是网站开发者只能不断的增强验证码难度,这可苦了我们这些普通用户了。现在的验证码难度已经足以让我不能证明我是个人了(¬_¬)
像这样的还好,只需要点击一下就可以。最烦人的是那种跟玩找不同一样,请找出下面所有含有人行横道的图片
,nnd我是跟你玩游戏来着是吧。
俗话说要用魔法打败魔法,黑客既然能用机器来识别验证码,那我们自然也能用机器识别它。
ddddocr
官网:GitHub – sml2h3/ddddocr: 带带弟弟 通用验证码识别OCR pypi版
这是目前爬虫绕过验证码最常用的一个库,使用简单且准确率高达90%
。
基本支持常用的验证码方式,数字,滑块和中文,不过上面那种选人行道的就不支持了。
简单介绍下最常遇到的数字验证码方式。
使用
注意,在使用前请确定你的环境是否合适。
- python <= 3.9
- Windows/Linux/Macos.. 暂时不支持M1芯片
首先一键安装依赖,pip install
安装时选择国内镜像,因为国外的真的很慢。
1 |
pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple |
这里选择的是清华的镜像源,之后等待依赖安装完成即可。
装好依赖就可以使用了,需要把验证码下载到本地,然后只需几行代码就能识别到结果。
1 |
import ddddocr |
需要的验证码图片。
识别结果:hqymw
按道理现在那些浏览器验证码识别插件都能使用这个模型来实现,只不过需要先获取整个网页的DOM然后找到验证码所在位置和验证码图片链接,之后再后台识别返回到前端自动填到用户页面上(瞎猜的)。
万能验证码自动输入(升级版)
网址:万能验证码自动输入(升级版) (greasyfork.org)
一个油猴插件的脚本,装油猴插件就不在此多说了,不会的看之前的文章。
建议注册完后再使用,游客的话一小时只能使用2次
,注册后每小时可以使用5次
。
注册地址:注册 – Crab工具箱 (like996.icu)
使用上面那个链接注册的话会自动填我的邀请码๑乛◡乛๑,每有一个人用你的邀请码注册的话一小时内识别次数会+1。
注册完成后会有个识别码
和注册码
,识别码相当于你用来登录的,注册码则是你邀请新人时需要的。点击一键安装识别码
就可以登录了,或者你手动复制识别码输入到脚本里。
找个网站来演示一下,就来网易的有道云笔记吧,它的验证方式是滑动验证码
那种。
可能部分网站不能自动识别,这时需要你手动来添加规则,在有验证码的网站打开脚本然后点击上图中的规则管理
,之后看下面这个GIF来操作。
需要依次点击验证码背景图片
—>小拼图
—>滑块
之后静静等待自动划过去就可以了。
使用的时候可能会要求权限,建议选择总是允许此域名
,懒省事的话可以选最下面那个。
Buster: Captcha Solver for Humans
上面那俩都是用来字母
、数字
和滑块
验证,对于我们一开遇到的那种选择人行道的根本没有办法。这就需要Edge
扩展商店里的Buster了。
通常在扩展里搜索Buster
就能出来了,Edge浏览器可以直接点击Buster: Captcha Solver for Humans – Microsoft Edge Addons就能自动跳转到插件安装界面。
使用
使用方式贼简单,看下面这个GIF吧。
通常情况下这三个识别已经够了,实在有其他情况只能靠你自己来证明你是个真人了( ╯--)╯┴—┴
闲聊
看到一个有趣的话题,不知道大家还记不记得西游记中有次唐僧让孙悟空去化斋,但是1孙悟空被刚出锅的米饭烫住了。OK,问题来了,孙悟空在太上老君的炼丹炉里炼了那么多天都没事,为什么还怕被烫???
有个评论是这样说的,他只是烫不死不是不怕烫,哈哈哈哈<( ̄ c ̄)y▂ξ