- 1、小猪外链里发表的文章仅代表作者本人的观点,与本网站立场无关。
2、小猪外链网资源分享仅为个人学习、交流之用,同时向原著作者表达敬意。
3、小猪外链网仅提供信息存储空间服务,小猪外链网信息均来源于用户自行发布,不承担任何法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,可以按照《小猪外链网文章侵权处理流程》进行处理,同时向原著作者表达敬意。
4、内容由网友自主上传,如有侵权、违规请联系邮箱616859395@qq.com进行处理。


工作中,如何用python和selenium提取验证码呢?
按照以往的经验,有4种方法:
方法一:
遇到好说话的开发,他一般都能帮忙去掉验证码的代码。
但是代码去掉了,还需要重新部署一套没验证码的环境,麻烦,不推荐。
方法二:
还是需要开发的帮助,弄一个万能验证码,但测试环境弄的万能验证码可千万不能搞到正式环境。
故不推荐,还是先想想别的办法。
方法三:
该方法的难点是:如何在cookie中找到登陆用户名和密码的name,再将用户名和密码添加进去。
方法四:
最容易想到的办法,重点讲这个方法,此处有2个思路。
该方法实现过程中,用到第三方库pytesseract,所以先安装需要引用的库。
pytesseract依赖于tesseract,需要先安装tesseract。
安装Tesseract模块:
git文档地址:https://digi.bib.uni-mannheim.de/tesseract/
请安装不带dev的稳定版,下载后就是一个exe安装包,直接右击安装即可。
一般安装在默认路径,如果不在默认路径,请记住该路径。
下载培训数据:
需要下载相应的培训数据,直接下载整个zip文件,解压后将文件复制到’tessdata‘目录中。
一般为:C:\Program Files (x86)\Tesseract-OCR\tessdata
配置环境变量:
安装python的第三方库:
pip install pillow #一个python的图像处理库,pytesseract依赖
pip install pytesseract
修改pytesseract.py文件:
找到pytesseract的安装包,C:\Python34\Lib\site-packages\pytesseract。
编辑pytesseract.py文件,该步骤必须做,不然编译时会报错。
修改内容如下:
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
上面讲述了实现的2种思路,现在分别说明代码实现过程。
思路一:
截图保存验证码
二值化处理验证码图片
验证码图片转化
上述图片转化过程中,注意参数设置。
不设置参数时,总是将1转化为7,设置后转化准确率杠杠滴。
当然,目前只是识别数字型的验证码,文字类型的方法应该是类似的。
思路二:
验证码另存为图片
后面的图片处理和获取验证码过程与思路一相同。
网站公告
近期本站被人为恶意注册及发布垃圾帖,每一个发帖都会经过审核,一经发现违法或垃圾帖的用户,帖子将被删除或封号,请大家共同维护互联网环境,共创美好互联网未来。
详细的发帖规则请阅读:
《小猪外链网发帖规则》
《小猪外链网最新金币规则》
注:本站严禁发布灰色违禁违法内容,如发现立刻永久封号,如开通会员的概不退款。
免责申明:本网站内容由平台入驻会员撰写,除创始人账号外,其他观点仅代表作者本人,不代表小猪外链网立场。如果内容涉及侵犯其他公司、团体的利益、请联系小猪SEO外链网客服举证删除
您的IP:18.223.114.251,2025-05-03 19:12:23,Processed in 0.21835 second(s).