收藏本站更换配色

网站外链,外链发布,seo外链,免费发外链,描文本外链,外链制作,外链优化,软文推广

发布文章

SEO外链 / 商务服务 / 如何获取验证码（获取验证码具体操作方法）

收藏文章楼主

如何获取验证码（获取验证码具体操作方法）

版块：商务服务类型：普通作者：外链分享查看：111 回复：0 获赞：0 时间：2023-02-17 07:05:01

工作中，如何用python和selenium提取验证码呢？

获取验证码的方法

按照以往的经验，有4种方法：

让开发帮忙去掉验证码代码，重新部署环境
弄个万能验证码，每次登陆都可以登陆
用cookie添加登录名和密码避开验证码的方式
老老实实获取验证码图片，识别出验证码

方法一：

遇到好说话的开发，他一般都能帮忙去掉验证码的代码。

但是代码去掉了，还需要重新部署一套没验证码的环境，麻烦，不推荐。

方法二：

还是需要开发的帮助，弄一个万能验证码，但测试环境弄的万能验证码可千万不能搞到正式环境。

故不推荐，还是先想想别的办法。

方法三：

该方法的难点是：如何在cookie中找到登陆用户名和密码的name，再将用户名和密码添加进去。

方法四：

最容易想到的办法，重点讲这个方法，此处有2个思路。

截图登陆页面，再截取验证码图片，识别；
直接在登陆页面，定位到验证码，将验证码图片另存为，识别；

该方法实现过程中，用到第三方库pytesseract，所以先安装需要引用的库。

如何获取验证码（获取验证码具体操作方法）(1)

pytesseract的安装

pytesseract依赖于tesseract，需要先安装tesseract。

安装Tesseract模块：

git文档地址：https://digi.bib.uni-mannheim.de/tesseract/

请安装不带dev的稳定版，下载后就是一个exe安装包，直接右击安装即可。

一般安装在默认路径，如果不在默认路径，请记住该路径。

下载培训数据：

需要下载相应的培训数据，直接下载整个zip文件，解压后将文件复制到’tessdata‘目录中。

一般为：C:\Program Files (x86)\Tesseract-OCR\tessdata

如何获取验证码（获取验证码具体操作方法）(2)

配置环境变量：

编辑系统变量里面 path，添加安装路径：C:\Program Files (x86)\Tesseract-OCR
添加TESSDATA_PREFIX变量，值为：C:\Program Files (x86)\Tesseract-OCR\tessdata
最后，在cmd命令模式下测试是否安装成功：
tesseract test.jpg text -l chi_sim

安装python的第三方库：

pip install pillow #一个python的图像处理库，pytesseract依赖

pip install pytesseract

修改pytesseract.py文件：

找到pytesseract的安装包，C:\Python34\Lib\site-packages\pytesseract。

编辑pytesseract.py文件，该步骤必须做，不然编译时会报错。

修改内容如下：

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

如何获取验证码（获取验证码具体操作方法）(3)

代码实现

上面讲述了实现的2种思路，现在分别说明代码实现过程。

思路一：

先计算浏览器与登陆页面截图的比例值
再计算对应的验证码图片位置
再将获取到的验证码图片，先进行二值化处理
处理后的图像采用pytesseract库转化

如何获取验证码（获取验证码具体操作方法）(4)

截图保存验证码

如何获取验证码（获取验证码具体操作方法）(5)

二值化处理验证码图片

如何获取验证码（获取验证码具体操作方法）(6)

验证码图片转化

上述图片转化过程中，注意参数设置。

不设置参数时，总是将1转化为7，设置后转化准确率杠杠滴。

当然，目前只是识别数字型的验证码，文字类型的方法应该是类似的。

思路二：

先定位到验证码的位置
将验证码图片另存到一个路径
该路径下获取最新的验证码图片
验证码图片二值化处理
处理后的图像采用pytesseract库转化

如何获取验证码（获取验证码具体操作方法）(7)

验证码另存为图片

后面的图片处理和获取验证码过程与思路一相同。

全站外链： TEC传感器 | 猫掌外链

免责声明

1、小猪外链里发表的文章仅代表作者本人的观点，与本网站立场无关。
2、小猪外链网资源分享仅为个人学习、交流之用，同时向原著作者表达敬意。
3、小猪外链网仅提供信息存储空间服务，小猪外链网信息均来源于用户自行发布，不承担任何法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，可以按照《小猪外链网文章侵权处理流程》进行处理，同时向原著作者表达敬意。
4、内容由网友自主上传，如有侵权、违规请联系邮箱616859395@qq.com进行处理。

如果觉得本文还不错请点个赞或者打赏点金币哦~

拒绝伸手党，拿走请回复，尊重楼主，尊重你我他~

回复列表

默认热门正序倒序

工作中，如何用python和selenium提取验证码呢？

<h2>
	获取验证码的方法
</h2>

	按照以往的经验，有4种方法：

<ol>
	<li>
		让开发帮忙去掉验证码代码，重新部署环境
	</li>
	<li>
		弄个万能验证码，每次登陆都可以登陆
	</li>
	<li>
		用cookie添加登录名和密码避开验证码的方式
	</li>
	<li>
		老老实实获取验证码图片，识别出验证码
	</li>
</ol>

	方法一：


	遇到好说话的开发，他一般都能帮忙去掉验证码的代码。


	但是代码去掉了，还需要重新部署一套没验证码的环境，麻烦，不推荐。


	方法二：


	还是需要开发的帮助，弄一个万能验证码，但测试环境弄的万能验证码可千万不能搞到正式环境。


	故不推荐，还是先想想别的办法。


	方法三：


	该方法的难点是：如何在cookie中找到登陆用户名和密码的name，再将用户名和密码添加进去。


	方法四：


	最容易想到的办法，重点讲这个方法，此处有2个思路。

<ol>
	<li>
		截图登陆页面，再截取验证码图片，识别；
	</li>
	<li>
		直接在登陆页面，定位到验证码，将验证码图片另存为，识别；
	</li>
</ol>

	该方法实现过程中，用到第三方库pytesseract，所以先安装需要引用的库。


	<img src="uploadfiles/images/1445/20230217/070459_O4JpRz.jpg" alt="如何获取验证码（获取验证码具体操作方法）(1)" />

<h2>
	pytesseract的安装
</h2>

	pytesseract依赖于tesseract，需要先安装tesseract。


	安装Tesseract模块：


	git文档地址：https://digi.bib.uni-mannheim.de/tesseract/


	请安装不带dev的稳定版，下载后就是一个exe安装包，直接右击安装即可。


	一般安装在默认路径，如果不在默认路径，请记住该路径。


	下载培训数据：


	需要下载相应的培训数据，直接下载整个zip文件，解压后将文件复制到’tessdata‘目录中。


	一般为：C:\Program Files (x86)\Tesseract-OCR\tessdata


	<img src="uploadfiles/images/1445/20230217/070459_frl90F.jpg" alt="如何获取验证码（获取验证码具体操作方法）(2)" />


	配置环境变量：

<ol>
	<li>
		编辑系统变量里面 path，添加安装路径：C:\Program Files (x86)\Tesseract-OCR
	</li>
	<li>
		添加TESSDATA_PREFIX变量，值为：C:\Program Files (x86)\Tesseract-OCR\tessdata
	</li>
	<li>
		最后，在cmd命令模式下测试是否安装成功：
	</li>
	<li>
		tesseract test.jpg text -l chi_sim
	</li>
</ol>

	安装python的第三方库： 


	pip install pillow #一个python的图像处理库，pytesseract依赖


	pip install pytesseract


	修改pytesseract.py文件：


	找到pytesseract的安装包，C:\Python34\Lib\site-packages\pytesseract。


	编辑pytesseract.py文件，该步骤必须做，不然编译时会报错。


	修改内容如下：

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

<h2>
	代码实现
</h2>

	上面讲述了实现的2种思路，现在分别说明代码实现过程。


	思路一：

<ol>
	<li>
		先计算浏览器与登陆页面截图的比例值
	</li>
	<li>
		再计算对应的验证码图片位置
	</li>
	<li>
		再将获取到的验证码图片，先进行二值化处理
	</li>
	<li>
		处理后的图像采用pytesseract库转化
	</li>
</ol>

	<img src="uploadfiles/images/1445/20230217/070459_X4i7xR.jpg" alt="如何获取验证码（获取验证码具体操作方法）(4)" />


	截图保存验证码


	<img src="uploadfiles/images/1445/20230217/070459_LBrc2G.jpg" alt="如何获取验证码（获取验证码具体操作方法）(5)" />


	二值化处理验证码图片


	<img src="uploadfiles/images/1445/20230217/070500_xNUxTd.jpg" alt="如何获取验证码（获取验证码具体操作方法）(6)" />


	验证码图片转化


	上述图片转化过程中，注意参数设置。


	不设置参数时，总是将1转化为7，设置后转化准确率杠杠滴。


	当然，目前只是识别数字型的验证码，文字类型的方法应该是类似的。


	思路二：

<ol>
	<li>
		先定位到验证码的位置
	</li>
	<li>
		将验证码图片另存到一个路径
	</li>
	<li>
		该路径下获取最新的验证码图片
	</li>
	<li>
		验证码图片二值化处理
	</li>
	<li>
		处理后的图像采用pytesseract库转化
	</li>
</ol>

	<img src="uploadfiles/images/1445/20230217/070500_sSBdJA.jpg" alt="如何获取验证码（获取验证码具体操作方法）(7)" />


	验证码另存为图片


	后面的图片处理和获取验证码过程与思路一相同。

首 1 尾