爬虫 - Hi~Roy!

上篇文章记录了2种分割验证码的方法，此外还有一种叫做"滴水算法”(Drop Fall Algorithm)的方法，但本人智商原因看这个算法看的云里雾里的，所以今天记录滑动验证码的处理吧。网上据说有大神已经破解了滑动验证码的算法，可以不使用selenium来破解，但本人能力不足还是使用笨方法吧。

基础原理很简单，首先点击验证码按钮后的图片是滑动后的完整结果，点击一下滑块后会出现拼图，对这2个分别截图后比较像素值来找出滑动距离，并结合selenium来实现拖拽效果。

今天这篇文章主要记录一下如何切分验证码，用到的主要库就是Pillow和Linux下的图像处理工具GIMP。首先假设一个固定位置和宽度、无粘连、无干扰的例子学习一下如何使用Pillow来切割图片。

使用GIMP打开图片后，按加号放大图片，然后点击View->Show Grid来显示网格线：

其中，每个正方形边长为10像素，所以数字1切割坐标为左20、上20、右40、下70。以此类推可以知道剩下3个数字的切割位置。代码如下：

from PIL import Image
p = Image.open("1.png")
# 注意位置顺序为左、上、右、下

cuts = [(20,20,40,70),(60,20,90,70),(100,10,130,60),(140,20,170,50)]
for i,n in enumerate(cuts,1):
    temp = p.crop(n) # 调用crop函数进行切割

    temp.save("cut%s.png" % i)

切割后得到4张图片：

那么，如果字符位置不固定怎么办呢？现在假设一种随机位置宽度、无粘连、无干扰线的情况。

写爬虫有一个绕不过去的问题就是验证码，现在验证码分类大概有4种：

图像类
滑动类
点击类
语音类

今天先来看看图像类，这类验证码大多是数字、字母的组合，国内也有使用汉字的。在这个基础上增加噪点、干扰线、变形、重叠、不同字体颜色等方法来增加识别难度。相应的，验证码识别大体可以分为下面几个步骤：

灰度处理
增加对比度(可选)
二值化
降噪
倾斜校正分割字符
建立训练库
识别

N久之前使用这对好伙伴实现支持抓取ajax数据的爬虫，最近有个需求是完全模拟某网站的购物操作，结果这个网站比较奇葩，对于表单中某些文本框、复选框等修改后会触发post操作并更改页面内容，而且这些控件之间还会互相影响，直接使用post方式的话比较困难，于是再次祭出神器： selenium 和phantomjs,此外还可以尝试selenium-ide。这里phantomjs2.0版本并没提供编译好的通用Linux版，所以本文依然使用1.9版，但在2.0版上测试通过。 # coding=utf-8 from selenium import webdriver def main(): dcap = dict(DesiredCapabilities.

爬虫

python验证码识别3:滑动验证码

python验证码识别2:投影法、连通域法分割图片

python验证码识别1:灰度处理、二值化、降噪、tesserocr识别

Selenium+phantomjs模拟网页自动化操作