验证码识别

因为看到学校的饭卡网站坑爹,而我的技术又不到家黑不了这个网站,而他只有6位密码,所以想暴力试试(捉弄一下小伙伴)。因为有验证码的关系,暴力的期望时间大概为14个小时。完全可以接受啊。但首先是要搞定这验证码啊!话说这事很久以前我就想做了,因为之前就听说过tesseract这吊炸玩意。所以这里讲的不是如何去写个神经网络来训练,也不是opencv来解决。如果感兴趣的话可以参考最下面的链接。


初步尝试

怎么安装我就不说了,参考主页。我要使用python,网上也有封装好的利用tesseract的库,但是我死活搞不定所以索性就不用了。毕竟只要执行一个命令就行了。先来说我要破解的验证码长什么样,如下图(原验证码),毕竟需求不同。但是原理大同小异。然后输入 tesseract captcha.jpg 2 -psm 6 digits 。这命令含义就是假定是一块数据(-psm 6),而且全是数字(digits),输出到2.txt。这里的digits是配置文件。在/usr/share/tessdata/configs/digits,内容只有一行: tessedit_char_whitelist 0123456789-.  但是2.txt里居然什么也没有。网上查了查,好像是因为DPI不够,这不是坑爹吗。确实图片比较小。根据他的ImproveQuqlity,我发现我需要做两件事。一是去掉边框,二是去掉噪点。

手动去噪

用GIMP对原图来了一发。效果如下图(GIMP处理后)。同样的命令,结果就出来了。但是好像哪里不对。我这是要暴力登录啊,这样处理图片的话还不如手动输入验证码。所以还得自己写。

Python去噪

很简单的思路,就是把边框去掉,然后把单独的黑点去掉。这个已经差不多了,要考虑4这个奇葩的数字,还有这可以的dpi。我走了不少弯路,其实质的提高是对图片分割。而且不能分开后一张张算,要在原图中分割。经过观察,这些数字的位置基本不变,在像素点1,10,19,28的位置加一条白线即可。效果如下(python处理)。这个程序的准确率居然是精准的2/3。。可以接受。程序代码如下,都没有100行,很简单啊。我已经破了两个小伙伴的密码了。很可惜,都是身份证后六位,没改过不好玩。

captcha18671867(2)erase_1867


训练数据

所以说写博客还是很重要的。写的时候,我发现tesseract还自带训练。但是用在验证码处理就不太合适了。这是为没有特定字符的文字训练的,比如中文。而且感觉还比较复杂,不过有GUI工具。我就不去深入研究了。


链接

  1. Simple CAPTCHA solver in python
  2. Solving CAPTCHA with OCR
  3. OCR of Hand-written Data using kNN,  Simple Digit Recognition OCR in OpenCV-Python
  4. tesseract-ocr parameters
  5. python-tesseract, pytesser

Python: function

      Python基本的内容已经回顾完了。这次的function真的是让我好好消化了一下。特别是Python中的闭包(Closure),由于之前没有实际用过,不是很能切身体会其用处。我目前只能理解到enclosing function这个层面。

function coding:

      Python最简单的表示函数的方法是 def ,之后的code block就是一个函数体。当然还有lambda函数等等。Python不仅有一般的返回方式,比如 return ,还支持 yield (比较高级,到generator时再展开)。这两者的主要区别是yield记住了函数处理的位置。比如读一个大文件,使用yield就能一段段返回,这也是Python内置open函数的标准做法。

      Python中还有compile能生成函数。最酷炫的定义函数的方法在下文提到。原文见stackoverflow.

      Python中所有变量都是对象。函数也不例外。最简单的证明就是

      函数这个变量不是像C一样编译时就确定的。是运行时动态确定的。这点也很容易理解,毕竟Python是脚本语言。

function object:

      既然函数是个对象,那么这里面装的是什么?自然的好奇,一下子将我带入高级领域了。接触了dis,code,inspect等等好多底层的,一下子反应不过来。先看最相关code。进行测试:

      输出为:

      code这个对象就是function的核心。我这么认为。因为这包含了函数的机器码。Python内置了反编译dis模块。看看酷炫的函数生成方式和dis模块的相应作用。再次声明这代码我目前没能力写出,理解也好半天,娱乐一下,原文见大神。输出见不看了,代码在Python 3可直接运行看输出。

nested function:

      Python的作用是根据LEGB来的。从Local->enclosing->global->buildin。最难以理解的是enclosing。而且Python2和3还有区别。Python3多了nonlocal,一下子提升了nested function的实用性,或者说是提供了便利性。先看代码例子。

      nested function的主要应用场景就是上面所示。生成一个附带上下文信息的独立函数。比如F,G各自都是独立的带有信息state。这貌似就是class。但实际上还是有区别的。首先写法就不一样。然后结构也不一样。然后据说效率也不一样。当然同样的功能class一定能实现。

      回到LEGB。如上面的例子。E就是代码nested function到最外层的函数为止的作用域,不包括最外层的函数外面的。在Python 2只能在nested function里引用E中变量,即read only。Python 3使用nonlocal后就能表明这个变量要在nested function里改变。虽然Python 2能用一些技巧实现同样的事,但总归不自然。

      函数还有部分内容,内容太多,分开写。

链接:

  1. python code object
  2. Exploring Python Code Object

Python: statements

      statements是编程语言中重要部分。在Python中也是如此。statements代表一段逻辑。Python通过对齐(indent)控制statements。

赋值:

      正常的赋值就不提了。Python3支持一种特别的赋值方式: a,*b, c = [1,2,3,4,5] ,*b代表匹配剩下的。Python3在赋值前都会创建副本,比如 a,b = b,a 的赋值方式完全没有问题。 顺便提一下, print(a = 1) 这样的语句在Python中是不行的,因为赋值不返回值,跟C不一样。
      当然Python也支持 Augmented assignment statements。其实就是 X += Y 这样的。如果这里X是不可变的,那么这样操作与 X = X + Y 差别不大。但是如果X是可变的,比如list类型,那差别就大了。特别是效率问题。如下所示。变量是重新开辟了内存区域。

if:

      Python里只有if,没有switch。因为if…elif…也可以写的很漂亮。更因为Python可以直接用dict代替switch。仔细想想如何做。更强大的是可以直接switch到函数。如下:

      Python中的判断还是要注意的。像大小比较返回的是True、False,但是逻辑判断返回的居然是对象,因为在Python中每个对象都是固有的True或False。当然判断还是遵守short circuit的。如下:

循环:

      计算机就是用来循环的。Python的循环也不同寻常。Python很少用while,至少我很少用,因为for太强大了。平常的for不管了。Python的for是只要对方是个可迭代的,就可以使用 for i in X: 的形式。举例文件的读取。下面才是正确的做法。节省内存,效率也不低。唯一的弱点是f是iterator,只能顺序读一次。

      循环也经常与map,zip,enumerate配合使用。

Iterations:

      Iteration是Python中重要的类型。Python中有iterable和iterator。书上是这么说的。

The iterable object you request iteration for, whose __iter__ is run by iter
The iterator object returned by the iterable that actually produces values during
the iteration, whose __next__ is run by next and raises StopIteration when finished
producing results

      感觉还是不太明白,后来还是上网查查明白了。见stackoverflow。像list,dict,str等等都是iterable的。这样就可以做有趣的事了。普通的for一样可以。这里多了叫Comprehension的说法。其实就是把for写在[]里。如

      据说这样效率会比较高。。总之比手动index快。所以让Python做更多事是提升效率的基本原则。

文档:

      虽然说Python已经十分接近自然语言了。但是写注释和文档还是必要的。Python这点做的很好,PyDoc把注释和文档结合了。所以写大型注释就是写””” HELLO “””这样的。然后由__doc__或help获取。不展开。也可以使用HTML看文档, python -m pydoc -b 。对与个人用足够了。高大上的Sphinx也可以尝试一下。

 

      好了,Python以前会打大概就差不多了。还有后面一点点会的函数。。就当复习了。这么点时间还是学到了不少。收获很多!