配置环境为win7 64位,主要完成的任务是用MTCNN完成人脸检测,即使用目标检测框将图像中的人脸框出来,配置过程如下:
1、环境配置
安装anaconda
进入官网:
https://www.anaconda.com/download/
根据python版本下载安装相应的anaconda即可
安装Microsoft Visual Studio 2013
注意此处一定要安装2013版方便后面caffe的编译,下载地址为:
https://msdn.itellyou.cn/
在编译好的VS环境下配置opencv和openblas
配置opencv参考:
https://blog.csdn.net/SherryD/article/details/51734334
配置openblas参考:
https://blog.csdn.net/yangyangyang20092010/article/details/45156881
在VS环境下编译caffe
下载caffe的windows官方编译版本:
https://github.com/happynear/caffe-windows
然后按照:
https://blog.csdn.net/xierhacker/article/details/51834563
安装即可
安装pycharm,并在anaconda的python环境中配置opencv
1、安装pycharm参考:
https://www.jianshu.com/p/042324342bf4
2、在anaconda的python环境中配置opencv
首先在官网:https://opencv.org/releases.html
下载opencv的win pack包,然后直接点exe运行即可,安装完成后,将opencv的安装路径:
E:\OpenCV2\opencv\build\python\2.7\x86下的cv2.pyd移动到anaconda的安装路径:D:\Anaconda\anaconda2\Lib\site-packages下,然后可以在cmd命令进行测试
3、以上配置好后,在pycharm中一个常见的问题就是:
1 | ImportError: No module named google.protobuf.internal |
这里需要首先到:https://github.com/google/protobuf将protobuf-maste拷贝下来,然后到:https://github.com/google/protobuf/releases中下载protoc-3.5.1-win32.zip
将protoc-3.5.1-win32\bin下的protoc.exe复制到protobuf-master\src文件夹下,按照:
http://sharley.iteye.com/blog/2375044
中的方式进行安装
2、MTCNN配置
github上MTCNN有很多版本,我以从数据集准备到最终的测试的顺序来介绍
训练主要参考:https://github.com/dlunion/mtcnn
测试主要参考:https://github.com/CongWeilin/mtcnn-caffe
数据集的准备
1、将采集好数据集放到一个文件夹中,命名为samples(也可以写成别的名字,但是注意与后面的步骤中需要该文件夹数据的路径要一致)
2、对数据集进行标注,网上有很多的标注工具可以使用:
https://blog.csdn.net/chaipp0607/article/details/79036312
可以使用上面的标注工具进行标注,标注完成后会生成一个txt文档或者是xml文档之类的文档,里面包含了图像检测框的左上角点的坐标和右下角点的坐标信息。
3、根据文档中提供的信息,我们需要将检测框的左上角点的坐标和右下角点的坐标提取出来,整理成以下形式:
samples/filename.jpg xmin ymin xmax ymax
(即:数据集文件夹/图片名 检测框左上角点的x坐标 检测框左上角点的y坐标 检测框右下角点的x坐标 检测框右下角点的y坐标)
我使用的数据标注工具生成的文档如下所示:
1 | <?xml version='1.0' encoding='GB2312'?> |
所以我需要将这个文档中的检测框坐标点提取出来,并整理成如上所述的标准形式,形成一个 label.txt 文档
根据以上xml的形式,转换的脚本如下:
1 | # -*- coding:utf-8 -*- |
整理好的 label.txt 形式为:
1 | E:/MTCNN/Train/samples/0019c3f356ada6bcda0b695020e295e6.jpg 102 87 311 417 |
3、MTCNN训练数据生成及训练
(1) P_Net 的训练
按照MTCNN论文中的说法:
需要将原始数据集的数据分成Negative,Positive,Part faces,Landmark faces四个部分,由于本次主要是进行人脸检测的任务,所以只需要分成Negative,Positive,Part faces三个部分即可,代码如下所示:
1 | # -*- coding:utf-8 -*- |
这里是产生第一个P-Net的训练样本,产生后续R-Net和O-Net的训练样本只需要将上面的 stdsize = 12 参数改成24和48即可,里面有些参数也可以根据自己的需要进行修改。
上面获得了随机切分原图后得到的Negative,Positive,Part faces三类样本的图片路径和样本中的每一张图片里检测框的坐标,我们要进行训练,还是需要将这些信息保存为第三步中label.txt的形式:
1 | import sys |
接下来要将其转换成caffe用的lmdb形式,这里我们利用caffe自带的工具,转换代码如下:
1 | "caffe/convert_imageset.exe" "" 12/label.txt train_lmdb12 --backend=mtcnn --shuffle=true |
由于将原始图片切分成Negative,Positive,Part faces三个部分后数据量很大,所以可能转换的时间会很长。
至此,P_Net的训练数据就准备好了,接下来就可以进行训练了。
训练我们需要配置到caffe的相关prototxt:
上面训练参考链接中的:det1-train.prototxt,solver-12.prototxt,注意调整这两个文件中的路径,然后在根目录下新建models-12文件夹用于存储snapshot,最后使用命令:
1 | "caffe/caffe.exe" train --solver=solver-12.prototxt --weights=det1.caffemodel |
进行训练即可。
(2) R_Net 的训练
进行完上面P_Net的训练后,继续参考上面的产生数据的代码产生R_Net所需的训练数据,同时因为论文中强调了产生hard_sample会提高模型的预测精度:
所以我们使用下面的代码来产生hard_sample:
1 | import tools |
注意修改上面代码的路径,用上面P_Net同样的处理方式将以上数据处理成lmdb的形式并进行训练。O_Net同理。上面的训练完成后就可以进行测试了。
4、MTCNN的测试
经过以上的步骤,在models-12、models-24和models-48会有三个网络对应的caffemodel,再加上det1.prototxt、det2.prototxt和det3.prototxt就可以利用下面的代码进行测试了(主要参考https://github.com/CongWeilin/mtcnn-caffe/tree/master/demo中的代码):
1 | import tools_matrix as tools |
上面只是一个简单的实现过程的介绍,但是需要实现论文里面的效果,还需要很复杂的处理数据和调参过程。