引言
无人机技术的发展十分迅速。从美军无人机的使用,到现在无人机在研究、民用等多方面的普及,无人机已成为一种新的潮流[1-2]。随之而来也带来很多新问题,此前无人机险撞战机事件的发生,就给人们敲响了警钟。因此,无人机警察系统的搭建势在必行。本文的研究重点为:建立视觉传感网,用于无人机的图像捕捉和信息存储;引入深度学习对无人机进行识别,及时发现“黑飞无人机”,并采取相应报警措施,实现对无人机的全面监管。
1 视觉传感网
整个视觉传感网(Visual Sensor Networks,VSNs)由多个节点组成,每个节点都将由摄像机阵列构成,这将作为整个系统的基础部分[3],如图1。
城市环境下一个节点的安置示意图如图2。
为了减轻对居民的干扰,可以修改摄像机焦距参数,从而限制摄像机的拍摄范围。通过多台摄像机交叉覆盖,成功地将中间的空地区域全方位地纳入监控之中。
考虑到多节点所提供的庞大数据量以及优化控制结构的需要,将数据网络设计成三层结构。位于最底层的第三层由数量不等的节点构成一系列簇组成,每个簇内的节点统一将数据发往一台次级处理服务器。整个网络内的次级处理服务器构成网络的第二层,将数据送往位于第一层的中央高级服务器。
2 基于深度学习的图像识别中心
无人机警察系统中关键组成是图像识别中心,其任务是将视觉传感网中的图像信息进行分析和处理,从图像中识别出无人机,从而实现对无人机的监控,属于目标识别领域。目前这一领域已经有了大量的优秀成果出现。最常见有行人检测问题,可用的特征包括:Haar、HOG、CSS、LBP等多种,这些特征表达了人体的各个重要部分,并且充分考虑了遮挡等情形。王晓刚和欧阳万里更提出了基于深度学习的行人检测手段,通过联合学习行人检测中的4个重要组成部分——特征提取、人体部件形变处理、遮挡处理和分类,最大化了各自的作用[4]。他们在传统的卷积神经网络的基础上,加入了形变处理层,最终习得的特征具有很强的判别力,优于HOG等特征。王晓刚团队的方案,是深度学习在目标识别领域的成功应用,给本文的研究提供了研究参考。再比如人脸识别问题[5-6],则具有更复杂的变化,因为人脸受种族、肤色、表情、情绪、光照环境、物体遮挡等众多因素的影响。推广到各种特定物体的识别乃至场景识别、深度学习也有很多方案[7]。由于无人机警察系统中图片信息量丰富,且无人机的飞行状态多样,因此识别难度较大。为此,本文将引入深度学习算法,并以卷积神经网络作为图像识别中心。
2.1 卷积神经网络
2006年,Hinton等人首次提出深度学习的概念[8],并开启了深度学习的研究浪潮,其认为:多隐层的人工神经网络能够更好地模拟人脑的思考过程,具有更加优异的学习能力,能够对数据进行更本质的刻画,从而提高可视化或者分类的能力。
卷积神经网络是深度学习中第一个真正多层结构学习算法,其在图像识别领域优势明显。它利用感受野、局部连接等概念极大地减少了参数量,降低了网络模型的复杂度,提高了训练效率,且网络对于平移、缩放的各种变形都具备高度不变性。
卷积神经网络属于前馈多层神经网络的一种,每层由多个二维平面组成,多个神经元组成了每个平面,其结构如图3所示。
卷积神经网络利用了一系列的卷积层,降采样层构建了多层网络,来模拟人脑感知视觉信号的逐层处理机制,从而提取图像的多层次特征。
通过加入卷积层,可以实现局部连接网络,有效减少了需要训练的网络参数。例如,对一张大的图片输入,其尺寸为r×c,随机采样为a×b的小图片,如果隐含节点为k个,那么最终学习到的特征数为:
池化层是为了解决网络输出维数过大、造成分类器难以设计的问题。同样是根据统计结果的相似性原理,池化操作对卷积得到的结果进行统计计算,减少了需要训练的系统参数。
权值更新采用BP反向传播算法。反向传播的误差可看做每个神经元的基的灵敏度(即误差E对基b变化率的偏导函数),然后利用以下关系式:
最后的分类应用了Logistic Regression扩展的一种多分类器:Softmax Regression。其系统方程及系统损失函数分别为:
2.2 基于深度学习的无人机识别流程
由于视觉传感网获得的一系列图像中,关注的对象可能只占其中的一小部分像素区域,又由于对象具有运动性,故在识别中心操作之前将采取帧差法提取感兴趣的对象,作为算法的正式输入[10-11]。二帧差法基本原理如下:
其中i(t)、i(t-1)分别为t、t-1时刻对应像素点的像素值,T为阈值。
基于深度学习卷积神经网络的无人机识别流程如下所示。
步骤一:数据预处理
(1)帧差法提取目标区域;
(2)数据格式转换;
(3)预定义标签;
步骤二:深度网络训练、测试
(1)构建卷积神经网络,确定网络层次结构和权重参数等;
(2)数据依次进入卷积层、池化层、全连接层,进行计算;
(3)采用Backpropagation Pass反向传播,进行参数调整;
(4)当误差满足或者迭代次数满足时,网络停止训练,进入Accuracy层计算准确率并输出(只在测试阶段执行,训练时不执行)。
3 识别性能与结果分析
首先构建了视觉传感网,设置了2个节点,目前系统仅限于白天工作。
输入2 848张图片进行训练,基础学习率设置为0.001,迭代5 000次后获得的模型用于之后的测试分析。测试时输入712张图片,模型正确分类的情形共有634例,可得:
由于目前无人机识别方面没有其他现成的模型可供比较,因此本文分析了ROC曲线参数。在信号检测理论中,接收者操作特征(Receiver Operating Characteristic,ROC)是一种对灵敏度进行描述的功能图像,该图像称为ROC曲线。应用ROC曲线来表示分类器的性能非常直观。同时为了定量且简洁地表达这种性能,Area Under roc Curve(AUC)被提出。AUC的值等于ROC曲线正下方的面积,AUC的数值越大,分类器的性能越好。图4表示的是与ROC曲线绘制相关的一些量,依次为TP(True Positive)、FP(False Positive)、FN(False Negative)、TN(True Negative)。
在随机分类模型,对于任一样本输入,模型对其的预测score是完全随机的,假设预测score落在区间[0,1]上,则预测概率数学表达为:
因此本文的ROC曲线图结果如图5所示。图中整个曲线越向点(0,1)逼近,模型的性能就越好。
4 结论
本文较好地将深度学习的方法应用到了无人机警察系统这个新颖的概念上,对无人机的识别率比较高。在网络结构的设计上,可能存在冗余,导致模型收敛速度不够快,训练效率有所损失。后期将继续对网络结构的进行研究,希望能够进一步提高模型的质量,并使其具有更广的适应性。
参考文献
[1] 闫玉巧.面向无人机的自动检测系统设计与实现[D].西安:西安电子科技大学,2011.
[2] 胡占双.无人机飞行姿态检测及控制研究[D].沈阳:沈阳航空航天大学,2013.
[3] AHMAD N.Modelling and optimization of sky surveillance visual sensor network[D].Mid Sweden University,2012.
[4] OuYang Wanli,Wang Xiaogang.Joint deep learning for pedestrian detection[C].ICCV,2013.
[5] Li Ming,Yu Chengyang,Nian Fuzhong,et al.A face detection algorithm based on deep learning[C].IJHIT,2015.
[6] Nagpal Shruti,Singh Maneet,Singh Richa,et al.Regularized deep learning for face recognition with weight variations[J].IEEE Access,2015,3:3010-3018.
[7] Yuan Yuan,Mou Lichao,Lu Xiaoqiang.Scene recognition by manifold regularized deep learning architecture[J].IEEE Transactions on Networks & learning,2015,16(10):2222.
[8] HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313:504-507.
[9] SAXE A M,KOH P W.On random weights and unsupervised feature learing[C].International Conference on Machine Learing,2011:1089-1096.
[10] 王鑫.检测不规则图形的改进广义Hough变换[D].北京:首都师范大学,2012.
[11] 唐俐勒.视频监控中运动图像检测与测距技术的研究[D].西安:西安科技大学,2010.