SqueezeNet虽在一定程度上减少了卷积计算量,但仍然使用传统的卷积计算方式,而在其后的MobileNet利用了更为高效的深度可分离卷积的方式,进一步加速了卷积网络在移动端的应用。 为了更好地理解深度可分离卷积,在本节首先回顾标准的卷积计算过程,然后详细讲解深度可分离卷积过程,以及基于此结构的两个网络结构MobileNet v1与MobileNet v2。 标准卷积 假设当前特征图大小为Ci×H×W,需要输出的特征图大小为Co×H×W,卷积核大小为3×3, Padding为1,则标准卷积的计算过程如图1所示。 …

2020-08-25 321点热度 2人点赞 阅读全文

常见的噪声 一、什么是图像噪声? 噪声在图像上常表现为一引起较强视觉效果的孤立像素点或像素块。一般,噪声信号与要研究的对象不相关,它以无用的信息形式出现,扰乱图像的可观测信息。通俗的说就是噪声让图像不清楚。 二、噪声来源—两个方面 (1)图像获取过程中 两种常用类型的图像传感器CCD和CMOS采集图像过程中,由于受传感器材料属性、工作环境、电子元器件和电路结构等影响,会引入各种噪声,如电阻引起的热噪声、场效应管的沟道热噪声、光子噪声、暗电流噪声、光响应非均匀性噪声。 (2)图像信号传输过程中 由于传输介质和记录设备…

2020-08-10 651点热度 2人点赞 阅读全文

DAS 2020 (Document Analysis System,文档分析系统研讨会) 于 7月26-29日在武汉召开,本次研讨会中有不少精彩的内容,今天向大家重磅推荐来自华南理工大学金连文老师的 keynote Speech :Optical Character Recognition in Deep Learning Era. 金老师对手写字符识别(尤其是汉字手写识别)、签名识别、笔迹鉴定、场景文本检测与识别进行了高质量的梳理,指出深度学习技术在该领域发挥的重要作用,并对其缺点(比如易于…

2020-08-02 233点热度 2人点赞 阅读全文

为了实现上述的预测,RPN搭建了如图1所示的网络结构。具体实现时,在feature map上首先用3×3的卷积进行更深的特征提取,然后利用1×1的卷积分别实现分类网络和回归网络。 图一 RPN网络计算流程 物体检测中,通常我们将有物体的位置称为前景,没有物体的位置称为背景。在分类网络分支中,首先使用1×1卷积输出18×37×50的特征,由于每个点默认有9个Anchors,并且每个Anchor只预测其属于前景还是背景,因此通道数为18。随后利用torch.view()函数将特征映射到2×333×75,这样第一维仅仅是…

2020-06-30 149点热度 0人点赞 阅读全文

理解RPN的预测量与真值分别是什么,也是理解RPN原理的关键。对于物体检测任务来讲,模型需要预测每一个物体的类别及其出现的位置,即类别、中心点坐标x与y、宽w与高h这5个量。由于有了Anchor这个先验框,RPN可以预测Anchor的类别作为预测边框的类别,并且可以预测真实的边框相对于Anchor的偏移量,而不是直接预测边框的中心点坐标x与y、宽高w与h。 举个例子,如图1所示,输入图像中有3个Anchors与两个标签,从位置来看,Anchor A、C分别和标签M、N有一定的重叠,而Anchor B位置更像是背景。…

2020-06-26 142点热度 0人点赞 阅读全文

理解Anchor是理解RPN乃至Faster RCNN的关键。Faster RCNN先提供一些先验的边框,然后再去筛选与修正,这样在Anchor的基础上做物体检测要比从无到有的直接拟合物体的边框容易一些。 Anchor的本质是在原图大小上的一系列的矩形框,但Faster RCNN将这一系列的矩形框和feature map进行了关联。具体做法是,首先对feature map进行3×3的卷积操作,得到的每一个点的维度是512维,这512维的数据对应着原始图片上的很多不同的大小与宽高区域的特征,这些区域的中心点都相同。如…

2020-06-26 148点热度 0人点赞 阅读全文

RPN部分的输入、输出如下: 输入:feature map、物体标签,即训练集中所有物体的类别与边框位置。 输出:Proposal、分类Loss、回归Loss,其中,Proposal作为生成的区域,供后续模块分类与回归。两部分损失用作优化网络。 RPN模块的总体代码逻辑如下,源代码文件见lib/model/faster_rcnn/faster_rcnn.py。 本文中的源代码文件获取方式请参考:http://ai.52learn.online/1042

2020-06-26 121点热度 0人点赞 阅读全文

总览如图1所示为Faster RCNN算法的基本流程,从功能模块来讲,主要包括4部分:特征提取网络、RPN模块、RoI Pooling(Region of Interest)模块与RCNN模块,虚线表示仅仅在训练时有的步骤。Faster RCNN延续了RCNN系列的思想,即先进行感兴趣区域RoI的生成,然后再把生成的区域分类,最后完成物体的检测,这里的RoI使用的即是RPN模块,区域分类则是RCNN网络。 特征提取网络Backbone:输入图像首先经过Backbone得到特征图,在此以VGGNet为例,假设输入图像…

2020-06-26 272点热度 1人点赞 阅读全文

RCNN全称为Regions with CNN Features,是将深度学习应用到物体检测领域的经典之作,并凭借卷积网络出色的特征提取能力,大幅度提升了物体检测的效果。而随后基于RCNN的Fast RCNN及Faster RCNN将物体检测问题进一步优化,在实现方式、速度、精度上均有了大幅度提升。 物体检测领域出现的新成果很大一部分也是基于RCNN系列的思想,尤其是Faster RCNN,并且在解决小物体、拥挤等较难任务时,RCNN系列仍然具有较强的优势。因此,想要学习物体检测,RCNN系列是第一个需要全面掌握的…

2020-06-26 163点热度 1人点赞 阅读全文

VGGNet和ResNet等网络骨架,虽从各个角度出发提升了物体检测性能,但就究其根本是为ImageNet的图像分类任务而设计的。而图像分类与物体检测两个任务天然存在着落差,分类任务侧重于全图的特征提取,深层的特征图分辨率很低;而物体检测需要定位出物体位置,特征图分辨率不宜太小,因此造成了以下两种缺陷: 1)大物体难以定位:对于FPN等网络,大物体对应在较深的特征图上检测,由于网络较深时下采样率较大,物体的边缘难以精确预测,增加了回归边界的难度。 2)小物体难以检测:对于传统网络,由于下采样率大造成小物体在较深的特…

2020-06-26 240点热度 0人点赞 阅读全文