月度归档:2014年09月

Going deeper with convolutions笔记

本文是20140926的周报,没写完,后补全。

Abstract

本文提出了一种新的分类和检测的新网络。该网络最大的特点就是提升了计算资源的利用率。在网络需要的计算不变的前提下,通过工艺改进来提升网络的宽度和深度。最后基于Hebbian Principle和多尺寸处理的直觉来提高性能。在ILSVRC-2014中提交了这种网络,叫GoogLeNet有22层。

Introduction

GoogLeNet 只用了比[9]少12倍的参数,但正确率更高。本文最大的工作是通过CNN和普通的计算机视觉结合,类似于R-CNN[6]。因为算法的ongoing traction of mobile和嵌入式计算,算法的效率变得很重要。也导致了本文不会使用绝对的数量。本文将会关注CV的深度神经网络“Inception”。本文既将Inception提升到了一个新的高度,也加深了网络的深度。 继续阅读

图像分类中的pooling是对特征的什么来操作的,结果是什么?

本文部分参考了:http://www.zhihu.com/question/23437871

卷积层是对图像的一个邻域进行卷积得到图像的邻域特征,亚采样层就是使用pooling技术将小邻域内的特征点整合得到新的特征。

pooling的结果是使得特征减少,参数减少,但pooling的目的并不仅在于此。pooling目的是为了保持某种不变性(旋转、平移、伸缩等),常用的有mean-pooling,max-pooling和Stochastic-pooling三种。 继续阅读

Very Deep Convolutional Networks for Large-Scale Image Recognition笔记

本文是20140919的周报,没写完,后补全。

Abstract

本文研究了CNNs的深度对于其准确率的影响,最后通过评估发现,当权值层达到16-19层的时候,能够在传统框架的基础上得到有效提高。

Introduction

ILSVRC-2013的冠军利用了更小的接收窗口和在第一个卷积层更小的步长。本文关注了CNNs的另一方面——深度。为了这个目的,作者修改了一些参数,添加了一些卷积层。 继续阅读

支付宝的咻咻咻(声波支付)是怎样工作的?

本文部分参考了以下文章,对其作者表示感谢:

 

支付宝的声波支付已经在全国的售货机普遍铺开,其对屏幕亮度、光线等外界条件没有要求,最大的要求就是要求手机有个扬声器,可以安装支付宝,无论是比之前的二维码扫码支付还是比较NFC,成本都低很多。

Apple Pay与之相比,真心弱爆了,感觉推广上,支付宝就便捷的多,更加适合大众进行小金额消费。那这个到底是怎么个原理呢?其实原理很简单: 继续阅读

ImageNet Classification with Deep Convolutional Neural Networks笔记(摘要版)

本笔记为论文的摘要版,详细数据和论文详解见: http://www.gageet.com/2014/09140.php

本文训练了一个深度卷积神经网络,来将ILSVRC-2010中1.2M的高分辨率图像数据分为1000类。测试结果,Top-1和Top-5的错误率分别为37.5%和17%,优于当时最优的水平。后来作者利用该种模型的变体参与了ILSVRC-2012比赛,以Top-5错误率15.3%遥遥领先亚军的26.2%。最后文章发表于NIPS 2012。

该神经网络包含60M参数和650K神经元,用5个卷积层(其中某些层与亚采样层连接)、三个全连接层(包括一个1K门的输出层)。为使训练更快,文章采用非饱和神经元,包括了大量不常见和新的特征来提升性能,减少训练时间(详见:三 结构)。并利用了一个高效的GPU应用进行卷积运算。在全连接层中,为避免过拟合,文章采用了一种叫做“dropout”的方法(详见:四 降低过拟合)。 继续阅读

ImageNet Classification with Deep Convolutional Neural Networks笔记

本笔记是20140912的周报,参考了以下文章和论文,对论文和文章作者表示感谢:

 

本文训练了一个深度卷积神经网络(下文称CNNs)来将ILSVRC-2010中1.2M(注:本文中M和K均代表 百万/千 个数量)的高分辨率图像(注:ImageNet目前共包含大约22000类,15兆左右的标定图像,ILSVRC-2010为其中一个常用的数据集)数据分为1000类。测试结果,Top-1和Top-5的错误率分别为37.5%和17%,优于当时最优的水平。 继续阅读

对LeCun的CNNs方法测试出现的问题

本文是我在20140904的周报。本周对CNNs的原理进行了深入理解,并进行了Matlab源码的实现。

在原文中,LeCun通过三个卷积层,三个下采样层,20次训练,在MNIST手写数字库(28*28*60000训练集,28*28*10000测试集)的训练下,能够达到训练集99.65%的准确率,测试集99.05%的准确率,而通过图像畸变人工产生540000额外数据集,能够使测试集的分类准确率达到99.2%。 继续阅读