Fast-RCNN論文翻譯

本文實現了Fast-RCNN主要部分的翻譯工作,在SPPnet出來之后,同在微軟的R-CNN的作者Ross迅速懟了回去,拋出了更快更好的Fast-RCNN,思路為之一新的是,將之前的多階段訓練合并成了單階段訓練,這次的工作簡潔漂亮,相比之前的RCNN,懷疑作者是在擠牙膏。另外,面對靈活尺寸問題,Ross借鑒了空間金字塔的思路,使用了一層空間金字塔。

Fast R-CNN

Ross Girshick

Microsoft Research

摘要

本文提出了一個快速的基于區域推薦的卷積網絡方法(Fast R-CNN)用于對象檢測。Fast R-CNN在前人工作的基礎上使用深度卷積網絡,可以更有效地分類物體推薦。相比之前的工作,Fast R-CNN進行了多項創新,在提高了檢測精度的同時,也提高了訓練和測試速度。Fast R-CNN訓練了一個超深VGG16網絡,訓練時間比R-CNN快9倍,測試時間快213倍,在PASCAL VOC2012上達到了更高的mAP。相比SPPnet,Fast R-CNN訓練快3倍,測試快10倍,并且更加準確。Fast R-CNN用Python和C++(使用Caffe)實現,以MIT協議開放在:https://github.com/rbgirshick/fast-rcnn

Read more

SPPNet論文翻譯-空間金字塔池化Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

我對物體檢測的一篇重要著作SPPNet的論文的主要部分進行了翻譯工作。SPPNet的初衷非常明晰,就是希望網絡對輸入的尺寸更加靈活,分析到卷積網絡對尺寸并沒有要求,固定尺寸的要求完全來源于全連接層部分,因而借助空間金字塔池化的方法來銜接兩者,SPPNet在檢測領域的重要貢獻是避免了R-CNN的變形、重復計算等問題,在效果不衰減的情況下,大幅提高了識別速度。

用于視覺識別的深度卷積網絡空間金字塔池化方法

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun

摘要

當前深度卷積神經網絡(CNNs)都需要輸入的圖像尺寸固定(比如224×224)。這種人為的需要導致面對任意尺寸和比例的圖像或子圖像時降低識別的精度。本文中,我們給網絡配上一個叫做“空間金字塔池化”(spatial pyramid pooling,)的池化策略以消除上述限制。這個我們稱之為SPP-net的網絡結構能夠產生固定大小的表示(representation)而不關心輸入圖像的尺寸或比例。金字塔池化對物體的形變十分魯棒。由于諸多優點,SPP-net可以普遍幫助改進各類基于CNN的圖像分類方法。在ImageNet2012數據集上,SPP-net將各種CNN架構的精度都大幅提升,盡管這些架構有著各自不同的設計。在PASCAL VOC 2007和Caltech101數據集上,SPP-net使用單一全圖像表示在沒有調優的情況下都達到了最好成績。SPP-net在物體檢測上也表現突出。使用SPP-net,只需要從整張圖片計算一次特征圖(feature map),然后對任意尺寸的區域(子圖像)進行特征池化以產生一個固定尺寸的表示用于訓練檢測器。這個方法避免了反復計算卷積特征。在處理測試圖像時,我們的方法在VOC2007數據集上,達到相同或更好的性能情況下,比R-CNN方法快24-102倍。在ImageNet大規模視覺識別任務挑戰(ILSVRC)2014上,我們的方法在物體檢測上排名第2,在物體分類上排名第3,參賽的總共有38個組。本文也介紹了為了這個比賽所作的一些改進。

Read more

R-CNN論文翻譯——用于精確物體定位和語義分割的豐富特征層次結構

我對深度學習應用于物體檢測的開山之作R-CNN的論文進行了主要部分的翻譯工作,R-CNN通過引入CNN讓物體檢測的性能水平上升了一個檔次,但該文的想法比較自然原始,估計作者在寫作的過程中已經意識到這個問題,所以文中也對未來的改進提出了些許的想法,未來我將繼續翻譯SPPNet、fast-RCNN、faster-RCNN、mask-RCNN等一系列物體定位和語義分割領域的重要論文,主要作者都是Ross Girshick和Kaiming He。

用于精確物體定位和語義分割的豐富特征層次結構

Rich feature hierarchies for accurate object detection and semantic segmentation

Ross Girshick? ? ? Jeff Donahue? ? ? Trevor Darrell? ? ?Jitendra Malik
UC Berkeley

摘要

過去幾年,在權威的PASCAL VOC數據集上,物體定位的性能已經達到一個穩定水平。表現最好的方法都是融合了多個低層次圖像特征和高層次的上下文環境的復雜系統。本文提出一種簡單的可擴展的檢測算法,可以將VOC2012上期望平均精度的最好結果明顯提升30%以上——達到了53.3%。我們的方法結合了兩個關鍵因素:(1) 將大型卷積神經網絡(CNNs)應用于自底向上區域推薦以定位和分割物體;(2)當標簽訓練數據不足時,先針對輔助任務進行有監督預訓練,再進行特定任務的調優,就可以產生明顯的性能提升。由于我們結合了區域推薦和CNNs,該方法被稱為R-CNN:Regions with CNN features。我們對比了R-CNN和OverFeat,Overfeat是最近被提出的一個機遇類CNN架構的滑動窗口檢測器,發現R-CNN在ILSVRC2013檢測數據集上面的表現明顯優于OverFeat。整個系統的源碼在:https://people.eecs.berkeley.edu/~rbg/rcnn(譯者注:已失效,新地址:https://github.com/rbgirshick/rcnn)

Read more

河北彩票20选5开奖查询