卷積神經網路(CNN) 的發展 - Medium

文章推薦指數: 80 %
投票人數:10人

卷積神經網路(Convolutional Neural Network, CNN)是深度學習裡極為重要的一門分支,電腦視覺這領域便是因為它的關係在近幾年有了許多重大的進展, ... HomeNotificationsListsStoriesWritePublishedinTaiwanAIAcademy卷積神經網路(CNN)的發展介紹卷積神經網路(ConvolutionalNeuralNetwork,CNN)是深度學習裡極為重要的一門分支,電腦視覺這領域便是因為它的關係在近幾年有了許多重大的進展,然而這種神經網路的一大特點即為「卷積」。

卷積是什麼?卷積是一種數學的運算,其功用是可以對資料(如:訊號、影像)做特徵的萃取,萃取出來的特徵會再送到下一個卷積層做進一步的特徵萃取,如此的方式增強了神經網路的學習效率,在圖像辨識上,比起一般的深度神經網路效果高出太多,因此它也成為了各家爭相研究的對象。

Figure1卷積的計算方式CNN的演進1950s~1960s,Hubel&WieselFigure2Hubel(left),Wiesel(right)1950~1960年代,神經生理學家Hubel和Wiesel基於對貓和猴子視覺的研究,提出了腦中兩種基本型態的視覺細胞,分別稱為simplecells和complexcells。

Figure3simplecells和complexcells的結構示意圖上圖是simplecells和complexcells的架構示意圖,這例子說明了simplecells會被特定位置的鉛直邊緣形狀給激發,激發後會再將訊號傳給下一階段的complexcells,值得注意的是每一個simplecell的感知域較小,會受圖形位置的影響激發與否,而complexcells再這樣的連結中卻不會受鉛直邊緣圖形所在位置,只要是在橘色長方形框中都可受到激發,所以感知域較大。

1980,NeocognitronFigure4福島邦彥受到Hubel和Wiesel的啟發,1980年日本電腦科學家福島邦彥提出Neocognitron(神經感知機),它可說是現今CNN架構的源頭。

Neocognitron主要是由兩種不同的cells分別稱作S-cells和C-cells交錯堆疊而成。

S-cells對應到大腦中的simplecells,其功用為featureextraction。

C-cells對應到大腦中的complexcells,有較大的receptivefield,具有downsampling的效果。

Figure5S-cellsandC-cells1987,TDNN(TimeDelayNeuralNetworks)Figure6AlexWaibel1987年AlexWaibel和GeoffreyHinton等人在日本的ATR(AdvancedTelecommunicationResearchInstitute)發表時間延遲神經網路(TDNN)。

TDNN是第一個使用backpropagation做梯度下降訓練的卷積神經網路。

Figure7TDNNArchitectureTDNN是一個語音識別模型,而非圖像識別模型。

上圖是TDNN的網路架構圖,可以看到在inputlayer,convolutionalkernel延著時間方向掃過抓取聲音特徵。

時間延遲(time-delay)是指對同一個音素(phoneme)/b/,/d/,或/g/在不同的時間點上進行採樣後,一起作為模型的輸入,如此以提昇模型的準確度。

1989~1998,YannLeCunFigure8YannLeCunnYannLeCunn法裔美國電腦科學家,1989~1998年間相繼發表了許多關於CNN的研究,為現代CNN架構打下了確實的基礎,他也被稱為卷積網路(convolutionalnets)之父。

Figure9PartofY.LeCun’spaperin1989Figure10Y.LeCun’sNeuralNetworkArchitecture1989年貝爾實驗室Denker等人發表了「手寫郵遞區號的神經網路辨識」的方法,該方法運用了卷積做特徵選取。

不過此方法中卷積核(convolutionalkernel)的參數都是人工設計,並非神經網路自動學習得來。

同年,Y.LeCun等人於貝爾實驗室亦發表了針對「手寫郵遞區號數字辨識」的卷積神經網路。

如此架構的神經網路是Y.LeCun基於他先前的論文「GeneralizationandNetworkDesignStrategies」所提出的概念所設計,不同於DenKer等人先前的作法,這次模型卷積核參數的選取完全是機器自動學來,並非人工設計。

Figure11LeNet-5’sArchitectureLeNet-5於1998年提出,其架構與現今的CNN已經別無二致,且在文字圖像辨識上可說是已經技壓群雄,但受限於當時的算力與資料量,神經網路的優勢在當時並不十分顯著。

另一方面,當時正是SVM大放異彩的年代,神經網路要能被關注大約是在10年後的事。

Figure12LeNet-5Figure13LeNets與其它模型的錯誤率比較圖2006,GPU-implementationofCNNsFigure14KumarChellapilla’spaper2006年KumarChellapilla等人,利用GPU平行運算的能力,將CNN模型forwardpropagation和backpropagation速度提昇3~4倍,使CNN模型不論是在訓練或測試時,時間都大幅縮短,這也是第一個用GPU進行訓練的CNN。

2006,ImageNetFigure15李飛飛ImageNet是個大型的視覺資料集,超過1400萬張人工標注的相片,包含2萬種以上不同的類別,像是氣球,草莓等日常所能見的物品。

ImageNetdataset是由史丹佛大學電腦科學教授李飛飛於2006年所開創,其目的是希望能擴大及增進訓練AI所能使用的資料,ILSVRC競賽所用的資料庫即為ImageNet。

2012,AlexNetFigure16AlexNet’sArchitectureAlexNet是由Hinton學生AlexKrizhevsky所設計的CNN架構,於2012年參與ILSVRC競賽,在圖像分類任務上取得優勝,其Top5errorrate領先當時的第2名近10個百分點,ILSVRC競賽是以ImagNetdataset當作database從中取出一部份作為該年比賽用的資料,訓練資料共包涵1000個類別,每類別約1000張照片,總計訓練資料1200萬張照片,其validationset和testingset照片數量各為5萬及10萬張。

由於AlexNet在這一年的競賽中遙遙領先其他使用非CNN架構的隊伍,這使得CNN受到大家的關注,在往後幾年的比賽中,第一名也都被CNN架構的模型所包辦。

AlexNet是個8層的神經網路(不包含input層),所接收的圖像大小是224*224*3,可以看到AlexNet在input的維度與堆疊的層數上都已較以前的LeNet-5來得多與深。

2014,VGG&GoogleNetFigure17VGGandGoogleNet2014年牛津大學的VGG以19層的CNN將Top5errorrate從原本AlexNet的16.4%下降到7.3%,而GoogleNet再以22層的CNN將Top5errorrate下降到6.7%,此時距離要達到人類的Top5errorrate:5.1%已經不遠。

Figure18Top5errorrate2015,ResNet隨著AlexNet,VGG,GoogleNet在層數上的加深模型表現也越來越好,開始出現一個問題:Thedeeper,thebetter?但答案並非那麼的顯然,甚至人們發現在層數加更深的情況下模型表現反而下降Figure19Figure20Residual’sstructure解決這問題的是2015年在微軟研究院的何凱明,當時他設計了帶有殘差結構的神經網路,並發表了深達152層的ResNet.。

ResNet在該年的ILSVRC競賽中拿下第一,Top5errorrate達到3.57%,準確率已經超越人類的5.1%,ResNet的出現也為ILSVRC的該項分類競賽畫上了句點。

References:https://commons.wikimedia.org/wiki/File:3D_Convolution_Animation.gifhttps://www.i-programmer.info/news/105-artificial-intelligence/8823-golden-goose-award-to-hubel-a-wiesel.htmlhttps://www.brains-explained.com/how-hubel-and-wiesel-revolutionized-neuroscience/http://personalpage.flsi.or.jp/fukushima/index-e.htmlhttps://www.kiv.zcu.cz/studies/predmety/uir/NS/Neocognitron/en/example3.htmlhttps://en.wikipedia.org/wiki/Alex_Waibelhttps://www.wikiwand.com/en/Yann_LeCunhttps://en.wikipedia.org/wiki/Fei-Fei_LiAlexanderH.Waibel,ToshiyukiHanazawa,andKevinJ.Lang,Phonemerecognitionusingtime-delayneuralnetworksY.LeCun,B.Boser,J.S.Denker,D.Henderson,R.E.Howard,W.Hubbard,L.D.Jackel,BackpropagationAppliedtoHandwrittenZipCodeRecognitionKumarChellapilla,SiddPuri,andPatriceSimard,HighPerformanceConvolutionalNeuralNetworksforDocumentProcessingAlexKrizhevsky,IlyaSutskever,GeoffreyE.Hinton,ImageNetClassificationwithDeepConvolutionalNeuralNetworksKaimingHe,XiangyuZhang,ShaoqingRen,JianSun,DeepResidualLearningforImageRecognitionMorefromTaiwanAIAcademynews,techreviewsandsupplementalmaterialsReadmorefromTaiwanAIAcademyGetstartedHsiao-EnSun17FollowersFollowRelatedALIEN´SDIARYbyMaríaSotosToday’sWritingPrompt:DinnerPartyPrepConcreteThinkingFrozenTaoSix-WordCoupletsSixwords,twolinesthatrhyme …HelpStatusWritersBlogCareersPrivacyTermsAboutKnowable



請為這篇文章評分?