CNN 與RNN 之間的差異? - NVIDIA 台灣官方部落格
文章推薦指數: 80 %
... 將以搭配卷積神經網路(CNN)和循環神經網路(RNN)的深度學習技術來 ... 能運算來處理大量資料方面的進步,讓許多應用人工智慧的想法化為實際。
Skiptocontent
Share
Email
在1982年熱門電視影集《霹靂遊俠》(KnightRider)裡,由大衛.赫索霍夫(DavidHasselhoff)飾演的李麥克,還有他所駕駛的霹靂車,也就是那部未來感十足的龐蒂克火鳥跑車,或許就能解答上述問題。
1982年在由大衛.赫索霍夫主演的電視影集《霹靂遊俠》裡,他跟那部未來感十足,能協助他打擊犯罪的龐蒂克火鳥跑車對未來提出了預言。
能自動駕駛又會說話的汽車還讓人藉由好萊塢的影集,瞭解什麼是影像及語言辨識技術。
要是現在編寫這套影集的劇本,李麥克那輛稱為「夥計」(KITT)的人工智慧車,將以搭配卷積神經網路(CNN)和循環神經網路(RNN)的深度學習技術來觀察四周車況、聽聲及說話。
原因在於機器現在使用CNN來消化處理影像,相當於眼睛的角色,以辨識不同物體;而RNN是數學計算引擎,相當於耳朵和嘴巴的角色,以解析各種語言模式。
從1980年代便開始快速發展的CNN,是當今自動駕駛車、石油探勘及核融合研究的眼睛,用以更快速地在醫學影像裡找出疾病和挽救生命。
現代的「李麥克」跟其他數十億人一樣,即使在不知情的情況下,也能享受CNN帶來的優點,像是把朋友的照片po在Facebook上,FB就會自動加上姓名標籤,提高個人的社交活躍程度。
那輛龐蒂克火鳥跑車如果少了CNN,它便不再擁有電腦化的雙眼來進行自動駕駛,只是另一個啞巴道具。
拿掉那輛時髦感十足,又會自動駕駛的黑色龐蒂克火鳥跑車上的RNN,那個聰明的電腦語音就不會再揶揄李麥克這個單身漢,更不用說也無法用法文和西班牙文來操控夥計。
毫無疑問的是,RNN加快了語音方面運算革命的發展腳步。
RNN是處理自然語言的大腦,讓Amazon的Alexa、Google的Assistant及Apple的Siri擁有耳朵和嘴巴,可以聽取和發出語音;也為Google的自動填入功能提供未卜先知般的能力,當你在搜尋時它會自動填入字句。
回到未來。
再者,目前運用CNN與RNN打造出的汽車,早就超出好萊塢編劇們的幻想,各大車廠如今已在快速發展未來跟《霹靂遊俠》影集裡夥計一樣的車款。
現在的自動駕駛車在正式上路前,開發人員便在模擬環境裡測試和驗證車輛的雙眼,可以透過超越人類的感知能力來看清四周車況。
運用CNN及RNN之故,讓各類人工智慧機器擁有像人類一樣的眼睛和耳朵。
數十年來在開發深度神經網路方面的進展,加上GPU在運用高效能運算來處理大量資料方面的進步,讓許多應用人工智慧的想法化為實際。
CNN發展史簡介
人們常問我們是怎麼做到現在的程度。
其實早在自動駕駛車出現前,研究一般人工神經網路的人員便受到人腦神經元間生物連結的啟發,而CNN的研究人員就是按照這種思維方式。
1988年是CNN發展史上的一個關鍵時刻。
那一年YannLeCun及另外三名作者LéonBottou、YoshuaBengio與PatrickHaffner共同發表了一篇極具影響力的報告《Gradient-basedLearningAppliedtoDocumentRecognition》。
在該文中介紹了如何在最小預先處理程度的情況下,將這些學習演算法用於對手寫字母的模式進行分類。
對CNN的研究成果證明了判讀銀行支票時的準確度打破紀錄,如今已在商業領域廣泛用於處理銀行支票。
這為人工智慧的應用前景帶來無比的希望。
該篇報告首席研究員的LeCun在2003年成為紐約大學的教授,又在2018年加入Facebook,成為該公司的首席人工智慧科學家。
第二次的突破性關鍵時刻發生在2012年。
那時多倫多大學的研究人員AlexKrizhevsky、IlyaSutskever與GeoffreyHinton發表了《ImageNetClassificationwithDeepConvolutionalNeuralNetworks》這篇具有開創性的報告。
在這篇報告裡說明了物體辨識的狀態。
這三名研究人員訓練了一套深度卷積神經網路,對ImageNetLargeScaleVisualRecognitionChallenge賽事的120萬張影像進行分類,以在降低錯誤率的幅度方面打破紀錄之姿而贏得了冠軍。
這引發了現代人工智慧蓬勃發展的浪潮。
解釋CNN:小狗還是小馬?
我們以下例來說明影像辨識。
人類看到一隻大丹犬,知道這隻狗的體型很大,不過還是能看出這是一隻狗。
電腦只會看到數字,它們要怎麼知道大丹犬並不是一匹小馬?那麼可以透過一層層的CNN來處理以數字來表現的像素,按照這種方式來分辨大丹犬的多種特徵以獲得答案。
現在讓我們更深入介紹CNN的技術層面。
CNN由一個輸入層(像是以數字代表像素來呈現影像)、一個或多個隱藏層和一個輸出層所組成。
這些數學運算層有助於電腦一點一滴地定義影像的細節,以求最終能分辨出特定物體或動物或其它目標。
不過在辨識時常會出錯,尤其是在訓練初期。
卷積層:
數學裡的卷積是一種循環函數,而在CNN裡卷積存在於兩個矩陣(以列和行排列的矩形數字陣列)之間,以形成第三個輸出用的矩陣。
CNN在卷積層裡使用這些卷積來過濾輸入的資料和查找資訊。
卷積層在CNN中負擔多數繁重的運算工作,當成數學過濾器以幫助電腦找出影像邊緣、暗區和亮區、顏色,以及高度、寬度和深度等其它細節。
通常會在一個影像上使用多個卷積層過濾器。
池化層:池化層(poolinglayer)通常夾在卷積層之間,用於減小卷積層創造出的表示內容大小,還有減少對記憶體的需求,以置入更多卷積層。
歸一化層:歸一化(normalization)是一種用於提升神經網路效能和穩定性的技術,將所有輸入內容轉換成均值為0、變異數為1的情況,以便更容易管理各層的輸入內容。
可以把標準化視為用以規範資料的角色。
全連結層:全連結層(fullyconnectedlayer)用於將一層裡的各神經元連接到另一層裡的所有神經元。
請見NVIDIA開發者專區網站的 CNN頁面,會更深入介紹技術層面。
CNN非常適合用於處理電腦視覺作業,不過要是提供充足資料給CNN,它也能用於處理影片、語音、音樂和文字。
它們可以在這些隱藏層裡插入一系列已加強辨識影像效率的過濾器(或是神經元)。
CNN採用將資訊從這一層送到下一層的方式,又被稱為「前饋」神經網路。
或者RNN跟傳統人工神經網路及CNN採用幾乎相同的架構,除了它們具有當成回饋迴路的記憶體。
就像是人腦會更重視資訊的新近度以預測句子,在談話時尤為如此。
這使得RNN適合用於預測一系列單字裡接下來的內容,還能將長度不一的資料序列送入RNN,而CNN是使用固定的輸入資料。
RNN發展史簡介
就像大衛.赫索霍夫這個冉冉升起的新星,RNN自1980年代以來便一直存在。
1982年JohnHopfield發明了Hopfield網路,這是發展初期的RNN。
SeppHochreiter與JürgenSchmidhuber在1997年發明RNN使用的長期短期記憶(LSTM)網。
到了2007年左右,LSTM在語音辨識方面的表現出現了長足的進步。
2009年有一套RNN贏得了手寫模式辨識競賽的冠軍。
2014年中國的百度搜索引擎打破了SwitchboardHub5’00語音辨識標準,創下新的里程碑。
解釋RNN:午餐要吃什麼?
RNN是一個擁有稱為LSTM這種活性資料記憶體的神經網路,可以用於一系列資料以猜測接下來會發生的內容。
某些層的輸出內容透過RNN送回到前一層當成輸入項,如此一來便建立起回饋迴路。
我們利用這個經典的例子來說明一個簡單的RNN:我們想要追蹤餐廳供應主菜的日期,嚴格奉行每週的同一天出同一道菜,假設週一提供漢堡、週二提供玉米餅、週三提供披薩、週四提供壽司、周五提供義大利麵。
在使用RNN的情況下,要是將輸出項「壽司」送回神經網路以判斷週五的主菜,那麼RNN就會知道序列中的下一個主菜是義大利麵(它已經知道主菜的順序,這時又剛送出週四的主菜資料,便能得知週五的主菜是什麼)。
這裡用句子來當成下一個例子:我跑了十英里,需要喝一杯______。
人類會按照過去的經驗想出空格內要填入什麼,而過去可能有使用類似句子來訓練RNN的記憶功能,使得RNN可以預測接下來的內容,便會在空格處填入「水」這個字。
RNN不單能用於處理自然語言和語音辨識,還能用於語言翻譯、股票預測和演算法交易。
神經網路圖靈機(neuralTuringmachine,NTM)則是能存取外部記憶體的RNN。
最後所謂的雙向RNN接受一個輸入向量,並且在兩個RNN上訓練它,其中一個在常規RNN輸入序列上接受訓練,而另一個則是在反向序列上進行訓練,然後再將兩個RNN的輸出內容進行串連或合併。
總而言之,CNN與RNN使得app、網路及機器擁有更強大的視覺和語音能力,要是少了這兩項強大的人工智慧技術,很多機器就會變得一點都不有趣了。
像是Amazon的Alexa讓我們知道怎麼跟廚房裡的Echo「收音機」聊天,用它奇特的人工智慧技術回答各種新的問題。
即將上路的自動駕駛車,會在我們的生活裡扮演主角。
如需獲得更深入關於RNN技術的資訊,請見NVIDIA開發者專區網頁。
如需更多關於深度學習的資訊,請至NVIDIA深度學習學院,以取得課程相關最新資訊。
https://soundcloud.com/theaipodcast/ai-podcast-dank-memes-lawrence-pierson
所有NVIDIA新聞
使用NVIDIAFLARE建立穩健且可廣泛應用的人工智慧模型
使用NVIDIAOmniverseReallusionConnector簡化寫實角色的創造流程
本週GFN:封測版《要塞英雄(Fortnite)》透過GeForceNOW聯盟TaiwanMobile雲端遊戲服務於iOSSafari與Android推出
JaguarLandRover宣布成為NVIDIA的合作夥伴
NVIDIA公佈2022會計年度第四季與全年營運結果
Postnavigation
NVIDIA網站透過Cookie提供與改善網站體驗。
請參閱我們的Cookie政策,深入瞭解我們如何使用Cookie以及變更Cookie設定的詳細資訊。
接受
SharethisArticle
Friend'sEmailAddress
YourName
YourEmailAddress
Comments
SendEmail
Emailsent!
延伸文章資訊
- 1【深度學習】如果電腦有神經,可以教它做什麼?
深度學習常使用的三種神經網路架構示意:CNN, RNN, GAN ... 從單細胞生物進化到智人,發展出優異的影像辨識及理解技術,並成功應用於各行業與生活中。
- 2跨出影像分類:更多關於深度學習應用 - 鈦思科技
光譜圖可以被視為把1D 音訊檔案中訊號轉換為2D視覺化(圖1)。我們可以使用它作為卷積神經網路(convolutional neural network,CNN)的輸入,如同我們使用一個”真正”...
- 3淺談Deep Learning原理及應用 - 計中首頁
深度學習架構卷積神經網路(CNN)是最常見的深度學習網路架構之一,因為網路架構中的卷積層(Convolutional layer)及池化層(Pooling layer)強化了模式辨識( ...
- 4人工智慧入門- 深度學習 - 朝陽科技大學
事先準備好的資料特徵。 • 深度神經網路(DNN)、卷積神經網路(CNN)和遞迴神經網路(RNN)及其它. 深度學習NN模型,已被應用在電腦視覺、語音辨識、自然語言處理、.
- 5深度學習:CNN原理
想必剛踏入深度學習Computer Vision(CV)領域的各位常常會聽到CNN這個名詞,每當跟朋友討論時大家總會說:『喔!我都用CNN來做圖像辨識』,到底CNN有什麼魔力讓大家 ...