從神經科學到計算機視覺:人類與計算機視覺五十年回顧

摘要: 本文簡單的介紹了神經網路近50年的發展歷程,從1968年的Hubel和Wiesel開展的貓實驗,一直到李飛飛教授等人的成果。從本質上講解了人工神經網路的原理及學習過程,對於想了解神經網路起源及發展歷程的讀者而言,是一篇較為合適的文章。

如何像人類大腦一樣完成一項視覺任務是複雜的,比如深度感知、目標跟蹤、邊緣檢測等,而掃描環境和定位是大腦經常做的事情,這些都被人們認為是理所當然的事情。在過去某段時間裡,研究者們可能從來沒有想過創建類似人類大腦處理任務一樣的系統。然而,在過去的50年中,我們已經從神經科學中看似一些小的突破轉向能夠描述圖片中場景的「電腦」。

在神經科學課程教學過程中,有很多趣聞發生以幫助同學們更好地理解大腦是如何工作的。比如Phineas Gauge是一名美國的鐵路工人,在某次施工時遭遇爆炸事故,被一根鐵棍擊穿頭顱,幸運的是他活了下來,但是他的左額葉皮質受到損傷,導致語言障礙,同時也影響其生理性格;還有Britten的論文描述大腦何時再混亂的移動點鐘發現信號。所有這些零碎的研究開始加深我們對大腦如何工作的理解。

Advertisements

還有類似的一個例子,為人類視覺和計算機視覺的大量研究奠定了基礎,那就是著名的Hubel和Wiesel的研究。由於二人在心理學上的突出貢獻,獲得了1981年的諾貝爾和平獎,此外他們在視覺系統的信息處理方面也獲得了突破性的發現。他們打響了研究神經元的第一槍,他們通過連接一個電極到一個神經元上,就能夠聽到神經元對一條光的刺激作出的反應。他們對V1大腦皮層神經元的工作原理有了新的了解,這是令人興奮的新認識,該研究有助於闡明V1神經元的映射和相關功能。

在下面的視頻中,演示了V1神經元是如何對待位置和角度的光條做出反應的,當光條移動時,就會有裂紋,這表明你聽到貓的神經元對刺激做出的反應。

通過這個實驗,他們演示了幾種類型的神經元只有在某些刺激下是如何被激活的,另一個有趣的特徵是細胞似乎自然地映射到不同角度,如下圖所示,V1的每一部分都包含一組非常特殊的神經元,這些神經元通常對特定角度的光條作出反應。

Advertisements

這些細胞的反應以某種方式結合起來,理論上能夠創建一個自下向上的自然世界形象,也就是說,通過接收許多神經元對各種光條的反應,人類大腦開始繪製出周圍的圖景。

一晃近30年過去了,江山代有才人出,時代屬於Olshausen和David JField二位研究者。兩位研究人員都專註於計算神經科學領域,這個領域主要是研究大腦如何編碼和解碼信息,並推動了這個領域相關工作的進一步發展。事實上,他們在自己的工作中引用了Hubel和Wiesel的研究成果。此外,他們不只是注重單一的光條,還拍攝了照片,開始研究如何通過演算法識別和編碼圖像內部的特徵。

他們在1996年(20多年前)寫的一篇叫做自然圖像統計和高效編碼,本文的目的是討論在圖像識別應用中失敗的Hebbian學習模型。具體來說,Hebbian學習演算法利用了主成分分析演算法學習,但存在的問題是,該模型不能同時學習定位、定向以及帶通結構來繪製自然圖像。從理論上講,該模型部分源自於Hubel和Wiesel在關的研究成果,除此之外,對192個神經元的輸出進行了建模。

他們的研究表明,在對自然圖像客觀存在的規律進行編碼時,模型的建立更多地側重於稀疏性會使得模型更有效。

使用一個稀疏模型,該模型限制每個基函數列表所需的係數數目,來表示一個圖像中的各種特徵,由下式證明:

其主體部分是為了找到實際圖像和函數表示圖像之間的最低平均誤差。

然後與代價函數一起迫使演算法限制表示圖像表示所需的係數數量。

使用梯度下降演算法最大限度地減少表示圖像所需的係數數量,但是該篇論文自身還沒有顯示出能夠將特徵轉化為圖像的神經網路。

在1991年,互聯網剛剛普及。現在科學已經從檢測貓的神經元對光條刺激的反應轉到神經網路的數學模型,該模型能夠輸出圖像的實際特徵。在1996年的那篇論文中,最後一行是「未來一項重要而令人興奮的挑戰將是如何將這些原理推理到更高級的皮層視覺領域以提供預測」。這是一個挑戰,通過利用低級的特,然後創建一個自下而上的網路模型來真正地預測一副圖像。

Olshausen等人的模型類似於上圖,如果你對深度學習了解的話,那麼對這個輸出低級特徵的矩陣看起來是不是非常熟悉。

在過去的幾年中,很多論文都使用了與上圖非常相似的矩陣,這些矩陣被用作卷積神經網路的卷積層。可以發現,這應該是模擬單個神經元對視覺刺激的反應方式。

此時此刻,利用這些低層次的特徵來預測圖像的實際背景不再是Olshausen等人論文中的最後一行中的理論猜想,這在今天變成了現實。

這同時也說明了神經元能夠識別光條的原因,神經網路可以利用低層次的特徵預測圖像所包含的信息。2015年斯坦福大學的Andrej Karpathy和李飛飛發表了一篇關於這一問題的重要論文——Deep Visual-Semantic Alignments for Generating Image Descriptions。在這篇論文中,演示了通過一個遞歸神經網路能夠詳細描述圖像,如下圖所示,不僅僅只是指出了圖片中有一隻貓或一隻狗,而且能夠詳細描述圖像內容,比如「男孩在尾板上做後空翻」等。雖然現在它並不完美,但它相較於1968年而言,仍是一個跨越式的發展!

從1968年到現在,這是一個漫長的發展過程。本文引用的論文從1968年開始到2015結束都快有50年的時間。然而,從大局來看,神經網路的發展只會越來越快,它不僅僅只是用來識別圖像,還被用於醫學圖像的癌症檢測、預測人類的情感表達、自動駕駛等等各個領域。

接下來的50年裡,計算機視覺的發展前景如何?歡迎廣大讀者留言發表自己的看法。

作者信息

SeattleDataGuy,軟體工程師,專註於機器學習、深度學習以及數據科學。

Twitter: https://twitter.com/SeattleDataGuy

本文由北郵@愛可可-愛生活老師推薦,阿里云云棲社區組織翻譯。

文章原標題《From Neuroscience To Computer Vision》,作者:SeattleDataGuy,譯者:海棠,審閱:李烽

Advertisements

你可能會喜歡