黑人=大猩猩?圖像識別的烏龍簡直不能忍!

關於圖像識別,屬於AI界前沿的Google有個兩年多都沒解決的問題:如何區分黑人和大猩猩?

早在2015年,Web開發人員傑基·阿爾西內(Jacky Alciné)的一條推特在互聯網上火了,原因是Google圖像將他與一名女性朋友的合影誤認為「Gorilla(大猩猩)」:

Google的解決方式也十分簡單粗暴:他們的圖像識別演算法去掉了「大猩猩」這個類別……

不得不承認,演算法實現的分類還有許多不完美的地方,演算法與人不同,它不具備常識、不理解抽象概念,如果出現訓練數據中沒有遇到的極端情況,它也是一臉懵逼的。

事實上鑒別「大猩猩」的烏龍只是個圖像識別的小小縮影。圖像識別技術的範疇十分廣泛,人臉識別、虹膜識別、指紋識別等都屬於這個範疇,它涵蓋了生物識別、物體與場景識別、視頻識別三大類。發展至今,儘管它並不完美,但日漸成熟的圖像識別技術已在互聯網搜索、娛樂監督、購物、機器人、自動駕駛、教育、古玩等行業中廣泛應用。

Advertisements

機器是如何識別圖像的?

其實,圖像識別技術背後的原理並不是很難,它是從模擬人類識別圖像的過程開始的。

我們識別圖像都是依靠圖像所具有的本身特徵而先將這些圖像分了類,然後通過各個類別所具有的特徵將圖像識別出來。機器也一樣,它通過分類並提取重要特徵而排除多餘的信息來識別圖像。以網路搜索為例:

首先,我們構造一個模型,並將成千上萬種帶標籤的圖片輸入模型,讓它學習如何分類動物,這個過程被成為機器學習。

圖像識別技術的過程分以下幾步:信息的獲取、預處理、特徵抽取和選擇、分類器設計和分類決策。

1信息的獲取

獲取研究對象的基本信息並通過某種方法將其轉變為機器能夠認識的信息。在這個例子中,我們輸入一張狗的照片

2預處理

指圖像處理中的去噪、平滑、變換等的操作,從而加強圖像的重要特徵。在這一步,我們將狗的輪廓變成各種尖角、圓弧。

Advertisements

3特徵抽取和選擇

圖像識別的關鍵技術之一,我們所研究的圖像是各種各樣的,如果要利用某種方法將它們區分開,就要通過這些圖像所具有的本身特徵來識別,而獲取這些特徵的過程就是特徵抽取。在這一步,我們抽取預處理中的特徵點:尖角可能是尾巴、爪子、嘴

4分類器設計

指通過訓練而得到一種識別規則,通過此識別規則可以得到一種特徵分類,使圖像識別技術能夠得到高識別率。這個例子中我們第一步就已經做過分類器的設計並對其進行了訓練。

5分類決策

指在特徵空間中對被識別對象進行分類,從而更好地識別所研究的對象具體屬於哪一類。在例子中,我們通過抽取的特徵,與庫中的動物進行匹配,最終判定輸入的是一張狗的圖片。

機器學習12大演算法

我們可以看出圖片識別最關鍵的一步是分類器設計,Think Big Data發布的信息圖展示了 12 種最重要的機器學習演算法,或許它能為你指明今後的研究方向:

如今,移動互聯網、及社交網路的發展帶來了海量圖片信息,根據BI五月份的文章,Instagram每天圖片上傳量約為6000萬張;WhatsApp每天的圖片發送量為5億張;國內的微信朋友圈也是以圖片分享為驅動。不受地域和語言限制的圖片逐漸取代了繁瑣而微妙的文字,成為了傳詞達意的主要媒介。

圖片識別在這個背景下,爆發出了巨大的需求,其中,有一些問題也需要我們深思,比如如何鑒黃?

上個月因發布低俗內容被網信辦約談整改的今日頭條,就面臨著這個問題。雖然頭條是一家演算法公司,但是依舊不能用演算法完全鑒黃,彌補的方法只能是增加審核編輯的數量,遭遇整改后,今日頭條狂招了2000名員工來審核內容。

與圖片鑒黃類似,直播平台也面臨著鑒黃的問題。如今直播平台多、體量大、人工審核往往會發生遺漏、誤判的情況,對此,網易和阿里也有相關的圖像識別產品用於鑒黃。

以上談到的圖像識別,只是作為我們的輔助工具存在,我們可以通過圖片檢索商品信息,也可以將人臉識別作為主要的身份認證方式,相當於把一部分視力、記憶外包給了機器,讓機器來輔助我們達到目的。

圖像識別的高級階段是機器可視化。視覺是人類最重要的信息獲取渠道,人類感覺信息中的80%都是視覺信息。如果機器具有視覺,它就可以代替人類完成與外部世界的交互,而決定著機器視覺的就是圖像識別技術。

如今,從日常超市條形碼檢測、上下班指紋考勤、人臉識別考勤、 高速路車牌識別、航空遙感測控地形地貌、電影特效製作、工業生產自動化檢測、 醫學影像檢測,再到航空天文領域等,圖像識別的應用都已經逐漸成熟。相信在未來,更多技術的突破會讓AI更「聰明」,屆時,目前困擾我們的問題會都迎刃而解。

- END -

Advertisements

你可能會喜歡