機器不學習:深度學習與問答系統

1. 什麼是QA系統

QA系統用於回答人們以自然語言形式提出的問題,其在互聯網、通信及醫療等領域獲得顯著的成功。

2. QA的分類

QA系統依據回答語料可以分為兩類。

第一類,常見的純文本形式(網路文檔、問答社區內容、搜索引擎結果、百科數據等)。

第二類,知識圖譜(近年湧現大規模圖譜:WolframAlpha, Google Knowledge Graph, Freebase等,為基於圖譜的QA提供保障),通常以RDF三元組的形式結構化表示。由於結構化的特點,QA系統的結果可比純文本更精確和簡練。大知識圖譜保證問答系統的覆蓋率。

3. 系統架構

QA系統分為三層架構模型:實體層(底層)、語言層、應用層。

實體層(底層):為上層模型提供最基礎的計算單元。包括了語義社區搜索、語義消歧義和同現網路模塊;

Advertisements

語言層(中間層):作為連接實體層和應用層的橋樑,包含了具有一定語義信息的短文本;

應用層(最上層):集成的QA系統。包括了問題模板和深度學習模塊。

4. 實體層模型研究

4.1 語義社區搜索

標題取為詞林搜索可能更合適,說白了就是節點為詞語的複雜網路,邊為詞之間的關係,以此模型即可找到一個單詞所在的社區,以及單詞之間的相似度。

同一個語義社區的兩個詞有很高的相似度,相似度的定義為兩個詞的共同鄰居個數。(語義社區的劃分文中沒有說到,不過既然都說了是社區估計會用到一些社區發現的演算法吧)

4.2 語義消歧

這裡給出了一幅圖,用顏色把同一個意思的詞語連接在一起構成封閉的圖(內部可以有子圖)。

5. 語言層模型研究

5.1 動詞語義模板

Advertisements

據動詞與名詞間相關性,提出動詞語義模板的理論。包括概念化的動詞模板(如verb $cConcept)、固定化的動詞模板(如verb $iObject)。

動詞語義模板用來對語言實體做概念化的處理,所以需要有通用性和特殊性的特徵。基於資訊理論的最小描述距離理論,我們提出了滿足上述兩個特徵(通用性、特殊性)的動詞語義模板(見公式):argmin∑pP(p)L(p)

補充:最小描述長度(MDL),該原理是 Rissane 在研究通用編碼時提出的。其基本原理是為節省在保存一組給定的實例數據時的存儲空間,採用某種模型對其進行編碼壓縮,再保存被壓縮編碼的數據。同時,為確保之後可正確恢復被壓縮的實例數據,將所用模型也保存起來。所以需保存數據長度(比特數)等於被壓縮的實例數據的長度,加上保存模型所需數據長度,將該數據長度稱為總描述長度。最小描述長度,即MDL,其原理要求選擇時總是描述長度最小的模型。

6. 應用層模型研究

應用層包含兩部分(問題模板、深度學習,見上面的三層架構圖)。QA系統從問題中通過語言實體識別(用問題模板解決,將問題中的實體轉化為對應概念)、語言模板提取、預知索引建立並最終查找到問題的答案。

從上圖看,還是建立(或者分析出對應的)知識圖譜關係,找到問題所對應的類別(問題模板),知道哪一類的問題,然後根據圖譜關係的關鍵詞找到答案(屬性)。

6.1 問題模板怎麼從實體找到對應屬性?

我們提出基於概率圖的方法,使得問題答案跟預測答案接近(如圖)。總結下:首先通過問題的實體識別得到實體,然後對問題概念化得到對應的問題模板,再根據模板找到對應屬性,最後根據屬性查找值。

7. 基於知識圖譜的QA研究

首先,深度學習適合做實體屬性查找,主要因為它對序列性的問題有天然優勢(這個主要說的是RNN或者LSTM吧),一般此類QA問題都是序列性的。

7.1 CNN

如圖為最簡單的CNN網路,最下層即為問題的實體提取層(每個單詞輸入的形式是向量空間模型VSM,比方圖中就是長度為15K的VSM),首先將連續的問題序列化為單個的實體。然後,對各個實體進行卷積運算和最大池化。最後獲取概率最大的Inbinding(看不懂這個詞),由此得到實體屬性值(實體屬性值就是比方「姓名」這個屬性對應的值)。同時,提出了能更好理解問題上下文的雙向LSTM模型。

7.2 基於知識圖譜的QA + DL

為了增強CNN的特性,又提出了與CNN類似的模型,其包含3個CNN網路(接受問題輸入),每個網路獨立進行屬性的預測,最後獲得最大的均方根值(說白了就是計算Cost吧)。最後三個類型(Answer Path、Answer Type、Answer Context)的網路(接受輸入)分別與這三個網路的另外一個知識圖譜的輸入(也是對應三個路徑)進行結合(通過點積,對應類型點積),得到三個類型的結果,在進行拼接(估計是根據答案生成的模板),最後得到答案和一個分數。

與單個CNN相比,多個CNN除了具有Answer Path屬性外,還增加了Answer Context和Answer Type的屬性。其中,Answer Context表示候選答案周圍的信息,Answer Type則表示候選答案的類型。

8. 對QA系統的思考

對於QA系統,現面臨的問題:

缺乏高質量的訓練數據集。比如只有3778個網路問題的QA對,而對於QALD(Question Answering over Linked Data)則只有100個QA對;

知識圖譜本身的數據不完善;

基於知識圖譜的QA具有的有限的聯繫且準確的答案的屬性,而基於IR-based的QA具有無限的聯繫且模糊的答案的屬性,將兩個模型進行結合得到更廣且更準確的問題答案是正在著力研究的問題。

Advertisements

你可能會喜歡