一圖勝萬言:你不可不知的知識圖譜

世界是複雜關係的總和。在如今快速發展的互聯網時代,數據量呈現出爆炸性的增長趨勢,加之大數據挖掘技術使得數據之間的相關性變得更加容易,人們對世界的認知也越來越清晰。

早在2004年,Google創始人拉里·佩奇(Larry Page)和謝爾蓋·布林Sergey Brin就曾預言,「搜索未來會成為人們大腦的一種活動,當你在想到一件不怎麼清楚的事,它便會自動出現在你的腦海里」。

事實也如此,伴隨著互聯網時代網路信息的爆炸式增長,搜索引擎解決了人們快速定位問題範圍的需求,現在已成為人們遨遊信息海洋不可或缺的重要工具。

然而,傳統搜索也並非完美。通過關鍵詞的輸入,系統只是機械地比對查詢詞和網頁之間的匹配關係,答案往往被包裹在記錄問題的文檔之中。一定程度上,搜索引擎並不知道用戶要查詢的是什麼,「聰明度」還不夠。

Advertisements

直到2012年5月,搜索引擎巨頭Google在它的搜索頁面中首次引入「知識圖譜」:用戶除了得到搜索網頁鏈接外,還將看到與查詢詞有關的更加智能化的答案。人們對世界的認知,進入了智能化的關係時代。

一、什麼是知識圖譜?

知識圖譜本質上是語義網路,是一種基於圖的數據結構,由節點和邊組成。在知識圖譜里,每個節點表示現實世界中存在的「實體」,每條邊為實體與實體之間的「關係」。

通俗地講,知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關係網路。

知識圖譜將複雜的知識通過數據挖掘、信息處理、知識計量和圖形繪製等一系列方式表現出來,揭示了知識領域的動態發展規律,知識圖譜提供了從「關係」的角度去分析問題的能力。

二、知識圖譜的前世今生

Advertisements

知識圖譜的起源最早可追溯到文獻計量學和科學計量學的誕生時期。

  • 1938年,Bernal製作了早期的學科圖譜;

  • 1948年,Ellingham手工繪製了圖表,形象地展示自然科學和技術分支學科間的關係;

  • 同年,美國科學家、科學計量學奠基人和情報科學創始人之一普賴斯用簡單的曲線可視化科學知識指數增長規律。

到20世紀50年代,美國著名的情報學家和科學計量學家加菲爾德創製《科學引文索引》,以編年體形式手工繪製引文網路圖譜;隨後「文獻耦合」、「科學引文網路」、「引文可視化」等相繼被提出,科學知識可視化成為專門研究領域。

從20世紀末開始,隨著計算機網路技術的迅猛發展,特別是信息可視化技術的突破,複雜網路系統和社會網路分析方法的引入,知識的數量、種類和結構呈快速發展之勢。知識圖譜受到基因圖譜、信息可視化、GIS和超文本可視化發展的影響而被正式提出。

2010年,Google 收購了開放式資料庫公司Metaweb,Metaweb主要研究將不同文字表述與同一個實體鏈接,並探索這些實體的熟悉以及彼此之間的聯繫,其主要信息來源是Freebase。這一收購事件為日後Google知識圖譜的研究打下了基礎。

到2012年5月,Google正式發布搜索頁面的新功能——知識圖譜,成為Google搜索引擎上線以來最大一次改革,其目標在於改善搜索結果,描述真實世界中存在的各種實體和概念,以及這些實體、概念之間的關聯關係。

現在Google資料庫中包含超過5億個事物,不同事物之間的關係超過35億條。Google的「知識圖譜」不僅僅會從Freebase、維基百科或全球概覽中獲得專業的信息,同時還通過大規模的信息搜索分析來提高搜索結果的深度和廣度。

早在Google發布知識圖譜搜索之前,知識圖譜曾在國防安全方面打過一場漂亮的勝仗。2011年5月,「基地」組織首領奧薩馬本•拉登在巴基斯坦阿伯塔巴德的一座豪宅里,被美國海軍海豹部隊第六分隊突襲擊斃。除了情報部門和軍隊力量持續不斷的追尋,大數據和知識圖譜也在追捕本拉登的行動中起到了決定性作用。

作為美國目前估值最高的大數據公司,Palantir通過知識圖譜,將挖掘到的紛亂數據(比如,葉門極端主義教士的通話記錄、與恐怖活動關聯的銀行賬戶)進行了關聯,然後標記出可疑活動,最終幫助政府成功定位到了本拉登的藏身之所。

三、知識圖譜在金融領域的應用

隨著大數據時代的到來,各行各業使用數據的方式都發生了巨大的變化。特別是在金融領域方面,數據是異常重要的資源。一直以來,金融機構都在持續關注和研究如何突破既有數據的使用模式,以更加高效、精準、迅速地方式獲取數據的更大價值。

基於關聯關係的知識圖譜概念,可以突破現有的關係型資料庫的限制,在金融行業中釋放數據的價值。接下來,我們主要看看知識圖譜在金融領域的三大應用場景。

場景一:風控

基於銀行金融領域的海量用戶數據,通過知識圖譜可以將客戶、企業、行業間的有效數據進行關聯,從行業關聯的維度預測風險,提前進行風險控制。

當某一行業發生了行業風險或高風險事件,金融機構可以通過知識圖譜及時預測未來有潛在風險的關聯行業,從而可對相關行業的風險做出預判,儘早地發現並規避風險。

基於圖挖掘分析技術,利用支持向量機、因子圖等機器學習方法發現信貸風險傳導模式。

上圖為關聯關係圖,A為違約客戶,結合銀行擔保關係數據、資金流向數據等內部特徵,以及企業基本屬性、涉訴信息、輿情等外部特徵,通過機器學習方法計算可得到A違約后B、C、D違約的概率,從而及時切斷傳播路徑。

通過對行業和客戶的知識圖譜進行分析,可及時發現位於關聯行業或者上下游的其他潛在風險客戶。

場景二:精準營銷

挖掘潛在客戶一直是金融行業關注的一項重要應用,通過現有數據和外部數據精準、迅速地找到相關業務的潛在客戶,對於銀行業務的提升會起到較大助益。

通過大數據的挖掘採集,我們可以基於現有銀行客戶建立社交網路知識圖譜,並根據不同的交往方式和頻次定義圖譜的關係模型。同時,還可以對客戶的親屬、朋友、同事、同學等進行相關的社交挖掘,評估關係緊密度。通過用戶的知識圖譜關係,更加精準地分析客戶行為,了解客戶潛在需求,進行精準推送。

比如,基於現有VIP客戶,挖掘相關聯繫人及其愛好,或可以在現有客戶中去發現具有共同愛好的一個組織,從而可以有針對性地對某一部分或一類人群制定營銷策略,大大提升營銷的精準性和有效性。

場景三:反欺詐

近年來,金融欺詐的形式呈多樣化發展的趨勢,提供虛假資料,團伙欺詐,內外勾結等欺詐手段層出不窮,不少欺詐案件涉及到複雜的關係網路,這都給銀行等金融機構的欺詐審核帶來了新的挑戰。

在此情況下,傳統通過單點突破進行反欺詐的方法已經遠遠不夠。基於大數據的反欺詐,可以通過對用戶數據的採集和分析,建立企業級客戶在資金鏈、法人、上下游投資、相似企業業務等關係上的知識圖譜,挖掘出欺詐者數據的矛盾點和可疑點,從而識別、預防欺詐事件的發生。

圖為海致企業知識圖譜對「中晉系」的圖譜分析

知識圖譜作為關係的直接表示方式,可將不同渠道的碎片化、異構數據整合成為機器可以理解的知識,藉助規則引擎,幫助金融機構更有效地分析複雜關係中存在的潛在風險。

結語:

物理學大師約翰·惠勒說:「萬物源於比特。」自人類發明符號以來,世界正逐步成為一個巨大的信息場。然而信息並不等同於知識,更不意味著智慧。如何從信息中發現知識?如何發掘出知識之間的關聯?如何從知識的關聯之中湧現出智慧?這正是海致的數據科學家們正在孜孜探索的領域。

Advertisements

你可能會喜歡