溯源明本方知未來|沃豐科技GaussMind帶你追溯知識圖譜的起源
文章摘要:知識圖譜本質(zhì)上是對圖結(jié)構(gòu)模型的研究,包括AAAI、NeurIPS、IJCAI 在內(nèi)的諸多AI頂級會議都對知識圖譜極為重視,在大量學(xué)者積極投入與研究后,知識圖譜發(fā)展進程突飛猛進。
知識圖譜本質(zhì)上是對圖結(jié)構(gòu)模型的研究,包括AAAI、NeurIPS、IJCAI 在內(nèi)的諸多AI頂級會議都對知識圖譜極為重視,在大量學(xué)者積極投入與研究后,知識圖譜發(fā)展進程突飛猛進。
關(guān)于知識圖譜的起源圖結(jié)構(gòu)模型,最早我們可以追溯到上個世紀。人們對圖結(jié)構(gòu)模型的研究貫穿于現(xiàn)代計算 機技術(shù)發(fā)展的始末,并與人工智能的發(fā)展緊密貼合,共同進退。同時,其內(nèi)部基礎(chǔ)理論離不開語義 Web、數(shù)據(jù)庫、知識表征和推理、自然語言處理、機器學(xué)習(xí)等領(lǐng)域的研究。

接下來,本文會從知識圖譜的起源開始,循序漸進地介紹其誕生的歷史,并探討該學(xué)科未來的研究方向。
一、數(shù)字時代降臨,知識圖譜前身語義網(wǎng)絡(luò)模型初面世(20世紀50-60年代)
在數(shù)字計算機出現(xiàn),第一代編程語言誕生時起,一個嶄新的科學(xué)研究領(lǐng)域:計算機科學(xué)誕生了,它標志著數(shù)字時代的偉大降臨。
在1956年,國外研究學(xué)者Newell、Shaw 和 Simon 開發(fā)出了“Logic Theorist”,這是第一個標志性的處理復(fù)雜信息的程序。兩年后,他們又開發(fā)出了“通用解題程序”,該程序是其研究工作的一部分,目的是理解人類智能、適應(yīng)能力和創(chuàng)造能力背后的信息處理機制,構(gòu)建可以解決對智能和適應(yīng)性有所需求的計算機程序,并探索這些程序中有哪些可以與人類處理問題的方式相匹配。同時,這也標榜著自動推理線程的啟動。后續(xù)理論產(chǎn)出有Robinson 第一定理(歸結(jié)原理),以及Green 和 Raphael 通過開發(fā)問答系統(tǒng)將數(shù)據(jù)庫中的定理證明和演繹聯(lián)系起來的證明。實踐有Oseph Weizenbaum 的 ELIZA 系統(tǒng)。只要程序編寫正確,該程序就可以用英語進行關(guān)于任何話題的對話。
同期,作為知識圖譜前身的“語義網(wǎng)絡(luò)”誕生了,是在1956年由Richard H.Richens 提出。“語義網(wǎng)絡(luò)”起初被當(dāng)作自然語言機器翻譯的一個工具,后在1968年由奎林(J. R. Quillian)深化概念,明確了其是用圖來表示知識的結(jié)構(gòu)化方式的理念。其底層邏輯為在一個語義網(wǎng)絡(luò)中,信息被表達為一組結(jié)點,結(jié)點之間彼此相連帶標記的有向直線用于表示它們的關(guān)系。
一旦具備了一定的計算能力與自動推理能力后,人們開始可以從非結(jié)構(gòu)化數(shù)據(jù),例如文本數(shù)據(jù)中獲取有效信息。其中,具有里程碑意義的項目是Bertram Raphael 于 1964 年發(fā)表的SIR: A Computer Program for Semantic Information Retrieval。該系統(tǒng)使用單詞關(guān)聯(lián)和屬性列表來建模對話語句中傳達的關(guān)系信息。同時,他們通過格式匹配處理程序從英語句子中提取語義內(nèi)容。
以上種種研究領(lǐng)域的突破讓人們逐步了解到自動推理的重要性和可行性,使用計算機技術(shù)理解自然語言的急切需求,語義網(wǎng)絡(luò)(和更加通用的圖表征)作為抽象層的潛力,系統(tǒng)和高級語言對于管理數(shù)據(jù)的相關(guān)性。當(dāng)然,早期技術(shù)上的局限性也凸顯了出來,例如硬件的物理、技術(shù)和成本限制;圖表征和線性之間的差異;人類語言邏輯和計算機系統(tǒng)處理的數(shù)據(jù)之間的差異等等問題。
二、萬維網(wǎng)廣泛應(yīng)用,圖形化模型略展鋒芒(20世紀80-90年代)
20 世紀 80 年代,隨著國外個人電腦的蓬勃發(fā)展,計算機技術(shù)逐步深入到家家戶戶。
在數(shù)據(jù)管理領(lǐng)域,關(guān)系型數(shù)據(jù)庫工業(yè)發(fā)展迅速(Oracle、Sybase、IBM 等公司紛紛入場)。在1989年,Time Berners-Lee發(fā)明了萬維網(wǎng),實現(xiàn)了文本間的鏈接,并在后續(xù)幾年得到了快速應(yīng)用。
萬維網(wǎng)通過超文本標記語言(HTML)把信息組織成為圖文并茂的超文本,利用鏈接實現(xiàn)在站點之間的跳轉(zhuǎn),徹底改變了人們交流和交換信息的方式,也擺脫了以前查詢工具只能按特定路徑一步步地查找信息的限制,打破了時間與空間的限制。
與此同時,學(xué)術(shù)界繼續(xù)加深了對圖形化模型的研究, 如Harel 于 1988 年提出的圖形化編程語言「HiGraph」,開始將圖作為面向?qū)ο髷?shù)據(jù)、圖形化和可視化界面、超文本系統(tǒng)等的表征方式,又如Alberto Mendelzon 他們使用圖上的遞歸式來開發(fā)查詢語言,這是現(xiàn)代圖查詢語言的基礎(chǔ)。

三、海量數(shù)據(jù)和知識噴發(fā),知識圖譜誕生(21 世紀)
在21世紀,國外電子商務(wù)、在線社交網(wǎng)絡(luò)(例如,F(xiàn)acebook、Twitter)爆炸式增長,從而產(chǎn)生了海量數(shù)據(jù)。人們第一次面對如此龐大的數(shù)據(jù)量,但這也讓人們對數(shù)據(jù)的開發(fā)與利用產(chǎn)生了全新的認知。人們開始使用新的系統(tǒng)與方法論,如統(tǒng)計方法(通過引入深度學(xué)習(xí)),
開始在各式各樣的落地應(yīng)用場景中,展現(xiàn)了超越邏輯方法的性能與效率表現(xiàn)。
與此同時,谷歌和亞馬遜等互聯(lián)網(wǎng)公司率先打破常規(guī)企業(yè)數(shù)據(jù)管理的思維,跳脫出來,開始構(gòu)建起互聯(lián)網(wǎng)數(shù)據(jù)管理的壁壘,搭建屬于自己的互聯(lián)網(wǎng)帝國,并催生了 NoSQL 數(shù)據(jù)庫,它再一次普及了針對列、文檔、鍵值和圖數(shù)據(jù)模型的數(shù)據(jù)庫管理系統(tǒng)。
海量數(shù)據(jù)的存在也為人工智能的發(fā)展,如統(tǒng)計方法、機器學(xué)習(xí)、深度學(xué)習(xí)提供了充實的養(yǎng)料。人們認為統(tǒng)計技術(shù)是從已知的事實中推導(dǎo)出新的事實,它使實際應(yīng)用中的邏輯方法不像以往那樣受人關(guān)注,產(chǎn)生知識的邏輯方法正在退居幕后。
在這樣的背景下,知識圖譜的前身語義網(wǎng)絡(luò)研究領(lǐng)域又產(chǎn)生許多新的研究突破,如Tim Berners-Lee、Jim Hendler 和 Ora Lassila 在「科學(xué)美國人」雜志上發(fā)表論文「語義網(wǎng)絡(luò)」。其將數(shù)據(jù)與知識相結(jié)合,基于本文先前介紹的各類技術(shù)研究成果之上,尤其是萬維網(wǎng)的大量數(shù)據(jù)、自描述圖數(shù)據(jù)模型(RDF)、描述邏輯和知識工程。
雖然學(xué)術(shù)界對語義網(wǎng)絡(luò)的認可度很高,但是在商業(yè)上語義網(wǎng)絡(luò)的落地并不是很完美,可能是對學(xué)術(shù)界的創(chuàng)新技術(shù)的不信任,又或者是一些外部因素,如大公司正在做中心化管理,想要壟斷數(shù)據(jù)市場,對分布式與過于民主的數(shù)據(jù)管理方式有些排斥等原因??傊詈蟮慕Y(jié)果就是在后續(xù)十年中,語義網(wǎng)絡(luò)并沒有像專家預(yù)期的那樣受到市場與人們的歡迎。
但隨著知識處理技術(shù)的驚人進步,傳統(tǒng)數(shù)據(jù)管理技術(shù)捉襟見肘,局限性凸顯出來。這可能就是后續(xù)知識圖譜概念誕生的主要原因——因為一直缺少一個針對海量數(shù)據(jù)與知識且集存儲、管理和整合功能于一體的模型存在。
時間的滾軸繼續(xù)向前推進,一路來到2012年,在這年谷歌發(fā)布了一款名為Knowledge Graph的產(chǎn)品,即知識圖譜。它基于將數(shù)據(jù)表征為與知識相連的圖。從應(yīng)用的角度可以說,知識圖譜是一種多關(guān)系圖譜(multi-relational graph),圖中的結(jié)點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關(guān)系。從這些特性上,我們可以發(fā)現(xiàn)它可以通過不斷增加“點”、“邊”來進行持續(xù)擴充,所以說知識圖譜更像是一個不斷發(fā)展的項目,而不僅僅只是一個精確的概念或系統(tǒng)。

知識圖譜就此正式走入人們視野,被市場熟知,并親睞。同期,相關(guān)“圖”服務(wù)也紛紛涌現(xiàn)出來,如Facebook 發(fā)布的圖搜索服務(wù)、微軟、亞馬遜、Ebay 等巨頭的“知識圖譜”類服務(wù)。
所謂,溯源明本才能知未來,我們深入了解到那一段發(fā)展歷程才能站在更高層面去找尋未來知識圖譜的發(fā)展走向。我們可以看到知識圖譜在現(xiàn)如今已彌補了海量數(shù)據(jù)與知識管理、分析利用的漏洞,當(dāng)然現(xiàn)在還不完善,有待后續(xù)繼續(xù)補充完整。同時我們大膽展望未來,比如一個知識與數(shù)據(jù)管理系統(tǒng),是否可以通過對大量線索的有效整理分析得出既定結(jié)論,對事物后續(xù)走向?qū)崿F(xiàn)預(yù)測呢?就好像物理學(xué)就通過總結(jié)、驗證大量物理公式,實現(xiàn)了對物體粒子不同時間所處位置、狀態(tài)的預(yù)測。我們有理由相信,基于人類的智慧,早晚有一天會實現(xiàn)對數(shù)據(jù)與知識使用層面上的升華。
視線移步至今日,我們看到在知識圖譜領(lǐng)域發(fā)展的企業(yè)與組織數(shù)量激增。隨著人工智能大數(shù)據(jù)時代來臨,知識圖譜作為重要的知識表示方式之一,從全新視角為機器語言認知提供支持,使得人工智能對人類自然語言的理解更加精確,從而幫助人類實現(xiàn)更多知識的分析與利用。

商業(yè)發(fā)展是除戰(zhàn)爭外另一大推動技術(shù)變革的有力助手,越來越多的企業(yè),投身于知識圖譜的商業(yè)化發(fā)展利用中,沃豐科技也是其中一員。沃豐科技打造了AI場景落地專家GaussMind,其基于深度學(xué)習(xí)NLP算法,實現(xiàn)上傳、標注數(shù)據(jù),自定義構(gòu)建模型訓(xùn)練,構(gòu)建可視化圖譜,將非結(jié)構(gòu)化文檔自動構(gòu)建成知識圖譜結(jié)構(gòu)化知識表示GaussMind幫助員工快速查找知識,并構(gòu)建知識關(guān)聯(lián),發(fā)現(xiàn)未知聯(lián)系,賦能企業(yè)對知識數(shù)據(jù)的多緯度利用。
未來,沃豐科技將繼續(xù)深耕于此,以推動中國企業(yè)數(shù)字化轉(zhuǎn)型為己任,為知識圖譜的發(fā)展與商業(yè)實際場景中的快速落地而持續(xù)貢獻力量。
》》點擊免費試用智能知識圖譜,優(yōu)勢一試便知
文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來源:http://www.yzny.net.cn/ucm/update/27021
