2022-4-13 周周
1.1 基本概念
2012年,Google公司為實現更智能的搜索引擎,提出知識圖譜的概念,2013年后在行業內和學術界開始普及。
知識圖譜的定義:是結構化的語義知識庫,本質上是一個語義網絡(Semantic Network),用于描述物理世界中的概念及其相互關系。在技術層面,通過對錯綜復雜數據的有效加工、處理、整合,轉化為數據關系來聚合大量知識,從而實現知識的快速響應和推理;在可視化的應用中,知識圖譜表現為多關系圖(Multi-relational Graph),在圖形化界面中可讓用戶查看和互動(如圖1)。
圖1(引用自企查查app截圖)
1.2 知識圖譜的特點:
其特點主要包含以下兩方面內容:
1. 它是由“節點”和“邊”構成的三元組
三元組是知識圖譜的基本單位, 由節點和邊構成(圖2)。其中節點代表實體,是指具有區別性且獨立存在的客觀事物,如:圖1中的馬云、華誼兄弟傳媒有限公司,圖3中的美國、平方公里數等;邊代表兩個實體間的關系,是指客觀存在或推理得到的實體間的聯系,如圖1中的董事、監視、投資,圖3中的面積、人口、首都等。
圖2(作者依據知識圖譜相關概念繪制)
圖3(引用自網絡圖片)
2. 它的數據以知識的角度呈現。
知識是一種人類對于客觀世界的認知,包括事實、信息描述或教育實踐中獲得的結果的綜合。三元組也被稱為“一條語句”,或知識圖譜中的一條知識。在圖4的國家信息關系三元組中,我們就可以讀出一條語句(或是知識)為:“中國的土地面積有9,634,057平方公理”。知識圖譜可以集成Web上大量的數據及數據關系,通過有效的加工、整合和處理,將其轉化為易于計算和理解的語義知識庫,可用于描述客觀世界中的概念及相互關系。
1.3 知識圖譜的作用
1. 信息篩選,精確檢索范圍。
2. 信息拓展,提供更豐富的信息內容。
3. 信息連接,構建有深度和廣度的知識系統。
1.4 為什么需要對知識圖譜進行可視化
1. 知識圖譜的技術架構-側重在數據關系模型和機器學習,普通用戶很難讀取和理解。
知識圖譜的核心技術邏輯,是由整體的“數據輸入-數據處理-知識圖譜生成”三個大環節構成。數據輸入環節包含“結構化數據、半結構化數據、非結構化數據”;數據構建環節包含“信息抽取、知識融合、知識加工”;知識圖譜系統的生成環節,是整個技術架構往復迭代、不斷更新和積累,慢慢形成的結果。數據輸入是對數據源的挖掘,數據構建是底層的模型算法應用,知識圖譜生成是數據處理結果的呈現(如圖4)。
圖4(作者依據知識圖譜相關概念繪制)
這個過程在底層數據模型中運轉,對用戶可見的往往是最終的結果。比如:搜索引擎中,用戶看不到搜索過程,但可得到最匹配的搜索結果;在音樂平臺中,看不到內容匹配邏輯,但可以被推薦感興趣的歌曲。如果想利用過程數據為用戶提供服務,就需要進行可視化處理。
2. 傳統的信息可視化-側重在數據結果的展示和篩選,較少涉及數據關系的干預。
傳統信息可視化的方法,在設計側更多強調數據信息與圖像、色彩的信息傳達上。其方法通常集中在“如何對已經確定的數據進行圖形映射”和“如何處理信息層級”的視覺表現上,較少參與設計數據關系或影響數據結構。然而,這讓用戶知道數據“是什么”,卻不能呈現數據“為什么”。知識圖譜的可視化,可以讓數據處理過程被用戶可見、可用,從而更好的分析和使用數據。
圖5(作者依據傳統信息可視化方法相關概念繪制)
3. 知識圖譜的可視化-側重在數據關系構建和處理過程的可視化
知識圖譜技術廣泛應用在情報學、檢索引擎、自動問答、金融反欺詐等領域。目前已擴展到智能醫療、證券投資、大數據風控、聊天機器人、個性化推薦系統等更多方向[1]。這種關系語義網絡也逐漸從技術底層應用向可視化用戶界面上發展,各行各業也在探索如何時其在終端界面中被用戶可讀和可用。比如:在文化研究領域,圖譜呈現更有助于用戶對于文化知識的理解和再創造;在商品市場領域,視覺化的圖譜可讓商家洞察更多“人-貨-場”之間的內在聯系。
對知識圖譜信息的可視化,重心落在數據信息的提取和關系構建上,將數據信息的編譯過程呈現給用戶。知識圖譜信息可視化和傳統信息可視化方法之間的關系,如圖6。
圖6(作者依據信息可視化方法相關概念繪制)
知識圖譜在底層算法和數據模型上提供有效的技術邏輯,進而構建豐富龐大的語義網絡,但如果要在具體應用場景中給用戶可見的模式,則需要圖形化界面的呈現。在實際工作中,設計側的核心任務是“多關系圖”的信息可視化。結合知識圖譜的特征、技術原理和傳統信息可視化方法,可以將知識圖譜可視化的過程,歸納為“確定知識主題(主題層)-處理與分析數據(數據層)-構建數據三元組(關系層)-進行可視化映射(可視層)”四個步驟。
2.1 【主題層】確定知識主題/可視化目標
確定主題的過程,也是定義核心概念或目標的過程,這一環節是是知識圖譜可視化的出發點和落腳點。傳統可視化為了可視而可視,只是讓用戶更好的讀取數據,而較少考慮讀到后有什么用,怎么用。沒有主題的數據是無意義的,任何一類知識的描述,都需要圍繞某一特定主題展開。在項目實踐角度,也可以將其視為梳理業務核心訴求或定義設計目標的過程,如確定要闡述什么類型的知識、最終的可視化效果對目標用戶有什么價值、業務要利用數據達到什么目的,所有數據的設計都將圍繞著主題展開。
確定主題的方法有很多,包括傳統的用戶需求分析方法、文獻綜述、行業研究等,可根據不同的項目訴求,選擇合適的方法和工具。如,要做電商行業的知識圖譜,通過行業研究、對用戶特征和行為動機的分析,發現電商領域用戶最關心人貨場的知識,人和貨特征及其關系就是核心要表達的主題。再如,老師想了解網絡時代的大學生都具備怎樣的社交特征,通過對學生學習、娛樂、社交等不同生活要素分類調研,選擇“學生使用社交軟件的行為特征”作為主題。
同時,主題要清晰明確,避免模糊和過于宏大。以文化領域為例,如想呈現京劇之美,這個概念就大而泛,很難去組織數據,就有創作者將其主題拆分為:歷史之美、劇目之美、舞臺意向之美、傳承之美等幾個主題。然后再逐一分析每個主題的數據。
2.2 【數據層】對數據進行提取與加工
在未經處理前,與主題相關的可用數據是多樣且龐雜的。由知識圖譜的技術框架可知,技術模型經過信息提取、知識融合和知識加工后,才使原始數據變得有用和有效,同樣在可視化的過程中,也離不開信息提取與數據加工。
1. 數據提取-圍繞知識主題進行數據信息的提取。
信息提取,也就是先羅列可能有用的相關數據類型。每個主題都是一大類目的知識領域,需要經過收集、歸納、拆解后再能夠清晰的進行解釋和傳播。如,圍繞“學生使用社交軟件的行為特征”這一主題,可歸納出“好友關系、互動行為、在線狀態、信息發布”等特征。進一步,好友關系又可拆分為:好友量、關注量、粉絲量;互動行為又可拆分為:聊天次數/頻率、點贊數、評論數等。數據收集一般通過桌面研究的手工收集、數據爬蟲兩種方式。歸納和拆解數據可以使用卡片分類、思維導圖的方式。
2. 數據加工-進行知識語義加工。
數據加工的過程,就是將羅列出的數據進行分類和篩選,確定最能夠表現知識主題的描述緯度或數據類型。如圖7,通過分析影響因素的關聯程度,選擇具備直接影響因素的數據,或劃定數據范圍后,再進行細分??梢岳每ㄖZ模型、波士頓矩陣等方法找到數據對主題影響程度的優先級,具體的挑選方法無定式,只要能整理出適合的數據類型。
圖7(作者依據相關案例繪制)
3. 數據清洗-進行數據篩選和最終確認
定義出有用的數據類型后,并不是所有數據都能完美符合我們的訴求,比如數據挖掘能力限制,不能挖到更精準的數據或有數據缺失;比如數據解析能力不足,數據類型混雜,或有錯誤數據等。排除不足量、精準度差、錯誤率高等不可用的數據,盤點出能夠被應用于可視化的最終數據。在實際工作中,需要跟團隊的數據挖掘工程師、或業務產品負責人明確數據能力和質量。例如,“京劇傳承之美”的數據選擇過程中,作者對京劇藝術傳承上存在的“流派師承、藝學家傳、科班教育等”多種方式進行進行分類和篩選,最終提取了京劇51個流派的創始人數據、師徒數據、家族成員數據。
2.3 【關系層】構建數據關系三元組
在知識圖譜的技術架構中,這一環節體現在本體構建上,本體是個專業概念,本體構建也有多種可用的成熟模型,屬于技術側內容,本文不展開論述,僅闡述設計層面的思路。技術是讓數據更精準,而面向用戶的設計是讓數據更有用和好用。
設計數據的關系層,也就是給不同數據類型建立關系的過程,通過確定節點和邊的內容來構建能夠解釋主題和符合其邏輯關系的三元組。數據關系的建立一般主要圍繞兩個層面,一是能夠闡述知識主題,二是通過關系三元組可推理得到更多的知識內容。比如,在“學生使用社交軟件的行為特征”這個主題中,可定義“學生(實體)-網絡社交特征(屬性)-具體行為(屬性值)“是一組關系結構,體現在數據為“張三-在線時長-5小時/天”,描述成知識語意為:張三同學社交軟件每天會在線亮起5個小時;又如,圍繞“商品銷售信息”這一主題,“產品(實體)-集合(關系)-商品(實體)”是一組關系結構,體現在具體數據為“手機-包含-華為手機”,描述成知識語義為:華為手機是眾多手機中的一種。
當我們定義了這種數據關系,獨立的數據就變成了可描述的知識語意,當這些語義聯系在一起,用戶通過一段段知識洞察到不同的現象,或解讀出不同的結論。這種知識語義的可視化,或者說這種數據關系結構的可視化,能夠幫助用戶了解業務現象,或產品底層看不到但卻有用的信息。比如京劇文化中師承的演變,可以通過不同人物之間的關系脈絡,構建出“師承關系、家族關系、聯姻關系”幾種三元組模式,從相同節點中解讀到某個京劇演員擅長某個角色的師承因素。再比如,將某班級每個學生的聊天頻率、好友數量、QQ在線時長等網絡社交行為關系一一對應,就會勾畫出集中在某個學生身上的不同特征,把這些學生再放在一起,就呈現出一個班級學生在網絡世界的不同社交特點。(如圖8)
圖8: 由數據構建的三元組關系圖(作者依據相關案例繪制)
2.4 【可視層】可視化圖形語義轉換/可視化映射
當關系構建好以后,簡單的三元組是容易讀取的,但眾多三元組集成在一起,也會涉及到信息讀取效率的問題,就需要將關系結構圖形化,這一步驟也是傳統信息可視化方法中的必然環節。根據已經構建好的數據關系結構,可通過“圖表映射”和“視圖設計”兩種方式,進行可視化的語義轉換。
1. 可視化圖表映射
可視化圖表,是指具備通用性的標準化圖表。總體分為統計類圖表和關系類圖表,本文主要闡述關系類圖表。關系類圖表又可分為網狀關系和層次關系。網狀關系圖包括:關系圖、弦圖、弧長鏈接圖等;層次關系圖包括:樹圖、旭日圖、矩形樹圖等。詳細的標準化圖表,可以借助E-chart、Tableau Public、Smartbi等軟件進行參考選擇(如圖9)。
圖9:網狀關系圖(引用自E-chart網站截圖)
圖9:層次關系圖(引用自E-chart網站截圖)
如果數據關系比較清晰簡單,能夠被這兩類標準化圖表所覆蓋,則可以直接選擇把節點和關系直接映射其中。如果你的數據關系比較復雜,或個性化,則可對標準化圖標進行組合或變化,或設計個性化視圖。
例如,在北京郵電大學彭國雁的論文《面向京劇知識圖譜的信息可視化研究與設計》的案例中,“京劇傳承之美”這一主題,“師承關系、家族關系、聯姻關系”的三元組關系較復雜,如果直接用可視化圖表映射來展示,會產生易讀性差和頁面布局難以控制的問題。于是論文作者采用不同圖表相結合的方式,并將圖形的視覺元素進行改造:1 主體采用和弦圖,人物點構成和弦圖的圓,人物關系類別采用不同顏色線條進行連接(圖10)。2 根據人物出生時間的向性特點,將人物按照某一方向進行排列,即可隱喻師徒或者親屬關系的有向性。3 采用樹形圖形式的線條表達主次人物的關系(圖11)。4 將幾種基礎關系做好映射后,再把相關節點整合在一起,就表達了整體的師承關系結構圖,最終形成“傳承之美”整體的可視化知識圖譜(圖12)。
圖10: 人物師承、親屬、聯姻關系和弦圖(引用自論文《面向京劇知識圖譜的信息可視化研究與設計》截圖)
圖11: 京劇流派師承樹形關系表(引用自論文《面向京劇知識圖譜的信息可視化研究與設計》截圖)
圖12:最終映射后的 “京劇傳承之美”可視化知識圖譜(引用自論文《面向京劇知識圖譜的信息可視化研究與設計》截圖)
2. 可視化視圖設計
本文所述的可視化視圖,是指能表達標準化圖表以外的,不同類型數據特征的語義圖形,由設計師根據與主題相關的數據類型進行構思,并關聯其不同類型數據間的關系語境,最終形成的信息圖。比如(圖13),清華大學副教授向帆老師在對“學生互聯網社交行為”這一主題的研究中,作者選擇QQ使用狀態的相關數據,將每個學生用QQ企鵝的輪廓圖形表示,在線時長為企鵝形狀大小、聊天次數為圓形嘴巴、好友數量為頭發多少,呈現出“學生-網絡社交特征-具體行為”的可視化關系圖,在最終的視圖中,可直觀的看到完全不同的每個人。
圖13:同班級不同的學生網絡社交行為圖譜(引用自演講《秘密的設計》截圖)
這類自定義的可視化視圖具有獨特性和意向性的特征。獨特性是指圖形針對具體的主題和數據關系,而不能夠廣泛的為其他主題復用;意向性是指一個視圖內的圖形有一定的意向概念傳達,比如圓形代表聊天次數,也是象征嘴巴,嘴巴跟聊天相關(盡管網絡聊天用文字,但卻表達出了這種交流意向)。同時個性化圖形元素相關聯來表達數據關系,也可以直觀、高效的洞察出用單純的標準化圖表看不到的現象,比如說圖14的三個學生,一個在線時間很長但聊天很少、好友也很少;一個在線時間很短,但好友和交流時間卻很多;另一個基本不說話,但是卻有很多好朋友。這樣的現象更容易觸發同理心,從而啟發老師在教學中因材施教。
圖14:發現網絡社交行為最為奇特的三個學生(引用自演講《秘密的設計》截圖)
經過以上四個步驟,就完成了對知識圖譜數據進行可視化。它不是單純的以視覺效果展示數據信息,而是從數據關系提取到關系呈現為一體的設計過程。
綜上所述,基于知識圖譜的技術架構、傳統數據可視化的方法和交互設計的工作流程,本文分享了一種可在工作中易于操作的知識圖譜可視化方法。與傳統數據信息可視化相比,知識圖譜可視化更傾向于數據之間三元組關系的視覺表達,所謂“整體大于局部之和”,有了關系的建立,則更能夠發現單一數據之外的延展信息和潛在機會。希望能夠通過設計的力量,讓普通用戶也能更好的使用數據和洞察數據。
文章來源:學UI網 作者:大總管默默
分享此文一切功德,皆悉回向給文章原作者及眾讀者.
免責聲明:藍藍設計尊重原作者,文章的版權歸原作者。如涉及版權問題,請及時與我們取得聯系,我們立即更正或刪除。
藍藍設計( ssll180.com )是一家專注而深入的界面設計公司,為期望卓越的國內外企業提供卓越的UI界面設計、BS界面設計 、 cs界面設計 、 ipad界面設計 、 包裝設計 、 圖標定制 、 用戶體驗 、交互設計、 網站建設 、平面設計服務