摘 要:[研究目的] 對近幾年多源多維數據融合相關文獻進行梳理和分析,為我國數據融合領域后續的理論與實踐研究提供參考。 [研究方法] 在對多源多維數據融合概念進行界定的基礎上,借助 VOSviewer 軟件,從理論、方法與應用三個層面進行文獻回顧,重點闡述了數據融合在圖情領域的應用情況,最后總結研究不足和展望發展方向。[研究結論] 當前多源多維數據融合研究存在如下不足:理論體系缺乏系統性、融合技術解決問題片面化、忽視“軟數據冶融合研究等,未來可以從這些方面加以突破。
關鍵詞:多源數據;多維數據;數據融合;神經網絡;深度學習
大數據時代,信息爆炸式增長,數據的來源也越來越廣泛,總的來說,可以把數據來源歸納為兩大類,一類是“以物為中心冶 的各種傳統傳感器獲取的“硬數據冶,另一類是“以人為中心冶產生的“軟數據冶,如社交網絡數據、web 數據、多媒體數據等。
此外,數據除來源廣外,還具有多維性特征,多維主要體現在數據屬性的多樣性上,即對同一對象從不同視角提取的數據,如內容主題維度、類型維度、結構維度、時間維度、空間維度等。面對海量、復雜的數據,一方面難以充分挖掘出有價值的信息,另一方面單來源單維度數據難以滿足輔助科學決策的需要,多源多維數據融合發展的需求越來越迫切。
與此同時,物聯網、云計算、人工智能等新興技術的發展,不僅提高了數據獲取與數據分析處理的能力、促進了數據融合的發展,也增加了數據融合的研究熱度。 因此,本文對多源多維數據融合的研究現狀進行梳理與分析,以期為數據融合領域后續的理論與實踐研究提供參考。
1 概念界定
一般來說,數據融合和信息融合通常被視為相同的概念,只是在某些情況下,數據融合用來表示處理直接從傳感器獲得的原始數據,信息融合則用來定義處理在原始數據基礎上形成的信息[1]。 在研究文獻中,與數據融合相關的術語通常還包括傳感器融合、多傳感器融合、知識融合、數據聚合、數據集成、數據組合等。
本文在處理過程中,將數據融合和信息融合視為了相同的概念。 數據融合這一概念最早是在 20 世紀70 年代美國軍事領域內提出的,之后被廣泛應用于工業、農業、交通、醫療等領域。 不同領域對數據融合的理解和運用不同,因此數據融合至今依然沒有統一的定義。 目前,被普遍采納的定義是由美國三軍組織實驗室理事聯合會(JDL)提出的,他們認為數據融合是一種對多源數據進行檢測、相關、組合和估計的多層次、多方面處理過程[2]。
Hall D L 等認為數據融合是將多種來源的數據結合起來,利用計算機進行數據處理,得到單個或單類信息源無法獲得的有價值的綜合信息[3]。 結合前人觀點,筆者認為,多源多維數據融合是根據數據融合的目的和所處層次,選擇恰當的數據融合結構和算法,通過對描述對象不同來源不同維度的數據進行抽取、清洗、分選等預處理,提取出數據特征并進行關聯組合,從而得到更加準確完整信息的過程。
2 數據來源依據
論題解讀,筆者以中國知網數據庫為數據統計源,以“數據融合冶“信息融合冶 “多源數據冶 “多維數據冶“多源信息冶“多維信息冶為檢索詞,進行“篇名冶檢索,限定期刊來源為北大核心、CSSCI 以及 CSCD,檢索時間為 2021 年 6 月 10 日,檢索結果為 5511 篇相關文獻。 筆者對其年發文量進行統計,得到年發文量曲線圖(注:2021 年數據不完整,截至檢索日期共計 162 篇)。
1992 年以前,我國并不十分重視數據融合的研究;1992 年至 1998年,數據融合相關文獻開始出現且年發文量逐漸增加,表明數據融合在我國開始受到關注,相關研究開始起步;1999 年至 2009 年,年發文量快速增長,并且在2009 年達到階段性峰值,表明數據融合相關研究進入高速發展階段;2009 年至今,數據融合相關文獻年發文量有所回落,但總體呈平穩上升趨勢,并且年發文量數值較高,表明國內學者對數據融合研究一直保持著較高的關注度,數據融合相關研究進入平穩發展階段。
為了解國內多源多維數據融合的最新研究進展,筆者對近五年的期刊文獻進行了分析,把檢索時間限定為 2016 年 1 月 1 日至 2021 年 6 月 10 日,共得到1611 篇文獻,對檢索結果進行預處理(去重及去除不相關等)后得到緊密相關的文獻 1 565 篇。 本次研究運用了文獻計量學方法,借助可視化應用軟件 VOS鄄viewer,對研究樣本進行分析。
3 多源多維數據融合相關研究
多源數據和多維數據都是數據融合的處理對象,根據不同的分類標準可以把數據劃分為多源數據和多維數據,多源數據是按照數據的來源進行劃分,多維數據的劃分標準是數據的屬性,多來源也可以看作是多維度的一種維度,從這個意義上說,多維數據的含義高于多源數據。
一般來說,多源數據和多維數據之間沒有絕對的關系,單來源的數據按照不同的性質可以劃分出多個維度,同一性質的數據按照不同的來源也可以劃分為多個來源,且各種來源的數據大多涉及多維度處理問題,所以在處理數據時,對數據是多源還是多維的判斷通常不是絕對的。
同時分析整理文獻發現,大多數多源多維數據融合研究主要針對多來源數據進行分析,集中于理論研究、方法研究以及應用研究,且不少文獻把多源數據融合簡稱為數據融合,所以筆者主要從數據融合的理論、方法與應用三個層面展開分析。
3. 1 數據融合理論研究
大數據時代,大規模的多源多維數據關聯交叉,融合處理難度大,不少學者提出數據融合面臨著諸多困境。 整體來看,融合過程在融合方式變革、融合規模控制與數據存儲維護方面,融合結果在用戶隱私保護與實際應用對接方面,融合技術在跨領域、跨學科、跨語言以及跨媒體融合方面存在著挑戰與問題[4]。
從具體領域來看,圖書館大數據融合面臨著多源異構數據關聯難度大、實時大數據和歷史大數據融合復雜性大、對傳感器系統功能性需求大、大數據安全與開放的矛盾大等挑戰;高等教育發展也存在大數據融合利用效率低、利用力度不足、浪費嚴重、數據化水平低等困境。 部分學者針對各領域不同的發展目的提出了數據融合的途徑,同時還有學者進一步對數據融合的體系建設提出了構想,如張文萍等探討了包括數據描述模型、數據服務模型、數據管理計劃等的科學數據融合體系架構[5];翟運開等從層次維、時間維和種類維三個角度構建了包括精準醫療多源異構數據融合標準體系框架[6]。
總體來說,近幾年數據融合理論相關文獻數量不多,研究主要集中在面臨問題、融合途徑以及體系建設等方面。 關于數據融合困境的研究比較片面和泛化,未來還需根據發展需求與實際情況不斷剖析數據融合面臨的問題與挑戰;對于數據融合途徑的研究比較薄弱,無論是從整體視角還是具體應用領域來看都有很大的研究空間;許多領域對數據融合體系建設的重視度不夠,且沒有形成廣義的數據融合體系。 總之,多源多維數據融合理論不夠完善,還需在理論層面進一步展開探討,構建完整的系統理論體系。
3. 2 數據融合方法研究
受外界環境或傳感器性能等的影響,各系統獲得的數據存在冗余或不準確的問題,數據融合方法通過對不同形式的數據進行處理,可有效獲得準確信息。 為更直觀全面地反映數據融合方法的發展現狀,筆者抽取與數據融合方法研究相關的文獻,運用可視化應用軟件 VOSviewer 構建關鍵詞可視化圖譜。 運用較多的方法是神經網絡( BP 神經網絡、卷積神經網絡、深度學習)、D-S 證據理論、卡爾曼(Kalman)濾波、支持向量機(SVM)、遺傳算法、信息熵、自適應加權、層次分析法、小波變換、粒子群算法、聚類、蟻群算法等。
(1)BP 神經網絡。 BP 神經網絡即反向傳播神經網絡,屬于淺層神經網絡的一種,通常由一個輸入層、一個隱藏層和一個輸出層組成,多層的網絡體系結構使得信息的輸出更加準確。 如有學者設計了一款危化品倉庫巡邏機器人,在對收集的泄露危化品濃度、倉庫內環境溫度和濕度數據進行拉依達去噪、歸一化后利用 BP 神經網絡進行融合輸出,大幅度提高了機器人報警的準確性和可靠性[8]。 由于外界環境的復雜性以及 BP 神經網絡自身的缺陷,越來越多的學者借助優化算法,如改進蟻群算法、改進粒子群算法、啟發螢火蟲算法、改進煙花算法等設計 BP 神經網絡數據融合算法,優化了 BP 神經網絡的拓撲結構、權值和閾值,有效地減少了冗余數據傳輸,提高了融合的精度和收斂速度,改善了數據融合算法的性能。
(2)深度學習。 深度學習由淺層神經網絡發展而來,是深度神經網絡的統稱,卷積神經網絡、循環神經網絡是深度學習中重要的算法結構。 不同于淺層神經網絡,深度神經網絡擁有多個隱藏層,且較低層的隱藏層輸出可以作為較高層隱藏層的輸入[9]。 深度學習具有更強的特征表示能力,不少學者將其運用到了數據融合算法中。 如馬永軍等提出了以卷積神經網絡模型為核心的無線傳感器網絡數據融合算法,有效地提高了數據采集精度[10];張輝等提出了一種基于深度神經決策森林(DNDF)的數據融合方法,有效提取了多維數據的關鍵特征,解決了體域網中多傳感器數據采集過程中數據冗余大、特征信息模糊的問題[11]。 總的來說,與傳統數據融合算法相比,深度學習可以有效地改善高噪聲、多維度、大規模、結構復雜數據的融合效果。
3. 3 數據融合應用研究分析
文獻發現,數據融合應用研究是當前的重點與熱點,筆者通過整理數據融合應用相關研究,運用 VOSviewer 軟件構建了關鍵詞知識圖譜,數據融合應用范圍十分廣泛,主要用于故障診斷、遙感、目標跟蹤、導航、目標檢測、交通工程、目標識別、智慧城市、狀態評估、圖像處理、機器人、產地鑒別、定位、三維建模等。 總的來說,針對傳統物理傳感器的數據融合應用研究偏多,“以人為中心冶 的數據融合應用研究較為缺乏。 不同領域的數據融合應用不近相同、各有側重,筆者對數據融合在圖情領域的具體應用進行了分析。
4 總結與討論
通過文獻梳理可知,目前我國多源多維數據融合已經具有一定的研究規模,研究內容包括理論、方法與應用三個方面。 就理論研究來說,部分學者對數據融合的問題、思路與體系等給出了自己的見解;就方法研究來說,不同專業的學者對各自領域的數據融合方法進行了優化與完善;就應用研究來說,各領域根據具體問題通過建設平臺、設計系統和構建模型等方式對數據融合技術有了不同程度的運用。 其中,圖情領域對數據融合方法的使用更多體現在智慧服務發展、用戶行為分析、信息資源建設、科學前沿識別、突發事件響應、科學評價優化等方面。當前研究依然存在以下幾點不足:淤理論基礎研究相對薄弱,對相關概念缺少統一的定義與認識,缺乏系統的理論基礎,沒有形成完整的理論體系。
于數據融合技術的發展面臨著數據異構、數據不確定、數據異常和虛假、數據關聯等多個方面的問題,但是大多數技術研究只是集中在解決這些問題中的部分,缺少對解決所有問題數據融合算法的整體研究。 盂應用研究主要集中在“以物為中心冶的數據融合上,缺少對“以人為中心冶的數據融合的研究,即對物理傳感器等設備獲得的“硬數據冶的融合研究較多,對來自社會網絡、數據庫等信息系統的“軟數據冶或“軟硬數據冶融合的研究相對較少。
同時,數據融合方法在圖情領域的應用研究還處于起步階段,發展不成熟,未來還有很大的研究空間。針對上述不足,未來研究可以考慮從以下幾個方面取得進展:淤發展和完善數據融合的基礎理論研究,既要有針對特定應用領域數據融合的特征、準則和方案等的理論架構,也要注重發展數據融合作為獨立學科廣義的融合模型與算法等系統理論體系。
于技術發展上注重改進和完善現有數據融合算法,發展多種數據融合方法結合的綜合數據融合算法,增強異構數據融合算法的魯棒性和準確度,提高數據融合的性能。盂人可以提供物理傳感器無法獲得的有價值的信源,要加強對“以人為中心冶的“軟數據冶或“軟硬數據冶融合的應用研究,進一步擴展數據融合技術在圖情領域的應用。 榆構建數據融合評估方法,對數據融合系統進行多維度分析與評價。
參 考 文 獻:
[1] Liu P, Chen L. A multi-source data aggregation and multidi鄄mensional analysis model for big data[C] / / ITM Web of Con鄄ferences. EDP Sciences, 2017: 05009.
[2] Steinberg A N, Bowman C L, White F E. Revisions to the JDLdata fusion model[J]. Proceedings of the Society of Photo-opti鄄cal Instrumentation Engineers, 1999, 3719:430-441.
[3] Hall D L, Llinas J. An introduction to multisensor data fusion[J]. Proceedings of the IEEE, 1997, 85(1):6-23.
[4] 孟小峰,杜治娟. 大數據融合研究:問題與挑戰[ J]. 計算機研究與發展,2016,53(2):231-246.
[5] 張文萍,宋秀芬,魏銀珍,等. 基于 FAIR 標準的科學數據融合體系研究[J]. 中國圖書館學報,2020,46(6):41-54.
[6] 翟運開,路 薇,張瑞霞,等. 多維集成視角下精準醫療數據融合標準體系構建[J]. 中國衛生資源,2020,23(1):23-27.
[7] Mcculloch W S, Pitts W. A logical calculus of the ideas imma鄄nent in nervous activity[ J]. Bulletin of Mathematical Biophys鄄ics, 1990, 52(1-2):99-115.
[8] 黃衍標,羅廣岳,何銘金. BP 神經網絡在巡邏機器人多傳感器數據融合中的應用[ J]. 傳感技術學報,2016,29 (12):1936 -1940.
作者:于佳會 劉佳靜 鄭建明
相關閱讀