摘要:當前的書籍信息資源自動檢索系統往往直接采用挖掘算法對信息進行檢索,對共現詞語的分析不足,因此在需要高查全率的檢索中,存在查準率不足的問題。因此文中提出基于讀者閱讀偏好的書籍信息資源自動檢索系統設計。硬件設計中設立異構多核的信息檢索硬件結構。在軟件設計中,首先根據我國中圖分類規則,建立起分類樹狀結構,同時利用MFP⁃Miner算法對讀者的閱讀偏好進行運算,對偏好以及中圖分類樹狀結構中出現的詞語共現情況進行概念擴展根據此來進行檢索。為了驗證設計的系統是否滿足設計初衷,使用所提系統及傳統檢索系統對某圖書館中的書籍信息進行檢索。實驗結果顯示,文中設計的書籍信息資源自動檢索系統的查準率在查全率提高的情況下,降低程度較低,滿足設計初衷。
關鍵詞:自動檢索;挖掘算法;閱讀偏好;詞語共現;分類樹狀結構;信息檢索;概念擴展
0引言
在圖書館信息化建設中,圖書信息的自動檢索可為讀者提供更接近需求的檢索結果,降低圖書閑置管理的成本[1⁃3]。而國外對數字化圖書館的研究始于20世紀末期,比較典型的圖書檢索系統有:Libra系統、BibTip系 統等[4⁃5]。但早期的圖書檢索系統在使用中需要幾個月的數據收集,同時存在冷啟動階段下推進內容偏差較大的問題。而國內的圖書館信息化起步較晚,隨著國外圖書推薦系統的應用,高校才開始逐步進行相關實驗,與發達國家的圖書推薦系統間存在差距[6⁃8]。
圖書館論文范例: 圖書館閱讀推廣的問題表現與優化對策
1基于讀者閱讀偏好的書籍信息資源自動檢索系統硬件設計
本文系統的硬件結構包含多個不同處理核,通過多個輔助核擴展,除了兩個處理核外,還有內存控制器、外設控制器等,同時使用總線連接。本文在輔助核上設置BIU用來與總線相連接,包括信息控制單元ICU,并與主核進行通信,從而讀取主核中的內容,控制ICU內部的直接內存存取模塊,進行輔助控制,并與本地存儲器LS直接進行數據交換。除了兩個處理核外,還包括進行連接主存的內存控制器,以及其他IP核。而在本文系統中其他硬件構成沿用文獻[2]中系統硬件。
2基于讀者閱讀偏好的數據信息資源自動檢索系統軟件設計
2.1書籍特征分類及相似度計算
我國的圖書館分類法(中圖分類法)是目前較為常用的圖書分類法,其將數據分為5個基本類以及22個小類[9⁃11]。本文對數據的特征分類沿用中圖分類法的分類框架,將分類法中每個子類,作為一個分類指向根節點,分類節點不斷延伸,同時節點間的關聯性逐漸下降。首先對兩個節點間的公共祖先深度進行計算,而對結構匯總根節點的深度參數設置為0,同時依照下面方法對節點相似度進行計算,即:SIM(U,V)=DEPTH(LCA(U,V))MAX_DEPTH(1)式中:U,V代表在樹狀結構中的兩個任意節點;LCA(U,V)代表U,V下最近的祖先節點;DEPTH函數代表節點深度計算函數;MAX_DEPTH為節點樹中的深度最大值,并以常數的形式體現。
2.2MFP⁃Miner算法挖掘讀者閱讀偏好
MFP⁃Miner算法在挖掘中不需要產生最大頻率的候選項目集,同時善于發現最大頻繁項目集中的FP⁃Tree,不需再掃描事務數據庫[12⁃13]。在算法的實現中,需要4個步驟:
1)需要確定最大頻率項目集集合,設項目集X⊂I,如果support(X)≥minsup,而對于X下的任意超集Y,均需滿足support(Y)
首先,為節點的項目名,即node⁃name;到達節點子路徑數為node⁃count;父節點為node⁃parent;同名節點為node⁃link。在進行運算時,頻繁模式樹的父節點不存在的情況下,數值為null,而當同名節點不存在時,數值也可設置為null。在頻繁模式樹中,創建一個頻繁項目頭表,頭表中的元素需要包括兩個域,分別為存放頻繁項目的域item⁃name,以及指向頻率項目同名的節點鏈和第一個節點下的item⁃link。
3)構造FP⁃Tree。根據上述建立的頻繁模式樹的概念,構造起FP⁃Tree。4)根據系統中需要的條件模式構造期條件頻率模式樹,對于項目頭表HTable中任意一個存在的項目(設為ai),將其所對應的item⁃head域指向其中同名節點鏈下的第一個節點,且在任意節點的同名節點鏈中節點名稱均與ai相同,而取出的所有前綴路徑構成了項目ai的條件模式基,另外也作為ai下的條件頻率模式樹。
3實驗論證分析
本文設計實驗來驗證設計的信息資源自動檢索系統的可行性。在此使用本文設計的系統以及文獻[2]、文獻[3]、文獻[4]中的自動檢索系統來對某圖書館的書籍信息資源進行自動檢索,判斷系統的可行性。
本文中,系統開發工具選用MicrosrftVisualStudio2008,系統開發環境為ASP.Net(.NetFramework3.5),IIS;語言腳本為C#,HTML,JavaScript,CSS,AJAX5;運行環境為Microsoft.NetFranmeworkSDK3.5,IIS;后臺數據庫為SQLServer2008,瀏覽器支持為IE6以上。而為了保證系統的運行,使用XilinxVirtex4ML403開發板中Powerpc405硬核作為系統的主處理器核。為了保證系統可以兼容32為的指令,在輔助核選擇上采用32位的RISCSPE指令集,同時在ML403的開發板下,遵循64KBBlockRAM的特點。
系統1為本文設計的信息資源自動檢索系統,系統2為文獻[2]中的自動檢索系統、系統3為文獻[3]中的自動檢索系統、系統四為文獻[4]中的自動檢索系統。在查全率不斷增加的情況下,系統檢索的查準率不斷降低,本文系統在查全率相同時,查準率均高于其他檢索系統。使用了MFP⁃Miner算法的本文系統在對讀者喜好書籍的檢索實驗中表現突出,而系統4查準率過低,并不具備對讀者喜好書籍類型的檢索能力。下面根據不同種類書籍,對其近似種類或關聯內容書籍進行檢索。
4結語
本文針對讀者的閱讀偏好設計了書籍信息的資源自動檢索系統。從實驗中可以發現本文設計的書籍信息資源自動檢索系統的查準率較高,具有可行性。但在系統的結構中,只實現異構雙核的系統結構,僅能添加一個輔助核,尚不具備多輔助核和聯合系統的拓展。為了使以后書籍信息資源自動檢索系統更加完善,將會向著對多核系統的方向進行深入研究。
參考文獻
[1]陳斯斯,郭繼軍,楊穎.嵌套自動檢索系統的微信小程序查收查引服務[J].中華醫學圖書情報雜志,2019,28(11):65⁃69.
[2]李曙軍,張宏杰,王海棠,等.基于場景理論的STAC課程數據庫自動檢索系統[J].吉林大學學報(信息科學版),2019,37(4):457⁃462.
[3]林建.圖書館自動查收查引系統功能分析2:以CALIS和NoteFirst檢索功能為例[J].蘭臺內外,2019(20):42⁃44.
[4]王立銘,許婷珊,張玲,等.基于自主研發拉曼光譜儀的危化品標準拉曼譜圖庫及自動檢索系統的建立[J].警察技術,2019(2):78⁃80.
[5]張越,楊沐昀,鄭德權,等,等.面向問答系統的信息檢索自動評價方法[J].智能計算機與應用,2019,9(2):262⁃268.
作者:朱湘君,何興杰
相關閱讀