圖書檢索系統體系架構研究

圖書檢索系統可以歸納為索引子系統、檢索子系統、資源匹配子系統和資源子系統四大部分,每一個子系統在整個系統中都有着不可忽視的作用,各個子系統之間統籌合作完成圖書信息的檢索工作。 下面yjbys小編為大家準備了圖書檢索系統體系架構的文章,歡迎閲讀。

圖書檢索系統體系架構研究

  1 圖書信息檢索系統評價指標

信息檢索評價是對信息檢索系統性能(主要滿足用户信息需求的能力)進行評估的活動。通過評估可以評價不同技術的優劣,不同因素對系統的影響,從而促進本領域研究水平的不斷提高。信息檢索系統的目標是在較少消耗的情況下儘快、全面返回準確的結果。根據aster的闡述,判定一個檢索系統的優劣,主要從質量、費用和時間三方面來衡量。因此,對計算機信息檢索的效果評價也應該從這三個方面進行。本文主要研究信息檢索系統的質量標準,質量標準主要通過查全率與查準率進行評價。

查全率和查準率是判定檢索效果的主要標準,而後兩者相對來説要次要些。

查全率是指系統在進行某一檢索時,檢出的相關文獻量與系統文獻庫中相關文獻總量的比率,它反映該系統文獻庫中實有的相關文獻量在多大程度上被檢索出來。

查全率=[檢出相關文獻量/文獻庫內相關文獻總量]×100% (1)

查準率是指系統在進行某一檢索時,檢出的相關文獻量與檢出文獻總量的比率,它反映每次從該系統文獻庫中實際檢出的全部文獻中有多少是相關的。

查準率=[檢出相關文獻量/檢出文獻總量]×100% (2)

查全率與查準率是評價檢索效果的兩項重要指標。查全率和查準率與文獻的存儲與信息檢索兩個方面是直接相關的,也就是説,與系統的收錄範圍、索引語言、標引工作和檢索工作等有着非常密切的關係。

影響查全率的因素:從文獻存儲來看,主要有:文獻庫收錄文獻不全;索引詞彙缺乏控制和專指性;詞表結構不完整;詞間關係模糊或不正確;標引不詳;標引前後不一致;標引人員遺漏了原文的'重要概念或用詞不當等。此外,從情報檢索來看,主要有:檢索策略過於簡單;選詞和進行邏輯組配不當;檢索途徑和方法太少;檢索人員業務不熟練和缺乏耐心;檢索系統不具備截詞功能和反饋功能,檢索時不能全面地描述檢索要求等。

影響查準率的因素:主要有:索引詞不能準確描述文獻主題和檢索要求;組配規則不嚴密;選詞及詞間關係不正確;標引過於詳盡;組配錯誤;檢索時所用檢索詞(或檢索式)專指度不夠,檢索麪寬於檢索要求;檢索系統不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數量有限;截詞部位不當,檢索式中使用邏輯“或”不當等等。

  2 信息檢索系統體系架構

一個完整的圖書信息檢索系統應當包括圖書信息的預處理,圖書信息的入庫、用户檢索接口、資源匹配、資源排序等部分,本文主要就以下幾個部分進行闡述。

2.1 索引子系統

索引子系統主要完成的工作是對圖書信息的入庫工作,圖書館中信息資源具有完整的資源名,然而用户在搜索時是通過輸入關鍵字來發現類似的資源,因此需要對信息資源進行預處理。主要通過對信息資源名構建倒排索引,通過建立關鍵詞和信息資源名之間的鄰接矩陣,如此則完成信息資源和關鍵詞之間的關聯性,用户可以通過關鍵詞發現自身需要的相關聯文檔。

2.2 查詢子系統

查詢子系統主要提供給用户查詢接口,用户通過輸入檢索關鍵詞,查詢子系統需要對用户的檢索關鍵詞進行分析,可能用户輸入的關鍵詞並非規範的形式,可能還存在着錯誤信息,或者是以字母形式輸入,或者是以英文或者其它方式輸入,查詢子系統需要對輸入的檢索關鍵詞進行消歧工作。

2.3 資源匹配子系統

資源匹配子系統主要根據用户的檢索關鍵詞在圖書館數據庫資源中進行資源匹配,尋找和用户相關聯的資源,資源匹配的方式有很多種,諸如採用完全匹配方式(即用户輸入的關鍵詞和數據庫中資源完成匹配)、部分匹配方式(用户輸入的關鍵詞中部分信息和數據庫中信息匹配成功)、語義匹配方式(用户輸入的關鍵詞與數據庫中資源存在語義上的關聯性)。

2.4 資源排序子系統

資源排序子系統主要根據用户的檢索關鍵詞對匹配完成的資源信息進行排序,按照資源的重要性和用户檢索的相關聯程度進行梯度排序,排序的原則有多種方式,諸如餘弦相似度,向量相似度,Jaccard相似度,Dice相似度等多種方式,有些排序子系統根據現今流行的搜索引擎頁面排序算法進行改進,並將改進的排序算法移植於圖書信息檢索系統中。