成品AV小说区在线观看_亚洲av午夜福利精品_久久精品久久91_中文字幕在线永久在线视频2018,亚洲日本本道a,亚洲六月丁香婷婷综合,亚洲色欲色欲WWW在线成人网

職稱論文咨詢網(wǎng),專業(yè)提供留學(xué)生論文、職稱發(fā)表論文等各類論文學(xué)術(shù)咨詢服務(wù)的論文網(wǎng)站。

當(dāng)前位置:首頁 > 論文百科

『教育理論』全文搜索引擎檢索幫助的改進(jìn)建議

來源:職稱論文咨詢網(wǎng)發(fā)布時間:2022-07-10 03:42:49

  摘 要:針對目前全文搜索引擎的檢索效率低,引擎提供的檢索幫助不夠完善的實際情況,結(jié)合并借鑒諸多檢索網(wǎng)站的優(yōu)點,提出了將檢索幫助置于顯見位置、普及和改進(jìn)高級檢索、在全文檢索中引入分類體系、對搜索引擎的信息來源網(wǎng)站進(jìn)行主題分類、增加同義詞的檢索幫助以及引導(dǎo)用戶參與設(shè)計檢索幫助等方面的改進(jìn)建議。

  作者簡介:冷玥(1990-),北京大學(xué)信息管理系學(xué)生。研究方向:信息管理與信息系統(tǒng)。 隨著以百度、google為代表的全文搜索引擎在人們生活中扮演愈加重要的角色,人們也提出了在使用全文搜索引擎進(jìn)行檢索過程中遇到的一些實際問題。其中,檢索效率低,需要全文搜索引擎提供更加有效的檢索幫助是一個突出的問題。

  全文搜索引擎是真正意義上的搜索引擎,全文搜索引擎的數(shù)據(jù)庫是通過一個叫“網(wǎng)絡(luò)機(jī)器人(英文為spider)”的軟件,將網(wǎng)絡(luò)上的各種鏈接自動獲取大量的網(wǎng)頁信息,并按一定的規(guī)則分析整理而形成的。全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”是一種網(wǎng)絡(luò)上的軟件,遍布web空間,能夠掃描到一定ip地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個網(wǎng)頁到另一個網(wǎng)頁,從一個網(wǎng)站再到另一個網(wǎng)站去收集網(wǎng)頁資料。全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人”為保證收集到的信息資源最新、最全,還會再回訪已抓取過的網(wǎng)頁。“網(wǎng)絡(luò)機(jī)器人”收集的網(wǎng)頁,還要由其他程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的計算建立起網(wǎng)頁索引,這樣才能添加到索引數(shù)據(jù)庫中。平時看到的全文搜索引擎,實際上只是一個搜索引擎系統(tǒng)的檢索界面,當(dāng)用戶輸入關(guān)鍵詞進(jìn)行搜索時,搜索引擎會從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定的排列規(guī)則返給用戶。

  綜上所述,全文搜索引擎的原理主要分為三個部分:首先是從internet上抓取網(wǎng)頁。利用“網(wǎng)絡(luò)機(jī)器人”系統(tǒng)程序從internet上自動收集網(wǎng)頁,自動訪問internet,并沿著任何網(wǎng)頁中所有的統(tǒng)一資源定位符爬到其他網(wǎng)頁,再經(jīng)過多次過程重復(fù),并把爬過的全部網(wǎng)頁收集起來;其次是建立索引數(shù)據(jù)庫。利用分析索引系統(tǒng)程序?qū)κ占饋淼木W(wǎng)頁內(nèi)容進(jìn)行分析,并提取有關(guān)的網(wǎng)頁信息,通過復(fù)雜大量的計算,算出每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度,再由這些相關(guān)的信息建立起網(wǎng)頁索引數(shù)據(jù)庫;最后是在索引數(shù)據(jù)庫中搜索排序。當(dāng)用戶輸入關(guān)鍵詞搜索后,利用搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找出符合所輸入關(guān)鍵詞的全部相關(guān)網(wǎng)頁。因為全部的相關(guān)網(wǎng)頁對所輸入關(guān)鍵詞的相關(guān)度已經(jīng)計算出來,并對結(jié)果進(jìn)行了優(yōu)化,然后再由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容、摘要等有關(guān)內(nèi)容呈現(xiàn)給用戶\[1-3\]。

  目前,全文搜索引擎得到了快速發(fā)展和廣泛應(yīng)用,其功能也越來越強(qiáng)大,但仍然存在著檢索效率不高的問題,雖然一些搜索引擎和一些具有檢索功能的網(wǎng)站設(shè)置了檢索幫助,但通過分析研究發(fā)現(xiàn),全文搜索引擎檢索幫助也有很多薄弱環(huán)節(jié),主要體現(xiàn)在受控較弱,很難從一個完整的分類體系的角度為用戶提供有價值的檢索幫助,也可以理解為很難將用戶的檢索范疇限制在想要檢索的信息存在的范圍內(nèi),用戶需要在返回的海量信息中尋找自己真正需要的信息。整個網(wǎng)絡(luò)就是一個超級大型的信息資源數(shù)據(jù)庫,而且無法用一個完整的分類體系對信息資源進(jìn)行分類、分區(qū),用戶依然需要經(jīng)過對信息資源內(nèi)容進(jìn)行篩選,如果用戶面臨的信息資源來自較大的范圍,就不得不花大量的時間在浩如煙海的大型信息資源數(shù)據(jù)庫中進(jìn)行信息的篩選。因此可以將思路鎖定于尋找一種可以縮小檢索范圍的檢索幫助之中,從對全文搜索引擎檢索幫助的分析研究中發(fā)現(xiàn),對其檢索幫助進(jìn)行改進(jìn)和完善是必要的和可行的\[4,5\]。

  經(jīng)分析研究,針對全文搜索引擎檢索幫助存在的薄弱環(huán)節(jié),結(jié)合并借鑒諸多檢索網(wǎng)站的優(yōu)點,建議從以下幾個方面對全文搜索引擎檢索幫助進(jìn)行改進(jìn)。

  在分析研究過程中發(fā)現(xiàn),幾家常用的全文搜索引擎的幫助選項都位于頁面的下方而且沒有用顯眼的標(biāo)志進(jìn)行標(biāo)記,用戶一旦遇到了問題,很難發(fā)現(xiàn)可以

  助于搜索引擎本身,而幫助中的內(nèi)容,比如說選擇檢索詞的原則,模糊檢索的可能性等等,他是和用戶的檢索工作息息相關(guān)、不可分割的。因此改進(jìn)檢索幫助應(yīng)該包括讓用戶可以很容易地獲得需要的幫助。目前,很多用戶在使用的過程中都不知道搜索引擎存在專門的檢索幫助鏈接,只能憑借經(jīng)驗進(jìn)行搜索,這是一個不應(yīng)該出現(xiàn)的現(xiàn)象,也應(yīng)該是檢索幫助的改進(jìn)方向。

  對于全文檢索來說,合理的限制越多,返回的信息量越少,需要進(jìn)行篩選的時間花費的越少,檢索效率提高的也就越多。但同時發(fā)現(xiàn),用戶很難全面地想出足夠多的限制詞來修飾自己想要檢索的信息資源,高級檢索的存在則是從信息資源的形式角度提出限制的可行方法。舉個例子來說,如果有用戶想檢索軍事坦克的內(nèi)容,若是單純輸入坦克,返回的內(nèi)容可能還包括玩具坦克的介紹,那么利用高級搜索,他就可以選擇過濾掉玩具坦克有關(guān)內(nèi)容的檢索結(jié)果,減輕自己篩選的負(fù)擔(dān)。同時,也可以對檢索幫助的功能進(jìn)行完善。比如說從更多的角度提供對檢索內(nèi)容進(jìn)行限制的條件。目前的檢索限制條件還是比較少的,尤其是無法啟發(fā)用戶從檢索詞表達(dá)的具體內(nèi)容上對檢索詞進(jìn)行改進(jìn)。

  從信息資源進(jìn)行分類的角度來看,建議使用預(yù)先編制的控制詞表來提供全文搜索引擎的檢索幫助。這是由于控制詞表一般根據(jù)資源的整體和使用需要來進(jìn)行設(shè)置,是根據(jù)檢索系統(tǒng)全局使用的需要建立的輔助方式,盡管在形式上與傳統(tǒng)的敘詞表相類似,傳統(tǒng)的敘詞表沒有控制詞表那樣苛刻。在檢索時,檢索系統(tǒng)先將用戶的檢索提問和控制詞表匹配,通過控制詞表中的同義詞控制來進(jìn)行檢索。該方法的優(yōu)點是能夠在一定程度上提供概念檢索,并利用相關(guān)檢索詞的優(yōu)化來選擇幫助,其缺點是該系統(tǒng)目前還沒有真正實現(xiàn)自動化。但同時可以看到,現(xiàn)在的分類網(wǎng)站采用的分類體系與傳統(tǒng)的分類法是不同的,更加適合于處理網(wǎng)絡(luò)信息資源。以前百度所作的檢索幫助改進(jìn)嘗試,更多的是想用傳統(tǒng)的辦法解決現(xiàn)在的問題,因此建議應(yīng)該基于現(xiàn)在流行的網(wǎng)絡(luò)分類法來整理全文搜索引擎搜集到的大量信息資源,也可以借鑒垂直搜索引擎的做法,先將用戶常用的信息資源集中的領(lǐng)域進(jìn)行重新的組織,對于表達(dá)同一主題的信息進(jìn)行集中,經(jīng)過處理后,使得用戶輸入的每一個關(guān)鍵詞都能對應(yīng)特定的結(jié)構(gòu)化的處理結(jié)果。如果真實現(xiàn)了這樣一個檢索幫助體系,用戶可以根據(jù)給定的分類,觀察自己選擇的檢索詞在整個分類體系中的位置,以及它的上位類、下位類所對應(yīng)和囊括的概念是否與自己的預(yù)期相同,以便從檢索詞實際表達(dá)的內(nèi)容角度調(diào)整檢索詞。如果返回結(jié)果偏多,可以從下位類中選擇相應(yīng)的合適詞進(jìn)行再次檢索,如果返回的結(jié)果偏少,沒有得到自己想要的信息,可以適當(dāng)選擇之前關(guān)鍵詞的上位類進(jìn)行檢索。 3.4 對搜索引擎信息的來源網(wǎng)站進(jìn)行分類

  如果用統(tǒng)一的分類體系對搜索引擎上的信息進(jìn)行分類存在困難,也可以考慮在規(guī)模較大的搜索引擎上對信息資源的來源網(wǎng)站進(jìn)行分類,分類的依據(jù)是網(wǎng)站的信息主題。比如說,起點網(wǎng)就是提供網(wǎng)絡(luò)小說相關(guān)信息的網(wǎng)站,智聯(lián)招聘網(wǎng)就是招聘信息的網(wǎng)站。這樣,用戶可以考慮直接在這些網(wǎng)站中進(jìn)行站內(nèi)搜索,避免了在搜索引擎中進(jìn)行猶如大海撈針般的信息檢索;同時,這種方式也可以看作從大的集合方面將搜索引擎的信息進(jìn)行分類。用戶在進(jìn)行信息檢索時,這種分類方法會幫助用戶劃定檢索范疇,提高檢索效率。

  現(xiàn)在的搜索引擎在同義詞控制方面還比較薄弱,如果不能從技術(shù)上實現(xiàn)同義詞之間返回結(jié)果的完全相同,可以從檢索幫助的角度,提供基于同義詞的相關(guān)檢索。比如說檢索“手機(jī)”和檢索“移動電話”返回的檢索結(jié)果是不同的,而在以“手機(jī)”或者“移動電話”作為檢索詞的檢索中,都沒有將其他表示這一概念的詞作為相關(guān)詞條提供給用戶。這種現(xiàn)象可能導(dǎo)致用戶獲得信息的不完全。如果在檢索幫助中加入必要的同義詞作為相關(guān)檢索詞條,很可能會為用戶提供有用的啟示。比如說,自己選擇的檢索詞是不是已經(jīng)不是表達(dá)這一概念的常用詞?是不是有更好、更專指的詞可以表達(dá)這一概念?基于同義詞的檢索幫助是用來彌補(bǔ)搜索引擎當(dāng)今設(shè)計中的缺陷,有助于提高用戶檢索的質(zhì)量,保證用戶檢索的效率。

  個性化搜索引擎概念的提出,將搜索引擎應(yīng)切合用戶需求的理念植入了引擎設(shè)計者的設(shè)計過程中。因此應(yīng)根據(jù)用戶的使用需要來設(shè)計引擎,但是用戶的需要千差萬別,很難用一個通用模式顧及到所有用戶的檢索需求。在設(shè)計檢索幫助的過程中,可以將有著相同檢索熱點的用戶歸為一類,為這一類用戶編制其經(jīng)常進(jìn)行檢索主題的分類檢索幫助或者類敘詞表檢索幫助,筆者認(rèn)為類敘詞表處理會更具健壯性和實用性,因為它可以同時提供主題和分類檢索,在進(jìn)行網(wǎng)絡(luò)檢索的時候,主題詞應(yīng)該比分類詞來的更加直接,但是分類主題詞表編制的難度也較大(范圍縮小,實用性增強(qiáng))。在此類檢索幫助的形式上,可以借鑒百度曾經(jīng)利用過的檢索幫助的形式,在檢索頁面的一側(cè)提供分類體系,也可以借鑒淘寶網(wǎng)的檢索幫助形式,即在檢索下拉列表框之下直接給出分類建議。

  可以模仿和的方式,由經(jīng)常檢索相同主題的用戶為這一主題提供檢索詞條甚至編排分類檢索幫助(實際應(yīng)用中,分類詞表的編制可以不嚴(yán)格,分類能有效描述檢索需求即可),也可以實行檢索詞條共享,用戶將自己檢索時用得比較有效率的詞條與網(wǎng)友共享,適當(dāng)?shù)臅r候替代現(xiàn)在廣泛使用的相關(guān)檢索。同時,由專業(yè)人員設(shè)計的檢索幫助可能無法覆蓋檢索的各個領(lǐng)域,由用戶參與檢索幫助的編制,一定程度上可以使得檢索幫助分領(lǐng)域深入下去,并能緊跟用戶新的需要進(jìn)行調(diào)整,滿足更多用戶的檢索需求。

  在用戶的反饋中,能體現(xiàn)出其對事物認(rèn)知的特點,也可根據(jù)這種特點進(jìn)行檢索幫助,按認(rèn)知類型將用戶分類,互相借鑒檢索詞條,實現(xiàn)互補(bǔ)。依據(jù)用戶的搜索記錄,針對用戶進(jìn)行二次甚至多次檢索的檢索方向,根據(jù)用戶的認(rèn)知特點。比如說有些人喜歡從總體上描述一個概念,而不善于將概念細(xì)化,而有些人恰好相反,只能將概念具體到一定程度,不會從大的方向上來把握檢索。將這樣的兩個小組結(jié)為互助小組,用戶可以分享檢索過程中的經(jīng)驗和教訓(xùn),彌補(bǔ)自身的不足。可以說,這種形式是檢索幫助由系統(tǒng)設(shè)定算法向人際交流的幫助形式進(jìn)行的過渡。畢竟人與人之間的交流更直接,希望這種方式也能成為一個檢索幫助可靠的改進(jìn)方向。

  從目前的全文搜索引擎檢索幫助的分析研究中發(fā)現(xiàn),檢索幫助確實能在幫助用戶提高檢索效率方面提供一定的幫助,但是還有提高的余地,尤其是全文搜索引擎在檢索的時候受控較弱,在檢索幫助中提供一定的受控方向是必要的。在此過程中,可以著重考慮如何才能協(xié)助用戶劃定一個合理的檢索范疇,很好地解決了這個問題,就能很好地為用戶提供必要的檢索幫助。在思索檢索幫助的改進(jìn)時,傳統(tǒng)的信息組織理論,包括分類法、主題法等在解決網(wǎng)絡(luò)信息資源組織的種種問題時依然是可以借鑒的。因此在以后的實踐中,還要重視傳統(tǒng)信息組織方法的利用,讓信息組織方法與時俱進(jìn),為人們提供更多的幫助,更多的思考,并在以后的實踐中不斷的加以完善。

  \[1\] 徐海燕,劉勇.搜索引擎的工作原理及發(fā)展趨勢\[j\].科技創(chuàng)新導(dǎo)報,2010(11):25.

  \[2\] 趙力.網(wǎng)站全文搜索引擎技術(shù)的初步研究及應(yīng)用\[j\].科技信息,2009(11):32-33.

  \[3\] 趙淑梅.全文搜索引擎技術(shù)\[j\].鄭州鐵路職業(yè)技術(shù)學(xué)院學(xué)報,2008(3):12-14.

  本文來源網(wǎng)絡(luò)由中國學(xué)術(shù)期刊網(wǎng)(www.qiangmiba.com)整理發(fā)布,本站轉(zhuǎn)載的內(nèi)容出于非商業(yè)性的教育和科研之目的,并不意味著贊同其觀點或證實其內(nèi)容的真實性。如涉及版權(quán)等問題,請與我們聯(lián)系,我們將立即進(jìn)行刪除處理。

相關(guān)閱讀
學(xué)術(shù)咨詢服務(wù)
?
主站蜘蛛池模板: 琼结县| 韩城市| 来宾市| 青龙| 商洛市| 浦北县| 宜春市| 个旧市| 垦利县| 马公市| 阿拉善左旗| 句容市| 辉县市| 海安县| 华蓥市| 嘉善县| 张家界市| 老河口市| 台东县| 公主岭市| 平远县| 宝鸡市| 文昌市| 贵阳市| 乐东| 大英县| 萨迦县| 华池县| 科技| 怀仁县| 赣榆县| 渭南市| 滁州市| 宝山区| 乐清市| 五常市| 威远县| 滦南县| 宝兴县| 兖州市| 余江县|