亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文件檢索系統(tǒng)的制作方法

文檔序號(hào):6361687閱讀:189來(lái)源:國(guó)知局
專利名稱:一種文件檢索系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)軟件,特別是一種文件檢索系統(tǒng)。
背景技術(shù)
在互聯(lián)網(wǎng)或某個(gè)資料庫(kù)進(jìn)行檢索以尋找與參照內(nèi)容相關(guān)的目標(biāo)文件時(shí),由于文件資料以一定的數(shù)據(jù)格式存在,比如word、pdf等,不利于互聯(lián)網(wǎng)和資料庫(kù)檢索系統(tǒng)的快速檢索,通常檢索系統(tǒng)只能對(duì)文件資料的摘要進(jìn)行檢索,而不能對(duì)文件資料的內(nèi)容進(jìn)行全文檢索,這樣影響了檢索范圍的全面性和檢索結(jié)果的準(zhǔn)確性,而且由于檢索時(shí)檢索詞選擇不當(dāng)、不準(zhǔn)或不全面,都會(huì)造成檢索結(jié)果片面、偏差、不準(zhǔn)確;即使在檢索到相關(guān)目標(biāo)文件后,如何快速、高效的擷取其中的有效信息內(nèi)容直接瀏覽,提高瀏覽效率,目前的文件檢索系統(tǒng)未能達(dá)到這些目的。

發(fā)明內(nèi)容
發(fā)明目的針對(duì)上述問(wèn)題,本發(fā)明的目的是提供一種全面、快速的文件檢索系統(tǒng),拓寬檢索的文件范圍,克服人為主觀因素的檢索偏差,提高檢索的準(zhǔn)確性、全面性和瀏覽效率。技術(shù)方案一種文件檢索系統(tǒng),該系統(tǒng)中劃分文件領(lǐng)域,各文件領(lǐng)域具有其領(lǐng)域名詞集,由參照文件選取的初步檢索詞在該系統(tǒng)中映射出具有所述初步檢索詞的相關(guān)文件領(lǐng)域,以所述相關(guān)文件領(lǐng)域的各領(lǐng)域名詞集形成對(duì)比詞庫(kù),所述對(duì)比詞庫(kù)與所述參照文件全文匹配,從所述對(duì)比詞庫(kù)中確定出新檢索詞以檢索出與所述參照文件相關(guān)的目標(biāo)文件。所述新檢索詞按照所述對(duì)比詞庫(kù)中的每個(gè)領(lǐng)域名詞在所述參照文件中的出現(xiàn)頻率確定。對(duì)于對(duì)比詞庫(kù)中的領(lǐng)域名詞在與參照文件全文匹配時(shí),通常在參照文件中出現(xiàn)頻率越聞,與參照文件的關(guān)聯(lián)度就越聞,因此由此確定出新檢索詞,一方面能夠提聞對(duì)目標(biāo)文件檢索的準(zhǔn)確性,另一方面能夠避免由于初步檢索詞的選取片面而造成的檢索范圍的縮小。在全文匹配檢索時(shí),通常希望得到某個(gè)文件中與檢索詞關(guān)聯(lián)密切的段落,這樣的段落往往是整個(gè)文件的重要信息所在,根據(jù)檢索詞在全文中的出現(xiàn)頻率和分布密集度,確定重點(diǎn)段落,可以快速擷取重要部分,減少不必要的信息瀏覽,提高瀏覽效率。所述重點(diǎn)段落以快照形式與其對(duì)應(yīng)的檢索詞建立索引關(guān)系,可以快速預(yù)覽,而不需要通過(guò)該重點(diǎn)段落所在文件原來(lái)的形式或其他形式查看,無(wú)需對(duì)全文查看。有益效果本發(fā)明的優(yōu)點(diǎn)是通過(guò)確定準(zhǔn)確、全面的檢索詞,全文、快速進(jìn)行文件檢索,以擴(kuò)大檢索范圍、得到準(zhǔn)確性高的目標(biāo)文件,同時(shí)提高瀏覽效率。
具體實(shí)施方式

下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說(shuō)明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià)形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。本發(fā)明一種文件檢索系統(tǒng),對(duì)文件劃分文件領(lǐng)域{Va,Vb,Vc,…},每個(gè)文件領(lǐng)域根據(jù)其相應(yīng)的名稱和術(shù)語(yǔ)形成領(lǐng)域名詞集{Val, Va2,Va3,…,Vax}、{Vbl,Vb2,Vb3,…,Vbx}、{Vcl,Vc2,Vc3,…,Vex}、…,該領(lǐng)域名詞集可以是人為定義的,也可以是應(yīng)用系統(tǒng)根據(jù)用戶長(zhǎng)期使用不斷更新定義的。用戶實(shí)際應(yīng)用本發(fā)明文件檢索系統(tǒng)檢索時(shí),首先提供初步檢索詞{Ukl,Uk2,Uk3,…},該初步檢索詞通常是用戶依據(jù)已有的參照文件選取的,希望通過(guò)這些初步檢索詞檢索到與參照文件相關(guān)的目標(biāo)文件。以初步檢索詞在本發(fā)明文件檢索系統(tǒng)中映射出具有這些初步檢索詞的相關(guān)文件領(lǐng)域如iVx,Vy,…},以相關(guān)文件領(lǐng)域各自的領(lǐng)域名詞集{Vxl,Vx2, Vx3,…,Vxx}、{Vyl, Vy2, Vy3,…,Vyx}、...,形成對(duì)比詞庫(kù){Vxl, Vx2, Vx3, ---,Vxx,Vyl, Vy2, Vy3, ···, Vyx,…},將對(duì)比詞庫(kù)與用戶選取初步檢索詞依據(jù)的參照文件全文匹配,以對(duì)比詞庫(kù)中的每個(gè)領(lǐng)域名詞在參照文件中的出現(xiàn)頻率高低確定出與參照文件關(guān)聯(lián)的新檢索詞如{Vx2,Vxx,Vyl,Vy3,Vyx,…},最后以新檢索詞再次檢索,得到具有這些新檢索詞的文件,即為用戶所需的與參照文件相關(guān)的目標(biāo)文件。在全文匹配檢索時(shí),通常希望得到某個(gè)文件中與檢索詞關(guān)聯(lián)密切的段落,這樣的段落往往是整個(gè)文件的重要信息所在。例如通過(guò)檢索詞lUml,Um2, Um3, Um4, Um5}檢索文件,本發(fā)明文件檢索系統(tǒng)以檢索詞{Uml,Um2, Um3, Um4, Um5}對(duì)某篇文件全文檢索,統(tǒng)計(jì)每個(gè)檢索詞在該篇文件的出現(xiàn)頻率段落I IUml = 2, Um2 = 3, Um3 = O, Um4 = 5, Um5 = 6}、段落 2 {Uml = 0, Um2 = I, Um3 = 0, Um4 = 0, Um5 = 0}、段落 3 {Uml = I, Um2 = 2, Um3 =0,Um4 = 3,Um5 = 0}、…,通過(guò)對(duì)檢索詞在段落中的出現(xiàn)頻率加權(quán)統(tǒng)計(jì)獲得分布密集度段落I = 16、段落2 = I、段落3 = 6、···,根據(jù)檢索詞在全文的出現(xiàn)頻率和分布密集度確定段落I和段落3為重點(diǎn)段落,而段落2為非重點(diǎn)段落,將段落I和段落2的內(nèi)容轉(zhuǎn)換為易于瀏覽的格式,比如html、tif等,將重點(diǎn)段落與對(duì)應(yīng)的檢索詞建立索引關(guān)系,為用戶直接瀏覽。權(quán)利要求
1.ー種文件檢索系統(tǒng),其特征在于該系統(tǒng)中劃分文件領(lǐng)域,各文件領(lǐng)域具有其領(lǐng)域名詞集,由參照文件選取的初歩檢索詞在該系統(tǒng)中映射出具有所述初步檢索詞的相關(guān)文件領(lǐng)域,以所述相關(guān)文件領(lǐng)域的各領(lǐng)域名詞集形成對(duì)比詞庫(kù),所述對(duì)比詞庫(kù)與所述參照文件全文匹配,從所述對(duì)比詞庫(kù)中確定出新檢索詞以檢索出與所述參照文件相關(guān)的目標(biāo)文件。
2.根據(jù)權(quán)利要求I所述的ー種文件檢索系統(tǒng),其特征在于所述新檢索詞按照所述對(duì)比詞庫(kù)中的每個(gè)領(lǐng)域名詞在所述參照文件中的出現(xiàn)頻率確定。
3.根據(jù)權(quán)利要求I所述的ー種文件檢索系統(tǒng),其特征在于在全文匹配檢索時(shí),根據(jù)檢索詞在全文中的出現(xiàn)頻率和分布密集度,確定重點(diǎn)段落。
4.根據(jù)權(quán)利要求3所述的ー種文件檢索系統(tǒng),其特征在于所述重點(diǎn)段落以快照形式與其對(duì)應(yīng)的檢索詞建立索引關(guān)系。
全文摘要
本發(fā)明公開了一種文件檢索系統(tǒng),該系統(tǒng)中劃分文件領(lǐng)域,各文件領(lǐng)域具有其領(lǐng)域名詞集,由參照文件選取的初步檢索詞在該系統(tǒng)中映射出具有所述初步檢索詞的相關(guān)文件領(lǐng)域,以所述相關(guān)文件領(lǐng)域的各領(lǐng)域名詞集形成對(duì)比詞庫(kù),所述對(duì)比詞庫(kù)與所述參照文件全文匹配,從所述對(duì)比詞庫(kù)中確定出新檢索詞以檢索出與所述參照文件相關(guān)的目標(biāo)文件。本發(fā)明的優(yōu)點(diǎn)是通過(guò)確定準(zhǔn)確、全面的檢索詞,全文、快速進(jìn)行文件檢索,以擴(kuò)大檢索范圍、得到準(zhǔn)確性高的目標(biāo)文件,同時(shí)提高瀏覽效率。
文檔編號(hào)G06F17/30GK102662982SQ201210065538
公開日2012年9月12日 申請(qǐng)日期2012年3月14日 優(yōu)先權(quán)日2012年3月14日
發(fā)明者盧苗輝, 彭彥, 胡鐘山 申請(qǐng)人:鎮(zhèn)江暢遠(yuǎn)信息科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1