專利名稱:文件分類查找方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索技術(shù),主要針對的是文件查詢。
背景技術(shù):
目前的文件查詢技術(shù)很大程度上模仿了網(wǎng)頁查詢技術(shù),但文件查詢與網(wǎng)頁查詢存在本質(zhì)上的區(qū)別。網(wǎng)頁查詢可以分析網(wǎng)頁的內(nèi)容,而文件查詢不太可能把每個遠(yuǎn)程文件下載到本地進(jìn)行內(nèi)容分析;即使可以下載到本地,由于文件格式的多樣性,對于非文檔文件也難于分析其中的內(nèi)容。唯一可以用于文件查詢的數(shù)據(jù)是文件的文件名和文件屬性,因此目前包括Ftp搜索引擎以及Windows文件查找的文件查詢系統(tǒng)都僅僅實現(xiàn)了針對文件名的查詢和文件屬性的過濾。但是這種面向文件名的查詢方式不能提供面向特定主題的搜索,不能挖掘文件名無法表示文件內(nèi)容的文件,而且對用戶在了解查詢目標(biāo)方面要求過多。要解決這些問題,某些專用的搜索引擎提供了一些解決方案。比如Napster網(wǎng)站音樂MP3文件搜索引擎分析每個MP3文件的作者和標(biāo)題等信息,據(jù)此進(jìn)行分類并提供對內(nèi)容的查詢。但是這種技術(shù)必須讀取(或下載)每個文件以分析其中的內(nèi)容,同時系統(tǒng)必須對所有查詢需要支持的文件類型提供單獨(dú)的數(shù)據(jù)處理過程。因此這種方法的代價極其高昂,而且下載所有文件并進(jìn)行分析使得整個數(shù)據(jù)搜集過程十分漫長,影響了查詢效果,同時這種方法可以處理的文件類型也十分有限。
發(fā)明內(nèi)容
為此我們提供了一種解決方案,目的是在不打開文件分析文件內(nèi)容的前提下實現(xiàn)文件的分類和對內(nèi)容的查詢,并使得查詢系統(tǒng)簡單化。這種查詢技術(shù)是對已經(jīng)成形的文件查詢系統(tǒng)的補(bǔ)充,目的是利用分類功能來提高文件查詢的查全率與查準(zhǔn)率,彌補(bǔ)傳統(tǒng)文件查詢技術(shù)的缺陷,實現(xiàn)面向主題、面向內(nèi)容的查詢,挖掘普通查詢系統(tǒng)里的隱藏數(shù)據(jù),提出文件查詢新的應(yīng)用方式。
本發(fā)明的內(nèi)容與技術(shù)方案如下本發(fā)明的文件查找方法包括基于文件擴(kuò)展名、目錄和查詢頻率的三種文件分類查詢方法。它們一起加以組合構(gòu)成了完整的基于分類的文件查找技術(shù)。
1、基于文件名的文件格式分類查詢?yōu)榱朔治鲇脩粲糜诓樵兊钠ヅ渥址念愋头植迹覀兘y(tǒng)計了FTP搜索引擎的84萬次的用戶輸入的匹配串,得到查詢匹配串類型分布1。圖中I表示單關(guān)鍵字類型比例,II表示僅僅擴(kuò)展名類型比例,III表示全文件名類型比例。由圖1可見,大部分的用戶查詢時都是僅僅輸入一個關(guān)鍵字,而無法提供具體的擴(kuò)展名。對于普通用戶而言,擴(kuò)展名是一個比較難理解的東西,例如電影文件,可能的擴(kuò)展名為“.rm”、“.mpeg”、“.dat”等等,為了查找電影而要求用戶提供擴(kuò)展名會使得普通用戶對查詢系統(tǒng)望而卻步。但是,用戶不提供擴(kuò)展名而在整個數(shù)據(jù)庫里查詢就有很多不符合用戶需要的查詢結(jié)果,比如查詢某個程序的下載地址確得到了該程序的源代碼下載地址,從而使得查準(zhǔn)率不高。因而普通用戶查詢文件的時候可能需要的是某種類型的文件,而不是特定擴(kuò)展名的文件,例如用戶可能希望查詢到音樂文件,但并沒有限定是“.mp3”文件還是“.au”文件。即使用戶知道擴(kuò)展名的情況下,為了查到一首歌的所有的下載地址,必須為這首歌指定多個擴(kuò)展名,否則就可能漏掉許多的下載地址,而這往往很麻煩,實現(xiàn)上也不容易。
為了解決記憶擴(kuò)展名對普通用戶的負(fù)擔(dān)以及實現(xiàn)在一個大類別里的文件查詢,可以將所有文件分為幾種簡單的文件格式類型,用戶查詢時只需指定他需要的文件格式類型而不用指定具體的擴(kuò)展名就可查詢。文件格式類型按常識可以分為圖像、聲音、視頻、壓縮、文檔、程序、源代碼、目錄和“其他”等等幾大類別。查詢系統(tǒng)給每個文件格式類別編號,并定義大量屬于這個類別的“著名的擴(kuò)展名”。因為文件格式的區(qū)別在于文件的擴(kuò)展名,查詢系統(tǒng)不可能打開每個文件來檢測它的實際上的文件格式,所以使用“著名的擴(kuò)展名”作為文件格式分類的標(biāo)準(zhǔn)。“著名的擴(kuò)展名”來源于大眾對該擴(kuò)展名屬于什么類型文件的普遍承認(rèn),比如“.doc”、“.ppt”、“.txt”、“.pdf”應(yīng)當(dāng)屬于文檔類型的文件。如果某個文件使用了“.doc”作為擴(kuò)展名,但它的文件格式不是普遍承認(rèn)的“.doc”格式的,這種情況在系統(tǒng)里是不予考慮的。對于一種擴(kuò)展名屬于多種類別的情況,取其最常見的類別。當(dāng)查詢系統(tǒng)獲得一個文件條目時,利用其擴(kuò)展名得到它對應(yīng)的文件格式類別,保存在文件條目的屬性中。當(dāng)用戶查詢指定文件格式類型的文件時,就可以用用戶選定的類型編號與文件屬性里的類型編號作比較,從文件名匹配得到結(jié)果中過濾出文件名匹配同時又是指定文件格式類型的查詢結(jié)果。按文件格式分類示意圖如圖2,圖中I表示按文件格式分類前的部分文件,II表示按文件格式分類后分成的三類文件;音樂、視頻和文檔。
基于文件擴(kuò)展名的文件格式分類查詢方法就是利用文件名的擴(kuò)展名作為文件分類的標(biāo)準(zhǔn),將文件分成各種不同的格式類型,每種格式類型對應(yīng)若干擴(kuò)展名。其中文件格式類型包括文檔、視頻、音頻、圖像、程序、源代碼、目錄等類型。對于某擴(kuò)展名所對應(yīng)文件類型的采用普遍理解的類型;對于一種擴(kuò)展名屬于多種類別的情況,取其最常見的類別。當(dāng)查詢系統(tǒng)獲得一個文件條目時,利用其擴(kuò)展名得到它對應(yīng)的文件格式類別,保存在文件條目的屬性中;當(dāng)用戶查詢指定文件格式類型的文件時,用用戶選定的類型編號與文件條目屬性里的類型編號作比較;從文件名匹配得到的結(jié)果中過濾出文件名匹配同時指定文件格式類型也匹配的查詢結(jié)果。
2、基于目錄的文件內(nèi)容分類查詢在針對文件名的查詢系統(tǒng)里,由于不太可能讀取(或下載)每個文件以分析它的文件內(nèi)容,所有對文件內(nèi)容的分析只能依靠文件名。雖然一般的文件名都能夠體現(xiàn)文件的內(nèi)容,但我們發(fā)現(xiàn)很多多媒體文件(指視頻、音頻和圖像文件)的文件名都不能體現(xiàn)它的文件內(nèi)容。對于視頻文件,經(jīng)常出現(xiàn)的情況是文件名是a.rm、b.rm而不是具體的“電影名.rm”。對于音頻文件,一方面可能文件以歌名為文件名而不包含歌手的名字,但對于用戶查詢而言可能兩個都是需要的,因為查詢一個歌手的所有歌是很常見的查詢行為;另一方面與電影文件名類似,就是CD盤改錄的音頻可能使用track0.mp3 track1.mp3等等名字,而這個名字根本無法確定音樂的內(nèi)容。對于圖像文件,常常出現(xiàn)的情況是以數(shù)字命名圖像文件,例如1.jPg,、2.jpg等等,這是因為圖象常常是以一個系列圖象的形式出現(xiàn),給眾多類似的圖象都給予一個有獨(dú)立意義的名字是十分麻煩的事情。我們對8,642,123個多媒體文件的文件名進(jìn)行分析,得到多媒體文件名特性表表1。由表1可見,多媒體文件的這種文件名特性已經(jīng)妨礙了正常的多媒體文件查詢。
表1
要解決文件名無法體現(xiàn)文件內(nèi)容的問題,首先看一看文件系統(tǒng)目錄的作用。大部分操作系統(tǒng)之所以采用樹型的目錄結(jié)構(gòu)是因為樹型目錄可以實現(xiàn)強(qiáng)大的分類能力,每個目錄的目錄名體現(xiàn)了這個目錄下文件和子目錄的內(nèi)容或者相關(guān)屬性。尤其在包含具有上述情況的多媒體文件的目錄中,其目錄名一般就體現(xiàn)了這個目錄中多媒體文件的文件內(nèi)容。即使多媒體文件的上一層目錄一般能夠體現(xiàn)這些文件的內(nèi)容,但是,當(dāng)用戶查詢關(guān)鍵字時,他所得到的結(jié)果可能很多是目錄名,而用戶必須一個目錄一個目錄進(jìn)去查看才知道里面的文件是否確實是用戶所需。這個緩慢的操作就抵消了搜索引擎的快速查詢能力。如何使得用戶不需進(jìn)入每個目錄就可以確定里面是否確實是他所需的文件呢?解決這個問題的辦法是把多媒體文件所在目錄的目錄名與文件名一起去匹配查詢串,這樣上述問題就可以輕易解決。利用上面的文件格式分類產(chǎn)生的文件格式類型編號,將具有音頻、視頻和圖像類型的文件條目的文件名與其可能存在的上一層目錄的目錄名合并當(dāng)作一個整體,查詢系統(tǒng)在無論建立索引、用戶查詢以及結(jié)果顯示時都將它作為一個整體使用,當(dāng)然最后輸出下載鏈接的時候也必須保證鏈接的正確性。使用文件格式和文件內(nèi)容分類示意圖如圖3所示。圖中I表示按文件格式與文件內(nèi)容分類前ftp文件列表,II表示分類后文件列表,其中視頻、音頻文件其文件名與其上一層目錄已經(jīng)合并,而文件路徑作為文件屬性另外存儲。
基于目錄的文件內(nèi)容分類查詢是在查詢時將文件的文件名和其上一層目錄合并作為一個整體用于查詢,命中結(jié)果或是文件名命中了匹配串,或是其上一層目錄名命中了匹配串。這種文件查詢方法用于多媒體文件的查詢,包括音頻、視頻和圖像等多媒體文件類型;當(dāng)用戶查找這類多媒體文件時,采用基于目錄的文件內(nèi)容分類查詢,將文件所在目錄的目錄名與文件名一起去匹配查詢串。其中計算機(jī)查詢時將文件的文件名和其上一層目錄合并作為一個整體用于查詢,查詢系統(tǒng)在建立索引、結(jié)果顯示時都將文件名和其上一層目錄作為一個整體進(jìn)行。
3、基于查詢頻率的文件分類查詢對于沒有搜索常識的初級用戶,他們經(jīng)常使用糟糕的無法返回所需信息的搜索請求,但是他們占了網(wǎng)民的絕大多數(shù),這種情況永遠(yuǎn)不會改變。經(jīng)過對用戶查詢的日志分析,可以得到的結(jié)論是大部分用戶都是我不能表達(dá)我想要找什么,但是當(dāng)我看到它時我就會知道我找的就是它。搜索引擎如果只提供一個輸入框和一大堆復(fù)雜的表單對于普通用戶而言可能會不知所措。由于FTP搜索引擎具有一個特性就是用戶搜索的關(guān)鍵詞范圍比較有限,在我們統(tǒng)計的9萬多個查詢中,只有5000多個查詢是互不相同的。如果把比較流行的查詢做成快捷方式,用戶一點(diǎn)擊就可以得到該軟件的查詢結(jié)果,則用戶到搜索引擎要做的就不再是指明自己要什么,而是搜索引擎告訴用戶可以要什么。
定義快捷方式指用一個名字來標(biāo)志一個查詢對應(yīng)的URL鏈接。當(dāng)搜索引擎具有了文件格式分類功能和文件內(nèi)容分類之后,建立查詢的快捷方式系統(tǒng)就可行了。這是因為在快捷方式里,充分利用文件格式分類能力和文件內(nèi)容分類能力,快捷方式的查詢結(jié)果可以十分準(zhǔn)確而全面。
當(dāng)快捷方式增多的時候,如果所有快捷方式全部提供給用戶會使得找到一個快捷方式十分麻煩,因而必須對快捷方式進(jìn)行分類。制定一個兩級的查詢分類類別是比較恰當(dāng)?shù)?,第一級分類與文件格式分類的類別相似,例如電影、音樂、程序、文檔等;第二級分類為該類別內(nèi)的按內(nèi)容的分類,比如電影下有動作、愛情類型等,程序下有系統(tǒng)、壓縮、游戲等。建立起這個兩級的快捷方式系統(tǒng)后,由用戶和管理員在每個類別里添加查詢頻率比較高的查詢作為快捷方式。利用CGI程序記錄每個快捷方式的點(diǎn)擊次數(shù),在顯示一個類別的所有快捷方式條目時按點(diǎn)擊數(shù)降序輸出,則用戶可以知道當(dāng)前這個類別的軟件排行。將部分類別下的快捷方式默認(rèn)為一個特定的文件格式,比如電影類別的快捷方式默認(rèn)為視頻文件格式類型,這樣就可以自動的將快捷方式與文件分類功能結(jié)合,確保快捷方式的精確性??旖莘绞较到y(tǒng)邏輯示意圖如圖4。圖中1表示顯示快捷方式分類列表,2表示顯示一個類別內(nèi)的快捷方式,3表示按快捷方式對應(yīng)的查詢URL進(jìn)行查詢,4表示用戶登記注冊新的快捷方式,5表示管理員過濾用戶登記的快捷方式,6表示管理員管理已經(jīng)存在的快捷方式,7為快捷方式數(shù)據(jù)庫。
基于查詢頻率的文件分類查詢中,將常用的查詢URL進(jìn)行兩級分類,第一級分類為文件格式分類,第二級分類為該類別內(nèi)的按內(nèi)容的分類。同時可以利用程序記錄每個快捷方式的點(diǎn)擊次數(shù),在顯示一個類別的所有快捷方式條目時按點(diǎn)擊數(shù)排序輸出,由此同時提供了該類別的查詢排行。
以上3種方法中,第二種基于目錄的文件內(nèi)容分類查詢可以單獨(dú)或者與其他兩種方法組合使用,用于多媒體文件的查找即可以根據(jù)基于目錄的文件內(nèi)容分類進(jìn)行查詢;當(dāng)用戶指定查找多媒體類型文件時,由查詢系統(tǒng)查詢文件名或者文件所在上層目錄名匹配查詢關(guān)鍵字的文件。
另外兩種查詢方法基于文件名的文件格式分類查詢以及基于查詢頻率的文件分類查詢可以組合使用用戶可以根據(jù)基于文件擴(kuò)展名的文件格式分類,輸入文件名關(guān)鍵字以及文件格式兩項查詢要求,由查詢系統(tǒng)匹配輸出符合這兩項要求的文件;并且可以根據(jù)基于查詢頻率的查詢分類方法,根據(jù)查詢系統(tǒng)在各類別中所提供的按照查詢頻率排列的經(jīng)常查找的文件列表,選擇所需要的文件。
說明書
圖1查詢匹配串的類型分布2基于文件名的文件格式分類示意3使用文件格式和文件內(nèi)容分類示意4基于查詢頻率的文件分類查詢示意5基于文件名的文件格式分類查詢范例圖6按文件內(nèi)容分類查詢范例圖7快捷方式兩級分類頁面圖8圖7特定類別里的快捷方式實施例下面結(jié)合實施例進(jìn)行進(jìn)一步地說明。
北京大學(xué)計算機(jī)科學(xué)技術(shù)系網(wǎng)絡(luò)與分布系統(tǒng)領(lǐng)域從1999年開始“天網(wǎng)”FTP搜索引擎的項目。目前北大“天網(wǎng)”FTP搜索引擎已經(jīng)是一個搜集了全國3000多個站點(diǎn)、有一千三百萬FTP文件條目數(shù)據(jù)、使用了基于文件名、目錄和查詢頻率的文件分類查找技術(shù)的強(qiáng)大的FTP搜索引擎。目前平均查詢費(fèi)時在200毫秒左右,每日查詢次數(shù)達(dá)到10萬左右,且這個數(shù)字正在不斷上升。
1.基于文件名的文件格式分類查詢效果圖在圖5的查詢中,用戶僅僅輸入了關(guān)鍵字“魯迅”,并選擇了在文檔類型內(nèi)查詢,查詢結(jié)果返回了文件名中包含“魯迅”的各種格式文檔(.txt和.doc以及.htm)。即用戶無需指定特定的擴(kuò)展名就可以在特定類型內(nèi)查詢得到他所要的結(jié)果。如果用戶沒有指定類型,則查詢結(jié)果可能很多都不是用戶所需要,用戶必須翻頁查看才能找到特定類型的文件,查準(zhǔn)率也就不高。在上例里,用戶往往并不關(guān)心文件究竟是.txt格式還是.doc格式,如果依賴用戶提供擴(kuò)展名,可能就無法包含所有的同類內(nèi)容的文件。
2.基于目錄的文件內(nèi)容分類查詢在圖6的查詢中,用戶輸入關(guān)鍵字“東京愛情故事”,而返回的結(jié)果里文件名大都不包含“東京愛情故事”,而是tls0?.rm,即其文件名無法體現(xiàn)文件內(nèi)容,只是由于它的上一層目錄名包含了“東京愛情故事”,在基于目錄的文件內(nèi)容分類查詢下,這些文件名無法體現(xiàn)文件內(nèi)容的文件得以被人們找到,否則,用戶可能僅僅看到一些包含“東京愛情故事”的目錄,必須進(jìn)入對應(yīng)目錄后才能知道這個目錄里的文件是否是所需的。
3.基于查詢頻率的文件分類查詢圖7和圖8兩圖分別為查詢分類里的分類頁面和某個類別(“電影、動畫片”里的“武俠”類)內(nèi)的快捷方式頁面。分類頁面方便找到特定類別的快捷方式,快捷方式頁面里顯示某些常用的查詢,用戶只需點(diǎn)擊就可以得到查詢結(jié)果,而無需任何輸入。
本發(fā)明的優(yōu)點(diǎn)與積極效果在于同現(xiàn)有的面向文件名的查詢技術(shù)相比,基于文件名、目錄和查詢頻率的文件分類查找技術(shù)具有如下優(yōu)點(diǎn)和積極效果1.文件查詢系統(tǒng)的查準(zhǔn)率大大提高。應(yīng)用基于文件名的文件格式分類查詢技術(shù)后,一個通用的文件搜索引擎變成了多個主題搜索引擎。用戶可以在各種指定類型內(nèi)查找文件而不必在乎它的擴(kuò)展名。尤其當(dāng)文件名匹配的查詢結(jié)果數(shù)目十分巨大時,只顯示一個類型的結(jié)果的方式極大地減少了用戶翻頁的次數(shù),提高了查詢的效率。例如,要查詢C++builder的相關(guān)文檔,直接使用面向文件名的查詢,當(dāng)不指定擴(kuò)展名時有237個命中結(jié)果,指定.doc擴(kuò)展名時只有7個命中結(jié)果,而在使用了文件格式分類查詢技術(shù)后我們指定在文檔類型內(nèi)查詢,則命中結(jié)果有19個,這樣的結(jié)果沒有多余的其他文件信息(如C++builder的程序文件等)又包含了所有需要的各種格式的文檔。
2.提高了查詢系統(tǒng)的查全率。應(yīng)用基于文件名的文件格式分類查詢技術(shù)和基于目錄文件內(nèi)容分類查詢技術(shù)后,搜索多媒體文件時命中結(jié)果數(shù)目大幅度增加,許多以數(shù)字或者序號命名的文件得以被人們發(fā)現(xiàn)。對電視連續(xù)劇的查詢、對歌手的查詢、對專輯的查詢、對圖片集的查詢都十分方便直觀。這種改進(jìn),將使得查詢系統(tǒng)從一個通用的文件查詢系統(tǒng)變成了一個以多媒體查詢?yōu)橹魍瑫r又保留了通用查詢的電影、音樂查詢利器。
3.使得查詢系統(tǒng)簡單化、易用化。將查詢分類并建立快捷方式系統(tǒng)的方式可以極大的鼓勵普通用戶使用文件查詢系統(tǒng)。由于查詢的分類建立在文件格式分類技術(shù)和文件內(nèi)容分類技術(shù)之上,各種復(fù)雜的查詢選項(包括文件格式類型、大小限制等等)都隱藏在快捷方式對應(yīng)的查詢URL里,對于很多不知道想找什么軟件的用戶(如想看動作電影而不在乎是哪部動作片的用戶)或者對想找的軟件名稱不太清楚的用戶(如想找網(wǎng)絡(luò)螞蟻而不知道它的軟件名稱是netant的用戶),用戶使用查詢系統(tǒng)所要做的,就可以是選擇而不是作要求。在使用快捷方式后,用戶使用快捷方式的比例將占所有查詢里的大部分,因為系統(tǒng)所提供的快捷方式,已經(jīng)包含了大部分用戶需要的查詢。這樣,由于快捷方式的匹配串是固定的,有緩沖的查詢系統(tǒng)的Cache命中率將大大增加,大部分查詢都可以在極短的時間內(nèi)從Cache里獲得查詢結(jié)果,從而也提高了查詢的效率。
4.是面向文件名的查詢技術(shù)的升級與重要補(bǔ)充?;谖募?、目錄和查詢頻率的文件分類查找技術(shù)并不是傳統(tǒng)文件查詢技術(shù)的替代,而是升級與補(bǔ)充,因為它并沒有提出如何進(jìn)行文件名的匹配卻使用了文件名匹配以及屬性過濾技術(shù)。在現(xiàn)成的面向文件名的查詢系統(tǒng)上進(jìn)行部分修改與添加就可以變成一個使用分類的查詢系統(tǒng),同時也保留了舊的面向文件名的查詢功能?;谖募?、目錄和查詢頻率的文件分類查找技術(shù)使得面向文件名的查詢系統(tǒng)具有了面向主題和挖掘隱藏數(shù)據(jù)的能力,同時為普通用戶考慮的查詢?nèi)斯し诸惣夹g(shù)使查詢系統(tǒng)更加大眾化,易于被用戶接受。
本發(fā)明可以應(yīng)用于包括FTP搜索引擎、MP3搜索器、本機(jī)文件查詢、圖書館資源檢索等相關(guān)方面。
權(quán)利要求
1.一種文件分類查找方法,由用戶輸入查詢請求,計算機(jī)根據(jù)用戶的查詢請求返回符合要求的文件,其特征在于計算機(jī)的查詢采用基于目錄的文件內(nèi)容分類查詢;查詢時將文件的文件名和其上一層目錄合并作為一個整體用于查詢,命中結(jié)果或是文件名命中了匹配串,或是其上一層目錄名命中了匹配串。
2.根據(jù)權(quán)利要求1所述的文件分類查找方法,其特征在于這種文件查詢方法用于多媒體文件的查詢,包括音頻、視頻和圖像等多媒體文件類型;當(dāng)用戶查找這類多媒體文件時,采用基于目錄的文件內(nèi)容分類查詢,將文件所在目錄的目錄名與文件名一起去匹配查詢串。
3.根據(jù)權(quán)利要求1或2所述的文件分類查找方法,其特征在于計算機(jī)查詢時將文件的文件名和其上一層目錄合并作為一個整體用于查詢,查詢系統(tǒng)在建立索引、結(jié)果顯示時都將文件名和其上一層目錄作為一個整體進(jìn)行。
4.根據(jù)權(quán)利要求1-3任一權(quán)利要求之一所述的文件分類查找方法,其特征在于計算機(jī)的查詢采用基于目錄的文件內(nèi)容分類查詢與基于文件擴(kuò)展名的文件格式分類查詢相結(jié)合的方法;其中基于文件擴(kuò)展名的文件格式分類查詢方法是指,用戶查詢時所輸入的查詢請求包括文件名關(guān)鍵字和文件格式類型兩個部分,查詢時在指定的格式類別內(nèi)查詢文件而無需指定文件擴(kuò)展名。
5.根據(jù)權(quán)利要求1-3任一權(quán)利要求之一所述的文件分類查找方法,其特征在于計算機(jī)的查詢采用基于目錄的文件內(nèi)容分類查詢與基于查詢頻率的查詢?nèi)斯し诸愊嘟Y(jié)合的方法;其中基于查詢頻率的查詢?nèi)斯し诸惙椒ㄊ侵福瑢⒊S玫牟樵僓RL建成快捷方式,用戶只需點(diǎn)擊快捷方式就可以得到查詢結(jié)果。
6.根據(jù)權(quán)利要求1-3任一權(quán)利要求之一所述的文件分類查找方法,其特征在于計算機(jī)的查詢采用基于目錄的文件內(nèi)容分類查詢與基于文件擴(kuò)展名的文件格式分類查詢、以及基于查詢頻率的查詢?nèi)斯し诸愊嘟Y(jié)合的方法;其中基于文件擴(kuò)展名的文件格式分類查詢方法是指,用戶查詢時所輸入的查詢請求包括文件名關(guān)鍵字和文件格式類型兩個部分,查詢時在指定的格式類別內(nèi)查詢文件而無需指定文件擴(kuò)展名;基于查詢頻率的查詢?nèi)斯し诸惙椒ㄖ?,將常用的查詢URL建成快捷方式,用戶只需點(diǎn)擊快捷方式就可以得到查詢結(jié)果。
7.根據(jù)權(quán)利要求4或6所述的文件分類查找方法,其特征在于基于文件擴(kuò)展名的文件格式分類查詢方法中,利用文件名的擴(kuò)展名作為文件分類的標(biāo)準(zhǔn),將文件分成各種不同的格式類型,每種格式類型對應(yīng)若干擴(kuò)展名。
8.根據(jù)權(quán)利要求4、6或7所述的文件分類查找方法,其特征在于基于文件擴(kuò)展名的文件格式分類查詢方法中,基于文件擴(kuò)展名的文件格式類型包括文檔、視頻、音頻、圖像、程序、源代碼、目錄等類型。
9.根據(jù)權(quán)利要求7或8所述的文件分類查找方法,其特征在于基于文件擴(kuò)展名的文件格式分類根據(jù)對某擴(kuò)展名所對應(yīng)文件類型的普遍理解;對于一種擴(kuò)展名屬于多種類別的情況,取其最常見的類別。
10.根據(jù)權(quán)利要求7-9任一權(quán)利要求所述的文件分類查找方法,其特征在于基于文件擴(kuò)展名的文件格式分類查詢方法中,當(dāng)查詢系統(tǒng)獲得一個文件條目時,利用其擴(kuò)展名得到它對應(yīng)的文件格式類別,保存在文件條目的屬性中;當(dāng)用戶查詢指定文件格式類型的文件時,將用戶選定的類型編號與文件條目屬性里的類型編號作比較;從文件名匹配得到的結(jié)果中過濾出文件名匹配同時指定文件格式類型也匹配的查詢結(jié)果。
11.根據(jù)權(quán)利要求5或6所述的文件分類查找方法,其特征在于基于查詢頻率的查詢?nèi)斯し诸愔校瑢⒊S玫牟樵僓RL進(jìn)行兩級分類,第一級分類為文件格式分類,第二級分類在該類別中按內(nèi)容進(jìn)行分類。
12.根據(jù)權(quán)利要求5、6或11所述的文件分類查找方法,其特征在于基于查詢頻率的查詢?nèi)斯し诸愔?,利用程序記錄每個快捷方式的點(diǎn)擊次數(shù),在顯示一個類別的所有快捷方式條目時按點(diǎn)擊數(shù)排序輸出,由此同時提供了該類別的查詢排行。
13.根據(jù)權(quán)利要求1-12任一權(quán)利要求之一所述的文件分類查找方法,其特征在于對于多媒體文件的查找,可以根據(jù)基于目錄的文件內(nèi)容分類進(jìn)行查詢;當(dāng)用戶指定查找多媒體類型文件時,由查詢系統(tǒng)匹配文件名或者文件所在上層目錄名匹配查詢關(guān)鍵字的文件。
14.根據(jù)權(quán)利要求1-5、7-10、13任一權(quán)利要求之一所述的文件分類查找方法,其特征在于用戶可以根據(jù)基于文件擴(kuò)展名的文件格式分類,輸入文件名關(guān)鍵字以及文件格式兩項查詢要求,由查詢系統(tǒng)匹配輸出符合這兩項要求的文件。
15.根據(jù)權(quán)利要求1-3、5、6、11-14任一權(quán)利要求之一所述的文件分類查找方法,其特征在于用戶可以根據(jù)基于查詢頻率的查詢分類方法,根據(jù)查詢系統(tǒng)在各類別中所提供的按照查詢頻率排列的經(jīng)常查找的文件列表,選擇所需要的文件查詢鏈接。
16.一種文件分類查找方法,由用戶輸入查詢請求,由計算機(jī)根據(jù)用戶的查詢請求返回符合查詢請求的文件,其特征在于計算機(jī)的查詢采用文件分類與基于查詢頻率的查詢?nèi)斯し诸愊嘟Y(jié)合的方法;其中基于文件擴(kuò)展名的文件格式分類查詢方法是指,用戶查詢時所輸入的查詢請求包括文件名關(guān)鍵字和文件格式類型兩個部分,查詢時在指定的格式類別內(nèi)查詢文件而無需指定文件擴(kuò)展名;基于查詢頻率的查詢?nèi)斯し诸惙椒ㄖ福瑢⒊S玫牟樵僓RL建成快捷方式,用戶只需點(diǎn)擊快捷方式就可以得到查詢結(jié)果。
17.根據(jù)權(quán)利要求16所述的文件分類查找方法,其特征在于基于文件擴(kuò)展名的文件格式分類查詢方法中,利用文件名的擴(kuò)展名作為文件分類的標(biāo)準(zhǔn),將文件分成各種不同的格式類型,每種格式類型對應(yīng)若干擴(kuò)展名。
18.根據(jù)權(quán)利要求16或17所述的文件分類查找方法,其特征在于基于文件擴(kuò)展名的文件格式分類查詢方法中,基于文件擴(kuò)展名的文件格式類型包括文檔、視頻、音頻、圖像、程序、源代碼、目錄等類型。
19.根據(jù)權(quán)利要求17或18所述的文件分類查找方法,其特征在于基于文件擴(kuò)展名的文件格式分類根據(jù)對某擴(kuò)展名所對應(yīng)文件類型的普遍理解;對于一種擴(kuò)展名屬于多種類別的情況,取其最常見的類別。
20.根據(jù)權(quán)利要求16-19任一權(quán)利要求所述的文件分類查找方法,其特征在于基于文件擴(kuò)展名的文件格式分類查詢方法中,當(dāng)查詢系統(tǒng)獲得一個文件條目時,利用其擴(kuò)展名得到它對應(yīng)的文件格式類別,保存在文件條目的屬性中;當(dāng)用戶查詢指定文件格式類型的文件時,用用戶選定的類型編號與文件條目屬性里的類型編號作比較;從文件名匹配得到的結(jié)果中過濾出文件名匹配同時指定文件格式類型也匹配的查詢結(jié)果。
21.根據(jù)權(quán)利要求16所述的文件分類查找方法,其特征在于基于查詢頻率的查詢?nèi)斯し诸愔?,將常用的查詢URL進(jìn)行兩級分類,第一級分類為文件格式分類,第二級分類在該類別內(nèi)按內(nèi)容進(jìn)行分類。
22.根據(jù)權(quán)利要求16或21所述的文件分類查找方法,其特征在于基于查詢頻率的查詢?nèi)斯し诸愔校贸绦蛴涗浢總€快捷方式的點(diǎn)擊次數(shù),在顯示一個類別的所有快捷方式條目時按點(diǎn)擊數(shù)排序輸出,因此同時提供了該類別的查詢排行。
23.根據(jù)權(quán)利要求16-20任一權(quán)利要求之一所述的文件分類查找方法,其特征在于用戶可以根據(jù)基于文件擴(kuò)展名的文件格式分類,輸入文件名關(guān)鍵字以及文件格式兩項查詢要求,由查詢系統(tǒng)匹配輸出符合這兩項要求的文件。
24.根據(jù)權(quán)利要求16、21或22任一權(quán)利要求之一所述的文件分類查找方法,其特征在于用戶可以根據(jù)基于查詢頻率的查詢分類方法,根據(jù)查詢系統(tǒng)在各類別中所提供的按照查詢頻率排列的經(jīng)常查找的文件列表,選擇所需要的文件。
全文摘要
本發(fā)明涉及信息檢索領(lǐng)域的文件分類查找方法?;谀夸浀奈募?nèi)容分類查詢將文件的文件名和其上一層目錄合并作為一個整體用于查詢,使得面向主題、面向內(nèi)容的文件搜索成為可能?;谖募U(kuò)展名的文件格式分類查詢與基于查詢頻率的文件分類查詢相結(jié)合,提高了文件查詢的查全率和查準(zhǔn)率,同時使復(fù)雜的文件搜索引擎簡單化。以上方法相結(jié)合,可以應(yīng)用于包括FTP搜索引擎、MP3搜索器、本機(jī)文件查詢、圖書館資源檢索等方面。
文檔編號G06F17/30GK1360267SQ02100839
公開日2002年7月24日 申請日期2002年1月30日 優(yōu)先權(quán)日2002年1月30日
發(fā)明者陳華, 李曉明 申請人:北京大學(xué)