專利名稱:用學(xué)習(xí)數(shù)據(jù)有效提取檢索者合意的文檔的過濾方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于文檔過濾的方法和設(shè)備,尤其涉及一種能夠利用學(xué)習(xí)數(shù)據(jù)來有效地從文檔數(shù)據(jù)庫中提取出與檢索者的意圖相匹配的文檔的文檔過濾方法和設(shè)備。
背景技術(shù):
如何有效地從數(shù)據(jù)庫中檢索出與檢索者的意圖相匹配的文檔已成為一個問題。為了解決上述問題,傳統(tǒng)的文檔檢索技術(shù)利用關(guān)鍵詞與邏輯運算符的結(jié)合來執(zhí)行檢索以獲取檢索結(jié)果,并后續(xù)的檢索利用關(guān)鍵詞與邏輯運算符的新結(jié)合來精煉所述檢索結(jié)果。
但是,檢索者需要特殊的專門技術(shù)知識來指定適當(dāng)?shù)年P(guān)鍵詞或者關(guān)鍵詞與邏輯運算符的結(jié)合,還需要找出所述關(guān)鍵詞的時間。除此之外,檢索者只有在回顧所述檢索結(jié)果后才能夠判斷檢索條件是否是適當(dāng)?shù)摹A硗?,傳統(tǒng)的文檔檢索技術(shù)獲取的是不充分的檢索結(jié)果,其中與檢索者的意圖相匹配的文檔的數(shù)量往往小于與檢索者的意圖不相匹配的文檔的數(shù)量。
傳統(tǒng)的技術(shù)采用下述方法來解決上面提到的缺陷。例如,信息中包含多個關(guān)鍵詞(也就是學(xué)習(xí)數(shù)據(jù))。基于這樣的關(guān)鍵詞和得分詞典,將輸入信息轉(zhuǎn)換為向量以使用關(guān)鍵詞代碼的正的度量和負(fù)的度量計算得分?;谒鲇嬎愠龅牡梅忠约按_定參數(shù),獲悉(也就是計算)所述信息的必要性和可靠性?;谒霁@悉的必要性和可靠性的值,評估未知數(shù)據(jù)(也就是文檔),以及將所述數(shù)據(jù)按必要性順序分類并呈現(xiàn)給檢索者。
另一種傳統(tǒng)的技術(shù)采用下述方法來解決上面提到的缺陷。例如,輸入信息中包含多個關(guān)鍵詞。利用向量生成器將這樣的關(guān)鍵詞轉(zhuǎn)換為向量以生成與檢索者的意圖相匹配的度量,并且所述度量被進(jìn)一步分割。通過使用上述的向量以及分割后的度量,將檢索者的意圖計算成得分值,并且將信息按照得分值順序呈現(xiàn)給所述檢索者。
但是,通過上述傳統(tǒng)技術(shù)獲取的檢索結(jié)果可能包含對檢索者來說不必要的文檔數(shù)據(jù),并有這樣的一個缺點,其不能從未知的文檔中清楚的區(qū)分對檢索者而言必要的數(shù)據(jù)和非必要的數(shù)據(jù)。
發(fā)明內(nèi)容
本發(fā)明提供了一種能夠利用學(xué)習(xí)數(shù)據(jù)來有效地從文檔數(shù)據(jù)庫中提取出與檢索者的意圖相匹配的文檔的文檔過濾方法和設(shè)備。
在一個示例性的實施例中,文檔過濾設(shè)備包括信息輸入/輸出單元,檢索詞提取單元,第一順序檢索單元,學(xué)習(xí)數(shù)據(jù)單元,分類參數(shù)生成單元,第二順序檢索單元,以及分類單元。信息輸入/輸出單元輸入短語信息,以及輸出檢索結(jié)果信息。檢索詞提取單元從所述短語信息中提取檢索詞。第一順序檢索單元執(zhí)行第一順序檢索以從數(shù)據(jù)庫中檢索具有所述檢索詞的文檔,以及將所述文檔作為第一順序檢索結(jié)果輸出。學(xué)習(xí)數(shù)據(jù)生成單元基于所述第一順序檢索結(jié)果來準(zhǔn)備反映檢索者意圖的學(xué)習(xí)數(shù)據(jù)。分類參數(shù)生成單元從所述學(xué)習(xí)數(shù)據(jù)生成單元準(zhǔn)備的所述學(xué)習(xí)數(shù)據(jù)中生成分類參數(shù)。第二順序檢索單元執(zhí)行第二順序檢索以從數(shù)據(jù)庫中檢索出具有與所述分類參數(shù)相對應(yīng)的詞的文檔。分類單元提取與檢索者的意圖相匹配的文檔,以及將所述文檔作為第二順序檢索結(jié)果輸出。
在上述的文檔過濾設(shè)備中,所述學(xué)習(xí)數(shù)據(jù)生成單元使用所述第一順序檢索結(jié)果的至少一部分來準(zhǔn)備所述學(xué)習(xí)數(shù)據(jù)。
在上述的文檔過濾設(shè)備中,所述分類參數(shù)生成單元使用預(yù)定算法來生成所述分類參數(shù)。
在上述的文檔過濾設(shè)備中,所述預(yù)定算法包括線性支持向量機(linearsupport vector machine)、費希爾判別式(Fisher discriminant)、貝葉斯的二進(jìn)制獨立模型(binary independence model of Bayes)中的至少一個。
在上述的文檔過濾設(shè)備中,所述分類單元評估由所述第二順序檢索所獲取的文檔,當(dāng)滿足預(yù)定條件時將所述文檔指定為匹配的文檔,當(dāng)不滿足預(yù)定條件時將所述文檔指定為不匹配的文檔,提取所述匹配的文檔,以及將所述匹配的文檔傳送至所述信息輸入/輸出單元。
在上述的文檔過濾設(shè)備中,所述預(yù)定條件是使用所述分類參數(shù)計算的。
在上述的文檔過濾設(shè)備中,所述分類單元利用預(yù)定規(guī)范對所述第二順序檢索結(jié)果進(jìn)行分類。
在上述的文檔過濾設(shè)備中,所述預(yù)定規(guī)范包括使用所述分類參數(shù)的得分計算。
在一個示范性的實施例中,一種新穎的文檔過濾方法包括下述步驟輸入、提取、檢索、準(zhǔn)備、生成、查找、采集、輸出、顯示。輸入步驟輸入短語信息。提取步驟從所述短語信息中提取檢索詞。檢索步驟從數(shù)據(jù)庫中檢索具有所述檢索詞的文檔,以及將該文檔作為第一順序檢索結(jié)果輸出。準(zhǔn)備步驟基于所述第一順序檢索結(jié)果來準(zhǔn)備反映檢索者意圖的學(xué)習(xí)數(shù)據(jù)。生成步驟從所述準(zhǔn)備步驟中準(zhǔn)備的所述學(xué)習(xí)數(shù)據(jù)生成分類參數(shù)。查找步驟從數(shù)據(jù)庫中查找具有與所述分類參數(shù)相對應(yīng)的詞的文檔。采集步驟采集與檢索者的意圖相匹配的文檔。輸出步驟將所述文檔作為第二順序檢索結(jié)果輸出。顯示步驟顯示所述第二順序檢索結(jié)果。
在上述的文檔過濾方法中,所述準(zhǔn)備步驟使用所述第一順序檢索結(jié)果的至少一部分來準(zhǔn)備所述學(xué)習(xí)數(shù)據(jù)。
在上述的文檔過濾方法中,所述生成步驟使用預(yù)定算法來生成所述分類參數(shù)。
在上述的文檔過濾方法中,所述預(yù)定算法包括線性支持向量機(linearsupport vector machine)、費希爾判別式(Fisher discriminant)、貝葉斯的二進(jìn)制獨立模型(binary independence model ofBayes)中的至少一個。
在上述的文檔過濾方法中,所述分類步驟評估由所述第二順序檢索所獲取的文檔,當(dāng)滿足預(yù)定條件時將所述文檔指定為匹配的文檔,當(dāng)不滿足預(yù)定條件時將所述文檔指定為不匹配的文檔,提取所述匹配的文檔,以及將所述匹配的文檔傳送至所述顯示步驟。
在上述的文檔過濾方法中,所述預(yù)定條件是使用所述分類參數(shù)計算的。
在上述的文檔過濾方法中,所述分類步驟利用預(yù)定規(guī)范對所述第二順序檢索結(jié)果進(jìn)行分類。
在上述的文檔過濾方法中,所述預(yù)定規(guī)范包括使用所述分類參數(shù)的得分計算。
在一個示范性的實施例中,一種新穎的文檔過濾程序產(chǎn)品使得計算機執(zhí)行一種文檔過濾方法。所述文檔過濾方法包括下述步驟輸入、提取、檢索、準(zhǔn)備、生成、查找、采集、輸出、顯示。輸入步驟輸入短語信息。提取步驟從所述短語信息中提取檢索詞。檢索步驟從數(shù)據(jù)庫中檢索具有所述檢索詞的文檔,以及將所述文檔作為第一順序檢索結(jié)果輸出。準(zhǔn)備步驟基于所述第一順序檢索結(jié)果來準(zhǔn)備反映檢索者意圖的學(xué)習(xí)數(shù)據(jù)。生成步驟從所述準(zhǔn)備步驟中準(zhǔn)備的所述學(xué)習(xí)數(shù)據(jù)生成分類參數(shù)。查找步驟從數(shù)據(jù)庫中查找具有與所述分類參數(shù)相對應(yīng)的詞的文檔。采集步驟采集與檢索者的目的相匹配的文檔。輸出步驟將所述文檔作為第二順序檢索結(jié)果輸出。顯示步驟顯示所述第二順序檢索結(jié)果。
在一個示范性的實施例中,一種新穎的計算機可讀介質(zhì)中存儲有使得計算機執(zhí)行一種文檔過濾方法的文檔過濾程序產(chǎn)品。所述文檔過濾方法包括下述步驟輸入、提取、檢索、準(zhǔn)備、生成、查找、采集、輸出、顯示。輸入步驟輸入短語信息。提取步驟從所述短語信息中提取檢索詞。檢索步驟從數(shù)據(jù)庫中檢索具有所述檢索詞的文檔,以及將所述文檔作為第一順序檢索結(jié)果輸出。準(zhǔn)備步驟基于所述第一順序檢索結(jié)果來準(zhǔn)備反映檢索者意圖的學(xué)習(xí)數(shù)據(jù)。生成步驟從所述準(zhǔn)備步驟中準(zhǔn)備的所述學(xué)習(xí)數(shù)據(jù)生成分類參數(shù)。查找步驟從數(shù)據(jù)庫中查找具有與所述分類參數(shù)相對應(yīng)的詞的文檔。采集步驟采集與檢索者的意圖相匹配的文檔。輸出步驟將所述文檔作為第二順序檢索結(jié)果輸出。顯示步驟顯示所述第二順序檢索結(jié)果。
參照附圖從下面的細(xì)節(jié)描述中可以很容易的獲取并理解公開的內(nèi)容的更完整的認(rèn)識以及其他的優(yōu)點。
圖1是根據(jù)本發(fā)明的一個示范性的實施例的文檔過濾設(shè)備的示范性框圖;圖2A和圖2B顯示了用于解釋執(zhí)行一種方法的步驟的流程圖,該方法是根據(jù)本發(fā)明的一個示范性的實施例的文檔過濾方法;圖3是用于顯示檢索者輸入的檢索短語的示范性顯示視圖;圖4是用于顯示第一順序檢索結(jié)果的示范性顯示視圖;以及圖5是用于顯示第二順序的檢索結(jié)果的示范性顯示視圖。
具體實施例方式
在附圖中圖解的示范性的實施例的描述中,為了明了起見而使用特定的術(shù)語。但是,該專利說明書所公開的內(nèi)容并不意味著被限定在所選擇的特定的術(shù)語內(nèi),應(yīng)當(dāng)明了的是每一個特定的成分包括所有以相似方式工作的技術(shù)等效物。
在所述附圖中,相同的標(biāo)號在這幾幅附圖中將自始至終指示相同或相應(yīng)的部分。
圖1是根據(jù)本發(fā)明的示范性的實施例的文檔過濾設(shè)備的示范性的框圖。
文檔過濾設(shè)備100包括信息輸入/輸出單元101,檢索詞提取單元102,文檔順序檢索單元103,學(xué)習(xí)數(shù)據(jù)生成單元104,分類參數(shù)生成單元105,以及分類單元106。此外,文檔過濾設(shè)備100同數(shù)據(jù)庫110相連。
檢索者輸入檢索短語到信息輸入/輸出單元1 01。檢索短語包含至少一個句子或一個詞。
信息輸入/輸出單元101將所述檢索短語傳送至檢索詞提取單元102。
檢索詞提取單元102從所述檢索短語中提取檢索詞,并將所述檢索詞傳送至文檔順序檢索單元103。檢索詞提取單元102利用公開的美國專利申請2004/0111404A1中描述的方法來提取檢索詞,通過引用而在此結(jié)合其全部內(nèi)容。
文檔順序檢索單元103執(zhí)行第一順序檢索以從數(shù)據(jù)庫110中檢索具有所述檢索詞的文檔,并且獲取第一順序檢索結(jié)果。在所述順序檢索中,根據(jù)與每篇文檔的檢索者意圖的相關(guān)性而對檢索到的文檔進(jìn)行排序。順序檢索包括第一順序檢索和稍后將要描述的第二順序檢索。
文檔順序檢索單元103將第一順序檢索結(jié)果傳送至信息輸入/輸出單元101。
信息輸入/輸出單元101在顯示單元(未示出)上顯示所述第一順序檢索結(jié)果。
檢索者回顧在顯示單元(未示出)上顯示的所述第一順序檢索結(jié)果的內(nèi)容,并通過信息輸入/輸出單元101、在文檔與檢索者的意圖相匹配時指定第一順序檢索結(jié)果中所包含的文檔為匹配的文檔,在文檔與檢索者的意圖不相匹配時指定第一順序檢索結(jié)果中所包含的文檔為不匹配的文檔。
基于這樣的指定的信息,學(xué)習(xí)數(shù)據(jù)生成單元104準(zhǔn)備學(xué)習(xí)數(shù)據(jù),所述學(xué)習(xí)數(shù)據(jù)將與檢索者意圖相匹配的文檔分類為匹配的文檔,將與檢索者意圖不相匹配的文檔分類為不匹配的文檔。
基于所述學(xué)習(xí)數(shù)據(jù),分類參數(shù)生成單元105生成分類參數(shù)(稍后將描述)。
通過將與分類參數(shù)相對應(yīng)的詞用作檢索詞,文檔順序檢索單元103執(zhí)行第二順序檢索以從數(shù)據(jù)庫110中檢索具有這樣的檢索詞的文檔。
分類單元106評估通過第二順序檢索所獲取的每一個文檔以僅僅提取匹配的文檔,并將所述匹配文檔作為第二順序檢索結(jié)果傳送至信息輸入/輸出單元101。稍后將詳細(xì)描述通過學(xué)習(xí)數(shù)據(jù)生成單元104、分類參數(shù)生成單元105、以及分類單元106來執(zhí)行的文檔過濾操作。
信息輸入/輸出單元101在顯示單元(未示出)上顯示自分類單元106接收的匹配文檔。
在下文中,將詳細(xì)描述利用本發(fā)明的文檔過濾設(shè)備的文檔過濾的示范性的方法。
圖2A和圖2B顯示了用于解釋文檔過濾的示范性的方法的步驟的流程圖。
在步驟S201中,檢索者通過信息輸入/輸出單元101輸入檢索短語至文檔過濾設(shè)備100中。
特別地,如圖3中所述,檢索者在圖像幀300的檢索詞輸入域301內(nèi)輸入所述檢索短語,所述圖像幀在信息輸入/輸出單元101的顯示單元(未示出)中顯示。通過點擊圖像幀300上的檢索按鈕302,文檔過濾設(shè)備100使用所述檢索短語開始第一順序檢索。
在步驟S202中,檢索詞提取單元102從所述檢索短語中提取檢索詞。
在步驟S203中,文檔順序檢索單元103在數(shù)據(jù)庫110中對具有由所述檢索詞提取單元102所提取的檢索詞的文檔執(zhí)行第一順序檢索以獲取第一順序檢索結(jié)果。將步驟S203中的所述第一順序檢索結(jié)果傳送至信息輸入/輸出單元101。在所述順序檢索中,根據(jù)每個文檔與檢索者意圖的相關(guān)性對檢索到的文檔進(jìn)行排序。
在步驟S204中,信息輸入/輸出單元101在它的顯示單元(未示出)上顯示自文檔順序檢索單元103接收的所述第一順序檢索結(jié)果。
如圖4所示,檢索者回顧第一順序檢索結(jié)果,并經(jīng)由信息輸入/輸出單元101、當(dāng)文檔與檢索者的意圖相匹配時,將包含在所述第一順序檢索結(jié)果中的文檔指定為匹配的文檔,當(dāng)文檔與檢索者的意圖不相匹配時指定為不匹配的文檔。
特別地,檢索者對包含在所述第一順序檢索結(jié)果中的文檔做出標(biāo)記以區(qū)分匹配的文檔和不匹配的文檔。例如,如圖4中圖像幀400所示,檢索者對匹配的文檔做出“圈”的標(biāo)記,對不匹配的文檔做出“叉”的標(biāo)記。然后,點擊圖像幀400上的過濾按鈕401。通過點擊所述過濾按鈕401,下面的步驟S205至S212將會自動執(zhí)行。
在步驟S205中,基于這樣的指示信息,學(xué)習(xí)數(shù)據(jù)生成單元104準(zhǔn)備學(xué)習(xí)數(shù)據(jù),所述學(xué)習(xí)數(shù)據(jù)將與檢索者的意圖相匹配的文檔歸類為匹配的文檔,將與檢索者的意圖不相匹配的文檔歸類為不匹配的文檔。學(xué)習(xí)數(shù)據(jù)包括至少已檢索到的匹配的文檔與不匹配的文檔的一部分,但是通過包含盡可能較大數(shù)量的文檔數(shù)據(jù)來改善檢索的精確度。
在步驟S206中,分類參數(shù)生成單元105基于學(xué)習(xí)數(shù)據(jù)生成單元104所準(zhǔn)備的所述學(xué)習(xí)數(shù)據(jù)自動生成分類參數(shù)。
在下文中,將解釋利用如線性SVM(支持向量機(support vectormachine))、費希爾判別式(Fisher discriminant)、貝葉斯的二進(jìn)制獨立模型(binary independence model of Bayes)之類的算法的、生成分類參數(shù)的示范性的方法。
至于分類參數(shù),例如,將會使用下列向量等式中包括的向量“w,”和標(biāo)量“b”。
f(x)=sgn(w·x+b)---(1)其中“x”是學(xué)習(xí)數(shù)據(jù)的特征向量,“w·x”是向量“w”和向量“x,”的內(nèi)積,并且向量“w”和“b”是通過學(xué)習(xí)而決定的參數(shù)。
當(dāng)自變量“x”(也就是標(biāo)量值)大于0時,sgn(x)就成為“+1”,當(dāng)自變量“x”(也就是標(biāo)量值)是0或者小于0時,sgn(x)就成為“-1”。
向量“w”被定義如下。
w=∑V(wi)×wi其中“i”取從1至n中的一個值,該值是檢索詞的數(shù)量。
“V(wi)”,“wi”,“b”的值通過學(xué)習(xí)而確定。特別地,確定“V(wi)”,“wi”,“b”的值,致使當(dāng)學(xué)習(xí)數(shù)據(jù)的值大于0時f(x)的值就成為“+1”(即,匹配的文檔),當(dāng)學(xué)習(xí)數(shù)據(jù)的值小于等于0時,f(x)的值就成為“-1”(即,不匹配的文檔)。
“V(wi)”被用做詞“wi”的加權(quán)(即,詞的特征),“b”是一個閾值。“wi”對應(yīng)于每一個詞。
在步驟S207中,通過將一個對應(yīng)于在分類參數(shù)生成單元105生成的分類參數(shù)的詞作為檢索詞使用,文檔順序檢索單元103執(zhí)行第二順序檢索,以從數(shù)據(jù)庫110中檢索具有這樣的檢索詞的文檔。
在步驟S207中,利用對應(yīng)于所述分類參數(shù)的詞執(zhí)行第二順序檢索。在這種情況下,所使用的詞的數(shù)量是“n”,其中“n”是一個自然數(shù)。
由第二順序檢索所獲取的文檔“di”被提供有一個如下的文檔得分。例如,當(dāng)使用下列等式中的分類參數(shù)“w”的時候,f(x)=sgn(w·x+b)將下列文檔得分score(di)=w·xi---(2)提供給文檔“di”,其中“xi”是文檔“di”的特征向量。
分類單元106使用分類參數(shù)評估由所述第二順序檢索所獲取的文檔,并提取匹配的文檔。特別地,執(zhí)行下述步驟。
在步驟S208中,每一個在步驟S207中獲取的文檔都被指定為具有一個通過使用分類參數(shù)計算的得分(即,score(di))的文檔“di”。
在步驟S209中,判斷score(di)是否超過了在步驟S206中所獲得的閾值“b”。
當(dāng)score(di)超過閾值“b,”時,即意味步驟S209中的“是”。在這種情況下,例如就通過使用f(x)=sgn(w·x+b)中的分類參數(shù)“b”而建立“score(di)+b>0”的關(guān)系。
接著,在步驟S210中,將文檔“di”指定為匹配的文檔,并且跳到步驟S211。
當(dāng)score(di)未超過閾值“b”時,即意味步驟S209中的“否”。在這種情況下,跳到步驟S211。
在步驟S211中,核對在步驟S208到S210中是否處理了所有由第二順序檢索所獲取的文檔。
當(dāng)確認(rèn)所有的文檔都已經(jīng)在步驟S208到S210中處理過時,即意味步驟S211中的“是”,跳到步驟S212。
當(dāng)發(fā)現(xiàn)至少一個文檔未在步驟S208到S210中處理過時,即意味步驟S211中的“否”。在這種情況下,返回到步驟S208,繼續(xù)上述的步驟S208至S211。
當(dāng)在步驟S211中確認(rèn)所有由第二順序檢索所獲得的文檔都已經(jīng)在步驟S208到S210中處理過時,即意味步驟S211中的“是”。接著,分類單元106將在步驟S210中獲取的結(jié)果傳送至信息輸入/輸出單元101。
在步驟S212中,信息輸入/輸出單元101將從分類單元106接收到的結(jié)果作為第二順序檢索結(jié)果(即,匹配的文檔的概觀)在例如信息輸入/輸出單元101的顯示單元(未示出)上顯示,在圖5中顯示為圖像幀500。在步驟S212中,按照文檔得分順序?qū)λ龅诙樞驒z索結(jié)果進(jìn)行排序。
在下文中,將解釋根據(jù)本發(fā)明的文檔過濾方法的示例性的文檔檢索。
例如,檢索者通過信息輸入/輸出單元101輸入檢索短語“AAA′s CCC”。
假定第一順序檢索利用以上提到的檢索短語獲取了如下的第一順序檢索結(jié)果,所述結(jié)果包括下列從1到4的四個文檔。
1、AAA′s CCC2、BBB′s CCC3、AAA′s DDD4、AAA′s EEE例如,檢索者通過“圈(即,o),”的指示而將文檔指定為匹配的文檔,通過“叉(即,x),”的指示而將文檔指定為不匹配的文檔。
o AAA′s CCCx BBB′s CCCx AAA′s DDDo AAA′s EEE基于這樣的指示信息,分類參數(shù)生成單元自動生成分類參數(shù),假定獲取了下列的一組詞“AAA,BBB,CCC,DDD”,其中AAA的權(quán)是0.5,BBB的加權(quán)是-0.6,CCC的加權(quán)是0.3,DDD的加權(quán)是-0.2,EEE的加權(quán)是0.1,閾值“b”是-0.4。
接著,使用上述詞“AAA,BBB,CCC,和DDD”作為檢索詞來執(zhí)行第二順序檢索,并為由第二順序檢索所獲取的每一個文檔計算上述的得分值。例如,假定利用第二順序檢索獲取了具有下述得分的文檔“d1,d2,和d3”。
文檔“d1”有詞“BBB and CCC.”因此,score(d1)被計算為-0.6+0.3=-0.3,建立score(d1)+b=-0.3-0.4=-0.7<0。因此,文檔“d1”不作為匹配文檔輸出。
文檔“d2”有詞“AAA and DDD.”因此,score(d2)被計算為0.5-0.2=0.3,建立score(d2)+b=0.3-0.4=-0.1<0。因此,文檔“d2”不作為匹配文檔輸出。
文檔“d3”有詞“AAA and EEE.”因此,score(d3)被計算為0.5+0.1=0.6,建立score(d3)+b=0.6-0.4=0.2>0。因此,所述文檔“d3”作為匹配文檔輸出。
因此,根據(jù)本發(fā)明的文檔過濾的方法和設(shè)備能夠從由第二順序檢索所獲得的文檔中提取匹配的文檔。
如上所述,根據(jù)本發(fā)明的文檔過濾的方法和設(shè)備可以從第一順序檢索結(jié)果中準(zhǔn)備學(xué)習(xí)數(shù)據(jù),從第二順序檢索中所用的學(xué)習(xí)數(shù)據(jù)中自動生成分類參數(shù),使用分類參數(shù)自動評估未知的文檔以區(qū)分匹配的文檔或不匹配的文檔,以及自動提取所述匹配的文檔。因此,在一個較短的時間內(nèi)可以有效地檢索出與檢索者的目的相匹配的文檔。
通過執(zhí)行存儲在個人計算機、工作站等等中的程序來執(zhí)行根據(jù)本發(fā)明的示例性的實施例的文檔過濾方法和設(shè)備。所述程序可以存儲在一種計算機可讀記錄介質(zhì)中,如硬盤,軟盤,CD-ROM,MO(磁-光存儲器),DVD(數(shù)字通用盤)等等,并且由計算機執(zhí)行。進(jìn)一步地,該程序可以通過如因特網(wǎng)之類的網(wǎng)絡(luò)來通信。
如上所述,根據(jù)本發(fā)明的文檔過濾方法和設(shè)備,以及文檔過濾程序,對于檢索文檔,尤其是從大量的文檔數(shù)據(jù)中檢索文檔是十分有用的。
依照當(dāng)前說明書的教導(dǎo),使用可編程的傳統(tǒng)通用數(shù)字計算機可以很便利的實現(xiàn)本發(fā)明,這對計算機領(lǐng)域中的技術(shù)人員來說是顯而易見的?;诠_說明書的教導(dǎo),熟練的程序員可以很容易地準(zhǔn)備適當(dāng)?shù)能浖a,這對軟件領(lǐng)域的技術(shù)人員來說是顯而易見的。通過制備特定的應(yīng)用集成電路或者通過互連適當(dāng)?shù)膫鹘y(tǒng)的元件電路的網(wǎng)絡(luò)也可以實施本發(fā)明,這對本領(lǐng)域的技術(shù)人員來說是顯而易見的。
根據(jù)上述的教導(dǎo)可以有很多附加的修改和變化。因此應(yīng)當(dāng)明白在所附的權(quán)利要求的范圍內(nèi),當(dāng)前專利說明書所揭示的除具體描述之外的內(nèi)容是可實施的。例如,在所公開的內(nèi)容以及所附的權(quán)利要求的范圍內(nèi),不同的說明性的實施例的要素和/或特征可以被彼此結(jié)合和/或彼此代用。
權(quán)利要求
1.一種文檔過濾設(shè)備,包括信息輸入/輸出單元,用于輸入短語信息,以及輸出檢索結(jié)果信息;檢索詞提取單元,用于從所述短語信息中提取檢索詞;第一順序檢索單元,用于執(zhí)行第一順序檢索以從數(shù)據(jù)庫中檢索具有所述檢索詞的文檔,以及將所述文檔作為第一順序檢索結(jié)果輸出;學(xué)習(xí)數(shù)據(jù)生成單元,用于基于所述第一順序檢索結(jié)果來準(zhǔn)備反映檢索者意圖的學(xué)習(xí)數(shù)據(jù);分類參數(shù)生成單元,用于從所述學(xué)習(xí)數(shù)據(jù)生成單元所準(zhǔn)備的所述學(xué)習(xí)數(shù)據(jù)中生成分類參數(shù);第二順序檢索單元,用于執(zhí)行第二順序檢索以從數(shù)據(jù)庫中檢索具有與所述分類參數(shù)相對應(yīng)的詞的文檔;以及分類單元,用于提取與檢索者的意圖相匹配的文檔,以及將所述文檔作為第二順序檢索結(jié)果輸出。
2.根據(jù)權(quán)利要求1所述的文檔過濾設(shè)備,其中所述學(xué)習(xí)數(shù)據(jù)生成單元使用所述第一順序檢索結(jié)果的至少一部分來準(zhǔn)備所述學(xué)習(xí)數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的文檔過濾設(shè)備,其中所述分類參數(shù)生成單元使用預(yù)定算法來生成所述分類參數(shù)。
4.根據(jù)權(quán)利要求3所述的文檔過濾設(shè)備,其中所述預(yù)定算法包括線性支持向量機、費希爾判別式、貝葉斯的二進(jìn)制獨立模型中的至少一個。
5.根據(jù)權(quán)利要求1所述的文檔過濾設(shè)備,其中所述分類單元評估由所述第二順序檢索所獲取的文檔,當(dāng)滿足預(yù)定條件時將所述文檔指定為匹配的文檔,當(dāng)不滿足預(yù)定條件時將所述文檔指定為不匹配的文檔,提取所述匹配的文檔,以及將所述匹配的文檔傳送至所述信息輸入/輸出單元。
6.根據(jù)權(quán)利要求5所述的文檔過濾設(shè)備,其中所述預(yù)定條件是使用所述分類參數(shù)計算的。
7.根據(jù)權(quán)利要求5所述的文檔過濾設(shè)備,其中所述分類單元利用預(yù)定規(guī)范對所述第二順序檢索結(jié)果進(jìn)行分類。
8.根據(jù)權(quán)利要求7所述的文檔過濾設(shè)備,其中所述預(yù)定規(guī)范包括使用所述分類參數(shù)的得分計算。
9.一種文檔過濾設(shè)備,包括輸入和輸出裝置,用于輸入短語信息,以及輸出檢索結(jié)果信息;提取裝置,用于從所述短語信息中提取檢索詞;第一順序檢索裝置,用于從數(shù)據(jù)庫中檢索具有所述檢索詞的文檔,以及將所述文檔作為第一順序檢索結(jié)果輸出;準(zhǔn)備裝置,用于基于所述第一順序檢索結(jié)果來準(zhǔn)備反映檢索者意圖的學(xué)習(xí)數(shù)據(jù);生成裝置,用于從所述準(zhǔn)備裝置準(zhǔn)備的所述學(xué)習(xí)數(shù)據(jù)中生成分類參數(shù);第二順序檢索裝置,用于從數(shù)據(jù)庫中檢索具有與所述分類參數(shù)相對應(yīng)的詞的文檔;以及分類裝置,用于提取與檢索者的意圖相匹配的文檔,以及將所述文檔作為第二順序檢索結(jié)果輸出。
10.根據(jù)權(quán)利要求9所述的文檔過濾設(shè)備,其中所述準(zhǔn)備裝置使用所述第一順序檢索結(jié)果的至少一部分來準(zhǔn)備所述學(xué)習(xí)數(shù)據(jù)。
11.根據(jù)權(quán)利要求9所述的文檔過濾設(shè)備,其中所述生成裝置使用預(yù)定算法來生成所述分類參數(shù)。
12.根據(jù)權(quán)利要求11所述的文檔過濾設(shè)備,其中所述預(yù)定算法包括線性支持向量機、費希爾判別式、貝葉斯的二進(jìn)制獨立模型中的至少一個。
13.根據(jù)權(quán)利要求9所述的文檔過濾設(shè)備,其中所述分類裝置評估由所述第二順序檢索所獲取的文檔,當(dāng)滿足預(yù)定條件時將所述文檔指定為匹配的文檔,當(dāng)不滿足預(yù)定條件時將所述文檔指定為不匹配的文檔,提取所述匹配的文檔,以及將所述匹配的文檔傳送至所述輸入輸出裝置。
14.根據(jù)權(quán)利要求13所述的文檔過濾設(shè)備,其中所述預(yù)定條件是使用所述分類參數(shù)計算的。
15.根據(jù)權(quán)利要求13所述的文檔過濾設(shè)備,其中所述分類裝置利用預(yù)定規(guī)范對所述第二順序檢索結(jié)果進(jìn)行分類。
16.根據(jù)權(quán)利要求15所述的文檔過濾設(shè)備,其中所述預(yù)定規(guī)范包括使用所述分類參數(shù)的得分計算。
17.一種文檔過濾方法,包括下述步驟輸入短語信息;從所述短語信息中提取檢索詞;從數(shù)據(jù)庫中檢索具有所述檢索詞的文檔,以及將該文檔作為第一順序檢索結(jié)果輸出;基于所述第一順序檢索結(jié)果來準(zhǔn)備反映檢索者意圖的學(xué)習(xí)數(shù)據(jù);從所述準(zhǔn)備步驟中準(zhǔn)備的所述學(xué)習(xí)數(shù)據(jù)中生成分類參數(shù);從數(shù)據(jù)庫中查找具有與所述分類參數(shù)相對應(yīng)的詞的文檔;采集與檢索者的意圖相匹配的文檔;將所述文檔作為第二順序檢索結(jié)果輸出;以及顯示所述第二順序檢索結(jié)果。
18.根據(jù)權(quán)利要求17所述的文檔過濾方法,其中所述準(zhǔn)備步驟使用所述第一順序檢索結(jié)果的至少一部分來準(zhǔn)備所述學(xué)習(xí)數(shù)據(jù)。
19.根據(jù)權(quán)利要求17所述的文檔過濾方法,其中所述生成步驟使用預(yù)定算法來生成所述分類參數(shù)。
20.根據(jù)權(quán)利要求19所述的文檔過濾方法,其中所述預(yù)定算法包括線性支持向量機、費希爾判別式、貝葉斯的二進(jìn)制獨立模型中的至少一個。
21.根據(jù)權(quán)利要求17所述的文檔過濾方法,其中所述分類步驟評估由所述第二順序檢索所獲取的文檔,當(dāng)滿足預(yù)定條件時將所述文檔指定為匹配的文檔,當(dāng)不滿足預(yù)定條件時將所述文檔指定為不匹配的文檔,提取所述匹配的文檔,以及將所述匹配的文檔傳送至所述顯示步驟。
22.根據(jù)權(quán)利要求21所述的文檔過濾方法,其中所述預(yù)定條件是使用所述分類參數(shù)計算的。
23.根據(jù)權(quán)利要求21所述的文檔過濾方法,其中所述分類步驟利用預(yù)定規(guī)范對所述第二順序檢索結(jié)果進(jìn)行分類。
24.根據(jù)權(quán)利要求23所述的文檔過濾方法,其中所述預(yù)定規(guī)范包括使用所述分類參數(shù)的得分計算。
25.一種使得計算機執(zhí)行一種文檔過濾方法的文檔過濾程序產(chǎn)品,所述文檔過濾方法包括下述步驟輸入短語信息;從所述短語信息中提取檢索詞;從數(shù)據(jù)庫中檢索具有所述檢索詞的文檔,以及將所述文檔作為第一順序檢索結(jié)果輸出;基于所述第一順序檢索結(jié)果來準(zhǔn)備反映檢索者意圖的學(xué)習(xí)數(shù)據(jù);從所述準(zhǔn)備步驟中準(zhǔn)備的所述學(xué)習(xí)數(shù)據(jù)中生成分類參數(shù);從數(shù)據(jù)庫中查找具有與所述分類參數(shù)相對應(yīng)的詞的文檔;采集與檢索者的意圖相匹配的文檔;將所述文檔作為第二順序檢索結(jié)果輸出;以及顯示所述第二順序檢索結(jié)果。
26.一種存儲文檔過濾程序產(chǎn)品的計算機可讀介質(zhì),該程序產(chǎn)品使得計算機執(zhí)行一種文檔過濾方法,所述文檔過濾方法包括下述步驟輸入短語信息;從所述短語信息中提取檢索詞;從數(shù)據(jù)庫中檢索具有所述檢索詞的文檔,以及將所述文檔作為第一順序檢索結(jié)果輸出;基于所述第一順序檢索結(jié)果來準(zhǔn)備反映檢索者意圖的學(xué)習(xí)數(shù)據(jù);從所述準(zhǔn)備步驟中準(zhǔn)備的所述學(xué)習(xí)數(shù)據(jù)中生成分類參數(shù);從數(shù)據(jù)庫中查找具有與所述分類參數(shù)相對應(yīng)的詞的文檔;采集與檢索者的意圖相匹配的文檔;將所述文檔作為第二順序檢索結(jié)果輸出;以及顯示所述第二順序檢索結(jié)果。
全文摘要
一種文檔過濾設(shè)備,包括信息輸入/輸出單元,檢索詞提取單元,第一順序檢索單元,學(xué)習(xí)數(shù)據(jù)單元,分類參數(shù)生成單元,第二順序檢索單元,以及分類單元。信息輸入/輸出單元輸入短語信息,以及輸出檢索結(jié)果信息。檢索詞提取單元從所述短語信息中提取檢索詞。第一順序檢索單元從數(shù)據(jù)庫中檢索具有所述檢索詞的文檔,以及輸出第一順序檢索結(jié)果。學(xué)習(xí)數(shù)據(jù)單元從所述第一順序檢索結(jié)果準(zhǔn)備學(xué)習(xí)數(shù)據(jù)。分類參數(shù)生成單元從所述學(xué)習(xí)數(shù)據(jù)中生成分類參數(shù)。第二順序檢索單元從數(shù)據(jù)庫中檢索出具有與所述分類參數(shù)相對應(yīng)的詞的文檔。分類單元提取與檢索者的意圖相匹配的文檔,以及將所述文檔作為第二順序檢索結(jié)果輸出。
文檔編號G06N3/00GK1627294SQ20041001045
公開日2005年6月15日 申請日期2004年9月19日 優(yōu)先權(quán)日2003年9月19日
發(fā)明者后藤淳之, 伊東秀夫 申請人:株式會社理光