專利名稱:檢索確認(rèn)句的方法和系統(tǒng)的制作方法
相關(guān)申請(qǐng)的交叉引用在此引用下面一起待審批和共同待批的在相同日期提交的專利申請(qǐng)標(biāo)題為“在檢索提示句時(shí)檢測(cè)用戶意圖的方法和系統(tǒng)”的美國專利序列號(hào)No.___及標(biāo)題為“使用擴(kuò)展查詢檢索提示句的方法和系統(tǒng)”美國申請(qǐng)序列號(hào)No.______,發(fā)明人均為周明(Ming Zhou)。
背景技術(shù):
本發(fā)明涉及機(jī)器輔助的寫作系統(tǒng)和方法。更特別地,本發(fā)明涉及輔助用戶以非母語寫作的系統(tǒng)和方法。
隨著全球通訊的快速發(fā)展,用英語和其他非母語寫作的能力越來越重要。然而,說非母語的人(例如,說中文、日文、韓文或其他非英語語言的人)常覺得用英語寫作很困難。難度往往不在拼寫上,也不在語法上,而是在習(xí)慣用法上。因此,對(duì)這些說非母語的的人來說用英語寫作的最大的問題是確定如何潤(rùn)色句子。雖然這對(duì)以任何非母語語言寫作的過程都是一樣的,在此主要通過引用英語寫作來說明該問題。
拼寫檢查和語法檢查僅在用戶拼錯(cuò)單詞或者犯明顯的語法錯(cuò)誤時(shí)有用。不能依靠這些檢查程序來幫助潤(rùn)色句子。字典也很有用,但多數(shù)情況下僅用于解決閱讀和翻譯的問題。通常,在字典里查一個(gè)單詞向作者提供該單詞用法的多個(gè)解釋,但沒有語境信息。因此,用戶得到解決的辦法是容易混淆并且耗時(shí)的。
通常,作者覺得在寫作中潤(rùn)色句子時(shí)有好的例句作為參考是很有幫助的。問題在于往往沒有這樣的例句在手上。另外,迄今為止,還沒有軟件有效支持英語的潤(rùn)色,并且只有很少的學(xué)者在這一領(lǐng)域進(jìn)行研究。
實(shí)現(xiàn)一個(gè)能夠輔助用戶潤(rùn)色英語句子的系統(tǒng)面臨無數(shù)的挑戰(zhàn)。首選,給出一個(gè)用戶的句子,必須確定如何檢索出確認(rèn)句。確認(rèn)句被用來確認(rèn)用戶的句子。確認(rèn)句應(yīng)在句子結(jié)構(gòu)或形式上接近用戶輸入的查詢或預(yù)期的輸入查詢?;谟邢薜睦?,很難檢索出完全相似的句子,因此通常只可能檢索出包含與正被寫出的句子(查詢句子)相似的某些部分的句子。然后,出現(xiàn)兩個(gè)互相關(guān)聯(lián)的問題。第一個(gè)問題是如果用戶的句子太長(zhǎng)太復(fù)雜,應(yīng)該取哪一部分作為用戶的焦點(diǎn)呢?第二個(gè)問題是如果有很多句子匹配,它們應(yīng)該如何準(zhǔn)確并有效地排序來最大化它們對(duì)作者的有用性呢?第二個(gè)挑戰(zhàn)是確定如何檢索提示句。提示句被用來提供擴(kuò)展的表達(dá)。換句話說,提示句應(yīng)在意思上與用戶的輸入查詢句子相似,并被用來向用戶提供表達(dá)一個(gè)特定思想的其他方法。更復(fù)雜的一種情況是當(dāng)用戶的句子包含混淆的表達(dá),或即使用戶的句子是用英文寫出但卻使用了其他語言的句子結(jié)構(gòu)或語法(例如,“中文式的英語句子”)時(shí)確定如何檢測(cè)用戶的真實(shí)意圖來檢索適當(dāng)?shù)奶崾揪?。第三個(gè)挑戰(zhàn)涉及用戶可能用他或她的母語寫出的查詢進(jìn)行搜索這一事實(shí)。為了實(shí)現(xiàn)準(zhǔn)確的翻譯,查詢理解和翻譯選擇是兩個(gè)大的技術(shù)障礙。
雖然上述問題是引用不以英語為母語的人們(例如,以中文、日文或韓文為母語的人)進(jìn)行英語寫作來說明的,這些問題對(duì)以第一種語言(非母語)寫作,但卻是說第二種語言(母語)的人是相同的。根據(jù)這些問題,或其他未討論的問題,通過提供相關(guān)的確認(rèn)和/或提示句將輔助非母語的人以英語或其他非母語的語言寫作的系統(tǒng)或方法是技術(shù)的一大進(jìn)步。
發(fā)明概要提供一種從句子數(shù)據(jù)庫中檢索確認(rèn)句以響應(yīng)查詢的方法、計(jì)算機(jī)可讀媒體及系統(tǒng)。搜索引擎從句子數(shù)據(jù)庫中檢索確認(rèn)句以響應(yīng)查詢。確認(rèn)句被用來在寫作的時(shí)候確認(rèn)或指導(dǎo)用戶的句子結(jié)構(gòu)。因此,確認(rèn)句應(yīng)在句子結(jié)構(gòu)或形式上接近用戶輸入的查詢或預(yù)期的輸入查詢以作為語法上的例子使用。
搜索引擎從句子數(shù)據(jù)庫中檢索確認(rèn)句以響應(yīng)查詢。查詢被接收并且基于該查詢定義索引單元,索引單元包括來自該查詢的詞條及和該查詢關(guān)聯(lián)的擴(kuò)展索引單元。搜索引擎使用已定義的索引單元作為查詢參數(shù)檢索來自句子數(shù)據(jù)庫的句子。
搜索引擎的排列組件確定檢索到的確認(rèn)句的每一個(gè)句子之間的相似性。相似性作為查詢中的一項(xiàng)的語言學(xué)權(quán)重的函數(shù)來確定。查詢中的該項(xiàng)的語言學(xué)權(quán)重是作為它的詞性的一個(gè)函數(shù)賦給查詢中的該項(xiàng)的權(quán)重。然后排列組件基于已確定的相似性排列檢索到的確認(rèn)句。
在一些實(shí)例中,每個(gè)相似性進(jìn)一步作為對(duì)應(yīng)于確認(rèn)句長(zhǎng)度的句子長(zhǎng)度因子的一個(gè)函數(shù)來確定。
圖1為在其中可以實(shí)現(xiàn)本發(fā)明的計(jì)算環(huán)境的方框圖。
圖2為在其中可以實(shí)現(xiàn)本發(fā)明的替換計(jì)算環(huán)境的方框圖。
圖3方框圖,展示本發(fā)明輔助用戶構(gòu)建和潤(rùn)色英語句子的系統(tǒng)和方法。
圖4-1和4-2分別為英語查詢和中文查詢的相關(guān)性三元組的例子。
圖5-1為方框圖,展示創(chuàng)建相關(guān)性三元組數(shù)據(jù)庫的方法。
圖5-2為方框圖,展示提供用于搜索句子數(shù)據(jù)庫的替換表達(dá)的查詢擴(kuò)展方法。
圖6-1為方框圖,展示檢測(cè)用戶輸入查詢意圖的翻譯方法。
圖6-2為方框圖,展示構(gòu)建混淆集合數(shù)據(jù)庫的方法。
圖6-3為方框圖,展示檢測(cè)用戶輸入查詢意圖的混淆集合方法。
圖7為方框圖,展示改進(jìn)句子檢索的查詢翻譯方法。
圖8為方框圖,展示在圖3中所示的搜索引擎的一個(gè)實(shí)例。
示范性實(shí)例詳細(xì)說明本發(fā)明提供幫助用戶以非母語寫作并通過參考建議性的句子潤(rùn)色他們的句子的有效系統(tǒng)。建議性的句子,可以為確認(rèn)句和提示句,是將用戶的句子作為查詢自動(dòng)地從句子數(shù)據(jù)庫中檢索出的。為了實(shí)現(xiàn)這個(gè)系統(tǒng),提議采納幾種技術(shù)。例如,第一種技術(shù)涉及改進(jìn)的例句推薦方法。第二種技術(shù)涉及改進(jìn)的幫助在用戶的母語中搜索的跨語言信息檢索方法和技術(shù)。還提議采納其他技術(shù)。
圖1展示在其中可以實(shí)現(xiàn)本發(fā)明的適合的計(jì)算系統(tǒng)環(huán)境100的例子。計(jì)算系統(tǒng)環(huán)境100僅是適合的計(jì)算環(huán)境的一個(gè)例子并不意味著對(duì)本發(fā)明的使用范圍或功能的任何限制。也不應(yīng)將計(jì)算環(huán)境100解釋為與在示范性操作環(huán)境100中展示的組件中的任何一個(gè)或其組合有任何相關(guān)性或需求。
本發(fā)明可以工作在大量其他通用或或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置中。適合于使用本發(fā)明的眾所周知的計(jì)算系統(tǒng)、環(huán)境及/或配置的例子包括,但不僅限于,個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或膝上設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)者電子產(chǎn)品、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、電話系統(tǒng)、包含任何上述系統(tǒng)或設(shè)備及類似系統(tǒng)的分布式計(jì)算環(huán)境。
本發(fā)明可以在計(jì)算機(jī)可執(zhí)行指令的通用環(huán)境中說明,如由計(jì)算機(jī)執(zhí)行的程序模塊。通常,程序模塊包括執(zhí)行特殊的任務(wù)或?qū)崿F(xiàn)特殊的抽象數(shù)據(jù)類型的例行程序、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。本發(fā)明也可以實(shí)現(xiàn)在分布式計(jì)算環(huán)境中,其中任務(wù)是由通過通訊網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備執(zhí)行的。在分布式計(jì)算環(huán)境中,程序模塊可以位于本地和遠(yuǎn)程的包括存儲(chǔ)器存儲(chǔ)設(shè)備的計(jì)算機(jī)存儲(chǔ)媒體。
參考圖1,實(shí)現(xiàn)本發(fā)明的示范性系統(tǒng)包括形式為計(jì)算機(jī)110的通用計(jì)算設(shè)備。計(jì)算機(jī)110的組件包括,但不僅限于,處理單元120、系統(tǒng)存儲(chǔ)器130和耦合包括系統(tǒng)存儲(chǔ)器的不同系統(tǒng)組件到處理單元120的系統(tǒng)總線121。系統(tǒng)總線121可以為幾種總線結(jié)構(gòu)的任何一種,包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍設(shè)備總線,和使用多種總線結(jié)構(gòu)的任何一種的本地總線。作為例子,而非限制,這樣的結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線、微通道結(jié)構(gòu)(MCA)總線、擴(kuò)展ISA(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)本地總線,和也稱為Mezzanine總線的外圍元件互連接口(PCI)總線。
計(jì)算機(jī)110通常包括多個(gè)計(jì)算機(jī)可讀媒體。計(jì)算機(jī)可讀媒體可以為任何可以被計(jì)算機(jī)110訪問的可用媒體并且包括易失的和非易失的媒體,可移動(dòng)的和不可移動(dòng)的媒體。作為例子,而非限制,計(jì)算機(jī)可讀媒體可以包括計(jì)算機(jī)存儲(chǔ)媒體和通訊媒體。計(jì)算機(jī)存儲(chǔ)媒體包括用來存儲(chǔ)信息如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)的以任何方法或技術(shù)實(shí)現(xiàn)的易失的和非易失的媒體,可移動(dòng)的和不可移動(dòng)的媒體。計(jì)算機(jī)存儲(chǔ)媒體包括,但不僅限于,RAM、ROM、EEPROM、閃存或其他存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其他光盤存儲(chǔ)、盒式磁帶、磁帶、磁盤存儲(chǔ)或其他磁存儲(chǔ)設(shè)備,或其他可以用來存儲(chǔ)所需信息并可以由計(jì)算機(jī)110訪問的任何媒體。通訊媒體通常包括計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或以已調(diào)制數(shù)據(jù)信號(hào)方式的其他數(shù)據(jù),如載波或其他傳輸機(jī)制,也包括其他任何信息傳輸媒體。術(shù)語“已調(diào)制數(shù)據(jù)信號(hào)”是一種信號(hào),它的一個(gè)或多個(gè)特性被設(shè)置或改變的方式對(duì)信號(hào)中的信息進(jìn)行編碼。作為例子,而非限制,通訊媒體包括以聲音、RF、紅外線或其他載體實(shí)現(xiàn)的有線或無線的技術(shù)。上述任何媒體的組合應(yīng)包括在計(jì)算機(jī)可讀媒體的范圍內(nèi)。
系統(tǒng)內(nèi)存130包括形式為可移動(dòng)和/或不可移動(dòng)、易失的和/或非易失的存儲(chǔ)器的計(jì)算機(jī)存儲(chǔ)媒體如只讀存儲(chǔ)器(ROM)131和隨機(jī)存取存儲(chǔ)器(RAM)132。包含基本的例程來幫助在計(jì)算機(jī)110的元件之間傳輸信息,如在啟動(dòng)過程中的基本輸入/輸出系統(tǒng)133(BIOS)一般存儲(chǔ)在ROM 131中。RAM 132通常包含需要能夠馬上訪問的和/或正在由處理單元120處理的數(shù)據(jù)和/或程序模塊。作為例子,而非限制,圖1用圖示說明操作系統(tǒng)134、應(yīng)用程序135、其他程序模塊136和程序數(shù)據(jù)137。
計(jì)算機(jī)110可以包含其他的可移動(dòng)的/不可移動(dòng)的、易失的/非易失的計(jì)算機(jī)存儲(chǔ)媒體。僅作為例子,圖1展示了一個(gè)讀寫不可移動(dòng)的、非易失的磁媒體的硬盤驅(qū)動(dòng)器141,一個(gè)讀寫可移動(dòng)的、非易失的磁盤152的磁盤驅(qū)動(dòng)器151,一個(gè)讀寫可移動(dòng)的、非易失的光盤156的光盤驅(qū)動(dòng)器155如CD-ROM或其他光學(xué)媒體。其他可以用在示范性的操作環(huán)境里的可移動(dòng)的/不可移動(dòng)的、易失的/非易失的存儲(chǔ)媒體包括,但不僅限于,磁帶和盒式磁帶、閃存卡、數(shù)字式多用途盤、數(shù)字視頻磁帶、固態(tài)的RAM、固態(tài)的ROM等等。硬盤驅(qū)動(dòng)器141通常與系統(tǒng)總線121通過不可移動(dòng)的存儲(chǔ)器接口相連,如接口140,以及磁盤驅(qū)動(dòng)器151和光盤驅(qū)動(dòng)器165通常與系統(tǒng)總線121通過可移動(dòng)的存儲(chǔ)器接口相連,如接口150。
上面在圖1中展示的驅(qū)動(dòng)器以及它們相關(guān)的計(jì)算機(jī)存儲(chǔ)媒體為計(jì)算機(jī)110存儲(chǔ)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)。在圖1中,例如,硬盤驅(qū)動(dòng)器141用來存儲(chǔ)操作系統(tǒng)144、應(yīng)用程序145、其他程序模塊146以及程序數(shù)據(jù)147。注意這些組件既可以與操作系統(tǒng)134、應(yīng)用程序135、其他程序模塊136以及程序數(shù)據(jù)137一樣也可以與它們不同。操作系統(tǒng)144、應(yīng)用程序145、其他程序模塊146以及程序數(shù)據(jù)147用不同的數(shù)字標(biāo)出以說明,至少它們是不同的拷貝。
用戶可以通過輸入設(shè)備,如鍵盤162、麥克風(fēng)163和定點(diǎn)設(shè)備161,通常稱為鼠標(biāo)、軌跡球或觸摸墊,提供命令和信息到計(jì)算機(jī)110中。其他輸入設(shè)備(未標(biāo)出)可以包括操縱桿、游戲墊、衛(wèi)星式轉(zhuǎn)盤、掃描儀或類似設(shè)備。這些和其他輸入設(shè)備通過連接到總線的用戶輸入接口160連接到處理單元120,但也可以通過其他接口和總線結(jié)構(gòu),如并行口、游戲口,或通用串行總線(USB)來連接。顯示器191或其他顯示設(shè)備也通過接口,如視頻適配器190與系統(tǒng)總線121連接。除顯示器之外,計(jì)算機(jī)還可以包括通過輸出外圍接口195或類似的接口連接的其他周邊輸出設(shè)備(未標(biāo)出),如揚(yáng)聲器197和打印機(jī)196。
計(jì)算機(jī)110可以使用與一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī),如遠(yuǎn)程計(jì)算機(jī)180的邏輯連接在聯(lián)網(wǎng)環(huán)境中運(yùn)行。遠(yuǎn)程計(jì)算機(jī)180可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其他公共網(wǎng)絡(luò)節(jié)點(diǎn),并通常包括多個(gè)或所有上述相對(duì)于計(jì)算機(jī)110的組件。圖1中所示邏輯連接是局域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,但也可以包括其他網(wǎng)絡(luò)。這樣的聯(lián)網(wǎng)環(huán)境在辦公室范圍或企業(yè)范圍的計(jì)算機(jī)網(wǎng)絡(luò)、企業(yè)內(nèi)部互聯(lián)網(wǎng)和因特網(wǎng)中是很常見的。
當(dāng)用在局域網(wǎng)聯(lián)網(wǎng)環(huán)境中,計(jì)算機(jī)110通過網(wǎng)絡(luò)接口或適配器170與局域網(wǎng)171相連。當(dāng)用在廣域網(wǎng)聯(lián)網(wǎng)環(huán)境中,計(jì)算機(jī)110通常包括調(diào)制解調(diào)器172或其他在廣域網(wǎng)173上建立通訊的方法。調(diào)制解調(diào)器172,可以為內(nèi)置的或外置的,通過用戶輸入接口160或其他適合的機(jī)制連接到系統(tǒng)總線121。在網(wǎng)絡(luò)環(huán)境中,所述相對(duì)于計(jì)算機(jī)110的程序模塊,或其部分,可以存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。作為例子,而非限制,如圖1所示,遠(yuǎn)程應(yīng)用程序185可以駐留在遠(yuǎn)程計(jì)算機(jī)181的存儲(chǔ)器設(shè)備中。應(yīng)理解所示網(wǎng)絡(luò)連接僅為示范性的,也可以使用其他在計(jì)算機(jī)之間建立通訊鏈路的方法。
圖2是作為示范性計(jì)算環(huán)境的移動(dòng)設(shè)備200的方框圖。移動(dòng)設(shè)備200包括微處理器202、存儲(chǔ)器204、輸入/輸出(I/O)組件206和用于和遠(yuǎn)程計(jì)算機(jī)或其他移動(dòng)設(shè)備通訊的通訊接口208。在一個(gè)實(shí)例中,上述組件為了互相通訊被耦合在適合的總線210上。
存儲(chǔ)器204實(shí)現(xiàn)為非易失電子存儲(chǔ)器如有備用電池模塊(未標(biāo)出)的隨機(jī)訪問存儲(chǔ)器(RAM),使得當(dāng)移動(dòng)設(shè)備210的總電源關(guān)閉時(shí)存儲(chǔ)在存儲(chǔ)器204中的信息不丟失。存儲(chǔ)器204的一部分最好為用于程序執(zhí)行而分配作為可尋址的存儲(chǔ)器,而存儲(chǔ)器204的另一部分最好用于存儲(chǔ),如模擬在硬盤驅(qū)動(dòng)器上的存儲(chǔ)。
存儲(chǔ)器204包括操作系統(tǒng)212、應(yīng)用程序214和對(duì)象存儲(chǔ)216。在運(yùn)行時(shí),操作系統(tǒng)212由處理器202從存儲(chǔ)器204優(yōu)先執(zhí)行。操作系統(tǒng)202,在一個(gè)首選實(shí)例中,為商業(yè)上由微軟公司提供的WINDOWSCE品牌的操作系統(tǒng)。操作系統(tǒng)212是為移動(dòng)設(shè)備優(yōu)先設(shè)計(jì)的,并且實(shí)現(xiàn)可以由應(yīng)用程序214通過一組暴露的應(yīng)用程序接口和方法利用的數(shù)據(jù)庫特性。對(duì)象存儲(chǔ)216中的對(duì)象由應(yīng)用程序214和操作系統(tǒng)212維護(hù),至少部分響應(yīng)對(duì)暴露的應(yīng)用程序接口和方法的調(diào)用。
通訊接口208表示大量的允許移動(dòng)設(shè)備200發(fā)送和接收信息的設(shè)備和技術(shù)。列出一部分,這些設(shè)備包括有線和無線的調(diào)制解調(diào)器、衛(wèi)星接收器和廣播調(diào)諧器。移動(dòng)設(shè)備200也可以直接連接到計(jì)算機(jī)以與其交換數(shù)據(jù)。在這種情況下,通訊接口208可以為紅外收發(fā)器或串口或并口通訊連接,它們都能傳輸流式信息。
輸入/輸出組件206包括不同的輸入設(shè)備如觸摸屏、按鈕、滾輪和麥克風(fēng)以及不同的輸出設(shè)備,包括音頻發(fā)生器、振動(dòng)設(shè)備和顯示屏。上面所列設(shè)備是作為例子并不需要全部出現(xiàn)在移動(dòng)設(shè)備200中。另外,在本發(fā)明的范圍內(nèi)其他輸入/輸出設(shè)備也可以連接到或內(nèi)置在移動(dòng)設(shè)備200中。
根據(jù)本發(fā)明的不同方面,所提議采納的是對(duì)非母語的人提供實(shí)用的工具來輔助英語寫作的方法和系統(tǒng)。本發(fā)明并不集中在輔助用戶的拼寫和語法,而是集中于句子潤(rùn)色輔助。總的來說,假設(shè)不時(shí)需要以英語寫作的用戶必需具有英語詞匯和語法的基本知識(shí)。換句話說,給出選擇時(shí),用戶有一些能力來區(qū)分好的句子和壞的句子。
本發(fā)明實(shí)例所用方法是提供適合的句子給用戶,無論他或她在寫什么或在什么時(shí)間寫。該場(chǎng)景很簡(jiǎn)單無論合適用戶寫一個(gè)句子,系統(tǒng)檢測(cè)他的或她的意圖,并提供一些例句。然后,用戶通過參考這些例句來潤(rùn)色他的或她的句子。這種技術(shù)被稱為“例句智能推薦”。
圖3方框圖,展示本發(fā)明輔助用戶構(gòu)建和潤(rùn)色英語句子的系統(tǒng)和方法。更通用地,該系統(tǒng)和方法輔助用戶構(gòu)建和潤(rùn)色以第一種語言寫出的句子,但是作為例子本發(fā)明通過引用英語句子潤(rùn)色來說明。系統(tǒng)300包括用來接收或錄入輸入查詢到系統(tǒng)中的輸入305。輸入查詢可以有多種形式,包括部分或完整的英語句子、部分或完整的中文句子(或更通用地,第二種語言的句子),甚至是以第二種語言的句子結(jié)構(gòu)或語法混合第一種語言的單詞的形式(例如,“中文式的英語”)。
查詢處理組件310提供查詢,或者整個(gè)或者相關(guān)的組成部分,給搜索引擎315。搜索引擎315使用查詢項(xiàng)或從查詢項(xiàng)產(chǎn)生的信息搜索句子數(shù)據(jù)庫320。在整個(gè)輸入查詢被提供給搜索引擎315來處理并搜索的實(shí)例中,查詢處理組件310可以和輸入305組合。然而,在一些實(shí)例中,查詢處理組件310可以對(duì)查詢執(zhí)行一些處理功能,例如從查詢中抽取項(xiàng)并將這些項(xiàng)傳送給搜索引擎315。更進(jìn)一步,雖然本發(fā)明大部分是引用由搜索引擎315整個(gè)或部分地實(shí)現(xiàn)方法來說明的,在其他實(shí)例中,部分或全部的方法可以部分地在組件310中實(shí)現(xiàn)。
數(shù)據(jù)庫320包含大量從標(biāo)準(zhǔn)英語文檔中抽取出的例句。搜索引擎315從數(shù)據(jù)庫中檢索用戶期望的例句。例句由搜索引擎315排列,并在句子輸出組件325處提供給用戶在潤(rùn)色他或她寫出的句子時(shí)作參考。
用戶通過在運(yùn)行在如圖1和圖2所示的計(jì)算機(jī)或計(jì)算環(huán)境中的字處理程序中寫一些東西輸入查詢。例如,他或她可以輸入一個(gè)單詞,或一個(gè)短語,或整個(gè)句子。有時(shí),查詢是以他或她的母語寫出,即使最終的目標(biāo)是以第一種或非母語(如,英語)寫出一個(gè)句子。用戶的輸入將被作為對(duì)搜索引擎315的查詢來處理。搜索引擎搜索句子庫320來找出相關(guān)的句子。相關(guān)的句子被分為兩類確認(rèn)句和提示句。
確認(rèn)句被用來確認(rèn)或指導(dǎo)用戶的句子結(jié)構(gòu),而提示句被用來提供擴(kuò)展的表達(dá)。確認(rèn)句應(yīng)在句子結(jié)構(gòu)或形式上接近用戶輸入的查詢或預(yù)期的輸入查詢以作為語法上的例子使用。提示句應(yīng)在意思上與用戶的輸入查詢句子相似,并被用來向用戶提供表達(dá)一個(gè)特定思想的另一種方法。本發(fā)明的各方面在搜索引擎組件315中以下述方式實(shí)現(xiàn)。然而,在其他實(shí)例中,本發(fā)明的某些方面可以在查詢處理組件310中實(shí)現(xiàn)。注意雖然本發(fā)明是在中文和英語的上下文中說明的,本發(fā)明和語言無關(guān)并可以容易地?cái)U(kuò)展到其他語言。
為了對(duì)上述挑戰(zhàn)中的一個(gè)或多個(gè)提供解決方法,系統(tǒng)300和它實(shí)現(xiàn)的方法使用能夠進(jìn)行自然語言處理(能夠進(jìn)行NLP)的跨語言信息檢索設(shè)計(jì)。它使用常規(guī)的信息檢索(IR)模型為基線,并應(yīng)用NLP技術(shù)來提高檢索精度。
基線系統(tǒng)搜索引擎315所改進(jìn)的基線系統(tǒng)是在傳統(tǒng)的IR系統(tǒng)中廣泛使用的一種方法。這種方法的總體說明如下。
以D表示的整個(gè)例句集合包含多個(gè)“文檔”,每個(gè)文檔實(shí)際上是句子數(shù)據(jù)庫320中的一個(gè)例句。對(duì)常規(guī)IR索引方法,文檔的索引結(jié)果(僅包含一個(gè)句子)可以表示為權(quán)重的一個(gè)向量,如公式1所示公式1Di→(di1,di2,…,dim)其中dik(1≤k≤m)為項(xiàng)tk在文檔Di中的權(quán)重,m是向量空間的大小,由集合中發(fā)現(xiàn)的不同項(xiàng)的數(shù)量來確定。在一個(gè)例子實(shí)例中,項(xiàng)為英語單詞。一個(gè)項(xiàng)在文檔中的權(quán)重dik根據(jù)它在文檔中出現(xiàn)的頻數(shù)(tf-項(xiàng)頻數(shù)),以及它在整個(gè)集合中的分布(idf-逆文檔頻數(shù))來計(jì)算。有多種計(jì)算和定義項(xiàng)權(quán)重dik的方法。在這里,作為例子,我們使用公式2所示的關(guān)系公式2
dik=[log(fik)+1.0]*log(N/nk)Σj[(log(fik)+1.0)*log(N/nk)]2]]>其中fik為項(xiàng)tk在文檔Di中出現(xiàn)的頻數(shù),N為集合中文檔的總數(shù),及nk為包含項(xiàng)tk的文檔的數(shù)量。這是在IR中最普通使用的TF-IDF加權(quán)方法。
如TF-IDF加權(quán)方法中常見的那樣,查詢Q,即用戶的輸入句子,以相似的方法來索引,同時(shí)對(duì)一個(gè)查詢也取得一個(gè)向量,如公式3所示公式3Qj→(qj1,qj2,…,qjm)文檔集合中的文檔(句子)Dj和查詢句子Qj之間的相似性Sim(Di,Qj) 可以用它們的向量的內(nèi)積來計(jì)算,如公式4所示公式4Sim(Di,Qj)=Σk(dik*qjk)]]>能夠進(jìn)行NLP的跨語言信息檢索設(shè)計(jì)附加,或代替,使用如上所述的基線方法來進(jìn)行句子檢索,搜索引擎315基于該方法使用能夠進(jìn)行NLP的跨語言信息檢索方法。NLP技術(shù)方法論提高了檢索精度,如下所述。為了提高檢索精度,系統(tǒng)300單獨(dú)或組合使用兩個(gè)擴(kuò)展的索引單元方法。首先,為了在構(gòu)建一個(gè)句子時(shí)反映語言學(xué)的意義,不同類型的索引單元被賦予不同的權(quán)重。其次,為了改進(jìn)提示句檢索,使用了一種新方法。對(duì)查詢句子,所有的單詞都被替換為它們的近義詞或相關(guān)的詞,例如來自辭典的同義詞。然后,使用相關(guān)性三元組數(shù)據(jù)庫來過濾不合法的搭配以去除可能的干擾擴(kuò)展。
為了改進(jìn)查詢翻譯,在搜索引擎315(或組件310)中使用基于相關(guān)性三元組的新的翻譯模型。首先,從查詢中抽取出主相關(guān)性三元組,然后基于這些三元組進(jìn)行翻譯。下面是有關(guān)相關(guān)性三元組數(shù)據(jù)庫的說明。
相關(guān)性三元組數(shù)據(jù)庫相關(guān)性三元組包含頭部、從屬部及頭部和從屬部之間的相關(guān)性關(guān)系。使用相關(guān)性解析器,句子被分解為一組如公式5所示形式的相關(guān)性三元組trp公式5
trp=(w1,rel,w2)例如,對(duì)英語句子“I have a brown dog”,相關(guān)性解析器可以得到一組如圖4-1所示的三元組。相關(guān)性解析器結(jié)果的標(biāo)準(zhǔn)表達(dá)為(have,sub,I),(have, obj,dog),(dog,adj,brown),(dog,det,a)。類似地,對(duì)中文句子“國家頒布了計(jì)劃”(英語為“The nation has issued the plan”),相關(guān)性解析器可以得到一組如圖4-2所示的三元組。相關(guān)性解析器結(jié)果的標(biāo)準(zhǔn)表達(dá)為(頒布,sub,國家),(頒布,obj,計(jì)劃),(頒布,comp,了)。
在一些實(shí)例中,本發(fā)明的搜索引擎315使用相關(guān)性三元組數(shù)據(jù)庫360來擴(kuò)展從查詢中抽取出的主相關(guān)性三元組的搜索項(xiàng)。因此,相關(guān)性三元組數(shù)據(jù)庫可以包含在,或耦合到查詢處理組件310和搜索引擎315之一。圖5-1展示創(chuàng)建相關(guān)性三元組數(shù)據(jù)庫360的方法。后面所述圖8展示了連接到三元組數(shù)據(jù)庫360的搜索引擎。
如圖5-1所示,來自文本語言資料庫的每個(gè)句子由相關(guān)性解析器355解析并且生成一組相關(guān)性三元組。每個(gè)三元組都被放到三元組數(shù)據(jù)庫360中。如果在三元組數(shù)據(jù)庫360中已經(jīng)存在一個(gè)三元組的實(shí)例,該三元組的頻數(shù)增加。在解析所有的句子后,包含成千上萬個(gè)三元組的三元組數(shù)據(jù)庫被創(chuàng)建出。由于解析器不是100%E確的,同時(shí)可能會(huì)引入一些解析錯(cuò)誤。如果需要,可以用過濾器組件365來去除由解析錯(cuò)誤引入的干擾三元組,在數(shù)據(jù)庫360中只留下正確的三元組。
使用NLP技術(shù)改進(jìn)檢索精度根據(jù)本發(fā)明,搜索引擎使用兩種方法中的一種或兩種來改進(jìn)“確認(rèn)句”檢索結(jié)果。一種方法使用擴(kuò)展的索引項(xiàng)。另一種方法使用一種新的排列算法來排列檢索到的確認(rèn)句。
擴(kuò)展的索引項(xiàng)使用常規(guī)的IR方法,搜索引擎315僅使用輸入查詢的詞條定義該搜索的索引單元來搜索句子庫320?!霸~條”是一個(gè)單詞基本的、未變形的形式,也稱為詞干。為了改進(jìn)在句子庫320中對(duì)確認(rèn)句的搜索,根據(jù)本發(fā)明,除詞條外下面所列之一或更多作為索引單元加入(1)有詞性(POS)的詞條單詞;(2)短語動(dòng)詞;及(3)相關(guān)性三元組。
例如,考慮一個(gè)輸入查詢句子“The scientist presided over theworkshop”。使用常規(guī)的IR索引方法,如上述基線系統(tǒng),只有詞條被用作索引單元(即,功能詞作為停止詞被去除)。表1展示了這個(gè)例子輸入查詢句子的詞條表1
使用本發(fā)明的擴(kuò)展的索引方法,對(duì)相同的例句,在表2中展示的索引項(xiàng)也被用在由搜索引擎315進(jìn)行的數(shù)據(jù)庫搜索中。
表2
雖然一個(gè)或多個(gè)可能的擴(kuò)展索引單元(有詞性的詞條、短語動(dòng)詞及相關(guān)性三元組)可以被加到詞條索引單元中,在本發(fā)明的一些實(shí)例中,通過添加所有三種類型的擴(kuò)展索引單元到詞條索引單元中能夠獲得有利的結(jié)果。然后使用新的排列算法來排列由搜索引擎315從句子數(shù)據(jù)庫320中對(duì)特殊的輸入查詢使用擴(kuò)展索引單元檢索到的確認(rèn)句。
排列算法在搜索引擎從數(shù)據(jù)庫中檢索到一些確認(rèn)句之后,例如使用上述擴(kuò)展索引單元方法或其他方法,排列確認(rèn)句來確定語法上或結(jié)構(gòu)上和輸入查詢最相似的句子。然后,使用輸出325,一個(gè)或更多的確認(rèn)句被顯示給用戶,有著最高級(jí)別(最相似)的確認(rèn)句被放在第一位或顯示為最相關(guān)的。例如,排列后的確認(rèn)句可以顯示為編號(hào)的列表,作為例子如圖3所示。
根據(jù)本發(fā)明的實(shí)例,排列算法基于它們各自于輸入查詢的相似性Sim(Di,Qj)排列確認(rèn)句。排列算法相似性計(jì)算按如公式6所示關(guān)系進(jìn)行公式6Sim(Di,Qj)=Σk(dik*qjk*Wjk)f(Li)]]>其中,Di為第ith個(gè)確認(rèn)句Di->(di1,di2,…,dim)的向量權(quán)重表示(參見上面的公式1);Qj為輸入查詢Qj->(qj1,qj2,…,qjm)的向量權(quán)重表示;Li為Di的句子長(zhǎng)度;f(Li)為L(zhǎng)i的句子長(zhǎng)度因子或函數(shù)(例如,f(Li)=Li2]]>);及Wjk為項(xiàng)qjk的語言學(xué)權(quán)重。
在一個(gè)例子實(shí)例中,不同詞性的語言學(xué)權(quán)重在表3的第二列中提供。然而,本發(fā)明不限于任何具體的加權(quán)。
表3
和常規(guī)的IR排列算法相比,例如在公式4中所示,本發(fā)明使用相似性關(guān)系在公式6中所示的排列算法包括更好地反映確認(rèn)句相對(duì)于輸入查詢的語言學(xué)意義的兩個(gè)新特性。一個(gè)是在查詢Qj中的項(xiàng)的語言學(xué)權(quán)重Wjk。例如,及物動(dòng)詞相關(guān)性三元組可以被賦予最大的權(quán)重,而動(dòng)詞短語、不及物動(dòng)詞等等相應(yīng)地被賦予不同的權(quán)重,每個(gè)權(quán)重都反映特殊類型的項(xiàng)、句子成分或詞性關(guān)系在選擇相關(guān)的確認(rèn)句時(shí)的重要性或意義。
用戶被認(rèn)為更加注意反映句子結(jié)構(gòu)和詞組的問題。例如,他們對(duì)動(dòng)詞的注意超過名詞。因此,可以賦予語言學(xué)權(quán)重來檢索有被認(rèn)為對(duì)典型用戶最重要的特殊類型的項(xiàng)、句子成分或詞性關(guān)系的確認(rèn)例句。
加到相似性函數(shù)中的第二個(gè)特性是句子長(zhǎng)度因子或函數(shù)f(Li)。在一個(gè)實(shí)例中使用的直覺是在相同的條件下短句應(yīng)比長(zhǎng)句有更高的排列次序。例子句子長(zhǎng)度因子或函數(shù)f(Li)=Li2]]>為輔助至少部分地基于長(zhǎng)度排列確認(rèn)句的一個(gè)可能的函數(shù)。也可以使用其他函數(shù)。例如,可以用其他指數(shù)長(zhǎng)度函數(shù)。進(jìn)一步來說,在其他實(shí)例中,可以選取長(zhǎng)度因子使得較長(zhǎng)的確認(rèn)句有更高的排列次序,如果這樣有利的話。
雖然用在這個(gè)特殊的相似性排列算法中的兩個(gè)新特性(Wjk和f(Li))可以如公式6所示一起應(yīng)用來改進(jìn)確認(rèn)句檢索,在其他實(shí)例中這些特性的每一個(gè)都可以單獨(dú)使用。換句話說,可以使用如公式7和8所示的相似性排列算法Sim(Di,Qj)。
公式7Sim(Di,Qj)=Σk(dik*qjk)f(Li)]]>公式8Sim(Di,Qj)=Σk(dik*qjk)*Wjk]]>改進(jìn)的提示句檢索在系統(tǒng)300中,搜索引擎315使用本發(fā)明的查詢擴(kuò)展方法來改進(jìn)提示句檢索。查詢擴(kuò)展方法400總體上在方框圖5-2中展示。查詢擴(kuò)展方法提供用在搜索句子數(shù)據(jù)庫320中的替換表達(dá)。
擴(kuò)展過程如下首先,如在405所示,我們使用定義在機(jī)器可讀的辭典,例如WordNet中的同義詞來擴(kuò)展查詢中的項(xiàng)。這種方法通常用在常規(guī)的IR系統(tǒng)的查詢擴(kuò)展中。然而單獨(dú)使用時(shí),這種方法受干擾擴(kuò)展的問題影響。為了避免干擾擴(kuò)展的問題,由搜索引擎315使用的方法400在為提示句搜索句子數(shù)據(jù)庫之前實(shí)現(xiàn)附加的步驟410和415。
如在410所示,擴(kuò)展項(xiàng)被合并以構(gòu)成可能的三元組。然后,如在415所示,用圖5-1和圖8所示的相關(guān)性三元組數(shù)據(jù)庫360檢查所有可能的三元組。只有那些曾經(jīng)出現(xiàn)在三元組數(shù)據(jù)庫中的三元組被選擇作為擴(kuò)展查詢項(xiàng)。那些未在三元組數(shù)據(jù)庫中發(fā)現(xiàn)的擴(kuò)展三元組被丟棄。然后,使用余下的擴(kuò)展項(xiàng)搜索句子數(shù)據(jù)庫來得到提示句,如在420所示。
例如查詢I will take the job同義詞集合take|accept|acquire|admit|aim|ask|…三元組數(shù)據(jù)庫中的三元組accept~Dobj~job,余下的擴(kuò)展項(xiàng)accept~Dobj~job提示句檢索的混淆方法有時(shí),用戶會(huì)用第一種語言的單詞的混合及第二種語言的語法結(jié)構(gòu)來輸入查詢。例如,一個(gè)以英語寫作的中文用戶會(huì)輸入通常被稱為“中文式英語”的查詢。在本發(fā)明的一些實(shí)例中,搜索引擎315被設(shè)計(jì)為在搜索句子數(shù)據(jù)庫得到提示句之前檢測(cè)用戶的意圖。搜索引擎可以使用兩種方法中的一種或全部檢測(cè)用戶的意圖。
檢測(cè)用戶意圖的第一種方法450在圖6-1中用一個(gè)例子展示。這稱為翻譯方法。使用這種方法,用戶的查詢?nèi)缢驹?55接收,并由第一種語言(有著第二種語言的語法、結(jié)構(gòu)、搭配等等)翻譯為第二種語言,如在460所示。如在465所示,查詢?nèi)缓蟊粡牡诙N語言翻譯回第一種語言。作為例子,步驟460和465就中文和英語來展示。然而,必須注意這些步驟并不限于任何特殊的第一種和第二種語言。
在第一個(gè)例子中,在470所示并對(duì)應(yīng)于步驟455的輸入查詢是包含一個(gè)常見搭配錯(cuò)誤的中文式的英語查詢,“Open the light”。如在475所示并對(duì)應(yīng)于步驟460,該中文式的英語查詢被翻譯為中文查詢“開燈”。然后,如在480所示并對(duì)應(yīng)于步驟465,該中文查詢被翻譯回并不包含初始查詢中的搭配錯(cuò)誤的英語查詢“Turn on the light”。這個(gè)方法被用來模仿用戶的思維方式,但需要一個(gè)準(zhǔn)確的翻譯組件。如果翻譯質(zhì)量很差的話,方法450可能回產(chǎn)生過多的干擾。因此,可以使用圖6-2所示的方法500。
第二種方法,在這里稱為“混淆方法”,使用混淆集合數(shù)據(jù)庫擴(kuò)展在用戶查詢中的詞對(duì)。這種方法在圖6-3中展示,而構(gòu)建混淆集合數(shù)據(jù)庫的方法在圖6-2中展示?;煜鲜且粋€(gè)包含混淆的詞對(duì),如“open/turn on”的數(shù)據(jù)庫。這可以包含詞之間的搭配、在翻譯上易混淆的單個(gè)詞,及其他混淆的詞對(duì)。通常,詞對(duì)將使用同種語言,但如果需要也可以用一個(gè)翻譯的詞來注釋。
首先參考圖6-2,所示的是構(gòu)建由搜索引擎315在檢測(cè)用戶意圖時(shí)使用的混淆集合數(shù)據(jù)庫505的方法500?;煜系募?,或混淆集合數(shù)據(jù)庫505的構(gòu)建可以在詞和句子對(duì)齊的雙語語言資料庫510的輔助下進(jìn)行。在這里所用的例子中,語言資料庫510是英漢雙語語言資料庫。如在515所示,該方法包括中文詞對(duì)到英語詞對(duì)的人工翻譯(人工翻譯以Eng’表示)。然后將英語翻譯詞對(duì)Eng’和正確的英語翻譯詞對(duì)(以Eng表示)對(duì)齊,如在520所示。這樣的對(duì)齊是可能的,因?yàn)檎_的翻譯在原有的雙語語言資料庫中是現(xiàn)成的。在此,定義了詞對(duì)的集合,該集合對(duì)于一個(gè)特殊的中文詞對(duì)把英語翻譯與英語原始詞對(duì)(由它在雙語語言資料庫中的對(duì)齊來定義的正確的翻譯詞)相關(guān)聯(lián){英語翻譯,英語原始}任何在其中翻譯詞對(duì)和原始詞對(duì)相同的詞對(duì)集合,{英語翻譯,英語原始}或{Eng’,Eng},被標(biāo)識(shí)出并從混淆集合中去除。那些英語翻譯和英語原始不同的集合保留在混淆集合數(shù)據(jù)庫505中。也可以通過加入一些典型的混淆詞對(duì),如在教科書525中定義的或現(xiàn)有的個(gè)人混淆詞的收集530l來擴(kuò)展混淆集合。
圖6-3展示通過使用混淆集合數(shù)據(jù)庫505在用戶查詢中擴(kuò)展詞對(duì)來確定用戶意圖的方法。如在605所示,在輸入組件處接收用戶查詢。然后比較用戶查詢中的詞對(duì)和混淆集合數(shù)據(jù)庫中的詞對(duì),如在搜索引擎的比較組件610所示。通常,這是比較用戶查詢中的英語詞對(duì)和對(duì)應(yīng)的數(shù)據(jù)庫中的人工翻譯詞對(duì),Eng’。然后在混淆集合數(shù)據(jù)庫中有匹配條目的用戶查詢中的詞對(duì)Eng’由來自該集合的原始詞對(duì),Eng,替換,如在查詢擴(kuò)展組件或步驟615所示。換句話說,用正確的翻譯詞對(duì)來替換它們。然后搜索引擎315的句子檢索組件使用通過混淆集合數(shù)據(jù)庫創(chuàng)建的新的查詢來搜索句子數(shù)據(jù)庫320。再次,雖然混淆集合方法是引用由以中文為母語的人寫的英語詞對(duì)來說明,這些方法是語言無關(guān)的,并且也可以應(yīng)用到其他語言的組合。
查詢翻譯如圖7所示,搜索引擎315也使用查詢翻譯來改進(jìn)句子檢索。給出一個(gè)用戶查詢(655所示),用一個(gè)穩(wěn)健的解析器抽取出關(guān)鍵相關(guān)性三元組,如在660所示。然后這些三元組被逐個(gè)翻譯,如在665所示。最后,所有這些三元組的翻譯被搜索引擎315用作查詢項(xiàng)。
假設(shè)我們要翻譯一個(gè)中文相關(guān)性三元組C=(wC1,relC,wC2)為英語相關(guān)性三元組e=(wE1,re1E,wE2)。這等價(jià)于找到根據(jù)統(tǒng)計(jì)翻譯模型能夠最大化值P(e/c)的emax。
根據(jù)Bayes定理,我們寫出公式9P(e|c)=P(e)P(c|e)P(c)]]>因?yàn)榉帜窹(c)是和e不相關(guān)的,并且對(duì)給定的中文三元組是一個(gè)常數(shù),我們得到公式10emax=argmaxe(P(e)P(c|e))]]>在此,因子P(e)是在英語中出現(xiàn)相關(guān)性三元組e的似然性的測(cè)度。這使得e的輸出自然并且合乎語法。P(e)通常稱為語言模型,它僅依賴于目標(biāo)語言。P(c/e)通常稱為翻譯模型。
在單個(gè)三元組翻譯中,可以使用MLE(極大似然估計(jì))來估計(jì)P(e),如下面所示公式11PMLE(wE1,relE,wE2)=f(wE1,relE,wE2)f(*,*,*)]]>另外,我們得到公式12P(c|e)=P(wC1|relC,e)×P(wC2|relC,e)×P(relC|e)P(relC/e)是主要依賴于特定詞的一個(gè)參數(shù)。但這可以被簡(jiǎn)化為公式13P(relC|e)=P(relC|relE)根據(jù)我們假設(shè)的中文相關(guān)性關(guān)系和英語相關(guān)性關(guān)系之間的對(duì)應(yīng),我們得到P(relC/relE)≈1。進(jìn)一步來說,我們假設(shè)在翻譯中詞的選取和相關(guān)性關(guān)系的類型無關(guān),因此我們可以假設(shè)wC1只和wE1相關(guān),并且wC2只和wE2相關(guān)。詞翻譯概率P(c/e)可以用并行語言資料庫來估計(jì)。
于是我們得到
公式14emax=argmaxe(P(e)×P(c|e))]]>=argmaxe(P(e)×P(c|e))]]>=argmaxwE1,wE2(P(e)×P(wC1|wE1)×P(wC2|wE2))]]>因此,給定一個(gè)中文三元組,英文翻譯可以通過這種統(tǒng)計(jì)方法來獲得。
整個(gè)系統(tǒng)圖8為方框圖,展示搜索引擎315的實(shí)例315-1,該實(shí)例包括這里揭示的各種確認(rèn)和提示句檢索概念。雖然圖8所示的搜索引擎實(shí)例315-1使用這里揭示的各種特性的組合來改進(jìn)確認(rèn)和提示句檢索,如上所述,搜索引擎315的其他實(shí)例僅包括這些特性之一,或這些特性的不同組合。因此,必須理解本發(fā)明的搜索引擎包含上述特性的每一種組合。
如圖8在705所示,輸入查詢由搜索引擎315-1接收。如在710所示,搜索引擎315-1包括確定該查詢是否為英語(或更一般地是否為第一種語言)的語言確定組件。如果該查詢不為英語(或第一種語言),例如該查詢?yōu)橹形?,該查詢被翻譯為英語或第一種語言,如在查詢翻譯模塊或組件715所示。查詢翻譯模塊或組件715使用,例如,上述的圖7和公式10-14所指的查詢翻譯方法。
如果該查詢?yōu)橛⒄Z或第一種語言,或在該查詢翻譯為英語或第一種語言之后,分析組件或步驟720使用解析器725來獲得以相關(guān)性三元組形式(為邏輯形式)表示的解析結(jié)構(gòu)。在用戶以英語寫作的實(shí)例中,解析器為英語解析器,如Microsoft Research Redmond開發(fā)的NLPWin,然而也可以使用其他已知的解析器。在獲得屬于該查詢的這些項(xiàng)30后,搜索引擎315-1的檢索組件735從句子庫320中檢索句子。對(duì)確認(rèn)句檢索,句子的檢索包括使用上述擴(kuò)展索引項(xiàng)方法的檢索。然后使用排列組件或步驟740排列檢索到的句子,例如使用上述公式6-8所示的、在745提供作為例子的排列方法。這個(gè)過程實(shí)現(xiàn)了確認(rèn)句檢索。
為了檢索提示句,使用擴(kuò)展組件或步驟750來擴(kuò)展項(xiàng)列表。使用辭典755(如上參考圖5-2所述)和混淆集合505(如上參考圖6-2和6-3所述)兩個(gè)資源之一執(zhí)行項(xiàng)的擴(kuò)展。然后,例如參考圖5-2,按如上所述使用過濾組件擴(kuò)展項(xiàng)或步驟760用三元組數(shù)據(jù)庫360過濾擴(kuò)展項(xiàng)。結(jié)果為也存在于三元組數(shù)據(jù)庫中的擴(kuò)展項(xiàng)集合765。然后檢測(cè)組件735使用擴(kuò)展項(xiàng)來檢測(cè)提示句例如745。以對(duì)確認(rèn)句同樣的方式在740對(duì)提示句排序。在交互式搜索模式中,如果檢索到的句子并不讓人滿意,用戶可以加亮他或她希望關(guān)注的詞,并且再次搜索。
雖然本方面是通過引用特殊的實(shí)例來說明的,熟悉相關(guān)技術(shù)的人會(huì)承認(rèn)可以做出在形式上和細(xì)節(jié)上的更改而不偏離本發(fā)明的精神和范圍。例如,引用中文為母語的人進(jìn)行英語寫作在概念上適用于由母語為不同于第一種語言的第二種語言的人以第一種語言進(jìn)行寫作。同樣,其中引用識(shí)別或存儲(chǔ)對(duì)第二種語言的詞第一種語言翻譯的詞,這個(gè)引用包括識(shí)別或存儲(chǔ)對(duì)應(yīng)于第二種語言的詞的第一種語言的短語,及識(shí)別或存儲(chǔ)對(duì)應(yīng)于第二種語言的短語的第一種語言的詞。
權(quán)利要求
1.一種向用戶提供來自句子數(shù)據(jù)庫的句子以響應(yīng)查詢的方法,其特征在于,該方法包括接收查詢;基于查詢定義索引單元,該索引單元包括來自查詢的詞條和與查詢關(guān)聯(lián)的擴(kuò)展索引單元;及使用已定義的索引單元作為搜索參數(shù)檢索來自句子數(shù)據(jù)庫的多個(gè)句子;確定多個(gè)檢索到的句子的每一個(gè)和查詢之間的相似性,所述每一個(gè)相似性作為查詢中的項(xiàng)的語言學(xué)權(quán)重的函數(shù)來確定;及基于已確定的相似性排列多個(gè)檢索到的句子。
2.如權(quán)利要求1所述的方法,其特征在于,所述查詢中的項(xiàng)的語言學(xué)權(quán)重為作為查詢中的項(xiàng)的詞性的函數(shù)賦給它的權(quán)重。
3.如權(quán)利要求2所述的方法,其特征在于,所述確定多個(gè)檢索到的句子的每一個(gè)和查詢之間的相似性進(jìn)一步包括作為查詢中的多個(gè)項(xiàng)的語言學(xué)權(quán)重的函數(shù)來確定每個(gè)相似性。
4.如權(quán)利要求3所述的方法,其特征在于,所述確定多個(gè)檢索到的句子的每一個(gè)和查詢之間的相似性進(jìn)一步包括作為查詢中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重和語言學(xué)權(quán)重的函數(shù)來確定每個(gè)相似性。
5.如權(quán)利要求4所述的方法,其特征在于,所述查詢中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為查詢中相應(yīng)項(xiàng)的出現(xiàn)頻數(shù)的函數(shù)來確定。
6.如權(quán)利要求5所述的方法,其特征在于,所述查詢中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為句子數(shù)據(jù)庫中相應(yīng)項(xiàng)的出現(xiàn)頻數(shù)的函數(shù)來確定。
7.如權(quán)利要求6所述的方法,其特征在于,所述確定多個(gè)檢索到的句子的每一個(gè)和查詢之間的相似性進(jìn)一步包括特殊的檢索到的句子的相似性作為特殊的句子中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重、查詢中的多個(gè)項(xiàng)的每一個(gè)向量權(quán)重和查詢中的多個(gè)項(xiàng)的每一個(gè)的語言學(xué)權(quán)重的函數(shù)來確定。
8.如權(quán)利要求7所述的方法,其特征在于,所述特殊的已檢索到的句子中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為相應(yīng)項(xiàng)在特殊的已檢索到的句子中的發(fā)生頻數(shù)的函數(shù)來確定。
9.如權(quán)利要求8所述的方法,其特征在于,所述特殊的已檢索到的句子中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為相應(yīng)項(xiàng)在句子數(shù)據(jù)庫中的發(fā)生頻數(shù)的函數(shù)來確定。
10.如權(quán)利要求9所述的方法,其特征在于,所述確定多個(gè)檢索到的句子的每一個(gè)和查詢之間的相似性進(jìn)一步包括特殊的已檢索到的句子的相似性作為查詢中的多個(gè)項(xiàng)的每一個(gè)向量權(quán)重、特殊的已檢索到的句子中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重,和查詢中的多個(gè)項(xiàng)的每一個(gè)的語言學(xué)權(quán)重的內(nèi)積來確定
11.如權(quán)利要求1所述的方法,其特征在于,所述每個(gè)相似性進(jìn)一步作為對(duì)應(yīng)于多個(gè)已檢索到的句子中的對(duì)應(yīng)句子長(zhǎng)度的句子長(zhǎng)度因子的函數(shù)來確定。
12.如權(quán)利要求11所述的方法,其特征在于,所述句子長(zhǎng)度因子為對(duì)應(yīng)于多個(gè)已檢索到的句子中的對(duì)應(yīng)句子的長(zhǎng)度的函數(shù)。
13.如權(quán)利要求12所述的方法,其特征在于,所述句子長(zhǎng)度因子為對(duì)應(yīng)于多個(gè)已檢索到的句子中的對(duì)應(yīng)句子的長(zhǎng)度的指數(shù)函數(shù)。
14.如權(quán)利要求1所述的方法,其特征在于,所述基于查詢定義索引單元進(jìn)一步包括定義索引單元來包括來自查詢的詞條及來自查詢有對(duì)應(yīng)詞性的詞條。
15.如權(quán)利要求1所述的方法,其特征在于,所述基于查詢定義索引單元進(jìn)一步包括定義索引單元來包括來自查詢的詞條及來自查詢的短語動(dòng)詞。
16.如權(quán)利要求1所述的方法,其特征在于,所述基于查詢定義索引單元進(jìn)一步包括定義索引單元來包括來自查詢的詞條及對(duì)應(yīng)于查詢的相關(guān)性三元組。
17.如權(quán)利要求1所述的方法,其特征在于,所述基于查詢定義索引單元進(jìn)一步包括定義索引單元來包括來自查詢的詞條、來自查詢有對(duì)應(yīng)詞性的詞條、來自查詢的短語動(dòng)詞,及對(duì)應(yīng)于查詢的相關(guān)性三元組。
18.一種向用戶提供來自句子數(shù)據(jù)庫的確認(rèn)句以響應(yīng)查詢的方法,其特征在于,所述方法包括從句子數(shù)據(jù)庫中檢索多個(gè)確認(rèn)句以響應(yīng)查詢;確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性,所述每一個(gè)相似性作為查詢中的項(xiàng)的語言學(xué)權(quán)重的函數(shù)來確定;及基于已確定的相似性排列多個(gè)檢索到的確認(rèn)句。
19.如權(quán)利要求18所述的方法,其特征在于,所述查詢中的項(xiàng)的語言學(xué)權(quán)重是作為項(xiàng)的詞性的函數(shù)賦給查詢中的項(xiàng)的權(quán)重。
20.如權(quán)利要求19所述的方法,其特征在于,所述確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性進(jìn)一步包括作為查詢中的多個(gè)項(xiàng)的語言學(xué)權(quán)重的函數(shù)來確定每個(gè)相似性。
21.如權(quán)利要求20所述的方法,其特征在于,所述確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性進(jìn)一步包括作為查詢中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重和語言學(xué)權(quán)重的函數(shù)來確定每個(gè)相似性。
22.如權(quán)利要求21所述的方法,其特征在于,所述查詢中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為查詢中相應(yīng)項(xiàng)的出現(xiàn)頻數(shù)的函數(shù)來確定。
23.如權(quán)利要求22所述的方法,其特征在于,所述查詢中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為句子數(shù)據(jù)庫中相應(yīng)項(xiàng)的出現(xiàn)頻數(shù)的函數(shù)來確定。
24.如權(quán)利要求23所述的方法,其特征在于,所述確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性進(jìn)一步包括特殊的檢索到的確認(rèn)句的相似性作為特殊的確認(rèn)句中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重、查詢中的多個(gè)項(xiàng)的每一個(gè)向量權(quán)重和查詢中的多個(gè)項(xiàng)的每一個(gè)的語言學(xué)權(quán)重的函數(shù)來確定。
25.如權(quán)利要求24所述的方法,其特征在于,所述特殊的確認(rèn)句中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為相應(yīng)項(xiàng)在特殊的確認(rèn)句中的發(fā)生頻數(shù)的函數(shù)來確定。
26.如權(quán)利要求25所述的方法,其特征在于,所述特殊的確認(rèn)句中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為相應(yīng)項(xiàng)在句子數(shù)據(jù)庫中的發(fā)生頻數(shù)的函數(shù)來確定。
27.如權(quán)利要求26所述的方法,其特征在于,所述確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性進(jìn)一步包括特殊的已檢索到的確認(rèn)句的相似性作為查詢中的多個(gè)項(xiàng)的每一個(gè)向量權(quán)重、特殊的已檢索到的確認(rèn)句中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重,和查詢中的多個(gè)項(xiàng)的每一個(gè)的語言學(xué)權(quán)重的內(nèi)積來確定
28.如權(quán)利要求18所述的方法,其特征在于,所述每個(gè)相似性進(jìn)一步作為對(duì)應(yīng)于多個(gè)已檢索到的確認(rèn)句中的對(duì)應(yīng)確認(rèn)句長(zhǎng)度的句子長(zhǎng)度因子的函數(shù)來確定。
29.如權(quán)利要求28所述的方法,其特征在于,所述句子長(zhǎng)度因子為對(duì)應(yīng)于多個(gè)已檢索到的確認(rèn)句中的對(duì)應(yīng)確認(rèn)句的長(zhǎng)度的函數(shù)。
30.如權(quán)利要求29所述的方法,其特征在于,所述句子長(zhǎng)度因子為對(duì)應(yīng)于多個(gè)已檢索到的確認(rèn)句中的對(duì)應(yīng)確認(rèn)句的長(zhǎng)度的指數(shù)函數(shù)。
31.如權(quán)利要求18所述的方法,其特征在于,所述檢索多個(gè)確認(rèn)句進(jìn)一步包括確定來自查詢的擴(kuò)展索引單元,并使用擴(kuò)展索引單元作為搜索項(xiàng)來搜索句子數(shù)據(jù)庫。
32.一種包含執(zhí)行多個(gè)步驟的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀媒體,其特征在于,所述步驟包括從句子數(shù)據(jù)庫中檢索多個(gè)確認(rèn)句以響應(yīng)查詢;確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性,所述每一個(gè)相似性作為查詢中的項(xiàng)的語言學(xué)權(quán)重的函數(shù)來確定;及基于已確定的相似性排列多個(gè)檢索到的確認(rèn)句。
33.如權(quán)利要求32所述的計(jì)算機(jī)可讀媒體,其特征在于,所述查詢中的項(xiàng)的語言學(xué)權(quán)重是在查詢中作為項(xiàng)的詞性的函數(shù)賦給項(xiàng)的權(quán)重。
34.如權(quán)利要求33所述的計(jì)算機(jī)可讀媒體,其特征在于,所述確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性進(jìn)一步包括作為查詢中的多個(gè)項(xiàng)的語言學(xué)權(quán)重的函數(shù)來確定每個(gè)相似性。
35.如權(quán)利要求34所述的計(jì)算機(jī)可讀媒體,其特征在于,所述確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性進(jìn)一步包括作為查詢中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重和語言學(xué)權(quán)重的函數(shù)來確定每個(gè)相似性。
36.如權(quán)利要求35所述的計(jì)算機(jī)可讀媒體,其特征在于,所述查詢中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為查詢中相應(yīng)項(xiàng)的出現(xiàn)頻數(shù)的函數(shù)來確定。
37.如權(quán)利要求36所述的計(jì)算機(jī)可讀媒體,其特征在于,所述查詢中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為句子數(shù)據(jù)庫中相應(yīng)項(xiàng)的出現(xiàn)頻數(shù)的函數(shù)來確定。
38.如權(quán)利要求37所述的計(jì)算機(jī)可讀媒體,其特征在于,所述確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性進(jìn)一步包括特殊的檢索到的確認(rèn)句的相似性作為特殊的確認(rèn)句中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重、查詢中的多個(gè)項(xiàng)的每一個(gè)向量權(quán)重和查詢中的多個(gè)項(xiàng)的每一個(gè)的語言學(xué)權(quán)重的函數(shù)來確定。
39.如權(quán)利要求38所述的計(jì)算機(jī)可讀媒體,其特征在于,所述特殊的確認(rèn)句中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為相應(yīng)項(xiàng)在特殊的已檢索到的確認(rèn)句中的發(fā)生頻數(shù)的函數(shù)來確定。
40.如權(quán)利要求39所述的計(jì)算機(jī)可讀媒體,其特征在于,所述特殊的確認(rèn)句中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為相應(yīng)項(xiàng)在句子數(shù)據(jù)庫中的發(fā)生頻數(shù)的函數(shù)來確定。
41.如權(quán)利要求40所述的計(jì)算機(jī)可讀媒體,其特征在于,所述確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性進(jìn)一步包括特殊的已檢索到的確認(rèn)句的相似性作為查詢中的多個(gè)項(xiàng)的每一個(gè)向量權(quán)重、特殊的已檢索到的確認(rèn)句中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重,和查詢中的多個(gè)項(xiàng)的每一個(gè)的語言學(xué)權(quán)重的內(nèi)積來確定
42.如權(quán)利要求32所述的計(jì)算機(jī)可讀媒體,其特征在于,所述每個(gè)相似性進(jìn)一步作為對(duì)應(yīng)于多個(gè)已檢索到的確認(rèn)句中的對(duì)應(yīng)確認(rèn)句長(zhǎng)度的句子長(zhǎng)度因子的函數(shù)來確定。
43.如權(quán)利要求42所述的計(jì)算機(jī)可讀媒體,其特征在于,所述句子長(zhǎng)度因子為對(duì)應(yīng)于多個(gè)已檢索到的確認(rèn)句中的對(duì)應(yīng)確認(rèn)句的長(zhǎng)度的函數(shù)。
44.如權(quán)利要求43所述的計(jì)算機(jī)可讀媒體,其特征在于,所述句子長(zhǎng)度因子為對(duì)應(yīng)于多個(gè)已檢索到的確認(rèn)句中的對(duì)應(yīng)確認(rèn)句的長(zhǎng)度的指數(shù)函數(shù)。
45.如權(quán)利要求32所述的計(jì)算機(jī)可讀媒體,其特征在于,所述檢索多個(gè)確認(rèn)句進(jìn)一步包括確定來自查詢的擴(kuò)展索引單元,并使用擴(kuò)展索引單元作為搜索項(xiàng)來搜索句子數(shù)據(jù)庫。
46.一種用于從句子數(shù)據(jù)庫檢索確認(rèn)句以響應(yīng)查詢的系統(tǒng),其特征在于,所述系統(tǒng)包括作為輸入接收查詢的輸入組件;及與輸入組件耦聯(lián)的搜索引擎,所述搜索引擎包括配置為從句子數(shù)據(jù)庫中檢索多個(gè)確認(rèn)句以響應(yīng)查詢的檢索組件;及配置為確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性,所述每一個(gè)相似性作為查詢中的項(xiàng)的語言學(xué)權(quán)重的函數(shù)來確定的排列組件,該排列組件進(jìn)一步配置為基于已確定的相似性排列多個(gè)檢索到的確認(rèn)句。
47.如權(quán)利要求46所述的系統(tǒng),其特征在于,所述查詢中的項(xiàng)的語言學(xué)權(quán)重為作為查詢中的項(xiàng)的詞性的函數(shù)賦給它的權(quán)重。
48.如權(quán)利要求47所述的系統(tǒng),其特征在于,所述排列組件配置為通過作為查詢中的多個(gè)項(xiàng)的語言學(xué)權(quán)重的函數(shù)所確定的每個(gè)相似性來確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性。
49.如權(quán)利要求48所述的系統(tǒng),其特征在于,所述所述排列組件配置為通過作為查詢中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重和語言學(xué)權(quán)重的函數(shù)所確定的每個(gè)相似性來確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性。
50.如權(quán)利要求49所述的系統(tǒng),其特征在于,所述在特定確認(rèn)中的或查詢的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為特定確認(rèn)句中或查詢中的相應(yīng)項(xiàng)的出現(xiàn)頻數(shù)的函數(shù)來確定。
51.如權(quán)利要求50所述的系統(tǒng),其特征在于,所述查詢中的多個(gè)項(xiàng)的每一個(gè)的向量權(quán)重作為句子數(shù)據(jù)庫中相應(yīng)項(xiàng)的出現(xiàn)頻數(shù)的函數(shù)來確定。
52.如權(quán)利要求46所述的系統(tǒng),其特征在于,所述排列組件進(jìn)一步配置為通過作為對(duì)應(yīng)于多個(gè)已檢索到的確認(rèn)句中的對(duì)應(yīng)確認(rèn)句長(zhǎng)度的句子長(zhǎng)度因子的函數(shù)來確定每個(gè)相似性。
53.如權(quán)利要求52所述的系統(tǒng),其特征在于,所述排列組件進(jìn)一步配置為通過作為對(duì)應(yīng)于多個(gè)已檢索到的確認(rèn)句中的對(duì)應(yīng)確認(rèn)句長(zhǎng)度的句子長(zhǎng)度因子的指數(shù)函數(shù)來確定每個(gè)相似性。
54.如權(quán)利要求53所述的系統(tǒng),其特征在于,所述檢索組件進(jìn)一步配置為通過確定來自查詢的擴(kuò)展索引單元,并使用擴(kuò)展索引單元作為搜索項(xiàng)搜索句子數(shù)據(jù)庫來檢索多個(gè)確認(rèn)句。
55.一種向用戶提供來自句子數(shù)據(jù)庫的句子以響應(yīng)查詢的方法,其特征在于,所述方法包括接收查詢;基于查詢定義索引單元,索引單元包括來自查詢的詞條和與查詢關(guān)聯(lián)的擴(kuò)展索引單元;及使用已定義的索引單元作為搜索參數(shù)從句子數(shù)據(jù)庫中檢索至少一個(gè)句子。
56.如權(quán)利要求55所述的方法,其特征在于,所述基于查詢定義索引單元進(jìn)一步包括定義索引單元來包括來自查詢的詞條及來自有對(duì)應(yīng)詞性的查詢的詞條。
57.如權(quán)利要求55所述的方法,其特征在于,所述基于查詢定義索引單元進(jìn)一步包括定義索引單元來包括來自查詢的詞條及來自查詢的短語動(dòng)詞。
58.如權(quán)利要求55所述的方法,其特征在于,所述基于查詢定義索引單元進(jìn)一步包括定義索引單元來包括來自查詢的詞條及對(duì)應(yīng)于查詢的相關(guān)性三元組。
59.如權(quán)利要求55所述的方法,其特征在于,所述基于查詢定義索引單元進(jìn)一步包括定義索引單元來包括來自查詢的詞條、來自查詢有對(duì)應(yīng)詞性的詞條、來自查詢的短語動(dòng)詞,及對(duì)應(yīng)于查詢的相關(guān)性三元組。
60.如權(quán)利要求55所述的方法,其特征在于,所述使用已定義的索引單元作為搜索參數(shù)從句子數(shù)據(jù)庫中檢索至少一個(gè)句子進(jìn)一步包括使用已定義的索引單元作為搜索參數(shù)從句子數(shù)據(jù)庫中檢索多個(gè)確認(rèn)句。
61.如權(quán)利要求60所述的方法,其特征在于,進(jìn)一步包括確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性,所述每一個(gè)相似性作為查詢中的項(xiàng)的語言學(xué)權(quán)重的函數(shù)來確定;及基于已確定的相似性排列多個(gè)檢索到的確認(rèn)句。
62.一種包含執(zhí)行多個(gè)步驟的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀媒體,其特征在于,所述步驟包括接收查詢;基于查詢定義索引單元,索引單元包括來自查詢的詞條和與查詢關(guān)聯(lián)的擴(kuò)展索引單元;及使用已定義的索引單元作為搜索參數(shù)從句子數(shù)據(jù)庫中檢索至少一個(gè)句子。
63.如權(quán)利要求62所述的計(jì)算機(jī)可讀媒體,其特征在于,所述基于查詢定義索引單元的步驟進(jìn)一步包括定義索引單元來包括來自查詢的詞條及來自查詢有對(duì)應(yīng)詞性的詞條。
64.如權(quán)利要求62所述的計(jì)算機(jī)可讀媒體,其特征在于,所述基于查詢定義索引單元的步驟進(jìn)一步包括定義索引單元來包括來自查詢的詞條及來自查詢的短語動(dòng)詞。
65.如權(quán)利要求62所述的計(jì)算機(jī)可讀媒體,其特征在于,所述基于查詢定義索引單元的步驟進(jìn)一步包括定義索引單元來包括來自查詢的詞條及對(duì)應(yīng)于查詢的相關(guān)性三元組。
66.如權(quán)利要求62所述的計(jì)算機(jī)可讀媒體,其特征在于,所述基于查詢定義索引單元的步驟進(jìn)一步包括定義索引單元來包括來自查詢的詞條、來自與查詢有對(duì)應(yīng)詞性的詞條、來自查詢的短語動(dòng)詞,及對(duì)應(yīng)于查詢的相關(guān)性三元組。
67.如權(quán)利要求62所述的計(jì)算機(jī)可讀媒體,其特征在于,所述使用已定義的索引單元作為搜索參數(shù)從句子數(shù)據(jù)庫中檢索至少一個(gè)句子的步驟進(jìn)一步包括使用已定義的索引單元作為搜索參數(shù)從句子數(shù)據(jù)庫中檢索多個(gè)確認(rèn)句。
68.一種用于從句子數(shù)據(jù)庫檢索確認(rèn)句以響應(yīng)查詢的系統(tǒng),其特征在于,所述系統(tǒng)包括作為輸入接收查詢的輸入組件;及與輸入組件耦聯(lián)的搜索引擎,所述搜索引擎配置為基于查詢定義索引單元,索引單元包括來自查詢的詞條和與查詢關(guān)聯(lián)的擴(kuò)展索引單元,所述搜索引擎使用已定義的索引單元作為搜索參數(shù)從句子數(shù)據(jù)庫中檢索至少一個(gè)句子。
69.如權(quán)利要求68所述的系統(tǒng),其特征在于,所述搜索引擎配置為定義索引單元來包括來自查詢的詞條及來自與查詢有對(duì)應(yīng)詞性的詞條。
70.如權(quán)利要求68所述的系統(tǒng),其特征在于,所述搜索引擎配置為定義索引單元來包括來自查詢的詞條及來自查詢的短語動(dòng)詞。
71.如權(quán)利要求68所述的系統(tǒng),其特征在于,所述搜索引擎配置為定義索引單元來包括來自查詢的詞條及對(duì)應(yīng)于查詢的相關(guān)性三元組。
72.如權(quán)利要求68所述的系統(tǒng),其特征在于,所述搜索引擎配置為定義索引單元來包括來自查詢的詞條、來自與查詢有對(duì)應(yīng)詞性的詞條、來自查詢的短語動(dòng)詞,及對(duì)應(yīng)于查詢的相關(guān)性三元組。
73.如權(quán)利要求72所述的系統(tǒng),其特征在于,所述搜索引擎配置為使用已定義的索引單元作為搜索參數(shù)從句子數(shù)據(jù)庫中檢索多個(gè)確認(rèn)句,所述搜索引擎進(jìn)一步配置為確定多個(gè)檢索到的確認(rèn)句的每一個(gè)和查詢之間的相似性,所述每一個(gè)相似性作為查詢中的項(xiàng)的語言學(xué)權(quán)重的函數(shù)來確定,所述搜索引擎配置為基于已確定的相似性排列多個(gè)檢索到的確認(rèn)句。
全文摘要
提供一種從句子數(shù)據(jù)庫中檢索確認(rèn)句以響應(yīng)查詢的方法、計(jì)算機(jī)可讀媒體及系統(tǒng)。搜索引擎從句子數(shù)據(jù)庫中檢索確認(rèn)句以響應(yīng)查詢。在檢索確認(rèn)句時(shí),搜索引擎基于該查詢定義索引單元,索引單元包括來自該查詢的詞條及和與該查詢關(guān)聯(lián)的擴(kuò)展索引單元。然后搜索引擎使用已定義的索引單元作為搜索參數(shù)從句子數(shù)據(jù)庫中檢索到多個(gè)句子。多個(gè)檢索到的句子中的每一個(gè)句子之間的相似性由搜索引擎確定,所述每個(gè)相似性作為查詢中的一項(xiàng)的語言學(xué)權(quán)重的函數(shù)來確定。然后搜索引擎基于已確定的相似性排列多個(gè)檢索到的句子。
文檔編號(hào)G06K7/00GK1490744SQ03124989
公開日2004年4月21日 申請(qǐng)日期2003年9月19日 優(yōu)先權(quán)日2002年9月19日
發(fā)明者明 周, 周明, 吳華, 張躍, 高劍峰, 黃昌寧 申請(qǐng)人:微軟公司