亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

查詢拼寫更正方法和系統(tǒng)的制作方法

文檔序號(hào):6554392閱讀:208來(lái)源:國(guó)知局
專利名稱:查詢拼寫更正方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及計(jì)算機(jī)軟件,尤其涉及用于在應(yīng)用程序的查詢中向用戶建議替換的查詢單詞拼寫的方法和系統(tǒng)。
背景技術(shù)
用戶在應(yīng)用程序中或操作系統(tǒng)上提交搜索查詢時(shí),有時(shí)會(huì)犯拼寫錯(cuò)誤。通常搜索引擎不會(huì)檢測(cè)出這些拼寫錯(cuò)誤。用戶可能沒有意識(shí)到錯(cuò)誤,而認(rèn)為搜索引擎不好。而且,用戶可能無(wú)法找到他們尋找的文檔。解決該問題的一種方式是使用單詞生成器(例如,MicrosoftOffice單詞生成器)來(lái)檢測(cè)拼寫錯(cuò)誤。經(jīng)更正的單詞可以反過來(lái)向用戶顯示作為備選的查詢建議。
例如,Google被認(rèn)為維護(hù)了因特網(wǎng)上所有被索引的單詞的列表,以及每一文檔的相關(guān)性值,該相關(guān)性值基本上是該單詞在文檔中的出現(xiàn)密度。Google搜索引擎的“Did You Mean(您是不是要找)”特性看上去如同大多數(shù)MicrosoftOffice中包含的單詞生成器一樣工作,這表現(xiàn)在它查看您的查詢并試圖生成備選的拼寫。然而,它然后查尋這寫備選拼寫的相關(guān)性值,且如果它計(jì)算出這些“備選”查詢中的一個(gè)將返回“更多相關(guān)”結(jié)果時(shí),那么它就會(huì)建議該“備選”拼寫。然而,Google有時(shí)作出不返回任何文檔的建議。從而,Google生成建議查詢的相關(guān)性的方法不是完美的,而是近似的。該功能當(dāng)前在大多數(shù)應(yīng)用程序內(nèi)不可用。
本發(fā)明正是相對(duì)于這些和其它考慮做出的。

發(fā)明內(nèi)容
根據(jù)本發(fā)明,以上和其它問題由用于處理應(yīng)用程序中的查詢的系統(tǒng)來(lái)解決,在該系統(tǒng)中,分析每一查詢單詞,并基于流行度,即單詞在該應(yīng)用程序可用的文檔的語(yǔ)料庫(kù)中的使用的流行度,來(lái)提供流行的備選單詞作為對(duì)用戶的建議。該系統(tǒng)也包含單詞生成器,后者提供查詢單詞的類似拼寫、出現(xiàn)在該應(yīng)用程序可用的文檔語(yǔ)料庫(kù)中的所有單詞的索引、提供依據(jù)索引中的每一條目的流行度(即,相關(guān)性)值的流行度表以及出現(xiàn)在流行度表中的單詞生成器單詞的詞典。
根據(jù)本發(fā)明的實(shí)施例,用于在應(yīng)用程序的查詢過程中生成對(duì)用戶的查詢建議的方法包括,使用單詞生成器來(lái)分析查詢中的每一單詞來(lái)確定建議單詞,將從單詞生成器獲取的每一單詞建議與單詞的流行度表中的條目進(jìn)行比較以確定流行建議單詞,并向用戶顯示比查詢單詞更流行的建議單詞中的一個(gè)或多個(gè)。分析操作包括,生成應(yīng)用程序可用的文檔語(yǔ)料庫(kù)中的所有單詞的索引,以及生成含有索引中每一單詞的流行度值的流行度表,該流行度值是基于單詞在語(yǔ)料庫(kù)中的出現(xiàn)。
更具體地,根據(jù)本發(fā)明的實(shí)施例的方法、系統(tǒng)和計(jì)算機(jī)可讀介質(zhì)產(chǎn)品包括,生成應(yīng)用程序可用的文檔語(yǔ)料庫(kù)中的所有單詞的索引;生成含有索引中每一單詞的流行度值的流行度表,該流行度值是基于單詞在語(yǔ)料庫(kù)中的出現(xiàn);單詞生成器編譯在流行度表中找到的單詞生成器建議單詞的詞典;提交搜索查詢中的每一單詞給單詞生成器以確定建議單詞;從流行度表中確定來(lái)自單詞生成器的每一建議單詞的流行度值;以及向用戶顯示詞典中比查詢單詞更流行的建議單詞中的一個(gè)或多個(gè)。
本發(fā)明可以被實(shí)現(xiàn)為計(jì)算機(jī)進(jìn)程、計(jì)算系統(tǒng)或者諸如計(jì)算機(jī)程序產(chǎn)品等制品。計(jì)算機(jī)程序產(chǎn)品可以是計(jì)算機(jī)系統(tǒng)可讀的且編碼用于執(zhí)行計(jì)算機(jī)進(jìn)程的指令的計(jì)算機(jī)程序的計(jì)算機(jī)存儲(chǔ)介質(zhì)。計(jì)算機(jī)程序產(chǎn)品還可以是載波上所傳播的計(jì)算系統(tǒng)可讀的且編碼用于執(zhí)行計(jì)算機(jī)進(jìn)程的指令的計(jì)算機(jī)程序的信號(hào)。
可以參考以下簡(jiǎn)要概述的附圖、本發(fā)明目前的較佳實(shí)施例的以下詳細(xì)描述和所附權(quán)利要求書獲取對(duì)本發(fā)明及其改進(jìn)的更完整理解。


圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的示例性備選查詢建議系統(tǒng)。
圖2示出了根據(jù)本發(fā)明的特定方面可結(jié)合軟件操作的計(jì)算機(jī)系統(tǒng)環(huán)境。
圖3示出了圖1中所示的備選查詢建議系統(tǒng)的更詳細(xì)的示意圖。
圖4是圖1中所示的實(shí)施例操作的處理流程圖。
具體實(shí)施例方式
現(xiàn)在將參考附圖更詳細(xì)地描述本發(fā)明,附圖中示出了本發(fā)明的實(shí)施例。然而,本發(fā)明可以用多種不同的形式實(shí)現(xiàn),而不應(yīng)被解釋為限于此處所述的實(shí)施例;而是相反,提供了這些實(shí)施例,使得本揭示全面和完整,且向本領(lǐng)域的技術(shù)人員完全傳達(dá)了本發(fā)明的范圍。根據(jù)本發(fā)明的實(shí)施例,此處所述的方法可以被實(shí)現(xiàn)在單個(gè)獨(dú)立的計(jì)算機(jī)系統(tǒng)上,但更普遍地實(shí)現(xiàn)在互連以形成分布式計(jì)算機(jī)網(wǎng)絡(luò)的多個(gè)計(jì)算機(jī)系統(tǒng)上。圖1示出了根據(jù)本發(fā)明的查詢建議系統(tǒng)100的一個(gè)實(shí)施例。系統(tǒng)100可在任何軟件應(yīng)用程序或操作系統(tǒng)中操作。該系統(tǒng)以常規(guī)的方式接收用戶查詢102,并將該查詢傳遞給搜索引擎(未示出)。同時(shí),用戶查詢102被傳遞給查詢建議模塊104。查詢建議模塊104接收用戶查詢102,分析該查詢,并在某些條件下(以下更詳細(xì)描述)向用戶提供用戶可能選擇使用的備選查詢建議106。
查詢建議模塊104基本上包含兩個(gè)模塊查詢分析器模塊108和相關(guān)性處理器模塊110。查詢分析器模塊108將查詢供應(yīng)給相關(guān)性處理器模塊,以獲取關(guān)于潛在備選查詢單詞的相關(guān)性信息。這些備選查詢單詞及其關(guān)聯(lián)性然后又被反饋回查詢分析器108,后者然后確定是否提供一個(gè)或多個(gè)備選查詢建議106。
圖2示出了用于實(shí)現(xiàn)本發(fā)明的實(shí)施例的示例性環(huán)境200。環(huán)境200包括形為計(jì)算機(jī)210的通用計(jì)算設(shè)備。計(jì)算機(jī)210的組件可以包括,但不限于,處理單元220、系統(tǒng)存儲(chǔ)器230及將包括系統(tǒng)存儲(chǔ)器在內(nèi)的各種系統(tǒng)組件耦合至處理單元220的系統(tǒng)總線221。系統(tǒng)總線221可以是若干類型的總線結(jié)構(gòu)中的任一種,包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍總線和使用各種總線體系結(jié)構(gòu)中的任一種的局部總線。作為示例,而非限制,這樣的體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、擴(kuò)展的ISA(EISA)總線、視頻電子技術(shù)標(biāo)準(zhǔn)協(xié)會(huì)(VESA)局部總線、加速圖形端口(AGP)總線和外圍部件互連(PCI)總線(也被稱為Mezzanine總線)。
計(jì)算機(jī)210通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以可由計(jì)算機(jī)210訪問的任何可用介質(zhì),且包括易失性和非易失性介質(zhì)、可移動(dòng)和不可移動(dòng)介質(zhì)。作為示例,而非限制,計(jì)算機(jī)可讀介質(zhì)可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括以任何方法或技術(shù)實(shí)現(xiàn)的用于存儲(chǔ)諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)等信息的易失性和非易失性、可移動(dòng)和不可移動(dòng)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于,RAM、ROM、EEPROM、閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)或其它光盤存儲(chǔ)、磁帶盒、磁帶、磁盤存儲(chǔ)或其它磁性存儲(chǔ)設(shè)備、或能用于存儲(chǔ)所需信息且可以由計(jì)算機(jī)210訪問的任何其它介質(zhì)。通信介質(zhì)通常具體化為諸如載波或其它傳輸機(jī)制等已調(diào)制數(shù)據(jù)信號(hào)中的計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),且包含任何信息傳遞介質(zhì)。術(shù)語(yǔ)“已調(diào)制數(shù)據(jù)信號(hào)”指的是這樣一種信號(hào),其一個(gè)或多個(gè)特征以在信號(hào)中編碼信息的方式被設(shè)定或更改。作為示例,而非限制,通信介質(zhì)包括有線介質(zhì),諸如有線網(wǎng)絡(luò)或直接線連接,以及無(wú)線介質(zhì),諸如聲學(xué)、RF、紅外線和其它無(wú)線介質(zhì)。上述中任一個(gè)的組合也應(yīng)包括在計(jì)算機(jī)可讀介質(zhì)的范圍之內(nèi)。
系統(tǒng)存儲(chǔ)器230包括易失性和/或非易失性存儲(chǔ)器形式的計(jì)算機(jī)存儲(chǔ)介質(zhì),諸如只讀存儲(chǔ)器(ROM)231和隨機(jī)存取存儲(chǔ)器(RAM)232。基本輸入/輸出系統(tǒng)233(BIOS)包含有助于諸如啟動(dòng)時(shí)在計(jì)算機(jī)210中元件之間傳遞信息的基本例程,它通常存儲(chǔ)在ROM 231中。RAM 232通常包含處理單元220可以立即訪問和/或目前正在操作的數(shù)據(jù)和/或程序模塊。作為示例,而非限制,圖2示出了操作系統(tǒng)234、應(yīng)用程序235、其它程序模塊236和程序數(shù)據(jù)237。
計(jì)算機(jī)210也可以包括其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)。僅作為示例,圖2示出了從不可移動(dòng)、非易失性磁介質(zhì)中讀取或向其寫入的硬盤驅(qū)動(dòng)器241,從可移動(dòng)、非易失性磁盤252中讀取或向其寫入的磁盤驅(qū)動(dòng)器251,以及從諸如CD ROM或其它光學(xué)介質(zhì)等可移動(dòng)、非易失性光盤256中讀取或向其寫入的光盤驅(qū)動(dòng)器255。可以在示例性操作環(huán)境下使用的其它可移動(dòng)/不可移動(dòng)、易失性/非易失性計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于,盒式磁帶、閃存卡、數(shù)字多功能盤、數(shù)字錄像帶、固態(tài)RAM、固態(tài)ROM等。硬盤驅(qū)動(dòng)器241通常由不可移動(dòng)存儲(chǔ)器接口,諸如接口240連接至系統(tǒng)總線221,磁盤驅(qū)動(dòng)器251和光盤驅(qū)動(dòng)器255通常由可移動(dòng)存儲(chǔ)器接口,諸如接口250連接至系統(tǒng)總線221。
以上描述和在圖2中示出的驅(qū)動(dòng)器及其相關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì)為計(jì)算機(jī)210提供了對(duì)計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的存儲(chǔ)。例如,在圖2中,硬盤驅(qū)動(dòng)器241被示為存儲(chǔ)操作系統(tǒng)244、應(yīng)用程序245、其它程序模塊246和程序數(shù)據(jù)247。注意,這些組件可以與操作系統(tǒng)234、應(yīng)用程序235、其它程序模塊236和程序數(shù)據(jù)237相同或不同。操作系統(tǒng)244、應(yīng)用程序245、其它程序模塊246和程序數(shù)據(jù)247在這里被標(biāo)注了不同的標(biāo)號(hào)是為了說明至少它們是不同的副本。用戶可以通過輸入設(shè)備,諸如圖形輸入板(電子化儀)264、麥克風(fēng)263、鍵盤262和定點(diǎn)設(shè)備261(通常指鼠標(biāo)、跟蹤球或觸摸墊)向計(jì)算機(jī)210輸入命令和信息。其它輸入設(shè)備(未示出)可以包括操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀等。這些和其它輸入設(shè)備通常由耦合至系統(tǒng)總線的用戶輸入接口260連接至處理單元220,但也可以由其它接口或總線結(jié)構(gòu),諸如并行端口、游戲端口或通用串行總線(USB)連接。監(jiān)視器291也可與觸摸屏面板293等集成,后者可以將諸如手寫等數(shù)字化輸入經(jīng)由諸如觸摸屏接口292等接口輸入至計(jì)算機(jī)系統(tǒng)210中。注意,監(jiān)視器和/或觸摸屏面板可以被物理耦合至包含計(jì)算設(shè)備210的外殼,諸如在圖形輸入板類型個(gè)人計(jì)算機(jī)中,其中觸摸屏面板293實(shí)質(zhì)上用作圖形輸入板264。另外,諸如計(jì)算設(shè)備210等計(jì)算機(jī)也可以包括其它外圍輸出設(shè)備,諸如揚(yáng)聲器295和打印機(jī)296,它們可以通過輸出外圍接口294等連接。
計(jì)算機(jī)210可使用至一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī),諸如遠(yuǎn)程計(jì)算機(jī)280的邏輯連接在網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)280可以是個(gè)人計(jì)算機(jī)、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等設(shè)備或其它常見網(wǎng)絡(luò)節(jié)點(diǎn),且通常包括上文相對(duì)于計(jì)算機(jī)210描述的許多或所有元件,盡管在圖2中只示出存儲(chǔ)器存儲(chǔ)設(shè)備281。圖2中所示邏輯連接包括局域網(wǎng)(LAN)271和廣域網(wǎng)(WAN)273,但也可以包括其它網(wǎng)絡(luò)。這樣的網(wǎng)絡(luò)環(huán)境在辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中是常見的。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)210通過網(wǎng)絡(luò)接口或適配器270連接至LAN 171。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)210通常包括調(diào)制解調(diào)器272或用于通過諸如因特網(wǎng)等WAN 273建立通信的其它裝置。調(diào)制解調(diào)器272可以是內(nèi)置或外置的,它可以通過用戶輸入接口260或其它合適的機(jī)制連接至系統(tǒng)總線221。在網(wǎng)絡(luò)化環(huán)境中,相對(duì)于計(jì)算機(jī)210所描述的程序模塊或其部分可以存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。作為示例,而非限制,圖2示出了遠(yuǎn)程應(yīng)用程序285駐留在存儲(chǔ)器設(shè)備281上??梢岳斫?,所示的網(wǎng)絡(luò)連接是示例性的,且可以使用在計(jì)算機(jī)之間建立通信鏈路的其它手段。
在了解了計(jì)算環(huán)境之后,參考被執(zhí)行來(lái)實(shí)現(xiàn)具體化本發(fā)明的各個(gè)實(shí)施例的進(jìn)程的邏輯操作來(lái)描述本發(fā)明的實(shí)施例。邏輯操作被實(shí)現(xiàn)為(1)計(jì)算機(jī)實(shí)現(xiàn)的步驟的序列或運(yùn)行在計(jì)算系統(tǒng)上的程序模塊,和/或(2)計(jì)算系統(tǒng)內(nèi)的互連機(jī)器邏輯集成電路或集成電路模塊。實(shí)現(xiàn)是依賴于對(duì)實(shí)現(xiàn)本發(fā)明的計(jì)算系統(tǒng)的性能要求的選擇問題。從而,組成此處所述的本發(fā)明的實(shí)施例的邏輯操作指的是名稱不一的操作、結(jié)構(gòu)化設(shè)備、動(dòng)作或模塊。本領(lǐng)域技術(shù)人員可以認(rèn)識(shí)到,這些操作、結(jié)構(gòu)化設(shè)備、動(dòng)作和模塊可以用軟件、固件、專用數(shù)字邏輯及其任何組合來(lái)實(shí)現(xiàn),而不背離如所附權(quán)利要求書內(nèi)所述的本發(fā)明的精神和范圍。
現(xiàn)在轉(zhuǎn)向圖3,提供了查詢建議模塊104的更詳細(xì)的模塊圖。查詢分析器模塊108從相關(guān)性模塊110中三個(gè)定義的源處取得信息語(yǔ)料庫(kù)索引302、流行度表模塊304和單詞生成器模塊306。
語(yǔ)料庫(kù)索引302基本上是存在于應(yīng)用程序能訪問的文檔的語(yǔ)料庫(kù)(域)中的所有單詞的單詞典。全文索引是從文檔中提取單詞并在詞匯上排列單詞用于快速查尋的過程。每一單詞都與包含該單詞的文檔列表相關(guān)聯(lián)。這一單詞至文檔集的關(guān)聯(lián)的列表被稱為(反向)索引。語(yǔ)料庫(kù)索引302是動(dòng)態(tài)的,且當(dāng)調(diào)用應(yīng)用程序訪問文檔時(shí),它們可以被添加至語(yǔ)料庫(kù),使得語(yǔ)料庫(kù)隨使用的系統(tǒng)100而在大小上增長(zhǎng)。語(yǔ)料庫(kù)索引302包括語(yǔ)料庫(kù)中的所有語(yǔ)言中的單詞,且還包括n字母組以及單詞。應(yīng)用程序可用的文檔的語(yǔ)料庫(kù)中的每一單詞/n字母組與其中使用它的文檔相關(guān)聯(lián)。因此,每一單詞都與文檔列表相關(guān)聯(lián)。該列表被稱為反向索引。另外,每一單詞可以與文檔內(nèi)其使用頻率相關(guān)聯(lián)。索引302中也包含每一單詞的該頻率值。
流行度表模塊304檢查語(yǔ)料庫(kù)索引302,并編譯與語(yǔ)料庫(kù)索引302中每一單詞相關(guān)聯(lián)的流行度值。該流行度值也隨新文檔被添加至調(diào)用應(yīng)用程序能訪問的文檔的語(yǔ)料庫(kù)、從中移除或修改來(lái)持續(xù)地更新。流行度值可以基于文檔中特定單詞或n字母組出現(xiàn)的次數(shù)、包含該單詞或n字母組的語(yǔ)料庫(kù)中的文檔數(shù)、或者單詞或n字母組在所有語(yǔ)料庫(kù)文檔中總計(jì)出現(xiàn)的絕對(duì)值。較佳地,流行度值是基于其中出現(xiàn)單詞或n字母組的語(yǔ)料庫(kù)的文檔數(shù),且由此是單詞出現(xiàn)頻率的度量。低頻率的單詞有時(shí)不被添加至流行度列表,以保持流行度列表在大小上可管理。
使用流行度表模塊304中的單詞來(lái)構(gòu)造生成器詞典308。詞典308其中含有一個(gè)或多個(gè)過濾器312來(lái)過濾掉噪聲單詞。噪聲單詞是那些出現(xiàn)太過頻繁而對(duì)查詢建議過程無(wú)所貢獻(xiàn)的單詞。此類單詞為冠詞、介詞等,以及諸如英語(yǔ)中的“and”與“or”、德語(yǔ)中的“und”或西班牙語(yǔ)中的“y”等連接詞。詞典308因此將這些單詞從流行度表中取出,過濾掉噪聲單詞,而單詞生成器模塊306使用所得的單詞列表?;蛘撸^濾器312可以被結(jié)合在流行度表模塊304中。無(wú)論在哪種情況下,過濾器312都可以用來(lái)舍棄其出現(xiàn)頻率超出預(yù)定值的任何單詞。過濾器也可以被提供來(lái)過濾很少使用的那些單詞。
單詞生成器模塊306從詞典308中取出。它分析詞典308中的單詞,以找出與查詢分析器中檢查的查詢單詞類似的拼寫和句法,并基于類似拼寫和/或句法向分析器108提供建議的單詞。單詞生成器模塊306本質(zhì)上是生成近似拼寫列表的單詞生成器或拼寫檢查器。在本發(fā)明的實(shí)施例中被用作單詞生成器的拼寫檢查器是常規(guī)的MicrosoftWord SpellAPI,它建議查詢單詞的近似拼寫,將結(jié)果與詞典308進(jìn)行比較,以生成提供給查詢分析器模塊108的建議?;蛘撸嬖谝蛔錟NIX函數(shù)(grep、agrep、egrep等),它們生成與正被檢查的單詞具有類似拼寫的單詞。例如,為搜索拼寫上近似“airpalne”的單詞的目錄,可以寫為“agrep-e airpalne”,并期望也能接收含有單詞“airplane”的文件。一般而言,可以使用任何近似模式匹配算法來(lái)生成類似的單詞。也可以使用這些中的一個(gè),而不是之前描述的拼寫檢查器。
圖4是發(fā)生在查詢分析器108中以生成對(duì)用戶查詢102的備選建議的操作400的操作流程圖。過程400在操作402開始,在那里感知到用戶查詢102。然后將控制傳遞給操作404。
在操作404中,通常為兩個(gè)或多個(gè)單詞的查詢被標(biāo)記化成單個(gè)單詞或n字母組。在以下步驟中單獨(dú)分析每一單詞。然而,可以理解,此時(shí),查詢也可被解析為兩個(gè)或三個(gè)單詞的分組用于分析。在這種情況下,該方法與此處所述的單個(gè)單詞方法相當(dāng)類似。此外,在多個(gè)單詞情況中,某些所關(guān)注的頻率是一個(gè)單詞可能跟隨另一個(gè)單詞之后的頻率,而不僅是語(yǔ)料庫(kù)內(nèi)的短語(yǔ)的頻率。也可提供并評(píng)估這些頻率。一旦查詢被標(biāo)記化,即解析為分離的單詞之后,控制轉(zhuǎn)移至操作406。
在操作406中,檢查第一/下一單詞。分析器調(diào)用單詞生成器模塊306,并向單詞生成器模塊306提供第一單詞。單詞生成器模塊306然后返回詞典308中存在的與第一/下一查詢單詞近似拼寫的任何單詞作為查詢建議單詞。分析器400然后將控制傳遞給操作408。
在操作408中,訪問流行度表模塊304并返回每一查詢建議單詞的流行度值。控制然后轉(zhuǎn)移給操作410,在那里查到的第一/下一單詞的流行度值也被提供給分析器108??刂迫缓筠D(zhuǎn)移給操作412。
在操作412中,將第一/下一查詢單詞的流行度值與所建議的備選單詞的每一流行度值進(jìn)行比較??刂迫缓筠D(zhuǎn)移給查詢操作414,在那里詢問是否存在比用戶的第一/下一查詢單詞更流行的查詢建議單詞。如果用戶的第一/下一查詢單詞的流行度值比所建議的一個(gè)或多個(gè)單詞的流行度值大,那么回答為否,且不返回任何備選建議??刂妻D(zhuǎn)移回操作406,用于檢查下一查詢單詞。另一方面,如果所建議的單詞中的一個(gè)或多個(gè)比用戶的查詢單詞更流行,那么操作414中的回答為是,控制轉(zhuǎn)移給操作416。
在操作416中,查詢建議單詞或n字母組被記錄以供分析器108返回給用戶作為備選查詢單詞,或者可以立即向用戶顯示,或者可以等到檢查完查詢中的所有單詞。無(wú)論在何種情況下,控制然后被傳遞給操作418,在那里分析器檢查下一查詢單詞。控制然后被轉(zhuǎn)移給查詢操作420。
在查詢操作420中,查詢是否還存在要被評(píng)估的標(biāo)記化的用戶查詢單詞。如果回答為是,那么控制再次轉(zhuǎn)移回給操作406,在那里檢查下一單詞。另一方面,如果回答為否,那么用戶查詢中沒有其它單詞,控制傳遞給結(jié)束操作422,在那里如果還剩下任何要被發(fā)送的備選查詢建議單詞,那么將其作為備選單詞顯示給用戶。
最初檢查所有的文檔,并生成出現(xiàn)在文檔的語(yǔ)料庫(kù)中的單詞的索引。當(dāng)文檔被添加至語(yǔ)料庫(kù)時(shí),可以生成新的索引、流行度表和詞典,并替換現(xiàn)有的索引、流行度表和詞典?;蛘?,這些可以在添加新文檔時(shí)更新。
盡管以對(duì)結(jié)構(gòu)化特征、方法性動(dòng)作以及包含此類動(dòng)作的計(jì)算機(jī)可讀介質(zhì)專用的語(yǔ)言描述了本發(fā)明,但可以理解,在所附權(quán)利要求書中定義的本發(fā)明不必限于所述的特定結(jié)構(gòu)、動(dòng)作或介質(zhì)。從而,特定結(jié)構(gòu)、動(dòng)作或介質(zhì)僅作為實(shí)現(xiàn)所要求保護(hù)的本發(fā)明的較佳形式而在此處揭示。它們不應(yīng)被解釋為對(duì)本發(fā)明范圍的限制。而且,對(duì)本領(lǐng)域的普通技術(shù)人員而言,容易想到各種變化、改變和替換。從而,所有這樣的變化、改變和替換也屬于由所附權(quán)利要求書定義的本發(fā)明的預(yù)期的寬泛的范圍和含義。
權(quán)利要求
1.一種向在軟件應(yīng)用程序中進(jìn)行搜索查詢的用戶提供備選查詢建議的方法,所述方法包括為文檔的語(yǔ)料庫(kù)中的單詞生成含有所述語(yǔ)料庫(kù)中每一單詞的流行度值的流行度表,所述流行度值是基于單詞在所述語(yǔ)料庫(kù)中的出現(xiàn);將所述流行度表中的每一條目與來(lái)自單詞生成器的建議進(jìn)行比較;生成在所述流行度表中找到的單詞生成器建議單詞的詞典;提交所述搜索查詢中的每一單詞給所述單詞生成器以確定建議單詞;以及從所述詞典中產(chǎn)生比所述查詢單詞更流行的建議單詞中的一個(gè)或多個(gè)。
2.如權(quán)利要求1所述的方法,其特征在于,所述流行度表中的每一值是基于單詞在語(yǔ)料庫(kù)中的所有文檔中出現(xiàn)的次數(shù)。
3.如權(quán)利要求1所述的方法,其特征在于,所述流行度表中的每一值是基于單詞在語(yǔ)料庫(kù)的單個(gè)文檔中出現(xiàn)的最大頻率。
4.如權(quán)利要求1所述的方法,其特征在于,所述每一建議單詞的流行度值是基于包含所述建議單詞的文檔的總數(shù)。
5.一種用于向用戶提供備選查詢建議的系統(tǒng),包括處理器;以及與所述處理器耦合并由所述處理器可讀的存儲(chǔ)器,所述存儲(chǔ)器包含一連串指令,當(dāng)由所述處理器執(zhí)行所述指令時(shí),使得所述處理器使用單詞生成器分析查詢中的每一單詞以確定建議單詞;將從所述單詞生成器中獲取的每一建議單詞與單詞流行度表中的條目進(jìn)行比較,以確定流行建議單詞;以及提供比所述查詢單詞更流行的建議單詞中的一個(gè)或多個(gè)。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述一連串指令使得處理器通過以下動(dòng)作分析每一單詞生成所述應(yīng)用程序可用的文檔的語(yǔ)料庫(kù)中的所有單詞的索引;生成含有索引中每一單詞的流行度值的流行度表,所述流行度值是基于單詞在所述語(yǔ)料庫(kù)中的出現(xiàn)。
7.如權(quán)利要求5所述的系統(tǒng),其特征在于,所述一連串指令使得所述處理器生成所述應(yīng)用程序可用的文檔的語(yǔ)料庫(kù)中的所有單詞的索引;為所述索引生成含有索引中每一單詞的流行度值的流行度表,所述流行度值是基于單詞在所述語(yǔ)料庫(kù)中的出現(xiàn);編譯在所述流行度表中找到的單詞生成器建議單詞的詞典;提交所述搜索查詢中的每一單詞給所述單詞生成器以確定建議單詞;以及從所述詞典中提供比所述查詢單詞更流行的建議單詞中的一個(gè)或多個(gè)。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述流行度表是基于單詞在語(yǔ)料庫(kù)中的所有文檔中出現(xiàn)的次數(shù)。
9.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述每一建議單詞的流行度值是基于包含所述建議單詞的文檔的總數(shù)。
10.如權(quán)利要求7所述的系統(tǒng),其特征在于,所述每一建議單詞的流行度值是基于所述單詞在語(yǔ)料庫(kù)的單個(gè)文檔內(nèi)出現(xiàn)的總次數(shù)。
11.一種編碼用于執(zhí)行向用戶提供對(duì)用戶查詢的備選建議的計(jì)算機(jī)進(jìn)程的指令的計(jì)算機(jī)程序的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)進(jìn)程包括使用單詞生成器分析所述用戶查詢中的每一單詞以確定建議單詞;將從所述單詞生成器中獲取的每一建議單詞與單詞流行度表中的條目進(jìn)行比較,以確定流行建議單詞;以及提供比所述查詢單詞更流行的建議單詞中的一個(gè)或多個(gè)。
12.如權(quán)利要求11所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述分析包括生成所述應(yīng)用程序可用的文檔的語(yǔ)料庫(kù)中的所有單詞的索引;生成含有索引中每一單詞的流行度值的流行度表,所述流行度值是基于單詞在所述語(yǔ)料庫(kù)中的出現(xiàn)。
13.如權(quán)利要求12所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述流行度表中的每一值是基于單詞在語(yǔ)料庫(kù)的單個(gè)文檔中出現(xiàn)的最大頻率。
14.如權(quán)利要求12所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述每一建議單詞的流行度值是基于包含所述建議單詞的文檔的總數(shù)。
15.如權(quán)利要求12所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,還包括編譯在所述流行度表中找到的單詞生成器建議單詞的詞典。
16.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述流行度表中的每一值是基于單詞在語(yǔ)料庫(kù)的單個(gè)文檔中出現(xiàn)的最大頻率。
17.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述流行度表中每一單詞的流行度值是基于包含所述單詞的語(yǔ)料庫(kù)中的文檔的總數(shù)。
全文摘要
揭示了用于向用戶提供一組備選查詢建議的方法和系統(tǒng)。根據(jù)本發(fā)明的實(shí)施例,方法、系統(tǒng)和計(jì)算機(jī)可讀介質(zhì)產(chǎn)品包括,生成應(yīng)用程序可用的文檔語(yǔ)料庫(kù)中的所有單詞的索引;生成含有索引中每一單詞的流行度值的流行度表,該流行度值是基于單詞在語(yǔ)料庫(kù)中的出現(xiàn);將流行度表中的每一條目與來(lái)自單詞生成器的建議進(jìn)行比較;編譯在流行度表中找到的單詞生成器建議單詞的詞典;提交搜索查詢中的每一單詞給單詞生成器以確定建議單詞,以及向用戶顯示詞典中比查詢單詞更流行的建議單詞中的一個(gè)或多個(gè)。
文檔編號(hào)G06F17/30GK1825315SQ20061000467
公開日2006年8月30日 申請(qǐng)日期2006年1月24日 優(yōu)先權(quán)日2005年2月22日
發(fā)明者J·哈蒙, K·G·佩爾托寧, S·達(dá)散 申請(qǐng)人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1