專利名稱:提供個(gè)性化為特定語(yǔ)言的搜索結(jié)果的國(guó)際搜索和傳送系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多語(yǔ)言數(shù)據(jù)庫(kù)網(wǎng)絡(luò)的配置。而且,本發(fā)明涉及在數(shù)據(jù)庫(kù)網(wǎng)絡(luò)中以所選擇的語(yǔ)言執(zhí)行關(guān)鍵詞搜索和獲得搜索結(jié)果。
背景技術(shù):
因特網(wǎng)文本檢索系統(tǒng)接受由多個(gè)關(guān)鍵詞T1、T2、...、Ti、...、Tn組成的搜索查詢S形式的、所請(qǐng)求信息的語(yǔ)句,并且返回包括對(duì)于搜索查詢術(shù)語(yǔ)的匹配項(xiàng)目的一批文件。為了提供在因特網(wǎng)數(shù)據(jù)庫(kù)上的這樣的搜索性能,已經(jīng)開發(fā)了搜索引擎,所述搜索引擎向信息包括源提供查詢接口,并且返回按照所列出的文件如何良好地匹配搜索查詢而依序排序的搜索結(jié)果。搜索引擎的用途之一是連接公司網(wǎng)站。公司網(wǎng)站的一個(gè)問題是對(duì)于客戶和雇員等它難于找到它們需要的信息。在可以利用技術(shù)內(nèi)容文章來很大地加權(quán)的某個(gè)產(chǎn)品支持?jǐn)?shù)據(jù)庫(kù)中尤其是這樣。在一個(gè)全球性的公司中,這個(gè)信息可以是多種自然語(yǔ)言表達(dá)的形式、可以是模擬和數(shù)字形式、可以是多種不同格式和可以是多種機(jī)器語(yǔ)言表達(dá)的形式。數(shù)據(jù)類型和它們的形式、格式和語(yǔ)言可能不是搜索者所要求或甚至明白的。所需要的是國(guó)際化的搜索系統(tǒng),它容易使用并且提供可以由搜索者明白的結(jié)果。
發(fā)明內(nèi)容
因此,本發(fā)明的一個(gè)目的是提供以多種語(yǔ)言可以訪問的國(guó)際化搜索系統(tǒng),并且以可選擇的語(yǔ)言提供可理解的搜索結(jié)果。
本發(fā)明的另一個(gè)目的是提供能夠訪問多種形式、格式和語(yǔ)言的信息的國(guó)際化搜索系統(tǒng),它能夠向搜索者以他們所期望的格式和計(jì)算機(jī)語(yǔ)言來提供所述信息。
本發(fā)明的另一個(gè)目的是通過一種國(guó)際化搜索系統(tǒng),它接受多種民族語(yǔ)言的搜索術(shù)語(yǔ)和提供現(xiàn)場(chǎng)特定搜索結(jié)果。
按照本發(fā)明,以不同自然語(yǔ)言輸入的數(shù)據(jù)穿過過渡翻譯層,過渡翻譯層利用包括用于所有所支持的自然語(yǔ)言的字符集的通用字符集將數(shù)據(jù)轉(zhuǎn)變?yōu)閱蝹€(gè)計(jì)算機(jī)語(yǔ)言。以原始的自然語(yǔ)言來存儲(chǔ)數(shù)據(jù),并且文件被劃分成由搜索術(shù)語(yǔ)識(shí)別的部分,這些部分被以基于類型的分類樹排列。在產(chǎn)品數(shù)據(jù)庫(kù)的情況下,當(dāng)產(chǎn)品名稱或數(shù)量是已知的時(shí)候,這些類型可以是使得能夠進(jìn)行迅速的關(guān)鍵詞搜索的各種產(chǎn)品類型。雙向倒排索引被通過用于由關(guān)鍵詞搜索術(shù)語(yǔ)來訪問,在關(guān)鍵詞搜索術(shù)語(yǔ)中,以所有支持的語(yǔ)言表達(dá)的關(guān)鍵詞被存儲(chǔ)并且交叉參考到每種自然語(yǔ)言的文件中。當(dāng)查詢以多種語(yǔ)言之一的關(guān)鍵詞的時(shí)候,可以一起來訪問不同語(yǔ)言的相同含義的關(guān)鍵詞。包括這個(gè)表格的搜索引擎可以識(shí)別以所查詢的語(yǔ)言、第二種語(yǔ)言或由用戶確定的所有所支持的語(yǔ)言的相關(guān)文件。以所選擇的語(yǔ)言的文件被從所存儲(chǔ)的部分公式化并且當(dāng)搜索者請(qǐng)求時(shí)被識(shí)別。所操作的文件隨后通過過渡翻譯層被輸出,并且以與輸入形式和語(yǔ)言相同或不同的所期望格式被提供。
圖1是用于在線區(qū)域網(wǎng)絡(luò)的系統(tǒng)組織的示意圖;圖2是實(shí)現(xiàn)本發(fā)明并且連接到圖1所示的網(wǎng)絡(luò)的專用網(wǎng)絡(luò)的示意圖;圖3是示出本發(fā)明的信息源、與翻譯層相關(guān)的搜索引擎和信息內(nèi)核的排列的示意圖;圖4是示出本發(fā)明的內(nèi)核的細(xì)節(jié)的示意圖;圖5是示出按照本發(fā)明的后端數(shù)據(jù)收集的示意流程圖;圖6是按照本發(fā)明的關(guān)鍵詞查詢的處理的示意流程圖;圖7是按照本發(fā)明的文件請(qǐng)求查詢的處理的示意圖;圖8A是與產(chǎn)品類型相關(guān)的分類樹中的數(shù)據(jù)的排列的示意圖;圖8B是示出將本地產(chǎn)品名稱加到通用的分類數(shù)據(jù)庫(kù)產(chǎn)品類型的的處理圖;圖9是示出使用本地(日本)數(shù)據(jù)庫(kù)的文件存儲(chǔ)和檢索的示意圖;圖10是將一種語(yǔ)言表達(dá)的關(guān)鍵詞與另一種語(yǔ)言的它們的對(duì)應(yīng)部分相關(guān)聯(lián)的索引表格的圖;圖11是多語(yǔ)言數(shù)據(jù)庫(kù)搜索系統(tǒng)的圖;圖12是用于輸入搜索查詢的計(jì)算機(jī)顯示屏幕部分的圖;
圖13是用于獲得搜索結(jié)果的流程圖;圖14是國(guó)際搜索處理的方框圖;和圖15是通過所述內(nèi)核的元素示出搜索序列的流程圖。
具體實(shí)施例方式
現(xiàn)在參見圖1,通過諸如因特網(wǎng)104的包括網(wǎng)絡(luò)節(jié)點(diǎn)服務(wù)器的廣域網(wǎng)、經(jīng)由在線服務(wù)來完成在多個(gè)用戶計(jì)算機(jī)100a到100n和多個(gè)信息服務(wù)器102a到102n之間的通信。網(wǎng)絡(luò)節(jié)點(diǎn)服務(wù)器管理諸如在任何給定的用戶計(jì)算機(jī)和信息服務(wù)器之間的通信的網(wǎng)絡(luò)業(yè)務(wù)。
計(jì)算機(jī)100被配備了通信軟件,包括諸如網(wǎng)景通信公司的網(wǎng)景瀏覽器的WWW瀏覽器,它使得購(gòu)物者可以經(jīng)由因特網(wǎng)連接和使用在線購(gòu)物服務(wù)。在用戶計(jì)算機(jī)100上的軟件管理向用戶顯示從服務(wù)器接收的信息的顯示,并且向適當(dāng)?shù)男畔⒎?wù)器102發(fā)回用戶的行為,以便可以向用戶提供附加的顯示信息或要按照其來行動(dòng)的信息??梢越?jīng)由調(diào)制解調(diào)器或諸如電纜連接的其他手段來建立對(duì)因特網(wǎng)的網(wǎng)絡(luò)節(jié)點(diǎn)的連接106。
后述的圖1所示的服務(wù)器是那些通過因特網(wǎng)通過產(chǎn)品、服務(wù)和信息以獲得收費(fèi)的商家。雖然下面的討論針對(duì)在購(gòu)物者和這樣的商家之間經(jīng)由因特網(wǎng)的通信,它一般可以應(yīng)用到網(wǎng)絡(luò)上的任何信息尋找者和任何信息提供者。(例如,信息提供者可以是諸如大學(xué)圖書館、公共圖書館或國(guó)會(huì)圖書館的圖書館或其他類型的信息提供者)關(guān)于商家和商家的產(chǎn)品的信息被存儲(chǔ)在商家服務(wù)器103所訪問的購(gòu)物數(shù)據(jù)庫(kù)108中。這可能是商家擁有的數(shù)據(jù)庫(kù)或商家的供貨商的數(shù)據(jù)庫(kù)。可以公布為網(wǎng)頁(yè)的、可以由商家服務(wù)器訪問的所有產(chǎn)品信息被索引,并且一個(gè)全文索引數(shù)據(jù)庫(kù)110記錄每個(gè)詞的出現(xiàn)數(shù)量和它們?cè)谒鑫恢玫氖褂?。除了?dú)立商家的服務(wù)器和其他信息服務(wù)器之外,還有諸如Google公司的Google的多個(gè)搜索服務(wù)提供者的服務(wù)器114a-114,這些提供者保留通過詢問獨(dú)立商家的產(chǎn)品信息數(shù)據(jù)庫(kù)108而獲得的獨(dú)立商家102a-102n的產(chǎn)品的全文索引116。諸如Google的這些搜索服務(wù)提供者的一些是通用的搜索提供者,而另一些是主題專用搜索提供者。
商家和所述應(yīng)用服務(wù)提供者每個(gè)可以保留關(guān)于購(gòu)物者和它們的購(gòu)買習(xí)慣的信息的數(shù)據(jù)庫(kù)以便為購(gòu)物者定制在線購(gòu)物。為購(gòu)物者完成定制的電子購(gòu)物環(huán)境的操作包括累積關(guān)于購(gòu)物者的偏好的數(shù)據(jù)。每個(gè)商家記錄和處理與諸如購(gòu)物者選擇的特定的網(wǎng)站和特定的產(chǎn)品、對(duì)于網(wǎng)站的進(jìn)入和推出時(shí)間、對(duì)網(wǎng)站參觀的次數(shù)等的電子購(gòu)物選項(xiàng)相關(guān)的信息,以便建立購(gòu)物者的購(gòu)物簡(jiǎn)檔。原始數(shù)據(jù)可以隨后被處理以建立購(gòu)物者的偏好簡(jiǎn)檔。簡(jiǎn)檔也可以包括由購(gòu)物者當(dāng)預(yù)訂服務(wù)時(shí)提供的或從其他來源獲得的關(guān)于購(gòu)物者的個(gè)人數(shù)據(jù)或特點(diǎn)(如年齡、職業(yè)、地址和愛好)。簡(jiǎn)檔數(shù)據(jù)可以幫助鑒別在關(guān)鍵詞查詢中使用的詞的含義。例如,在醫(yī)生的查詢中的一個(gè)關(guān)鍵詞可以具有與由土木工程師提供的同一關(guān)鍵詞的使用完全不同的含義。關(guān)于購(gòu)物者的數(shù)據(jù)累積被放置在每個(gè)商家的購(gòu)物者簡(jiǎn)檔數(shù)據(jù)庫(kù)112或118中。在購(gòu)物者的數(shù)據(jù)庫(kù)中的每個(gè)獨(dú)立購(gòu)物者簡(jiǎn)檔和搜索應(yīng)用服務(wù)提供者可以根據(jù)購(gòu)物者和它們的簡(jiǎn)檔軟件對(duì)于特定商家的或服務(wù)提供者的經(jīng)驗(yàn)而彼此不同。數(shù)據(jù)收集可以在購(gòu)物者的搜索期間繼續(xù),以便獲得和使用更新的購(gòu)物者簡(jiǎn)檔數(shù)據(jù)。
利用在購(gòu)物交易中涉及的關(guān)于的購(gòu)物者的信息,商家能夠滿足購(gòu)物者的需要,并且購(gòu)物者被提供機(jī)會(huì)來觀看和購(gòu)買最可能感興趣的商品,因?yàn)樯碳业漠a(chǎn)品和服務(wù)針對(duì)那些已經(jīng)直接或間接表達(dá)了它們的興趣的購(gòu)物者。
當(dāng)購(gòu)物者向在他的/她的瀏覽器的默認(rèn)網(wǎng)頁(yè)或主頁(yè)上提供的空間中輸入用于關(guān)鍵詞的形式的搜索特點(diǎn)的時(shí)候,商家萬維網(wǎng)服務(wù)器102的搜索引擎利用關(guān)鍵詞對(duì)所訪問的全文索引數(shù)據(jù)庫(kù)110或118進(jìn)行搜索,并且獲取描述包括所述關(guān)鍵詞的匹配項(xiàng)的那些產(chǎn)品和服務(wù)的一批文件。這批文件包括對(duì)文件的基本測(cè)試排序Tf(包括點(diǎn)擊的數(shù)量、它們的位置等,它們被用于對(duì)所述這批文件排序),并且高分在上。這個(gè)列表隨后被發(fā)送到將使用排序算法的排序模塊,以便利用文本因素和其他排序因素來對(duì)這批文件排序,并且也可以引入反映信息、提供者偏愛和興趣的因素,所述排序算法例如在題目為“TheAnatomy of a Large-Scale Hypertextual Web Search Engine”by Sergey Brin andLawrence Page of the Computer Science Department,Stanford University,Stanford CA 94305(“大型超文本萬維網(wǎng)搜索引擎的剖析”,Sergey Brin和Lawrence Page,計(jì)算機(jī)科學(xué)系,斯坦福大學(xué),加利福尼亞州斯坦福,94305)的文章中描述的排序算法(該文在此引入作為參考),所述其他排序因素例如鏈接分析、流行、來自用戶簡(jiǎn)檔的用戶的偏好。隨后將基于所述排序算法重新排序的一批文件提供給用戶。
圖1示出了按照本發(fā)明、當(dāng)商家萬維網(wǎng)服務(wù)器120之一從商家獲得信息和將其提供到用戶的時(shí)候如何使用一個(gè)多語(yǔ)言因特網(wǎng)搜索管理服務(wù)器120。如圖2所示,搜索管理服務(wù)器120在專用內(nèi)聯(lián)網(wǎng)網(wǎng)絡(luò)200中連接到服務(wù)器202和諸如圖1所示的多個(gè)計(jì)算機(jī)100,以便計(jì)算機(jī)10可以獲得存儲(chǔ)在專用內(nèi)聯(lián)網(wǎng)的內(nèi)部來源的中的信息。內(nèi)聯(lián)網(wǎng)200具有公共因特網(wǎng)訪問能力,它提供對(duì)在公共因特網(wǎng)104上的服務(wù)的訪問。“防火墻”222將專用內(nèi)聯(lián)網(wǎng)200與公共因特網(wǎng)104分隔,僅僅允許具有正確ID和密碼的那些從公共因特網(wǎng)104進(jìn)入內(nèi)聯(lián)網(wǎng)200。內(nèi)聯(lián)網(wǎng)200的內(nèi)部來源是公司文件管理系統(tǒng)204和內(nèi)部數(shù)據(jù)庫(kù)206。而且,內(nèi)聯(lián)網(wǎng)200具有語(yǔ)音識(shí)別系統(tǒng)220,它能夠響應(yīng)由客戶端計(jì)算機(jī)100從單獨(dú)的計(jì)算機(jī)100或這樣的計(jì)算機(jī)的客戶端網(wǎng)絡(luò)提供的語(yǔ)音命令和語(yǔ)音口述的壓縮數(shù)字化數(shù)據(jù)。
按照本發(fā)明,搜索管理服務(wù)器120包括圖3所示的集成搜索管理系統(tǒng),它接收來自內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中的搜索引擎的查詢和信息,并且通過計(jì)算機(jī)100訪問除了在內(nèi)聯(lián)網(wǎng)和因特網(wǎng)中的那些之外的信息源。例如,可以在集成搜索管理系統(tǒng)中存儲(chǔ)由語(yǔ)音識(shí)別系統(tǒng)220發(fā)送到計(jì)算機(jī)224并且連接到文本的語(yǔ)音。集成管理服務(wù)器包括中央處理單元230、網(wǎng)絡(luò)接口232和足夠大的隨機(jī)訪問存儲(chǔ)器234和高密度存儲(chǔ)器236,以便執(zhí)行它的功能。除了它到內(nèi)聯(lián)網(wǎng)的連接,搜索管理系統(tǒng)包括到因特網(wǎng)的直接鏈路226以便使得商家的客戶能夠訪問。
如圖3所示,集成搜索管理系統(tǒng)有一個(gè)核心或內(nèi)核300,它僅僅操作擴(kuò)展標(biāo)記語(yǔ)言(XML)形式的數(shù)據(jù)和代碼,具有以通用統(tǒng)一代碼字符集編碼的字符。以所有所支持的語(yǔ)言的來自所有可能來源的數(shù)據(jù)在進(jìn)入集成搜索管理系統(tǒng)之前被縮小為這種公共的形式。例如,HTML網(wǎng)頁(yè)、文本文件和所涉及的語(yǔ)音消息被轉(zhuǎn)換為公共形式。以搜索引擎302、信息源304和用戶機(jī)器306的不同來源形式的數(shù)據(jù)在包括翻譯程序的一系列命令解釋程序中被轉(zhuǎn)換為XML內(nèi)核形式,在這些命令解釋程序中,在其內(nèi)部翻譯程序中,將各種文件從它們的源形式轉(zhuǎn)換為XML形式。在層中布置翻譯程序308,以便它們可以在源語(yǔ)言和內(nèi)核語(yǔ)言之間的翻譯中共享。當(dāng)要增加一個(gè)新的源層的時(shí)候,可以提供一個(gè)附加層來在新的或修改的源語(yǔ)言和現(xiàn)有的源語(yǔ)言之間翻譯。如果要接受一個(gè)全新的協(xié)議,則可以增加翻譯程序308和310的附加部分312。這提供了一種具有先進(jìn)技術(shù)的搜索管理系統(tǒng),它具有用于翻譯單元308和310的面向?qū)ο蟮某绦蚰K的模塊使用。如圖所示,信息源304可以以任何所支持的自然語(yǔ)言表達(dá)。數(shù)據(jù)在它的整個(gè)處理中保持它的自然語(yǔ)言狀態(tài)。
如圖4所示,排列使得內(nèi)核300可以包括最小數(shù)量的元素。那些元素是文件提取管理器402,它負(fù)責(zé)瀏覽原始的信息源,并且利用與信息源兼容的機(jī)制來提取數(shù)據(jù)核文件內(nèi)容,所述信息源將數(shù)據(jù)以可以由可搜索內(nèi)容管理器404處理的格式放置。2002年5月30日提交的序號(hào)為10/157,243的美國(guó)專利申請(qǐng)包括文件提取管理器的說明。
可搜索內(nèi)容管理器404,它負(fù)責(zé)處理從信息源提取的數(shù)據(jù)并且將其存儲(chǔ)在內(nèi)容儲(chǔ)存庫(kù)406中。數(shù)據(jù)被以標(biāo)準(zhǔn)的內(nèi)核格式存儲(chǔ),所述標(biāo)準(zhǔn)內(nèi)核格式最好基于文件的粒狀(granular)元素或組件對(duì)象。這些元素可以隨后被組合以構(gòu)成相干文件??梢栽?002年6月30日提交的序號(hào)為10/159,373的美國(guó)專利申請(qǐng)中找到處理的說明。如圖8A所示,以基于產(chǎn)品類型的分類樹將元素800存儲(chǔ)在內(nèi)容儲(chǔ)存庫(kù)406中。例如,對(duì)于一個(gè)面向計(jì)算機(jī)的業(yè)務(wù),存在升序排列的軟件產(chǎn)品類型802和硬件產(chǎn)品類型804,用于更具體地識(shí)別產(chǎn)品類型。圖8B是處理圖,示出了在包括在多個(gè)國(guó)家中的產(chǎn)品的名稱的通用分類數(shù)據(jù)庫(kù)上的本地產(chǎn)品名稱的處理。如圖8B所示,通過利用增加命令由通用提供分類(offering classification,OC)或分類(taxonomy)數(shù)據(jù)庫(kù)920向組件儲(chǔ)存庫(kù)300增加本地國(guó)家產(chǎn)品名稱810。文件夾en-US等包括由自然語(yǔ)言支持工具從產(chǎn)品名稱數(shù)據(jù)庫(kù)提供的提供信息,自然語(yǔ)言支持工具增加來自本地國(guó)家數(shù)據(jù)庫(kù)的產(chǎn)品名稱翻譯。
將分類信息附加到文件部分使得有可能將關(guān)鍵詞搜索與產(chǎn)品識(shí)別信息組合以將搜索結(jié)果的范圍變窄。
內(nèi)容儲(chǔ)存庫(kù)406,它是元素800的可搜索庫(kù),其中存儲(chǔ)了可搜索內(nèi)容。如圖9所示,以不同語(yǔ)言902-904的可以獲得的文件900被數(shù)據(jù)提取器402提取,并且被縮小為段或組件對(duì)象809,并被存儲(chǔ)在內(nèi)核存儲(chǔ)系統(tǒng)或內(nèi)容儲(chǔ)存庫(kù)中。對(duì)象908保留在內(nèi)核存儲(chǔ)儲(chǔ)存庫(kù)406中的文件的自然語(yǔ)言狀態(tài),但被改變?yōu)橥ㄓ米址淖址?,并且被?shù)據(jù)處理器230以XML計(jì)算機(jī)語(yǔ)言存儲(chǔ)。
儲(chǔ)存庫(kù)406具有搜索索引408,用于提供一種機(jī)制以在用戶的計(jì)算機(jī)屏幕910上利用諸如文件視圖、文件類型、元數(shù)據(jù)等的給定的一組屬性來請(qǐng)求特定的文件。以所有可以獲得的、所支持的自然語(yǔ)言NL來在內(nèi)容儲(chǔ)存庫(kù)中存儲(chǔ)文件。所述索引包括2002年6月27日提交的序號(hào)為10/180,195的美國(guó)專利申請(qǐng)和2002年2月1日提交的序號(hào)為10/066,346的美國(guó)專利申請(qǐng)的倒排索引表410,以便可以選擇適當(dāng)語(yǔ)言的文件。
圖10中示出了圖4和9的擴(kuò)展索引表410的更詳細(xì)的視圖。從文件D1-Dn提取英文關(guān)鍵詞K1-Kn。以所有所支持的自然語(yǔ)言的對(duì)應(yīng)關(guān)鍵詞被獲得,以便對(duì)于每個(gè)英文關(guān)鍵詞Ki,有每種所支持語(yǔ)言的同義詞。如圖10所示,X指示文件D1-Dn,其中出現(xiàn)一個(gè)或多個(gè)所列出的關(guān)鍵詞。于是,如圖所示,關(guān)鍵詞K1以英文出現(xiàn)在文件D1和Dj種,具有同義關(guān)鍵詞K11和K12以自然語(yǔ)言NL1和NL2存在于文件中。類似地,同義詞Ki1和Ki2在文件D2中,文件D2可以以自然語(yǔ)言NL1和2獲得,而不能以英文獲得。同義詞Kn和Kn2在文件Dj中,文件Dj可以以英文和自然語(yǔ)言NL2獲得而不能以自然語(yǔ)言NL1獲得。存儲(chǔ)在每個(gè)標(biāo)有X的位置的是排序因素信息,例如詞在文件中出現(xiàn)的次數(shù),它與出現(xiàn)在文件中的其他關(guān)鍵詞的接近程度,包括關(guān)鍵詞的文件的類型(即技術(shù)雜志廣告)等。這個(gè)信息隨后用于將每個(gè)文件相對(duì)于通過搜索而找到的其他文件排序。
圖9示出了數(shù)據(jù)檢索處理和以組件格式存儲(chǔ)的本地文件。來自本地國(guó)家數(shù)據(jù)庫(kù)904的數(shù)據(jù)被復(fù)制到系統(tǒng)數(shù)據(jù)庫(kù)902。數(shù)據(jù)提取器402從XML格式的系統(tǒng)數(shù)據(jù)庫(kù)902和組件908檢索數(shù)據(jù),并且利用數(shù)據(jù)處理器230將其存儲(chǔ)在組件庫(kù)300。數(shù)據(jù)處理器230利用數(shù)據(jù)庫(kù)920根據(jù)本地產(chǎn)品名稱來存儲(chǔ)組件。所述組件準(zhǔn)備通過用于通過在用戶的顯示屏幕910上輸入的查詢的搜索。
當(dāng)圖10的表格被以任何所支持的語(yǔ)言表達(dá)的關(guān)鍵詞查詢的時(shí)候,包括與在查詢中的關(guān)鍵詞具有同義關(guān)鍵詞的、以任何語(yǔ)言的文件以它們的排序信息被識(shí)別和提供。例如,假定查詢包括關(guān)鍵詞Ki和Kn,文件D2-Dj和Dn將以它們可獲得的語(yǔ)言被識(shí)別。因此在文件D2的情況下,文件將被識(shí)別為可以以英文和民族語(yǔ)言NL1和NL2來獲得,而以民族語(yǔ)言NL1和NL2可以獲得文件Dj。伴隨通過題目或申請(qǐng)?zhí)枌?duì)文件的識(shí)別,所存儲(chǔ)的排序因素信息將被提供到文件排序算法,例如在2002年4月10日提交的序號(hào)為10/120,071的共同待批準(zhǔn)的美國(guó)專利申請(qǐng)中所示的文件排序算法,該美國(guó)專利申請(qǐng)?jiān)诖艘胱鳛閰⒖肌?br>
圖1圖解了并入本發(fā)明的搜索系統(tǒng)。以任何所支持的語(yǔ)言的查詢1110被輸入到搜索引擎1120,并且被傳送到參照?qǐng)D4和9所述的擴(kuò)展關(guān)鍵詞倒排索引410。索引410支持多種語(yǔ)言,并且允許以任何所支持的語(yǔ)言翻譯關(guān)鍵詞查詢。在英文查詢的情況下,查詢利用語(yǔ)言關(guān)鍵詞11301和以其他所支持的語(yǔ)言表達(dá)的關(guān)鍵詞11302和1130n的列表被應(yīng)用到倒排索引410。這產(chǎn)生了以任何用戶感興趣的語(yǔ)言的英文點(diǎn)擊列表11401到1140n。有可能用戶將選擇一個(gè)列表(假定列表11402),確定那是不合適的,并且嘗試另一種選擇。如果用戶明白英語(yǔ)的能力有限,它可以愿意看以任何其他自然語(yǔ)言11402到1140n的結(jié)果。如果民族語(yǔ)言結(jié)果(假定1140i)不夠(或不存在),則用戶可以繼續(xù)到英文結(jié)果11401。作為另一種選擇,用戶可以識(shí)別所感興趣的結(jié)果最可能是英文結(jié)果11401,并且可以以那些結(jié)果來開始。作為又一種選擇,用戶找到很多英文結(jié)果以至于他決定查看以他的民族語(yǔ)言1150的更多選擇列表。當(dāng)民族語(yǔ)言結(jié)果不足或不可獲得的時(shí)候,搜索引擎將提供其他語(yǔ)言的文件以增加以英語(yǔ)作為默認(rèn)列表語(yǔ)言的選擇列表1160中列出的搜索結(jié)果,使得以英語(yǔ)不可獲得的文件被以它們可以獲得的語(yǔ)言提供。排序算法1170分析在選擇列表中的文件以向用戶提供排序列表1180。
如圖12所示,用于查詢本系統(tǒng)的計(jì)算機(jī)屏幕包括輸入關(guān)鍵詞查詢1200的空間。搜索引擎1202用于指示搜索范圍。搜索引擎1204用于執(zhí)行要搜索的語(yǔ)言。區(qū)域1206用于指示查詢術(shù)語(yǔ)被提供的語(yǔ)言,空間1208用于提供排序列表被提供的語(yǔ)言。因此在附圖中,“便攜式電腦”和“IBM”是要查看的關(guān)鍵詞。搜索引擎是“任何國(guó)家”。但是,如果期望,搜索可以限定到假定特定的國(guó)家或甚至特定的文件儲(chǔ)存庫(kù)。例如,搜索引擎可以限定到國(guó)會(huì)圖書館或在美國(guó)的任何圖書館。執(zhí)行搜索的語(yǔ)言被全部列出。這將導(dǎo)致對(duì)所有所支持的語(yǔ)言的搜索,以便將從表格中讀出相同文件的多個(gè)拷貝。空間1206識(shí)別搜索詞是英文的情況。但是,可以使用任何其他所支持的語(yǔ)言。例如,如果德語(yǔ)是所支持的語(yǔ)言,則搜索術(shù)語(yǔ)1200可以是德語(yǔ)詞,并且查詢語(yǔ)言將指示它們是德語(yǔ)的。最后,可以以與查詢語(yǔ)言不同的語(yǔ)言來提供結(jié)果,以便如此處所示,雖然搜索術(shù)語(yǔ)是英文的,但是所排序的文件將以德語(yǔ)被提供,使得那些文件可以用德語(yǔ)言來獲得。如果不能夠以德語(yǔ)來獲得任何一個(gè)文件,則列表將包括以可以用作為第一默認(rèn)語(yǔ)言的英文獲得的語(yǔ)言的那個(gè)文件。所述空間1200-1208的使用允許控制搜索執(zhí)行及結(jié)果被提供的其范圍和語(yǔ)言。
參見圖13,通過用戶在步驟1302和1304輸入在圖12的空間1200-1208中給出的搜索信息來查詢系統(tǒng)。所輸入的查詢和其他信息隨后被用于在步驟1206查詢擴(kuò)展的倒排索引表格,并且從表格410來獲得文件列表。搜索隨后在步驟1310被提供他喜歡的語(yǔ)言的排序文件列表,并且在步驟1312確定是否結(jié)果是滿意的。如果是,則處理結(jié)束。但是如果搜索不滿意,則他可以在步驟1314通過修改在步驟1302和1304提供的數(shù)據(jù)來擴(kuò)展或否則改變它的搜索范圍。
向回參見圖4,索引管理器412負(fù)責(zé)利用由搜索引擎提供的適當(dāng)接口來建立和更新搜索索引408,并且它基于存儲(chǔ)在內(nèi)容儲(chǔ)存庫(kù)中的內(nèi)容。索引管理器可以處理多個(gè)搜索索引。
搜索管理器414主要負(fù)責(zé)從接口管理器組件收集搜索查詢的輸入?yún)?shù),并且利用配置信息(如搜索引擎參數(shù))、個(gè)性化信息(如優(yōu)選文件類型)和分類信息(如搜索類別)來建立最后的查詢對(duì)象。2002年7月23日提交的美國(guó)專利申請(qǐng)(YOR9-2002-0163)包括對(duì)搜索管理引擎的說明。
訪問管理器416是到搜索引擎的直接接口。它負(fù)責(zé)以適當(dāng)?shù)母袷较蛩阉饕嫣峤凰阉鞑樵?,并且收集要由其他組件處理和返回的搜索結(jié)果。這可以通過利用面向內(nèi)部組件的一般適配器接口以及面向不同的搜索引擎的可插入適配器來實(shí)現(xiàn)。2002年7月31日提交的序號(hào)為10/209,619的美國(guó)專利申請(qǐng)和2002年6月3日提交的序號(hào)為10/759,373的美國(guó)專利申請(qǐng)包括訪問管理器的說明。
布局管理器418負(fù)責(zé)建立和定制文件內(nèi)容和搜索結(jié)果的布局。從內(nèi)容儲(chǔ)存庫(kù)模塊406來檢索內(nèi)容。在2002年6月3日提交的序號(hào)為10/759,373的美國(guó)專利申請(qǐng)包括布局管理器的說明。
接口管理器420負(fù)責(zé)處理用戶的GUI和與后端模塊接口。對(duì)內(nèi)核的輸入和輸出422、424、426、428、430和432分別是與內(nèi)核300接口的翻譯級(jí)310的餓輸出和輸入。
現(xiàn)在參見圖5,通過連續(xù)提取、存儲(chǔ)和索引數(shù)據(jù)的后端處理來從在內(nèi)聯(lián)網(wǎng)和因特網(wǎng)上的來源提取文件和其他數(shù)據(jù)。文件提取管理器402從數(shù)據(jù)源出來經(jīng)過翻譯程序308和310到達(dá)每個(gè)來源,以便提供向信息源提供兼容的請(qǐng)求(步驟500和502)。它從來源提取數(shù)據(jù),在翻譯程序308和310中將其轉(zhuǎn)換為XML形式,并且將數(shù)據(jù)放到內(nèi)容儲(chǔ)存庫(kù)406中(步驟504、506和510)。索引管理器412產(chǎn)生對(duì)于所提取的文件的索引數(shù)據(jù),并將其與數(shù)據(jù)一起放置到內(nèi)容儲(chǔ)存庫(kù)中(步驟512)。文件的所有所支持的國(guó)家語(yǔ)言NL被提取和存儲(chǔ)在儲(chǔ)存庫(kù)中,并且可以利用倒排索引410來訪問。
現(xiàn)在參見圖6和14,在接收到以HTTP語(yǔ)言的查詢的時(shí)候(步驟600),翻譯程序308和310將查詢翻譯為內(nèi)核XML形式(步驟602)。接口管理器形成用于訪問內(nèi)容儲(chǔ)存庫(kù)406的查詢(步驟604),并且將所述查詢提供到搜索管理引擎414(步驟606和608),搜索管理引擎414獲得定制和配置數(shù)據(jù)并且將其加到查詢的數(shù)據(jù)。定制數(shù)據(jù)個(gè)性化為用戶定制查詢,而配置數(shù)據(jù)識(shí)別提供數(shù)據(jù)的特定因特網(wǎng)或內(nèi)聯(lián)網(wǎng)服務(wù)器。訪問管理器416產(chǎn)生信息的點(diǎn)擊列表(步驟610),并且將其提供到接口管理器420,接口管理器420將其改變?yōu)橛脩舻腉UI,用戶的GUI將其發(fā)送到翻譯程序308和310以將其轉(zhuǎn)換為用戶接口的語(yǔ)言(步驟612)。
現(xiàn)在參見圖7,當(dāng)用戶查看點(diǎn)擊列表和利用HTTP文件查看查詢拉請(qǐng)求數(shù)據(jù)的時(shí)候(步驟70),數(shù)據(jù)被轉(zhuǎn)換為XML查詢(步驟702)并且被提供到用于查詢收集的接口管理器302(步驟704)。來自接口管理器的信息被提供到布局管理器418,布局管理器418從內(nèi)容儲(chǔ)存庫(kù)314的內(nèi)容產(chǎn)生文件(步驟706和708),并且將文件通過接口管理器420和翻譯程序308和310發(fā)送到用戶,以便將XML文件轉(zhuǎn)換為HTTP形式(步驟710和712),并且將它們提供給用戶顯示器(步驟714)。
圖15示出了在搜索系統(tǒng)的各種組件期間的事件的序列。
上面,我們已經(jīng)說明了本發(fā)明的一個(gè)實(shí)施例,這個(gè)實(shí)施例的修改形式對(duì)本領(lǐng)域的技術(shù)人員是顯然的。例如如所指出的那樣,可以通過向翻譯程序加上另一個(gè)層來容易地接納不同的語(yǔ)言。而且。當(dāng)XML已經(jīng)被用做語(yǔ)言的內(nèi)核的時(shí)候,諸如GML、HTML的其他語(yǔ)言可以被用來取代XML。另外,翻譯程序被描述為在XML和HTTP、HTML之間的翻譯,并且可以使用其他連接器。為此,應(yīng)當(dāng)明白,本發(fā)明不限于所述的實(shí)施例,而是包括落入所附的權(quán)利要求所限定的精神和范圍內(nèi)的所有改變。
權(quán)利要求
1.一種搜索引擎管理系統(tǒng),用于搜索以多種自然語(yǔ)言表達(dá)的文件,所述系統(tǒng)包括格式翻譯層,接收以兩種或多種自然語(yǔ)言表達(dá)的一個(gè)或更多的輸入,所述輸入具有輸入格式和輸入數(shù)據(jù),所述格式翻譯層以其自然語(yǔ)言保留所述數(shù)據(jù),使用輸入適配器將輸入格式轉(zhuǎn)換為包括通用字符集的單一內(nèi)核格式,所述翻譯層還具有一個(gè)或多個(gè)輸出適配器;內(nèi)核,使用內(nèi)核格式以一個(gè)或多個(gè)內(nèi)核元素來操作輸入數(shù)據(jù),以便產(chǎn)生內(nèi)核結(jié)果,其中內(nèi)核結(jié)果通過翻譯層被發(fā)送到一個(gè)或多個(gè)網(wǎng)絡(luò)輸出端,其中輸出適配器將內(nèi)核結(jié)果轉(zhuǎn)換為以一種或多種自然語(yǔ)言表達(dá)的輸出格式。
2.按照權(quán)利要求1的系統(tǒng),其中內(nèi)核格式包括下列格式中的任何一個(gè)或多個(gè)在統(tǒng)一代碼字符集中的XML、GML和HTML。
3.按照權(quán)利要求1的系統(tǒng),包括在內(nèi)核中的關(guān)鍵詞的列表,對(duì)于在內(nèi)核的數(shù)據(jù)庫(kù)中的多個(gè)文件中的每個(gè)文件,它包括以至少第一和第二自然語(yǔ)言表達(dá)的同義關(guān)鍵詞;在內(nèi)核中的倒排索引,用于數(shù)據(jù)庫(kù)的所述多個(gè)文件,包括在列表中的同義關(guān)鍵詞;在內(nèi)核中的搜索引擎,響應(yīng)于第一和第二語(yǔ)言表達(dá)的關(guān)鍵詞,所述搜索引擎使用倒排索引來獲得一組結(jié)果,其中包括與以第一或輸入語(yǔ)言表達(dá)的輸入關(guān)鍵詞搜索術(shù)語(yǔ)對(duì)應(yīng)的文件,并且包括以第二語(yǔ)言表達(dá)的文件。
4.按照權(quán)利要求3的系統(tǒng),其中所述列表是雙向列表,用于將搜索術(shù)語(yǔ)從第一種語(yǔ)言轉(zhuǎn)換為第二種語(yǔ)言和從第二種語(yǔ)言轉(zhuǎn)換為第一種語(yǔ)言。
5.按照權(quán)利要求4的系統(tǒng),其中搜索術(shù)語(yǔ)的轉(zhuǎn)換使用用于管理多種語(yǔ)言的統(tǒng)一代碼系統(tǒng)。
6.一種在計(jì)算機(jī)可使用系統(tǒng)上的計(jì)算機(jī)程序產(chǎn)品,用于搜索引擎管理系統(tǒng),所述搜索引擎管理系統(tǒng)用于搜索以多種自然語(yǔ)言表達(dá)的文件,包括用于格式翻譯層的軟件,所述格式翻譯層接收以兩種或多種自然語(yǔ)言表達(dá)的一個(gè)或更多的輸入,所述輸入具有輸入格式和輸入數(shù)據(jù),所述格式翻譯層以其自然語(yǔ)言保留所述數(shù)據(jù),使用輸入適配器將輸入格式轉(zhuǎn)換為包括通用字符集的單一內(nèi)核格式,所述翻譯層還具有一個(gè)或多個(gè)輸出適配器;用于內(nèi)核的軟件,所述內(nèi)核使用內(nèi)核格式以一個(gè)或多個(gè)內(nèi)核元素來操作輸入數(shù)據(jù),以便產(chǎn)生內(nèi)核結(jié)果,其中內(nèi)核結(jié)果通過翻譯層被發(fā)送到一個(gè)或多個(gè)網(wǎng)絡(luò)輸出端,其中輸出適配器將內(nèi)核結(jié)果轉(zhuǎn)換為以所選擇的自然語(yǔ)言的輸出格式。
7.按照權(quán)利要求6的計(jì)算機(jī)程序產(chǎn)品,其中內(nèi)核格式包括下列格式中的任何一個(gè)或多個(gè)在統(tǒng)一代碼字符集中的XML、GML和HTML。
8.按照權(quán)利要求6的計(jì)算機(jī)程序產(chǎn)品,其中內(nèi)核元素包括內(nèi)容儲(chǔ)存庫(kù)和下面的任何一個(gè)或多個(gè)內(nèi)容提取管理器;可搜索內(nèi)容管理器;訪問管理器;索引管理器;接口管理器;布局管理器;SM引擎。
9.按照權(quán)利要求6的計(jì)算機(jī)程序產(chǎn)品,包括用于關(guān)鍵詞列表的軟件,對(duì)于在內(nèi)核的數(shù)據(jù)庫(kù)中的多個(gè)文件中的每個(gè)文件,它包括以至少第一和第二自然語(yǔ)言表達(dá)的同義關(guān)鍵詞;用于倒排索引的軟件,用于數(shù)據(jù)庫(kù)的所述多個(gè)文件,包括在列表中的同義關(guān)鍵詞;搜索引擎,響應(yīng)于第一和第二語(yǔ)言表達(dá)的關(guān)鍵詞,所述搜索引擎使用倒排索引來獲得一組結(jié)果,其中包括與以第一或輸入語(yǔ)言表達(dá)的輸入關(guān)鍵詞搜索術(shù)語(yǔ)對(duì)應(yīng)的文件,并且包括以第二語(yǔ)言表達(dá)的文件。
10.按照權(quán)利要求9的計(jì)算機(jī)程序產(chǎn)品,其中所述列表是雙向列表,用于將搜索術(shù)語(yǔ)從第一種語(yǔ)言轉(zhuǎn)換為第二種語(yǔ)言和從第二種語(yǔ)言轉(zhuǎn)換為第一種語(yǔ)言。
11.按照權(quán)利要求7的計(jì)算機(jī)程序產(chǎn)品,其中搜索術(shù)語(yǔ)的轉(zhuǎn)換使用用于管理多種語(yǔ)言的統(tǒng)一代碼系統(tǒng)。
12.按照權(quán)利要求6的計(jì)算機(jī)程序產(chǎn)品,其中包括用于通用分類數(shù)據(jù)庫(kù)的軟件,所述數(shù)據(jù)庫(kù)包括以多種自然語(yǔ)言表達(dá)的產(chǎn)品名稱。
13.按照權(quán)利要求6的計(jì)算機(jī)程序產(chǎn)品,包括用于在組件格式數(shù)據(jù)庫(kù)系統(tǒng)中存儲(chǔ)現(xiàn)場(chǎng)文件的軟件。
全文摘要
以不同自然語(yǔ)言輸入的數(shù)據(jù)穿過過渡翻譯層,過渡翻譯層利用包括用于所有所支持的自然語(yǔ)言的字符集的通用字符集將數(shù)據(jù)轉(zhuǎn)變?yōu)閱蝹€(gè)計(jì)算機(jī)語(yǔ)言。以原始的自然語(yǔ)言來存儲(chǔ)數(shù)據(jù),并且文件被劃分成由搜索術(shù)語(yǔ)識(shí)別的部分,這些部分被以基于類型的分類樹排列。雙向倒排索引被通過用于由關(guān)鍵詞搜索術(shù)語(yǔ)來訪問,在關(guān)鍵詞搜索術(shù)語(yǔ)中,以所有支持的語(yǔ)言表達(dá)的關(guān)鍵詞被存儲(chǔ)并且交叉參考到每種自然語(yǔ)言的文件中。包括這個(gè)表格的搜索引擎可以識(shí)別以所查詢的語(yǔ)言、第二種語(yǔ)言或由用戶確定的所有所支持的語(yǔ)言的相關(guān)文件。所操作的文件隨后通過過渡翻譯層被輸出,并且以與輸入形式和語(yǔ)言相同或不同的所期望格式被提供。
文檔編號(hào)G06F17/27GK1503163SQ0312754
公開日2004年6月9日 申請(qǐng)日期2003年8月6日 優(yōu)先權(quán)日2002年11月22日
發(fā)明者金文柱, 西村真里子, 里子, 志, 田浦厚志, 美, 高村惠美 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司