模塊能夠與通信模塊通信,并且能夠識別與搜索查詢有關(guān)的第一語言的至少一個文檔以及來自與計算裝置通信的數(shù)據(jù)庫的至少一個文檔聚類。文檔聚類能夠包括第一語言的至少一個文檔和不同于第一語言的第二語言的另外文檔。用戶接口模塊能夠與文檔識別模塊通信,并且能夠產(chǎn)生搜索結(jié)果的列表并且將搜索結(jié)果的列表提供給用戶裝置。搜索結(jié)果的列表能夠包括至少兩種語言的文檔,所述至少兩種語言包括第一語言和第二語言。
[0019]通信模塊能夠接收來自用戶的翻譯網(wǎng)頁的請求,并且至少一個文檔能夠包括被用戶請求從第一語言翻譯成第二語言的第一文檔。技術(shù)還能夠包括與文檔識別模塊通信的聚類評估模塊,其針對與第一文檔的距離在預(yù)定閾值內(nèi)的第二語言的第二文檔來評估至少一個文檔聚類,并且當(dāng)?shù)诙臋n與第一文檔的距離在預(yù)定閾值內(nèi)時,響應(yīng)于搜索查詢將第二文檔提供給用戶。第一文檔與第二文檔之間的距離能夠?qū)?yīng)于第一文檔與第二文檔之間的相似水平。
[0020]技術(shù)還能夠包括文檔收集模塊、基礎(chǔ)語言翻譯模塊、文檔索引模塊以及聚類模塊。能夠通過以下步驟生成至少一個文檔聚類:(i )在文檔收集模塊處識別待聚類的文檔集,文檔集包括外語文檔和基礎(chǔ)語言文檔;(? )在基礎(chǔ)語言翻譯模塊處將外語文檔翻譯成基礎(chǔ)語言;(iii)在文檔索引模塊處確定基礎(chǔ)語言文檔中的關(guān)鍵字和經(jīng)翻譯的外語文檔中的關(guān)鍵字;(iv )在聚類模塊處,基于基礎(chǔ)語言文檔中的所確定的關(guān)鍵字和經(jīng)翻譯的外語文檔中的所確定的關(guān)鍵字,將基礎(chǔ)語言文檔與外語文檔聚類在文檔聚類的公共集合中,文檔聚類的集合包括基礎(chǔ)語言文檔和外語文檔兩者;以及(V )將文檔聚類的集合存儲在數(shù)據(jù)庫中。
[0021]第一語言能夠是用于產(chǎn)生文檔聚類的基礎(chǔ)語言,或者能夠是對應(yīng)于外語文檔之一的語言。搜索結(jié)果的列表能夠包括第一語言的文檔和至少第二語言的文檔??商孢x地,搜索結(jié)果的列表能夠包括第一語言的文檔,以及供用戶查看包括至少第二語言的文檔的相關(guān)外語文檔的選項。
[0022]搜索查詢能夠包括識別電子商務(wù)網(wǎng)站上的第一產(chǎn)品。至少一個文檔能夠?qū)?yīng)于第一產(chǎn)品,并且至少一個文檔聚類能夠包括與第一產(chǎn)品有關(guān)的另外產(chǎn)品的信息,所述信息采用不同于第一語言的第二語言。響應(yīng)于搜索查詢,文檔識別模塊能夠?qū)⒘硗猱a(chǎn)品的列表提供給用戶裝置。
[0023]這些和其它實現(xiàn)可以提供以下優(yōu)勢中的一個或多個優(yōu)勢。在一些實現(xiàn)中,例如,技術(shù)可以通過返回被認(rèn)為是響應(yīng)于查詢的、以搜索查詢的語言以外的語言的文檔,來提供增強(qiáng)的搜索結(jié)果。以這種方式,可以向用戶返回與搜索查詢相關(guān)的、但是以不同于查詢語言的語言的文檔。
[0024]從下文提供的詳細(xì)描述將會明顯看出本公開內(nèi)容的另外的應(yīng)用領(lǐng)域。應(yīng)當(dāng)理解的是詳細(xì)描述和具體示例僅意圖用于說明的目的,而不意圖限制本公開內(nèi)容的范圍。
【附圖說明】
[0025]根據(jù)詳細(xì)描述以及附圖將更加全面地理解本公開內(nèi)容,其中:
[0026]圖1是能夠應(yīng)用本公開內(nèi)容的技術(shù)的示例環(huán)境的示意圖;
[0027]圖2是圖1中的第一示例計算裝置的功能框圖;
[0028]圖3是根據(jù)本公開內(nèi)容的示例文檔聚類技術(shù)的流程圖;
[0029]圖4是示出了圖3的聚類技術(shù)的示例文檔集的示意圖;
[0030]圖5是圖1中的第二示例計算裝置的功能框圖;以及
[0031]圖6是根據(jù)本公開內(nèi)容的示例技術(shù)的流程圖。
【具體實施方式】
[0032]現(xiàn)在參考圖1,圖示了能夠使用根據(jù)本公開內(nèi)容的一些實施方式的技術(shù)的環(huán)境。例如,用戶10能夠與用戶裝置12交互以訪問網(wǎng)絡(luò)14。網(wǎng)絡(luò)14的示例包括因特網(wǎng)、廣域網(wǎng)、局域網(wǎng)以及專用網(wǎng)絡(luò),但不限于此。第一計算裝置16和第二計算裝置18可以連接到網(wǎng)絡(luò)14,并且也可以由用戶10經(jīng)由用戶裝置12來訪問。如本公開內(nèi)容中所使用的,計算裝置可以包括一個或更多個計算裝置,如服務(wù)器和/或處理器。第一和第二計算裝置16、18可以包括彼此共有或彼此不同的服務(wù)器和/或處理器的任何組合。第一和第二計算裝置16、18中的每一個可以與數(shù)據(jù)庫20通信,以存儲和/或訪問文檔聚類集合。本領(lǐng)域的技術(shù)人員將會理解圖1中示出的環(huán)境僅僅是說明性的,并且不同的環(huán)境可以與本公開內(nèi)容一起使用(如包括更多或更少部件的環(huán)境、包括另外的連接的環(huán)境,和/或以不同的結(jié)構(gòu)來布置的環(huán)境)。
[0033]參考圖2,第一計算裝置16可以包括文檔收集模塊22、基礎(chǔ)語言翻譯模塊24、文檔索引模塊26、聚類模塊28以及重復(fù)文檔確定模塊30。文檔收集模塊22與網(wǎng)絡(luò)14通信并且識別待聚類的文檔集。文檔收集模塊22可以與基礎(chǔ)語言翻譯模塊24和聚類模塊28通信,并且可以提供文檔給基礎(chǔ)語言翻譯模塊24和聚類模塊28。文檔集可以包括不同語言的文檔??梢园ㄈ魏螖?shù)目的不同語言的文檔。第一計算裝置16提供了用于聚類不同語言的文檔的技術(shù)。文檔索引模塊26、聚類模塊28以及重復(fù)文檔確定模塊30中的每一個可以與數(shù)據(jù)庫20通信。文檔索引模塊26也可以與基礎(chǔ)語言翻譯模塊24以及聚類模塊28通信。
[0034]圖3示出的流程圖中圖示了示例聚類技術(shù)100。在110處,由文檔收集模塊22識別待聚類的文檔集。文檔集包括多種語言的文檔。文檔集可以包括萬維網(wǎng)上的文檔的全部或其任何子集??商孢x地,文檔集能夠包括封閉系統(tǒng)(諸如產(chǎn)品數(shù)據(jù)庫)中的文檔的集合。在識別文檔之后,在112處文檔被翻譯成公共(基礎(chǔ))語言。
[0035]翻譯可以包括將外國(非基礎(chǔ))語言文檔機(jī)器翻譯成基礎(chǔ)語言。翻譯可以由基礎(chǔ)語言翻譯模塊24在本地完成,或者可以被發(fā)送至翻譯引擎32。翻譯可以被存儲在數(shù)據(jù)庫20中。在114處由文檔索引模塊26確定文檔中的關(guān)鍵字??梢詫Ψg的文檔和基礎(chǔ)語言文檔使用網(wǎng)絡(luò)爬蟲(web crawling),以產(chǎn)生關(guān)鍵字列表。對于關(guān)鍵字確定,可以省去考慮不重要的詞語,如停用詞(stop word) “一個”、“一”和“該”。
[0036]然后,在116處文檔索引模塊26以與語言無關(guān)(language-agnostic)的方式來給關(guān)鍵字編索引。圖4提供了文檔索引的簡化表示。文檔索引可以包括將數(shù)字關(guān)鍵字標(biāo)識符分配給文檔中的每個關(guān)鍵字。只出于舉例的目的,基礎(chǔ)語言可以是英語。圖4中的“文檔I”可以是德語文檔的英語翻譯,“文檔2”可以是母語英語文檔,“文檔η”可以是西班牙語文檔的英語翻譯。在114處,本技術(shù)針對經(jīng)翻譯的文檔和基礎(chǔ)語言(在示例中是英語)文檔,確定基礎(chǔ)語言的關(guān)鍵字(示例中的關(guān)鍵字1、2、3、4、5)。
[0037]在116處,本技術(shù)將與語言無關(guān)的關(guān)鍵字索引(示例中的Idl、ld2、ld3、ld4、ld5)分配給關(guān)鍵字。然后可以通過關(guān)鍵字來對經(jīng)翻譯的文檔集編索引。文檔索引模塊26可以將針對文檔的與語言無關(guān)的關(guān)鍵字索引存儲在數(shù)據(jù)庫20中。因此,數(shù)據(jù)庫20具有原始文檔集的與語言無關(guān)的關(guān)鍵字索引,該原始文檔集包括基礎(chǔ)語言文檔和外語文檔(以它們本國的語言)。在完成關(guān)鍵字索引之后,可以刪除外語文檔的翻譯。因此,文檔集可以是多種語言的(在示例中是英語、德語和西班牙語),并且可以以與語言無關(guān)的方式來對文檔集編索引。
[0038]然后,在118處聚類模塊28通過關(guān)鍵字索引來聚類文檔。聚類模塊28可以以包括任何數(shù)目的聚類算法的多種方式對文檔進(jìn)行操作。作為非限制性示例,文檔聚類算法可以包括連通模型、重心模型、分布模型、密度模型、子空間模型或群組模型。根據(jù)所使用的聚類技術(shù),文檔可以被分組在一個或更多個文檔聚類中。本公開內(nèi)容不限于任何具體的聚類技術(shù),并且能夠通過使用多種已知聚類技術(shù)中的任何技術(shù)來應(yīng)用本公開內(nèi)容。
[0039]當(dāng)文檔被分成文檔聚類時,聚類模塊28可以通過距離函數(shù)在每個聚類中排列文檔。距離函數(shù)可以產(chǎn)生與兩個文檔之間的相似水平相對應(yīng)的兩個文檔之間的距離。僅出于舉例的目的,假設(shè)圖4中的“文檔1,2,…,η”中的每一個在一個聚類中。以簡化的形式,可以通過文檔共有的關(guān)鍵字的數(shù)目來定義文檔之間的距離:
[0040]距離(文檔1,文檔2) = 4
[0041]距離(文檔1,文檔η) = 2
[0042]距離(文檔2,文檔η) = 2
[0043]然后,因為“文檔I”和“文檔2”具有最多的共有關(guān)鍵字,所以在聚類中以圖4中示出的順序(文檔1,文檔2,文檔η)排列文檔。
[0044]上述示例僅僅用于說明目的。應(yīng)當(dāng)理解的是,實際中,文檔中的術(shù)語的頻率可被納入考慮,并且可進(jìn)一步相對于文檔中的詞語的總數(shù)目而被歸一化。當(dāng)分配關(guān)鍵字索引時,可以通過考慮關(guān)鍵字位置和元數(shù)據(jù)來進(jìn)一步改善上面示出的“文檔1,2,…,η”的示例。在創(chuàng)建文檔聚類并且在文檔聚類中排列文檔之后,在120處文檔聚類被存儲在數(shù)據(jù)庫20中。
[0045]文檔聚類也可以被用于估計文檔聚類中的第一語言的第一文檔何時對應(yīng)于文檔聚類中的第二文檔,該第二文檔是不同于第一語言的第二語言。重復(fù)文檔確定模塊30可以與聚類模塊28通信,以估計第一文檔和第二文檔何時是不同語言的“相同”文檔。重復(fù)文檔確定模塊30可以將上述距離函數(shù)應(yīng)用于估計第一文檔和第二文檔何時是不同語言的相同文檔。例如,可以建立預(yù)定閾值以確定文檔何時是不同語言的相同文檔。在圖4示出的示例中,如果預(yù)定閾值被設(shè)定為“4”,則“文檔I”被估計為英語“文檔2”的德語等同物。重復(fù)文檔確定模塊30可以更新數(shù)據(jù)庫20,以指示第一文檔和第二文檔是不同語言的相同文檔。
[0046]重復(fù)文檔確定模塊30還可以與機(jī)