亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

多語言文檔聚類的制作方法

文檔序號(hào):8303449閱讀:296來源:國知局
多語言文檔聚類的制作方法
【專利說明】多語言文檔聚類
[0001]相關(guān)申請(qǐng)的交叉引用
[0002]本申請(qǐng)要求于2012年7月16日提交的美國實(shí)用專利申請(qǐng)第13/549,624號(hào)的優(yōu)先權(quán)。以上申請(qǐng)的公開內(nèi)容通過引用被整體合并到本文中。
【背景技術(shù)】
[0003]文檔聚類(document clusters)可以用于增強(qiáng)搜索查詢??梢曰诠餐卣鱽砭垲愇臋n集。聚類中的文檔可以是一種語言的。例如,因?yàn)殛P(guān)鍵字被用于形成文檔聚類,所以文檔可能是針對(duì)一種語言來聚類。當(dāng)用戶輸入搜索查詢時(shí),提供的結(jié)果將僅與一種語言的一組文檔有關(guān)。因此,響應(yīng)于搜索查詢,與搜索有關(guān)的、但是不同語言的文檔將不會(huì)被提供給用戶。

【發(fā)明內(nèi)容】

[0004]在本公開內(nèi)容的多個(gè)實(shí)施方式中,技術(shù)能夠包括在計(jì)算裝置中的文檔收集模塊處確定待聚類的文檔集。文檔集能夠包括外語文檔和基礎(chǔ)語言文檔。在計(jì)算裝置中的基礎(chǔ)語言翻譯模塊處,外語文檔能夠被機(jī)器翻譯成基礎(chǔ)語言。在計(jì)算裝置中的文檔索引模塊處能夠確定基礎(chǔ)語言文檔中的關(guān)鍵字和經(jīng)翻譯的外語文檔中的關(guān)鍵字。在文檔索引模塊處,與語言無關(guān)的關(guān)鍵字索引能夠被分配給每個(gè)確定的關(guān)鍵字。在計(jì)算裝置中的聚類模塊處,基于與語言無關(guān)的關(guān)鍵字索引,能夠?qū)⒒A(chǔ)語言文檔與外語文檔聚類在文檔聚類的公共集合中。文檔聚類的集合能夠包括基礎(chǔ)語言文檔和外語文檔兩者,并且文檔聚類的集合能夠被存儲(chǔ)在數(shù)據(jù)庫中。
[0005]在本公開內(nèi)容的多個(gè)實(shí)施方式中,技術(shù)能夠包括在計(jì)算裝置中的文檔收集模塊處識(shí)別待聚類的文檔集。文檔集能夠包括外語文檔和基礎(chǔ)語言文檔。在計(jì)算裝置中的基礎(chǔ)語言翻譯模塊處,外語文檔能夠被翻譯成基礎(chǔ)語言。在計(jì)算裝置中的文檔索引模塊處能夠確定基礎(chǔ)語言文檔中的關(guān)鍵字和經(jīng)翻譯的外語文檔中的關(guān)鍵字。在計(jì)算裝置中的聚類模塊處,基于基礎(chǔ)語言文檔中的確定的關(guān)鍵字和經(jīng)翻譯的外語文檔中的確定的關(guān)鍵字,能夠?qū)⒒A(chǔ)語言文檔與外語文檔聚類在文檔聚類的公共集合中。文檔聚類的集合能夠包括基礎(chǔ)語言文檔和外語文檔兩者,并且文檔聚類的集合能夠被存儲(chǔ)在數(shù)據(jù)庫中。
[0006]技術(shù)還能夠包括:在計(jì)算裝置中的重復(fù)文檔確定模塊處確定文檔聚類之一中的第一語言的第一文檔何時(shí)對(duì)應(yīng)于所述文檔聚類之一中的不同于第一語言的第二語言的第二文檔的翻譯,并且當(dāng)?shù)谝晃臋n對(duì)應(yīng)于第二文檔的翻譯時(shí)在計(jì)算裝置處提供指示。確定第一文檔何時(shí)對(duì)應(yīng)于第二文檔的翻譯包括確定所述文檔聚類之一中的文檔之間的距離,并且當(dāng)?shù)谝晃臋n和第二文檔之間的距離在預(yù)定閾值以內(nèi)時(shí)提供指示。第一文檔和第二文檔之間的距離能夠?qū)?yīng)于第一文檔和第二文檔之間的相似水平。
[0007]將外語文檔翻譯成基礎(chǔ)語言能夠包括將外語文檔機(jī)器翻譯成基礎(chǔ)語言。可替選地,將外語文檔翻譯成基礎(chǔ)語言能夠包括將外語文檔發(fā)送至翻譯引擎,以及從翻譯引擎接收外語文檔的基礎(chǔ)語言翻譯。技術(shù)還能夠包括將與語言無關(guān)的關(guān)鍵字索引應(yīng)用于關(guān)鍵字。與語言無關(guān)的關(guān)鍵字索引能夠包括數(shù)字關(guān)鍵字索引。在將與語言無關(guān)的關(guān)鍵字索引應(yīng)用于關(guān)鍵字之后能夠進(jìn)行聚類,并且能夠基于與語言無關(guān)的關(guān)鍵字索引將外語文檔和基礎(chǔ)語言文檔分組到文檔聚類的集合中。
[0008]識(shí)別待聚類的文檔集能夠包括訪問包括電子商務(wù)產(chǎn)品數(shù)據(jù)庫的封閉系統(tǒng)中的產(chǎn)品數(shù)據(jù)庫。每個(gè)文檔聚類能夠包括基礎(chǔ)語言和至少一種外語的產(chǎn)品數(shù)據(jù)庫中相關(guān)產(chǎn)品的產(chǎn)品信息。技術(shù)還能夠包括臨時(shí)存儲(chǔ)經(jīng)翻譯的外語文檔,以及在確定經(jīng)翻譯的外語文檔中的關(guān)鍵字之后刪除經(jīng)翻譯的外語文檔。
[0009]在本公開內(nèi)容的多個(gè)實(shí)施方式中,技術(shù)能夠包括文檔收集模塊、基礎(chǔ)語言翻譯模塊、文檔索引模塊、聚類模塊以及數(shù)據(jù)庫。文檔收集模塊能夠識(shí)別來自網(wǎng)絡(luò)的待聚類的文檔集,其包括多種語言的文檔,并且文檔收集模塊能夠識(shí)別基礎(chǔ)語言?;A(chǔ)語言翻譯模塊能夠與文檔收集模塊通信,并且能夠識(shí)別基礎(chǔ)語言,以及能夠提供文檔集中的外語文檔的基礎(chǔ)語言翻譯。文檔索引模塊能夠與文檔收集模塊和基礎(chǔ)語言翻譯模塊通信,并且能夠從文檔集中的基礎(chǔ)語言文檔以及外語文檔的翻譯中確定關(guān)鍵字。聚類模塊能夠與文檔索引模塊通信,并且能夠基于來自文檔索引模塊的所確定的關(guān)鍵字,產(chǎn)生針對(duì)文檔集的文檔聚類。文檔聚類能夠包括文檔集中的基礎(chǔ)語言文檔和外語文檔。數(shù)據(jù)庫能夠與聚類模塊通信,并且能夠存儲(chǔ)文檔聚類。
[0010]技術(shù)還能夠包括與數(shù)據(jù)庫通信的重復(fù)文檔確定模塊,其確定文檔聚類之一中的第一語言的第一文檔何時(shí)對(duì)應(yīng)于不同于第一語言的第二語言的第二文檔的翻譯,并且當(dāng)?shù)谝晃臋n對(duì)應(yīng)于第二文檔的翻譯時(shí)能夠在數(shù)據(jù)庫中提供指示。重復(fù)文檔確定模塊能夠確定第一文檔和第二文檔之間的距離,并且當(dāng)?shù)谝晃臋n和第二文檔之間的距離在預(yù)定閾值以內(nèi)時(shí)能夠提供指示。第一文檔和第二文檔之間的距離能夠?qū)?yīng)于第一文檔和第二文檔之間的相似水平。
[0011]基礎(chǔ)語言翻譯模塊能夠提供將外語文檔機(jī)器翻譯成基礎(chǔ)語言。文檔索引模塊能夠?qū)⑴c語言無關(guān)的關(guān)鍵字索引提供給每個(gè)關(guān)鍵字。聚類模塊能夠基于與語言無關(guān)的關(guān)鍵字索引生成針對(duì)文檔集的文檔聚類。網(wǎng)絡(luò)能夠包括形成電子商務(wù)產(chǎn)品數(shù)據(jù)庫的封閉系統(tǒng)中的產(chǎn)品數(shù)據(jù)庫。每個(gè)文檔聚類能夠包括基礎(chǔ)語言和至少一種外語的產(chǎn)品數(shù)據(jù)庫中相關(guān)產(chǎn)品的產(chǎn)品?目息。
[0012]在本公開內(nèi)容的多個(gè)實(shí)施方式中,技術(shù)能夠包括:在計(jì)算裝置中的通信模塊處接收來自與用戶裝置交互的用戶的對(duì)翻譯網(wǎng)頁的請(qǐng)求,其中用戶裝置與計(jì)算裝置通信。能夠在通信模塊處接收來自用戶的第一語言的搜索查詢。能夠在計(jì)算裝置中的文檔識(shí)別模塊處識(shí)別與搜索查詢有關(guān)的第一語言的至少一個(gè)文檔,以及來自與計(jì)算裝置通信的數(shù)據(jù)庫的至少一個(gè)文檔聚類。至少一個(gè)文檔能夠包括被用戶請(qǐng)求從第一語言翻譯成不同于第一語言的第二語言的第一文檔。文檔聚類能夠包括第一語言的第一文檔和第二語言的另外文檔。能夠通過以下操作產(chǎn)生文檔聚類:(i)在計(jì)算裝置中的文檔收集模塊處識(shí)別待聚類的文檔集,文檔集包括外語文檔和基礎(chǔ)語言文檔;(ii )在計(jì)算裝置中的基礎(chǔ)語言翻譯模塊處將外語文檔翻譯成基礎(chǔ)語言,以得到經(jīng)翻譯的外語文檔;(iii)在計(jì)算裝置中的文檔索引模塊處確定基礎(chǔ)語言文檔中的關(guān)鍵字和經(jīng)翻譯的外語文檔中的關(guān)鍵字;(iv )在計(jì)算裝置中的聚類模塊處,基于基礎(chǔ)語言文檔中的所確定的關(guān)鍵字和經(jīng)翻譯的外語文檔中的所確定的關(guān)鍵字,將基礎(chǔ)語言文檔與外語文檔聚類在文檔聚類的公共集合中,文檔聚類的集合包括基礎(chǔ)語言文檔和外語文檔兩者;以及(V )將文檔聚類的集合存儲(chǔ)在數(shù)據(jù)庫中。能夠在聚類評(píng)估模塊處針對(duì)與第一文檔的距離在預(yù)定閾值內(nèi)的第二語言的第二文檔來評(píng)估至少一個(gè)文檔聚類,其中第一文檔與第二文檔之間的距離對(duì)應(yīng)于第一文檔與第二文檔之間的相似水平。當(dāng)?shù)诙臋n與第一文檔的距離在預(yù)定閾值內(nèi)時(shí),能夠響應(yīng)于搜索查詢,通過計(jì)算裝置中的用戶接口模塊提供第二文檔給用戶裝置。
[0013]在本公開內(nèi)容的多個(gè)實(shí)施方式中,技術(shù)能夠包括在計(jì)算裝置中的通信模塊處接收來自與用戶裝置交互的用戶的第一語言的搜索查詢,其中用戶裝置與計(jì)算裝置通信。在計(jì)算裝置的文檔識(shí)別模塊處,能夠識(shí)別與搜索查詢有關(guān)的第一語言的至少一個(gè)文檔以及來自與計(jì)算裝置通信的數(shù)據(jù)庫的至少一個(gè)文檔聚類。文檔聚類能夠包括第一語言的至少一個(gè)文檔以及不同于第一語言的第二語言的另外文檔。響應(yīng)于搜索查詢,能夠從計(jì)算設(shè)備將搜索結(jié)果的列表提供給用戶裝置。搜索結(jié)果的列表能夠包括至少兩種語言的文檔,其中至少兩種語言包括第一語言和第二語言。
[0014]搜索查詢能夠包括來自用戶的翻譯網(wǎng)頁的請(qǐng)求,并且至少一個(gè)文檔能夠包括被用戶請(qǐng)求從第一語言翻譯成第二語言的第一文檔。技術(shù)還可以包括針對(duì)與第一文檔的距離在預(yù)定閾值內(nèi)的第二語言的第二文檔來評(píng)估至少一個(gè)文檔聚類,以及當(dāng)?shù)诙臋n與第一文檔的距離在預(yù)定閾值內(nèi)時(shí),響應(yīng)于搜索查詢將第二文檔提供給用戶。第一文檔和第二文檔之間的距離能夠?qū)?yīng)于第一文檔和第二文檔之間的相似水平。
[0015]能夠通過下述步驟產(chǎn)生文檔聚類:(i )在計(jì)算裝置中的文檔收集模塊處識(shí)別待聚類的文檔集,文檔集包括外語文檔和基礎(chǔ)語言文檔;(ii )在計(jì)算裝置中的基礎(chǔ)語言翻譯模塊處將外語文檔翻譯成基礎(chǔ)語言,以得到經(jīng)翻譯的外語文檔;(iii)在計(jì)算裝置中的文檔索引模塊處確定基礎(chǔ)語言文檔中的關(guān)鍵字和經(jīng)翻譯的外語文檔中的關(guān)鍵字;(iv )在計(jì)算裝置中的聚類模塊處,基于基礎(chǔ)語言文檔中的所確定的關(guān)鍵字和經(jīng)翻譯的外語文檔中的所確定的關(guān)鍵字,將基礎(chǔ)語言文檔與外語文檔聚類在文檔聚類的公共集合中,文檔聚類的集合包括基礎(chǔ)語言文檔和外語文檔兩者;以及(V )將文檔聚類的集合存儲(chǔ)在數(shù)據(jù)庫中。第一語言能夠是用于產(chǎn)生文檔聚類的基礎(chǔ)語言,或者能夠是對(duì)應(yīng)于外語文檔之一的語言。
[0016]提供搜索結(jié)果的列表能夠包括:將包括第一語言的文檔和至少第二語言的文檔的結(jié)果的列表提供給用戶裝置。可替選地,提供搜索結(jié)果的列表能夠包括:將包括第一語言的文檔的結(jié)果的列表提供給用戶裝置,以及為用戶提供查看包括至少第二語言的文檔的相關(guān)外語文檔的選項(xiàng)。
[0017]搜索查詢能夠包括識(shí)別電子商務(wù)網(wǎng)站上的第一產(chǎn)品。至少一個(gè)文檔能夠?qū)?yīng)于第一產(chǎn)品,并且至少一個(gè)文檔聚類能夠包括與第一產(chǎn)品有關(guān)的另外產(chǎn)品的信息,所述信息采用不同于第一語言的語言。提供搜索結(jié)果的列表能夠包括響應(yīng)于搜索查詢將另外產(chǎn)品的列表提供給用戶裝置。
[0018]在本公開內(nèi)容的多個(gè)實(shí)施方式中,技術(shù)能夠包括通信模塊、文檔識(shí)別模塊和用戶接口模塊。通信模塊能夠接收來自與用戶裝置交互的用戶的第一語言的搜索查詢,其中用戶裝置與計(jì)算裝置通信。文檔識(shí)別
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1