跨語言查詢的擴(kuò)展方法和搜索引擎的制作方法
【專利摘要】本發(fā)明提供一種跨語言查詢的擴(kuò)展方法,該方法首先對所接收的用戶查詢進(jìn)行分詞并且對分詞后的結(jié)果來進(jìn)行跨語言查詢的翻譯需求判斷,僅對存在翻譯需求的查詢進(jìn)行跨語言檢索。該方法避免了不必要的擴(kuò)展,減少了計(jì)算量,提高了搜索結(jié)果的準(zhǔn)確性,能更好地滿足用戶的需求。
【專利說明】跨語言查詢的擴(kuò)展方法和搜索引擎
【技術(shù)領(lǐng)域】
[0001]本發(fā)明總地涉及數(shù)字信息處理領(lǐng)域,具體地,涉及多語言文本處理領(lǐng)域。
【背景技術(shù)】
[0002]為解決從海量信息中查找所需信息的問題,人們發(fā)展了信息檢索技術(shù)。但隨著來自世界各地的人們交往日益密切,信息獲取需求呈現(xiàn)國際化特點(diǎn),人們迫切希望只提交用一種語言構(gòu)造查詢,即可獲得與此相關(guān)的多種語言的信息。
[0003]現(xiàn)有的搜索引擎技術(shù)是通過對網(wǎng)頁做文本分析,建立“關(guān)鍵詞”到網(wǎng)頁對應(yīng)的“URL”的索引進(jìn)行搜索。比如用戶提交查詢“麻省理工學(xué)院”,則搜索引擎會(huì)返回所有包含“麻省理工學(xué)院”這個(gè)詞的網(wǎng)頁結(jié)果。但是從用戶的角度,“麻省理工學(xué)院”與“MIT”,以及“Massachusetts Institute of Technology”是等價(jià)的,也就是說,用戶需要的,不只是包含“麻省理工學(xué)院”的網(wǎng)頁,還有包含“MIT”或者“Massachusetts Institute of Technology”的網(wǎng)頁。因此,如果將所有這些相關(guān)頁面都返回給用戶,而不是其中的一部分,必然能夠提升用戶體驗(yàn)。要解決上述問題,就需要對用戶查詢進(jìn)行跨語言擴(kuò)展,然后結(jié)合現(xiàn)有的搜索技術(shù)進(jìn)行索引,這樣即可同時(shí)召回更多的網(wǎng)頁,更大程度地滿足用戶需求。
[0004]現(xiàn)有的跨語言查詢的擴(kuò)展通常是對用戶查詢進(jìn)行簡單地翻譯,以利用翻譯后的關(guān)鍵詞來檢索目標(biāo)語言的網(wǎng)頁。例如,2007年3月19日提交的申請?zhí)枮?00710089117.1的中國專利申請“跨語言檢索請求的轉(zhuǎn)換及跨語言信息檢索方法和系統(tǒng)”就公開了一種跨語言檢索請求的擴(kuò)展方法,包括下列步驟:1)利用多個(gè)不同的機(jī)器翻譯系統(tǒng)分別對跨語言檢索請求進(jìn)行從源語言到目標(biāo)語言的翻譯,以得到該跨語言檢索請求的多個(gè)目標(biāo)語言譯文;2)以所述多個(gè)目標(biāo)語言譯文為基礎(chǔ),構(gòu)造與該跨語言檢索請求對應(yīng)的目標(biāo)語言檢索請求。
[0005]現(xiàn)有的跨語言查詢的擴(kuò)展方法雖然召回了更多的目標(biāo)語言的網(wǎng)頁,但是可能對一些無需擴(kuò)展的查詢進(jìn)行了錯(cuò)誤擴(kuò)展,例如用戶查詢“狗不理包子”,這不僅徒增了計(jì)算量還增加了搜索結(jié)果的不準(zhǔn)確性,難以滿足用戶的需求。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的解決上述問題,提供一種跨語言查詢擴(kuò)展方法,獲取準(zhǔn)確性更高的搜索結(jié)果,以便更好地滿足用戶的需求。
[0007]本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0008]一方面,本發(fā)明提供了一種跨語言查詢的擴(kuò)展方法,該方法包括:
[0009]步驟1,對所接收的用戶查詢進(jìn)行分詞;
[0010]步驟2,對分詞后的結(jié)果來進(jìn)行跨語言查詢的翻譯需求判斷;
[0011]步驟3,對存在翻譯需求的查詢進(jìn)行跨語言擴(kuò)展。
[0012]上述方法中,所述步驟2可以包括:
[0013]對于分詞后的結(jié)果中的每個(gè)詞,查詢跨語言查詢詞典;如果在跨語言查詢詞典中存在該詞,則確定該詞具有翻譯需求;[0014]其中,所述跨語言查詢詞典保存反映源語言和目標(biāo)語言中具有共性的知識(shí)的詞。
[0015]上述方法中,在所述跨語言查詢詞典中,對于每個(gè)詞,可以保存關(guān)于該詞的兩種信息:需求類別和對應(yīng)該需求類別的譯文,所述需求類別表示這個(gè)詞有哪些方面的需求。
[0016]上述方法中,所述步驟3可以包括:
[0017]將存在跨語言翻譯需求的詞翻譯成目標(biāo)語言譯文;
[0018]將所得到詞的譯文與所述用戶查詢中的其他未被翻譯的詞組合成擴(kuò)展查詢。
[0019]上述方法中,還可以包括:基于所述擴(kuò)展查詢進(jìn)行檢索的步驟。
[0020]又一方面,本發(fā)明提供了一種支持跨語言查詢的搜索引擎,所述搜索引擎包括:
[0021]分詞模塊,用于對所接收的用戶查詢進(jìn)行分詞;
[0022]翻譯需求判斷模塊,用于對分詞后的結(jié)果來進(jìn)行跨語言查詢的翻譯需求判斷;
[0023]跨語言擴(kuò)展模塊,用于對存在翻譯需求的查詢進(jìn)行跨語言擴(kuò)展。
[0024]上述搜索引擎中,所述翻譯需求判斷模塊可以包括對于分詞后的結(jié)果中的每個(gè)詞,查詢跨語言查詢詞典;如果在跨語言查詢詞典中存在該詞,則確定該詞具有翻譯需求;其中,所述跨語言查詢詞典保存反映源語言和目標(biāo)語言中具有共性的知識(shí)的詞。
[0025]上述搜索引擎中,在所述跨語言查詢詞典中,對于每個(gè)詞,可以保存關(guān)于該詞的兩種信息:需求類別和對應(yīng)該需求類別的譯文,所述需求類別表示這個(gè)詞有哪些方面的需求。
[0026]上述搜索引擎中,所述跨語言擴(kuò)展模塊可以將存在跨語言翻譯需求的詞翻譯成目標(biāo)語言譯文;將所得到詞的譯文與所述用戶查詢中的其他未被翻譯的詞組合成擴(kuò)展查詢。
[0027]上述搜索引擎中,還可以包括基于所述擴(kuò)展查詢進(jìn)行檢索的模塊。
[0028]與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)在于:
[0029]本發(fā)明所提供的跨語言查詢的擴(kuò)展方法僅對存在翻譯需求的查詢進(jìn)行跨語言檢索,該方法避免了不必要的擴(kuò)展,減少了計(jì)算量,提高了搜索結(jié)果的準(zhǔn)確性,能更好地滿足用戶的需求。
【專利附圖】
【附圖說明】
[0030]圖1是根據(jù)本發(fā)明實(shí)施例的跨語言查詢擴(kuò)展方法的流程圖。
【具體實(shí)施方式】
[0031]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖,對根據(jù)本發(fā)明實(shí)施例的跨語言查詢的擴(kuò)展方法進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0032]在本發(fā)明的一個(gè)實(shí)施例中,提供了一種跨語言查詢的擴(kuò)展方法。該方法在擴(kuò)展查詢之前首先進(jìn)行翻譯需求的判斷,僅對有翻譯需求的查詢進(jìn)行跨語言的擴(kuò)展,由此,不僅實(shí)現(xiàn)了簡單地跨語言的檢索,而是可以更好的滿足源語言用戶的需求。例如,用戶輸入“麻省理工大學(xué)”,會(huì)擴(kuò)展出 “MIT” 和 “Massachusetts Institute of Technology”,返回結(jié)果除了相關(guān)的中文網(wǎng)頁外,可能還會(huì)有MIT的官網(wǎng),也就是目標(biāo)語言的網(wǎng)頁,也就是實(shí)現(xiàn)跨語言的檢索。而且,該方法可以通過翻譯需求判斷來確定哪些詞需要跨語言查詢,哪些詞不需要進(jìn)行跨語言查詢,從而提高檢索結(jié)果的準(zhǔn)確性,以便更好地滿足用戶需求。例如,用戶輸入“老友記下載”,會(huì)擴(kuò)展出“friends下載”,而不是“friends download”,這樣返回的很可能都是中文(源語言)網(wǎng)頁,而這些中文網(wǎng)頁中,關(guān)于“老友記”這部電視劇的標(biāo)簽有可能是中文的,也有可能是英文的。也就是僅對“老友記”進(jìn)行了跨語言查詢,而如果是傳統(tǒng)的跨語言檢索,會(huì)給出關(guān)于“friends download”的英文網(wǎng)頁,而這對于使用中文用戶而言并不能獲得好的用戶體驗(yàn)。
[0033]圖1示出了根據(jù)本發(fā)明實(shí)施例的跨語言查詢的擴(kuò)展方法的流程圖,下面結(jié)合圖1對該方法進(jìn)行詳細(xì)描述:
[0034]步驟1,對所接收的用戶查詢進(jìn)行分詞。在該步驟中,可以采用本領(lǐng)域技術(shù)人員所知的適用于對用戶查詢進(jìn)行分詞的任何方法來對所收到的用戶的查詢進(jìn)行分詞。
[0035]步驟2,對分詞后的結(jié)果來進(jìn)行跨語言查詢的翻譯需求判斷。
[0036]也就是通過步驟2來確定哪些詞需要進(jìn)行跨語言查詢。在本發(fā)明的方法中并不是對所有的查詢都進(jìn)行擴(kuò)展,比如一些本土化的知識(shí),如“狗不理包子”等就無需擴(kuò)展。而是主要對源語言和目標(biāo)語言中具有共性的知識(shí)進(jìn)行擴(kuò)展,例如,對中外人士具有共識(shí)的一類知識(shí)進(jìn)行擴(kuò)展。這類知識(shí)可以例如是中國或外國的一些名人,小說,書籍,事件等等。
[0037]在一個(gè)實(shí)施例中,可以將反映源語言和目標(biāo)語言中具有共性的知識(shí)的詞保存在一個(gè)詞典中。這個(gè)詞典可以稱為跨語言查詢詞典。在該詞典里,對于每個(gè)詞,保存關(guān)于該詞的兩個(gè)信息,一個(gè)是需求類別,一個(gè)是對應(yīng)該需求類別的譯文。所謂需求類別是指,這個(gè)詞有哪些方面的需求,比如“電影類”,“電視類”,“游戲類”,“書籍類”。同一個(gè)詞,在不同的需求類別下,翻譯也不同或者不一定有翻譯。比如,“friends”這個(gè)詞,用戶輸入該詞,可能有兩種意圖,一個(gè)是想看電視劇,還有另一個(gè)可能想知道“friends”這個(gè)詞的中文意思。也就是說,它可能有“電視類需求”,“翻譯類需求”。如果是電視類需求,其對應(yīng)的譯文為“老友記”,如果是翻譯類需求,可以給出這個(gè)詞的詞典解釋。而且,用戶通常在需求明確的情況下,會(huì)加一些補(bǔ)充性的語言,比如“friends下載”,“friends中文”。這樣,“下載”、“中文”這些詞,可以有助于準(zhǔn)確地判斷“需求類別”。
[0038]跨語言查詢詞典中對一個(gè)詞的需求類別可以是來自對搜索引擎用戶日志的統(tǒng)計(jì)分析,當(dāng)然也可以來自一些定向網(wǎng)頁的名詞抽取。例如,用戶在檢索信息的時(shí)候除了它關(guān)心的關(guān)鍵詞本身之外,為了使搜索出來的結(jié)果更準(zhǔn)確,還會(huì)用加些限定性的詞匯,比如“非誠匆擾電影”,“非誠匆擾電視”,“失戀33天電影”等等。通過對海量的用戶日志進(jìn)行統(tǒng)計(jì),便可以識(shí)別出“非誠勿擾”有電影類需求等。又例如,為了對詞的需求類別進(jìn)行判斷,可以通過定向網(wǎng)站進(jìn)行名詞抽取,比如“某某電影網(wǎng)站”,“某某歌曲網(wǎng)站”,通過模塊匹配的方式,對網(wǎng)頁進(jìn)行分析,挖掘到電影名稱,歌曲名稱等等,這樣就可以抽取到一批帶有需求類別的詞。這樣,將對用戶的查詢分詞后的得到的每個(gè)詞與跨語言查詢詞典進(jìn)行匹配,就可以判斷是否需要對該詞進(jìn)行跨語言查詢。如果某個(gè)詞在跨語言查詢詞典里存在,就認(rèn)為該詞需要進(jìn)行跨語言擴(kuò)展,而且可以根據(jù)該詞的需求類別得到相對應(yīng)的譯文。
[0039]步驟3,對存在翻譯需求的查詢進(jìn)行跨語言擴(kuò)展。
[0040]也就是說在經(jīng)步驟2的翻譯需求判斷后,將存在跨語言翻譯需求的詞翻譯成目標(biāo)語言譯文;將所得到詞的譯文與所述用戶查詢中的其他未被翻譯的詞組合成擴(kuò)展查詢。這樣就可以對經(jīng)擴(kuò)展得到的擴(kuò)展查詢進(jìn)行檢索。其中,翻譯的過程可以是一個(gè)自動(dòng)翻譯的過程,例如利用機(jī)器翻譯系統(tǒng)進(jìn)行翻譯,或者通過查詢?nèi)缟衔乃龅目缯Z言查詢詞典來獲得相應(yīng)需求類別的對應(yīng)譯文。[0041]下面以用戶在中文搜索引擎上的查詢“老友記下載”為例對上述擴(kuò)展步驟進(jìn)行說明。
[0042]首先,對“老友記下載”進(jìn)行分詞,獲得“老友記”和“下載”兩個(gè)詞。然后,對“老友記”和“下載”做翻譯需求判斷,由于所用搜索引擎的用戶源語言為中文,基于跨語言查詢詞典判斷出:“老友記”有跨語言擴(kuò)展需求,而“下載”無跨語言擴(kuò)展需求。但是如上述所述,“下載”作為用戶所加的補(bǔ)充性語言,有助于判斷需求類別。例如,通過“下載”這個(gè)詞可以判斷出“老友記”的需求類別為電視類需求,從而將其翻譯成“fr iends”,并將翻譯后得到的譯文與用戶查詢中其他未被翻譯的詞組成擴(kuò)展查詢,即對“friends”和“下載”進(jìn)行跨語言擴(kuò)展,則原查詢可以被擴(kuò)展成“friends下載”。這樣,該搜索引擎可以將基于所接收到的用戶查詢“老友記下載”以及基于擴(kuò)展查詢“friends下載”檢索得到的所有網(wǎng)頁返回給用戶,從而更好地滿足了用戶需求。
[0043]又例如,如果用戶查詢“狗不理包子”,現(xiàn)有的跨語言查詢的擴(kuò)展方法會(huì)將其擴(kuò)展到英文,比如“Gou Bu Li Baozi”,然后對“Gou Bu Li Baozi”這個(gè)短語作相應(yīng)的切分及檢索,然后返回相應(yīng)的英文網(wǎng)頁。雖然召回了更多的目標(biāo)語言的網(wǎng)頁,但是由于對無需擴(kuò)展的查詢進(jìn)行了錯(cuò)誤擴(kuò)展,這不僅徒增了計(jì)算量還增加了搜索結(jié)果的不準(zhǔn)確性,難以滿足用戶的需求。
[0044]而在本發(fā)明的實(shí)施例中,首先要判斷是否有對“狗不理包子”的翻譯需求,如上文所述,在本發(fā)明的查詢擴(kuò)展中,只針對“中外人士具有共識(shí)的一類知識(shí)”,而“狗不理包子”這類詞是中國本土特有的,而且它的著名程度也還沒有上升到“中外人士具有共識(shí)的一類知識(shí)”上去,所以關(guān)于它的信息肯定是中文網(wǎng)頁相對多,另外考慮到上述示例的搜索引擎的用戶母語是中文,所以完全沒有必要擴(kuò)展。對用戶查詢“狗不理包子”檢索所得到的中文的網(wǎng)頁完全可以滿足用戶的需求。這樣即提高了準(zhǔn)確性,又節(jié)省了計(jì)算成本。
[0045]根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供一種采用上述跨語言擴(kuò)展方法的搜索引擎。該搜索引擎包括用于對所接收的用戶查詢進(jìn)行分詞的模塊、用于對分詞后的結(jié)果來進(jìn)行跨語言查詢的翻譯需求判斷的模塊,以及用于對存在翻譯需求的查詢進(jìn)行跨語言擴(kuò)展,也就是將存在跨語言翻譯需求的詞翻譯成目標(biāo)語言譯文并且將所得到詞的譯文與所述用戶查詢中的其他未被翻譯的詞組合成擴(kuò)展查詢。該搜索引擎還包括基于擴(kuò)展后的查詢進(jìn)行檢索的模塊。
[0046]應(yīng)指出,在上文中以源語言為中文、目標(biāo)語言為英文,僅是示例性說明而非進(jìn)行限制,本領(lǐng)域技術(shù)人員應(yīng)理解可以采用任何一種語言作為源語言或目標(biāo)語言,并且對于一種源語言可以擴(kuò)展為一種或多種目標(biāo)語言,這可以視具體的應(yīng)用環(huán)境或用戶需求而定。在不脫離后附的權(quán)利要求所要求的本發(fā)明的精神和范圍的情況下,可以對上述詳細(xì)描述的本發(fā)明做出各種修改和改進(jìn)。因此,要求保護(hù)的技術(shù)方案的范圍不受所給出的任何特定示范教導(dǎo)的限制。
【權(quán)利要求】
1.一種跨語言查詢的擴(kuò)展方法,該方法包括: 步驟1,對所接收的用戶查詢進(jìn)行分詞; 步驟2,對分詞后的結(jié)果來進(jìn)行跨語言查詢的翻譯需求判斷; 步驟3,對存在翻譯需求的查詢進(jìn)行跨語言擴(kuò)展。
2.根據(jù)權(quán)利要求1所述的方法,所述步驟2包括: 對于分詞后的結(jié)果中的每個(gè)詞,查詢跨語言查詢詞典;如果在跨語言查詢詞典中存在該詞,則確定該詞具有翻譯需求; 其中,所述跨語言查詢詞典保存反映源語言和目標(biāo)語言中具有共性的知識(shí)的詞。
3.根據(jù)權(quán)利要求2所述的方法,在所述跨語言查詢詞典中,對于每個(gè)詞,保存關(guān)于該詞的兩種信息:需求類別和對應(yīng)該需求類別的譯文,所述需求類別表示這個(gè)詞有哪些方面的需求。
4.根據(jù)權(quán)利要求1所述的方法,所述步驟3包括: 將存在跨語言翻譯需求的詞翻譯成目標(biāo)語言譯文; 將所得到詞的譯文與所述用戶查詢中的其他未被翻譯的詞組合成擴(kuò)展查詢。
5.根據(jù)權(quán)利要求4所述的方法,所述方法還包括:基于所述擴(kuò)展查詢進(jìn)行檢索的步驟。
6.一種支持跨語言查詢的搜索引擎,所述搜索引擎包括: 分詞模塊,用于對所接收的用戶查詢進(jìn)行分詞; 翻譯需求判斷模塊,用于對分詞后的結(jié)果來進(jìn)行跨語言查詢的翻譯需求判斷; 跨語言擴(kuò)展模塊,用于對存在翻譯需求的查詢進(jìn)行跨語言擴(kuò)展。
7.根據(jù)權(quán)利要求6所述的搜索引擎,所述翻譯需求判斷模塊包括對于分詞后的結(jié)果中的每個(gè)詞,查詢跨語言查詢詞典;如果在跨語言查詢詞典中存在該詞,則確定該詞具有翻譯需求;其中,所述跨語言查詢詞典保存反映源語言和目標(biāo)語言中具有共性的知識(shí)的詞。
8.根據(jù)權(quán)利要求7所述的搜索引擎,在所述跨語言查詢詞典中,對于每個(gè)詞,保存關(guān)于該詞的兩種信息:需求類別和對應(yīng)該需求類別的譯文,所述需求類別表示這個(gè)詞有哪些方面的需求。
9.根據(jù)權(quán)利要求6所述的搜索引擎,所述跨語言擴(kuò)展模塊將存在跨語言翻譯需求的詞翻譯成目標(biāo)語言譯文;將所得到詞的譯文與所述用戶查詢中的其他未被翻譯的詞組合成擴(kuò)展查詢。
10.根據(jù)權(quán)利要求9所述的搜索引擎,還包括基于所述擴(kuò)展查詢進(jìn)行檢索的模塊。
【文檔編號(hào)】G06F17/28GK103778126SQ201210397415
【公開日】2014年5月7日 申請日期:2012年10月18日 優(yōu)先權(quán)日:2012年10月18日
【發(fā)明者】沈文竹, 吳甜, 春光, 吳華, 趙世奇 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司