亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種搜索需求識別方法及裝置的制作方法

文檔序號:6432350閱讀:275來源:國知局
專利名稱:一種搜索需求識別方法及裝置的制作方法
技術(shù)領(lǐng)域
本申請涉及互聯(lián)網(wǎng)應用技術(shù)領(lǐng)域,特別是涉及一種搜索需求識別方法及裝置。
背景技術(shù)
搜索引擎(search engine)是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。傳統(tǒng)的搜索引擎,在接收到用戶的提交的搜索請求(query)后,首先提取該query所包含的關(guān)鍵詞,然后基于文本內(nèi)容匹配操作,將包含有該關(guān)鍵詞的網(wǎng)頁或文檔返回給用戶。隨著用戶對搜索智能化要求的不斷提升,搜索需求識別已經(jīng)成為搜索領(lǐng)域的一個研究熱點。所謂搜索需求識別,就是根據(jù)用戶所提交的query,分析和預測用戶的需求,確定用戶的意圖或感興趣的領(lǐng)域,然后再向其提供相應的信息。例如,用戶輸入“從北京到上?!边@樣的query,則可以識別出該用戶可能具有較強的地圖查詢需求或票務(wù)查詢需求,這樣就可以在展示搜索結(jié)果時,直接向用戶提供地圖或票務(wù)的相關(guān)內(nèi)容,或者將地圖或票務(wù)的相關(guān)內(nèi)容排在搜索結(jié)果的前面,從而方便用戶進一步瀏覽。搜索需求識別所涉及的關(guān)鍵技術(shù)包括語義分析、行為分析、智能人機交互、海量計算處理、信息抽取等等。由于用戶query表述方式的多樣性,目前一種較為常用的方式是在不同的領(lǐng)域?qū)τ脩舻膓uery進行分析,以實現(xiàn)更有針對性的搜索需求識別。翻譯需求是用戶在搜索過程中一種較為常見的需求,根據(jù)現(xiàn)有技術(shù),可以在搜索引擎中,預先設(shè)定一些特定的表述形式,例如,當用戶輸入“XXX翻譯”這樣的query后,搜索引擎可以根據(jù)“翻譯”這樣明顯具有翻譯需求的表述,較好地識別出用戶具有針對單詞“XXX”的翻譯需求。但是在實際應用中,用戶的query的表達形式是多種多樣的,而且很多的表述都隱含有翻譯需求,如果僅靠人工搜集這些表述形式并對搜索引擎進行設(shè)置,不僅費時費力,而且很難實現(xiàn)全面搜集,從而對翻譯需求識別的有效性造成影響。

發(fā)明內(nèi)容
為解決上述技術(shù)問題,本申請實施例提供種一種搜索需求識別方法及裝置,以實現(xiàn)對用戶翻譯需求的更有效識別,技術(shù)方案如下本申請實施例提供一種搜索需求識別方法,包括預先獲取翻譯需求表述模板;接收到搜索請求后,將搜索關(guān)鍵詞與翻譯需求表述模板進行匹配,如果匹配成功,則判斷所述搜索請求具有翻譯需求;其中,所述獲取翻譯需求表述模板,包括A.選取至少一組已知的雙語互譯詞條;B.在給定的文檔資源中,查找同時包括所述已知雙語互譯詞條的文本段;C.將所述文本段中的雙語詞條分別替換為變量,得到翻譯需求表述模板。
在本申請方案的一種實施方式中,所述獲取翻譯需求表述模板,還包括D.利用步驟C所得到的翻譯需求表述模板,在文檔資源中,提取雙語互譯詞條。在本申請方案的一種實施方式中,所述獲取翻譯需求表述模板,還包括將步驟D所提取的新互譯詞條作為已知互譯詞條,重復執(zhí)行步驟B至步驟C。在本申請方案的一種實施方式中,所述獲取翻譯需求表述模板,還包括將步驟D所獲取的新互譯詞條作為已知互譯詞條,循環(huán)執(zhí)行步驟B至步驟D,當步驟D結(jié)束后,對提取結(jié)果與當前已知的互譯詞條進行比較,如果新增的互譯詞條數(shù)量小于預設(shè)的閾值,則結(jié)束循環(huán)操作。在本申請方案的一種實施方式中,在查找同時包括所述已知雙語互譯詞條的文本段之后,還包括根據(jù)預置的過濾規(guī)則,對查找到的文本段進行過濾,所述過濾規(guī)則包括如果在文本段中,雙語互譯詞條之間間隔的詞數(shù)大于預設(shè)的詞數(shù)閾值,則刪除該文本段;和/ 或如果在文本段中,雙語互譯詞條之間包含句子分隔標識,則刪除該文本段。在本申請方案的一種實施方式中,在確定搜索請求具有翻譯需求后,還包括對搜索請求對應的翻譯結(jié)果進行展現(xiàn),所述翻譯結(jié)果的展現(xiàn)方法包括在搜索框中,展現(xiàn)搜索請求所對應的翻譯結(jié)果;或?qū)⑺阉髡埱笏鶎姆g結(jié)果以搜索建議的形式進行展現(xiàn)。在本申請方案的一種實施方式中,在接收到搜索請求并生成搜索建議之后,還包括判斷搜索建議的內(nèi)容是否具有翻譯需求。在本申請方案的一種實施方式中,在確定搜索建議的內(nèi)容具有翻譯需求后,還包括將搜索建議對應的翻譯內(nèi)容展現(xiàn)在搜索建議框中。本申請實施例還提供一種搜索需求識別裝置,包括模板獲取單元,用于預先獲取翻譯需求表述模板;翻譯需求識別單元,用于在接收到搜索請求后,將搜索關(guān)鍵詞與翻譯需求表述模板進行匹配,如果匹配成功,則判斷所述搜索請求具有翻譯需求;其中,所述模板獲取單元,包括初始化子單元、文本段查找子單元和模板獲取子單元;初始化子單元,用于選取至少一組已知的雙語互譯詞條,并將選取結(jié)果發(fā)送至文本段查找子單元;文本段查找子單元,用于在給定的文檔資源中,查找同時包括所述已知雙語互譯詞條的文本段,并將查找結(jié)果發(fā)送至模板獲取子單元;模板獲取子單元,用于將所述文本段中的雙語詞條分別替換為變量,得到翻譯需求表述模板。在本申請方案的一種實施方式中,所述模板獲取單元,還包括詞條提取子單元,用于利用所述模板獲取子單元得到的翻譯需求表述模板,在文檔資源中,提取雙語互譯詞條。
在本申請方案的一種實施方式中,所述模板獲取單元,還包括重復獲取控制子單元,用于將所述詞條提取子單元所提取的新互譯詞條作為已知互譯詞條,輸入所述文本段查找子單元。在本申請方案的一種實施方式中,所述模板獲取單元,還包括循環(huán)獲取控制子單元,用于對所述詞條提取子單元提取結(jié)果與當前已知的互譯詞條進行比較,判斷新增的互譯詞條數(shù)量是否小于預設(shè)的閾值,如果是,則結(jié)束循環(huán)操作,否則將所述詞條提取子單元所獲取的新互譯詞條作為已知互譯詞條,輸入所述文本段查找子單元。在本申請方案的一種實施方式中,所述模板獲取單元,還包括文本段過濾子單元,用于在所述文本段查找子單元查找同時包括所述已知雙語互譯詞條的文本段之后,根據(jù)預置的過濾規(guī)則,對查找到的文本段進行過濾,并將過濾結(jié)果輸入所述模板獲取子單元;所述過濾規(guī)則包括如果在文本段中,雙語互譯詞條之間間隔的詞數(shù)大于預設(shè)的詞數(shù)閾值,則刪除該文本段;和/ 或如果在文本段中,雙語互譯詞條之間包含句子分隔標識,則刪除該文本段。在本申請方案的一種實施方式中,所述裝置還包括翻譯結(jié)果展現(xiàn)單元,用于在所述翻譯需求識別單元確定搜索請求具有翻譯需求后,對搜索請求對應的翻譯結(jié)果進行展現(xiàn),所述翻譯結(jié)果展現(xiàn)單元具體配置為用于在搜索框中,展現(xiàn)搜索請求所對應的翻譯結(jié)果;或?qū)⑺阉髡埱笏鶎姆g結(jié)果以搜索建議的形式進行展現(xiàn)。在本申請方案的一種實施方式中,所述翻譯需求識別單元還用于在接收到搜索請求并生成搜索建議之后,判斷搜索建議的內(nèi)容是否具有翻譯需求。在本申請方案的一種實施方式中,所述翻譯結(jié)果展現(xiàn)單元,還用于在所述翻譯需求識別單元確定搜索建議的內(nèi)容具有翻譯需求后,將搜索建議對應的翻譯內(nèi)容展現(xiàn)在搜索建議框中。本申請實施例所提供的技術(shù)方案,利用少量的互譯詞條從網(wǎng)頁或其他文檔資源中獲取翻譯需求表述模板,由于查找的范圍可以涉及整個互聯(lián)網(wǎng),因此可以有效快捷地得到更多的翻譯需求表述模板。此外,利用所獲取的翻譯需求表述模板還可以獲取更多的互譯詞條,從而進一步獲取更多的翻譯需求表述模板,通過循環(huán)迭代的方式,可以令所搜集的翻譯需求表述模板在理論上趨于全面。當用戶輸入搜索請求時,通過將搜索請求與翻譯需求表述模板進行匹配,可以更有效地識別出用戶的翻譯需求,方便用戶的使用。


為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
圖I為本申請實施例搜索需求識別方法的流程圖;圖2為本申請實施例所提供的一種獲取翻譯需求表述模板方法流程圖;圖3為本申請實施例所提供的另一種獲取翻譯需求表述模板方法流程圖;圖4為本申請實施例所提供的第一種翻譯結(jié)果展現(xiàn)方式示意圖;圖5為本申請實施例所提供的第二種翻譯結(jié)果展現(xiàn)方式示意圖;圖6為本申請實施例所提供的第三種翻譯結(jié)果展現(xiàn)方式示意圖;圖7為本申請實施例搜索需求識別裝置的第一種結(jié)構(gòu)示意圖;圖8為本申請實施例模板獲取單元的第一種結(jié)構(gòu)示意圖;圖9為本申請實施例模板獲取單元的第二種結(jié)構(gòu)示意圖;圖10為本申請實施例模板獲取單元的第三種結(jié)構(gòu)示意圖;圖11為本申請實施例模板獲取單元的第四種結(jié)構(gòu)示意圖;圖12為本申請實施例搜索需求識別裝置的第二種結(jié)構(gòu)示意圖。
具體實施例方式在現(xiàn)有的搜索引擎中,當用戶在搜索框輸入一段文字,特別是輸入外文時,用戶可能是想得到包含有該文字內(nèi)容的網(wǎng)頁或文檔,即普通搜索需求;也可能是想要查看與該文字內(nèi)容相應的翻譯或雙語例句,即翻譯需求。對于搜索引擎而言,如果可以正確判斷出用戶當前的需求,則可以構(gòu)建更為符合用戶需求的搜索結(jié)果向用戶展現(xiàn),以方便用戶瀏覽。本申請實施例提供一種搜索需求識別方法,該方法包括以下步驟預先獲取翻譯需求表述模板;接收到搜索請求后,將搜索關(guān)鍵詞與翻譯需求表述模板進行匹配,如果匹配成功,則判斷所述搜索請求具有翻譯需求;上述方法利用少量的互譯詞條從網(wǎng)頁或其他文檔資源中獲取翻譯需求表述模板,由于查找的范圍可以涉及整個互聯(lián)網(wǎng),因此可以有效快捷地得到更多的翻譯需求表述模板。此外,利用所獲取的翻譯需求表述模板還可以獲取更多的互譯詞條,從而進一步獲取更多的翻譯需求表述模板,通過循環(huán)迭代的方式,可以令所搜集的翻譯需求表述模板在理論上趨于全面。當用戶輸入搜索請求時,通過將搜索請求與翻譯需求表述模板進行匹配,可以更有效地識別出用戶的翻譯需求,方便用戶的使用。為了使本技術(shù)領(lǐng)域的人員更好地理解本申請中的技術(shù)方案,下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都應當屬于本申請保護的范圍。圖I所示,為本申請實施例一種搜索需求識別方法的流程圖,該方法可以包括以下步驟S101,預先獲取翻譯需求表述模板;參見圖2所示,獲取翻譯需求表述模板具體又可以包括如下的子步驟SlOla,選取至少一組已知的雙語互譯詞條;本申請方案是利用已有的各種文檔資源,如網(wǎng)頁、文本文件等,從中獲取各種翻譯需求表述模板,首先選取至少一組已知的雙語互譯詞條,已知雙語互譯詞條指的是當前已經(jīng)明確語義及翻譯方式的雙語互譯詞條,其作用是作為初始的檢索條件,以獲得含有雙語內(nèi)容的文檔資源。已知互譯詞條的選取并沒有特別的限制,當然,為了保證一次搜索可以獲得數(shù)量較多且準確性較高的搜索結(jié)果,可以優(yōu)先選取那些簡單、常用、意義明確的互譯詞條。以中英雙語為例,可以選擇英文詞條“patent”以及其互譯中文詞條“專利”,則“patent”和“專利”構(gòu)成一組雙語互譯詞條。在本步驟中,也可以選取多組互譯詞條作為檢索條件,從而得到更多數(shù)量的雙語文檔資源。本領(lǐng)域技術(shù)人員可以根據(jù)實際需求靈活選用一組或多組關(guān)鍵詞,為描述方便,在以下的實施例中,僅以選取一組互譯詞條作為搜索關(guān)鍵詞進行說明。SlOlb,在給定的文檔資源中,查找同時包括所述已知雙語互譯詞條的文本段;這里所說的給定文檔資源,可以包括網(wǎng)頁、網(wǎng)絡(luò)或線下的的各種文本文件等,本申請實施例對此并不需要進行限定。通過信息檢索的方式,可以從大量的文檔資源中,找出同時包括所述已知雙語互譯詞條的文本段。例如,在文檔資源有如下內(nèi)容“patent是專利的意思,從字面上講,是指專有的利益和權(quán)利。一詞來源于拉丁語Litterae patentes,意為公開的信件或公共文獻,是中世紀的君主用來頒布某種特權(quán)的證明,后來指英國國王親自簽署的獨占權(quán)利證書。英語Patent—詞包括了 “壟斷”和“公開”兩個方面的意思,與現(xiàn)代法律意義上的專利基本特征是吻合的?!蓖ㄟ^使用雙語互譯詞條“patent”和“專利”作為檢索條件,可以在上述內(nèi)容中發(fā)現(xiàn)有兩段內(nèi)容同時包括了雙語互譯詞條(下劃線標注部分)。在檢索的過程中,以詞條中的一個詞為開始(即要么是以“patent”作為開始,要么是以“專利”作為開始,取決于哪個詞出現(xiàn)在前面,而在這個例子中,都是“patent”出現(xiàn)在前面),以另一個詞(在這個例子中都是“專利”)之后出現(xiàn)的第一個句子分隔標識(,。;等標點符號,多于I個的連續(xù)空格等)作為結(jié)束,取出整個片段,得到如下兩個模板候選al)patent是專利的意思bl) Patent—詞包括了“壟斷”和“公開”兩個方面的意思,與現(xiàn)代法律意義上的專利基本特征是吻合的SlOlc,將所述文本段中的雙語詞條分別替換為變量,得到翻譯需求表述模板。對于SlOlb中得到的文本段,將其中的雙語互譯詞條分別替換為變量,從而得到翻譯需求表述模板如下a2)X是Y的意思b2)X —詞包括了 “壟斷”和“公開”兩個方面的意思,與現(xiàn)代法律意義上的Y基本特征是吻合的在實際應用中發(fā)現(xiàn),應用上述方法所得到的翻譯需求表述模板,有些并不具有實用性,例如上面得到的模板b2),在本申請的另一個實施例中,還可以根據(jù)實際需求,設(shè)置一些過濾規(guī)則,以實現(xiàn)對翻譯需求表述模板的優(yōu)化,例如,可以在步驟SlOlb之后,對查找到的文本段進行過濾,其中,設(shè)置過濾規(guī)則如下I)如果在文本段中,雙語互譯詞條之間間隔的詞數(shù)大于預設(shè)的詞數(shù)閾值,則刪除該文本段;根據(jù)經(jīng)驗,可將詞數(shù)閾值設(shè)置在I 7,并且可以根據(jù)具體情況進行調(diào)整。2)如果在文本段中,雙語互譯詞條之間包含句子分隔標識,則刪除該文本段。也就是說,在通常意義翻譯需求表述模板中,兩個互譯詞條之間不應該包含句子分隔標志,例如逗號、句號、分號等能夠引起句子結(jié)束的標點符號,回車符,多于I個的連續(xù)空格等。上述兩種規(guī)則,可以分別使用,也可以共同使用。當然,除上述兩種規(guī)則之外,本領(lǐng)域技術(shù)人員還可以利用其他的規(guī)則進行過濾,以獲得質(zhì)量更高的翻譯需求表述模板,本申請對此并不需要進行限制。這樣,在步驟SlOlb之后,根據(jù)上述提供的過濾規(guī)則,可以將模板候選bl)濾除掉。根據(jù)上述步驟SlOla-SlOlc得到的模板可能有很多是相似的,比如“X是Y的意思”,“X是Y的意思嗎”,“X是Y的意思對不對”。在本申請方案的一種實施方式中,如果對系統(tǒng)模板的規(guī)模有限制,可以對這些模板做歸一化處理,對相似度(共同出現(xiàn)的字數(shù)占總字數(shù)的比例)超過一定閾值的模板,只保留他們共同出現(xiàn)的最大片段,比如對“X是Y的意思嗎”,“X是Y的意思對不對”這兩個模板來講,最大共現(xiàn)片段是“X是Y的意思”。S102,接收到搜索請求后,將搜索關(guān)鍵詞與翻譯需求表述模板進行匹配,如果匹配成功,則判斷所述搜索請求具有翻譯需求。經(jīng)過步驟S101,已經(jīng)獲得了一定數(shù)量的翻譯需求表述模板,在本步驟中,當搜索引擎接收到新的搜索請求后,會將搜索關(guān)鍵詞與這些翻譯需求表述模板進行匹配,如果匹配成功則判斷當前搜索請求具有翻譯需求。例如,用戶輸入的搜索請求為“patent是什么意思”。其中“什么”屬于可以抽象為變量的詞,這類詞數(shù)量較少,可以通過人工列舉定義。首先將搜索關(guān)鍵詞“patent是什么意思”進行分詞并做抽象泛化處理,得到patent是[變量]意思然后,通過查詢模板庫,發(fā)現(xiàn)存在模板X是Y的意思其中,模板的非變量部分“是”和“意思”與搜索關(guān)鍵詞匹配成功,可判斷用戶當前搜索請求具有翻譯需求。未匹配部分則認為是用戶需要翻譯的詞,其中X = patent, Y =什么,而“什么”又是屬于人工定義的已知變量詞,因此可知,此時用戶的需要翻譯的明顯是X。以上僅以一個簡單例子對搜索關(guān)鍵詞與模板匹配的過程進行說明,本領(lǐng)域技術(shù)人與也可以設(shè)置更多的匹配策略,或者利用現(xiàn)有其他方式實現(xiàn)匹配過程,這部分并不是本申請方案所關(guān)注的重點,因此不做過多說明。在本申請的另一個實施例中,在步驟SlOlc之后,還可以進一步執(zhí)行如下操作利用步驟SlOlc所得到的翻譯需求表述模板,在文檔資源中,提取雙語互譯詞條。將所提取的新互譯詞條作為已知互譯詞條,重復執(zhí)行步驟B至步驟C。例如,通過最初的已知互譯詞條“patent”和“專利”,得到了新的翻譯需求表述模板“X是Y的意思”后,又進一步利用模板在其他的文檔中發(fā)現(xiàn)了復合該模板的文本段“happen是發(fā)生的意思”,可以確定“happen”和“發(fā)生”構(gòu)成互譯詞條,那么后續(xù)就可以再以“happen”和“發(fā)生”作為已知詞條再次進行檢索。也就是說,最初只需提供一組已知互譯詞條,而后續(xù)的每次檢索都是以之前所得到結(jié)果進行檢索,通過重復利用之前的結(jié)果,最終獲得更多的翻譯需求表述模板。在本申請的另一個實施例中,在步驟S101,還可以通過循環(huán)迭代的方式,獲取更多的翻譯需求表述模板。參見圖3所示,獲取翻譯需求表述模板具體可以如下的方式實現(xiàn)
SlOla,選取至少一組已知的雙語互譯詞條;SlOlb,在給定的文檔資源中,查找同時包括所述已知雙語互譯詞條的文本段;SlOlc,將所述文本段中的雙語詞條分別替換為變量,得到翻譯需求表述模板。SlOld,利用步驟SlOlc所得到的翻譯需求表述模板,在文檔資源中,提取雙語互譯詞條。SlOle,對SlOld的提取結(jié)果與當前已知的互譯詞條進行比較,判斷新增的互譯詞條數(shù)量是否小于預設(shè)的閾值,如果是,結(jié)束循環(huán),否則執(zhí)行SlOlf。SlOlfdf SlOlC所提取的新互譯詞條作為已知互譯詞條,執(zhí)行SlOlb。上述方法中,進一步增加了一個判斷的步驟SlOle,即根據(jù)是否能夠提取到新的互譯詞條來決定是否繼續(xù)提取。當然,在實際應用中,“是否提取到新的互譯詞條”也可以更廣義地理解為“是否提取到足夠多的新互譯詞條”,即設(shè)置一個閾值N,如果本次循環(huán)得到的新互譯詞條數(shù)量達到了這個閾值N,則繼續(xù)下一次循環(huán)??梢岳斫獾氖牵擭設(shè)置為I時,即相當于判斷“是否提取到新的互譯詞條”。其中,對于第一次循環(huán)而言,“當前已知的互譯詞條”可以是一個當前已知的互譯詞條的集合,也可以只是最初輸入的已知互譯詞條。也就是說,由初期少量的已知互譯詞條開始,可以形成一個封閉的循環(huán),這個循環(huán)過程不需人為干預,能夠不斷地獲取新的翻譯需求表述模板,并以此不斷地產(chǎn)生新的互譯詞條對,直到某次循環(huán)結(jié)束時,如果在本次提取過程中沒有得到新詞條,則退出循環(huán),從而實現(xiàn)對循環(huán)步驟的自動控制。上述方法利用所獲取的翻譯需求表述模板獲取更多的互譯詞條,從而進一步獲取更多的翻譯需求表述模板,通過循環(huán)迭代的方式,可以令所搜集的翻譯需求表述模板在理論上趨于全面。當用戶輸入搜索請求時,通過將搜索請求與翻譯需求表述模板進行匹配,可以更有效地識別出用戶的翻譯需求,方便用戶的使用。在本申請所提供的一種實施方式中,如果搜索引擎具有實時識別query并反應的功能,則根據(jù)上述方案確定搜索請求具有翻譯需求后,可以直接在搜索頁面對搜索請求對應的翻譯結(jié)果進行展現(xiàn),這樣,用戶就可以在不進入搜索結(jié)果頁的情況下,得到所需的翻譯結(jié)果。圖4所示為本申請實施例所提供的一種翻譯結(jié)果展現(xiàn)方式,在該方式中,翻譯結(jié)果是在搜索框中進行展現(xiàn)。圖5所示為本申請實施例所提供的另一種翻譯結(jié)果展現(xiàn)方式,在該方式中,翻譯結(jié)果是以搜索建議的形式進行展現(xiàn)。在實際應用中,對于翻譯結(jié)果的展現(xiàn),可以使用不同字體、顏色等形式的文字,也可以使用鏈接、圖片等其他媒體方式進行展現(xiàn)。展現(xiàn)的內(nèi)容不僅可以包括直接翻譯結(jié)果(如詞典釋義,自動翻譯結(jié)果等),也可以包括其他相關(guān)內(nèi)容,例如詞性,用法,常用搭配,使用環(huán)境,例句,首標,朗讀功能等等。在本申請所提供的一種實施方式中,如果搜索引擎能針對用戶當前輸入實時生成搜索建議,則在系統(tǒng)資源允許的前提下,搜索引擎還可以進一步判斷這些搜索建議是否具有翻譯需求。如果有,可以將搜索建議對應的翻譯內(nèi)容展現(xiàn)在搜索建議框中,如圖6所示。相應于上面的方法實施例,本申請還提供一種搜索需求識別裝置,參見圖7所示,包括
模板獲取單元710,用于預先獲取翻譯需求表述模板;翻譯需求識別單元720,用于在接收到搜索請求后,將搜索關(guān)鍵詞與翻譯需求表述模板進行匹配,如果匹配成功,則判斷所述搜索請求具有翻譯需求。圖8所示為模板獲取單元710的一種結(jié)構(gòu)示意圖,可以包括以下組成部分初始化子單元711、文本段查找子單元712和模板獲取子單元713初始化子單元711,用于選取至少一組已知的雙語互譯詞條,并將選取結(jié)果發(fā)送至文本段查找子單元712;本申請方案是利用已有的各種文檔資源,如網(wǎng)頁、文本文件等,從中獲取各種翻譯需求表述模板,首先選取至少一組已知的雙語互譯詞條,已知雙語互譯詞條指的是當前已經(jīng)明確語義及翻譯方式的雙語互譯詞條,其作用是作為初始的檢索條件,以獲得含有雙語內(nèi)容的文檔資源。已知互譯詞條的選取并沒有特別的限制,當然,為了保證一次搜索可以獲得數(shù)量較多且準確性較高的搜索結(jié)果,可以優(yōu)先選取那些簡單、常用、意義明確的互譯詞條。以中英雙語為例,可以選擇英文詞條“patent”以及其互譯中文詞條“專利”,則“patent”和“專利”構(gòu)成一組雙語互譯詞條。文本段查找子單元712,用于在給定的文檔資源中,查找同時包括所述已知雙語互譯詞條的文本段,并將查找結(jié)果發(fā)送至模板獲取子單元713 ;這里所說的給定文檔資源,可以包括網(wǎng)頁、網(wǎng)絡(luò)或線下的的各種文本文件等,本申請實施例對此并不需要進行限定。通過信息檢索的方式,可以從大量的文檔資源中,找出同時包括所述已知雙語互譯詞條的文本段。例如,在文檔資源有如下內(nèi)容“patent是專利的意思,從字面上講,是指專有的利益和權(quán)利。一詞來源于拉丁語Litterae patentes,意為公開的信件或公共文獻,是中世紀的君主用來頒布某種特權(quán)的證明,后來指英國國王親自簽署的獨占權(quán)利證書。英語Patent—詞包括了 “壟斷”和“公開”兩個方面的意思,與現(xiàn)代法律意義上的專利基本特征是吻合的?!蓖ㄟ^使用雙語互譯詞條“patent”和“專利”作為檢索條件,可以在上述內(nèi)容中發(fā)現(xiàn)有兩段內(nèi)容同時包括了雙語互譯詞條(下劃線標注部分)。在檢索的過程中,以詞條中的一個詞為開始(即要么是以“patent”作為開始,要么是以“專利”作為開始,取決于哪個詞出現(xiàn)在前面,而在這個例子中,都是“patent”出現(xiàn)在前面),以另一個詞(在這個例子中都是“專利”)之后出現(xiàn)的第一個句子分隔標識(,。;等標點符號,多于I個的連續(xù)空格等)作為結(jié)束,取出整個片段,得到如下兩個模板候選al)patent是專利的意思bl)Patent—詞包括了“壟斷”和“公開”兩個方面的意思,與現(xiàn)代法律意義上的專利基本特征是吻合的模板獲取子單元713,用于將所述文本段中的雙語詞條分別替換為變量,得到翻譯需求表述模板。對于文本段查找子單元712得到的文本段,將其中的雙語互譯詞條分別替換為變量,從而得到翻譯需求表述模板如下a2)X是Y的意思b2)X —詞包括了 “壟斷”和“公開”兩個方面的意思,與現(xiàn)代法律意義上的Y基本特征是吻合的
在實際應用中發(fā)現(xiàn),應用上述方案所得到的翻譯需求表述模板,有些并不具有實用性,例如上面得到的模板b2),在本申請的另一個實施例中,模板獲取單元710還可以包括文本段過濾子單元,用于在文本段查找子單元712查找同時包括所述已知雙語互譯詞條的文本段之后,根據(jù)預置的過濾規(guī)則,對查找到的文本段進行過濾,并將過濾結(jié)果輸入所述模板獲取子單元;I)如果在文本段中,雙語互譯詞條之間間隔的詞數(shù)大于預設(shè)的詞數(shù)閾值,則刪除該文本段;根據(jù)經(jīng)驗,可將詞數(shù)閾值設(shè)置在I 7,并且可以根據(jù)具體情況進行調(diào)整。2)如果在文本段中,雙語互譯詞條之間包含句子分隔標識,則刪除該文本段。也就是說,在通常意義翻譯需求表述模板中,兩個互譯詞條之間不應該包含句子分隔標志,例如逗號、句號、分號等能夠引起句子結(jié)束的標點符號,回車符,多于I個的連續(xù)空格等。上述兩種規(guī)則,可以分別使用,也可以共同使用。當然,除上述兩種規(guī)則之外,本領(lǐng)域技術(shù)人員還可以利用其他的規(guī)則進行過濾,以獲得質(zhì)量更高的翻譯需求表述模板,本申請對此并不需要進行限制。參見圖9所示,在本申請的另一個實施例中,模板獲取單元710還可以包括詞條提取子單元714,用于利用所述模板獲取子單元得到的翻譯需求表述模板,在文檔資源中,提取雙語互譯詞條。參見圖10所示,在本申請的另一個實施例中,模板獲取單元710還可以包括重復獲取控制子單元715,用于將所述詞條提取子單元所提取的新互譯詞條作為已知互譯詞條,輸入所述文本段查找子單元。例如,通過最初的已知互譯詞條“patent”和“專利”,得到了新的翻譯需求表述模板“X是Y的意思”后,又進一步利用模板在其他的文檔中發(fā)現(xiàn)了復合該模板的文本段“happen是發(fā)生的意思”,可以確定“happen”和“發(fā)生”構(gòu)成互譯詞條,那么后續(xù)就可以再以“happen”和“發(fā)生”作為已知詞條再次進行檢索。也就是說,最初只需提供一組已知互譯詞條,而后續(xù)的每次檢索都是以之前所得到結(jié)果進行檢索,通過重復利用之前的結(jié)果,最終獲得更多的翻譯需求表述模板。參見圖11所示,在本申請的另一個實施例中,模板獲取單元710還可以包括循環(huán)獲取控制子單元716,用于對所述詞條提取子單元提取結(jié)果與當前已知的互譯詞條進行比較,判斷新增的互譯詞條數(shù)量是否大于預設(shè)的閾值,如果是,則結(jié)束循環(huán)操作,否則將所述詞條提取子單元714所獲取的新互譯詞條作為已知互譯詞條,輸入所述文本段查找子單元712。循環(huán)獲取控制子單元716根據(jù)是否能夠提取到新的互譯詞條來決定是否繼續(xù)提取。當然,在實際應用中,“是否提取到新的互譯詞條”也可以更廣義地理解為“是否提取到足夠多的新互譯詞條”,即設(shè)置一個閾值N,如果本次循環(huán)得到的新互譯詞條數(shù)量超過了這個閾值N,如果本次循環(huán)得到的新互譯詞條數(shù)量達到了這個閾值N,則繼續(xù)下一次循環(huán)??梢岳斫獾氖?,當N設(shè)置為I時,即相當于判斷“是否提取到新的互譯詞條”。其中,對于第一次循環(huán)而言,“當前已知的互譯詞條”可以是一個當前已知的互譯詞條的集合,也可以只是最初輸入的已知互譯詞條。也就是說,由初期少量的已知互譯詞條開始,可以形成一個封閉的循環(huán),這個循環(huán)過程不需人為干預,能夠不斷地獲取新的翻譯需求表述模板,并以此不斷地產(chǎn)生新的互譯詞條對,直到某次循環(huán)結(jié)束時,如果在本次提取過程中沒有得到新詞條,則退出循環(huán),從而實現(xiàn)對循環(huán)的自動控制。上述方案利用所獲取的翻譯需求表述模板獲取更多的互譯詞條,從而進一步獲取更多的翻譯需求表述模板,通過循環(huán)迭代的方式,可以令所搜集的翻譯需求表述模板在理論上趨于全面。當用戶輸入搜索請求時,通過將搜索請求與翻譯需求表述模板進行匹配,可以更有效地識別出用戶的翻譯需求,方便用戶的使用。參見圖12所示,在本申請的一種實施方式中,上述需求識別裝置還可以包括翻譯結(jié)果展現(xiàn)單元730,用于在所述翻譯需求識別單元720確定搜索請求具有翻譯需求后,對搜索請求對應的翻譯結(jié)果進行展現(xiàn)。如果搜索引擎具有實時識別query并反應的功能,則根據(jù)確定搜索請求具有翻譯需求后,翻譯結(jié)果展現(xiàn)單元703可以直接在搜索頁面對搜索請求對應的翻譯結(jié)果進行展現(xiàn),這樣,用戶就可以在不進入搜索結(jié)果頁的情況下,得到所需的翻譯結(jié)果。所述翻譯結(jié)果展現(xiàn)單元具體可以配置為用于在搜索框中,展現(xiàn)搜索請求所對應的翻譯結(jié)果;展現(xiàn)結(jié)果如圖4所示。所述翻譯結(jié)果展現(xiàn)單元還可以配置為將搜索請求所對應的翻譯結(jié)果以搜索建議的形式進行展現(xiàn);展現(xiàn)結(jié)果如圖5所
/Jn ο在實際應用中,對于翻譯結(jié)果的展現(xiàn),可以使用不同字體、顏色等形式的文字,也可以使用鏈接、圖片等其他媒體方式進行展現(xiàn)。展現(xiàn)的內(nèi)容不僅可以包括直接翻譯結(jié)果(如詞典釋義,自動翻譯結(jié)果等),也可以包括其他相關(guān)內(nèi)容,例如詞性,用法,常用搭配,使用環(huán)境,例句,首標,朗讀功能等等。此外,在在本申請的另一種實施方式中,翻譯需求識別單元720還可以用于在搜索引擎接收到搜索請求并生成搜索建議之后,判斷搜索建議的內(nèi)容是否具有翻譯需求。如果識別出有翻譯需求,則翻譯結(jié)果展現(xiàn)單元730可以將搜索建議對應的翻譯內(nèi)容展現(xiàn)在搜索建議框中,如圖6所示。為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當然,在實施本申請時可以把各單元的功能在同一個或多個軟件和/或硬件中實現(xiàn)。通過以上的實施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施例或者實施例的某些部分所述的方法。本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置或系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所描述的裝置及系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。本申請可用于眾多通用或?qū)S玫挠嬎阆到y(tǒng)環(huán)境或配置中。例如個人計算機、服務(wù)器計算機、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的消費電子設(shè)備、網(wǎng)絡(luò)PC、小型計算機、大型計算機、包括以上任何系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。本申請可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本申請,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠程計算機存儲介質(zhì)中。以上所述僅是本申請的具體實施方式
,應當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本申請的保護范圍。
權(quán)利要求
1.一種搜索需求識別方法,其特征在于,包括 預先獲取翻譯需求表述模板; 接收到搜索請求后,將搜索關(guān)鍵詞與翻譯需求表述模板進行匹配,如果匹配成功,則判斷所述搜索請求具有翻譯需求; 其中,所述獲取翻譯需求表述模板,包括 A.選取至少一組已知的雙語互譯詞條; B.在給定的文檔資源中,查找同時包括所述已知雙語互譯詞條的文本段; C.將所述文本段中的雙語詞條分別替換為變量,得到翻譯需求表述模板。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述獲取翻譯需求表述模板,還包括 D.利用步驟C所得到的翻譯需求表述模板,在文檔資源中,提取雙語互譯詞條。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取翻譯需求表述模板,還包括 將步驟D所提取的新互譯詞條作為已知互譯詞條,重復執(zhí)行步驟B至步驟C。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取翻譯需求表述模板,還包括 將步驟D所獲取的新互譯詞條作為已知互譯詞條,循環(huán)執(zhí)行步驟B至步驟D,當步驟D結(jié)束后,對提取結(jié)果與當前已知的互譯詞條進行比較,如果新增的互譯詞條數(shù)量小于預設(shè)的閾值,則結(jié)束循環(huán)操作。
5.根據(jù)權(quán)利要求1-4任一項所述的方法,其特征在于,在步驟B和步驟C之間,還包括根據(jù)預置的過濾規(guī)則,對查找到的文本段進行過濾,所述過濾規(guī)則包括 如果在文本段中,雙語互譯詞條之間間隔的詞數(shù)大于預設(shè)的詞數(shù)閾值,則刪除該文本段; 和/或 如果在文本段中,雙語互譯詞條之間包含句子分隔標識,則刪除該文本段。
6.根據(jù)權(quán)利要求1-4任一項所述的方法,其特征在于,在確定搜索請求具有翻譯需求后,還包括對搜索請求對應的翻譯結(jié)果進行展現(xiàn),所述翻譯結(jié)果的展現(xiàn)方法包括 在搜索框中,展現(xiàn)搜索請求所對應的翻譯結(jié)果;或 將搜索請求所對應的翻譯結(jié)果以搜索建議的形式進行展現(xiàn)。
7.根據(jù)權(quán)利要求1-4任一項所述的方法,其特征在于,在接收到搜索請求并生成搜索建議之后,還包括 判斷搜索建議的內(nèi)容是否具有翻譯需求。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,在確定搜索建議的內(nèi)容具有翻譯需求后,還包括 將搜索建議對應的翻譯內(nèi)容展現(xiàn)在搜索建議框中。
9.一種搜索需求識別裝置,其特征在于,包括 模板獲取單元,用于預先獲取翻譯需求表述模板; 翻譯需求識別單元,用于在接收到搜索請求后,將搜索關(guān)鍵詞與翻譯需求表述模板進行匹配,如果匹配成功,則判斷所述搜索請求具有翻譯需求; 其中,所述模板獲取單元,包括初始化子單元、文本段查找子單元和模板獲取子單元; 初始化子單元,用于選取至少一組已知的雙語互譯詞條,并將選取結(jié)果發(fā)送至文本段查找子單兀; 文本段查找子單元,用于在給定的文檔資源中,查找同時包括所述已知雙語互譯詞條的文本段,并將查找結(jié)果發(fā)送至模板獲取子單元; 模板獲取子單元,用于將所述文本段中的雙語詞條分別替換為變量,得到翻譯需求表述模板。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述模板獲取單元,還包括 詞條提取子單元,用于利用所述模板獲取子單元得到的翻譯需求表述模板,在文檔資源中,提取雙語互譯詞條。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述模板獲取單元,還包括 重復獲取控制子單元,用于將所述詞條提取子單元所提取的新互譯詞條作為已知互譯詞條,輸入所述文本段查找子單元。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述模板獲取單元,還包括 循環(huán)獲取控制子單元,用于對所述詞條提取子單元提取結(jié)果與當前已知的互譯詞條進行比較,判斷新增的互譯詞條數(shù)量是否小于預設(shè)的閾值,如果是,則結(jié)束循環(huán)操作,否則將所述詞條提取子單元所獲取的新互譯詞條作為已知互譯詞條,輸入所述文本段查找子單J Li ο
13.根據(jù)權(quán)利要求9-12任一項所述的裝置,其特征在于,所述模板獲取單元,還包括 文本段過濾子單元,用于在所述文本段查找子單元查找同時包括所述已知雙語互譯詞條的文本段之后,根據(jù)預置的過濾規(guī)則,對查找到的文本段進行過濾,并將過濾結(jié)果輸入所述模板獲取子單元; 所述過濾規(guī)則包括如果在文本段中,雙語互譯詞條之間間隔的詞數(shù)大于預設(shè)的詞數(shù)閾值,則刪除該文本段; 和/或 如果在文本段中,雙語互譯詞條之間包含句子分隔標識,則刪除該文本段。
14.根據(jù)權(quán)利要求9-12任一項所述的裝置,其特征在于,還包括 翻譯結(jié)果展現(xiàn)單元,用于在所述翻譯需求識別單元確定搜索請求具有翻譯需求后,對搜索請求對應的翻譯結(jié)果進行展現(xiàn),所述翻譯結(jié)果展現(xiàn)單元具體配置為 用于在搜索框中,展現(xiàn)搜索請求所對應的翻譯結(jié)果;或 將搜索請求所對應的翻譯結(jié)果以搜索建議的形式進行展現(xiàn)。
15.根據(jù)權(quán)利要求9-12任一項所述的裝置,其特征在于,所述翻譯需求識別單元還用于在接收到搜索請求并生成搜索建議之后,判斷搜索建議的內(nèi)容是否具有翻譯需求。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述翻譯結(jié)果展現(xiàn)單元,還用于在所述翻譯需求識別單元確定搜索建議的內(nèi)容具有翻譯需求后,將搜索建議對應的翻譯內(nèi)容展現(xiàn)在搜索建議框中。
全文摘要
本申請公開了一種搜索需求識別方法及裝置。一種搜索需求識別方法包括預先獲取翻譯需求表述模板;接收到搜索請求后,將搜索關(guān)鍵詞與翻譯需求表述模板進行匹配,如果匹配成功,則判斷所述搜索請求具有翻譯需求;本申請方案利用少量的互譯詞條從網(wǎng)頁或其他文檔資源中獲取翻譯需求表述模板,可以有效快捷地得到更多的翻譯需求表述模板。此外,通過循環(huán)迭代的方式,還可以進一步獲取更多的翻譯需求表述模板,令所搜集的翻譯需求表述模板在理論上趨于全面。當用戶輸入搜索請求時,通過將搜索請求與翻譯需求表述模板進行匹配,可以更有效地識別出用戶的翻譯需求,方便用戶的使用。
文檔編號G06F17/30GK102982029SQ20111025931
公開日2013年3月20日 申請日期2011年9月2日 優(yōu)先權(quán)日2011年9月2日
發(fā)明者藍翔, 柴春光, 吳華 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1