亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及電子設備的制作方法

文檔序號:6501992閱讀:125來源:國知局
數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及電子設備的制作方法
【專利摘要】本發(fā)明提供了數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及電子設備,以克服現(xiàn)有的語言數(shù)據(jù)處理技術所存在的處理精度不高的問題。上述數(shù)據(jù)處理裝置包括:語義角色標注單元,用于對源語言語句以及作為其譯文的候選調序結果的多個目標語言語句分別進行語義角色標注,以獲得源語言語義角色序列以及多個目標語言語義角色序列;匹配單元,用于基于預定雙語語料庫獲得上述源語言語義角色序列分別與每個上述目標語言語義角色序列之間的匹配分數(shù);以及調序結果確定單元,用于將匹配分數(shù)最高的目標語言語義角色序列對應的候選調序結果確定為最終調序結果。本發(fā)明的上述技術能夠應用于數(shù)據(jù)處理領域。
【專利說明】數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及電子設備

【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領域,尤其涉及數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及電子設備。

【背景技術】
[0002] 數(shù)據(jù)處理是當前較為熱門的一個【技術領域】。在數(shù)據(jù)處理領域中,由于數(shù)據(jù)信息的 種類的豐富性和多樣性,處理的目的和要求也不盡相同。
[0003] 語言數(shù)據(jù)作為眾多類型數(shù)據(jù)中的一種,在人們的日常生活、工作中是極為常見的。 例如,電子郵件、手機間互發(fā)的短消息以及人們學習和工作中需要處理的各種文件中所包 含的文字信息,都是語言數(shù)據(jù)。在利用現(xiàn)有的用于處理語言數(shù)據(jù)的技術對如上所述的語言 數(shù)據(jù)進行處理時,尤其是將一種模式的語言數(shù)據(jù)轉換為另一種模式時,其處理的準確度和/ 或精度往往較低。


【發(fā)明內容】

[0004] 在下文中給出了關于本發(fā)明的簡要概述,以便提供關于本發(fā)明的某些方面的基本 理解。應當理解,這個概述并不是關于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的 關鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概 念,以此作為稍后論述的更詳細描述的前序。
[0005] 鑒于此,本發(fā)明提供了數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及電子設備,以至少解決現(xiàn) 有的用于處理語言數(shù)據(jù)的技術所存在的處理的準確度和/或精度不高的問題。
[0006] 根據(jù)本發(fā)明的一個方面,提供了一種數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置包括:語義角 色標注單元,用于對源語言語句以及作為其譯文的候選調序結果的多個目標語言語句分別 進行語義角色標注,以獲得源語言語義角色序列以及多個目標語言語義角色序列;匹配單 元,用于基于預定雙語語料庫獲得上述源語言語義角色序列分別與每個上述目標語言語義 角色序列之間的匹配分數(shù),其中,上述預定雙語語料庫包括多個經(jīng)過語義角色標注的、針對 源語言和目標語言的雙語句對;以及調序結果確定單元,用于將匹配分數(shù)最高的目標語言 語義角色序列對應的候選調序結果確定為最終調序結果。
[0007] 根據(jù)本發(fā)明的另一個方面,還提供了一種數(shù)據(jù)處理方法,該數(shù)據(jù)處理方法包括:對 源語言語句以及作為其譯文的候選調序結果的多個目標語言語句分別進行語義角色標注, 以獲得源語言語義角色序列以及多個目標語言語義角色序列;基于預定雙語語料庫獲得上 述源語言語義角色序列分別與每個上述目標語言語義角色序列之間的匹配分數(shù),其中,上 述預定雙語語料庫包括多個經(jīng)過語義角色標注的、針對源語言和目標語言的雙語句對;以 及將匹配分數(shù)最高的目標語言語義角色序列對應的候選調序結果確定為最終調序結果。
[0008] 根據(jù)本發(fā)明的另一個方面,還提供了一種電子設備,該電子設備包括如上所述的 數(shù)據(jù)處理裝置。
[0009] 根據(jù)本發(fā)明的又一個方面,還提供了一種存儲有機器可讀取的指令代碼的程序產(chǎn) 品,上述程序產(chǎn)品在執(zhí)行時能夠使上述機器執(zhí)行如上所述的數(shù)據(jù)處理方法。
[0010] 此外,根據(jù)本發(fā)明的其他方面,還提供了 一種計算機可讀存儲介質,其上存儲有如 上所述的程序產(chǎn)品。
[0011] 上述根據(jù)本發(fā)明實施例的數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及電子設備,其針對作 為源語言語句的譯文的候選調序結果的多個目標語言語句,能夠利用預定雙語語料庫來獲 得上述多個目標語言語句對應的多個目標語言語義角色序列分別與源語言語句對應的源 語言語義角色序列之間的匹配分數(shù),以在上述多個目標語言語句中確定最終的調序結果, 由此能夠獲得至少以下益處之一:處理結果的準確度較高;計算量小,計算速度快;以及處 理效率較高。
[0012] 通過以下結合附圖對本發(fā)明的最佳實施例的詳細說明,本發(fā)明的這些以及其他優(yōu) 點將更加明顯。

【專利附圖】

【附圖說明】
[0013] 本發(fā)明可以通過參考下文中結合附圖所給出的描述而得到更好的理解,其中在所 有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的 詳細說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本 發(fā)明的優(yōu)選實施例和解釋本發(fā)明的原理和優(yōu)點。在附圖中:
[0014] 圖1是示意性地示出根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理裝置的一種示例結構的框 圖。
[0015] 圖2是示意性地示出如圖1所示的匹配單元的一種可能的示例結構的框圖。
[0016] 圖3是示意性地示出根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理方法的一種示例性處理的 流程圖。
[0017] 圖4是示出了可用來實現(xiàn)根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理裝置和數(shù)據(jù)處理方法 的一種可能的信息處理設備的硬件配置的結構簡圖。
[0018] 本領域技術人員應當理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的, 而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對于其他元件放大了,以 便有助于提高對本發(fā)明實施例的理解。

【具體實施方式】
[0019] 在下文中將結合附圖對本發(fā)明的示范性實施例進行描述。為了清楚和簡明起見, 在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發(fā)任何這種實際實施 例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符 合與系統(tǒng)及業(yè)務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有 所改變。此外,還應該了解,雖然開發(fā)工作有可能是非常復雜和費時的,但對得益于本公開 內容的本領域技術人員來說,這種開發(fā)工作僅僅是例行的任務。
[0020] 在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中 僅僅示出了與根據(jù)本發(fā)明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發(fā)明 關系不大的其他細節(jié)。
[0021] 本發(fā)明的實施例提供了一種數(shù)據(jù)處理裝置,該數(shù)據(jù)處理裝置包括:語義角色標注 單元,用于對源語言語句以及作為其譯文的候選調序結果的多個目標語言語句分別進行語 義角色標注,以獲得源語言語義角色序列以及多個目標語言語義角色序列;匹配單元,用于 基于預定雙語語料庫獲得上述源語言語義角色序列分別與每個上述目標語言語義角色序 列之間的匹配分數(shù),其中,上述預定雙語語料庫包括多個經(jīng)過語義角色標注的、針對源語言 和目標語言的雙語句對;以及調序結果確定單元,用于將匹配分數(shù)最高的目標語言語義角 色序列對應的候選調序結果確定為最終調序結果。
[0022] 在根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理裝置的具體實現(xiàn)方式中,源語言例如可以是為 英語、漢語、德語、法語、日語等眾多語言中的任意一種語言,而目標語言可以是與作為源語 言的語種之間具有相同的主謂賓結構的、上述眾多語言中的另一種語言。其中,需要說明的 是,這里所說的相同的主謂賓結構中的"主謂賓結構"并不限于"主語+謂語+賓語"這種順 序,也可以是其他順序,例如"主語+賓語+謂語"等順序,但所選定的源語言和目標語言的 "主謂賓結構"是相同的。例如,源語言和目標語言都是"主語+謂語+賓語"順序的"主謂 賓結構",或者都是"主語+賓語+謂語"順序的"主謂賓結構"等。
[0023] 在下文中,將主要以源語言為漢語、目標語言為英語的情況為例來給出本發(fā)明各 實施例的相關描述,對于采用其他語言作為源語言或目標語言的示例將不再進行詳細描 述。其中,漢語和英語均是具有"主語+謂語+賓語"這種順序的主謂賓結構的語言。
[0024] 在一些數(shù)據(jù)處理過程中,對于某個源語言語句,可能存在多個候選譯文,在這種情 況下,可以在這多個候選譯文中挑選出與該源語言語句最匹配的那個。在本發(fā)明的實施例 中,數(shù)據(jù)處理裝置能夠通過確定每個候選譯文中的各語義角色之間的順序與源語言語句之 間的匹配程度,來進一步確定哪一個候選譯文與該源語言語句最匹配。需要說明的是,在上 述數(shù)據(jù)處理過程中,多個候選譯文相當于在將源語言語句從源語言模式轉換為目標語言模 式的過程中所得到的多個候選的處理結果。
[0025] 下面結合圖1來詳細描述根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理裝置的一個示例。
[0026] 如圖1所示,根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理裝置100包括語義角色標注單元 110、匹配單元120以及調序結果確定單元130。
[0027] 下文中,以某個源語言語句以及作為該源語言語句的候選調序結果的多個目標語 言語句為例來描述如何在這多個目標語言語句中選擇與該源語言語句最匹配的那個。
[0028] 在實際處理中,對于處理多個源語言語句的情況以及處理整篇源語言文章等的情 況來說,處理的過程是類似的,將不再詳述。
[0029] 如圖1所示,在根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理裝置100中,語義角色標注單元 110通過對源語言語句進行語義角色標注而獲得該源語言語句的源語言語義角色序列。此 夕卜,語義角色標注單元110還對上述多個目標語言語句分別進行語義角色標注,以獲得多 個目標語言語句各自的目標語言語義角色序列,即,獲得多個目標語言語義角色序列。
[0030] 在根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理裝置的具體實現(xiàn)方式中,可以采用如 FrameNet、PropBank或NomBank中的語義角色標注技術來對英語語句(作為目標語言語句 的示例)進行語義角色標注,以及可以采用如CPB (Chinese Proposition Bank)中的語義 角色標注技術來對漢語語句(作為源語言語句的示例)進行語義角色標注。需要說明的是, 語義角色標注技術對于本領域的技術人員來說是可以根據(jù)本領域公知常識所獲知的,故這 里不再詳述。
[0031] 此外,在根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理裝置的具體實現(xiàn)方式中,源語言語句不 限于完整語句(如"他就是我昨天看見的那個老師。"),也可以是完整語句中的部分句子成 分(諸如"我昨天看見的那個老師"之類的具有主謂賓結構的句子成分)。
[0032] 舉例來說,假設源語言語句為"我昨天看見的那個老師",并假設目標語言語句 "The teacher I saw yesterday,'以及目標語言語句''I yesterday saw the teacher,'是 上述源語言語句的兩個候選調序結果。在該例子中,源語言為漢語,目標語言為英語。需要 說明的是,在該例子中,上述源語言語句的兩個候選調序結果相當于在將源語言語句從源 語言模式轉換為目標語言模式的過程中所得到的候選的處理結果。
[0033] 通過語義角色標注單元110對源語言語句"我昨天看見的那個老師"進行語義角 色標注,可以得到如下的標注結果 :
[0034] [我!l_argLs昨天[看見]_Vs的那個[老師]_argRs
[0035] 在該標注結果中,[…]_Vs的方括號中的內容表示源語言語句"我昨天看見的那個 老師"中的源語言謂詞,[…]_argL s的方括號中的內容表示源語言語句"我昨天看見的那個 老師"中的位于源語言謂詞左側的一個語義角色,[…]_argR s的方括號中的內容表示源語 言語句"我昨天看見的那個老師"中的位于源語言謂詞右側的一個語義角色。
[0036] 由此,根據(jù)對源語言語句"我昨天看見的那個老師"進行語義角色標注的結果,按 照各個語義角色以及源語言謂詞在源語言語句"我昨天看見的那個老師"中的順序,可以得 到如下的源語言語義角色序列S :
[0037] argLs 看見 argRs
[0038] 例如,假設argLs標注的是主語,argRs標注的是賓語,則上述源語言語義角色序列 S對應于"主語+謂語+賓語"順序的主謂賓結構。
[0039] 需要說明的是,在該例子中,源語言謂詞左側只有一個語義角色,其右側也只有一 個語義角色,但在本發(fā)明實施例的數(shù)據(jù)處理裝置的其他例子中,源語言謂詞左側和/或右 側的語義角色可以多于一個。
[0040] 類似地,通過語義角色標注單元110對目標語言語句"The teacher I saw yesterday"進行語義角色標注,可以得到如下的標注結果:
[0041] The [teacher]_argLT12 [I]_argLT1l [saw]_Vtl yesterday
[0042] 在該標注結果中,[…]_Vtl的方括號中的內容表示目標語言語句"The teacher I saw yesterday"中的目標語言謂詞,[…]_argLT1l的方括號中的內容表示目標語言語 句"The teacher I saw yesterday"中的位于目標語言謂詞左側的一個語義角色,[…]_ argLT12的方括號中的內容表示目標語言語句"The teacher I saw yesterday"中的位于 目標語言謂詞左側的另一個語義角色。
[0043] 由此,根據(jù)對目標語言語句"The teacher I saw yesterday"進行語義角色標 注的結果,按照各個語義角色以及目標語言謂詞在目標語言語句"The teacher I saw yesterday"中的順序,可以得到如下的目標語言語義角色序列ΤΙ :
[0044] argLT12 argLT1l saw
[0045] 例如,假設argLT12標注的是賓語,argLT1l標注的是主語,則上述目標語g語義角 色序列T1對應于"賓語+主語+謂語"順序的主謂賓結構。
[0046] 此外,對于目標語言語句"I yesterday saw the teacher",可以類似地得到如下 的標注結果:
[0047] [I]_argLT2l yesterday [saw]Vt2 the [teacher]_argRT2l
[0048] 在該標注結果中,[…]_Vt2的方括號中的內容表示目標語言語句"I yesterday saw the teacher"中的目標語言謂詞,[--?iLargl^l的方括號中的內容表示目標語言語 句"I yesterday saw the teacher"中的位于目標語言謂詞左側的一個語義角色,[…]_ argRT2l的方括號中的內容表示目標語言語句"I yesterday saw the teacher"中的位于 目標語言謂詞右側的另一個語義角色。
[0049] 根據(jù)該標注結果,按照各個語義角色以及目標語言謂詞在目標語言語句"I yesterday saw the teacher"中的順序,可以得到如下的目標語言語義角色序列T2:
[0050] argLT2l saw argRT2l
[0051] 例如,假設argLT2l標注的是主語,argRT2l標注的是賓語,則上述目標語g語義角 色序列T1對應于"主語+謂語+賓語"順序的主謂賓結構。
[0052] 這樣,通過語義角色標注單元110的處理,針對某個源語言語句,可以得到該源語 言語句的源語言語義角色序列S,以及可以得到作為該源語言語句的候選調序結果的多個 目標語言語句對應的多個目標語言語義角色序列ΤΙ、T2、…、TN,其中,N為大于1的整數(shù)。 由此,基于預定雙語語料庫,匹配單元120可以獲得上述源語言語義角色序列S分別與上述 多個目標語言語義角色序列Τ1、Τ2、"·、ΤΝ中的每一個之間的匹配分數(shù)。
[0053] 其中,上述預定雙語語料庫包括多個源語言和目標語言的雙語句對,這些雙語句 對是預先經(jīng)過語義角色標注的。需要說明的是,預定雙語語料庫可以包括通用領域的雙語 語料庫和/或專有領域的雙語語料庫等。
[0054] 在根據(jù)本發(fā)明的實施例的數(shù)據(jù)處理裝置的一種實現(xiàn)方式中,匹配單元120可以具 有如圖2所示的一種示例結構。如圖2所示,在該實現(xiàn)方式中,匹配單元120可以包括相關 程度獲得子單元210和匹配分數(shù)確定子單元220。
[0055] 對于多個目標語言語義角色序列ΤΙ、Τ2、…、ΤΝ中的每個目標語言語義角色序 列來說,相關程度獲得子單元210可以針對該目標語言語義角色序列中的每個目標語言謂 詞,利用上述預定雙語語料庫來獲得該目標語言語義角色序列的包含該目標語言謂詞的至 少部分子序列與源語言語義角色序列之間的相關程度。
[0056] 下面以多個目標語言語義角色序列Τ1、Τ2、"·、ΤΝ中的任一個目標語言語義角色 序列為例來描述如何獲得目標語言語義角色序列與源語言語義角色序列之間的匹配分數(shù)。 下文中,用Tg表示上述"任一個目標語言語義角色序列",其中Tg=Tl,T2,…,ΤΝ。
[0057] 在一個示例中,假設目標語言語義角色序列Tg中包含至少一個目標語言謂詞,則 針對目標語言語義角色序列Tg中的每個目標語言謂詞,相關程度獲得子單元210可以獲得 如下多種相關程度中的任一種或多種:目標語言語義角色序列Tg的僅包括該目標語言謂 詞的子序列(即該目標語言謂詞本身,以下簡稱為第一類子序列)與源語言語義角色序列S 之間的相關程度;目標語言語義角色序列Tg的包括位于該目標語言謂詞左側的至少一個 語義角色的子序列(以下簡稱為第二類子序列)與源語言語義角色序列S之間的相關程度; 目標語言語義角色序列Tg的包括該目標語言謂詞和位于該目標語言謂詞左側的至少一個 語義角色的子序列(以下簡稱為第三類子序列)與源語言語義角色序列S之間的相關程度; 以及目標語言語義角色序列Tg的第一類子序列、第二類子序列以及第三類子序列中的至 少兩種子序列與源語言語義角色序列S之間的相關程度。
[0058] 下面以上文所描述的源語言語義角色序列S為"argLs看見argRs"、目標語言語 義角色序列T1為"argL T12 argLT1l saw"以及目標語言語義角色序列T2為"argLT2l saw argRT2l"的情況為例來描述一個示例。
[0059] 針對目標語言語義角色序列T1 "argLT12 argLT1l saw"來說,其對應的第一類子 序列例如可以為"saw",第二類子序列例如可以為"argLT12"、"argL T1l"和"argLT12argLT1l" 中的任一個,第三類子序列例如可以為"argL T1l saw"、"argLT12 saw"和"argLT12 argLT1l saw"中的任一個。
[0060] 由此,"saw"與"argLs看見argRs"之間的相關程度例如可以作為上述第一類子序 列與源語言語義角色序列S之間的相關程度(下文稱為"第一類相關程度")的一個示例。其 中,"saw"與"argL s看見argRs"之間的相關程度例如可以由上述預定雙語語料庫中"saw" 與"argL s看見argRs"同時出現(xiàn)在一個雙語句對中的概率來反映,或者,也可以由上述預定 雙語語料庫中包含"argL s看見argRs"結構的所有中文語句對應的所有英文語句中出現(xiàn) "saw"的概率來反映。
[0061] 其中,需要說明的是,"argLs看見argRs"出現(xiàn)在一個雙語句對中是指:在這個雙語 句對的漢語語句中,根據(jù)其語義角色標注的結果,假設按照這個漢語語句中的各個語義角 色及謂詞在該漢語語句中的出現(xiàn)順序所得到的語義角色序列為&,則"argL s看見argRs"為 SQ的子序列。例如,假設SQ為"W1 W2 W3 W4 W5",貝U"argLs看見argRs"例如可以是"W2 W4 W5",等等。需要注意的是,某個序列的子序列可以是該序列本身。
[0062] 舉例來說,假設argLs表示主語,argRs表示賓語,貝U "argLs看見argRs"的結構對 應于"主語+ '看見' +賓語"這種結構。于是,假設雙語句對C1包括"我看見貓"和"I saw a cat",另一個雙語句對C2包括"他看見許多書"和"He found many books",由于根據(jù)"我 看見貓"和"他看見許多書"的語義角色標注結果所得到的語義角色序列均為"主語+ '看 見' +賓語"這種結構,因此可以判定"主語+ '看見' +賓語"即"argLs看見argRs"出現(xiàn)在 雙語句對C1中、也出現(xiàn)在雙語句對C2中。同時,在雙語句對C1的英語語句"I saw a cat" 中出現(xiàn)了上述第一類子序列"saw",而在雙語句對C2的英語語句"He found many books" 中沒有出現(xiàn)上述第一類子序列"saw"。因此,上述預定雙語語料庫中包含"argLs看見argR s" 結構的所有中文語句對應的所有英文語句中出現(xiàn)"saw"的概率例如可以為50% (在該預定 雙語語料庫中只包含雙語句對C1和C2的情況下)。
[0063] 此外,"argLT12"、"argLT1l" 和 "argLT12argLT1l" 中的任一個與 "argLs 看見 argRs" 之間的相關程度例如可以作為上述第二類子序列與源語言語義角色序列S之間的相關程 度(下文稱為"第二類相關程度")的一個示例。類似地,第二類相關程度例如可以由上述第 二類子序列與源語言語義角色序列S同時出現(xiàn)在上述預定雙語語料庫的一個雙語句對中 的概率來反映,或者,也可以由上述預定雙語語料庫中包含源語言語義角色序列S的所有 中文語句對應的所有英文語句中出現(xiàn)上述第二類子序列的概率來反映,計算概率的方法可 以與上文相類似,這里不再贅述。
[0064] 此外,"argLT1l saw,'、"argLT12 saw,'和"argLT12 argLT1l saw,'中的任一個與"argLs 看見argRs"之間的相關程度例如可以作為上述第三類子序列與源語言語義角色序列S之間 的相關程度(下文稱為"第三類相關程度")的一個示例。類似地,第三類相關程度例如可以 由上述第三類子序列與源語言語義角色序列S同時出現(xiàn)在上述預定雙語語料庫的一個雙 語句對中的概率來反映,或者,也可以由上述預定雙語語料庫中包含源語言語義角色序列s 的所有中文語句對應的所有英文語句中出現(xiàn)上述第三類子序列的概率來反映,計算概率的 方法可以與上文相類似,這里不再贅述。
[0065] 類似地,可以獲得上述第一類子序列、第二類子序列以及第三類子序列中的至少 兩種子序列與源語言語義角色序列S之間的相關程度(下文稱為"第四類相關程度")。
[0066] 例如,假設選擇第一類子序列和第三類子序列作為上述至少兩種子序列的示例, 并假設第一類子序列為"saw"、第三類子序列為"argLT12 saw",則第一類子序列和第三類子 序列與源語言語義角色序列S之間的相關程度可以由上述第一類子序列"saw"、第三類子 序列"argLT12 saw"以及源語言語義角色序列S同時出現(xiàn)在上述預定雙語語料庫的一個雙 語句對中的概率來反映,或者,也可以由上述預定雙語語料庫中包含源語言語義角色序列S 的所有中文語句對應的所有英文語句中同時出現(xiàn)上述第一類子序列"saw"和第三類子序列 "argLT12 saw"的概率來反映,其中,計算概率的方法可以與上文相類似,這里不再贅述。 [0067] 再如,假設選擇第一類子序列和第二類子序列作為上述至少兩種子序列的示例, 并假設第一類子序列為"saw"、第二類子序列為"argLT12 argLT1l",則第一類子序列和第二 類子序列與源語言語義角色序列S之間的相關程度可以由上述第一類子序列"saw"、第二 類子序列為"argLT12 argLT1l"以及源語言語義角色序列S同時出現(xiàn)在上述預定雙語語料庫 的一個雙語句對中的概率來反映,或者,也可以由上述預定雙語語料庫中包含源語言語義 角色序列S的所有中文語句對應的所有英文語句中同時出現(xiàn)上述第一類子序列"saw"和第 二類子序列為"argL T12 argLT1l"的概率來反映,其中,計算概率的方法可以與上文相類似, 這里不再贅述。
[0068] 以上舉例說明了如何獲得第一類至第四類相關程度,但需要注意的是,相關程度 獲得子單元210可以獲得上述第一類至第四類相關程度中的任一種或多種,而不一定需要 計算第一類至第四類相關程度的全部。另外,需要說明的是,相關程度獲得子單元210所計 算的相關程度中可以包括多個同類別的相關程度,例如,可以包括兩個第二類相關程度(這 兩個第二類相關程度所對應的第二類子序列可以不同),等等。
[0069] 這樣,匹配分數(shù)確定子單元220可以基于相關程度獲得子單元210針對每個目標 語言語義角色序列所獲得的各種相關程度(如上述第一類至第四類相關程度中的任一種或 多種中的任一種或多種),來確定每個目標語言語義角色序列與源語言語義角色序列之間 的匹配分數(shù)。在一種實現(xiàn)方式中,針對每個目標語言語義角色序列,匹配分數(shù)確定子單元 220可以將與該目標語言語義角色序列有關的相關程度的值彼此相乘,而將得到的乘積作 為該目標語言語義角色序列與源語言語義角色序列之間的匹配分數(shù)。在另一種實現(xiàn)方式 中,針對每個目標語言語義角色序列,匹配分數(shù)確定子單元220也可以通過對與該目標語 言語義角色序列有關的相關程度的值進行加權計算(例如加權求和)所得到的結果作為該 目標語言語義角色序列與源語言語義角色序列之間的匹配分數(shù)。
[0070] 在一個例子中,匹配分數(shù)確定子單元220可以根據(jù)如下的公式一來獲得上述匹配 分數(shù)。
[0071] 公式一 :.《.w.e(S,T) = P( VrlSpPU,」V] ..S)
[0072]

【權利要求】
1. 一種數(shù)據(jù)處理裝置,包括: 語義角色標注單元,用于對源語言語句以及作為其譯文的候選調序結果的多個目標語 言語句分別進行語義角色標注,以獲得源語言語義角色序列以及多個目標語言語義角色序 列; 匹配單元,用于基于預定雙語語料庫獲得所述源語言語義角色序列分別與每個所述目 標語言語義角色序列之間的匹配分數(shù),其中,所述預定雙語語料庫包括多個經(jīng)過語義角色 標注的、針對源語言和目標語言的雙語句對;以及 調序結果確定單元,用于將所述匹配分數(shù)最高的目標語言語義角色序列對應的候選調 序結果確定為最終調序結果。
2. 根據(jù)權利要求1所述的數(shù)據(jù)處理裝置,其中,所述匹配單元包括: 相關程度獲得子單元,用于針對每個所述目標語言語義角色序列中的每個目標語言謂 詞,利用所述預定雙語語料庫,獲得該目標語言語義角色序列的包含該目標語言謂詞的至 少部分子序列與所述源語言語義角色序列之間的相關程度;以及 匹配分數(shù)確定子單元,用于針對每個所述目標語言語義角色序列,基于獲得的與該目 標語言語義角色序列有關的所述相關程度來確定該目標語言語義角色序列與所述源語言 語義角色序列之間的匹配分數(shù)。
3. 根據(jù)權利要求2所述的數(shù)據(jù)處理裝置,其中,所述相關程度獲得子單元用于針對每 個所述目標語言語義角色序列中的每個目標語言謂詞,獲得如下多種相關程度中的任一種 或多種: 該目標語言語義角色序列的僅包括該目標語言謂詞的子序列與所述源語言語義角色 序列之間的相關程度; 該目標語言語義角色序列的包括位于該目標語言謂詞左側的至少一個語義角色的子 序列與所述源語言語義角色序列之間的相關程度; 該目標語言語義角色序列的包括該目標語言謂詞和位于該目標語言謂詞左側的至少 一個語義角色的子序列與所述源語言語義角色序列之間的相關程度;以及 該目標語言語義角色序列的僅包括該目標語言謂詞的子序列、包括位于該目標語言謂 詞左側的至少一個語義角色的子序列、以及包括該目標語言謂詞和位于該目標語言謂詞左 側的至少一個語義角色的子序列中的至少兩種子序列與所述源語言語義角色序列之間的 相關程度。
4. 根據(jù)權利要求2或3所述的數(shù)據(jù)處理裝置,其中,所述匹配分數(shù)確定子單元用于根據(jù) 下式獲得所述匹配分數(shù): score (S, T) = P (VT | S) *P {a, \ VT, S)
其中,s為所述源語言語義角色序列,τ為所述目標語言語義角色序列,vTST中的目 標語言謂詞,%為T中位于VT左側的第i個語義角色,h為VT左側的語義角色數(shù)量,bj為T 中位于VT右側的第j個語義角色,k為VT右側的語義角色數(shù)量,P (VTI S)為用于表示S與T 的子序列l(wèi)vT}之間的相關程度的條件概率,p(ai|vT,s)為用于表示s與τ的子序列{ν τ}和 {ai,VT}之間的相關程度的條件概率,Phla^ts)為用于表示S與T的子序列{^,ν τ} 和{apauVj之間的相關程度的條件概率,P(b」VT,S)為用于表示S與T的子序列{VT} 和{¥^1}之間的相關程度的條件概率,以及?%|\,1^1,5)為用于表示3與1'的子序列 {VdVJ和{',ν,』}之間的相關程度的條件概率。
5. 根據(jù)權利要求4所述的數(shù)據(jù)處理裝置,其中,所述相關程度獲得子單元用于根據(jù)極 大似然法獲得 P (VTI S)、Ρ (&11VT,S)、P (ai | aH,VT,S)、P (h | VT,S)以及 P (b』.| VT,bp S)。
6. 根據(jù)權利要求5所述的數(shù)據(jù)處理裝置,其中,所述相關程度獲得子單元用于根據(jù)以 下公式獲得 P (VTI S)、P (ai IVT,S)、P (ai I aH,VT,S)、P (h IVT,S)以及 P (bj IVT,tv" S):
其中,vs為S中的源語言謂詞,a' h,,. . .,a' i為S中位于Vs左側的h'個語義角色, b'^.^b'k,為 S 中位于 Vs 右側的 k' 個語義角色, 表示在包含序列{a' h,,. . .,a'd Vs, b'd . . .,b' k,}的預定源語言語句所屬雙語句對中的預 定目標語言語句中出現(xiàn)序列!VT}的次數(shù),表示包含序列 {a' h,,. . .,a'd Vs, b'd . . .,b' k,}的預定源語言語句的數(shù)量,Ch, VT, a' h,,. . .,a'd Vs, b' η ...,b'k,)表示在所述預定目標語言語句中出現(xiàn)序列{ai,VT}的次數(shù),(:(%,%+V T,a'h,,.. ^a'pVyb'^.Mb'k,)表示在所述預定目標語言語句中出現(xiàn)序列的次數(shù),C( a" VT,a' h,,· · ·,a'丨,Vs,b'丨,· · ·,b' k,)表示在所述預定目標語言語句中出現(xiàn)序列{ay,VT} 的次數(shù),C(V T,& a' h,,. . .,a' i,Vs,b' i,. . .,b' k,)表示在所述預定目標語言語句中出現(xiàn)序列 {VT,bj的次數(shù),C (VT, t^,b」,a' h,,. . .,a' ^ Vs, b' p . . .,b' k,)表示在所述預定目標語言語句 中出現(xiàn)序列{VT, bji, bj}的次數(shù),C(VT, b^,a' h,,. . .,a' n Vs, b'd . . .,b' k,)表示在所述預定 目標語言語句中出現(xiàn)序列IVdIvJ的次數(shù)。
7. 根據(jù)權利要求2所述的數(shù)據(jù)處理裝置,其中, 所述語義角色標注單元用于在所述源語言語句包含至少兩個源語言謂詞的情況下,將 每個源語言謂詞及其相關的語義角色所組成的序列作為與該源語言謂詞對應的源語言語 義角色序列,并將與該源語言謂詞對應的目標語言謂詞及其相關的語義角色所組成的序列 作為與該源語言謂詞對應的目標語言語義角色序列; 所述匹配單元用于獲得與同一個源語言謂詞對應的源語言語義角色序列和目標語言 語義角色序列之間的匹配分數(shù);以及 所述調序結果確定單元用于通過結合針對每個源語言謂詞的匹配分數(shù)來確定最終調 序結果。
8. 根據(jù)權利要求1-7中任一項所述的數(shù)據(jù)處理裝置,其中,所述源語言為漢語,所述目 標語言為英語。
9. 一種數(shù)據(jù)處理方法,包括: 對源語言語句以及作為其譯文的候選調序結果的多個目標語言語句分別進行語義角 色標注,以獲得源語言語義角色序列以及多個目標語言語義角色序列; 基于預定雙語語料庫獲得所述源語言語義角色序列分別與每個所述目標語言語義角 色序列之間的匹配分數(shù),其中,所述預定雙語語料庫包括多個經(jīng)過語義角色標注的、針對源 語言和目標語言的雙語句對;以及 將所述匹配分數(shù)最高的目標語言語義角色序列對應的候選調序結果確定為最終調序 結果。
10. -種電子設備,包括如權利要求1-8中任一項所述的數(shù)據(jù)處理裝置。
【文檔編號】G06F17/28GK104111917SQ201310138955
【公開日】2014年10月22日 申請日期:2013年4月19日 優(yōu)先權日:2013年4月19日
【發(fā)明者】張姝, 孟遙, 于浩 申請人:富士通株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1