語義角色標(biāo)注方法及裝置制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種語義角色標(biāo)注方法及裝置。其中,所述方法包括:獲取待標(biāo)注的目標(biāo)語句中分詞的至少一個(gè)分類特征;確定所獲取的各個(gè)分類特征的語義表示信息;將各個(gè)分類特征的語義表示作為預(yù)先生成的神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所述神經(jīng)網(wǎng)絡(luò)分類器對(duì)所述分詞進(jìn)行語義角色標(biāo)注。本發(fā)明實(shí)施例提供的技術(shù)方案,能夠?qū)⒒诙鄠€(gè)詞、多個(gè)詞性、多個(gè)依存弧標(biāo)簽、多個(gè)依存路徑的復(fù)雜而且稀疏的特征,簡(jiǎn)單映射為稠密特征,從而降低特征空間的維度和特征構(gòu)建的復(fù)雜度,并且可以自動(dòng)實(shí)現(xiàn)對(duì)多個(gè)特征的組合。
【專利說明】語義角色標(biāo)注方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施例涉及計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及語義角色標(biāo)注方法及裝置。
【背景技術(shù)】
[0002] 語義角色標(biāo)注,作為分析句子語義主干的主流方法之一,著重從語義角度刻畫句 子的結(jié)構(gòu)信息,其在摘要自動(dòng)生成、知識(shí)挖掘、情感分析、統(tǒng)計(jì)機(jī)器翻譯、搜索相關(guān)性計(jì)算等 多個(gè)領(lǐng)域具有重要的應(yīng)用價(jià)值。
[0003] 目前,用于進(jìn)行語義角色標(biāo)注的系統(tǒng),其輸入通常是待標(biāo)注的句子,輸出是該句子 的語義結(jié)構(gòu)樹。其中,語義結(jié)構(gòu)樹描述了句子中謂詞的所有語義角色以及各個(gè)語義角色的 類別。在現(xiàn)有技術(shù)中,該系統(tǒng)在接收某條句子后,往往是通過如下方案來實(shí)現(xiàn)對(duì)該句子進(jìn) 行語義角色標(biāo)注:先提取該句子中各個(gè)分詞的詞、詞性、依存弧、依存路徑、詞性路徑等一 系列基于字符串的特征,并將這些特征進(jìn)行組合,然后查找一個(gè)大表(該表中包含了數(shù)以 百萬,千萬計(jì)的稀疏特征),進(jìn)而根據(jù)查找結(jié)果調(diào)用多個(gè)分類器來識(shí)別句子中的謂詞,對(duì)除 謂詞之外的其他分詞進(jìn)行語義角色的識(shí)別與分類。
[0004] 但是,在研宄的過程當(dāng)中發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)存在如下缺陷(1)-(3):
[0005] (1)當(dāng)前用于進(jìn)行語義角色標(biāo)注的系統(tǒng)所使用的用于分類的特征存在嚴(yán)重的稀疏 性問題。
[0006] (2)在將不同的特征進(jìn)行組合時(shí),這些特征往往是人工預(yù)先設(shè)定好的,也即主要是 人工組合特征,這樣過于以偏概全。
[0007] (3)超過90%的時(shí)間被用在了稀疏特征的構(gòu)造、查表、以及調(diào)用分類器上面,成本 很尚。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明實(shí)施例提供一種語義角色標(biāo)注方法及裝置,以將基于多個(gè)詞、多個(gè)詞性、多 個(gè)依存弧標(biāo)簽、多個(gè)依存路徑的復(fù)雜而且稀疏的特征,簡(jiǎn)單映射為稠密特征,從而降低特征 空間的維度和特征構(gòu)建的復(fù)雜度,并且能夠自動(dòng)實(shí)現(xiàn)對(duì)多個(gè)特征的組合。
[0009] 一方面,本發(fā)明實(shí)施例提供了一種語義角色標(biāo)注方法,該方法包括:
[0010] 獲取待標(biāo)注的目標(biāo)語句中分詞的至少一個(gè)分類特征;
[0011] 確定所獲取的各個(gè)分類特征的語義表示信息;
[0012] 將各個(gè)分類特征的語義表示信息作為預(yù)先生成的神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所 述神經(jīng)網(wǎng)絡(luò)分類器對(duì)所述分詞進(jìn)行語義角色標(biāo)注。
[0013] 另一方面,本發(fā)明實(shí)施例還提供了一種語義角色標(biāo)注裝置,該裝置包括:
[0014] 分類特征獲取單元,用于獲取待標(biāo)注的目標(biāo)語句中分詞的至少一個(gè)分類特征;
[0015] 語義表示信息確定單元,用于確定所獲取的各個(gè)分類特征的語義表示信息;
[0016] 語義角色標(biāo)注單元,用于將各個(gè)分類特征的語義表示信息作為預(yù)先生成的神經(jīng)網(wǎng) 絡(luò)分類器的輸入,采用所述神經(jīng)網(wǎng)絡(luò)分類器對(duì)所述分詞進(jìn)行語義角色標(biāo)注。
[0017] 本發(fā)明實(shí)施例提供的技術(shù)方案,通過使用句子中分詞的分類特征的語義表示信息 和神經(jīng)網(wǎng)絡(luò)分類器,來對(duì)句子進(jìn)行語義角色標(biāo)注,可以將基于多個(gè)詞、多個(gè)詞性、多個(gè)依存 弧標(biāo)簽、多個(gè)依存路徑的復(fù)雜而且稀疏的特征,簡(jiǎn)單映射為稠密特征,從而降低特征空間的 維度和特征構(gòu)建的復(fù)雜度,并且能夠自動(dòng)實(shí)現(xiàn)對(duì)多個(gè)特征的組合。
【專利附圖】
【附圖說明】
[0018] 圖1是本發(fā)明實(shí)施例一提供的一種語義角色標(biāo)注方法的流程示意圖;
[0019] 圖2A是本發(fā)明實(shí)施例二提供的一種語義角色標(biāo)注方法的流程示意圖;
[0020] 圖2B是本發(fā)明實(shí)施例二提供的一種第一神經(jīng)網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)示意圖;
[0021] 圖2C是本發(fā)明實(shí)施例二提供的四種不同傳遞函數(shù)的曲線圖。
[0022] 圖3A是本發(fā)明實(shí)施例三提供的一種語義角色標(biāo)注方法的流程示意圖;
[0023] 圖3B是本發(fā)明實(shí)施例三提供的一種第二神經(jīng)網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)示意圖;
[0024] 圖4A是本發(fā)明實(shí)施例三提供的一種語義角色標(biāo)注方法的流程示意圖;
[0025] 圖4B是本發(fā)明實(shí)施例三提供的一種第三神經(jīng)網(wǎng)絡(luò)模型的拓?fù)浣Y(jié)構(gòu)示意圖;
[0026] 圖5是本發(fā)明實(shí)施例五提供的一種語義角色標(biāo)注裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0027] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描 述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說明的是,為了便 于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0028] 實(shí)施例一
[0029] 圖1是本發(fā)明實(shí)施例一提供的一種語義角色標(biāo)注方法的流程示意圖。本實(shí)施例可 適用于在摘要自動(dòng)生成、知識(shí)挖掘、情感分析、統(tǒng)計(jì)機(jī)器翻譯或搜索相關(guān)性計(jì)算等需要得到 句子的語義角色標(biāo)注的應(yīng)用場(chǎng)景中,對(duì)句子進(jìn)行語義角色標(biāo)注的情況。該方法可以由語義 角色標(biāo)注裝置來執(zhí)行,所述裝置由軟件實(shí)現(xiàn),可被內(nèi)置在諸如智能手機(jī)、平板電腦、筆記本 電腦、臺(tái)式電腦或個(gè)人數(shù)字助理之類的終端設(shè)備上。參見圖1,本實(shí)施例提供的語義角色標(biāo) 注方法具體包括如下操作:
[0030] 操作110、獲取待標(biāo)注的目標(biāo)語句中分詞的至少一個(gè)分類特征。
[0031] 操作120、確定所獲取的各個(gè)分類特征的語義表示信息。
[0032] 操作130、將各個(gè)分類特征的語義表示信息作為預(yù)先生成的神經(jīng)網(wǎng)絡(luò)分類器的輸 入,采用神經(jīng)網(wǎng)絡(luò)分類器對(duì)分詞進(jìn)行語義角色標(biāo)注。
[0033] 在本實(shí)施例中,目標(biāo)語句中分詞的分類特征為用于分類時(shí)所采用的分詞的特征。 目標(biāo)語句中任一分詞的特征可包括如下四種特征:詞特征、詞性特征、依存弧標(biāo)簽特征、依 存路徑特征。
[0034] 其中,詞特征可包括:目標(biāo)語句中的當(dāng)前詞、左邊詞、右邊詞等;詞性特征可包括: 在目標(biāo)語句中,當(dāng)前詞的詞性、左邊詞的詞性、右邊詞的詞性、當(dāng)前詞到達(dá)謂詞的詞性路徑 等;依存弧標(biāo)簽特征可包括:在目標(biāo)語句中,當(dāng)前詞的父親節(jié)點(diǎn)到當(dāng)前詞的依存弧標(biāo)簽等; 依存路徑特征可包括:在目標(biāo)語句中,謂詞到當(dāng)前詞的依存路徑、當(dāng)前詞到它和謂詞的最近 共同父節(jié)點(diǎn)的依存路徑等。
[0035] 需要說明的是,本實(shí)施例對(duì)分類特征不作具體限定,只要分詞的某一特征能夠?qū)?分類起到作用的,該特征就可作為分類特征被使用。
[0036] 在本實(shí)施例中,語義角色標(biāo)注的任務(wù)可包括如下至少一個(gè)任務(wù):識(shí)別目標(biāo)語句中 的謂詞(也即動(dòng)詞);識(shí)別謂詞的語義格;識(shí)別目標(biāo)語句中的語義角色類型。其中,識(shí)別謂 詞的語義格,指的是對(duì)謂詞進(jìn)行分類。例如,對(duì)于"吃"這個(gè)謂詞而言,在句子"我吃蘋果"中 的分類是對(duì)食物的一個(gè)吃的動(dòng)作,而在句子"游客吃的是業(yè)者的手工"中的分類是"喜歡"這 一類別,在句子"這次大家要好好吃透會(huì)議精神"中的分類是"領(lǐng)悟"這一類別。
[0037] 為了要完成待標(biāo)注的目標(biāo)語句的語義角色標(biāo)注,可預(yù)先生成三個(gè)神經(jīng)網(wǎng)絡(luò)分類 器:第一神經(jīng)網(wǎng)絡(luò)分類器(用于識(shí)別句子中的謂詞)、第二神經(jīng)網(wǎng)絡(luò)分類器(用于識(shí)別謂詞 的語義格)以及第三神經(jīng)網(wǎng)絡(luò)分類器(用于識(shí)別目標(biāo)語句中的語義角色類型)。具體的,對(duì) 于其中的任意一個(gè)神經(jīng)網(wǎng)絡(luò)分類器,均是根據(jù)大量的訓(xùn)練語料、設(shè)定的訓(xùn)練算法以及神經(jīng) 網(wǎng)絡(luò)模型,學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中的權(quán)重系數(shù)和偏置系數(shù),進(jìn)而將學(xué)習(xí)完畢后的神經(jīng)網(wǎng)絡(luò)模 型作為神經(jīng)網(wǎng)絡(luò)分類器。其中,神經(jīng)網(wǎng)絡(luò)模型至少為三層,也即至少包括輸入層、一個(gè)隱層 和輸出層。輸入層包含各個(gè)神經(jīng)元,用于接收并輸出外界傳輸過來的分詞的各個(gè)分類特征 的語義表示信息;隱層包含多個(gè)神經(jīng)元,用于對(duì)輸入層輸出的各個(gè)分類特征的語義表示信 息進(jìn)行組合和降維處理,得到稠密特征;輸出層包含多個(gè)神經(jīng)元,用于根據(jù)隱層輸出的稠密 特征對(duì)當(dāng)前的輸入進(jìn)行相應(yīng)的分類識(shí)別。
[0038] 在本實(shí)施例中,隱層中的神經(jīng)元能夠自動(dòng)利用學(xué)習(xí)得到的權(quán)重系數(shù),對(duì)各個(gè)分類 特征的語義表示信息進(jìn)行組合和降維處理,從而得到當(dāng)前被關(guān)注的分詞在稠密特征上的語 義表示信息。相較于采用人工的方式來組合分詞的各個(gè)分類特征,本實(shí)施例提供的智能組 合方式更為合理有效,不會(huì)以偏概全,因?yàn)橛糜谶M(jìn)行組合的權(quán)重系數(shù)是通過大量的訓(xùn)練語 料學(xué)習(xí)得到的。并且,本實(shí)施例在組合各個(gè)分類特征的同時(shí),進(jìn)行了降維處理,因此能夠降 低特征空間的維度以及特征構(gòu)建的復(fù)雜度。
[0039] 其中,對(duì)于識(shí)別目標(biāo)語句中的謂詞這一任務(wù)而言,可基于二元分類的思想來實(shí)現(xiàn), 也即對(duì)目標(biāo)語句中的各個(gè)分詞進(jìn)行分類,以識(shí)別各個(gè)分詞是屬于謂詞這一類別,還是屬于 非謂詞這一類別。具體的,可先提取目標(biāo)語句中的各個(gè)分詞,然后分別針對(duì)各個(gè)分詞,執(zhí)行 如下操作:獲取分詞的至少一個(gè)分類特征;確定所獲取的各個(gè)分類特征的語義表示信息; 將各個(gè)分類特征的語義表示信息作為第一神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用第一神經(jīng)網(wǎng)絡(luò)分類 器對(duì)分詞進(jìn)行分類識(shí)別,以確定分詞是屬于謂詞這一類別,還是屬于非謂詞這一類別。此處 所獲取的分詞的分類特征,為對(duì)當(dāng)前二分類起到作用的分詞的特征。
[0040] 對(duì)于識(shí)別謂詞的語義格這一任務(wù)而言,可基于多元分類的思想來實(shí)現(xiàn),也即對(duì)已 確定的目標(biāo)語句中的謂詞進(jìn)行語義格分類,以識(shí)別該謂詞具體屬于預(yù)設(shè)的多種語義格中的 哪種語義格。具體的,可先得到目標(biāo)語句中的謂詞,然后針對(duì)該謂詞,執(zhí)行如下操作:獲取謂 詞的至少一個(gè)分類特征;確定所獲取的各個(gè)分類特征的語義表示信息;將各個(gè)分類特征的 語義表示信息作為第二神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用第二神經(jīng)網(wǎng)絡(luò)分類器對(duì)謂詞進(jìn)行語義 格分類。此處所獲取的謂詞的分類特征,為對(duì)當(dāng)前多元分類(也即語義格的分類)起到作 用的謂詞的特征。
[0041] 對(duì)于識(shí)別目標(biāo)語句中的語義角色類型這一任務(wù)而言,可基于多元分類的思想來實(shí) 現(xiàn),也即對(duì)目標(biāo)語句中除謂詞之外的其他分詞進(jìn)行語義角色類型的識(shí)別,以判斷所述其他 分詞為預(yù)設(shè)的多個(gè)語義角色類型中的哪種語義角色類型。具體的,可針對(duì)目標(biāo)語句中除謂 詞之外的其他分詞,執(zhí)行如下操作:獲取分詞的至少一個(gè)分類特征;確定所獲取的各個(gè)分 類特征的語義表示信息;將各個(gè)分類特征的語義表示信息作為第三神經(jīng)網(wǎng)絡(luò)分類器的輸 入,采用第三神經(jīng)網(wǎng)絡(luò)分類器對(duì)分詞進(jìn)行語義角色類型的分類。此處所獲取的分詞的分類 特征,為對(duì)當(dāng)前多元分類(也即語義角色的分類)起到作用的分詞的特征。
[0042] 由于現(xiàn)有技術(shù)在對(duì)句子進(jìn)行語義角色標(biāo)注的過程中,通常所使用的用于分類的特 征是句子中分詞的詞、詞性、依存弧、依存路徑、詞性路徑等一系列基于字符串的特征,故這 些特征存在嚴(yán)重的稀疏性問題。
[0043] 例如,當(dāng)識(shí)別一個(gè)詞是否是謂詞的時(shí)候,往往使用詞的原形作為判別的一個(gè)特征, 然而詞的原形是數(shù)以十萬級(jí)的,單獨(dú)依靠人工標(biāo)注這些數(shù)據(jù),會(huì)使得成本太高,而且無法覆 蓋所有可能的謂詞。例如,"審議"是一個(gè)謂詞,當(dāng)訓(xùn)練語料里面有這個(gè)詞出現(xiàn)的時(shí)候,分類 器可以簡(jiǎn)單地識(shí)別出來當(dāng)前新輸入的句子中出現(xiàn)的這個(gè)詞為謂詞。但是,如果"審議"沒有 出現(xiàn)在訓(xùn)練數(shù)據(jù)中,而其同義詞"討論"出現(xiàn)在了訓(xùn)練語料中的時(shí)候,如果簡(jiǎn)單地依靠詞形 來進(jìn)行分類的話,就無法判定出來"審議"這個(gè)詞屬于謂詞,進(jìn)而無法正確地判定這個(gè)謂詞 的語義格,以及關(guān)聯(lián)的主語賓語等其他語義角色。
[0044] 為此,本實(shí)施例并不直接將待標(biāo)注的目標(biāo)語句中分詞的各個(gè)分類特征(是基于字 符串的特征)作為分類器的輸入,而是先將各個(gè)分類特征映射為相應(yīng)的語義表示信息,進(jìn) 而將各語義表示信息作為輸入傳輸至分類器。這樣,可以很好地解決直接使用"詞/詞性/ 依存弧標(biāo)簽/依存路徑"基于字符串的特征所帶來的稀疏性問題。
[0045] 在獲取到待標(biāo)注的目標(biāo)語句中分詞的至少一個(gè)分類特征(為基于字符串的特征) 之后,可根據(jù)預(yù)先生成分類特征與分類特征向量之間的多對(duì)多的映射關(guān)系,查找與當(dāng)前所 針對(duì)的分類特征具有映射關(guān)系的分類特征向量,作為當(dāng)前所針對(duì)的分類特征的語義表示信 息。
[0046] 具體的,如果將詞特征作為其中的一種分類特征來使用,則可預(yù)先創(chuàng)建有多個(gè)詞 與多個(gè)向量之間的映射關(guān)系。不同的詞對(duì)應(yīng)有不同的向量。這樣,可以通過兩個(gè)詞在向量 上的相似度,來描述這兩個(gè)詞之間的語義關(guān)系。例如,如果兩個(gè)詞在語義上是近似的,為同 義詞,則在設(shè)置這兩個(gè)詞各自所對(duì)應(yīng)的向量時(shí),可按照如下規(guī)則:這兩個(gè)詞所對(duì)應(yīng)的向量間 具有很高的相似度,因此這兩個(gè)詞雖然在字符串形狀上差別較大,但是在向量上卻是比較 相似的。
[0047] 相應(yīng)的,如果將詞性特征作為其中的一種分類特征來使用,則可預(yù)先創(chuàng)建有多個(gè) 詞性與多個(gè)向量之間的映射關(guān)系。不同的詞性,對(duì)應(yīng)有不同的向量。這樣,可以通過兩個(gè)詞 性在向量上的相似度,來描述這兩個(gè)詞性之間的語義關(guān)系。例如,動(dòng)詞性名詞對(duì)應(yīng)的向量為 第一向量,動(dòng)詞對(duì)應(yīng)的向量為第二向量,形容詞對(duì)應(yīng)的向量為第三向量,考慮到動(dòng)詞與動(dòng)詞 性名詞語義相近的概率要大于與形容詞語義相近的概率,則在設(shè)定第一向量、第二向量以 及第三向量時(shí),可按照如下規(guī)則進(jìn)行設(shè)定:第一向量與第二向量的相似度,大于第三向量與 第二向量的相似度。
[0048] 同理,如果將依存弧標(biāo)簽特征作為其中的一種分類特征來使用,還可創(chuàng)建多個(gè)依 存弧標(biāo)簽與多個(gè)向量之間的映射關(guān)系。不同的依存弧標(biāo)簽,對(duì)應(yīng)有不同的向量。這樣,可以 通過兩個(gè)依存弧標(biāo)簽在向量上的相似度,來描述這兩個(gè)依存弧標(biāo)簽之間的語義關(guān)系。例如, 一個(gè)依存弧標(biāo)簽att (修飾關(guān)系,例如"事故原因"中,"事故"修飾"原因",而且其修飾關(guān)系 是att)和一個(gè)依存弧標(biāo)簽adv(副詞修飾動(dòng)詞關(guān)系,例如"正在詳細(xì)調(diào)查"中,"正在"和"詳 細(xì)"都是修飾"調(diào)查"的副詞,而且依存弧標(biāo)簽都是adv)這兩種修飾關(guān)系之間的語義距離, 要小于依存弧標(biāo)簽sbv和依存弧標(biāo)簽vob之間的語義距離,因?yàn)橐来婊?biāo)簽sbv表示的是 主謂關(guān)系,依存弧標(biāo)簽vob表示的是謂賓關(guān)系。因此,依存弧標(biāo)簽att對(duì)應(yīng)的向量與依存弧 標(biāo)簽adv對(duì)應(yīng)的向量之間的相似度,要高于依存弧標(biāo)簽sbv對(duì)應(yīng)的向量與依存弧標(biāo)簽vob 對(duì)應(yīng)的向量之間的相似度。
[0049] 如果將依存路徑特征作為其中的一種分類特征來使用,還可創(chuàng)建多個(gè)依存路徑與 多個(gè)向量之間的映射關(guān)系。不同的依存路徑,對(duì)應(yīng)有不同的向量。這樣,可以通過兩個(gè)依存 路徑在向量上的相似度,來描述這兩個(gè)依存路徑之間的語義關(guān)系。
[0050] 本實(shí)施例提供的技術(shù)方案,通過使用句子中分詞的分類特征的語義表示信息和神 經(jīng)網(wǎng)絡(luò)分類器,來對(duì)句子進(jìn)行語義角色標(biāo)注,可以將基于多個(gè)詞、多個(gè)詞性、多個(gè)依存弧標(biāo) 簽、多個(gè)依存路徑的復(fù)雜而且稀疏的特征,簡(jiǎn)單映射為稠密特征,從而降低特征空間的維度 和特征構(gòu)建的復(fù)雜度,并且能夠自動(dòng)實(shí)現(xiàn)對(duì)多個(gè)特征的組合。
[0051] 實(shí)施例二
[0052] 圖2A是本發(fā)明實(shí)施例二提供的一種語義角色標(biāo)注方法的流程示意圖。本實(shí)施例 在上述實(shí)施例一的基礎(chǔ)上,針對(duì)進(jìn)行語義角色標(biāo)注的三個(gè)任務(wù)中的"識(shí)別目標(biāo)語句中的謂 詞"這一任務(wù),作進(jìn)一步優(yōu)化。參見圖2A,本實(shí)施例提供的語義角色標(biāo)注方法,具體包括如 下操作:
[0053] 操作210、獲取待標(biāo)注的目標(biāo)語句中分詞的至少一個(gè)分類特征。
[0054] 操作220、確定所獲取的各個(gè)分類特征的語義表示信息。
[0055] 操作230、將各個(gè)分類特征的語義表示信息作為預(yù)先生成的第一神經(jīng)網(wǎng)絡(luò)分類器 的輸入,采用第一神經(jīng)網(wǎng)絡(luò)分類器識(shí)別所述分詞是否為謂詞。
[0056] 在本實(shí)施例中,可預(yù)先確定待標(biāo)注的目標(biāo)語句,然后對(duì)該目標(biāo)語句進(jìn)行切詞處理, 以得到多個(gè)分詞,進(jìn)而分別針對(duì)得到的各個(gè)分詞,執(zhí)行上述操作210-操作230。
[0057] 在本實(shí)施例中,所獲取的分詞的分類特征,為對(duì)當(dāng)前分類起到作用的分詞的特征。 優(yōu)選的,獲取的分詞的至少一個(gè)分類特征包括詞特征和/或詞性特征。其中,詞特征的個(gè)數(shù) 可以為一個(gè)或多個(gè),詞性特征的個(gè)數(shù)也可為一個(gè)或多個(gè)。每個(gè)詞特征和詞性特征,均被視為 一個(gè)分類特征。
[0058] 確定所獲取的詞特征的語義表示信息,包括:分別針對(duì)獲取到的各個(gè)詞特征,根據(jù) 預(yù)先生成的詞與詞向量之間的多對(duì)多的映射關(guān)系,查找與當(dāng)前所針對(duì)的詞特征具有映射關(guān) 系的詞向量,作為當(dāng)前所針對(duì)的詞特征的語義表示信息。
[0059] 例如,預(yù)先生成的詞與詞向量之間的多對(duì)多的映射關(guān)系,如下表1所示:
[0060] 表 1 [00611
【權(quán)利要求】
1. 一種語義角色標(biāo)注方法,其特征在于,包括: 獲取待標(biāo)注的目標(biāo)語句中分詞的至少一個(gè)分類特征; 確定所獲取的各個(gè)分類特征的語義表示信息; 將各個(gè)分類特征的語義表示信息作為預(yù)先生成的神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所述神 經(jīng)網(wǎng)絡(luò)分類器對(duì)所述分詞進(jìn)行語義角色標(biāo)注。
2. 根據(jù)權(quán)利要求1所述的語義角色標(biāo)注方法,其特征在于,確定所獲取的各個(gè)分類特 征的語義表示信息,包括: 分別針對(duì)各個(gè)分類特征,根據(jù)預(yù)先生成的分類特征與分類特征向量之間的多對(duì)多的映 射關(guān)系,查找與當(dāng)前所針對(duì)的分類特征具有映射關(guān)系的分類特征向量,作為當(dāng)前所針對(duì)的 分類特征的語義表示信息。
3.根據(jù)權(quán)利要求1所述的語義角色標(biāo)注方法,其特征在于,所述至少一個(gè)分類特征包 括詞特征和/或詞性特征; 將各個(gè)分類特征的語義表示信息作為預(yù)先生成的神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所述神 經(jīng)網(wǎng)絡(luò)分類器對(duì)所述分詞進(jìn)行語義角色標(biāo)注,包括: 將各個(gè)分類特征的語義表示信息作為預(yù)先生成的第一神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所 述第一神經(jīng)網(wǎng)絡(luò)分類器識(shí)別所述分詞是否為謂詞。
4.根據(jù)權(quán)利要求1所述的語義角色標(biāo)注方法,其特征在于,所述分詞為謂詞; 所述至少一個(gè)分類特征包括如下至少一種特征:詞特征、詞性特征、依存弧標(biāo)簽和依存 路徑; 將各個(gè)分類特征的語義表示信息作為預(yù)先生成的神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所述神 經(jīng)網(wǎng)絡(luò)分類器對(duì)所述分詞進(jìn)行語義角色標(biāo)注,包括: 將各個(gè)分類特征的語義表示信息作為預(yù)先生成的第二神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所 述第二神經(jīng)網(wǎng)絡(luò)分類器識(shí)別所述謂詞的語義格。
5.根據(jù)權(quán)利要求1所述的語義角色標(biāo)注方法,其特征在于,所述分詞為所述目標(biāo)語句 中除謂詞之外的分詞; 所述至少一個(gè)分類特征包括如下至少一種特征:詞特征、詞性特征、依存弧標(biāo)簽和依存 路徑; 將各個(gè)分類特征的語義表示信息作為預(yù)先生成的神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所述神 經(jīng)網(wǎng)絡(luò)分類器對(duì)所述分詞進(jìn)行語義角色標(biāo)注,包括: 將各個(gè)分類特征的語義表示信息作為預(yù)先生成的第三神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所 述第三神經(jīng)網(wǎng)絡(luò)分類器對(duì)所述分詞進(jìn)行語義角色的識(shí)別與分類。
6. 根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的語義角色標(biāo)注方法,其特征在于,在將各個(gè)分類 特征的語義表示信息作為預(yù)先生成的神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所述神經(jīng)網(wǎng)絡(luò)分類器對(duì) 所述分詞進(jìn)行語義角色標(biāo)注之前,還包括: 獲取預(yù)設(shè)的訓(xùn)練語料庫中樣本語句的各分詞的至少一個(gè)分類特征,以及與所述樣本語 句對(duì)應(yīng)的語義角色標(biāo)注信息; 確定所獲取的所述樣本語句中各分詞的各個(gè)分類特征的語義表示信息; 針對(duì)所述樣本語句中的各分詞,將分詞的各個(gè)分類特征的語義表示信息作為當(dāng)前正在 被訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的輸入,基于所述神經(jīng)網(wǎng)絡(luò)模型對(duì)分詞進(jìn)行語義角色標(biāo)注; 根據(jù)對(duì)分詞進(jìn)行語義角色標(biāo)注的結(jié)果和所述語義角色標(biāo)注信息,更新所述神經(jīng)網(wǎng)絡(luò)模 型中的權(quán)重系數(shù)和偏置系數(shù),以將更新后的神經(jīng)網(wǎng)絡(luò)模型作為神經(jīng)網(wǎng)絡(luò)分類器。
7. 根據(jù)權(quán)利要求6所述的語義角色標(biāo)注方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)模型包括:輸 入層、隱層和輸出層; 所述輸入層的輸出為由所述樣本語句中分詞的至少一個(gè)分類特征的語義表示信息組 成的目標(biāo)向量; 所述隱層中的第j個(gè)神經(jīng)元的數(shù)學(xué)模型表達(dá)式為:hj= WijXXi +bj);其 中,所述h為所述第j個(gè)神經(jīng)元的輸出;所述X,為所述目標(biāo)向量中的第i個(gè)元素;所述ω為所述第j個(gè)神經(jīng)元對(duì)所述第i個(gè)元素的權(quán)重系數(shù);所述M為所述目標(biāo)向量中的各元素的 個(gè)數(shù);所述h為所述第j個(gè)神經(jīng)元的偏置系數(shù);fi為所述隱層中的各神經(jīng)元所采用的傳遞 函數(shù); 所述輸出層中的第k個(gè)神經(jīng)元的數(shù)學(xué)模型表達(dá)式為〇k= (Pkj X hj + L1J, 其中,所述Ok為所述第k個(gè)神經(jīng)元的輸出;所述iPkj為所述第k個(gè)神經(jīng)元對(duì)所述隱層中的第j個(gè)神經(jīng)元的輸出的權(quán)重系數(shù);所述N為所述隱層中的神經(jīng)元的個(gè)數(shù);所述Ck為所述第k個(gè) 神經(jīng)元的偏置系數(shù);所述f2為所述輸出層中的各神經(jīng)元所采用的傳遞函數(shù); 所述N小于所述M。
8. -種語義角色標(biāo)注裝置,其特征在于,包括: 分類特征獲取單元,用于獲取待標(biāo)注的目標(biāo)語句中分詞的至少一個(gè)分類特征; 語義表示信息確定單元,用于確定所獲取的各個(gè)分類特征的語義表示信息; 語義角色標(biāo)注單元,用于將各個(gè)分類特征的語義表示信息作為預(yù)先生成的神經(jīng)網(wǎng)絡(luò)分 類器的輸入,采用所述神經(jīng)網(wǎng)絡(luò)分類器對(duì)所述分詞進(jìn)行語義角色標(biāo)注。
9. 根據(jù)權(quán)利要求8所述的語義角色標(biāo)注裝置,其特征在于,所述語義表示信息確定單 元,具體用于: 分別針對(duì)各個(gè)分類特征,根據(jù)預(yù)先生成的分類特征與分類特征向量之間的多對(duì)多的映 射關(guān)系,查找與當(dāng)前所針對(duì)的分類特征具有映射關(guān)系的分類特征向量,作為當(dāng)前所針對(duì)的 分類特征的語義表示信息。
10. 根據(jù)權(quán)利要求8所述的語義角色標(biāo)注裝置,其特征在于,所述至少一個(gè)分類特征包 括詞特征和/或詞性特征; 所述語義角色標(biāo)注單元,具體用于: 將各個(gè)分類特征的語義表示信息作為預(yù)先生成的第一神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所 述第一神經(jīng)網(wǎng)絡(luò)分類器識(shí)別所述分詞是否為謂詞。
11. 根據(jù)權(quán)利要求8所述的語義角色標(biāo)注裝置,其特征在于,所述分詞為謂詞; 所述至少一個(gè)分類特征包括如下至少一種特征:詞特征、詞性特征、依存弧標(biāo)簽和依存 路徑; 所述語義角色標(biāo)注單元,具體用于: 將各個(gè)分類特征的語義表示信息作為預(yù)先生成的第二神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所 述第二神經(jīng)網(wǎng)絡(luò)分類器識(shí)別所述謂詞的語義格。
12. 根據(jù)權(quán)利要求8所述的語義角色標(biāo)注裝置,其特征在于,所述分詞為所述目標(biāo)語句 中除謂詞之外的分詞; 所述至少一個(gè)分類特征包括如下至少一種特征:詞特征、詞性特征、依存弧標(biāo)簽和依存 路徑; 所述語義角色標(biāo)注單元,具體用于: 將各個(gè)分類特征的語義表示信息作為預(yù)先生成的第三神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所 述第三神經(jīng)網(wǎng)絡(luò)分類器對(duì)所述分詞進(jìn)行語義角色的識(shí)別與分類。
13.根據(jù)權(quán)利要求8-12中任一項(xiàng)所述的語義角色標(biāo)注裝置,其特征在于,還包括神經(jīng) 網(wǎng)絡(luò)分類器生成單元,用于在所述語義角色標(biāo)注單元將各個(gè)分類特征的語義表示信息作為 預(yù)先生成的神經(jīng)網(wǎng)絡(luò)分類器的輸入,采用所述神經(jīng)網(wǎng)絡(luò)分類器對(duì)所述分詞進(jìn)行語義角色標(biāo) 注之前: 獲取預(yù)設(shè)的訓(xùn)練語料庫中樣本語句的各分詞的至少一個(gè)分類特征,以及與所述樣本語 句對(duì)應(yīng)的語義角色標(biāo)注信息; 確定所獲取的所述樣本語句中各分詞的各個(gè)分類特征的語義表示信息; 針對(duì)所述樣本語句中的各分詞,將分詞的各個(gè)分類特征的語義表示信息作為當(dāng)前正在 被訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型的輸入,基于所述神經(jīng)網(wǎng)絡(luò)模型對(duì)分詞進(jìn)行語義角色標(biāo)注; 根據(jù)對(duì)分詞進(jìn)行語義角色標(biāo)注的結(jié)果和所述語義角色標(biāo)注信息,更新所述神經(jīng)網(wǎng)絡(luò)模 型中的權(quán)重系數(shù)和偏置系數(shù),以將更新后的神經(jīng)網(wǎng)絡(luò)模型作為神經(jīng)網(wǎng)絡(luò)分類器。
14.根據(jù)權(quán)利要求13所述的語義角色標(biāo)注裝置,其特征在于,所述神經(jīng)網(wǎng)絡(luò)模型包括: 輸入層、隱層和輸出層; 所述輸入層的輸出為由所述樣本語句中分詞的至少一個(gè)分類特征的語義表示信息組 成的目標(biāo)向量; 所述隱層中的第j個(gè)神經(jīng)元的數(shù)學(xué)模型表達(dá)式為:hj= Wij X Xi + bj);其 中,所述h為所述第j個(gè)神經(jīng)元的輸出;所述X,為所述目標(biāo)向量中的第i個(gè)元素;所述ω為所述第j個(gè)神經(jīng)元對(duì)所述第i個(gè)元素的權(quán)重系數(shù);所述M為所述目標(biāo)向量中的各元素的 個(gè)數(shù);所述h為所述第j個(gè)神經(jīng)元的偏置系數(shù);fi為所述隱層中的各神經(jīng)元所采用的傳遞 函數(shù); 所述輸出層中的第k個(gè)神經(jīng)元的數(shù)學(xué)模型表達(dá)式為Ok = Xhj+ck), 其中,所述Ok為所述第k個(gè)神經(jīng)元的輸出;所述cPkj為所述第k個(gè)神經(jīng)元對(duì)所述隱層中的 第j個(gè)神經(jīng)元的輸出的權(quán)重系數(shù);所述N為所述隱層中的神經(jīng)元的個(gè)數(shù);所述Ck為所述第 k個(gè)神經(jīng)元的偏置系數(shù);所述f2為所述輸出層中的各神經(jīng)元所采用的傳遞函數(shù); 所述N小于所述M。
【文檔編號(hào)】G06F17/30GK104462066SQ201410821721
【公開日】2015年3月25日 申請(qǐng)日期:2014年12月24日 優(yōu)先權(quán)日:2014年12月24日
【發(fā)明者】吳先超 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司