本發(fā)明涉及自然語(yǔ)言處理技術(shù)領(lǐng)域,具體涉及一種基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法、系統(tǒng)。
背景技術(shù):
目前,CoNLL格式是自然語(yǔ)言處理中很常用的格式,該格式包含自然語(yǔ)言處理所需的信息,如分詞、詞性、依存句法分析和語(yǔ)義角色標(biāo)記等。但是,現(xiàn)有的CoNLL格式有如下缺陷:第一,語(yǔ)義角色標(biāo)記不夠直觀,且不便于修改;第二,現(xiàn)有的CoNLL格式無(wú)法提供分句信息,致使現(xiàn)有的CoNLL格式包含的信息不足,尤其在跨領(lǐng)域合作時(shí),信息傳遞效率低,且增加維護(hù)人員進(jìn)行檢查與修改的工作量,維護(hù)成本加大。
如何添加分句信息,提高語(yǔ)義角色信息的可讀性,是本領(lǐng)域技術(shù)人員亟需解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法、系統(tǒng),能夠添加分句信息,提高語(yǔ)義角色信息的可讀性。
第一方面,本發(fā)明提供一種基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法,該方法包括:
步驟S1,獲取分句信息和語(yǔ)義角色信息;
步驟S2,在預(yù)獲取的CoNLL格式中增設(shè)分句欄位;
步驟S3,將分句信息存儲(chǔ)于分句欄位;
步驟S4,設(shè)置分句欄位的讀取格式規(guī)則;
步驟S5,將語(yǔ)義角色信息標(biāo)記于語(yǔ)義角色欄位,CoNLL格式包括語(yǔ)義角色欄位。
進(jìn)一步地,獲取分句信息和語(yǔ)義角色信息,具體包括:檢測(cè)預(yù)獲取的自然語(yǔ)言,獲取分句起點(diǎn)信息、分句終點(diǎn)信息和語(yǔ)義角色信息,分句信息包括分句起點(diǎn)信息和分句終點(diǎn)信息;
將分句信息存儲(chǔ)于分句欄位,具體包括:將分句起點(diǎn)信息和分句終點(diǎn)信息存儲(chǔ)于分句欄位。
基于上述任意基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法實(shí)施例,進(jìn)一步地,將語(yǔ)義角色信息標(biāo)記于語(yǔ)義角色欄位,具體包括:將語(yǔ)義角色標(biāo)記信息和語(yǔ)義角色范圍信息標(biāo)記于語(yǔ)義角色欄位,語(yǔ)義角色信息包括語(yǔ)義角色標(biāo)記信息和語(yǔ)義角色范圍信息。
進(jìn)一步地,將語(yǔ)義角色標(biāo)記信息和語(yǔ)義角色范圍信息標(biāo)記于語(yǔ)義角色欄位,具體包括:調(diào)整語(yǔ)義角色欄位的分析字段,形成標(biāo)記字段和范圍字段;
將語(yǔ)義角色標(biāo)記信息標(biāo)記于標(biāo)記字段;
將語(yǔ)義角色范圍信息標(biāo)記于范圍字段。
進(jìn)一步地,將語(yǔ)義角色標(biāo)記信息標(biāo)記于標(biāo)記字段之后,該方法還包括:根據(jù)預(yù)獲取的語(yǔ)義角色標(biāo)記變化信息,修改標(biāo)記字段的語(yǔ)義角色標(biāo)記信息;
將語(yǔ)義角色范圍信息標(biāo)記于范圍字段之后,該方法還包括:根據(jù)預(yù)獲取的語(yǔ)義角色范圍變化信息,修改范圍字段的語(yǔ)義角色范圍信息。
第二方面,本發(fā)明提供一種基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記系統(tǒng),該系統(tǒng)包括信息獲取模塊、分句欄位增設(shè)模塊、分句信息存儲(chǔ)模塊、讀取格式規(guī)則設(shè)置模塊和語(yǔ)義角色信息標(biāo)記模塊,信息獲取模塊用于獲取分句信息和語(yǔ)義角色信息;分句欄位增設(shè)模塊用于在預(yù)獲取的CoNLL格式中增設(shè)分句欄位;分句信息存儲(chǔ)模塊用于將分句信息存儲(chǔ)于分句欄位;讀取格式規(guī)則設(shè)置模塊用于設(shè)置分句欄位的讀取格式規(guī)則;語(yǔ)義角色信息標(biāo)記模塊用于將語(yǔ)義角色信息標(biāo)記于語(yǔ)義角色欄位,CoNLL格式包括語(yǔ)義角色欄位。
進(jìn)一步地,信息獲取模塊具體用于:檢測(cè)預(yù)獲取的自然語(yǔ)言,獲取分句起點(diǎn)信息、分句終點(diǎn)信息和語(yǔ)義角色信息,分句信息包括分句起點(diǎn)信息和分句終點(diǎn)信息;
分句信息存儲(chǔ)模塊具體用于:將分句起點(diǎn)信息和分句終點(diǎn)信息存儲(chǔ)于分句欄位。
基于上述任意基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記系統(tǒng)實(shí)施例,進(jìn)一步地,語(yǔ)義角色信息標(biāo)記模塊具體用于:將語(yǔ)義角色標(biāo)記信息和語(yǔ)義角色范圍信息標(biāo)記于語(yǔ)義角色欄位,語(yǔ)義角色信息包括語(yǔ)義角色標(biāo)記信息和語(yǔ)義角色范圍信息。
進(jìn)一步地,語(yǔ)義角色信息標(biāo)記模塊包括字段調(diào)整子模塊、語(yǔ)義角色標(biāo)記信息處理子模塊和語(yǔ)義角色范圍信息處理子模塊,字段調(diào)整子模塊用于調(diào)整語(yǔ)義角色欄位的分析字段,形成標(biāo)記字段和范圍字段;語(yǔ)義角色標(biāo)記信息處理子模塊,用于將語(yǔ)義角色標(biāo)記信息標(biāo)記于標(biāo)記字段;語(yǔ)義角色范圍信息處理子模塊,用于將語(yǔ)義角色范圍信息標(biāo)記于范圍字段。
進(jìn)一步地,語(yǔ)義角色標(biāo)記信息處理子模塊還用于根據(jù)預(yù)獲取的語(yǔ)義角色標(biāo)記變化信息,修改標(biāo)記字段的語(yǔ)義角色標(biāo)記信息;
語(yǔ)義角色范圍信息處理子模塊還用于根據(jù)預(yù)獲取的語(yǔ)義角色范圍變化信息,修改范圍字段的語(yǔ)義角色范圍信息。
由上述技術(shù)方案可知,本實(shí)施例提供的基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法、系統(tǒng),通過(guò)增設(shè)CoNLL格式的欄位數(shù)量,以標(biāo)記分句信息,既增加信息量,又保留CoNLL格式中的分詞、詞性和依存句法分析,能夠支持更多研究與工業(yè)應(yīng)用。同時(shí),該方法還能夠在語(yǔ)義角色欄位標(biāo)記語(yǔ)義角色信息,以提高語(yǔ)義角色信息的可讀性,提升跨領(lǐng)域合作的效率。
因此,本實(shí)施例基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法、系統(tǒng),既能夠維持CoNLL格式的架構(gòu),又能夠增加分句信息,提高語(yǔ)義角色信息的可讀性。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明具體實(shí)施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)具體實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹。在所有附圖中,類(lèi)似的元件或部分一般由類(lèi)似的附圖標(biāo)記標(biāo)識(shí)。附圖中,各元件或部分并不一定按照實(shí)際的比例繪制。
圖1示出了本發(fā)明所提供的一種基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法的流程圖;
圖2示出了本發(fā)明所提供的一種基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面將結(jié)合附圖對(duì)本發(fā)明技術(shù)方案的實(shí)施例進(jìn)行詳細(xì)的描述。以下實(shí)施例僅用于更加清楚地說(shuō)明本發(fā)明的技術(shù)方案,因此只是作為示例,而不能以此來(lái)限制本發(fā)明的保護(hù)范圍。
需要注意的是,除非另有說(shuō)明,本申請(qǐng)使用的技術(shù)術(shù)語(yǔ)或者科學(xué)術(shù)語(yǔ)應(yīng)當(dāng)為本發(fā)明所屬領(lǐng)域技術(shù)人員所理解的通常意義。
本發(fā)明實(shí)施例所提供的一種基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法,結(jié)合圖1,該方法包括:
步驟S1,獲取分句信息和語(yǔ)義角色信息,在此,語(yǔ)義角色信息包括兩個(gè)要素:標(biāo)記和范圍,其中,標(biāo)記為語(yǔ)義角色的種類(lèi),如施事、受事,范圍表示這個(gè)標(biāo)記是由哪些詞所組成的,且需要由依存句法分析判斷,其可能包含多個(gè)分詞。
步驟S2,在預(yù)獲取的CoNLL格式中增設(shè)分句欄位,在此,CoNLL格式可以為CoNLL-U格式,如將CoNLL-2009格式增設(shè)兩個(gè)字段,一個(gè)字段記錄人工標(biāo)記結(jié)果,另一個(gè)字段記錄模型預(yù)測(cè)結(jié)果,且增設(shè)分句欄位時(shí)無(wú)需設(shè)置特定位置。
步驟S3,將分句信息存儲(chǔ)于分句欄位。
步驟S4,設(shè)置分句欄位的讀取格式規(guī)則,即采用應(yīng)用程序?qū)Ψ志錂谖恢械奈淖诌M(jìn)行基本文字處理。
步驟S5,將語(yǔ)義角色信息標(biāo)記于語(yǔ)義角色欄位,CoNLL格式包括語(yǔ)義角色欄位。
由上述技術(shù)方案可知,本實(shí)施例提供的基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法,通過(guò)增設(shè)CoNLL格式的欄位數(shù)量,以標(biāo)記分句信息,既增加信息量,又保留CoNLL格式中的分詞、詞性和依存句法分析,能夠支持更多研究與工業(yè)應(yīng)用。同時(shí),該方法還能夠在語(yǔ)義角色欄位標(biāo)記語(yǔ)義角色信息,以提高語(yǔ)義角色信息的可讀性,提升跨領(lǐng)域合作的效率。
因此,本實(shí)施例基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法,既能夠維持CoNLL格式的架構(gòu),又能夠增加分句信息,提高語(yǔ)義角色信息的可讀性。
為了進(jìn)一步提高本實(shí)施例基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法的準(zhǔn)確性,具體地,在分句信息處理方面,該方法能夠檢測(cè)預(yù)獲取的自然語(yǔ)言,獲取分句起點(diǎn)信息、分句終點(diǎn)信息和語(yǔ)義角色信息,分句信息包括分句起點(diǎn)信息和分句終點(diǎn)信息;將分句起點(diǎn)信息和分句終點(diǎn)信息存儲(chǔ)于分句欄位。在此,該方法能夠提供分句的多方面信息,如檢測(cè)到分句的起點(diǎn)和終點(diǎn),同時(shí)將分句起點(diǎn)信息和分句終點(diǎn)信息進(jìn)行存儲(chǔ),以為用戶提供多方面關(guān)于分句的信息量。并且,分句信息是選擇性加入,且直接標(biāo)記在分句欄位上,利用現(xiàn)有的CoNLL格式轉(zhuǎn)換,無(wú)需更改CoNLL格式的架構(gòu),簡(jiǎn)便、快捷。
具體地,在語(yǔ)義角色信息處理方面,本實(shí)施例基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法能夠標(biāo)記語(yǔ)義角色的兩個(gè)要素,即標(biāo)記和范圍。該方法能夠?qū)⒄Z(yǔ)義角色標(biāo)記信息和語(yǔ)義角色范圍信息標(biāo)記于語(yǔ)義角色欄位,語(yǔ)義角色信息包括語(yǔ)義角色標(biāo)記信息和語(yǔ)義角色范圍信息,其中,語(yǔ)義角色范圍信息是依據(jù)句法分析得出的信息。并且,在進(jìn)行信息標(biāo)記時(shí),該方法的實(shí)現(xiàn)過(guò)程如下:
調(diào)整語(yǔ)義角色欄位的分析字段,形成標(biāo)記字段和范圍字段;將語(yǔ)義角色標(biāo)記信息標(biāo)記于標(biāo)記字段;將語(yǔ)義角色范圍信息標(biāo)記于范圍字段。在此,該方法通過(guò)改變語(yǔ)義角色欄位的分析字段,以便于同時(shí)標(biāo)記語(yǔ)義角色的兩個(gè)要素,避免語(yǔ)義角色信息不直觀,且不利于標(biāo)記的現(xiàn)象,提高語(yǔ)義角色信息的可讀性。
同時(shí),本實(shí)施例基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記方法還能夠?qū)φZ(yǔ)義角色信息進(jìn)行修改,具體實(shí)現(xiàn)過(guò)程如下:
將語(yǔ)義角色標(biāo)記信息標(biāo)記于標(biāo)記字段之后,該方法還包括:根據(jù)預(yù)獲取的語(yǔ)義角色標(biāo)記變化信息,修改標(biāo)記字段的語(yǔ)義角色標(biāo)記信息。將語(yǔ)義角色范圍信息標(biāo)記于范圍字段之后,該方法還包括:根據(jù)預(yù)獲取的語(yǔ)義角色范圍變化信息,修改范圍字段的語(yǔ)義角色范圍信息。在此,若語(yǔ)義角色信息的標(biāo)記或范圍發(fā)生變化時(shí),該方法能夠直接進(jìn)行修改,方便、快捷。
第二方面,本發(fā)明實(shí)施例提供一種基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記系統(tǒng),結(jié)合圖2,該系統(tǒng)包括信息獲取模塊1、分句欄位增設(shè)模塊2、分句信息存儲(chǔ)模塊3、讀取格式規(guī)則設(shè)置模塊4和語(yǔ)義角色信息標(biāo)記模塊5,信息獲取模塊1用于獲取分句信息和語(yǔ)義角色信息;分句欄位增設(shè)模塊2用于在預(yù)獲取的CoNLL格式中增設(shè)分句欄位;分句信息存儲(chǔ)模塊3用于將分句信息存儲(chǔ)于分句欄位;讀取格式規(guī)則設(shè)置模塊4用于設(shè)置分句欄位的讀取格式規(guī)則;語(yǔ)義角色信息標(biāo)記模塊5用于將語(yǔ)義角色信息標(biāo)記于語(yǔ)義角色欄位,CoNLL格式包括語(yǔ)義角色欄位。
由上述技術(shù)方案可知,本實(shí)施例提供的基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記系統(tǒng),通過(guò)增設(shè)CoNLL格式的欄位數(shù)量,以標(biāo)記分句信息,既增加信息量,又保留CoNLL格式中的分詞、詞性和依存句法分析,能夠支持更多研究與工業(yè)應(yīng)用。同時(shí),該系統(tǒng)還能夠在語(yǔ)義角色欄位標(biāo)記語(yǔ)義角色信息,以提高語(yǔ)義角色信息的可讀性,提升跨領(lǐng)域合作的效率。
因此,本實(shí)施例基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記系統(tǒng),既能夠維持CoNLL格式的架構(gòu),又能夠增加分句信息,提高語(yǔ)義角色信息的可讀性。
具體地,在分句信息處理方面,信息獲取模塊1具體用于:檢測(cè)預(yù)獲取的自然語(yǔ)言,獲取分句起點(diǎn)信息、分句終點(diǎn)信息和語(yǔ)義角色信息,分句信息包括分句起點(diǎn)信息和分句終點(diǎn)信息。分句信息存儲(chǔ)模塊3具體用于:將分句起點(diǎn)信息和分句終點(diǎn)信息存儲(chǔ)于分句欄位。在此,該信息獲取模塊1能夠提供分句的多方面信息,如檢測(cè)到分句的起點(diǎn)和終點(diǎn),同時(shí)將分句起點(diǎn)信息和分句終點(diǎn)信息進(jìn)行存儲(chǔ),以為用戶提供多方面關(guān)于分句的信息量。并且,分句信息存儲(chǔ)模塊3采用選擇性加入方式存儲(chǔ)分句信息,且直接標(biāo)記在分句欄位上,利用現(xiàn)有的CoNLL格式轉(zhuǎn)換,無(wú)需更改CoNLL格式的架構(gòu),簡(jiǎn)便、快捷。
具體地,在語(yǔ)義角色信息處理方面,本實(shí)施例基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記系統(tǒng)能夠標(biāo)記語(yǔ)義角色的兩個(gè)要素,即標(biāo)記和范圍。語(yǔ)義角色信息標(biāo)記模塊5具體用于:將語(yǔ)義角色標(biāo)記信息和語(yǔ)義角色范圍信息標(biāo)記于語(yǔ)義角色欄位,語(yǔ)義角色信息包括語(yǔ)義角色標(biāo)記信息和語(yǔ)義角色范圍信息。其中,語(yǔ)義角色信息標(biāo)記模塊5包括字段調(diào)整子模塊、語(yǔ)義角色標(biāo)記信息處理子模塊和語(yǔ)義角色范圍信息處理子模塊,字段調(diào)整子模塊用于調(diào)整語(yǔ)義角色欄位的分析字段,形成標(biāo)記字段和范圍字段。語(yǔ)義角色標(biāo)記信息處理子模塊,用于將語(yǔ)義角色標(biāo)記信息標(biāo)記于標(biāo)記字段。語(yǔ)義角色范圍信息處理子模塊,用于將語(yǔ)義角色范圍信息標(biāo)記于范圍字段。在此,該語(yǔ)義角色信息標(biāo)記模塊5通過(guò)改變語(yǔ)義角色欄位的分析字段,以便于標(biāo)記語(yǔ)義角色的兩個(gè)要素,避免語(yǔ)義角色信息不直觀,且不利于標(biāo)記的現(xiàn)象,提高語(yǔ)義角色信息的可讀性。
同時(shí),本實(shí)施例基于CoNLL格式的分句和語(yǔ)義角色標(biāo)記系統(tǒng)還能夠?qū)φZ(yǔ)義角色信息進(jìn)行修改,語(yǔ)義角色標(biāo)記信息處理子模塊還用于根據(jù)預(yù)獲取的語(yǔ)義角色標(biāo)記變化信息,修改標(biāo)記字段的語(yǔ)義角色標(biāo)記信息。語(yǔ)義角色范圍信息處理子模塊還用于根據(jù)預(yù)獲取的語(yǔ)義角色范圍變化信息,修改范圍字段的語(yǔ)義角色范圍信息。
在此,若語(yǔ)義角色信息的標(biāo)記或范圍發(fā)生變化時(shí),該語(yǔ)義角色標(biāo)記信息處理子模塊和語(yǔ)義角色范圍信息處理子模塊能夠直接進(jìn)行修改,方便、快捷。
最后應(yīng)說(shuō)明的是:以上各實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說(shuō)明書(shū)的范圍當(dāng)中。