本發(fā)明屬于計算機應(yīng)用領(lǐng)域,具體涉及一種基于語義及語法結(jié)構(gòu)的語句分析方法及系統(tǒng)。
背景技術(shù):
自然語言中大量存在對人類生活中各類事件的描述(小到一個動作,大到一個歷史事件),同時也包括事件產(chǎn)生的時間、地點、參與的角色、狀態(tài)以及事件之間的關(guān)系等內(nèi)容與特征的描述。隨著互聯(lián)網(wǎng)相關(guān)技術(shù)的興起,人們越來越多的依賴于網(wǎng)絡(luò)來獲取信息,而互聯(lián)網(wǎng)的信息呈現(xiàn)出海量、劇增和冗余等特性,為了能更好的監(jiān)控和運用其中的信息,讓機器能夠分析文本中的事件,面向事件的語句分析研究顯得越來越重要。語句分析就是指對語句中的各成分功能和語義進行分析,將輸入句子中單詞之間的線性詞序,變成一個非線性的數(shù)據(jù)結(jié)構(gòu)。
目前自然語言處理領(lǐng)域關(guān)于語句分析的主要理論包括:依存句法、喬姆斯基發(fā)展的形式語法理論即短語結(jié)構(gòu)語法及其擴展,如:詞匯功能語法、功能合一語法、廣義短語結(jié)構(gòu)語法、中心詞驅(qū)動的短語結(jié)構(gòu)語法。這些方法的思想都建立在英文的語法知識基礎(chǔ)之上,沒有從理解事件的角度將句子中的成分劃分為事件與事件角色并分析它們之間的關(guān)系。目前對于事件的研究大多集中在從文本中識別和抽取事件以及事件角色提取、基于事件的自動文摘和文本自動生成等方面,這些研究都迫切需要本發(fā)明的基于事件結(jié)構(gòu)的語句分析方法的支持。
語義角色標(biāo)注是自然語言處理中的一項核心技術(shù)。傳統(tǒng)上語義角色標(biāo)注是利用訓(xùn)練詞性標(biāo)注模型、依存句法分析模型等來達到分析句子中的語義角色。然而,這些模型是分散且非存在于同一系統(tǒng)中。此外,現(xiàn)有的語義角色標(biāo)注僅能提供已訓(xùn)練完成的系統(tǒng),無法符合使用者不同的需求,來提供不同類型的訓(xùn)練語料,也無法讓使用者自行持續(xù)提升效能。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明本發(fā)明系統(tǒng)結(jié)合各種模型,達到獨立產(chǎn)生訓(xùn)練語料,以及能夠自主修復(fù)各個模型來提升語義角色標(biāo)注之效能。
一種基于語義及語法結(jié)構(gòu)的語句分析方法,其關(guān)鍵在于,包括以下步驟:
步驟1:輸入原始句子;
步驟2:利用所述原始句子產(chǎn)生初步訓(xùn)練語料;
步驟3:獲取人工修正后的訓(xùn)練語料,定義為中間訓(xùn)練語料;
步驟4:驗證所述中間訓(xùn)練語料標(biāo)注的正確性,如果所述中間訓(xùn)練語料的標(biāo)注均正確,將所述中間訓(xùn)練語料定義為最終訓(xùn)練語料,并進入步驟5;否則返回步驟3循環(huán)執(zhí)行;
步驟5:將所述最終訓(xùn)練語料帶入訓(xùn)練模型。
本發(fā)明方法原理:本發(fā)明讓使用者能獨立產(chǎn)生訓(xùn)練語料,以及能夠自主修復(fù)各個模型來提升語義角色標(biāo)注之效能。當(dāng)使用者預(yù)計將任意一種語句用作訓(xùn)練語料時,可進行以下過程:先將原始句子輸入當(dāng)前的語句分析系統(tǒng),產(chǎn)生初步的訓(xùn)練語料;接著由具有語言學(xué)背景的專家進行人工標(biāo)注及修改,并驗證語料標(biāo)注的正確性,若有錯誤則會返回人工標(biāo)注的步驟;確認(rèn)后的最終訓(xùn)練語料會再一次輸進系統(tǒng),并可選擇所要訓(xùn)練之模型,例如:詞性標(biāo)注模型、依存句法分析模型、語義角色標(biāo)注模型,進而提升系統(tǒng)整體效能。
為更好實現(xiàn)本發(fā)明,可進一步為:原始句子產(chǎn)生初步訓(xùn)練語料的具體步驟為:
步驟2.1:分詞;
步驟2.2:詞性標(biāo)注;
步驟2.3:依存句法分析;
步驟2.4:語義角色分析。
可選的:所述步驟3中,由具有語言學(xué)背景的專家對所述初步訓(xùn)練語料的標(biāo)注進行人工修改和補正。
可選的:所述步驟4中的驗證所述中間訓(xùn)練語料標(biāo)注正確性的具體步驟為:
步驟11:判斷所述中間訓(xùn)練語料中資料欄位數(shù)量是否正確;是,則進行步驟12;否,則返回步驟3循環(huán)執(zhí)行;
步驟12:判斷所述中間訓(xùn)練語料中是否包含動詞;是,則進行步驟13;否,則返回步驟3循環(huán)執(zhí)行;
步驟13:判斷所述中間訓(xùn)練語料中動詞是否有相對應(yīng)的語義角色標(biāo)記;是,則進行步驟14;否,則返回步驟3循環(huán)執(zhí)行;
步驟14:判斷所述中間訓(xùn)練語料中每個分詞的依存關(guān)系是否有正確連結(jié);是,則進行步驟5;否,則返回步驟3循環(huán)執(zhí)行。
可選的:所述訓(xùn)練模型為詞性標(biāo)注模型,或者為依存句法分析模型,或者為語義角色標(biāo)注模型。
基于本發(fā)明方法的語句分析系統(tǒng),包括語句分析模塊,用于將原始句子生成初步訓(xùn)練語料;
語料驗證模塊,用于驗證所述中間訓(xùn)練語料標(biāo)注的正確性。
可選的:所述語句分析模塊中含有分詞模型、詞性標(biāo)注模型、依存句法分析模型和語義角色標(biāo)注模型。
可選的:所述語料驗證模塊中含有資料欄位數(shù)查詢模型、動詞查詢模型、語義角色標(biāo)記查詢模型和依存關(guān)系驗證模型。
本發(fā)明的有益效果:以半自動方式產(chǎn)生使用者所需的訓(xùn)練語料,提高產(chǎn)生訓(xùn)練語料的效率;能夠使用客制化訓(xùn)練語料來訓(xùn)練模型,訓(xùn)練語料的正確性;提供視覺化語義角色標(biāo)注的結(jié)果;能夠在同一系統(tǒng)下持續(xù)訓(xùn)練各模型,如:詞性標(biāo)注與依存句法分析模型,從而提升系統(tǒng)整體效能。
附圖說明
圖1示出了本發(fā)明方法的流程圖;
圖2示出了本發(fā)明實施過程流程圖。
具體實施方式
下面將結(jié)合附圖對本發(fā)明技術(shù)方案的實施例進行詳細的描述。以下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,因此只是作為示例,而不能以此來限制本發(fā)明的保護范圍。
如圖1和圖2所示:一種基于語義及語法結(jié)構(gòu)的語句分析方法,包括以下步驟:
步驟S101:輸入原始句子;
步驟S102:利用所述原始句子產(chǎn)生初步訓(xùn)練語料;
步驟S103:獲取人工修正后的訓(xùn)練語料,定義為中間訓(xùn)練語料;
步驟S104:驗證所述中間訓(xùn)練語料標(biāo)注的正確性,如果所述中間訓(xùn)練語料的標(biāo)注均正確,將所述中間訓(xùn)練語料定義為最終訓(xùn)練語料,并進入步驟S105;否則返回步驟3循環(huán)執(zhí)行;
步驟S105:將所述最終訓(xùn)練語料帶入訓(xùn)練模型。
其中,原始句子產(chǎn)生初步訓(xùn)練語料的具體步驟為:
步驟2.1:分詞;
步驟2.2:詞性標(biāo)注;
步驟2.3:依存句法分析;
步驟2.4:語義角色分析。
另外,驗證所述中間訓(xùn)練語料標(biāo)注正確性的具體步驟為:
步驟11:判斷所述中間訓(xùn)練語料中資料欄位數(shù)量是否正確;是,則進行步驟12;否,則返回步驟S103循環(huán)執(zhí)行;
步驟12:判斷所述中間訓(xùn)練語料中是否包含動詞;是,則進行步驟13;否,則返回步驟S103循環(huán)執(zhí)行;
步驟13:判斷所述中間訓(xùn)練語料中動詞是否有相對應(yīng)的語義角色標(biāo)記;是,則進行步驟14;否,則返回步驟S103循環(huán)執(zhí)行;
步驟14:判斷所述中間訓(xùn)練語料中每個分詞的依存關(guān)系是否有正確連結(jié);是,則進行步驟5;否,則返回步驟S103循環(huán)執(zhí)行。
所述訓(xùn)練模型為詞性標(biāo)注模型,或者為依存句法分析模型,或者為語義角色標(biāo)注模型。
另外,基于本發(fā)明方法的語句分析系統(tǒng),包括語句分析模塊,用于將原始句子生成初步訓(xùn)練語料;
語料驗證模塊,用于驗證所述中間訓(xùn)練語料標(biāo)注的正確性;其中,所述語句分析模塊中含有分詞模型、詞性標(biāo)注模型、依存句法分析模型和語義角色標(biāo)注模型;
所述語料驗證模塊中含有資料欄位數(shù)查詢模型、動詞查詢模型、語義角色標(biāo)記查詢模型和依存關(guān)系驗證模型。
本發(fā)明方法是這樣實施的:以句子“我喜歡打籃球”為例:
將初始句子輸入語句分析系統(tǒng),得到當(dāng)前系統(tǒng)對句子分析:1、分詞:我/喜歡/打/籃球;2、詞性標(biāo)注:我r/喜歡v/打v/籃球n;3、依存句法分析:我2SBV/喜歡0HED/打2VOB/籃球3VOB;4、語義角色分析:agent(喜歡,我)agent(打,我)patient(打,籃球)ATP(喜歡,籃球)AFT(打,籃球);此分析即為初步訓(xùn)練語料。將經(jīng)由人工補正其分析內(nèi)容以優(yōu)化整體系統(tǒng);其中,具有語言學(xué)背景的專家對所述初步訓(xùn)練語料的標(biāo)注進行人工修改和補正。
將初步訓(xùn)練語料交由人工補正,ATP(喜歡,籃球)改為ATP(喜歡,打籃球):AFT(打,籃球)改為AFT(打,喜歡);
對補正后的訓(xùn)練語料進行語料驗證,檢查標(biāo)注格式上是否有誤;無誤,則使用該語料訓(xùn)練語句分析系統(tǒng),從而實現(xiàn)達到優(yōu)化整體系統(tǒng)的效果。
最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分或者全部技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。