亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種人稱標(biāo)注方法與流程

文檔序號(hào):12464665閱讀:371來源:國知局
一種人稱標(biāo)注方法與流程

本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,具體涉及一種人稱標(biāo)注方法。



背景技術(shù):

目前,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,每時(shí)每刻都會(huì)有無數(shù)的信息進(jìn)行傳播和存儲(chǔ),我們獲得的信息越來越多,如果從海量的信息中尋找到自己需要的信息,同時(shí)將差別各異的信息進(jìn)行提取,得到我們能理解的信息成為人們共同關(guān)注的問題。

語句是信息的基礎(chǔ)組成部分,理解語句是分析處理信息的重要步驟之一,對(duì)于語句的理解主要從三個(gè)方面進(jìn)行,包括語義分析、語句人稱分析和句法分析。語義分析是根據(jù)語句結(jié)構(gòu)和語句中詞語的詞義,推導(dǎo)出句子的實(shí)際語義;語句人稱分析是找出語句中謂語的相應(yīng)語義人稱成份;句法分析是根據(jù)語句的語法,推導(dǎo)出語句的語法結(jié)構(gòu),確定語句的組成成分。

語句的分析被應(yīng)用到各個(gè)領(lǐng)域中,例如網(wǎng)站關(guān)鍵詞搜索、網(wǎng)絡(luò)聊天內(nèi)容整合分析等,但是現(xiàn)如今對(duì)于語句的分析都比較粗糙,精確性不夠。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明公開了一種人稱標(biāo)注方法,通過本發(fā)明的方法對(duì)語句進(jìn)行分析,能更好地了解語句的語義,支持語義的相關(guān)應(yīng)用,比如根據(jù)語義判定喜好、習(xí)慣等。

本發(fā)明的技術(shù)方案如下:

一種人稱標(biāo)注方法,包括以下步驟:

S1:建立用于將語句切分成獨(dú)立詞語的分詞系統(tǒng);

S2:獲取語句,利用所述分詞系統(tǒng)對(duì)所述語句進(jìn)行分詞,并通過標(biāo)柱模塊對(duì)分詞后語句中的詞語進(jìn)行語義標(biāo)注和詞性標(biāo)注;根據(jù)所述詞語標(biāo)注的語義和詞性確定所述語句中的人稱代詞;

S3:通過命名識(shí)別模塊識(shí)別所述語句中的命名實(shí)體,并對(duì)所述人稱代詞和所述命名實(shí)體進(jìn)行人稱標(biāo)注;

S4:根據(jù)詞語分析模塊對(duì)所述語句進(jìn)行語法分析,確定所述語句中的定語;根據(jù)所述定語確定所述語句的核心詞語及核心詞語對(duì)應(yīng)的人稱標(biāo)注。

進(jìn)一步地,上述的人稱標(biāo)注方法中,所述分詞系統(tǒng)包括分詞模型,所述分詞系統(tǒng)的分詞步驟如下:

通過所述分詞模型對(duì)語句進(jìn)行初步分詞;

根據(jù)預(yù)設(shè)分詞規(guī)則對(duì)初步分詞后的詞語進(jìn)行整合;

根據(jù)第三方詞典內(nèi)容對(duì)分詞規(guī)則整合后的詞語進(jìn)行語義合并。

進(jìn)一步地,上述的人稱標(biāo)注方法中,所述分詞模型為HMM分詞模型。

進(jìn)一步地,上述的人稱標(biāo)注方法中,所述分詞模型為CRF分詞模型。

進(jìn)一步地,上述的人稱標(biāo)注方法中,所述標(biāo)柱模塊用于對(duì)詞語進(jìn)行語義標(biāo)注和詞性標(biāo)注,所述標(biāo)柱模塊采用HMM標(biāo)注模型和CRF標(biāo)注模型。

進(jìn)一步地,上述的人稱標(biāo)注方法中,所述命名識(shí)別模塊采用CRF識(shí)別模型。

進(jìn)一步地,上述的人稱標(biāo)注方法中,所述命名識(shí)別模塊用于識(shí)別詞典中未記錄的詞語;所述命名實(shí)體包括人名、地名、機(jī)構(gòu)名、產(chǎn)品名、商標(biāo)名、簡稱和省略語。

進(jìn)一步地,上述的人稱標(biāo)注方法中,所述詞語分析模塊為PCFG生成式句法分析模型。

進(jìn)一步地,上述的人稱標(biāo)注方法中,所述詞語分析模塊為CRF句法分析模型。

進(jìn)一步地,上述的人稱標(biāo)注方法中,所述人稱標(biāo)注包括第一人稱標(biāo)注、第 二人稱標(biāo)注和第三人稱標(biāo)注。

本發(fā)明的顯著效果:本發(fā)明公開的一種人稱標(biāo)注方法,通過對(duì)語句進(jìn)行語義分析、語句人稱分析和句法分析,能快速確定語句中的命名實(shí)體和核心詞語,頭同時(shí)確定命名實(shí)體和核心詞語的人稱標(biāo)注,從而確定語句的語義,可以根據(jù)語義判斷人們的喜好、習(xí)慣等。

附圖說明

圖1為本發(fā)明人稱標(biāo)注方法實(shí)施例中的控制流程圖;

圖2為本發(fā)明人稱標(biāo)注方法實(shí)施例中的句法分析樹狀圖。

具體實(shí)施方式

下面將結(jié)合附圖對(duì)本發(fā)明技術(shù)方案的實(shí)施例進(jìn)行詳細(xì)的描述。以下實(shí)施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,因此只是作為示例,而不能以此來限制本發(fā)明的保護(hù)范圍。

實(shí)施例:

參照?qǐng)D1,為本發(fā)明人稱標(biāo)注方法實(shí)施例中的控制流程圖,具體步驟如下:

S1:建立用于將語句切分成獨(dú)立詞語的分詞系統(tǒng);其中,所述分詞系統(tǒng)包括分詞模型,所述分詞系統(tǒng)的分詞步驟如下:

通過所述分詞模型對(duì)語句進(jìn)行初步分詞;

根據(jù)預(yù)設(shè)分詞規(guī)則對(duì)初步分詞后的詞語進(jìn)行整合;

根據(jù)第三方詞典內(nèi)容對(duì)分詞規(guī)則整合后的詞語進(jìn)行語義合并。

所述分詞模型為HMM分詞模型;所述分詞模型為CRF分詞模型。

S2:獲取語句,利用所述分詞系統(tǒng)對(duì)所述語句進(jìn)行分詞,并通過標(biāo)柱模塊對(duì)分詞后語句中的詞語進(jìn)行語義標(biāo)注和詞性標(biāo)注;根據(jù)所述詞語標(biāo)注的語義和詞性確定所述語句中的人稱代詞;所述標(biāo)柱模塊采用HMM標(biāo)注模型和CRF標(biāo)注模型。

S3:通過命名識(shí)別模塊識(shí)別所述語句中的命名實(shí)體,并對(duì)所述人稱代詞和 所述命名實(shí)體進(jìn)行人稱標(biāo)注;所述命名識(shí)別模塊采用CRF識(shí)別模型;所述命名識(shí)別模塊用于識(shí)別詞典中未記錄的詞語;所述命名實(shí)體包括人名、地名、機(jī)構(gòu)名、產(chǎn)品名、商標(biāo)名、簡稱和省略語。

S4:根據(jù)詞語分析模塊對(duì)所述語句進(jìn)行語法分析,確定所述語句中的定語;根據(jù)所述定語確定所述語句的核心詞語及核心詞語對(duì)應(yīng)的人稱標(biāo)注;所述詞語分析模塊為PCFG生成式句法分析模型;所述詞語分析模塊為CRF句法分析模型;所述人稱標(biāo)注包括第一人稱標(biāo)注、第二人稱標(biāo)注和第三人稱標(biāo)注。

參照?qǐng)D2,為本發(fā)明人稱標(biāo)注方法實(shí)施例中的句法分析樹狀圖。

以下以三個(gè)例子具體展現(xiàn)本發(fā)明的人稱標(biāo)注方法:

語句1:五十分鐘前我女朋友的爸爸去聽許巍此時(shí)此刻演唱會(huì)。

利用所述分詞系統(tǒng)對(duì)所述語句1進(jìn)行分詞,得到初步分詞結(jié)果“五、十、分、鐘、前、我、女、朋、友、的、爸、爸、去、聽、許、巍、此、時(shí)、此、刻、演、唱、會(huì)”。

根據(jù)預(yù)設(shè)分詞規(guī)則對(duì)初步分詞后的詞語進(jìn)行整合,整合結(jié)果為“五十、分鐘、前、我、女、朋友、的、爸爸、去、聽、許巍、此時(shí)、此刻、演唱會(huì)”。

根據(jù)第三方詞典內(nèi)容對(duì)分詞規(guī)則整合后的詞語進(jìn)行語義合并,和并后的結(jié)果為“五十、分鐘、前、我、女朋友、的、爸爸、去、聽、許巍、此時(shí)此刻、演唱會(huì)”。

通過標(biāo)柱模塊對(duì)分詞后語句中的詞語進(jìn)行語義標(biāo)注和詞性標(biāo)注;根據(jù)所述詞語標(biāo)注的語義和詞性確定所述語句中的人稱代詞,標(biāo)注模塊標(biāo)注后為“五十/m、分鐘/qt、前/f、我/rr、女朋友/n、的/ude1、爸爸/n、去/vf、聽/v、許巍/n、此時(shí)此刻/n、演唱會(huì)/n”,可以確定詞性rr的人稱代詞為“我”。

通過命名識(shí)別模塊識(shí)別所述語句中的命名實(shí)體,并對(duì)所述人稱代詞和所述命名實(shí)體進(jìn)行人稱標(biāo)注;命名結(jié)果為“五十分鐘前我女朋友的爸爸去聽<START:PER>許巍<END>此時(shí)此刻演唱會(huì)”,得到的人稱命名實(shí)體為“許巍”。

根據(jù)詞語分析模塊對(duì)所述語句進(jìn)行語法分析,確定所述語句中的定語;根 據(jù)所述定語確定所述語句的核心詞語及核心詞語對(duì)應(yīng)的人稱標(biāo)注;根據(jù)圖2的句法分析樹狀圖,得到如下結(jié)果:“我女朋友的”是“爸爸”的定語,許巍沒有定語,因此人稱詞為“我女朋友的爸爸”和“許巍”;核心詞為“爸爸”和“許巍”;標(biāo)注“我女朋友的爸爸”為第三人稱,“許巍”為第三人稱,得到人稱標(biāo)注結(jié)果“五十分鐘前<START:第三人稱>我女朋友的爸爸<END>去聽<START:第三人稱>許巍<END>此時(shí)此刻演唱會(huì)”。

語句2:我喜歡姚明。

通過分詞和詞性標(biāo)注,得到人稱代詞“我”;通過命名實(shí)體識(shí)別技術(shù),得到命名實(shí)體“姚明”;確定核心詞分別為“我”和“姚明”,人稱分別為“第一人稱”和“第三人稱”;標(biāo)注“我”為第一人稱,“姚明”為第三人稱,得到人稱標(biāo)注結(jié)果:<START:第一人稱>我<END>喜歡<START:第三人稱>姚明<END>。

語句3:我喜歡帥氣的劉德華。

通過分詞和詞性標(biāo)注,得到人稱代詞“我”;通過命名實(shí)體識(shí)別技術(shù),得到命名實(shí)體“劉德華”;通過句法分析,得到帥氣是劉德華的定語;確定核心詞分別為“我”和“劉德華”,人稱分別為“第一人稱”和“第三人稱”;標(biāo)注“我”為第一人稱,“帥氣的劉德華”為第三人稱,得到人稱標(biāo)注結(jié)果:<START:第一人稱>我<END>喜歡<START:第三人稱>帥氣的劉德華<END>。

本發(fā)明公開了一種人稱標(biāo)注方法,通過對(duì)輸入語句進(jìn)行語法分析,識(shí)別人稱和核心詞并進(jìn)行標(biāo)注,能快速確定語句的語義,可以根據(jù)語義判斷輸入者的個(gè)人喜好,個(gè)人習(xí)慣以及此時(shí)的心情等;此處的輸入者可以是網(wǎng)絡(luò)聊天中的聊天者。

本發(fā)明的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。

最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述各實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人 員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1