專利名稱:一種直接引語(yǔ)素材庫(kù)的生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語(yǔ)言素材庫(kù)的生成方法,尤其涉及一種針對(duì)直接引語(yǔ)的句子級(jí)素材庫(kù)生成方法,屬于計(jì)算語(yǔ)言學(xué)技術(shù)領(lǐng)域。
背景技術(shù):
素材庫(kù)也稱語(yǔ)料庫(kù)(corpus),是存儲(chǔ)于計(jì)算機(jī)中并可利用計(jì)算機(jī)進(jìn)行檢索、查詢、 分析的語(yǔ)言素材的總體。素材庫(kù)具有“大規(guī)模”和“真實(shí)性”這兩個(gè)特點(diǎn),因此是最理想的語(yǔ)言知識(shí)資源。文本是最基本、最常用的信息載體。在計(jì)算機(jī)語(yǔ)言處理工作中,文本的加工與處理技術(shù)顯得尤為重要。句子作為能夠表達(dá)完整的意思最小語(yǔ)言單位,在信息處理與應(yīng)用中,具有多種表現(xiàn)形式和使用價(jià)值,尤其是在媒體資訊的檢索、寫(xiě)作、整理等過(guò)程中更是如此。但在當(dāng)前存在的各種語(yǔ)言處理技術(shù)中,以句子作為處理顆粒的尚不多見(jiàn)。在2003年舉行的全國(guó)第七屆計(jì)算語(yǔ)言學(xué)聯(lián)合學(xué)術(shù)會(huì)議中,苗傳江、劉智穎合作發(fā)表了論文《現(xiàn)代漢語(yǔ)語(yǔ)料的句子級(jí)語(yǔ)義標(biāo)注》。在該論文中,討論了一種標(biāo)注現(xiàn)代漢語(yǔ)語(yǔ)料的方案。它有兩個(gè)特點(diǎn)一是采取自下而上的標(biāo)注方式,即先標(biāo)注大的語(yǔ)言單位,再標(biāo)注小的語(yǔ)言單位;二是對(duì)句子進(jìn)行語(yǔ)義標(biāo)注,標(biāo)注了句子及句內(nèi)子句的語(yǔ)義類型和它們的下一級(jí)語(yǔ)義構(gòu)成成分。按此方案建立的語(yǔ)料庫(kù)是現(xiàn)代漢語(yǔ)句子語(yǔ)義研究和處理的重要資源。另外,在申請(qǐng)?zhí)枮?00810065527. 7的中國(guó)發(fā)明專利申請(qǐng)中,公開(kāi)了一種用電子裝置對(duì)文章句子進(jìn)行快速分類及檢索的方法。在該技術(shù)方案中,電子裝置按特定的分類方法生成文章句子的分類目錄表。在檢索時(shí)用戶打開(kāi)的電子書(shū)內(nèi)容,處理器逐個(gè)提取每個(gè)句子,并查找到該句子所在的分類目錄,將分類目錄名稱作為分類標(biāo)記附注添加到該句子上, 帶分類標(biāo)記的句子被用戶選中后,句子讀取指針定位到分類目錄,對(duì)其中的句子進(jìn)行輸出。 電子裝置可對(duì)文章句子進(jìn)行分類貯存,其步驟如下1)顯示屏上顯示由若干條句子組成的文章內(nèi)容;幻通過(guò)編輯器為其中的任意句子做上特定分類標(biāo)記;幻貯存器中建立與上述每個(gè)分類標(biāo)記對(duì)應(yīng)的類別目錄,如果目錄已經(jīng)存在,則不建立;4)處理器對(duì)有分類標(biāo)記的句子進(jìn)行檢測(cè)及識(shí)別,自動(dòng)將每個(gè)有分類標(biāo)記的句子保存到對(duì)應(yīng)的上述類別目錄中。但是,該專利申請(qǐng)中對(duì)句子的挖掘與整理在很大程度上依賴于人工,工作效率并不高,根本無(wú)法滿足海量中文文本數(shù)據(jù)的處理要求。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題在于提供一種針對(duì)直接引語(yǔ)的句子級(jí)素材庫(kù)生成方法。該方法以句子為顆粒抽取文本中的直接引語(yǔ)信息,從而將原始的文章數(shù)據(jù)庫(kù)轉(zhuǎn)換為所需的直接引語(yǔ)素材庫(kù)。為實(shí)現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案一種直接引語(yǔ)素材庫(kù)的生成方法,其特征在于包括如下的步驟(1)對(duì)于一篇文章,首先從左至右掃描,當(dāng)掃描到的字符為左引號(hào)時(shí),從下一個(gè)字符開(kāi)始記錄,一直記錄到當(dāng)前字符為右引號(hào)為止,在這個(gè)過(guò)程中記錄的內(nèi)容為直接引語(yǔ)內(nèi)容;(2)以直接引語(yǔ)內(nèi)容所在位置為中心,考察前一句和后一句的內(nèi)容,通過(guò)詞性標(biāo)注識(shí)別出前一句和后一句中的人名和/或機(jī)構(gòu)名;(3)對(duì)于識(shí)別出來(lái)的存在于前一句或者后一句內(nèi)容中的所有人名和/或機(jī)構(gòu)名, 作為直接引語(yǔ)陳述者的候選集合,從該候選集合中挑選出真正的直接引語(yǔ)陳述者;(4)將挑選出來(lái)的直接引語(yǔ)陳述者和直接引語(yǔ)內(nèi)容添加到直接引語(yǔ)素材庫(kù)中。其中,在所述步驟⑴中,所述左引號(hào)為全角左引號(hào)、半角左引號(hào)、單引號(hào)、雙引號(hào)中的任意一種。所述右引號(hào)為全角右引號(hào)、半角右引號(hào)、單引號(hào)、雙引號(hào)中的任意一種。所述步驟O)中,以人工收集的機(jī)構(gòu)名后綴詞和常用構(gòu)成詞作為識(shí)別觸發(fā)條件, 根據(jù)隱馬爾科夫模型或者最大熵模型進(jìn)行識(shí)別機(jī)構(gòu)名的計(jì)算。所述步驟(3)按照如下情況分別進(jìn)行處理(31)如果候選集合中不存在人名和/或機(jī)構(gòu)名,則丟棄掉該直接引語(yǔ)內(nèi)容,不進(jìn)行處理;(32)如果候選集合中只存在一個(gè)人名或者機(jī)構(gòu)名,則將識(shí)別出來(lái)的人名或者機(jī)構(gòu)名作為直接引語(yǔ)陳述者;(33)如果候選集合中存在多個(gè)人名或者機(jī)構(gòu)名,則對(duì)候選集合中的人名或者機(jī)構(gòu)名進(jìn)行選擇,選出一個(gè)作為直接引語(yǔ)陳述者。所述步驟(3 中,根據(jù)以下因素對(duì)于候選人名或者機(jī)構(gòu)名進(jìn)行打分1.字符距離,考察候選人名或者機(jī)構(gòu)名與直接引語(yǔ)的字符距離,通過(guò)計(jì)算文本中兩者間隔的字符數(shù)來(lái)獲得字符距離;2.語(yǔ)義距離,考察句子的詞性架構(gòu),使用淺層語(yǔ)義分析,分析出候選人名或者候選機(jī)構(gòu)名與直接引語(yǔ)的結(jié)構(gòu)距離;將字符距離和語(yǔ)義距離相加,找出距離最小的候選人名或者候選機(jī)構(gòu)名作為直接引語(yǔ)陳述者。在進(jìn)行所述淺層語(yǔ)義分析時(shí),首先統(tǒng)計(jì)出主語(yǔ)為人名或者機(jī)構(gòu)名與引語(yǔ)謂詞近距離搭配的文字片段,進(jìn)而統(tǒng)計(jì)表達(dá)模式的數(shù)量以獲得所有常見(jiàn)的表達(dá)模式,最終根據(jù)模式統(tǒng)計(jì)值、謂詞統(tǒng)計(jì)值,綜合計(jì)算信度值。所述步驟中,以數(shù)據(jù)庫(kù)方式保存直接引語(yǔ)陳述者和直接引語(yǔ)內(nèi)容,即在數(shù)據(jù)庫(kù)中設(shè)立兩個(gè)字段,一個(gè)字段保存直接引語(yǔ)陳述者,另一個(gè)字段保存直接引語(yǔ)內(nèi)容?;蛘撸?以文本方式保存直接引語(yǔ)陳述者和直接引語(yǔ)內(nèi)容,即將直接引語(yǔ)按照“直接引語(yǔ)陳述者直接引語(yǔ)內(nèi)容”的方式保存為文本文件,其中直接引語(yǔ)陳述者與直接引語(yǔ)內(nèi)容之間用間隔符號(hào)分開(kāi)。本發(fā)明所提供的直接引語(yǔ)素材庫(kù)生成方法具有如下的優(yōu)點(diǎn)1.可以實(shí)現(xiàn)直接引語(yǔ)的準(zhǔn)確識(shí)別,實(shí)現(xiàn)了對(duì)于有引號(hào)但非引語(yǔ)表達(dá)內(nèi)容的準(zhǔn)確判別;2.可以實(shí)現(xiàn)對(duì)原說(shuō)話者的準(zhǔn)確識(shí)別,根據(jù)直接引語(yǔ)位置,從其附近位置準(zhǔn)確識(shí)別原說(shuō)話者候選集;3.可以實(shí)現(xiàn)直接引語(yǔ)與原說(shuō)話者的準(zhǔn)確對(duì)應(yīng),兩者的準(zhǔn)確映射結(jié)果就形成了完整的直接引語(yǔ)結(jié)果數(shù)據(jù)。利用本方法生成的直接引語(yǔ)素材庫(kù),可以在互聯(lián)網(wǎng)中提供更新、搜索、查詢等服務(wù),也可以在媒體資訊領(lǐng)域?yàn)閷?xiě)作、編輯、專題制作等提供技術(shù)支持。
下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。圖1為從文章庫(kù)轉(zhuǎn)換為句子級(jí)素材庫(kù)的基本操作流程示意圖;圖2為直接引語(yǔ)素材庫(kù)的生成過(guò)程示意圖。
具體實(shí)施例方式圖1為句子級(jí)素材庫(kù)生成方法中,從文章庫(kù)轉(zhuǎn)換為句子級(jí)素材庫(kù)的基本流程示意圖。從圖1可以看出,對(duì)于文章庫(kù)中的每一篇中文文章,可以通過(guò)句子級(jí)素材抽取操作獲得各種類型的句子素材,例如“直接引語(yǔ)”句子、“大事記”句子等。這些“直接引語(yǔ)”句子、“大事記”句子等可以分別放入相應(yīng)的直接引語(yǔ)素材庫(kù)或者大事記素材庫(kù)中進(jìn)行保存。需要說(shuō)明的是,對(duì)于文本中的諸多句子,并非每一個(gè)句子都可以形成有價(jià)值、有意義的素材。只有那些確定類型,并進(jìn)行結(jié)構(gòu)化處理后的句子類型,才可以形成對(duì)應(yīng)的句子級(jí)素材。根據(jù)網(wǎng)絡(luò)編輯工作的實(shí)際需要,句子級(jí)素材庫(kù)中的一個(gè)子集-直接引語(yǔ)素材庫(kù)十分有用。下面對(duì)它的生成過(guò)程進(jìn)行詳細(xì)的說(shuō)明。直接引語(yǔ)是指作者在文本中直接引用別人的話,即采用直接引述別人原話內(nèi)容的方式并且把原話內(nèi)容放入引號(hào)中,這些原話內(nèi)容即為直接引語(yǔ)。直接引語(yǔ)作為一種常見(jiàn)的寫(xiě)作表達(dá)方式,在文章中非常普遍,尤其是在媒體資訊的報(bào)道性、評(píng)論性文章中,更是大量存在。與直接引語(yǔ)相對(duì)應(yīng)的是間接引語(yǔ),間接引語(yǔ)是不用引號(hào)而引述別人講話內(nèi)容的一種表述方式。在文本中,直接引語(yǔ)是大量存在的。如何通過(guò)計(jì)算機(jī)技術(shù)自動(dòng)識(shí)別并結(jié)構(gòu)化抽取直接引語(yǔ)是我們要著力解決的問(wèn)題。抽取的直接引語(yǔ),其結(jié)構(gòu)化結(jié)果至少包含兩部分直接引語(yǔ)和原說(shuō)話者。直接引語(yǔ)處理技術(shù)通過(guò)識(shí)別引語(yǔ)內(nèi)容,識(shí)別原說(shuō)話者,進(jìn)而建立兩者之間的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)信息的抽取與結(jié)構(gòu)化。作為觀點(diǎn)的引述,一般直接引語(yǔ)的原始說(shuō)話者會(huì)被清晰明確地描述出來(lái),因此, “原說(shuō)話者+說(shuō)話內(nèi)容”就成為可以獨(dú)立出來(lái)、且其語(yǔ)義內(nèi)容相對(duì)完整的數(shù)據(jù)記錄。將多個(gè)這樣的數(shù)據(jù)記錄,依據(jù)字段將其內(nèi)容存入數(shù)據(jù)庫(kù),則形成了直接引語(yǔ)的句子級(jí)素材庫(kù),可供后續(xù)查詢、檢索、統(tǒng)計(jì)等使用。對(duì)于文本中直接引語(yǔ)的抽取過(guò)程,主要通過(guò)如圖2所示的步驟予以實(shí)現(xiàn)1.對(duì)于一篇文章,首先從左至右掃描,當(dāng)掃描到的字符為左引號(hào)(包括全角左引號(hào)、半角左引號(hào)、單引號(hào)、雙引號(hào))時(shí),從下一個(gè)字符開(kāi)始記錄,一直記錄到當(dāng)前字符為右引號(hào)(包括全角右引號(hào)、半角右引號(hào)、單引號(hào)、雙引號(hào))為止。在這個(gè)過(guò)程中記錄的內(nèi)容為發(fā)現(xiàn)的直接引語(yǔ)內(nèi)容。2.以掃描到的直接引語(yǔ)內(nèi)容所在位置為中心,考察前一句和后一句的內(nèi)容。借助于現(xiàn)有分詞軟件中的詞性標(biāo)注功能,可以識(shí)別出前一句和后一句中的人名和/或機(jī)構(gòu)名。 此處用到的分詞軟件可以是SCWS、ICTCLAS、HTTPCWS等中文開(kāi)源分詞軟件。這些分詞軟件大部分都支持詞性標(biāo)注,可以直接識(shí)別出人名。對(duì)于機(jī)構(gòu)名的識(shí)別可以借助于基于隱馬爾科夫模型、最大熵模型等統(tǒng)計(jì)模型實(shí)現(xiàn)。具體而言,識(shí)別機(jī)構(gòu)名的主要方法為根據(jù)人工收集的機(jī)構(gòu)名后綴詞(如“公司” “公安局”等)和常用構(gòu)成詞(如“有限責(zé)任” “國(guó)際”,“物流”等)作為識(shí)別觸發(fā)條件,然后根據(jù)隱馬爾科夫模型或者最大熵模型進(jìn)行識(shí)別計(jì)算。此處使用的隱馬爾科夫模型、最大熵模型等都是常用的自然語(yǔ)言處理統(tǒng)計(jì)模型,關(guān)于這些模型的更多信息可以參考宗成慶編寫(xiě)的《統(tǒng)計(jì)自然語(yǔ)言處理》一書(shū)(清華大學(xué)出版社2008年5 月版,ISBN :978-7-302-16598-9),在此就不詳細(xì)贅述了。3.對(duì)于識(shí)別出來(lái)的存在于前一句或者后一句內(nèi)容中的所有人名和/或機(jī)構(gòu)名,作為該引語(yǔ)陳述者的候選集合,從這個(gè)集合中挑選出真正的直接引語(yǔ)陳述者。具體的挑選方法闡述如下3. 1如果候選集合中不存在人名和/或機(jī)構(gòu)名,即在該句子前后句中沒(méi)有人名和/ 或機(jī)構(gòu)名,說(shuō)明上下文中并沒(méi)有明確的陳述者出現(xiàn),則丟棄掉該引語(yǔ)內(nèi)容,不進(jìn)行處理。3. 2如果候選集合中只存在一個(gè)人名或者機(jī)構(gòu)名,則不需要進(jìn)行挑選,識(shí)別出來(lái)的人名或者機(jī)構(gòu)名即為句子的陳述者。此時(shí),將直接引語(yǔ)陳述者和引語(yǔ)內(nèi)容添加到直接引語(yǔ)素材庫(kù)中。3. 3如果候選集合中存在多個(gè)人名或者機(jī)構(gòu)名,則使用淺層語(yǔ)義分析方法對(duì)候選集合中的人名或者機(jī)構(gòu)名進(jìn)行選擇,選出一個(gè)作為引語(yǔ)的陳述者。具體而言,根據(jù)以下因素對(duì)于候選人名或機(jī)構(gòu)名進(jìn)行打分1.字符距離,考察候選人名或者機(jī)構(gòu)名與引語(yǔ)的字符距離,通過(guò)計(jì)算文本中兩者間隔的字符數(shù)來(lái)獲得字符距離。2.語(yǔ)義距離,考察句子的詞性架構(gòu),使用下述的淺層語(yǔ)義分析,分析出候選人名或者候選機(jī)構(gòu)名與引語(yǔ)的結(jié)構(gòu)距離。將兩個(gè)距離相加,找出距離最小的候選人名或者候選機(jī)構(gòu)名作為該引語(yǔ)的陳述者,將挑選出來(lái)的人名或者機(jī)構(gòu)名和引語(yǔ)內(nèi)容添加到直接引語(yǔ)素材庫(kù)中。上面提到的淺層語(yǔ)義分析方法是這樣的首先對(duì)直接引語(yǔ)內(nèi)容前后的句子進(jìn)行句法分析。該句法分析可以使用現(xiàn)有的成熟技術(shù)實(shí)現(xiàn),例如哈工大信息檢索中心開(kāi)發(fā)的LTP 平臺(tái)系統(tǒng),就提供了對(duì)句子進(jìn)行句法分析的功能。通過(guò)句法分析,可以標(biāo)出句子中的主語(yǔ)、 謂語(yǔ)、賓語(yǔ)、修飾語(yǔ)及其對(duì)應(yīng)原句子中的詞。然后判斷主語(yǔ)所對(duì)應(yīng)的詞,如果是人名或者機(jī)構(gòu)名,則判斷謂語(yǔ)是否為引語(yǔ)功能的謂語(yǔ)詞匯,如“說(shuō)” “表示” “稱”等等。如果滿足上面兩個(gè)條件,就可以簡(jiǎn)單認(rèn)為主語(yǔ)對(duì)應(yīng)的人名或者機(jī)構(gòu)名為直接引語(yǔ)的陳述者,將挑選出來(lái)的人名或者機(jī)構(gòu)名和引語(yǔ)內(nèi)容添加到直接引語(yǔ)素材庫(kù)中。當(dāng)然,主語(yǔ)謂語(yǔ)的搭配模式有很多種。本發(fā)明人根據(jù)機(jī)器統(tǒng)計(jì)的方法,統(tǒng)計(jì)出主語(yǔ)為人名或機(jī)構(gòu)名與引語(yǔ)謂詞(如“說(shuō)” “表示”等)近距離搭配的文字片段,這些文字片段就是引語(yǔ)的表達(dá)模式(如“人名+強(qiáng)調(diào)說(shuō)”,“人名+發(fā)表談話說(shuō)”等形式),進(jìn)而統(tǒng)計(jì)表達(dá)模式的數(shù)量,即可獲得所有常見(jiàn)的表達(dá)模式;最終,根據(jù)模式統(tǒng)計(jì)值(即統(tǒng)計(jì)出的其使用頻度)、謂詞統(tǒng)計(jì)值(即統(tǒng)計(jì)出的其使用頻度)等因素,綜合計(jì)算信度值(如將統(tǒng)計(jì)值歸一化為0 1的浮點(diǎn)數(shù),加權(quán)后相加累計(jì)獲得信度值),當(dāng)有多個(gè)候選主語(yǔ)時(shí),優(yōu)選出信度最高的作為原說(shuō)話者的對(duì)應(yīng)結(jié)果。對(duì)于上面直接引語(yǔ)抽取方法所得到的直接引語(yǔ)素材庫(kù),可以按照兩種方式保存 1 ·通過(guò)數(shù)據(jù)庫(kù)保存。在數(shù)據(jù)庫(kù)中設(shè)立兩個(gè)字段,一個(gè)字段保存直接引語(yǔ)陳述者,另一個(gè)字段保存直接引語(yǔ)內(nèi)容。2.通過(guò)文本方式保存,即直接將識(shí)別出來(lái)的直接引語(yǔ)按照“直接引語(yǔ)陳述者直接引語(yǔ)內(nèi)容”保存為文本文件。其中直接引語(yǔ)陳述者與直接引語(yǔ)內(nèi)容之間用間隔符號(hào)分開(kāi),間隔符號(hào)可以為空格、Tab鍵或是用戶自己定義的任意一個(gè)符號(hào)。另外,對(duì)于上述獲得的直接引語(yǔ)素材庫(kù),相關(guān)的檢索工作分為按直接引語(yǔ)陳述者檢索和按直接引語(yǔ)內(nèi)容進(jìn)行檢索兩種。在檢索之前,需要對(duì)直接引語(yǔ)素材庫(kù)建立索引。對(duì)于存儲(chǔ)在數(shù)據(jù)庫(kù)中的,直接對(duì)于兩個(gè)字段內(nèi)容進(jìn)行索引;對(duì)于存儲(chǔ)在文本中的,可以借助于文本索引軟件如開(kāi)源軟件 Lucene等進(jìn)行索引。同樣地,索引時(shí)也是分別按引語(yǔ)陳述者和直接引語(yǔ)內(nèi)容分別索引。在建立了索引之后,對(duì)于按直接引語(yǔ)陳述者檢索的檢索需求,可以在索引中的直接引語(yǔ)陳述者字段內(nèi)容中檢索,返回匹配的直接引語(yǔ)陳述者和直接引語(yǔ)內(nèi)容。對(duì)于按直接引語(yǔ)內(nèi)容檢索的檢索需求,可以在索引中的直接引語(yǔ)內(nèi)容字段內(nèi)容中檢索,返回匹配的直接引語(yǔ)陳述者和直接引語(yǔ)內(nèi)容。為了實(shí)現(xiàn)直接引語(yǔ)素材庫(kù)的可運(yùn)營(yíng)化,即動(dòng)態(tài)地向語(yǔ)料庫(kù)中添加新內(nèi)容,刪除過(guò)時(shí)和不正確的內(nèi)容,本專利申請(qǐng)進(jìn)一步提出更新直接引語(yǔ)素材庫(kù)的方法,具體說(shuō)明如下添加操作對(duì)于待添加內(nèi)容,可以按照兩種方法添加到直接引語(yǔ)素材庫(kù)中。1.對(duì)于待添加內(nèi)容,在索引中查找是否已經(jīng)存在相同的直接引語(yǔ)條目,如果不存在,將內(nèi)容添加進(jìn)去,同時(shí)更新索引,將新加的內(nèi)容添加到索引中。2.直接將待添加內(nèi)容加入直接引語(yǔ)素材庫(kù)中,然后進(jìn)行消重操作,重新生成索引。刪除操作對(duì)于待刪除的內(nèi)容,在索引中查找到相應(yīng)的直接引語(yǔ)條目,然后從索引中刪除。修改操作對(duì)于修改的內(nèi)容,在索引中找到相應(yīng)的直接引語(yǔ)條目,刪除該條目并將修改的內(nèi)容加入索引。在這些基礎(chǔ)之上,進(jìn)行修改處理。本發(fā)明所生成的直接引語(yǔ)素材庫(kù)可以在互聯(lián)網(wǎng)檢索和傳媒領(lǐng)域得到廣泛的使用。 其中對(duì)于互聯(lián)網(wǎng)而言,互聯(lián)網(wǎng)中存在大量的文本信息,尤其是媒體資訊信息,且每天都在不斷地增長(zhǎng);針對(duì)互聯(lián)網(wǎng)上的文本進(jìn)行直接引語(yǔ)抽取后,我們就能獲得一個(gè)龐大的直接引語(yǔ)素材庫(kù),這一直接引語(yǔ)素材庫(kù),可以按說(shuō)話者或按說(shuō)話內(nèi)容進(jìn)行檢索,其可能的用戶描述如下1)對(duì)于普通網(wǎng)民而言,非常方便他們了解自己關(guān)心的名人所說(shuō)過(guò)的內(nèi)容,加入文本時(shí)間維度,則還能按時(shí)間進(jìn)行過(guò)濾篩選;同時(shí)還能搜索某個(gè)關(guān)鍵詞,看哪些人發(fā)表過(guò)相關(guān)的看法;還可以說(shuō)話者和說(shuō)話內(nèi)容關(guān)鍵詞同時(shí)為條件檢索等。2)對(duì)于寫(xiě)作者或媒體從業(yè)者,尤其是記者,可以很方便地組織寫(xiě)作素材,形成稿件;對(duì)于網(wǎng)站編輯進(jìn)行專題制作,也可以針對(duì)專題中的人物、機(jī)構(gòu),直接展示列舉其言論觀點(diǎn),或者針對(duì)專題主體內(nèi)容,列舉所有內(nèi)容相關(guān)的直接引語(yǔ)和說(shuō)話者等等。另外,在政府機(jī)關(guān)或傳統(tǒng)媒體行業(yè)中,均存在大量的行業(yè)文本數(shù)據(jù),也會(huì)存在文章中直接引語(yǔ)包含密集的情況。在這種情況下,通過(guò)對(duì)行業(yè)數(shù)據(jù)的再處理,可以將這些行業(yè)數(shù)據(jù)盤(pán)活,產(chǎn)生新的檢索查閱和生產(chǎn)價(jià)值。以上對(duì)本發(fā)明所提供的直接引語(yǔ)素材庫(kù)生成方法進(jìn)行了詳細(xì)的說(shuō)明。對(duì)本領(lǐng)域的技術(shù)人員而言,在不背離本發(fā)明實(shí)質(zhì)精神的前提下對(duì)它所做的任何顯而易見(jiàn)的改動(dòng),都將構(gòu)成對(duì)本發(fā)明專利權(quán)的侵犯,將承擔(dān)相應(yīng)的法律責(zé)任。
權(quán)利要求
1.一種直接引語(yǔ)素材庫(kù)的生成方法,其特征在于包括如下的步驟(1)對(duì)于一篇文章,首先從左至右掃描,當(dāng)掃描到的字符為左引號(hào)時(shí),從下一個(gè)字符開(kāi)始記錄,一直記錄到當(dāng)前字符為右引號(hào)為止,在這個(gè)過(guò)程中記錄的內(nèi)容為直接引語(yǔ)內(nèi)容;(2)以直接引語(yǔ)內(nèi)容所在位置為中心,考察前一句和后一句的內(nèi)容,通過(guò)詞性標(biāo)注識(shí)別出前一句和后一句中的人名和/或機(jī)構(gòu)名;(3)對(duì)于識(shí)別出來(lái)的存在于前一句或者后一句內(nèi)容中的所有人名和/或機(jī)構(gòu)名,作為直接引語(yǔ)陳述者的候選集合,從該候選集合中挑選出真正的直接引語(yǔ)陳述者;(4)將挑選出來(lái)的直接引語(yǔ)陳述者和直接引語(yǔ)內(nèi)容添加到直接引語(yǔ)素材庫(kù)中。
2.如權(quán)利要求1所述的直接引語(yǔ)素材庫(kù)的生成方法,其特征在于所述步驟⑴中,所述左引號(hào)為全角左引號(hào)、半角左引號(hào)、單引號(hào)、雙引號(hào)中的任意一種。
3.如權(quán)利要求1所述的直接引語(yǔ)素材庫(kù)的生成方法,其特征在于所述步驟⑴中,所述右引號(hào)為全角右引號(hào)、半角右引號(hào)、單引號(hào)、雙引號(hào)中的任意一種。
4.如權(quán)利要求1所述的直接引語(yǔ)素材庫(kù)的生成方法,其特征在于所述步驟O)中,以人工收集的機(jī)構(gòu)名后綴詞和常用構(gòu)成詞作為識(shí)別觸發(fā)條件,根據(jù)隱馬爾科夫模型或者最大熵模型進(jìn)行識(shí)別機(jī)構(gòu)名的計(jì)算。
5.如權(quán)利要求1所述的直接引語(yǔ)素材庫(kù)的生成方法,其特征在于 所述步驟(3)按照如下情況分別進(jìn)行處理(31)如果候選集合中不存在人名和/或機(jī)構(gòu)名,則丟棄掉該直接引語(yǔ)內(nèi)容,不進(jìn)行處理;(32)如果候選集合中只存在一個(gè)人名或者機(jī)構(gòu)名,則將識(shí)別出來(lái)的人名或者機(jī)構(gòu)名作為直接引語(yǔ)陳述者;(33)如果候選集合中存在多個(gè)人名或者機(jī)構(gòu)名,則對(duì)候選集合中的人名或者機(jī)構(gòu)名進(jìn)行選擇,選出一個(gè)作為直接引語(yǔ)陳述者。
6.如權(quán)利要求5所述的直接引語(yǔ)素材庫(kù)的生成方法,其特征在于所述步驟(3 中,根據(jù)以下因素對(duì)于候選人名或者機(jī)構(gòu)名進(jìn)行打分1.字符距離,考察候選人名或者機(jī)構(gòu)名與直接引語(yǔ)的字符距離,通過(guò)計(jì)算文本中兩者間隔的字符數(shù)來(lái)獲得字符距離;2.語(yǔ)義距離,考察句子的詞性架構(gòu),使用淺層語(yǔ)義分析,分析出候選人名或者候選機(jī)構(gòu)名與直接引語(yǔ)的結(jié)構(gòu)距離;將字符距離和語(yǔ)義距離相加,找出距離最小的候選人名或者候選機(jī)構(gòu)名作為直接引語(yǔ)陳述者。
7.如權(quán)利要求6所述的直接引語(yǔ)素材庫(kù)的生成方法,其特征在于在進(jìn)行所述淺層語(yǔ)義分析時(shí),首先統(tǒng)計(jì)出主語(yǔ)為人名或者機(jī)構(gòu)名與引語(yǔ)謂詞近距離搭配的文字片段,進(jìn)而統(tǒng)計(jì)表達(dá)模式的數(shù)量以獲得所有常見(jiàn)的表達(dá)模式,最終根據(jù)模式統(tǒng)計(jì)值、謂詞統(tǒng)計(jì)值,綜合計(jì)算信度值。
8.如權(quán)利要求1所述的直接引語(yǔ)素材庫(kù)的生成方法,其特征在于所述步驟中,以數(shù)據(jù)庫(kù)方式保存直接引語(yǔ)陳述者和直接引語(yǔ)內(nèi)容,即在數(shù)據(jù)庫(kù)中設(shè)立兩個(gè)字段,一個(gè)字段保存直接引語(yǔ)陳述者,另一個(gè)字段保存直接引語(yǔ)內(nèi)容。
9.如權(quán)利要求1所述的直接引語(yǔ)素材庫(kù)的生成方法,其特征在于所述步驟中,以文本方式保存直接引語(yǔ)陳述者和直接引語(yǔ)內(nèi)容,即將直接引語(yǔ)按照“直接引語(yǔ)陳述者直接引語(yǔ)內(nèi)容”的方式保存為文本文件,其中直接引語(yǔ)陳述者與直接引語(yǔ)內(nèi)容之間用間隔符號(hào)分開(kāi)。
全文摘要
本發(fā)明公開(kāi)了一種直接引語(yǔ)素材庫(kù)的生成方法,包括如下的步驟(1)對(duì)于一篇文章,首先抽取引號(hào)內(nèi)的直接引語(yǔ)內(nèi)容;(2)以直接引語(yǔ)內(nèi)容所在位置為中心,考察前一句和后一句的內(nèi)容,通過(guò)詞性標(biāo)注識(shí)別出前一句和后一句中的人名和/或機(jī)構(gòu)名;(3)對(duì)于識(shí)別出來(lái)的存在于前一句或者后一句內(nèi)容中的所有人名和/或機(jī)構(gòu)名,作為直接引語(yǔ)陳述者的候選集合,從該候選集合中挑選出真正的直接引語(yǔ)陳述者;(4)將挑選出來(lái)的直接引語(yǔ)陳述者和直接引語(yǔ)內(nèi)容添加到直接引語(yǔ)素材庫(kù)中。利用本方法生成的直接引語(yǔ)素材庫(kù),可以在互聯(lián)網(wǎng)中提供更新、搜索、查詢等服務(wù),也可以在媒體資訊領(lǐng)域?yàn)閷?xiě)作、編輯、專題制作等提供技術(shù)支持。
文檔編號(hào)G06F17/30GK102207947SQ20101021226
公開(kāi)日2011年10月5日 申請(qǐng)日期2010年6月29日 優(yōu)先權(quán)日2010年6月29日
發(fā)明者宋傳寶, 張旭成 申請(qǐng)人:天津海量信息技術(shù)有限公司