亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種新聞事件要素抽取方法與裝置制造方法

文檔序號:6634239閱讀:1326來源:國知局
一種新聞事件要素抽取方法與裝置制造方法
【專利摘要】本發(fā)明提供一種新聞事件要素抽取方法,包括:識別新聞文本中包含的人名并抽取人名特征;根據(jù)所抽取的人名特征計(jì)算人名成為新聞事件的主角的概率;以及基于該概率識別出新聞事件的主角。在一些實(shí)施例中,所述方法還包括:抽取關(guān)于新聞事件的主角的觀點(diǎn)和發(fā)言的語句,以及新聞事件發(fā)生的地點(diǎn)和時間。本發(fā)明在保證抽取準(zhǔn)確率的前提下,能夠克服人工分析整理新聞信息成本高、效率低的問題,同時,也為新聞事件檢索、新聞報道跟蹤等上層應(yīng)用提供支持。
【專利說明】一種新聞事件要素抽取方法與裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理【技術(shù)領(lǐng)域】,特別涉及新聞文本中的信息抽取技術(shù),以及 更具體地,涉及一種新聞事件要素抽取方法與裝置。

【背景技術(shù)】
[0002] 新聞事件是指發(fā)生在某時某地的一件特別的事情,它可以由許多要素組成,其中 較為關(guān)鍵的要素包括:事件發(fā)生的時間、事件發(fā)生的地點(diǎn)、事件的主角、主角所持的觀點(diǎn)和 事件的某些特殊屬性。這些要素不僅有助于新聞閱讀者快速把握新聞事件的主體內(nèi)容,而 且可以為海量新聞數(shù)據(jù)的自動分析和處理提供必要的基礎(chǔ)內(nèi)容信息。
[0003] 隨著互聯(lián)網(wǎng)普及率的上升和信息公開化程度的提高,網(wǎng)絡(luò)已經(jīng)成為新聞事件報道 和傳播的重要平臺。互聯(lián)網(wǎng)上新聞網(wǎng)頁的數(shù)量急劇增長,新聞量和冗余信息的增加,給閱讀 和信息分析帶來了新的挑戰(zhàn)。迅速、準(zhǔn)確地從新聞報道中自動抽取新聞事件的要素,尤其是 關(guān)鍵要素,不僅能夠改善代價昂貴的人工分析和管理新聞事件的過程,而且具有廣泛的新 聞自動分析方面的應(yīng)用前景,例如為網(wǎng)絡(luò)輿情的監(jiān)控和預(yù)警、新聞事件檢索和決策支持等 上層應(yīng)用提供支持。由于新聞文本在形式上具有詞匯、句式規(guī)范,篇章結(jié)構(gòu)統(tǒng)一,語言風(fēng)格 穩(wěn)定等特點(diǎn),使得自動抽取新聞事件的關(guān)鍵要素成為可能。
[0004] 然而,目前最常見的新聞抽取系統(tǒng)所解決的問題主要是從新聞網(wǎng)頁中抽取新聞?wù)?文或?qū)π侣務(wù)倪M(jìn)行簡單的分類,關(guān)于理解新聞內(nèi)容并抽取關(guān)鍵要素方面的工作仍然空 缺。


【發(fā)明內(nèi)容】

[0005] 針對上述問題,根據(jù)本發(fā)明的一個實(shí)施例,提供一種新聞事件要素抽取方法,包 括:
[0006] 步驟1)、識別新聞文本中包含的人名并抽取人名特征;
[0007] 步驟2)、根據(jù)所抽取的人名特征計(jì)算人名成為新聞事件的主角的概率;以及
[0008] 步驟3)、基于該概率識別出新聞事件的主角。
[0009] 上述方法中,所述人名特征包括人名在所述新聞文本中的上/下文特征、頻率特 征和位置特征。其中,根據(jù)下式計(jì)算人名成為新聞事件的主角的概率:

【權(quán)利要求】
1. 一種新聞事件要素抽取方法,包括: 步驟1)、識別新聞文本中包含的人名并抽取人名特征; 步驟2)、根據(jù)所抽取的人名特征計(jì)算人名成為新聞事件的主角的概率;以及 步驟3)、基于該概率識別出新聞事件的主角。
2. 根據(jù)權(quán)利要求1所述的方法,其中,所述人名特征包括人名在所述新聞文本中的上/ 下文特征、頻率特征和位置特征。
3. 根據(jù)權(quán)利要求2所述的方法,其中,根據(jù)下式計(jì)算人名成為新聞事件的主角的概率:
其中,namei表示人名,COiamei)表示該人名在上/下文特征上的取值,freOiamei)表 示該人名出現(xiàn)的次數(shù),len(text)表示所述新聞文本的總字符長度,posOiamei)表示該人名 在所述新聞文本中首次出現(xiàn)的字符位置。
4. 根據(jù)權(quán)利要求1-3中任何一個所述的方法,其中,識別新聞文本中包含的人名包括: 使用人名識別器識別新聞文本中包含的人名;其中,所述人名識別器是通過使用公開 語料庫,訓(xùn)練條件隨機(jī)場模型得到的。
5. 根據(jù)權(quán)利要求1-3中任何一個所述的方法,還包括: 從所述新聞文本中抽取關(guān)于新聞事件的主角的觀點(diǎn)和發(fā)言的語句。
6. 根據(jù)權(quán)利要求5所述的方法,其中,抽取關(guān)于新聞事件的主角的觀點(diǎn)和發(fā)言的語句 包括: 對所述新聞文本進(jìn)行斷句,抽取同時包括主角人名和觸發(fā)詞的語句,加入候選觀點(diǎn)語 句集合; 抽取同時包含第三人稱代詞和觸發(fā)詞的語句,根據(jù)與該語句相鄰的前兩句中出現(xiàn)的人 名判斷該第三人稱代詞是否指代新聞事件的主角,如果是,則將該語句加入候選觀點(diǎn)語句 集合;以及 從候選觀點(diǎn)語句集合中移除包含停用觸發(fā)詞的語句;其中,觸發(fā)詞和停用觸發(fā)詞是由 詞或標(biāo)點(diǎn)符號組成的表達(dá)式。
7. 根據(jù)權(quán)利要求6所述的方法,其中,根據(jù)如下步驟獲得觸發(fā)詞和停用觸發(fā)詞: 隨機(jī)選取多篇新聞文本,抽取關(guān)于新聞事件的主角的觀點(diǎn)和發(fā)言的語句,得到訓(xùn)練語 句集合; 對訓(xùn)練語句集合進(jìn)行分詞和詞性標(biāo)注處理,根據(jù)詞性、詞頻以及該詞與主角的位置關(guān) 系選取出觸發(fā)詞;其中,如果觸發(fā)詞的相鄰字符為標(biāo)點(diǎn)符號,則將該觸發(fā)詞與相鄰標(biāo)點(diǎn)符號 的組合作為另一個觸發(fā)詞; 用已獲得的觸發(fā)詞在所述多篇新聞文本中抽取關(guān)于新聞事件的主角的觀點(diǎn)和發(fā)言的 語句,將抽取結(jié)果和訓(xùn)練語句集合進(jìn)行對比,將產(chǎn)生錯誤語句的觸發(fā)詞結(jié)合其相鄰的詞作 為停用觸發(fā)詞。
8. 根據(jù)權(quán)利要求1-3中任何一個所述的方法,還包括: 使用新聞事件分類器來判定新聞事件的類別。
9. 根據(jù)權(quán)利要求8所述的方法,其中,根據(jù)如下步驟構(gòu)造新聞事件分類器: 隨機(jī)選取多篇新聞文本作為訓(xùn)練樣本,人工標(biāo)注該新聞文本所描述的新聞事件的類 別; 對所述訓(xùn)練樣本進(jìn)行分詞和詞性標(biāo)注,根據(jù)詞性和卡方公式選擇特征詞;以及 將所述訓(xùn)練樣本向量化,用于訓(xùn)練支持向量機(jī)模型,從而獲得新聞事件分類器。
10. 根據(jù)權(quán)利要求8所述的方法,還包括: 根據(jù)新聞事件的類別,利用該類別對應(yīng)的抽取規(guī)則抽取該新聞事件的屬性。
11. 根據(jù)權(quán)利要求8所述的方法,還包括: 識別新聞事件發(fā)生的地點(diǎn)。
12. 根據(jù)權(quán)利要求11所述的方法,其中,識別新聞事件發(fā)生的地點(diǎn)包括: 使用地名識別器識別所述新聞文本中包含的地名;其中,所述地名識別器是通過使用 公開語料庫,訓(xùn)練條件隨機(jī)場模型得到的; 根據(jù)地名在新聞文本中的位置、上/下文,以及與新聞事件的主角之間的距離,獲得新 聞事件發(fā)生的地點(diǎn)。
13. 根據(jù)權(quán)利要求1-3中任何一個所述的方法,還包括: 識別新聞事件發(fā)生的時間。
14. 根據(jù)權(quán)利要求13所述的方法,其中,識別新聞事件發(fā)生的時間包括: 使用時間識別器識別所述新聞文本中包含的時間短語;其中,所述時間識別器是通過 使用公開語料庫,訓(xùn)練條件隨機(jī)場模型得到的; 根據(jù)時間短語在新聞文本中出現(xiàn)的位置、類型、與新聞事件的主角之間的距離,以及與 新聞事件的屬性之間的距離,獲得新聞事件發(fā)生的時間; 對新聞事件發(fā)生的時間進(jìn)行歸一化處理。
15. 根據(jù)權(quán)利要求1-3中任何一個所述的方法,還包括: 預(yù)處理所采集的新聞網(wǎng)頁,得到新聞文本。
16. 根據(jù)權(quán)利要求15所述的方法,其中,預(yù)處理所采集的新聞網(wǎng)頁包括: 從所采集的新聞網(wǎng)頁中提取新聞?wù)?;以? 在提取出的新聞?wù)闹羞^濾掉除漢字、字母、數(shù)字和標(biāo)點(diǎn)符號之外的字符。
17. -種新聞事件要素抽取裝置,包括: 主角識別模塊,用于從新聞文本中識別新聞事件的主角; 主角觀點(diǎn)和發(fā)言抽取模塊,用于從所述新聞文本中抽取關(guān)于新聞事件的主角的觀點(diǎn)和 發(fā)言的語句; 事件分類及相關(guān)屬性抽取模塊,用于判定新聞事件的類別,根據(jù)類別從所述新聞文本 中抽取新聞事件的屬性,以及從所述新聞文本中識別新聞事件發(fā)生的地點(diǎn);以及 事件時間識別模塊,用于從所述新聞文本中識別新聞事件發(fā)生的時間。
【文檔編號】G06F17/27GK104408093SQ201410645944
【公開日】2015年3月11日 申請日期:2014年11月14日 優(yōu)先權(quán)日:2014年11月14日
【發(fā)明者】程學(xué)旗, 劉倩, 伍大勇, 劉悅, 劉冰洋, 鐘艷琴 申請人:中國科學(xué)院計(jì)算技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1