一種面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建方法及裝置的制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種新穎的面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建方法及裝置,涉及語(yǔ)言文字處理領(lǐng)域。目前體育比賽結(jié)束后對(duì)于比賽情況進(jìn)行報(bào)道的新聞都是由人工編輯的,經(jīng)濟(jì)成本高,且很難保證時(shí)效性。本發(fā)明提出基于學(xué)習(xí)排序框架,通過(guò)體育比賽直播文字自動(dòng)構(gòu)建體育新聞的方法和裝置,有效提高體育新聞的時(shí)效性,降低編輯成本。其包括如下步驟:構(gòu)建針對(duì)體育直播文字的學(xué)習(xí)排序模型;應(yīng)用學(xué)習(xí)排序模型預(yù)測(cè)每個(gè)直播句子的權(quán)重;選取權(quán)重最高的句子集合構(gòu)建體育新聞。本發(fā)明適用于比賽過(guò)程中會(huì)產(chǎn)生比賽文字直播的體育比賽。
【專(zhuān)利說(shuō)明】
一種面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及語(yǔ)言文字處理領(lǐng)域,特別涉及一種面向體育比賽直播文字的體育新聞 自動(dòng)構(gòu)建方法及裝置。
【背景技術(shù)】
[0002] 據(jù)了解,面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建方法鮮有成熟的應(yīng)用成果, 也很少見(jiàn)到相關(guān)學(xué)術(shù)成果發(fā)表在重要學(xué)術(shù)會(huì)議和期刊上。與此領(lǐng)域相關(guān)度比較大的研究成 果有Nichols等人從Twitter的狀態(tài)更新中提取熱門(mén)體育事件,Tjondronegoro等人根據(jù)體 育音視頻獲得體育運(yùn)動(dòng)關(guān)鍵點(diǎn),以及Bouayad-Agha等研究者在2011和2012年使用預(yù)先定義 的模板構(gòu)建足球文摘的本體庫(kù)。
[0003] 此發(fā)明涉及的體育新聞自動(dòng)構(gòu)建方法,實(shí)質(zhì)是將新聞構(gòu)建歸結(jié)為對(duì)直播文本進(jìn)行 自動(dòng)摘要的過(guò)程。而對(duì)于文檔自動(dòng)摘要這一問(wèn)題的研究現(xiàn)已相對(duì)成熟。有很多不同的方法 應(yīng)用于此,并取得了不錯(cuò)的效果。單文檔摘要是由國(guó)際會(huì)議DUC和TAC定義的典型任務(wù),對(duì)于 這個(gè)任務(wù),基于抽取的方法都被大量采用?;诔槿〉姆椒ㄊ鞘紫葘?duì)文檔中已有的句子進(jìn) 行排序,再?gòu)闹兄苯映槿∨判蚩壳暗木渥咏M成摘要。此發(fā)明的文本自動(dòng)摘要過(guò)程就采用基 于抽取的方法。
[0004] 對(duì)于單文檔摘要,一系列特征被用來(lái)對(duì)文檔中的句子進(jìn)行排序,包括詞頻,句子位 置,線索詞,特征詞和主題簽名。其中基于質(zhì)心的摘要方法一一MEAD計(jì)算每個(gè)句子的三個(gè)特 征值并線性組合來(lái)決定哪個(gè)句子更加重要。機(jī)器學(xué)習(xí)技術(shù)也被用來(lái)進(jìn)行句子排序。 M.Litvak等人提出了一種語(yǔ)言無(wú)關(guān)的方法來(lái)提取摘要,它使用遺傳算法對(duì)多個(gè)句子排序指 標(biāo)進(jìn)行線性優(yōu)化。T.Hirao等人運(yùn)用樹(shù)形背包問(wèn)題的方法解決單文檔摘要,例如從DEP-DT選 取最佳根節(jié)點(diǎn)子樹(shù)作為摘要。近些年基于圖的方法被更多得運(yùn)用于句子排序。我們進(jìn)一步 提出利用鄰近文檔來(lái)提高基于圖的單文檔摘要效果。其他一些基于圖的摘要方法包括在異 構(gòu)圖上對(duì)句子和其他單元進(jìn)行混合排序。
[0005] 學(xué)習(xí)排序方法是將機(jī)器學(xué)習(xí)的方式應(yīng)用到排序模型中,讓機(jī)器自動(dòng)調(diào)整策略,根 據(jù)輸入的特征矩陣訓(xùn)練模型,再對(duì)測(cè)試矩陣預(yù)測(cè)排序向量。現(xiàn)在學(xué)習(xí)排序方法主要分為 Pointwise、Pairwise和Listwiselointwise方法正如其名字一樣,是把數(shù)據(jù)當(dāng)作一個(gè)個(gè)的 點(diǎn)來(lái)分別進(jìn)行計(jì)算的,這種方法可以把我們的排序問(wèn)題轉(zhuǎn)換成二值分類(lèi)問(wèn)題、回歸問(wèn)題和 多值分類(lèi)問(wèn)題。在Pairwise方法中,所有參與排序的對(duì)象進(jìn)行兩兩配對(duì),計(jì)算出每?jī)蓚€(gè)對(duì)象 的次序,最終我們就可以獲得一個(gè)總體的排名。Listwise的輸入不再是一個(gè)個(gè)或一對(duì)對(duì)的 對(duì)象,而是一組對(duì)象列表,根據(jù)排序函數(shù)計(jì)算出每一個(gè)對(duì)象列表的排序向量的得分,得分最 高的排序向量即為輸出。
[0006] 概括來(lái)說(shuō),目前自動(dòng)構(gòu)建體育新聞的方法還主要停留在根據(jù)體育數(shù)據(jù),套用模板, 生成較為生硬的簡(jiǎn)短摘要。本發(fā)明則提出了一種新的解決途徑,從體育比賽直播文字中抽 取重要句子構(gòu)建體育新聞。體育比賽直播文字是在體育比賽直播過(guò)程中,由解說(shuō)員生動(dòng)的 語(yǔ)言變?yōu)榈奈淖?,保證了由此生成的新聞的生動(dòng)性和多樣性。句子抽取過(guò)程采用現(xiàn)今較先 進(jìn)的有監(jiān)督學(xué)習(xí)排序框架,并根據(jù)直播文字和新聞生成需求,提取恰當(dāng)?shù)奈谋咎卣鳌?br>
【發(fā)明內(nèi)容】
[0007] 本發(fā)明提供一種面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建方法,該方法利用學(xué) 習(xí)排序模型,對(duì)體育比賽直播文字的句子重要性進(jìn)行預(yù)測(cè),并且選取重要性高的句子構(gòu)建 體育新聞,能夠有效地保證新聞的信息重要性、語(yǔ)言生動(dòng)性。
[0008] 本發(fā)明采用的技術(shù)方案包括:一種基于學(xué)習(xí)排序模型,面向體育比賽直播文字的 體育新聞自動(dòng)構(gòu)建方法,包括如下步驟:
[0009] (1)面向體育比賽直播文字的學(xué)習(xí)排序模型構(gòu)建;
[0010] (2)根據(jù)學(xué)習(xí)排序模型,預(yù)測(cè)直播文字句子重要性;
[0011] (3)基于直播文字句子重要性進(jìn)行新聞構(gòu)建;
[0012] 進(jìn)一步,面向體育比賽直播文字的學(xué)習(xí)排序模型構(gòu)建的步驟如下:
[0013] 首先爬取大量體育比賽直播文字和對(duì)應(yīng)比賽的新聞,對(duì)其進(jìn)行簡(jiǎn)單的預(yù)處理,包 括去除噪聲,分詞等。然后將這些數(shù)據(jù)作為訓(xùn)練集,用于構(gòu)建學(xué)習(xí)排序模型。觀察訓(xùn)練集直 播文字,提取代表其重要性的有效特征。應(yīng)用有監(jiān)督的學(xué)習(xí)排序框架預(yù)測(cè)直播文字的句子 重要性,需要將直播文字轉(zhuǎn)化為向量的形式。具體地,對(duì)于每個(gè)句子 81,將其轉(zhuǎn)化為(X1,yl) 的形式。其中X1代表句子 81的特征向量,yl代表句子81的目標(biāo)重要性。在此發(fā)明中,使用句子 S1與這場(chǎng)體育比賽對(duì)應(yīng)的新聞報(bào)道的最大句子級(jí)別吻合程度作為目標(biāo)重要性。句子級(jí)別 吻合程度用R0UGE-2F值來(lái)度量。
[0014] 下面以足球比賽直播文字為例介紹直播文字的具體特征。其中1-5維為文檔摘要 任務(wù)使用的傳統(tǒng)特征,6-9組為通過(guò)觀察足球比賽直播文字的語(yǔ)言和形式特點(diǎn),為其設(shè)計(jì) 的。
[0015] 1)句子位置信息:表示在候選句子集合中的位置。假設(shè)在直播文字中有n個(gè)句子, 對(duì)于句子Si,它的這一維特征通過(guò)
計(jì)算;
[0016] 2)句子長(zhǎng)度:表示句子Sl去掉停用詞之后的長(zhǎng)度;
[0017] 3)停用詞個(gè)數(shù):表示句子81中所包含的停用詞的個(gè)數(shù),句子包含的停用詞過(guò)多可 以間接反應(yīng)其重要性不夠高;
[0018] 4)詞語(yǔ)權(quán)重和:計(jì)算句子Si中詞語(yǔ)TF-IDF值的和;
[0019] 5)相鄰句子相似度:計(jì)算每個(gè)句子Sl和它相鄰句子的余弦相似度。具體地,計(jì)算 Sl 與其前后各N個(gè)相鄰句子的相似度,N可設(shè)為1、2;
[0020] 6)比賽關(guān)鍵點(diǎn)代表詞:體現(xiàn)比賽關(guān)鍵點(diǎn)的詞語(yǔ)的個(gè)數(shù),常??梢苑从尺@個(gè)句子的 重要性。例如句子中包含"破門(mén)"和"紅牌"這樣的字樣說(shuō)明這句話描述的很有可能是比賽的 關(guān)鍵點(diǎn),重要性會(huì)變高。這一組特征包含26維,其中一維表示包含有多少個(gè)關(guān)鍵詞語(yǔ),其他 25維代表每個(gè)有關(guān)于足球的關(guān)鍵詞語(yǔ)在這句話中是否出現(xiàn),出現(xiàn)則這一維為"1",沒(méi)出現(xiàn)為 "0,,;
[0021] 如圖1所示,在足球比賽的直播文字中會(huì)包含有文字所對(duì)應(yīng)的時(shí)間信息、比分信 息,這些信息提供更多的有效特征。
[0022] 7)時(shí)間信息特征:體現(xiàn)句子所在的比賽時(shí)段,如"上半場(chǎng)"還是"下半場(chǎng)",所在的具 體時(shí)間;
[0023] 8)比分信息特征:體現(xiàn)句子所在的時(shí)刻是否有比分變化,或是在比分變化的小范 圍內(nèi),比賽此時(shí)為平局或者有比分差別;
[0024] 9)球員受歡迎程度:此組特征包含兩維,一維代表句子中包含的球員的個(gè)數(shù),一維 代表所有球員的受歡迎程度之和。此受歡迎程度的評(píng)估可以利用在搜索引擎中搜索球員姓 名得到的新聞數(shù)作為指標(biāo)。
[0025] 根據(jù)訓(xùn)練集句子的特征向量矩陣和對(duì)應(yīng)的目標(biāo)重要性,就可以使用學(xué)習(xí)排序算法 進(jìn)行訓(xùn)練,得到面向體育比賽直播文字的學(xué)習(xí)排序模型。此學(xué)習(xí)排序模型可以用于預(yù)測(cè)排 序向量。
[0026]進(jìn)一步,根據(jù)學(xué)習(xí)排序模型,預(yù)測(cè)直播文字句子重要性的步驟如下:
[0027] 對(duì)于一篇新的體育比賽直播文字,首先需要提取上一步提到的各個(gè)特征,將直播 的每一個(gè)句子Sl轉(zhuǎn)化為特征向量&,其不同的比賽種類(lèi),特征設(shè)置上可以進(jìn)行簡(jiǎn)單的改動(dòng)。
[0028] 然后應(yīng)用上一步得到的學(xué)習(xí)排序模型,根據(jù)直播的特征向量矩陣對(duì)句子的排序向 量進(jìn)行預(yù)測(cè)。排序向量中每個(gè)句子所對(duì)應(yīng)的數(shù)值可以當(dāng)作句子的重要性。經(jīng)過(guò)預(yù)測(cè)可以得 到直播文字Si的句子重要性Wi。
[0029] 進(jìn)一步,基于直播文字句子重要性進(jìn)行新聞構(gòu)建的步驟如下:
[0030] 根據(jù)上一步得到的句子的重要性分?jǐn)?shù),應(yīng)用基于句子間距離進(jìn)行去冗余的算法進(jìn) 行句子的選取,直到達(dá)到所需的字?jǐn)?shù)為止。基于句子間的距離去冗余進(jìn)行選取句子的算法 具體如下:
[0031] 假設(shè)表示選入新聞中的句子集合,T2表示未選入新聞中的句子集合。
[0032] 第一步:選取T2句子集合中重要性分?jǐn)?shù)最高的句子Si,將Si加入到h中并將其從T 2 中刪除;
[0033] 第二步:將!^中所有的剩余句子&的重要性分?jǐn)?shù)根據(jù)以下公式進(jìn)行懲罰;
[0035] 其中Wj和Wi表示句子Sj和Si的重要性分?jǐn)?shù),Disj,i是句子Sj和Si之間的距離,而入表 示需要調(diào)節(jié)的參數(shù)。
[0036] 第三步:若^中句子的總字?jǐn)?shù)大于或者等于新聞所需字?jǐn)?shù),則進(jìn)行第四步,否則返 回第一步。
[0037] 第四步:將T沖的句子按照原先直播文字中出現(xiàn)的順序排序,構(gòu)建出新聞。
[0038]以上完成了體育新聞自動(dòng)構(gòu)建的過(guò)程。
[0039] 本發(fā)明提供一種面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建裝置,該裝置利用學(xué) 習(xí)排序模型,對(duì)體育比賽直播文字的句子重要性進(jìn)行預(yù)測(cè),并且選取重要性高的句子構(gòu)建 體育新聞,包括以下單元:學(xué)習(xí)排序模型構(gòu)建單元、句子重要性預(yù)測(cè)單元、新聞文本生成單 元;
[0040] 其中學(xué)習(xí)排序模型構(gòu)建單元通過(guò)搭建體育新聞和直播文字?jǐn)?shù)據(jù)庫(kù),并且處理,提 取特征,有監(jiān)督學(xué)習(xí)訓(xùn)練,得到面向體育比賽直播文字的學(xué)習(xí)排序模型;
[0041] 句子重要性預(yù)測(cè)單元首先提取體育直播文字的特征,然后應(yīng)用學(xué)習(xí)排序模型對(duì)直 播句子的重要性排序向量進(jìn)行預(yù)測(cè);
[0042]新聞文本生成單元根據(jù)句子重要性預(yù)測(cè)單元得到的句子的重要性分?jǐn)?shù),應(yīng)用基于 句子間距離進(jìn)行去冗余的算法進(jìn)行句子的選取,直到達(dá)到所需的字?jǐn)?shù)為止,完成新聞構(gòu)建。
【附圖說(shuō)明】
[0043]圖1.足球比賽直播文字的示例
[0044] 圖2.-種面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建方法流程圖
【具體實(shí)施方式】
[0045] 下面結(jié)合實(shí)施例和附圖進(jìn)一步闡述本發(fā)明所述的技術(shù)方案:
[0046] 如圖2所示,一種基于學(xué)習(xí)排序模型,面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建 方法,包括如下步驟:
[0047] (1)面向體育比賽直播文字的學(xué)習(xí)排序模型構(gòu)建;
[0048]首先爬取大量體育比賽直播文字和對(duì)應(yīng)比賽的新聞,對(duì)其進(jìn)行簡(jiǎn)單的預(yù)處理,包 括去除噪聲,分詞等。然后將這些數(shù)據(jù)作為訓(xùn)練集,用于構(gòu)建學(xué)習(xí)排序模型。觀察訓(xùn)練集直 播文字,提取代表其重要性的有效特征。應(yīng)用有監(jiān)督的學(xué)習(xí)排序框架預(yù)測(cè)直播文字的句子 重要性,需要將直播文字轉(zhuǎn)化為向量的形式。具體地,對(duì)于每個(gè)句子 81,將其轉(zhuǎn)化為(Xl,yi) 的形式。其中Xl代表句子 81的特征向量,yi代表句子81的目標(biāo)重要性。在此發(fā)明中,使用句子 Sl與這場(chǎng)體育比賽對(duì)應(yīng)的新聞報(bào)道的最大句子級(jí)別吻合程度作為目標(biāo)重要性。句子級(jí)別 吻合程度用R0UGE-2F值來(lái)度量。
[0049] 下面以足球比賽直播文字為例介紹直播文字的具體特征。其中1-5維為文檔摘要 任務(wù)使用的傳統(tǒng)特征,6-9組為通過(guò)觀察足球比賽直播文字的語(yǔ)言和形式特點(diǎn),為其設(shè)計(jì) 的。
[0050] 1)句子位置信息:表示在候選句子集合中的位置。假設(shè)在直播文字中有n個(gè)句子, 對(duì)于句子Si,它的這一維特征通過(guò)
計(jì)算;
[0051] 2)句子長(zhǎng)度:表示句子Sl去掉停用詞之后的長(zhǎng)度;
[0052] 3)停用詞個(gè)數(shù):表示句子81中所包含的停用詞的個(gè)數(shù),句子包含的停用詞過(guò)多可 以間接反應(yīng)其重要性不夠高;
[0053] 4)詞語(yǔ)權(quán)重和:計(jì)算句子si中詞語(yǔ)TF-IDF值的和;
[0054] 5)相鄰句子相似度:計(jì)算每個(gè)句子Sl和它相鄰句子的余弦相似度。具體地,計(jì)算 Sl 與其前后各N個(gè)相鄰句子的相似度,N可設(shè)為1、2;
[0055] 6)比賽關(guān)鍵點(diǎn)代表詞:體現(xiàn)比賽關(guān)鍵點(diǎn)的詞語(yǔ)的個(gè)數(shù),常??梢苑从尺@個(gè)句子的 重要性。例如句子中包含"破門(mén)"和"紅牌"這樣的字樣說(shuō)明這句話描述的很有可能是比賽的 關(guān)鍵點(diǎn),重要性會(huì)變高。這一組特征包含26維,其中一維表示包含有多少個(gè)關(guān)鍵詞語(yǔ),其他 25維代表每個(gè)有關(guān)于足球的關(guān)鍵詞語(yǔ)在這句話中是否出現(xiàn),出現(xiàn)則這一維為"1",沒(méi)出現(xiàn)為 "0,,;
[0056] 如圖1所示,在足球比賽的直播文字中會(huì)包含有文字所對(duì)應(yīng)的時(shí)間信息、比分信 息,這些信息提供更多的有效特征。
[0057] 7)時(shí)間信息特征:體現(xiàn)句子所在的比賽時(shí)段,如"上半場(chǎng)"還是"下半場(chǎng)",所在的具 體時(shí)間;
[0058] 8)比分信息特征:體現(xiàn)句子所在的時(shí)刻是否有比分變化,或是在比分變化的小范 圍內(nèi),比賽此時(shí)為平局或者有比分差別;
[0059] 9)球員受歡迎程度:此組特征包含兩維,一維代表句子中包含的球員的個(gè)數(shù),一維 代表所有球員的受歡迎程度之和。此受歡迎程度的評(píng)估可以利用在搜索引擎中搜索球員姓 名得到的新聞數(shù)作為指標(biāo)。
[0060] 根據(jù)訓(xùn)練集句子的特征向量矩陣和對(duì)應(yīng)的目標(biāo)重要性,就可以使用學(xué)習(xí)排序算法 進(jìn)行訓(xùn)練,得到面向體育比賽直播文字的學(xué)習(xí)排序模型。此學(xué)習(xí)排序模型可以用于預(yù)測(cè)排 序向量。
[0061 ] (2)根據(jù)學(xué)習(xí)排序模型,預(yù)測(cè)直播文字句子重要性;
[0062] 對(duì)于一篇新的體育比賽直播文字,首先需要提取上一步提到的各個(gè)特征,將直播 的每一個(gè)句子Sl轉(zhuǎn)化為特征向量&,其不同的比賽種類(lèi),特征設(shè)置上可以進(jìn)行簡(jiǎn)單的改動(dòng)。
[0063] 然后應(yīng)用上一步得到的學(xué)習(xí)排序模型,根據(jù)直播的特征向量矩陣對(duì)句子的排序向 量進(jìn)行預(yù)測(cè)。排序向量中每個(gè)句子所對(duì)應(yīng)的數(shù)值可以當(dāng)作句子的重要性。經(jīng)過(guò)預(yù)測(cè)可以得 到直播文字Si的句子重要性Wi。
[0064] (3)基于直播文字句子重要性進(jìn)行新聞構(gòu)建;
[0065]根據(jù)上一步得到的句子的重要性分?jǐn)?shù),應(yīng)用基于句子間距離進(jìn)行去冗余的算法進(jìn) 行句子的選取,直到達(dá)到所需的字?jǐn)?shù)為止?;诰渥娱g的距離去冗余進(jìn)行選取句子的算法 具體如下:
[0066] 假設(shè)表示選入新聞中的句子集合,T2表示未選入新聞中的句子集合。
[0067] 第一步:選取T2句子集合中重要性分?jǐn)?shù)最高的句子Si,將Si加入到h中并將其從T 2 中刪除;
[0068] 第二步:將!^中所有的剩余句子&的重要性分?jǐn)?shù)根據(jù)以下公式進(jìn)行懲罰;
[0070] 其中Wj和Wi表示句子Sj和Si的重要性分?jǐn)?shù),Disj,i是句子Sj和Si之間的距離,而入表 示需要調(diào)節(jié)的參數(shù)。
[0071] 第三步:若^中句子的總字?jǐn)?shù)大于或者等于新聞所需字?jǐn)?shù),則進(jìn)行第四步,否則返 回第一步。
[0072] 第四步:將T沖的句子按照原先直播文字中出現(xiàn)的順序排序,構(gòu)建出新聞。
[0073] 以上完成了體育新聞自動(dòng)構(gòu)建的過(guò)程。
[0074]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng) 涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求所界定的保護(hù)范 圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建方法,其特征在于,該方法通過(guò)構(gòu) 建學(xué)習(xí)排序模型并提取體育比賽直播文字中的有效特征,有監(jiān)督得預(yù)測(cè)直播句子的重要 性,并選取重要性高的句子集合構(gòu)建體育新聞;該方法方便快捷,有效節(jié)省人力物力。2. -種面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建方法,其特征在于包括如下步驟: (1) 面向體育比賽直播文字的學(xué)習(xí)排序模型構(gòu)建; (2) 根據(jù)學(xué)習(xí)排序模型,預(yù)測(cè)直播文字句子重要性; (3) 基于直播文字句子重要性進(jìn)行新聞構(gòu)建。3. 根據(jù)權(quán)利要求2所述的面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建方法,其特征在 于,面向體育比賽直播文字的學(xué)習(xí)排序模型構(gòu)建,其具體做法如下: 首先爬取大量體育比賽直播文字和對(duì)應(yīng)比賽的新聞,對(duì)其進(jìn)行簡(jiǎn)單的預(yù)處理,包括去 除噪聲,分詞等;然后將運(yùn)些數(shù)據(jù)作為訓(xùn)練集,用于構(gòu)建學(xué)習(xí)排序模型。觀察訓(xùn)練集直播文 字,提取代表其重要性的有效特征;應(yīng)用有監(jiān)督的學(xué)習(xí)排序框架預(yù)測(cè)直播文字的句子重要 性,需要將直播文字轉(zhuǎn)化為向量的形式;具體地,對(duì)于每個(gè)句子Si,將其轉(zhuǎn)化為(xi,yi)的形 式;其中Xi代表句子Si的特征向量,yi代表句子Si的目標(biāo)重要性;在此發(fā)明中,使用句子Si與 運(yùn)場(chǎng)體育比賽對(duì)應(yīng)的新聞報(bào)道的最大句子級(jí)別吻合程度作為目標(biāo)重要性yi;句子級(jí)別吻合 程度用R0UGE-2 F值來(lái)度量。 下面W足球比賽直播文字為例介紹直播文字的具體特征;其中1-5維為文檔摘要任務(wù) 使用的傳統(tǒng)特征,6-9組為通過(guò)觀察足球比賽直播文字的語(yǔ)言和形式特點(diǎn),為其設(shè)計(jì)的。1) 句子位置信息:表示護(hù)千集合中的位置;假設(shè)在直播文字中有n個(gè)句子,對(duì)于 句子Si,它的運(yùn)一維特征通i3 ^算; 2) 句子長(zhǎng)度:表示句子Si去掉停用詞之后的長(zhǎng)度; 3) 停用詞個(gè)數(shù):表示句子Si中所包含的停用詞的個(gè)數(shù),句子包含的停用詞過(guò)多可W間接 反應(yīng)其重要性不夠高; 4) 詞語(yǔ)權(quán)重和:計(jì)算句子Si中詞語(yǔ)TF-IDF值的和; 5) 相鄰句子相似度:計(jì)算每個(gè)句子Si和它相鄰句子的余弦相似度;具體地,計(jì)算Si與其 前后各N個(gè)相鄰句子的相似度,N可設(shè)為1、2; 6) 比賽關(guān)鍵點(diǎn)代表詞:體現(xiàn)比賽關(guān)鍵點(diǎn)的詞語(yǔ)的個(gè)數(shù),常常可W反映運(yùn)個(gè)句子的重要 性;例如句子中包含"破1'了'和"紅牌"運(yùn)樣的字樣說(shuō)明運(yùn)句話描述的很有可能是比賽的關(guān)鍵 點(diǎn),重要性會(huì)變高;運(yùn)一組特征包含26維,其中一維表示包含有多少個(gè)關(guān)鍵詞語(yǔ),其他25維 代表每個(gè)有關(guān)于足球的關(guān)鍵詞語(yǔ)在運(yùn)句話中是否出現(xiàn),出現(xiàn)則運(yùn)一維為"r,沒(méi)出現(xiàn)為"0"; 7) 時(shí)間信息特征:體現(xiàn)句子所在的比賽時(shí)段,如"上半場(chǎng)"還是"下半場(chǎng)",所在的具體時(shí) 間; 8) 比分信息特征:體現(xiàn)句子所在的時(shí)刻是否有比分變化,或是在比分變化的小范圍內(nèi), 比賽此時(shí)為平局或者有比分差別; 9) 球員受歡迎程度:此組特征包含兩維,一維代表句子中包含的球員的個(gè)數(shù),一維代表 所有球員的受歡迎程度之和;此受歡迎程度的評(píng)估可W利用在捜索引擎中捜索球員姓名得 到的新聞數(shù)作為指標(biāo); 根據(jù)訓(xùn)練集句子的特征向量矩陣和對(duì)應(yīng)的目標(biāo)重要性,就可W使用學(xué)習(xí)排序算法進(jìn)行 訓(xùn)練,得到面向體育比賽直播文字的學(xué)習(xí)排序模型;此學(xué)習(xí)排序模型可W用于預(yù)測(cè)排序向 量。4. 根據(jù)權(quán)利要求2所述的面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建方法,其特征在 于,根據(jù)學(xué)習(xí)排序模型,預(yù)測(cè)直播文字句子重要性,其具體做法如下: 對(duì)于一篇新的體育比賽直播文字,首先需要提取上一步提到的各個(gè)特征,將直播的每 一個(gè)句子Si轉(zhuǎn)化為特征向量XI,其不同的比賽種類(lèi),特征設(shè)置上可W進(jìn)行簡(jiǎn)單的改動(dòng); 然后應(yīng)用上一步得到的學(xué)習(xí)排序模型,根據(jù)直播的特征向量矩陣對(duì)句子的排序向量進(jìn) 行預(yù)測(cè);排序向量中每個(gè)句子所對(duì)應(yīng)的數(shù)值可W當(dāng)作句子的重要性;經(jīng)過(guò)預(yù)測(cè)可W得到直 播文字Si的句子重要性Wio5. 根據(jù)權(quán)利要求2所述的面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建方法,其特征在 于,基于直播文字句子重要性進(jìn)行新聞構(gòu)建,其具體做法如下: 根據(jù)上一步得到的句子的重要性分?jǐn)?shù),應(yīng)用基于句子間距離進(jìn)行去冗余的算法進(jìn)行句 子的選取,直到達(dá)到所需的字?jǐn)?shù)為止;基于句子間的距離去冗余進(jìn)行選取句子的算法具體 如下: 假設(shè)Tl表示選入新聞中的句子集合,T2表示未選入新聞中的句子集合; 第一步:選取T2句子集合中重要性分?jǐn)?shù)最高的句子Si,將Si加入到Tl中并將其從T2中刪 除; 第二步:將T2中所有的剩余巧亜化曰下公式進(jìn)行懲罰;其中Wj和Wi表示句子Sj和Si的重要性分?jǐn)?shù),DiSj, i是句子Sj和Si之間的距離,而A表示需 要調(diào)節(jié)的參數(shù); 第=步:若Tl中句子的總字?jǐn)?shù)大于或者等于新聞所需字?jǐn)?shù),則進(jìn)行第四步,否則返回第 一步; 第四步:將Tl中的句子按照原先直播文字中出現(xiàn)的順序排序,構(gòu)建出新聞; W上完成了體育新聞自動(dòng)構(gòu)建的過(guò)程。6. -種面向體育比賽直播文字的體育新聞自動(dòng)構(gòu)建裝置,利用學(xué)習(xí)排序模型,對(duì)體育 比賽直播文字的句子重要性進(jìn)行預(yù)測(cè),并且選取重要性高的句子構(gòu)建體育新聞,其特征在 于包括W下單元:學(xué)習(xí)排序模型構(gòu)建單元、句子重要性預(yù)測(cè)單元、新聞文本生成單元; 其中學(xué)習(xí)排序模型構(gòu)建單元通過(guò)搭建體育新聞和直播文字?jǐn)?shù)據(jù)庫(kù),并且處理,提取特 征,有監(jiān)督學(xué)習(xí)訓(xùn)練,得到面向體育比賽直播文字的學(xué)習(xí)排序模型; 句子重要性預(yù)測(cè)單元首先提取體育直播文字的特征,然后應(yīng)用學(xué)習(xí)排序模型對(duì)直播句 子的重要性排序向量進(jìn)行預(yù)測(cè); 新聞文本生成單元根據(jù)句子重要性預(yù)測(cè)單元得到的句子的重要性分?jǐn)?shù),應(yīng)用基于句子 間距離進(jìn)行去冗余的算法進(jìn)行句子的選取,直到達(dá)到所需的字?jǐn)?shù)為止,完成新聞的構(gòu)建。
【文檔編號(hào)】G06F17/27GK105912526SQ201610235671
【公開(kāi)日】2016年8月31日
【申請(qǐng)日】2016年4月15日
【發(fā)明人】張建敏, 萬(wàn)小軍, 姚金戈
【申請(qǐng)人】北京大學(xué)