本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的新聞?wù)崛》椒把b置。
背景技術(shù):
人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。其中,人工智能最重要的方面就是語音識別技術(shù)。
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,世界各地的各類新聞可以通過各種媒體發(fā)布給互聯(lián)網(wǎng)用戶。對于同一個新聞事件,各種媒體對應(yīng)的門戶網(wǎng)站會編輯出不同的報(bào)道,門戶網(wǎng)站發(fā)出的報(bào)道的側(cè)重點(diǎn)一般會存在一定的差異,但是所有的報(bào)道中也會存在或多或少的重合信息。對于不同的互聯(lián)網(wǎng)用戶而言,對新聞事件的關(guān)注點(diǎn)會不同。對于一個互聯(lián)網(wǎng)用戶來說,可能需要閱讀多篇報(bào)道才能從中提取出自己想要的信息,這就會導(dǎo)致用戶的閱讀效率較差。
為了幫助用戶提高新聞閱讀的效率,可以對同一新聞事件的多篇新聞進(jìn)行聚合,去除多篇新聞中的冗余信息,提取描述新聞事件的摘要。但是,在形成新聞事件的摘要時(shí)多篇新聞報(bào)道具有平等的重要性,從而使得多篇文章中抽取出來的句子拼接在一起,經(jīng)常出現(xiàn)邏輯錯亂或者語義不同的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的第一個目的在于提出一種基于人工智能的新聞?wù)崛》椒ǎ糜诮鉀Q現(xiàn)有形成新聞事件的摘要時(shí)由于多篇新聞報(bào)道具有平等的重要性,導(dǎo)致從多篇文章中抽取出來的句子拼接在一起,經(jīng)常出現(xiàn)邏輯錯亂或者語義不同的問題。
本發(fā)明的第二個目的在于提出一種基于人工智能的新聞?wù)崛⊙b置。
本發(fā)明的第三個目的在于提出另一種基于人工智能的新聞?wù)崛⊙b置。
本發(fā)明的第四個目的在于提出一種非臨時(shí)性計(jì)算機(jī)可讀存儲介質(zhì)。
本發(fā)明的第五個目的在于提出一種計(jì)算機(jī)程序產(chǎn)品。
為達(dá)上述目的,本發(fā)明第一方面實(shí)施例提出了一種基于人工智能的新聞?wù)崛》椒?,包括?/p>
基于新聞事件的關(guān)鍵詞檢索得到所述新聞事件的新聞簇;
從所述新聞簇包括的所有新聞中獲取所述新聞事件的核心新聞;
將所述新聞簇包括的所有新聞按照句子進(jìn)行拆分,獲取每兩個句子之間的語義相似度;
基于每兩個句子之間的所述語義相似度從所述核心新聞中選取重要句子;
按照所述重要句子在所述核心新聞中原文的順序進(jìn)行拼接,形成所述新聞事件的摘要。
本發(fā)明實(shí)施例的基于人工智能的新聞?wù)崛》椒?,通過從同一新聞事件的所有新聞中選取核心新聞,再從核心新聞中按照句子的重要性選取出形成摘要的重要句子,并且按照原文順序進(jìn)行拼接,從而可以避免出現(xiàn)邏輯錯亂以及語義不同的問題。
為達(dá)上述目的,本發(fā)明第二方面實(shí)施例提出了一種基于人工智能的新聞?wù)崛⊙b置,包括:
檢索模塊,用于基于新聞事件的關(guān)鍵詞檢索得到所述新聞事件的新聞簇;
獲取模塊,用于從所述新聞簇包括的所有新聞中獲取所述新聞事件的核心新聞;
相似度獲取模塊,用于將所述新聞簇包括的所有新聞按照句子進(jìn)行拆分,獲取每兩個句子之間的語義相似度;
選取模塊,用于基于每兩個句子之間的所述語義相似度從所述核心新聞中選取重要句子;
拼接模塊,用于按照所述重要句子在所述核心新聞中原文的順序進(jìn)行拼接,形成所述新聞事件的摘要。
本發(fā)明實(shí)施例的基于人工智能的新聞?wù)崛⊙b置,通過從同一新聞事件的所有新聞中選取核心新聞,再從核心新聞中按照句子的重要性選取出形成摘要的重要句子,并且按照原文順序進(jìn)行拼接,從而可以避免出現(xiàn)邏輯錯亂以及語義不同的問題。
為達(dá)上述目的,本發(fā)明第三方面實(shí)施例提出了另一種基于人工智能的新聞?wù)崛⊙b置,包括:處理器;用于存儲所述處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為:基于新聞事件的關(guān)鍵詞檢索得到所述新聞事件的新聞簇;從所述新聞簇包括的所有新聞中獲取所述新聞事件的核心新聞;將所述新聞簇包括的所有新聞按照句子進(jìn)行拆分,獲取每兩個句子之間的語義相似度;基于每兩個句子之間的所述語義相似度從所述核心新聞中選取重要句子;按照所述重要句子在所述核心新聞中原文的順序進(jìn)行拼接,形成所述新聞事件的摘要。
為了實(shí)現(xiàn)上述目的,本發(fā)明第四方面實(shí)施例提出了一種非臨時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),當(dāng)所述存儲介質(zhì)中的指令由服務(wù)器端的處理器被執(zhí)行時(shí),使得服務(wù)器端能夠執(zhí)行一種基于人工智能的新聞?wù)崛》椒?,所述方法包括:基于新聞事件的關(guān)鍵詞檢索得到所述新聞事件的新聞簇;從所述新聞簇包括的所有新聞中獲取所述新聞事件的核心新聞;將所述新聞簇包括的所有新聞按照句子進(jìn)行拆分,獲取每兩個句子之間的語義相似度;基于每兩個句子之間的所述語義相似度從所述核心新聞中選取重要句子;按照所述重要句子在所述核心新聞中原文的順序進(jìn)行拼接,形成所述新聞事件的摘要。
為了實(shí)現(xiàn)上述目的,本發(fā)明第五方面實(shí)施例提出了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)所述計(jì)算機(jī)程序產(chǎn)品中的指令處理器執(zhí)行時(shí),執(zhí)行一種基于人工智能的新聞?wù)崛》椒?,所述方法包括:基于新聞事件的關(guān)鍵詞檢索得到所述新聞事件的新聞簇;從所述新聞簇包括的所有新聞中獲取所述新聞事件的核心新聞;將所述新聞簇包括的所有新聞按照句子進(jìn)行拆分,獲取每兩個句子之間的語義相似度;基于每兩個句子之間的所述語義相似度從所述核心新聞中選取重要句子;按照所述重要句子在所述核心新聞中原文的順序進(jìn)行拼接,形成所述新聞事件的摘要。
本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1為本發(fā)明實(shí)施例提供的一種基于人工智能的新聞?wù)崛》椒ǖ牧鞒淌疽鈭D;
圖2為本發(fā)明實(shí)施例提供的一種核心新聞的獲取方法的流程示意圖;
圖3為本發(fā)明實(shí)施例提供的另一種基于人工智能的新聞?wù)崛》椒ǖ牧鞒淌疽鈭D;
圖4為本發(fā)明實(shí)施例提供的一種新聞簇的示意圖;
圖5為本發(fā)明實(shí)施例提供的一種基于帶權(quán)的無向圖從核心新聞中選取重要句子的流程示意圖;
圖6為本發(fā)明實(shí)施例提供的另一種基于帶權(quán)的無向圖從核心新聞中選取重要句子的流程示意圖;
圖7為本發(fā)明實(shí)施例提供的一種從核心新聞中選取出重要句子示意圖;
圖8為本發(fā)明實(shí)施例提供的一種基于人工智能的新聞?wù)崛⊙b置的結(jié)構(gòu)示意圖;
圖9為本發(fā)明實(shí)施例提供的一種獲取模塊的結(jié)構(gòu)示意圖;
圖10為本發(fā)明實(shí)施例提供的一種選取模塊的結(jié)構(gòu)示意圖;
圖11為本發(fā)明實(shí)施例提供的另一種基于人工智能的新聞?wù)崛⊙b置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
下面參考附圖描述本發(fā)明實(shí)施例的基于人工智能的新聞?wù)崛》椒把b置。
圖1為本發(fā)明實(shí)施例所提供的一種基于人工智能的新聞?wù)崛》椒ǖ牧鞒淌疽鈭D。該基于人工智能的新聞?wù)崛》椒òㄒ韵虏襟E:
S101、基于新聞事件的關(guān)鍵詞檢索得到新聞事件的新聞簇。
實(shí)際應(yīng)用中,當(dāng)一個新聞事件發(fā)生后,會有多個門戶網(wǎng)站對該新聞事件進(jìn)行報(bào)道。當(dāng)用戶需要了解該新聞事件時(shí),可以基于新聞事件的關(guān)鍵詞進(jìn)行搜索。本實(shí)施例中,在獲取到用戶輸入的新聞事件的關(guān)鍵詞之后,可以基于該新聞事件的關(guān)鍵詞搜索到與關(guān)鍵詞相關(guān)的新聞,然后利用相關(guān)的新聞形成該新聞事件的新聞簇。
例如,新聞事件為“霧霾紅色預(yù)警”,當(dāng)用戶根據(jù)輸入“霧霾成分”、“空氣污染”、“指數(shù)破表”、“霧霾防治”、“霧霾危害”、和/或“學(xué)生挺課”等關(guān)鍵詞時(shí),就可以獲取到與“霧霾紅色預(yù)警”這一新聞事件相關(guān)的新聞,從而形成該新聞事件的新聞簇。
S102、從新聞簇包括的所有新聞中獲取新聞事件的核心新聞。
一般情況下,在很多關(guān)于同一新聞事件的新聞報(bào)道中,經(jīng)常會有某篇新聞報(bào)道最為詳盡,可以涵蓋了用戶對于該新聞事件所需要了解的大部分信息點(diǎn),本實(shí)施例中,將新聞簇中涵蓋了用戶試圖了解該新聞事件的大部分信息點(diǎn)的新聞報(bào)道,稱為該新聞事件的核心新聞。在獲取到新聞事件的新聞簇之后,可以獲取新聞簇中每個新聞的特征集合,然后根據(jù)該特征集合得到每個新聞的重要性,然后選擇重要性最高的新聞作為核心新聞。
圖2為本發(fā)明實(shí)施例提供的一種核心新聞的獲取方法的流程示意圖。
S201、獲取新聞簇中每個新聞的特征集合。
從新聞簇中每個新聞中提取出該新聞的特征集合,其中,特征集合中可以包括:新聞字?jǐn)?shù)、新聞關(guān)鍵詞覆蓋面、新聞閱讀量、新聞與新聞簇中其它新聞的語義相關(guān)性等多維特征。
S202、對每個特征集合中的各特征打分。
進(jìn)一步地,可以通過構(gòu)建好的機(jī)器學(xué)習(xí)的模型,然后將每個特征集合中各特征輸入到機(jī)器學(xué)習(xí)的模型進(jìn)行打分。
S203、將每個特征集合中的各特征打分后按照各特征對應(yīng)的權(quán)重進(jìn)行加權(quán),得到每個新聞的重要性。
本實(shí)施例中,預(yù)設(shè)可以為不同的特征設(shè)置一個權(quán)重,權(quán)重越大說明對應(yīng)的特征越重要。在獲取到每個特征集合中各特征的打分后,針對每個特征集合,可以將各特征的打分與各特征對應(yīng)的權(quán)重進(jìn)行加權(quán),然后得到每個特征集合的打分,進(jìn)而根據(jù)每個特征集合的打分,確定出每個特征集合對應(yīng)的新聞的重要性。新聞的重要性可以通過特征集合的打分進(jìn)行體現(xiàn)。特征集合的打分越高,說明對應(yīng)新聞越重要。
S204、選擇重要性最高的新聞作為核心新聞。
在獲取到新聞簇中每個新聞的重要性后,可以從所有的新聞中選擇重要性最高的新聞作為新聞事件的核心新聞。
S103、將新聞簇包括的所有新聞按照句子進(jìn)行拆分,獲取每兩個句子之間的語義相似度。
由于新聞事件的摘要是有多個句子構(gòu)成的,本實(shí)施例中,將同一新聞事件的新聞簇中所包括的所有新聞按照句子進(jìn)行拆分,然后可以獲取每兩個句子之間的語義相似度。本實(shí)施例中,可以基于至少一種語義相似度算法來計(jì)算兩個句子之間的中間語義相似度,然后將計(jì)算得到兩個句子之間的中間語義相似度進(jìn)行加權(quán),將加權(quán)后的結(jié)果作為兩個句子之間的語義相似度。本實(shí)施例中,通過多種語義相似度算法來計(jì)算兩個句子之間的語義相似度,通過加權(quán)處理后最終得到兩個句子的語義相似度可以提高計(jì)算精度,有利用從新聞中提取較為準(zhǔn)確的摘要。
可以采用基于詞法特征的語義相似度算法、基于語義特征的語義相似度算法和/或基于詞形特征算法的語義相似度算法,來計(jì)算兩個句子之間的中間語義相似度,然后將計(jì)算得到的所有中間語義相似度,各自與對應(yīng)算法的權(quán)重進(jìn)行加權(quán),得到兩個句子之間的語義相似度。再例如,可以采用詞頻-逆文檔率(term frequency–inverse document frequency,簡稱TF-IDF)和/或者Word2Vec(https://zh.wikipedia.org/wiki/Word2vec)得到的詞向量加權(quán)后得到句子向量,然后利用余弦相似度計(jì)算兩個句子之間的語義相似度。
S104、基于每兩個句子之間的語義相似度從核心新聞中選取重要句子。
實(shí)際應(yīng)用中,一個句子與其他句子之間的語義相似度越高,說明該句子在新聞事件的多篇新聞報(bào)道中出現(xiàn)的概率越大,說明該句子的重要程度越高,在獲取到每個句子與其他句子之間的語義相似度之后,可以確定出每個句子的重要程度,進(jìn)而可以根據(jù)句子的重要程度。進(jìn)一步地,根據(jù)每個句子的重要程度從核心新聞中選取出部分句子作為重要句子。
S105、按照重要句子在核心新聞中原文的順序進(jìn)行拼接,形成新聞事件的摘要。
本實(shí)施例中,首先從新聞簇中選取出核心新聞,然后在根據(jù)每兩個句子之間的語義相似度,確定出句子的重要程度,再根據(jù)句子的重要程度從核心新聞中選取重要句子,然后按照重要句子在核心新聞中原文的順序,將重要句子進(jìn)行拼接,形成新聞事件的摘要。由于將重要句子按照原文順序進(jìn)行拼接,使得形成的新聞事件的摘要,避免出現(xiàn)邏輯錯亂以及語義不同的問題。
本實(shí)施例提供的基于人工智能的新聞?wù)崛》椒?,基于新聞事件的關(guān)鍵詞檢索得到新聞事件的新聞簇,從新聞簇包括的所有新聞中獲取新聞事件的核心新聞,將新聞簇包括的所有新聞按照句子進(jìn)行拆分,獲取每兩個句子之間的語義相似度,基于每兩個句子之間的語義相似度從核心新聞中選取重要句子,按照重要句子在核心新聞中原文的順序進(jìn)行拼接,形成新聞事件的摘要。本實(shí)施例中,從同一新聞事件的所有新聞中選取核心新聞,再從核心新聞中按照句子的重要性選取出形成摘要的重要句子,并且按照原文順序進(jìn)行拼接,從而可以避免出現(xiàn)邏輯錯亂以及語義不同的問題。
圖3為本發(fā)明實(shí)施例提供的另一種基于人工智能的新聞?wù)崛》椒ǖ牧鞒淌疽鈭D。該基于人工智能的新聞?wù)崛》椒òㄒ韵虏襟E:
S301、基于新聞事件的關(guān)鍵詞檢索得到新聞事件的新聞簇。
S302、從新聞簇包括的所有新聞中獲取新聞事件的核心新聞。
S303、將新聞簇包括的所有新聞按照句子進(jìn)行拆分,獲取每兩個句子之間的語義相似度。
關(guān)于S301~303的介紹,可參見上述實(shí)施例中相關(guān)內(nèi)容的記載,此處不再贅述。
S304、以核心新聞中的一個句子為頂點(diǎn)節(jié)點(diǎn)構(gòu)建新聞簇的無向圖。
其中,無向圖中將新聞簇中的每個句子作為一個節(jié)點(diǎn),在每兩個句子之間形成連線。
本實(shí)施例中,在獲取到核心新聞后,可以以核心新聞為中心,為新聞簇構(gòu)建無向圖。具體地,將新聞簇中每個句子作為一個節(jié)點(diǎn),選擇核心新聞中一個句子為頂點(diǎn)節(jié)點(diǎn),然后建立該頂點(diǎn)節(jié)點(diǎn)與其他節(jié)點(diǎn)之間的連線,形成新聞簇的無向圖。
舉例說明,新聞簇中包括4篇報(bào)道,分別為報(bào)道1、報(bào)道2、報(bào)道3和報(bào)道4。其中,報(bào)道4確定為核心新聞。圖4為本發(fā)明實(shí)施例提供的一種新聞簇的示意圖。圖4中報(bào)道1為包括句子a、句子b和句子c;報(bào)道2為包括句子A、句子B和句子C;報(bào)道3為包括句子Ⅰ、句子Ⅱ和句子Ⅲ;報(bào)道4為包括句子1、句子2、句子3、句子4和句子5。圖4中選擇核心新聞即報(bào)道4中的句子1為頂點(diǎn)節(jié)點(diǎn),然后建立句子1與其他節(jié)點(diǎn)之間的連線。圖中形成的無向圖為新聞簇的全連接的無向圖,即新聞簇中所包括的所有的句子之間相互連接。
實(shí)際應(yīng)用中,一個句子可能同時(shí)出現(xiàn)在多篇新聞報(bào)道中,也可能同時(shí)出現(xiàn)在一篇新聞報(bào)道中,如圖4所示,核心新聞即報(bào)道4中的句子1同時(shí)出現(xiàn)在報(bào)道1、報(bào)道2和報(bào)道3中。圖4中通過虛線圈標(biāo)記句子1,以及與句子1相同的其他報(bào)道中的句子,即報(bào)道4中的句子3、報(bào)道1中的句子c、報(bào)道2中的句子B,報(bào)道3中的句子Ⅰ為與句子1相同的句子。
S305、利用每兩個句子之間的語義相似度形成帶權(quán)的無向圖。
具體地,在獲取到新聞簇的無向圖后,需要利用獲取到兩個句子之間語義相似度作為無向圖中兩個句子之間的連線上的邊權(quán),形成帶權(quán)的無向圖。帶權(quán)的無向圖中每條連線上有邊權(quán),該邊權(quán)為該連線連接的兩個句子的語義相似度。圖4中僅一條連線為示例,在該連線上標(biāo)記有邊權(quán)wi。示例的連線為句子C與句子3之間的連線,這該連線上的邊權(quán)wi為句子C與句子3之間的語義相似度。
S306、基于帶權(quán)的無向圖從核心新聞中選取出重要句子。
圖5為本發(fā)明實(shí)施例提供的一種基于帶權(quán)的無向圖從核心新聞中選取重要句子的流程示意圖。所述基于帶權(quán)的無向圖從核心新聞中選取重要句子具體包括以下步驟:
S401、從帶權(quán)的無向圖中,獲取每個句子的與其直接相連的其他句子之間所有連線上的邊權(quán)。
當(dāng)利用句子之間的語義相似度對無向圖的邊標(biāo)記權(quán)重后,就可以獲取到帶權(quán)的無向圖。本實(shí)施例中,可以基于獲取到的帶權(quán)的無向圖,獲取到每個句子的與其直接相連的其他句子之間所有連線上的邊權(quán),也就是說,針對每個句子,可以獲取與該句子直接相連的各條連線上的邊權(quán)。在圖4的基礎(chǔ)上,以句子a為例進(jìn)行解釋說明。其他句子均與句子a直接相連,則句子a的所有連線上的邊權(quán),即句子a與其他各句子之間的語義相似度。
S402、對每個句子的所有連線上的邊權(quán)進(jìn)行相加,得到該句子的重要程度。
進(jìn)一步地,可以對每個句子的所有連線上的邊權(quán)進(jìn)行相加,然后利用相加后的結(jié)果來表征該句子的重要程度。
S403、對新聞簇中所有句子的重要程度進(jìn)行排序。
進(jìn)一步地,在獲取到每個句子的重要程度后,就可以按照重要程度對新聞簇中所有句子進(jìn)行排序。
S404、從所有句子中選擇出重要程度超過預(yù)設(shè)的閾值的句子作為候選句子。
本實(shí)施例中,可以預(yù)先設(shè)置一個閾值,在對所有句子進(jìn)行排序后,可以從所有句子中選出重要程度超出預(yù)設(shè)的閾值的句子,將選出的重要程度超出預(yù)設(shè)的閾值的句子作為候選句子。
S405、從候選句子中選擇來源于核心新聞的句子作為重要句子。
進(jìn)一步地,候選句子可能包括新聞簇中所有新聞中的句子,為了避免形成的摘要出現(xiàn)邏輯混亂或者語義不同的問題,本實(shí)施例中,從候選句子中選擇來源于核心新聞中的句子作為用于形成摘要的重要句子。具體地,每個句子中可以包括一個標(biāo)識,通過該標(biāo)識可以得知該句子的來源。在識別出每個候選句子的來源后,可以從候選句子中選擇來源于核心新聞的句子,作為形成摘要的重要句子。
在圖4的基礎(chǔ)之上,當(dāng)一個候選句子為句子B時(shí),該句子B中可以攜帶一個報(bào)道2的標(biāo)識,該表示可以為報(bào)道的網(wǎng)址,或者標(biāo)題名稱或者發(fā)布門戶等。當(dāng)識別出該候選句子B來源于報(bào)道2后,則選擇重要句子時(shí)屏蔽掉句子B。
本實(shí)施例中,為了避免出現(xiàn)摘要邏輯混亂或者語義不同的問題,首先從新聞簇中確定出了核心新聞,然后從核心新聞中選擇出重要句子形成摘要,因此可以只計(jì)算核心新聞中每個句子的重要程度,然后按照重要程度來選擇重要句子。圖6為本發(fā)明實(shí)施例提供的另一種基于帶權(quán)的無向圖從核心新聞中選取重要句子的流程示意圖。所述基于帶權(quán)的無向圖從核心新聞中選取重要句子具體包括以下步驟:
S501、從帶權(quán)的無向圖中,獲取核心新聞中每個句子的與其直接相連的其他句子之間所有連線上的邊權(quán)。
具體地,在利用句子之間的語義相似度獲取到帶權(quán)的無向圖后,可以從帶權(quán)的無向圖中,獲取到核心新聞中每個句子的與其直接相連的其他句子之間所有連線上的邊權(quán),也就是說,針核心新聞中對每個句子,可以獲取與該句子直接相連的各條連線上的邊權(quán)。在圖4的基礎(chǔ)上,以句子1為例進(jìn)行解釋說明。其他句子均與句子1直接相連,則句子1的所有連線上的邊權(quán),即句子1與其他各句子之間的語義相似度。
S502、將核心新聞中每個句子的所有連線上的邊權(quán)進(jìn)行相加,得到該句子的重要程度。
進(jìn)一步地,可以對核心新聞中每個句子的所有連線上的邊權(quán)進(jìn)行相加,然后利用相加后的結(jié)果來表征該句子的重要程度。
S503、對核心新聞中所有句子按照重要程度進(jìn)行排序。
進(jìn)一步地,在獲取到核心新聞中每個句子的重要程度后,就可以按照重要程度對核心新聞中所有句子進(jìn)行排序。本實(shí)施例中,由于在形成摘要時(shí),僅從核心新聞中提取重要的句子,在得到帶權(quán)的無向圖后,只計(jì)算核心新聞中每個句子的重要程度,能夠降低運(yùn)算量,提高提取摘要的效率。
S504、從核心新聞所有句子中選擇出重要程度超過預(yù)設(shè)的閾值的句子作為重要句子。
本實(shí)施例中,可以預(yù)先設(shè)置一個閾值,在對核心新聞所有句子,按照重要程度進(jìn)行排序后,可以從所有句子中選出重要程度超出預(yù)設(shè)的閾值的句子,將選出的重要程度超出預(yù)設(shè)的閾值的句子作為重要句子。
圖7為本發(fā)明實(shí)施例提供的一種從核心新聞中選取出重要句子示意圖。圖7中為從新聞簇中,按照圖5和圖6所提供的方法,所有核心新聞中選取出的重要句子,圖7中句子2、句子3和句子5為從核心新聞中選取出來的重要句子。圖7中省略了新聞簇的無向圖。
S307、按照重要句子在核心新聞中原文的順序進(jìn)行拼接,形成新聞事件的摘要。
一般情況下,按照重要程度排序后的重要句子的順序,與在核心新聞中原文的順序不一致,為了保證邏輯的順暢,本實(shí)施例中,按照重要句子在核心新聞中原文的順序進(jìn)行拼接,然后形成新聞事件的摘要。例如,圖7中重要句子按照重要程度排序后的順序?yàn)榫渥?、句子5和句子2,然而重要句子在核心新聞原文順序?yàn)榫渥?、句子3和句子5。當(dāng)獲取到重要句子后如果按照重要程度排序,直接將句子進(jìn)行拼接,形成的摘要可能就會出現(xiàn)邏輯混亂的問題。為了避免上述問題,在獲取到重要句子后,則按照重要句子在核心新聞原文中的順序進(jìn)拼接。
本實(shí)施例提供的基于人工智能的新聞?wù)崛》椒?,基于新聞事件的關(guān)鍵詞檢索得到新聞事件的新聞簇,從新聞簇包括的所有新聞中獲取新聞事件的核心新聞,將新聞簇包括的所有新聞按照句子進(jìn)行拆分,獲取每兩個句子之間的語義相似度,基于每兩個句子之間的語義相似度從核心新聞中選取重要句子,按照重要句子在核心新聞中原文的順序進(jìn)行拼接,形成新聞事件的摘要。本實(shí)施例中,從同一新聞事件的所有新聞中選取核心新聞,再從核心新聞中按照句子的重要性選取出形成摘要的重要句子,并且按照原文順序進(jìn)行拼接,從而可以避免出現(xiàn)邏輯錯亂以及語義不同的問題。
圖8為本發(fā)明實(shí)施例提供的一種基于人工智能的新聞?wù)崛⊙b置的結(jié)構(gòu)示意圖。該基于人工智能的新聞?wù)崛⊙b置包括:檢索模塊11、獲取模塊12、相似度獲取模塊13、選取模塊14和拼接模塊15。
其中,檢索模塊11,用于基于新聞事件的關(guān)鍵詞檢索得到所述新聞事件的新聞簇。
獲取模塊12,用于從所述新聞簇包括的所有新聞中獲取所述新聞事件的核心新聞。
相似度獲取模塊13,用于將所述新聞簇包括的所有新聞按照句子進(jìn)行拆分,獲取每兩個句子之間的語義相似度。
選取模塊14,用于基于每兩個句子之間的所述語義相似度從所述核心新聞中選取重要句子。
拼接模塊15,用于按照所述重要句子在所述核心新聞中原文的順序進(jìn)行拼接,形成所述新聞事件的摘要。
圖9為本發(fā)明實(shí)施例提供的一種獲取模塊的結(jié)構(gòu)示意圖。獲取模塊12包括:第一獲取單元121、第二獲取單元122和新聞選擇單元123。
其中,第一獲取單元121,用于獲取所述新聞簇中每個新聞的特征集合。
第二獲取單元122,用于根據(jù)所述特征集合得到每個新聞的重要性。
新聞選擇單元123,用于選擇重要性最高的新聞作為所述核心新聞。
進(jìn)一步地,第二獲取單元122,具體用于對每個特征集合中的各特征打分,將每個特征集合中的各特征打分后按照各特征對應(yīng)的權(quán)重進(jìn)行加權(quán),得到每個新聞的重要性。
進(jìn)一步地,相似度獲取模塊13,具體用于按照至少一種語義相似度算法計(jì)算每個句子與其他句子之間的中間語義相似度,對得到的所述中間語義相似度進(jìn)行加權(quán),得到每個句子與所述其他句子之間的所述語義相似度。
圖10為本發(fā)明實(shí)施例提供的一種選取模塊的結(jié)構(gòu)示意圖。選取模塊14包括:構(gòu)建單元141、形成單元142和句子選取單元143。
構(gòu)建單元141,用于以所述核心新聞中的一個句子為頂點(diǎn)節(jié)點(diǎn)構(gòu)建所述新聞簇的無向圖;所述無向圖中將所述新聞簇中的每個句子作為一個節(jié)點(diǎn),在每兩個句子之間形成連線。
形成單元142,用于利用每兩個句子之間的所述語義相似度形成帶權(quán)的所述無向圖。
句子選取單元143,用于基于帶權(quán)的所述無向圖從所述核心新聞中選取重要句子。
進(jìn)一步地,形成單元142,具體用于利用兩個句子之間的所述語義相似度作為所述無向圖中兩個句子之間的連線上的邊權(quán),形成帶權(quán)的所述無向圖。
進(jìn)一步地,句子選取單元143,具體用于:
從帶權(quán)的所述無向圖中,獲取每個句子的與其直接相連的其他句子之間所有連線上的邊權(quán);
對每個句子的所有連線上的邊權(quán)進(jìn)行相加,得到該句子的重要程度;
對所述新聞簇中所有句子按照重要程度進(jìn)行排序;
從所有句子中選擇出重要程度超過預(yù)設(shè)的閾值的句子作為候選句子;
從所述候選句子中選擇來源于所述核心新聞的句子作為所述重要句子。
進(jìn)一步地,句子選取單元143,具體用于:
從帶權(quán)的所述無向圖中,獲取所述核心新聞中每個句子的與其直接相連的其他句子之間所有連線上的邊權(quán);
將所述核心新聞中每個句子的所有連線上的邊權(quán)進(jìn)行相加,得到該句子的重要程度;
對所述核心新聞中所有句子按照重要程度進(jìn)行排序;
從所述核心新聞中所有句子中選擇出重要程度超過預(yù)設(shè)的閾值的句子作為所述重要句子。
本實(shí)施例提供的基于人工智能的新聞?wù)崛⊙b置,基于新聞事件的關(guān)鍵詞檢索得到新聞事件的新聞簇,從新聞簇包括的所有新聞中獲取新聞事件的核心新聞,將新聞簇包括的所有新聞按照句子進(jìn)行拆分,獲取每兩個句子之間的語義相似度,基于每兩個句子之間的語義相似度從核心新聞中選取重要句子,按照重要句子在核心新聞中原文的順序進(jìn)行拼接,形成新聞事件的摘要。本實(shí)施例中,從同一新聞事件的所有新聞中選取核心新聞,再從核心新聞中按照句子的重要性選取出形成摘要的重要句子,并且按照原文順序進(jìn)行拼接,從而可以避免出現(xiàn)邏輯錯亂以及語義不同的問題。
圖11為本發(fā)明實(shí)施例提供的另一種基于人工智能的新聞?wù)崛⊙b置的結(jié)構(gòu)示意圖。該基于人工智能的新聞?wù)崛⊙b置包括:
存儲器21、處理器22及存儲在存儲器21上并可在處理器22上運(yùn)行的計(jì)算機(jī)程序。
處理器22執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述實(shí)施例中提供的基于人工智能的新聞?wù)崛》椒ā?/p>
進(jìn)一步地,基于人工智能的新聞?wù)崛⊙b置還包括:
通信接口23,用于存儲器21和處理器22之間的通信。
存儲器21,用于存放可在處理器22上運(yùn)行的計(jì)算機(jī)程序。
存儲器21可能包含高速RAM存儲器,也可能還包括非易失性存儲器(non-volatile memory),例如至少一個磁盤存儲器。
處理器22,用于執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述實(shí)施例所述的基于人工智能的語音特征提取方法。
如果存儲器21、處理器22和通信接口23獨(dú)立實(shí)現(xiàn),則通信接口21、存儲器21和處理器22可以通過總線相互連接并完成相互間的通信。所述總線可以是工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(Industry Standard Architecture,簡稱為ISA)總線、外部設(shè)備互連(Peripheral Component,簡稱為PCI)總線或擴(kuò)展工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(Extended Industry Standard Architecture,簡稱為EISA)總線等。所述總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖11中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
可選的,在具體實(shí)現(xiàn)上,如果存儲器21、處理器22及通信接口23,集成在一塊芯片上實(shí)現(xiàn),則存儲器21、處理器22及通信接口23可以通過內(nèi)部接口完成相互間的通信。
處理器22可能是一個中央處理器(Central Processing Unit,簡稱為CPU),或者是特定集成電路(Application Specific Integrated Circuit,簡稱為ASIC),或者是被配置成實(shí)施本發(fā)明實(shí)施例的一個或多個集成電路。
在本說明書的描述中,參考術(shù)語“一個實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個或多個實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。
此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實(shí)現(xiàn)定制邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說明書而言,"計(jì)算機(jī)可讀介質(zhì)"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計(jì)算機(jī)盤盒(磁裝置),隨機(jī)存取存儲器(RAM),只讀存儲器(ROM),可擦除可編輯只讀存儲器(EPROM或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(CDROM)。另外,計(jì)算機(jī)可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因?yàn)榭梢岳缤ㄟ^對紙或其他介質(zhì)進(jìn)行光學(xué)掃描,接著進(jìn)行編輯、解譯或必要時(shí)以其他合適方式進(jìn)行處理來以電子方式獲得所述程序,然后將其存儲在計(jì)算機(jī)存儲器中。
應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。如,如果用硬件來實(shí)現(xiàn)和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對數(shù)據(jù)信號實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計(jì)算機(jī)可讀存儲介質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。
此外,在本發(fā)明各個實(shí)施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲在一個計(jì)算機(jī)可讀取存儲介質(zhì)中。
上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。