亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于本體模型庫(kù)的新聞推薦方法及裝置的制造方法

文檔序號(hào):10724891閱讀:350來(lái)源:國(guó)知局
一種基于本體模型庫(kù)的新聞推薦方法及裝置的制造方法
【專利摘要】本發(fā)明提供了一種基于本體庫(kù)和知識(shí)圖譜的新聞推薦方法及裝置。所述方法包括以下步驟:(1)預(yù)處理,包括斷句、分詞、詞性標(biāo)注等;(2)新聞本體識(shí)別,對(duì)輸入新聞文本中的新聞本體信息進(jìn)行識(shí)別;(3)關(guān)鍵信息挖掘,結(jié)合識(shí)別出來(lái)的新聞本體信息對(duì)輸入新聞篇章中的關(guān)鍵信息(關(guān)鍵詞、關(guān)鍵本體等)進(jìn)行挖掘;(4)屬性獲取,基于前面步驟獲取的信息,查詢知識(shí)圖譜獲取知識(shí)點(diǎn)屬性信息,并根據(jù)知識(shí)圖譜關(guān)系進(jìn)行拓展,進(jìn)一步挖掘?qū)傩孕畔ⅲ?5)維度生成,基于前面步驟獲得的信息(本體、關(guān)鍵詞、屬性等)生成推薦維度;(6)推薦知識(shí)召回,基于推薦維度,在新聞文檔庫(kù)以及知識(shí)庫(kù)中進(jìn)行推薦知識(shí)的獲取。
【專利說(shuō)明】
一種基于本體模型庫(kù)的新聞推薦方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及自然語(yǔ)言處理、智能推薦技術(shù)領(lǐng)域,尤其涉及一種基于新聞本體知識(shí) 庫(kù)以及知識(shí)圖譜的智能新聞推薦方法及其裝置。
【背景技術(shù)】
[0002] 在互聯(lián)網(wǎng)時(shí)代,特別是剛剛興起的移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)時(shí)代,新聞推薦是新聞閱讀 服務(wù)中一個(gè)關(guān)鍵功能,對(duì)提升用戶體驗(yàn),增加用戶粘性具有極大作用。
[0003] 現(xiàn)有技術(shù)中新聞推薦技術(shù)一般有兩種。
[0004] -種是基于內(nèi)容的推薦技術(shù),主要基于詞袋的向量空間模型實(shí)現(xiàn)文檔相似度衡 量。另外一種是基于用戶行為的協(xié)同過(guò)濾技術(shù),主要是基于用戶歷史行為數(shù)據(jù),進(jìn)行潛在用 戶感興趣新聞的預(yù)測(cè)。
[0005] 現(xiàn)有技術(shù)的問(wèn)題在于: 一、 基于內(nèi)容推薦的技術(shù),只基于關(guān)鍵詞信息,無(wú)法發(fā)現(xiàn)深層語(yǔ)義的相似度。對(duì)語(yǔ)言中 的一詞多義、一義多詞現(xiàn)象無(wú)法進(jìn)行很好的建模; 二、 基于內(nèi)容推薦技術(shù),所推薦的所有文檔是基于一個(gè)統(tǒng)一相似度衡量方法獲取的 (如,一般取Top 10)。推薦文檔和原文以及推薦文檔之間都存在極大的相似性,甚至都是不 同來(lái)源的互相轉(zhuǎn)載,對(duì)用戶不能帶來(lái)有效信息增益; 三、 基于用戶行為的協(xié)同過(guò)濾技術(shù),也存在上述兩項(xiàng)問(wèn)題。另外,還存在冷啟動(dòng)的問(wèn)題。 因?yàn)檫@種技術(shù)方案需要基于用戶的歷史行為進(jìn)行訓(xùn)練建模。對(duì)于沒(méi)有用戶行為數(shù)據(jù)的場(chǎng) 景,難以有效開(kāi)展。
[0006] 現(xiàn)有技術(shù)(包含上述兩種)難以解決推薦深度以及廣度的問(wèn)題。推薦深度指對(duì)輸入 新聞文檔,無(wú)法獲取其背景知識(shí)以及關(guān)聯(lián)因果信息。推薦廣度是指對(duì)于輸入文檔,無(wú)法對(duì)橫 向相關(guān)的新聞或者知識(shí)進(jìn)行推薦(比如,巴黎暴恐?jǐn)U展到中國(guó)的類似事件)。而推薦深度以 及推薦廣度,對(duì)于專業(yè)的新聞從業(yè)者(如編輯、記者等)尤為重要。他們?cè)谌粘9ぷ髦行枰?工耗費(fèi)大量時(shí)間精力對(duì)深度、廣度的關(guān)聯(lián)信息知識(shí)進(jìn)行搜集挖掘,也造成了這類工作對(duì)從 業(yè)者經(jīng)驗(yàn)積累以及知識(shí)廣博程度的高要求,使得新聞從業(yè)成本較高。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明要解決的技術(shù)問(wèn)題是如何對(duì)輸入一篇或多篇新聞文檔,自動(dòng)推薦出維度豐 富的,同時(shí)具備一定深度和廣度的相關(guān)的文檔或者知識(shí)。
[0008] 所述方法包括以下步驟:(1)預(yù)處理,包括斷句、分詞、詞性標(biāo)注等;(2)新聞本體識(shí) 另IJ,對(duì)輸入新聞文本中的新聞本體信息進(jìn)行識(shí)別;(3)關(guān)鍵信息挖掘,結(jié)合識(shí)別出來(lái)的新聞 本體信息對(duì)輸入新聞篇章中的關(guān)鍵信息(關(guān)鍵詞、關(guān)鍵本體等)進(jìn)行挖掘;(4)屬性獲取,基 于前面步驟獲取的信息,查詢知識(shí)圖譜獲取知識(shí)點(diǎn)屬性信息,并根據(jù)知識(shí)圖譜關(guān)系進(jìn)行拓 展發(fā)現(xiàn),進(jìn)一步挖掘?qū)傩孕畔?;?)維度生成,基于前面步驟獲得的信息(本體、關(guān)鍵詞、屬性 等)生成推薦維度;(6)推薦知識(shí)召回,基于推薦維度,在新聞文檔庫(kù)以及知識(shí)庫(kù)中進(jìn)行推薦 知識(shí)的獲取。
[0009] 所述裝置包括以下幾個(gè)單元:(1)預(yù)處理單元,實(shí)現(xiàn)輸入文本的斷句、分詞、詞性 標(biāo)注等;(2)新聞本體識(shí)別單元,實(shí)現(xiàn)輸入新聞文本中的新聞本體信息識(shí)別過(guò)程;(3)關(guān)鍵信 息挖掘單元,實(shí)現(xiàn)新聞篇章中的關(guān)鍵信息(關(guān)鍵詞、關(guān)鍵本體等)的自動(dòng)挖掘;(4)屬性獲取 單元,實(shí)現(xiàn)知識(shí)圖譜查詢以及基于知識(shí)圖譜關(guān)系的知識(shí)拓展,獲取相關(guān)屬性信息;(5)維度 生成單元,實(shí)現(xiàn)推薦維度的生成,主要是基于前繼單元的輸出信息(本體、關(guān)鍵詞、屬性等) 進(jìn)行優(yōu)化組合,以生成推薦維度;(6)推薦知識(shí)召回單元,實(shí)現(xiàn)基于前繼單元輸出的推薦維 度,在新聞文檔庫(kù)以及知識(shí)庫(kù)中進(jìn)行推薦知識(shí)的獲取。
[0010] 本發(fā)明實(shí)施例提供的基于新聞本體庫(kù)以及知識(shí)圖譜的智能新聞推薦方法及裝置, 通過(guò)新聞本體識(shí)別以及基于知識(shí)圖譜的屬性挖掘,可以脫離輸入文本字詞限制,獲得在廣 度和深度上非常豐富的關(guān)聯(lián)信息;通過(guò)這些關(guān)聯(lián)信息,再基于維度生成算法,在文檔集以及 知識(shí)圖譜中進(jìn)行相關(guān)文檔以及知識(shí)點(diǎn)的召回,可以獲得具有更大廣度和深度的信息。使大 眾用戶能享受到內(nèi)容廣泛、關(guān)聯(lián)深入且有知識(shí)含量的信息服務(wù),特別地,對(duì)新聞專業(yè)從業(yè)人 士來(lái)講,可以極大地提高其工作效率,提升其業(yè)務(wù)產(chǎn)出水平。
【附圖說(shuō)明】
[0011] 圖1是一種基于本體模型庫(kù)的新聞推薦方法流程圖;
[0012] 圖2是新聞本體庫(kù)示意圖;
[0013]圖3是新聞本體發(fā)現(xiàn)流程圖;
[0014]圖4是一種新聞知識(shí)圖譜示意圖;
[0015] 圖5是一種基于本體模型庫(kù)的新聞推薦裝置框架圖;
[0016] 圖6是一種新聞知識(shí)圖譜屬性拓展示意圖。
【具體實(shí)施方式】
[0017] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照 附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。
[0018] 圖1是本發(fā)明提出的智能新聞推薦方法的示意圖。
[0019] 如圖1所示的智能新聞推薦方法100的輸入是新聞文檔111,可以是一篇也可以是 多篇。這里所說(shuō)的"新聞文檔"泛指各種媒體刊發(fā)的新聞文本,具體格式可以是網(wǎng)頁(yè)形式,也 可以是純文本形式或者其他任何半結(jié)構(gòu)的格式(如xml格式)。
[0020] 步驟S120,對(duì)新聞文檔111進(jìn)行預(yù)處理,包括斷句處理、分詞、詞性標(biāo)注。斷句處理 是把文本111以句號(hào)斷開(kāi),分成多個(gè)句子進(jìn)行后續(xù)處理。分詞、詞性標(biāo)注把中文文本進(jìn)行詞 語(yǔ)切分處理,并給每個(gè)詞語(yǔ)標(biāo)注上其對(duì)應(yīng)的詞性,詞性包括名詞、動(dòng)詞等。
[0021] 步驟S121,對(duì)預(yù)處理后的文本111,進(jìn)行本體識(shí)別,這里的"本體"指的是文本中涉 及到的新聞?lì)I(lǐng)域內(nèi)的概念。比如"新聞主題"、"新聞地域"、"新聞事件"等。而且這些本體具 有層次性。
[0022]圖2是新聞本體庫(kù)示意圖。
[0023]如圖2所示,新聞本體知識(shí)庫(kù)的第一層子節(jié)點(diǎn)包含"新聞主題"、"新聞地域"、"新聞 事件"、"新聞人物"、"其他"等。其中每個(gè)子節(jié)點(diǎn)又是一顆子樹。篇幅所限,圖2只是局部示 意圖。舉例來(lái)說(shuō),"新聞事件"又可以分為"延緩性事件"、"突發(fā)性事件"、"其他事件"等等。其 中,"突發(fā)事件"又可以進(jìn)一步分層細(xì)分。比如在本例中可以細(xì)分到"新聞事件-> 突發(fā)事件-> 突發(fā)公共安全事件-> 社會(huì)安全事件-> 恐怖襲擊-> 槍擊事件"。
[0024] 每個(gè)本體節(jié)點(diǎn)都對(duì)應(yīng)一組屬性定義,用于描述這一本體對(duì)應(yīng)的新聞概念在新聞報(bào) 道時(shí)所關(guān)注的要點(diǎn)。在圖2中,用一組橢圓形表示節(jié)點(diǎn)對(duì)應(yīng)的屬性。比如,"恐怖襲擊"這個(gè)本 體點(diǎn)的屬性在本實(shí)施例中為("襲擊者","受襲者","時(shí)間","地點(diǎn)")。在其他具體實(shí)施中,可 以根據(jù)實(shí)施例的應(yīng)用需求進(jìn)行定制。
[0025] 本體子節(jié)點(diǎn)默認(rèn)繼承本體父節(jié)點(diǎn)的屬性,也可以根據(jù)具體實(shí)施需求進(jìn)行增加、刪 除、修改。
[0026] 圖3是新聞本體識(shí)別流程圖。
[0027] 如圖3所示的新聞本體識(shí)別方法300,能經(jīng)過(guò)預(yù)處理S120的分詞與詞性標(biāo)注結(jié)果進(jìn) 行本體識(shí)別。
[0028]步驟S311,對(duì)每個(gè)詞匯進(jìn)行同義擴(kuò)展,利用同義詞表發(fā)現(xiàn)同義詞。比如"京城"是 "北京"的同義,"遺失"是"丟失"的同義。
[0029] 步驟S312,進(jìn)行最底層本體發(fā)現(xiàn)。利用詞匯的上下文發(fā)現(xiàn)用一種表達(dá)方式或一句 話表示的復(fù)雜概念。比如"*個(gè)小時(shí)之內(nèi)、兩天"是時(shí)間概念,"等了兩天了"是"未及時(shí)"概念。 這個(gè)發(fā)現(xiàn)過(guò)程基于底層本體知識(shí)庫(kù)支持,用正則表達(dá)式來(lái)進(jìn)行模式匹配。常用模式由人工 總結(jié),也可以輔以機(jī)器自動(dòng)發(fā)現(xiàn)技術(shù),但此項(xiàng)技術(shù)不是本發(fā)明重點(diǎn),不做展開(kāi)。
[0030] 步驟S313,進(jìn)行本體上溯,將上層本體進(jìn)行召回。如,對(duì)于上述步驟發(fā)現(xiàn)的最底層 本體"冷辦貧害',可以召回"冷辦貧害_>突發(fā)公共事件_>突發(fā)事件_>新聞事件"這個(gè)本體樹 路徑。
[0031] 另外,每個(gè)本體節(jié)點(diǎn),都相應(yīng)有屬性的定義。比如對(duì)于"自然災(zāi)難"這一本體點(diǎn),對(duì) 應(yīng)屬性有"發(fā)生日期","發(fā)生地點(diǎn)","成因","災(zāi)情規(guī)模","善后救援","上級(jí)指示","后期影 響"等。
[0032] 步驟S122,對(duì)本體識(shí)別后的文本進(jìn)行關(guān)鍵信息挖掘。所述的關(guān)鍵信息包含關(guān)鍵 詞、關(guān)鍵本體。關(guān)鍵詞來(lái)自輸入文本中出現(xiàn)的詞匯,關(guān)鍵本體來(lái)自S121步驟獲得的本體信 息。關(guān)鍵詞挖掘(有的文獻(xiàn)稱之為關(guān)鍵詞抽取,英文為keyword extract ion)的經(jīng)典方法如
:t表示當(dāng)前考慮被打分的詞匯,d表示當(dāng)前考慮的文檔,η表示在整體文檔集中包含t的 文檔數(shù),N表示整體文檔集的文檔數(shù)。在本發(fā)明中的具體實(shí)施例中,對(duì)此算法進(jìn)行了優(yōu)化,考 慮了本體的信息。
其中,s和|為權(quán)重參數(shù),用來(lái)調(diào)整原始詞匯TFIDF信息和本體TFIDF信息之間的重要 性,優(yōu)選地,均為0.5。0(〇是t所有對(duì)應(yīng)的本體A表示1和〇之間相差的層級(jí)數(shù)。采用階乘倒 數(shù)作為加權(quán)的形式來(lái)確保隨著本體的抽象程度升高其影響度下降。
[0034]假設(shè)本實(shí)施例的輸入新聞文本中包含一個(gè)詞匯t為"巴黎恐怖襲擊",而它在本體 識(shí)別階段識(shí)別得到本體信息為新傾事#->突發(fā)##->突發(fā)公炎安全安全# #-λ恐蔽襲志->松志事# ",那么"槍擊事件"這個(gè)本體對(duì)t的權(quán)重增量為rvr>"/」7Fi7F r襝志事#"人而"恐怖襲擊"這個(gè)本體對(duì)t的權(quán)重增量為rvr>w/」77^F「惣筱襲志"h 本實(shí)施例所提的優(yōu)化方法可以通過(guò)綜合本體的信息,來(lái)解決多詞同義導(dǎo)致的統(tǒng)計(jì)量分 散的問(wèn)題,也可以從一定程度上考慮相同或者相近語(yǔ)義詞匯的互相增益,以挖掘出更加合 理的關(guān)鍵信息。
[0035] 關(guān)鍵本體的挖掘與關(guān)鍵詞的挖掘類似,只不過(guò),關(guān)鍵本體的挖掘只考慮其上層本 體對(duì)其的影響,而不需要考慮具體詞匯的影響。
[0036]本步驟也可以使用TextRank等其他關(guān)鍵詞挖掘方法,并且可以類似地進(jìn)行結(jié)合本 體知識(shí)的優(yōu)化。
[0037]步驟S123,根據(jù)前面步驟獲得的信息,基于新聞知識(shí)圖譜進(jìn)行屬性的獲取。所述前 面步驟獲得的信息包含輸入文本中包含的詞匯、識(shí)別出來(lái)的本體以及挖掘出來(lái)的關(guān)鍵信 息。優(yōu)選地,利用挖掘出來(lái)的關(guān)鍵信息(關(guān)鍵詞以及關(guān)鍵本體)在新聞本體知識(shí)圖譜中進(jìn)行 查詢,找到對(duì)應(yīng)的知識(shí)卡片,獲取其中的屬性信息。
[0038]圖4是新聞知識(shí)圖譜示意圖。
[0039]所述的新聞知識(shí)圖譜采用通用的RDF三元組(實(shí)體1,關(guān)系,實(shí)體2)進(jìn)行描述,但其 是根據(jù)新聞?lì)I(lǐng)域的專業(yè)特性進(jìn)行描述的。三元組中的實(shí)體可以是名實(shí)體(如人名、地名、機(jī) 構(gòu)名等),也可以是新聞事件。
[0040] 知識(shí)表示按照?qǐng)D2所示的新聞本體庫(kù)定義的模式(層次以及屬性列表)進(jìn)行。假設(shè) 輸入文本在前面步驟可以獲得"巴黎","槍擊事件","ISIS","法國(guó)"等相關(guān)信息,把這些信 息作為查詢,可以在知識(shí)圖譜中找到對(duì)應(yīng)的實(shí)體。
[0041] 每個(gè)實(shí)體對(duì)應(yīng)有屬性值。然后根據(jù)這些屬性值以及結(jié)合實(shí)體與實(shí)體之間的關(guān)系, 繼續(xù)在知識(shí)圖譜中進(jìn)行進(jìn)一步查詢,可以召回更多實(shí)體,進(jìn)而獲得更多的屬性信息。這一過(guò) 程簡(jiǎn)稱為屬性拓展過(guò)程。圖6演示了一個(gè)屬性拓展的過(guò)程。
[0042] 步驟S124,根據(jù)前面步驟獲取的信息,進(jìn)行推薦維度的生成。所述推薦維度指文檔 的類別或者標(biāo)簽。比如"中國(guó)+恐怖襲擊事件"這一維度代表在中國(guó)范圍內(nèi)發(fā)生的恐怖襲擊 事件的相關(guān)信息。
[0043] 而其中的"中國(guó)","恐怖襲擊事件"就是在前面步驟獲得的信息。推薦維度的生成 主要是一個(gè)信息項(xiàng)組合優(yōu)選的過(guò)程。
[0044] 優(yōu)選地,本步驟的輸入信息包含從輸入文本中獲取的關(guān)鍵詞、關(guān)鍵本體、屬性等信 息項(xiàng)。輸出的維度即是這些信息項(xiàng)的組合。優(yōu)選地,維度生成遵循以下指導(dǎo)原則: 1) 名實(shí)體性的信息項(xiàng),如人物名,可以單獨(dú)作為一個(gè)維度; 2) 組合項(xiàng)越多,分?jǐn)?shù)越高。比如"中國(guó)+恐怖襲擊"優(yōu)于"恐怖襲擊"; 3) 異質(zhì)信息項(xiàng)組合,分?jǐn)?shù)越高。比如"新三板+體育產(chǎn)業(yè)"優(yōu)于"新三板+增發(fā)"; 4) 結(jié)合前面步驟中對(duì)于關(guān)鍵信息的評(píng)分。
[0045] 本實(shí)施例維度生成過(guò)程就是一個(gè)在所有信息項(xiàng)進(jìn)行組合的過(guò)程,為了防止組合過(guò) 多,采用棧搜索策略進(jìn)行剪枝。只保留得分最高的k個(gè)維度。優(yōu)選地,k設(shè)定為5。
[0046]步驟S125,根據(jù)S124生成的若干推薦維度,分別在整體新聞文檔中進(jìn)行檢索,召 回相關(guān)文檔,形成各個(gè)維度對(duì)應(yīng)的推薦信息。優(yōu)選地,還可以根據(jù)生成維度中的單維度信息 在新聞知識(shí)圖譜中進(jìn)行知識(shí)點(diǎn)的檢索召回。
[0047]圖5是智能新聞推薦裝置示意圖。
[0048]智能新聞推薦裝置500包括4個(gè)處理單元以及一個(gè)建模單元。
[0049] 建模單元510,負(fù)責(zé)整個(gè)裝置所需要的新聞本體庫(kù)、新聞知識(shí)圖譜的管理,用戶可 以由此單元對(duì)新聞本體庫(kù)、新聞知識(shí)圖譜進(jìn)行增加、刪除、修改等操作。
[0050] 預(yù)處理單元521,負(fù)責(zé)提供分詞、詞性標(biāo)注等預(yù)處理功能。對(duì)非結(jié)構(gòu)化文本111進(jìn)行 預(yù)處理,包括斷句處理、分詞、詞性標(biāo)注。斷句處理是把文本111以句號(hào)斷開(kāi),分成多個(gè)句子 進(jìn)行后續(xù)處理。分詞、詞性標(biāo)注把中文文本進(jìn)行詞語(yǔ)切分處理,并給每個(gè)詞語(yǔ)標(biāo)注上其對(duì)應(yīng) 的詞性,詞性包括名詞、動(dòng)詞等。
[0051] 本體識(shí)別單元522,負(fù)責(zé)根據(jù)單元521輸出的預(yù)處理結(jié)果,進(jìn)行新聞本體的識(shí)別。首 先對(duì)每個(gè)詞匯進(jìn)行同義擴(kuò)展,利用同義詞表發(fā)現(xiàn)同義詞。然后,基于正則表達(dá)式匹配模式, 發(fā)現(xiàn)最底層本體。最后通過(guò)本體樹的上溯操作,獲得本體路徑。
[0052]關(guān)鍵信息挖掘單元523,負(fù)責(zé)挖掘輸入文本111中的關(guān)鍵信息。如關(guān)鍵詞以及關(guān)鍵 本體。關(guān)鍵詞挖掘(有的文獻(xiàn)稱之為關(guān)鍵詞抽取,英文為keyword extract ion)的經(jīng)典方法
t表示當(dāng)前考慮被打分的詞匯,d表示當(dāng)前考慮的文檔,η表示在整體文檔集中包含t的 文檔數(shù),N表示整體文檔集的文檔數(shù)。在本發(fā)明中的具體實(shí)施例中,對(duì)此算法進(jìn)行了優(yōu)化,考 慮了本體的信息。
其中,8和I為權(quán)重參數(shù),用來(lái)調(diào)整原始詞匯TFIDF信息和本體TFIDF信息之間的重要 性,優(yōu)選地,均為0.5。0(〇是t所有對(duì)應(yīng)的本體上表示1和〇之間相差的層級(jí)數(shù)。采用階乘倒 數(shù)作為加權(quán)的形式來(lái)確保隨著本體的抽象程度升高其影響度下降。
[0054] 假設(shè)本實(shí)施例的輸入新聞文本中包含一個(gè)詞匯t為"巴黎恐怖襲擊",而它在本體 識(shí)別階段識(shí)別得到本體信息為新傾事#->突發(fā)##_>突發(fā)公炎安全安全# 恐蔽襲志->松志事# 那么"槍擊事件"這個(gè)本體對(duì)t的權(quán)重增量為 r襝志事#"人而"恐怖襲擊"這個(gè)本體對(duì)t的權(quán)重增量為惣筱襲志"h
[0055] 關(guān)鍵本體的挖掘與關(guān)鍵詞的挖掘類似,只不過(guò),關(guān)鍵本體的挖掘只考慮其上層本 體對(duì)其的影響,而不需要考慮具體詞匯的影響。
[0056] 本步驟也可以使用TextRank等其他關(guān)鍵詞挖掘方法,并且可以類似地進(jìn)行結(jié)合本 體知識(shí)的優(yōu)化。
[0057] 屬性獲取單元524,負(fù)責(zé)基于知識(shí)圖譜進(jìn)行屬性的獲取。前面步驟獲得的信息包含 輸入文本中包含的詞匯、識(shí)別出來(lái)的本體以及挖掘出來(lái)的關(guān)鍵信息。
[0058]新聞本體知識(shí)圖譜中對(duì)這些信息進(jìn)行查詢,找到對(duì)應(yīng)的知識(shí)卡片,獲取其中的屬 性信息。每個(gè)實(shí)體對(duì)應(yīng)有屬性值。然后根據(jù)這些屬性值以及結(jié)合實(shí)體與實(shí)體之間的關(guān)系,繼 續(xù)在知識(shí)圖譜中進(jìn)行進(jìn)一步查詢,可以召回更多實(shí)體,進(jìn)而獲得更多的屬性信息。
[0059]維度生成單元525,負(fù)責(zé)根據(jù)前面步驟獲取的信息,進(jìn)行推薦維度的生成。推薦維 度的生成主要是一個(gè)信息項(xiàng)組合優(yōu)選的過(guò)程。
[0060] 優(yōu)選地,本步驟的輸入信息包含從輸入文本中獲取的關(guān)鍵詞、關(guān)鍵本體、屬性等信 息項(xiàng)。輸出的維度即是這些信息項(xiàng)的組合。優(yōu)選地,維度生成遵循以下指導(dǎo)原則: 1) 名實(shí)體性的信息項(xiàng),如人物名,可以單獨(dú)作為一個(gè)維度; 2) 組合項(xiàng)越多,分?jǐn)?shù)越高。比如"中國(guó)+恐怖襲擊"優(yōu)于"恐怖襲擊"; 3) 異質(zhì)信息項(xiàng)組合,分?jǐn)?shù)越高。比如"新三板+體育產(chǎn)業(yè)"優(yōu)于"新三板+增發(fā)"; 4) 結(jié)合前面步驟中對(duì)于關(guān)鍵信息的評(píng)分。
[0061] 本實(shí)施例維度生成過(guò)程就是一個(gè)在所有信息項(xiàng)進(jìn)行組合的過(guò)程,為了防止組合過(guò) 多,采用棧搜索策略進(jìn)行剪枝。只保留得分最高的k個(gè)維度。優(yōu)選地,k設(shè)定為5。
[0062] 推薦知識(shí)召回單元526,負(fù)責(zé)根據(jù)單元525生成的若干推薦維度,分別在整體新聞 文檔中進(jìn)行檢索,召回相關(guān)文檔,形成各個(gè)維度對(duì)應(yīng)的推薦信息。優(yōu)選地,還可以根據(jù)生成 維度中的單維度信息在新聞知識(shí)圖譜中進(jìn)行知識(shí)點(diǎn)的檢索召回。
[0063] 以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何 熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵 蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于本體庫(kù)和知識(shí)圖譜的新聞推薦方法,其特征在于,包括W下步驟: 對(duì)輸入新聞文本進(jìn)行新聞本體識(shí)別; 對(duì)輸入新聞文本進(jìn)行關(guān)鍵信息挖掘; 基于新聞知識(shí)圖譜進(jìn)行屬性獲取; 基于從輸入新聞文本中挖掘出的關(guān)鍵信息W及屬性信息進(jìn)行推薦維度生成; 根據(jù)推薦維度進(jìn)行推薦信息的召回W及輸出。2. 如權(quán)利要求1所述的新聞本體識(shí)別,其特征在于,包含W下步驟: 對(duì)每個(gè)詞匯進(jìn)行同義擴(kuò)展,利用同義詞表發(fā)現(xiàn)同義詞; 根據(jù)正則匹配模式對(duì)新聞本體庫(kù)進(jìn)行檢索,發(fā)現(xiàn)最底層本體; 根據(jù)本體樹的層次結(jié)構(gòu),對(duì)每個(gè)最底層本體進(jìn)行上溯,獲得本體匹配路徑。3. 如權(quán)利要求2所述的新聞本體庫(kù),其特征在于: 面向新聞專業(yè)領(lǐng)域的層次劃分,比如劃分為"新聞事件"、"新聞人物"、"新聞主題"等大 類W及每個(gè)大類又分為若干小類;每個(gè)本體節(jié)點(diǎn)代表一個(gè)新聞報(bào)道中經(jīng)常設(shè)及的類別;每 個(gè)本體節(jié)點(diǎn)都對(duì)應(yīng)一個(gè)屬性列表,對(duì)應(yīng)運(yùn)個(gè)新聞?lì)悇e中的一些基本要素點(diǎn)。4. 如權(quán)利要求1所述的關(guān)鍵信息挖掘,其特征在于: 評(píng)價(jià)方法結(jié)合了詞匯信息和本體信息: 關(guān)鍵詞挖掘經(jīng)典方法如TFIDF:t表示當(dāng)前考慮被打分的詞匯,d表示當(dāng)前考慮的文檔,η表示在整體文檔集中包含t的 文檔數(shù),N表示整體文檔集的文檔數(shù),在本發(fā)明中的具體實(shí)施例中,對(duì)此算法進(jìn)行了優(yōu)化,考 慮了本體的信息;本發(fā)明所提計(jì)算詞匯權(quán)重公式為:其中,α和β為權(quán)重參數(shù),用來(lái)調(diào)整原始詞匯TFIDF信息和本體TFIDF信息之間的重要性, 優(yōu)選地,均為0.5;0(t)是t所有對(duì)應(yīng)的本體;1〇表示*和〇之間相差的層級(jí)數(shù);采用階乘倒數(shù) 作為加權(quán)的形式來(lái)確保隨著本體的抽象程度升高其影響度下降。5. 如權(quán)利要求1所述的新聞知識(shí)圖譜,其特征在于: 采用通用的RDFS元組(實(shí)體1,關(guān)系,實(shí)體2)進(jìn)行描述,但其是根據(jù)新聞?lì)I(lǐng)域的專業(yè)特 性進(jìn)行描述的; Ξ元組中的實(shí)體可W是名實(shí)體(如人名、地名、機(jī)構(gòu)名等),也可W是新聞事件; 知識(shí)表示按照權(quán)利要求3所述的新聞本體庫(kù)定義的模式(層次W及屬性列表)進(jìn)行。6. 如權(quán)利要求1所述的屬性獲取,其特征在于: 利用挖掘出來(lái)的關(guān)鍵信息在新聞本體知識(shí)圖譜中進(jìn)行查詢,找到對(duì)應(yīng)的知識(shí)卡片,獲 取其中的屬性信息; 具有屬性拓展過(guò)程;每個(gè)實(shí)體對(duì)應(yīng)有屬性值,然后根據(jù)運(yùn)些屬性值W及結(jié)合實(shí)體與實(shí) 體之間的關(guān)系,繼續(xù)在知識(shí)圖譜中進(jìn)行進(jìn)一步查詢,可W召回更多實(shí)體,進(jìn)而獲得更多的屬 性信息。7. 如權(quán)利要求1所述的推薦維度生成,其特征在于: 其是一個(gè)基于權(quán)利要求4所獲得的關(guān)鍵信息項(xiàng)進(jìn)行的組合優(yōu)選的過(guò)程; 其遵循W下指導(dǎo)原則: 1) 名實(shí)體性的信息項(xiàng),如人物名,可W單獨(dú)作為一個(gè)維度; 2) 組合項(xiàng)越多,分?jǐn)?shù)越高;比如"中國(guó)+恐怖襲擊"優(yōu)于"恐怖襲擊"; 3) 異質(zhì)信息項(xiàng)組合,分?jǐn)?shù)越高;比如"新Ξ板+體育產(chǎn)業(yè)"優(yōu)于"新Ξ板+增發(fā)"; 4) 結(jié)合前面步驟中對(duì)于關(guān)鍵信息的評(píng)分。8. -種基于本體庫(kù)和知識(shí)圖譜的新聞推薦裝置,其特征在于,包括: 建模單元,負(fù)責(zé)整個(gè)裝置所需要的新聞本體庫(kù)、新聞知識(shí)圖譜的管理,用戶可W由此單 元對(duì)新聞本體庫(kù)、新聞知識(shí)圖譜進(jìn)行增加、刪除、修改等操作; 預(yù)處理單元,負(fù)責(zé)提供分詞、詞性標(biāo)注等預(yù)處理功能; 本體識(shí)別單元,負(fù)責(zé)進(jìn)行新聞本體的識(shí)別; 關(guān)鍵信息挖掘單元,負(fù)責(zé)挖掘輸入文本中的關(guān)鍵信息; 屬性獲取單元,負(fù)責(zé)基于知識(shí)圖譜進(jìn)行屬性的獲??; 維度生成單元,負(fù)責(zé)根據(jù)前面單元獲取的信息,進(jìn)行推薦維度的生成; 推薦知識(shí)召回單元,負(fù)責(zé)根據(jù)前面單元生成的推薦維度,分別在整體新聞文檔中進(jìn)行 檢索,召回相關(guān)文檔,形成各個(gè)維度對(duì)應(yīng)的推薦信息,根據(jù)生成維度中的單維度信息在新聞 知識(shí)圖譜中進(jìn)行知識(shí)點(diǎn)的檢索召回。
【文檔編號(hào)】G06F17/30GK106095762SQ201610081578
【公開(kāi)日】2016年11月9日
【申請(qǐng)日】2016年2月5日 公開(kāi)號(hào)201610081578.3, CN 106095762 A, CN 106095762A, CN 201610081578, CN-A-106095762, CN106095762 A, CN106095762A, CN201610081578, CN201610081578.3
【發(fā)明人】不公告發(fā)明人
【申請(qǐng)人】中科鼎富(北京)科技發(fā)展有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1