亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置的制造方法

文檔序號(hào):10552884閱讀:524來源:國(guó)知局
基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置。該方法主要包括:使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本,得到詞向量化文件,使用基于文本圖模型的關(guān)鍵詞抽取算法抽取數(shù)據(jù)預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢?cè)~向量化文件,建立特定話題下的關(guān)鍵詞矩陣;采用增廣拉格朗日乘子算法求解關(guān)鍵詞矩陣的低秩分解問題,得到關(guān)鍵詞低秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞。本發(fā)明采用低秩矩陣分解的方法生成微博等文章話題的關(guān)鍵詞,有效的解決了微博等文章話題關(guān)鍵詞的稀疏性問題,大大降低了非關(guān)鍵詞數(shù)據(jù)噪聲的干擾。
【專利說明】
基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及文章關(guān)鍵字提取技術(shù)領(lǐng)域,尤其涉及一種基于低秩矩陣分解的文章話 題關(guān)鍵詞提取方法和裝置。
【背景技術(shù)】
[0002] 現(xiàn)在已經(jīng)進(jìn)入Web3.0時(shí)代,信息呈現(xiàn)指數(shù)爆炸式增長(zhǎng),如何提高信息訪問效率成 為一個(gè)越來越重要的問題。為了對(duì)海量信息進(jìn)行有效地組織、壓縮和檢索,人們迫切地希望 通過若干個(gè)詞語對(duì)信息進(jìn)行很好地概括或索引。以微博為代表的新興媒體成為人們交流、 分享的重要渠道。一個(gè)關(guān)鍵詞抽取系統(tǒng)對(duì)如何快速地尋找用戶感興趣的話題,以及如何監(jiān) 管話題的內(nèi)容都具有著重要的意義。
[0003] 微博文本相比傳統(tǒng)新聞文本字?jǐn)?shù)較少,并且微博話題種類較,微博內(nèi)容雜亂,質(zhì)量 參差不齊。有一些內(nèi)容涉及色情、恐怖以及一些其他的不良微博,人工進(jìn)行管控,工作量巨 大。若能抽取微博的關(guān)鍵詞,則能快速定位不良微博,管控輿情走向,因此,開發(fā)一種有效地 提取微博話題關(guān)鍵詞的方法是十分必要的。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法和裝 置,以實(shí)現(xiàn)有效地對(duì)文章話題關(guān)鍵詞進(jìn)行提取。
[0005] 為了實(shí)現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案。
[0006] -種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,包括:
[0007] 使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本,得到詞向量化 文件,該詞向量化文件中包括多個(gè)詞語向量,所述詞語包含關(guān)鍵詞和非關(guān)鍵詞;
[0008] 使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后的文章文本中的 特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件,建立所述特定 話題下的關(guān)鍵詞矩陣;
[0009] 采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問題,得到關(guān)鍵詞低 秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞。
[0010] 進(jìn)一步地,所述的使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文本之 前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理,該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除停用 。
[0011 ]進(jìn)一步地,所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。
[0012] 進(jìn)一步地,所述的使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后 的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文 件,建立所述特定話題下的關(guān)鍵詞矩陣,包括:
[0013] 針對(duì)特定話題,使用基于文本圖模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章 文本中的詞語作為文本圖模型的頂點(diǎn),詞語之間的關(guān)系作為文本圖的邊,建立文本圖模型, 頂點(diǎn)的權(quán)重的計(jì)算公式如下:
[0015] 其中WS^)表示詞語i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù),In^)是存在指向詞語i 的所有詞語的集合;〇ut(L)是詞語j指向的所有詞語的集合;叫表示詞語i和詞語j之間的 聯(lián)系強(qiáng)度;
[0016] 將所有詞語的權(quán)值進(jìn)行降序排序,選取排列靠前的設(shè)定數(shù)量個(gè)詞語作為關(guān)鍵詞;
[0017] 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件,獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量, 根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣:
[0019] 其中,ki為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),n為每個(gè)事件抽取的關(guān)鍵 詞的個(gè)數(shù),d為每個(gè)關(guān)鍵詞向量的維數(shù)。
[0020] 進(jìn)一步地,所述的采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問 題,得到關(guān)鍵詞低秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān) 鍵詞,包括:
[0021 ]所述關(guān)鍵詞矩陣的分解的式子如下:
[0022] X=XZ+E
[0023]其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即所述關(guān)鍵詞矩陣W(r*n),Z是要恢復(fù)的低秩性矩 陣,E為數(shù)據(jù)噪聲;
[0024] 基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,得到凸優(yōu)化問題如下式:
[0025] IW111 It J ll* +A I) E 1 J ,Z,E '
[0026] s.t.X=XZ+E
[0027] Z = J
[0028] A是約束參數(shù),J是要求解的關(guān)鍵詞低秩矩陣;
[0029] 所述凸優(yōu)化問題采用增廣的拉格朗日乘子方法求解,要求解的最小化拉格朗日函 數(shù)構(gòu)造如下:
[0031] 其中,Y和W均是拉格朗日乘子,參數(shù)y>0是懲罰參數(shù),通過對(duì)固定無關(guān)變量進(jìn)行迭 代優(yōu)化,求解出所述關(guān)鍵詞低秩矩陣J。
[0032] -種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,包括:
[0033] 詞向量化文件生成模塊,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理 后的文章文本,得到詞向量化文件,該詞向量化文件中包括多個(gè)詞語向量,所述詞語包含關(guān) 鍵詞和非關(guān)鍵詞;
[0034] 關(guān)鍵詞矩陣建立模塊,用于使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù) 預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向 量化文件,建立所述特定話題下的關(guān)鍵詞矩陣;
[0035]關(guān)鍵詞獲取模塊,用于采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分 解問題,得到關(guān)鍵詞低秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下 的關(guān)鍵詞。
[0036] 進(jìn)一步地,所述的裝置還包括:
[0037]數(shù)據(jù)預(yù)處理模塊,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文 本之前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理,該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除 停用詞。
[0038]進(jìn)一步地,所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。
[0039]進(jìn)一步地,所述的關(guān)鍵詞矩陣建立模塊,具體用于針對(duì)特定話題,使用基于文本圖 模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章文本中的詞語作為文本圖模型的頂點(diǎn),詞 語之間的關(guān)系作為文本圖的邊,建立文本圖模型,頂點(diǎn)的權(quán)重的計(jì)算公式如下:
[0041] 其中WS^)表示詞語i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù),In^)是存在指向詞語i 的所有詞語的集合;〇ut(L)是詞語j指向的所有詞語的集合;叫表示詞語i和詞語j之間的 聯(lián)系強(qiáng)度;
[0042] 將所有詞語的權(quán)值進(jìn)行降序排序,選取排列靠前的設(shè)定數(shù)量個(gè)詞語作為關(guān)鍵詞;
[0043] 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件,獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量, 根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣:
[0045] 其中,1^為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),
[0046] n為每個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),d為每個(gè)關(guān)鍵詞向量的維數(shù)。
[0047] 進(jìn)一步地,所述的關(guān)鍵詞獲取模塊,具體用于設(shè)所述關(guān)鍵詞矩陣的分解的式子如 下:
[0048] X=XZ+E
[0049]其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即所述關(guān)鍵詞矩陣W(r*n),Z是要恢復(fù)的低秩性矩 陣,E為數(shù)據(jù)噪聲;
[0050]基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,得到凸優(yōu)化問題如下式:
[0051 ] min ll J II* +/i II EIU j HE
[0052] s.t.X=XZ+E
[0053] Z = J
[0054] A是約束參數(shù),J是要求解的關(guān)鍵詞低秩矩陣;
[0055] 所述凸優(yōu)化問題采用增廣的拉格朗日乘子方法求解,要求解的最小化拉格朗日函 數(shù)構(gòu)造如下:
[0057]其中,Y和W均是拉格朗日乘子,參數(shù)y>0是懲罰參數(shù),通過對(duì)固定無關(guān)變量進(jìn)行迭 代優(yōu)化,求解出所述關(guān)鍵詞低秩矩陣J。
[0058] 由上述本發(fā)明的實(shí)施例提供的技術(shù)方案可以看出,本發(fā)明實(shí)施例可應(yīng)用到社交網(wǎng) 絡(luò)媒體語義識(shí)別以及文本輿情分析等領(lǐng)域,具有廣闊的應(yīng)用前景。本發(fā)明采用低秩矩陣分 解的方法生成微博等文章話題的關(guān)鍵詞,有效的解決了微博等文章話題關(guān)鍵詞的稀疏性問 題,大大降低了非關(guān)鍵詞數(shù)據(jù)噪聲的干擾。本發(fā)明系統(tǒng)的所有模塊都是完全自動(dòng)的,不需要 人工干預(yù),因此可以嵌入到各類Web信息過濾系統(tǒng)中去。
[0059] 本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變 得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0060] 為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用 的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本 領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0061] 圖1為本發(fā)明實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法的 流程圖;
[0062] 圖2是本發(fā)明實(shí)施例提供的一種關(guān)鍵詞矩陣的具體構(gòu)建實(shí)例示意圖;
[0063] 圖3為本發(fā)明實(shí)施例提供的一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置的 具體結(jié)構(gòu)圖,包括:數(shù)據(jù)預(yù)處理模塊31,詞向量化文件生成模塊32,關(guān)鍵詞矩陣建立模塊33, 關(guān)鍵詞獲取模塊34。
【具體實(shí)施方式】
[0064] 下面詳細(xì)描述本發(fā)明的實(shí)施方式,所述實(shí)施方式的示例在附圖中示出,其中自始 至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參 考附圖描述的實(shí)施方式是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。 [0065]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式"一"、"一 個(gè)"、"所述"和"該"也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措 辭"包括"是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加 一個(gè)或多個(gè)其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元 件被"連接"或"耦接"到另一元件時(shí),它可以直接連接或耦接到其他元件,或者也可以存在 中間元件。此外,這里使用的"連接"或"耦接"可以包括無線連接或耦接。這里使用的措辭 "和/或"包括一個(gè)或更多個(gè)相關(guān)聯(lián)的列出項(xiàng)的任一單元和全部組合。
[0066]本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù) 語和科學(xué)術(shù)語)具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該 理解的是,諸如通用字典中定義的那些術(shù)語應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意 義一致的意義,并且除非像這里一樣定義,不會(huì)用理想化或過于正式的含義來解釋。
[0067] 為便于對(duì)本發(fā)明實(shí)施例的理解,下面將結(jié)合附圖以幾個(gè)具體實(shí)施例為例做進(jìn)一步 的解釋說明,且各個(gè)實(shí)施例并不構(gòu)成對(duì)本發(fā)明實(shí)施例的限定。
[0068] 實(shí)施例一
[0069] 本發(fā)明實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法的流程 圖如圖1所示,該方法包括以下步驟:
[0070] 步驟S110:對(duì)待處理的文章中的文本進(jìn)行清洗、分詞、去除停用詞的數(shù)據(jù)預(yù)處理, 以得到便于后續(xù)事件關(guān)鍵詞抽取的文本。上述文章可以為新聞、微博、博客和評(píng)論等。
[0071] 本發(fā)明在文本預(yù)處理階段主要做了如下的文本預(yù)處理:去除文章文本中的網(wǎng)址鏈 接、表情符號(hào)、無效字符;由于中文詞語之間沒有空格,因此在進(jìn)行關(guān)鍵詞提取之前需要進(jìn) 行文本的分詞,本發(fā)明采用效果較好的開源的自然語言處理工具包一一HanLP進(jìn)行分詞;接 著去除文本中的停用詞,比如"的"、"但是","啊"、"比如"等無實(shí)際含義的詞語。
[0072] 步驟S120:使用谷歌開源的提取深度學(xué)習(xí)特征的工具-W〇rd2VeC訓(xùn)練預(yù)處理后的 文章,將文章中的詞語轉(zhuǎn)換成向量的形式,以得到文本的詞向量文件。
[0073] 使用¥(^(12¥6〇工具訓(xùn)練去除停用詞后的文章文本。'\¥(^(12¥6〇是6〇〇816在2013年年 中開源的一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練, 把對(duì)文章文本內(nèi)容的處理簡(jiǎn)化為K維向量空間中的向量運(yùn)算。在實(shí)際應(yīng)用中,通常取K = 200。該工具共有兩個(gè)模型--CB0W和Skip-gram模型,本發(fā)明使用較為常用的Skip-gram模 型以及取K = 200進(jìn)行訓(xùn)練文本,得到分析語料的所有詞語的詞向量化文件vectors.bin, [0074] 該詞向量化文件vectors . bin包括多個(gè)詞語向量,每個(gè)詞語向量的維數(shù)為K, vectors.bin相當(dāng)于一個(gè)詞典,其中的詞語數(shù)量遠(yuǎn)遠(yuǎn)大于關(guān)鍵詞的數(shù)量,它是所有詞語(其 中包含關(guān)鍵詞與非關(guān)鍵詞)的集合,一個(gè)詞語對(duì)應(yīng)一個(gè)向量。
[0075] 步驟S130 :使用基于TextRank算法抽取特定話題下每個(gè)事件的關(guān)鍵詞,并根據(jù) word2vec訓(xùn)練生成的詞向量文件建立該話題的關(guān)鍵詞矩陣。
[0076]所述的TextRank算法是基于文本圖模型的關(guān)鍵詞抽取算法,將前述分詞處理后的 文章文本中的詞語作為文本圖模型的頂點(diǎn),詞語之間的關(guān)系作為文本圖的邊,建立文本圖 模型,頂點(diǎn)的權(quán)重要通過計(jì)算得到。TextRank方法的關(guān)鍵是計(jì)算文本圖模型中的詞語權(quán)重, 計(jì)算的公式如下:
[0078] 其中WS^)表示詞語i的權(quán)重;P是阻尼系數(shù),是一個(gè)預(yù)先設(shè)置的常量;InWO是存 在指向關(guān)鍵詞i的所有關(guān)鍵詞的集合;〇ut(Vj)是詞語j指向的所有的關(guān)鍵詞的集合;wij表不 詞語i和詞語j之間的聯(lián)系強(qiáng)度。本發(fā)明,采用通常情況下的阻尼系數(shù),即取P = 0.85。
[0079] 詞語i和詞語j是分詞之后得到的詞語,要通過上述公式的權(quán)值計(jì)算,判斷其是否 為關(guān)鍵詞,最后迭代得到的WS(Vi)越大,這個(gè)詞就越重要,也就是關(guān)鍵詞。比如,最后根據(jù)權(quán) 值降序排序,取前10個(gè)左右詞語即為關(guān)鍵詞。
[0080] 根據(jù)上述抽取的關(guān)鍵詞查詢上述詞向量化文件vectors . bin,獲取關(guān)鍵詞對(duì)應(yīng)的 關(guān)鍵詞向量,根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣:
[0081 ] …-、 .,m =
[0082]其中,1^為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),n為每個(gè)事件抽取的關(guān)鍵 詞的個(gè)數(shù),其具體數(shù)值根據(jù)具體的事件的關(guān)鍵詞的個(gè)數(shù)而定,不同的事件n的大小可能不 同,d為每個(gè)關(guān)鍵詞向量的維數(shù),等于上文中所提的詞語向量維數(shù)K(K = 200 ),即d = 200。 [0083] 步驟S140:采用增廣拉格朗日乘子(ALM)算法求解關(guān)鍵詞矩陣的低秩分解問題,以 得到關(guān)鍵詞低秩矩陣,最終生成特定話題的關(guān)鍵詞。
[0084]關(guān)鍵詞矩陣的分解的式子如下:
[0085] X=XZ+E
[0086] 其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即上文所述的關(guān)鍵詞矩陣W(r*n),Z是我們要恢復(fù)的 低秩性矩陣,E為數(shù)據(jù)噪聲,該數(shù)據(jù)噪聲是文本中自帶的,不需要求出。
[0087] 基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,可得到凸優(yōu)化問題如下式:
[0088] min II J llt +A II Elk, ./ .Z.Il
[0089] s.t.X=XZ+E
[0090] Z = J
[0091] A是約束參數(shù),J是要求解的低秩矩陣。
[0092] 這個(gè)問題可采用增廣的拉格朗日乘子方法(ALM)求解,要求解的最小化拉格朗日 函數(shù)構(gòu)造如下:
[0094] 其中,Y和W均是拉格朗日乘子,參數(shù)y>0是懲罰參數(shù)。該問題是凸問題,都具有閉 合形式的解,每次通過固定無關(guān)變量,然后分別對(duì)相關(guān)變量進(jìn)行迭代優(yōu)化求解,求解出所述 關(guān)鍵詞低秩矩陣J。然后,將所述關(guān)鍵詞低秩矩陣J中的關(guān)鍵詞作為所述文章文本中所述特 定話題下的關(guān)鍵詞。
[0095] 圖2示出了本發(fā)明求解出的關(guān)鍵詞矩陣的具體構(gòu)建實(shí)例,其中m列表示第該話題 下的第一個(gè)事件的所有關(guān)鍵詞,m列和m列具有相同的元素 cU,表明事件1和事件3都含有關(guān) 鍵詞wi,每個(gè)關(guān)鍵詞向量Wi都由上文中的word2vec訓(xùn)練得到,為d維的向量,d的取值一般為 200 ;0表不該事件不含有相關(guān)的關(guān)鍵詞;m是所有事件提取的關(guān)鍵詞個(gè)數(shù)的總和,而每個(gè)關(guān) 鍵詞的維數(shù)為d,每個(gè)話題包含n個(gè)事件,因此話題關(guān)鍵詞矩陣X為r*n,r=m*d;
[0096] 實(shí)施例二
[0097]該實(shí)施例提供了一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,該裝置的具 體結(jié)構(gòu)如圖3所示,包括:
[0098]數(shù)據(jù)預(yù)處理模塊31,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的 文本之前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理,該數(shù)據(jù)預(yù)處理包括清洗、分詞、去 除停用詞。
[0099] 詞向量化文件生成模塊32,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處 理后的文章文本,得到詞向量化文件,該詞向量化文件中包括多個(gè)詞語向量,所述詞語包含 關(guān)鍵詞和非關(guān)鍵詞;
[0100] 關(guān)鍵詞矩陣建立模塊33,用于使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù) 據(jù)預(yù)處理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞 向量化文件,建立所述特定話題下的關(guān)鍵詞矩陣;
[0101] 關(guān)鍵詞獲取模塊34,用于采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩 分解問題,得到關(guān)鍵詞低秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題 下的關(guān)鍵詞。
[0102] 進(jìn)一步地,所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。
[0103] 進(jìn)一步地,所述的關(guān)鍵詞矩陣建立模塊33,具體用于針對(duì)特定話題,使用基于文本 圖模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章文本中的詞語作為文本圖模型的頂點(diǎn), 詞語之間的關(guān)系作為文本圖的邊,建立文本圖模型,頂點(diǎn)的權(quán)重的計(jì)算公式如下:
[0105] 其中WS^)表示詞語i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù),In^)是存在指向詞語i 的所有詞語的集合;〇ut(L)是詞語j指向的所有詞語的集合;叫表示詞語i和詞語j之間的 聯(lián)系強(qiáng)度;
[0106] 將所有詞語的權(quán)值進(jìn)行降序排序,選取排列靠前的設(shè)定數(shù)量個(gè)詞語作為關(guān)鍵詞;
[0107] 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件,獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量, 根據(jù)所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣: n
[0108] Wf * ^ , "7 = H人, W(r*n)} Tt
[0109] 其中,ki為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),n為每個(gè)事件抽取的關(guān)鍵 詞的個(gè)數(shù),d為每個(gè)關(guān)鍵詞向量的維數(shù)。
[0110] 進(jìn)一步地,所述的關(guān)鍵詞獲取模塊34,具體用于設(shè)所述關(guān)鍵詞矩陣的分解的式子 如下:
[0111] X=XZ+E
[0112]其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即所述關(guān)鍵詞矩陣W(r*n),Z是要恢復(fù)的低秩性矩 陣,E為數(shù)據(jù)噪聲;
[0113]基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,得到凸優(yōu)化問題如下式:
[0114] min !1./il;,+/1II EIK, J . Z Jl
[0115] s.t.X=XZ+E
[0116] Z = J
[0117] A是約束參數(shù),J是要求解的關(guān)鍵詞低秩矩陣;
[0118] 所述凸優(yōu)化問題采用增廣的拉格朗日乘子方法求解,要求解的最小化拉格朗日函 數(shù)構(gòu)造如下:
[0120] 其中,Y和W均是拉格朗日乘子,參數(shù)y>0是懲罰參數(shù),通過對(duì)固定無關(guān)變量進(jìn)行迭 代優(yōu)化,求解出所述關(guān)鍵詞低秩矩陣J。
[0121] 用本發(fā)明實(shí)施例的裝置進(jìn)行基于低秩矩陣分解的文章話題關(guān)鍵詞提取的具體過 程與前述方法實(shí)施例類似,此處不再贅述。
[0122] 綜上所述,本發(fā)明實(shí)施例可應(yīng)用到社交網(wǎng)絡(luò)媒體語義識(shí)別以及文本輿情分析等領(lǐng) 域,具有廣闊的應(yīng)用前景。本發(fā)明具有以下優(yōu)點(diǎn):
[0123] 1、本發(fā)明提供的這種微博等文章的關(guān)鍵詞抽取方法,重點(diǎn)解決了短文本的關(guān)鍵詞 抽取方法,并開創(chuàng)性的研究微博等文章話題關(guān)鍵詞生成方法。
[0124] 2、采用低秩矩陣分解的方法生成微博等文章話題的關(guān)鍵詞,有效的解決了微博等 文章話題關(guān)鍵詞的稀疏性問題,大大降低了非關(guān)鍵詞數(shù)據(jù)噪聲的干擾。
[0125] 3、本系統(tǒng)的所有模塊都是完全自動(dòng)的,不需要人工干預(yù),因此可以嵌入到各類Web 信息過濾系統(tǒng)中去。此外,本系統(tǒng)還可以作為子系統(tǒng)嵌入到通用輿情分析系統(tǒng)中。具有廣泛 的應(yīng)用前景。
[0126] 本領(lǐng)域普通技術(shù)人員可以理解:附圖只是一個(gè)實(shí)施例的示意圖,附圖中的模塊或 流程并不一定是實(shí)施本發(fā)明所必須的。
[0127] 通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可 借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì) 上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品 可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備 (可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例或者實(shí)施例的某些 部分所述的方法。
[0128] 本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部 分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置或 系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見方法 實(shí)施例的部分說明即可。以上所描述的裝置及系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為 分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或 者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿?據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù) 人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
[0129] 以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換, 都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍 為準(zhǔn)。
【主權(quán)項(xiàng)】
1. 一種基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在于,包括: 使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文章文本,得到詞向量化文 件,該詞向量化文件中包括多個(gè)詞語向量,所述詞語包含關(guān)鍵詞和非關(guān)鍵詞; 使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后的文章文本中的特定 話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件,建立所述特定話題 下的關(guān)鍵詞矩陣; 采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問題,得到關(guān)鍵詞低秩矩 陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞。2. 根據(jù)權(quán)利要求1所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在于, 所述的使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文本之前還包括:對(duì)待處理 的文章文本進(jìn)行數(shù)據(jù)預(yù)處理,該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除停用詞。3. 根據(jù)權(quán)利要求1所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在于, 所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。4. 根據(jù)權(quán)利要求1所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在于, 所述的使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處理后的文章文本中的特 定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化文件,建立所述特定話 題下的關(guān)鍵詞矩陣,包括: 針對(duì)特定話題,使用基于文本圖模型的關(guān)鍵詞抽取算法將前述分詞處理后的文章文本 中的詞語作為文本圖模型的頂點(diǎn),詞語之間的關(guān)系作為文本圖的邊,建立文本圖模型,頂點(diǎn) 的權(quán)重的計(jì)算公式如下:其中WS(Vi)表示詞語i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù),In(Vi)是存在指向詞語i的所 有詞語的集合;Out(Vj)是詞語j指向的所有詞語的集合;Wi康示詞語i和詞語j之間的聯(lián)系 強(qiáng)度; 將所有詞語的權(quán)值進(jìn)行降序排序,選取排列靠前的設(shè)定數(shù)量個(gè)詞語作為關(guān)鍵詞; 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件,獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量,根據(jù) 所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣:其中,ki為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),n為每個(gè)事件抽取的關(guān)鍵詞的個(gè) 數(shù),d為每個(gè)關(guān)鍵詞向量的維數(shù)。5. 根據(jù)權(quán)利要求4所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在于, 所述的采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問題,得到關(guān)鍵詞低秩 矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān)鍵詞,包括: 所述關(guān)鍵詞矩陣的分解的式子如下: X = XZ 巧 其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即所述關(guān)鍵詞矩陣W(r*n),Z是要恢復(fù)的低秩性矩陣,E為 數(shù)據(jù)噪聲; 基于低秩矩陣分解的文章話顆羊鍵詞梅取兩?訣.得幸Il巧優(yōu)化問題如下式: s.t.X = XZ 巧Z=J 入是約束參數(shù),J是要求解的關(guān)鍵詞低秩矩陣; 所述凸優(yōu)化問題采用增廣的拉格朗日乘子方法求解,要求解的最小化拉格朗日函數(shù)構(gòu) 造如下:其中,Y和W均是拉格朗日乘子,參數(shù)y>0是懲罰參數(shù),通過對(duì)固定無關(guān)變量進(jìn)行迭代優(yōu) 化,求解出所述關(guān)鍵詞低秩矩陣J。6. -種基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,其特征在于,包括: 詞向量化文件生成模塊,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的 文章文本,得到詞向量化文件,該詞向量化文件中包括多個(gè)詞語向量,所述詞語包含關(guān)鍵詞 和非關(guān)鍵詞; 關(guān)鍵詞矩陣建立模塊,用于使用基于文本圖模型的關(guān)鍵詞抽取算法抽取所述數(shù)據(jù)預(yù)處 理后的文章文本中的特定話題下每個(gè)事件的關(guān)鍵詞,根據(jù)抽取的關(guān)鍵詞查詢所述詞向量化 文件,建立所述特定話題下的關(guān)鍵詞矩陣; 關(guān)鍵詞獲取模塊,用于采用增廣拉格朗日乘子算法求解所述關(guān)鍵詞矩陣的低秩分解問 題,得到關(guān)鍵詞低秩矩陣,最終生成所述數(shù)據(jù)預(yù)處理后的文章文本中所述特定話題下的關(guān) 鍵詞。7. 根據(jù)權(quán)利要求6所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,其特征在于, 所述的裝置還包括: 數(shù)據(jù)預(yù)處理模塊,用于使用將詞表征為實(shí)數(shù)值向量的工具訓(xùn)練數(shù)據(jù)預(yù)處理后的文本之 前還包括:對(duì)待處理的文章文本進(jìn)行數(shù)據(jù)預(yù)處理,該數(shù)據(jù)預(yù)處理包括清洗、分詞、去除停用 詞。8. 根據(jù)權(quán)利要求7所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,其特征在于, 所述的將詞表征為實(shí)數(shù)值向量的工具包括:word2vec工具。9. 根據(jù)權(quán)利要求6所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取裝置,其特征在于: 所述的關(guān)鍵詞矩陣建立模塊,具體用于針對(duì)特定話題,使用基于文本圖模型的關(guān)鍵詞 抽取算法將前述分詞處理后的文章文本中的詞語作為文本圖模型的頂點(diǎn),詞語之間的關(guān)系 作為文本圖的邊,建立文本圖模型,頂點(diǎn)的權(quán)重的計(jì)算公式如下:其中WS(Vi)表示詞語i的權(quán)重;P是預(yù)先設(shè)置的阻尼系數(shù),In(Vi)是存在指向詞語i的所 有詞語的集合;Out(Vj)是詞語j指向的所有詞語的集合;Wi康示詞語i和詞語j之間的聯(lián)系 強(qiáng)度; 將所有詞語的權(quán)值進(jìn)行降序排序,選取排列靠前的設(shè)定數(shù)量個(gè)詞語作為關(guān)鍵詞; 根據(jù)所述抽取的關(guān)鍵詞查詢所述詞向量化文件,獲取關(guān)鍵詞對(duì)應(yīng)的關(guān)鍵詞向量,根據(jù) 所有的關(guān)鍵詞向量組成關(guān)鍵詞矩陣:其中,kl為特定話題下第i個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù) n為每個(gè)事件抽取的關(guān)鍵詞的個(gè)數(shù),d為每個(gè)關(guān)鍵詞向量的維數(shù)。10.根據(jù)權(quán)利要求9所述的基于低秩矩陣分解的文章話題關(guān)鍵詞提取方法,其特征在 于: 所述的關(guān)鍵詞獲取模塊,具體用于設(shè)所述關(guān)鍵詞矩陣的分解的式子如下: X = XZ 巧 其中,X是觀測(cè)到的數(shù)據(jù)矩陣,即所述關(guān)鍵詞矩陣W(r*n),Z是要恢復(fù)的低秩性矩陣,E為 數(shù)據(jù)噪聲; 基于低秩矩陣分解的文章話挪^蝕;司據(jù)前韋'法-俱蔚IA化化問題如下式:s.t.X = XZ 巧 Z = J 入是約束參數(shù),J是要求解的關(guān)鍵詞低秩矩陣; 所述凸優(yōu)化問題采用增廣的拉格朗日乘子方法求解,要求解的最小化拉格朗日函數(shù)構(gòu) 造如下:其中,1[個(gè)巧化份明口米:了,終女義y戶W巧世;終女義,化化W兇疋兀乂艾里化"達(dá)代優(yōu) 化,求解出所述關(guān)鍵詞低秩矩陣J。
【文檔編號(hào)】G06F17/27GK105912524SQ201610218407
【公開日】2016年8月31日
【申請(qǐng)日】2016年4月9日
【發(fā)明人】郎叢妍, 何偉明, 于兆鵬, 馮松鶴, 王濤, 杜雪濤, 張晨
【申請(qǐng)人】北京交通大學(xué), 中國(guó)移動(dòng)通信集團(tuán)設(shè)計(jì)院有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1