提取文檔中關(guān)鍵詞的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實(shí)施例涉及信息技術(shù)領(lǐng)域,尤其涉及一種提取文檔中關(guān)鍵詞的方法及裝 置。
【背景技術(shù)】
[0002] 在當(dāng)前信息爆炸的時(shí)代,用戶(hù)不可能瀏覽所有可能包含有相關(guān)信息的文檔,而抽 取文檔中的關(guān)鍵詞給用戶(hù)提供參考,對(duì)用戶(hù)精準(zhǔn)的獲取信息、降低用戶(hù)獲取信息的成本有 著重大的意義。
[0003] -般來(lái)講,文檔的關(guān)鍵詞必然是某些與文檔主題高度相關(guān)的詞語(yǔ),因此文檔的主 題信息對(duì)于文檔的關(guān)鍵詞抽取有著重要的意義。目前,主要是利用關(guān)鍵詞在隱含狄利克雷 分配模型(Latent Dirichlet Allocation,LDA)當(dāng)中的概率分布來(lái)解決這個(gè)問(wèn)題的。主要 有以下兩種方法:
[0004] 第一種方法是基于似然估計(jì)的方法,即利用LDA模型得到文檔的主題分布P (z I d) 以及主題的詞分布p(w| z),計(jì)算得到文檔中詞的分布P(w| d) = E zP(z I d)P(w| z),其中z表 示主題,d表示文檔,w表示某個(gè)詞。將上述文檔中詞的分布概率P(w I d)視為某個(gè)詞w在 文檔d中的重要性得分,選擇得分最高的K個(gè)詞作為該文檔的關(guān)鍵詞。
[0005] 第二種方法是基于隱變量分布距離的方法,即利用LDA模型得到文檔的主題分布
兩個(gè)分布概率的余弦距離,選擇余弦距離較大的K個(gè)詞作為該文檔的關(guān)鍵詞。
[0006] 但是,上述提取文檔中關(guān)鍵詞的方法均存在一些缺點(diǎn),對(duì)于第一種方法,對(duì)于高頻 詞有著嚴(yán)重的偏向,即提取出的詞大部分都是某個(gè)主題下的高頻詞,然而這些高頻詞在不 同文檔當(dāng)中出現(xiàn)得都很廣泛,并不能很真實(shí)的反應(yīng)文檔所表達(dá)的信息。
[0007] 對(duì)于第二種方法,由于計(jì)算P(z I w) P(w I z)P(z)需要得到隱變量的分布 P (z),但是該分布概率并不是LDA模型中的分布參數(shù),一般使用P (z) = E dP (z I d) P (d),其 中P(d)為文檔的后驗(yàn)分布,并假設(shè)P(d)為均勻分布從而得到P(Z) ocE dP(z|d)。但是由 于對(duì)于不同的文檔d,其后驗(yàn)的分布P(d)并不是均勻分布,因此該模型的理論基礎(chǔ)不夠堅(jiān) 實(shí),實(shí)際應(yīng)用中的效果也不佳。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明實(shí)施例提供一種提取文檔中關(guān)鍵詞的方法及裝置,能夠提取出的精確表達(dá) 文檔信息的關(guān)鍵詞信息。
[0009] 第一方面,本發(fā)明實(shí)施例提供了一種提取文檔中關(guān)鍵詞的方法,包括:
[0010] 根據(jù)隱含主題向量模型訓(xùn)練得到與文檔信息相關(guān)的至少一個(gè)主題向量和至少一 個(gè)詞向量,所述隱含主題向量模型為主題模型和詞向量的融合模型;
[0011] 計(jì)算所述詞向量和主題向量之間的距離;
[0012] 根據(jù)詞向量與所述主題向量之間的距離,選取預(yù)設(shè)個(gè)數(shù)詞向量對(duì)應(yīng)的詞作為所述 文檔的關(guān)鍵詞。
[0013] 第二方面,本發(fā)明實(shí)施例還提供一種提取文檔中關(guān)鍵詞的裝置,包括:
[0014] 向量訓(xùn)練模塊,用于根據(jù)隱含主題向量模型訓(xùn)練得到與文檔信息相關(guān)的至少一個(gè) 主題向量和至少一個(gè)詞向量,所述隱含主題向量模型為主題模型和詞向量的融合模型;
[0015] 距離計(jì)算模塊,用于計(jì)算所述詞向量和主題向量之間的距離;
[0016] 關(guān)鍵詞提取模塊,用于根據(jù)詞向量與所述主題向量之間的距離,選取預(yù)設(shè)個(gè)數(shù)詞 向量對(duì)應(yīng)的詞作為所述文檔的關(guān)鍵詞。
[0017] 本發(fā)明實(shí)施例通過(guò)根據(jù)主題模型和詞向量融合后的隱含主題向量模型對(duì)文檔進(jìn) 行訓(xùn)練,得到與文檔信息相關(guān)的至少一個(gè)主題向量和至少一個(gè)詞向量,進(jìn)一步根據(jù)詞向量 與所述主題向量之間的距離,選取預(yù)設(shè)個(gè)數(shù)詞向量對(duì)應(yīng)的詞作為所述文檔的關(guān)鍵詞。本發(fā) 明實(shí)施例根據(jù)隱含主題向量模型對(duì)文檔進(jìn)行訓(xùn)練,在訓(xùn)練過(guò)程中能夠捕捉更多的文檔信 息,從而提取出的精確表達(dá)文檔信息的關(guān)鍵詞信息。
【附圖說(shuō)明】
[0018] 圖1為本發(fā)明實(shí)施例一提供的提取文檔中關(guān)鍵詞的方法的流程示意圖;
[0019] 圖2為本發(fā)明實(shí)施例二提供的提取文檔中關(guān)鍵詞的方法的流程示意圖;
[0020] 圖3為本發(fā)明實(shí)施例三提供的搜索結(jié)果頁(yè)顯示裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0021] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。可以理解的是,此處所描 述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便 于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0022] 本發(fā)明實(shí)施例提供的提取文檔中關(guān)鍵詞的方法的執(zhí)行主體,可為本發(fā)明實(shí)施例提 供的提取文檔中關(guān)鍵詞的裝置,或者集成了提取文檔中關(guān)鍵詞的裝置的終端設(shè)備(例如, 智能手機(jī)、平板電腦等),該提取文檔中關(guān)鍵詞的裝置可以采用硬件或軟件實(shí)現(xiàn)。
[0023] 實(shí)施例一
[0024] 圖1為本發(fā)明實(shí)施例一提供的提取文檔中關(guān)鍵詞的方法的流程示意圖,如圖1所 示,具體包括:
[0025] S11、根據(jù)隱含主題向量模型訓(xùn)練得到與文檔信息相關(guān)的至少一個(gè)主題向量和至 少一個(gè)詞向量,所述隱含主題向量模型為主題模型和詞向量的融合模型;
[0026] 其中,主題模型(Topic Model)和詞向量(Word Embedding)都是現(xiàn)有技術(shù)中常用 的語(yǔ)義表示方法。主題模型假設(shè)每一個(gè)詞語(yǔ)都是由一個(gè)隱含空間當(dāng)中的語(yǔ)義生成的。根據(jù) 這一假設(shè),可以將文檔和詞語(yǔ)都映射到隱含語(yǔ)義空間內(nèi)進(jìn)行降維。而詞向量則是另外一種 詞語(yǔ)的分布式表不方法,它使用固定長(zhǎng)度的向量來(lái)表不一個(gè)詞語(yǔ)的含義。
[0027] 主題模型一般是在文檔層級(jí)或句子層級(jí)進(jìn)行建模,更加關(guān)注于全局的語(yǔ)義,而詞 向量則一般假設(shè)一個(gè)詞的語(yǔ)義是由它周邊的詞語(yǔ)來(lái)表示的,更加關(guān)注于局部的類(lèi)句法信 息。上述兩種方法側(cè)重點(diǎn)各有不同,并各自被證明了具有巨大的應(yīng)用價(jià)值。因此,本實(shí)施例 將這二者結(jié)合起來(lái),從而使得隱含主題向量模型能夠捕捉到更多的信息。
[0028] 其中,主題向量和詞向量的維度可自定義設(shè)置,向量中的每個(gè)元素對(duì)應(yīng)的數(shù)值,通 過(guò)隱含主題向量模型訓(xùn)練得到。其中,為了使訓(xùn)練結(jié)果更加精確,隱含主題向量模型中還包 含有訓(xùn)練資料庫(kù),所述訓(xùn)練資料庫(kù)中有大量的文檔數(shù)據(jù)。
[0029] S12、計(jì)算所述詞向量和主題向量之間的距離;
[0030] 上述訓(xùn)練得到所述詞向量和主題向量詞語(yǔ)目的是為了計(jì)算詞語(yǔ)在文檔當(dāng)中的重 要程度,并對(duì)重要程度進(jìn)行排序,從而從中挑選出最重要的詞語(yǔ)作為文檔的關(guān)鍵詞。
[0031] 本實(shí)施例中,通過(guò)計(jì)算詞向量和主題向量之間的距離來(lái)衡量詞語(yǔ)在文檔當(dāng)中的重 要程度,具體的,包括計(jì)算所述詞向量和主題向量之間的歐式距離、余弦距離、或正弦距離 等,同時(shí),計(jì)算的距離不同,衡量重要程度的標(biāo)準(zhǔn)也不同。如果,計(jì)算所述詞向量和主題向量 之間的歐式距離或者正弦距離,則距離越大則說(shuō)明該詞語(yǔ)在文檔當(dāng)中越重要即越能反映文 檔所表達(dá)的主題思想,如果計(jì)算所述詞向量和主題向量之間的余弦距離,則距離越小則說(shuō) 明該詞語(yǔ)在文檔當(dāng)中越重要。
[0032] S13、根據(jù)詞向量與所述主題向量之間的距離,選取預(yù)設(shè)個(gè)數(shù)詞向量對(duì)應(yīng)的詞作為 所述文檔的關(guān)鍵詞。
[0033] 其中,預(yù)設(shè)個(gè)數(shù)可根據(jù)具體實(shí)際情況進(jìn)行設(shè)置,這里不做具體限定。
[0034] 根據(jù)上述步驟12的計(jì)算結(jié)果,即可確定文檔中較為重要的預(yù)設(shè)個(gè)數(shù)詞向量,則將 預(yù)設(shè)個(gè)數(shù)詞向量對(duì)應(yīng)的詞作為所述文檔的關(guān)鍵詞。
[0035] 本實(shí)施例通過(guò)根據(jù)主題模型和詞向量融合后的隱含主題向量模型對(duì)文檔進(jìn)行訓(xùn) 練,得到與文檔信息相關(guān)的至少一個(gè)主題向量和至少一個(gè)詞向量,進(jìn)一步根據(jù)詞向量與所 述主題向量之間的距離,選取預(yù)設(shè)個(gè)數(shù)詞向量對(duì)應(yīng)的詞作為所述文檔的關(guān)鍵詞。本實(shí)施例 根據(jù)隱含主題向量模型對(duì)文檔進(jìn)行訓(xùn)練,在訓(xùn)練過(guò)程中能夠捕捉更多的文檔信息,從而提 取出的精確表達(dá)文檔信息的關(guān)鍵詞信息。
[0036] 示例性的,為提高提取關(guān)鍵詞的精確度,本發(fā)明實(shí)施例提供了如下兩種計(jì)算所述 詞向量和主題向量之間的距離的方法,其中第一種方法即基于最優(yōu)主題的計(jì)算方法,主要 包括以下步驟:
[0037] 根據(jù)所述文檔的主題分布從至少一個(gè)主題中選取主題分布概率最大的主題作為 最優(yōu)主題;
[0038] 計(jì)算所述詞向量和所述最優(yōu)主題對(duì)應(yīng)的主題向量之間的距離。
[0039] 具體的,對(duì)于某個(gè)文檔,在隱含主題向量模型當(dāng)中,可以訓(xùn)練得到它的文檔的主題 分布即P (z I d),包含所述文檔中每一個(gè)主題對(duì)應(yīng)的主題分布概率,而該主題分布當(dāng)中概率 最大的主題z即最優(yōu)主題則表示該文檔的核心內(nèi)容。因此可以認(rèn)為,文檔當(dāng)中最重要的詞 語(yǔ)就是在向量空間上離主題z的向量表示距離最近的那些詞語(yǔ)。因此,根據(jù)所述主題分布 概率的大小從中選擇一個(gè)主題分布概率最大的主題作為最優(yōu)主題,基于該最優(yōu)的主題對(duì)應(yīng) 的主題向量,計(jì)算與各個(gè)詞向量之間的距離,從而根據(jù)所述詞向量和所述最優(yōu)主題對(duì)應(yīng)的 主題向量之間的距離,選取預(yù)設(shè)個(gè)數(shù)詞向量對(duì)應(yīng)的詞作為所述文檔的關(guān)鍵詞。
[0040] 其中,第二種方法即基于主題分布的計(jì)算方法,主要包括以下步驟: