本發(fā)明涉及語義分析技術(shù)領(lǐng)域,尤其涉及一種新型大規(guī)模文檔主題語義分析方法及系統(tǒng)。
背景技術(shù):
大數(shù)據(jù)時(shí)代,文檔數(shù)量以不曾出現(xiàn)的驚人速度增長,超出人工處理的時(shí)間和精力成本。日常生活中積累的大量數(shù)據(jù)資料:從文本文件到辦公文件,以及圖片、圖像、影像和音頻等以文檔為主要形式的數(shù)據(jù)往往得不到充分利用,而這些文檔中又存在著大量可以挖掘和學(xué)習(xí)的信息。對于數(shù)據(jù)當(dāng)中潛藏著巨大的信息價(jià)值,人們無從下手的原因,一是文檔類型和文檔來源的多樣性,二是文檔內(nèi)容的高緯度和非結(jié)構(gòu)化的特性,關(guān)鍵是文檔數(shù)據(jù)量大。當(dāng)下,大數(shù)據(jù)分析尤其是海量非結(jié)構(gòu)化文檔主題分析,具有深遠(yuǎn)意義:從海量無規(guī)律數(shù)據(jù)中自動(dòng)學(xué)習(xí)模式和知識(shí),結(jié)合可視化技術(shù)對數(shù)據(jù)進(jìn)行分析和解釋,并根據(jù)已有經(jīng)驗(yàn)對存在異常進(jìn)行檢測糾正并實(shí)現(xiàn)趨勢預(yù)測。
現(xiàn)有主題分析方案集中于在傳統(tǒng)詞袋模型基礎(chǔ)上引入語義信息,實(shí)現(xiàn)文檔間的相似度計(jì)算,包括詞頻共現(xiàn)、語義詞典和主題模型。其中,詞頻共現(xiàn)通過計(jì)算語料的統(tǒng)計(jì)信息發(fā)現(xiàn)文檔中以一定頻率共現(xiàn)的詞語,語義詞典通過預(yù)先設(shè)定一系列詞的上下位和所屬關(guān)系。然而詞袋模型由于其數(shù)學(xué)模型的限制,并不適合于大規(guī)模文檔的主題語義分析。傳統(tǒng)機(jī)器學(xué)習(xí)和自然語言處理方法采用詞袋模型處理文本數(shù)據(jù),將文檔以長向量表示,每個(gè)向量的分量代表詞語的對應(yīng)特征值。詞袋模型的提出為處理文本數(shù)據(jù)提供了解決方案,但由于其無法捕獲詞序、語義和句法等信息,難以從大規(guī)模數(shù)據(jù)中學(xué)習(xí)更多有用價(jià)值。再者,大規(guī)模的數(shù)據(jù)容易造成維度災(zāi)難,令詞袋模型無法直接應(yīng)用到大數(shù)據(jù)分析中。
針對詞袋模型語義信息的缺失,現(xiàn)有方案通過引入語義詞典進(jìn)行補(bǔ)償,包括同義詞林、WordNet和HowNet等。然而,此類詞典無法覆蓋所有可能的語義情況,尤其對在詞典中未曾出現(xiàn)過的詞匯和特定領(lǐng)域的知識(shí)支持度低。LDA主題模型通過計(jì)算語料集合的統(tǒng)計(jì)信息獲取文檔、主題和詞語的語義關(guān)系,然而由于其沿用詞袋模型,無法避免在詞匯量巨大時(shí)所引起的維度災(zāi)難,再者,LDA模型訓(xùn)練當(dāng)中的迭代矩陣運(yùn)算導(dǎo)致主題訓(xùn)練時(shí)間過長。
技術(shù)實(shí)現(xiàn)要素:
為了解決上述技術(shù)問題,本發(fā)明的目的是提供一種能適用于大數(shù)據(jù)分析,且能快速完成主題生成的一種新型大規(guī)模文檔主題語義分析方法及系統(tǒng)。
本發(fā)明所采用的技術(shù)方案是:
一種新型大規(guī)模文檔主題語義分析方法,包括以下步驟:
A、檢測已知文檔集合中是否存在分類信息,若是,則執(zhí)行有監(jiān)督主體生成步驟,生成得到多個(gè)主題集合;反之,則執(zhí)行無監(jiān)督主體生成步驟,生成得到多個(gè)主題集合;
B、根據(jù)得到的多個(gè)主題集合,將需要分析的文檔分別計(jì)算與各主題集合的相關(guān)度,從而得到該文檔在關(guān)于主題集合的主題分布情況。
作為所述的一種新型大規(guī)模文檔主題語義分析方法的進(jìn)一步改進(jìn),所述有監(jiān)督主體生成步驟包括:
A11、根據(jù)分類信息,運(yùn)用特征提取算法對已知文檔集合中同一類別的所有文件進(jìn)行關(guān)鍵詞提取,并對提取的關(guān)鍵詞整合到各類別對應(yīng)的特征池當(dāng)中;
A12、將對應(yīng)同一類別的特征池中的關(guān)鍵詞通過聚類算法劃分得到對應(yīng)同一類別的兩個(gè)意群和不相關(guān)特征集合;
A13、將對應(yīng)同一類別的兩個(gè)意群進(jìn)行相關(guān)性識(shí)別,得出對應(yīng)同一類別的強(qiáng)相關(guān)特征集合和弱相關(guān)特征集合;
A14、在同一類別下,對已知文檔集合和弱相關(guān)特征集合中的關(guān)鍵詞進(jìn)行遍歷,分別計(jì)算其與強(qiáng)相關(guān)特征集合的相關(guān)度,并將相關(guān)度大于自適應(yīng)值的關(guān)鍵詞整合至強(qiáng)相關(guān)特征集合中,進(jìn)而得到對應(yīng)各個(gè)類別的多個(gè)主題集合。
作為所述的一種新型大規(guī)模文檔主題語義分析方法的進(jìn)一步改進(jìn),所述無監(jiān)督主體生成步驟包括:
A21、運(yùn)用特征提取算法對已知文檔集合中所有文件進(jìn)行關(guān)鍵詞提取,并對提取的關(guān)鍵詞整合到特征池當(dāng)中;
A22、對特征池內(nèi)所有關(guān)鍵詞對應(yīng)的詞向量進(jìn)行聚類分析,得出代表已知文檔集合中各語義分類的多個(gè)簇,進(jìn)而得到分類信息;
A23、根據(jù)分類信息,將特征池中對應(yīng)同一類別的關(guān)鍵詞通過聚類算法劃分得到對應(yīng)同一類別的兩個(gè)意群和不相關(guān)特征集合;
A24、將對應(yīng)同一類別的兩個(gè)意群進(jìn)行相關(guān)性識(shí)別,得出對應(yīng)同一類別的強(qiáng)相關(guān)特征集合和弱相關(guān)特征集合;
A25、在同一類別下,對弱相關(guān)特征集合和已知文檔集合中未利用過的關(guān)鍵詞進(jìn)行遍歷,分別計(jì)算其與強(qiáng)相關(guān)特征集合的相關(guān)度,并將相關(guān)度大于自適應(yīng)值的關(guān)鍵詞整合至強(qiáng)相關(guān)特征集合中,進(jìn)而得到對應(yīng)各個(gè)類別的多個(gè)主題集合。
作為所述的一種新型大規(guī)模文檔主題語義分析方法的進(jìn)一步改進(jìn),所述步驟A12包括:
A121、將對應(yīng)同一類別的特征池內(nèi)所有關(guān)鍵詞對應(yīng)的詞向量進(jìn)行二元聚類分析,將關(guān)鍵詞拆分成兩個(gè)意群,并計(jì)算兩個(gè)意群的簇心;
A122、計(jì)算各意群中關(guān)鍵詞距離對應(yīng)簇心的歐氏距離;
A123、檢測各關(guān)鍵詞距離對應(yīng)簇心的歐氏距離,判斷其是否大于預(yù)設(shè)的距離閾值,若是,則將該關(guān)鍵詞移除至不相關(guān)特征集合,并將剩余的關(guān)鍵詞重新組合為新的特征池,進(jìn)而返回執(zhí)行步驟A121;反之,則執(zhí)行步驟A13。
作為所述的一種新型大規(guī)模文檔主題語義分析方法的進(jìn)一步改進(jìn),所述步驟A13包括:
A131、在對應(yīng)同一類別的兩個(gè)意群中,從第一意群任意提取兩組η元組X1和X2,從第二意群中任意提取一組η元組Y1;
A132、將η元組X1和X2整合為新的2η元組XX1,將η元組X1和Y1整合為新的2η元組XY1;
A133、分別計(jì)算新的2η元組XX1和XY1內(nèi)兩兩關(guān)鍵詞之間的相似度,并分別計(jì)算2η元組XX1和XY1各自的相似度之和,進(jìn)而計(jì)算出兩者的差值,得到第一相似度差值;
A134、從第二意群任意提取兩組η元組M1和M2,從第一意群中任意提取一組η元組N1;
A135、將η元組M1和M2整合為新的2η元組MM1,將η元組M1和N1整合為新的2η元組MN1;
A136、分別計(jì)算新的2η元組MM1和MN1內(nèi)兩兩關(guān)鍵詞之間的相似度,并分別計(jì)算2η元組MM1和MN1各自的相似度之和,進(jìn)而計(jì)算出兩者的差值,得到第二相似度差值;
A137、判斷第一相似度差值是否大于第二相似度差值,若是,則判定第一意群為強(qiáng)相關(guān)特征集合,第二意群為弱相關(guān)特征集合;反之,則判定第二意群為強(qiáng)相關(guān)特征集合,第一意群為弱相關(guān)特征集合。
作為所述的一種新型大規(guī)模文檔主題語義分析方法的進(jìn)一步改進(jìn),所述相似度的具體計(jì)算公式為:
其中,w1和w2分別為兩個(gè)關(guān)鍵詞對應(yīng)的詞向量,m表示詞向量的維度,sim<w1,w2>表示兩個(gè)關(guān)鍵詞的相似度。
作為所述的一種新型大規(guī)模文檔主題語義分析方法的進(jìn)一步改進(jìn),所述相關(guān)度的具體計(jì)算公式為:
其中,wx表示關(guān)鍵詞對應(yīng)的詞向量,W表示特征集合,這里表示強(qiáng)相關(guān)特征集合,w表示特征集合中關(guān)鍵詞對應(yīng)的詞向量,這里表示強(qiáng)相關(guān)特征集合中關(guān)鍵詞對應(yīng)的詞向量,rel[wx,W]表示關(guān)鍵詞wx與特征集合W的相關(guān)度,m表示詞向量的維度。
作為所述的一種新型大規(guī)模文檔主題語義分析方法的進(jìn)一步改進(jìn),所述自適應(yīng)值的具體計(jì)算公式為:
其中,N表示強(qiáng)相關(guān)特征集合,di表示已知文檔集合或弱相關(guān)特征集合中關(guān)鍵詞對應(yīng)的當(dāng)前文檔,|di|表示當(dāng)前文檔的關(guān)鍵詞數(shù)量,|d′i|是當(dāng)前文檔中和N正相關(guān)的關(guān)鍵詞數(shù)量,γ表示自適應(yīng)值,w表示已知文檔集合或弱相關(guān)特征集合中的關(guān)鍵詞對應(yīng)的詞向量,n表示強(qiáng)相關(guān)特征集合中關(guān)鍵詞對應(yīng)的詞向量,m表示詞向量的維度。
本發(fā)明所采用的另一技術(shù)方案是:
一種新型大規(guī)模文檔主題語義分析系統(tǒng),包括:
主題集合生成單元,用于檢測已知文檔集合中是否存在分類信息,若是,則執(zhí)行有監(jiān)督主體生成步驟,生成得到多個(gè)主題集合;反之,則執(zhí)行無監(jiān)督主體生成步驟,生成得到多個(gè)主題集合;
主題分析單元,用于根據(jù)得到的多個(gè)主題集合,將需要分析的文檔分別計(jì)算與各主題集合的相關(guān)度,從而得到該文檔在關(guān)于主題集合的主題分布情況。
本發(fā)明的有益效果是:
本發(fā)明一種新型大規(guī)模文檔主題語義分析方法及系統(tǒng)通過有監(jiān)督主體生成步驟和無監(jiān)督主體生成步驟生成得到主題集合,從而能對給定文檔進(jìn)行相關(guān)度計(jì)算,得到主題分布情況,本發(fā)明能從大規(guī)模文檔數(shù)據(jù)當(dāng)中自動(dòng)、快速、靈活、有效地完成主題生成,并分析評估任意給定文檔在生成主題上的主題分布,適用于快速生成主題的場合。而且本發(fā)明沒有針對特定場景或領(lǐng)域知識(shí)進(jìn)行優(yōu)化,原則上支持任意文檔集合,具備廣義性。
附圖說明
下面結(jié)合附圖對本發(fā)明的具體實(shí)施方式作進(jìn)一步說明:
圖1是本發(fā)明一種新型大規(guī)模文檔主題語義分析方法的步驟流程圖;
圖2是本發(fā)明一種新型大規(guī)模文檔主題語義分析方法中有監(jiān)督主體生成步驟的步驟流程圖;
圖3是本發(fā)明一種新型大規(guī)模文檔主題語義分析方法中無監(jiān)督主體生成步驟的步驟流程圖;
圖4是本發(fā)明一種新型大規(guī)模文檔主題語義分析系統(tǒng)的系統(tǒng)方框圖。
具體實(shí)施方式
參考圖1,本發(fā)明一種新型大規(guī)模文檔主題語義分析方法,包括以下步驟:
A、檢測已知文檔集合中是否存在分類信息,若是,則執(zhí)行有監(jiān)督主體生成步驟,生成得到多個(gè)主題集合;反之,則執(zhí)行無監(jiān)督主體生成步驟,生成得到多個(gè)主題集合;
B、根據(jù)得到的多個(gè)主題集合,將需要分析的文檔分別計(jì)算與各主題集合的相關(guān)度,從而得到該文檔在關(guān)于主題集合的主題分布情況。
本發(fā)明根據(jù)主題分布情況,通過自適應(yīng)主題選擇的方法判斷和當(dāng)前文檔最為貼近的若干個(gè)主題,實(shí)現(xiàn)基于語義的文檔自動(dòng)主題分析。具體而言,本發(fā)明能針對不同應(yīng)用場合提供四種主題選擇方法:分隔消除(某些情況下表現(xiàn)穩(wěn)定)、雙算術(shù)平均消除(適合較少主題數(shù)場合)、雙算術(shù)平均方差消除(適合精準(zhǔn)度優(yōu)先場合)、雙調(diào)和平均消除(兼顧主題數(shù)和精準(zhǔn)度),計(jì)算得到的主題分布具有更多潛在用途。
參考圖2,進(jìn)一步作為優(yōu)選的實(shí)施方式,所述有監(jiān)督主體生成步驟包括:
A11、根據(jù)分類信息,運(yùn)用特征提取算法對已知文檔集合中同一類別的所有文件進(jìn)行關(guān)鍵詞提取,并對提取的關(guān)鍵詞整合到各類別對應(yīng)的特征池當(dāng)中;
A12、將對應(yīng)同一類別的特征池中的關(guān)鍵詞通過聚類算法劃分得到對應(yīng)同一類別的兩個(gè)意群和不相關(guān)特征集合;
A13、將對應(yīng)同一類別的兩個(gè)意群進(jìn)行相關(guān)性識(shí)別,得出對應(yīng)同一類別的強(qiáng)相關(guān)特征集合和弱相關(guān)特征集合;
A14、在同一類別下,對已知文檔集合和弱相關(guān)特征集合中的關(guān)鍵詞進(jìn)行遍歷,分別計(jì)算其與強(qiáng)相關(guān)特征集合的相關(guān)度,并將相關(guān)度大于自適應(yīng)值的關(guān)鍵詞整合至強(qiáng)相關(guān)特征集合中,進(jìn)而得到對應(yīng)各個(gè)類別的多個(gè)主題集合。
參考圖3,進(jìn)一步作為優(yōu)選的實(shí)施方式,所述無監(jiān)督主體生成步驟包括:
A21、運(yùn)用特征提取算法對已知文檔集合中所有文件進(jìn)行關(guān)鍵詞提取,并對提取的關(guān)鍵詞整合到特征池當(dāng)中;
A22、對特征池內(nèi)所有關(guān)鍵詞對應(yīng)的詞向量進(jìn)行聚類分析,得出代表已知文檔集合中各語義分類的多個(gè)簇,進(jìn)而得到分類信息;
A23、根據(jù)分類信息,將特征池中對應(yīng)同一類別的關(guān)鍵詞通過聚類算法劃分得到對應(yīng)同一類別的兩個(gè)意群和不相關(guān)特征集合;
A24、將對應(yīng)同一類別的兩個(gè)意群進(jìn)行相關(guān)性識(shí)別,得出對應(yīng)同一類別的強(qiáng)相關(guān)特征集合和弱相關(guān)特征集合;
A25、在同一類別下,對弱相關(guān)特征集合和已知文檔集合中未利用過的關(guān)鍵詞進(jìn)行遍歷,分別計(jì)算其與強(qiáng)相關(guān)特征集合的相關(guān)度,并將相關(guān)度大于自適應(yīng)值的關(guān)鍵詞整合至強(qiáng)相關(guān)特征集合中,進(jìn)而得到對應(yīng)各個(gè)類別的多個(gè)主題集合。
其中,特征提取算法的選取可根據(jù)實(shí)際需要選取,如詞頻或文檔評率等。本發(fā)明具體實(shí)施例中,特征提取算法采用TextRank算法完成,聚類算法采用K-Means算法完成。
進(jìn)一步作為優(yōu)選的實(shí)施方式,所述步驟A12包括:
A121、將對應(yīng)同一類別的特征池內(nèi)所有關(guān)鍵詞對應(yīng)的詞向量進(jìn)行二元聚類分析,將關(guān)鍵詞拆分成兩個(gè)意群,并計(jì)算兩個(gè)意群的簇心;
A122、計(jì)算各意群中關(guān)鍵詞距離對應(yīng)簇心的歐氏距離;
A123、檢測各關(guān)鍵詞距離對應(yīng)簇心的歐氏距離,判斷其是否大于預(yù)設(shè)的距離閾值,若是,則將該關(guān)鍵詞移除至不相關(guān)特征集合,并將剩余的關(guān)鍵詞重新組合為新的特征池,進(jìn)而返回執(zhí)行步驟A121;反之,則執(zhí)行步驟A13。
本發(fā)明具體實(shí)施例中,預(yù)設(shè)的距離閾值設(shè)為1,因此,算法對特征池的所有關(guān)鍵詞的對應(yīng)的詞向量進(jìn)行二元聚類,將關(guān)鍵詞拆分成為兩個(gè)意群,并計(jì)算他們的簇心。對于每一個(gè)意群,將離簇心歐氏距離大于1的關(guān)鍵詞視作不相關(guān)特征并予以移除。此后,兩個(gè)意群將重新組合成為新的特征池并再次進(jìn)行二元聚類和不相關(guān)特征移除的操作,不斷迭代直到特征池內(nèi)元素的個(gè)數(shù)不再變化為止。最終,原始特征池被劃分成三個(gè)部分:兩個(gè)意群和不相關(guān)特征集合。
進(jìn)一步作為優(yōu)選的實(shí)施方式,所述步驟A13包括:
A131、在對應(yīng)同一類別的兩個(gè)意群中,從第一意群任意提取兩組η元組X1和X2,從第二意群中任意提取一組η元組Y1;
A132、將η元組X1和X2整合為新的2η元組XX1,將η元組X1和Y1整合為新的2η元組XY1;
A133、分別計(jì)算新的2η元組XX1和XY1內(nèi)兩兩關(guān)鍵詞之間的相似度,并分別計(jì)算2η元組XX1和XY1各自的相似度之和,進(jìn)而計(jì)算出兩者的差值,得到第一相似度差值;
A134、從第二意群任意提取兩組η元組M1和M2,從第一意群中任意提取一組η元組N1;
A135、將η元組M1和M2整合為新的2η元組MM1,將η元組M1和N1整合為新的2η元組MN1;
A136、分別計(jì)算新的2η元組MM1和MN1內(nèi)兩兩關(guān)鍵詞之間的相似度,并分別計(jì)算2η元組MM1和MN1各自的相似度之和,進(jìn)而計(jì)算出兩者的差值,得到第二相似度差值;
A137、判斷第一相似度差值是否大于第二相似度差值,若是,則判定第一意群為強(qiáng)相關(guān)特征集合,第二意群為弱相關(guān)特征集合;反之,則判定第二意群為強(qiáng)相關(guān)特征集合,第一意群為弱相關(guān)特征集合。
本發(fā)明實(shí)施例中,事實(shí)上,兩個(gè)意群中哪一個(gè)與當(dāng)前分類中心思想比較貼近通過人工觀察很容易得出結(jié)果,以汽車類別為例子,若從兩個(gè)意群中分別去除任意兩個(gè)三元組X1={方向盤,引擎,氣囊},X2={發(fā)動(dòng)機(jī),油門,車輪},Y1={企業(yè),市場,領(lǐng)域},Y2={公司,戰(zhàn)略,人士},通過觀察可知,X1和X2中均為汽車零件的關(guān)鍵詞,而Y1中的元素相對難以理解彼此的關(guān)系更無法直接看出其與汽車列別存在的關(guān)系。尤其當(dāng)元組的長度增加時(shí),上述情況會(huì)更加明顯。
為此,本發(fā)明提出粘度計(jì)算的概念,即一組特征集合相對于另一組特征集合的內(nèi)聚度。具體而言,首先從每個(gè)特征集合中生成對應(yīng)的η-組合,η是一個(gè)自定義的常整數(shù);強(qiáng)相關(guān)特征組的任意元素組合應(yīng)取得比弱相關(guān)特征組更高的內(nèi)聚度,故輪流假設(shè)當(dāng)前意群為強(qiáng)相關(guān)特征;對于假設(shè)強(qiáng)相關(guān)特征集合,即本實(shí)施例中的第一意群,提取兩組η元組X1和X2,而對于假設(shè)弱相關(guān)特征集合,即本實(shí)施例中的第二意群,提取一組η元組Y1,并對X1,X2,Y1重新整合為兩個(gè)新的2η元組,即“正例+正例”(X1∪X2)和“正例+負(fù)例”(X1∪Y1),分別計(jì)算新2η元組內(nèi)兩兩元素間的相似度之和,并計(jì)算兩個(gè)元組兩兩元素間相似度之和的差值,得出第一相似度差值。計(jì)算完畢后,將假設(shè)的強(qiáng)弱特征集合角色反轉(zhuǎn),并重新執(zhí)行計(jì)算,得到第二相似度差值,最終,比較第一相似度差值和第二相似度差值,其中數(shù)值較大的值對應(yīng)的意群即對應(yīng)實(shí)際的強(qiáng)相關(guān)特征集合。
進(jìn)一步作為優(yōu)選的實(shí)施方式,所述相似度的具體計(jì)算公式為:
其中,w1和w2分別為兩個(gè)關(guān)鍵詞對應(yīng)的詞向量,m表示詞向量的維度,sim<w1,w2>表示兩個(gè)關(guān)鍵詞的相似度。
進(jìn)一步作為優(yōu)選的實(shí)施方式,所述相關(guān)度的具體計(jì)算公式為:
其中,wx表示關(guān)鍵詞對應(yīng)的詞向量,W表示特征集合,這里表示強(qiáng)相關(guān)特征集合,w表示特征集合中關(guān)鍵詞對應(yīng)的詞向量,這里表示強(qiáng)相關(guān)特征集合中關(guān)鍵詞對應(yīng)的詞向量,rel[wx,W]表示關(guān)鍵詞wx與特征集合W的相關(guān)度,m表示詞向量的維度。
進(jìn)一步作為優(yōu)選的實(shí)施方式,所述自適應(yīng)值的具體計(jì)算公式為:
其中,N表示強(qiáng)相關(guān)特征集合,di表示已知文檔集合或弱相關(guān)特征集合中關(guān)鍵詞對應(yīng)的當(dāng)前文檔,|di|表示當(dāng)前文檔的關(guān)鍵詞數(shù)量,|d′i|是當(dāng)前文檔中和N正相關(guān)的關(guān)鍵詞數(shù)量,γ表示自適應(yīng)值,w表示已知文檔集合或弱相關(guān)特征集合中的關(guān)鍵詞對應(yīng)的詞向量,n表示強(qiáng)相關(guān)特征集合中關(guān)鍵詞對應(yīng)的詞向量,m表示詞向量的維度。
參考圖4,本發(fā)明一種新型大規(guī)模文檔主題語義分析系統(tǒng),包括:
主題集合生成單元,用于檢測已知文檔集合中是否存在分類信息,若是,則執(zhí)行有監(jiān)督主體生成步驟,生成得到多個(gè)主題集合;反之,則執(zhí)行無監(jiān)督主體生成步驟,生成得到多個(gè)主題集合;
主題分析單元,用于根據(jù)得到的多個(gè)主題集合,將需要分析的文檔分別計(jì)算與各主題集合的相關(guān)度,從而得到該文檔在關(guān)于主題集合的主題分布情況。
從上述內(nèi)容可知,本發(fā)明一種新型大規(guī)模文檔主題語義分析方法及系統(tǒng)通過有監(jiān)督主體生成步驟和無監(jiān)督主體生成步驟生成得到主題集合,從而能對給定文檔進(jìn)行相關(guān)度計(jì)算,得到主題分布情況,本發(fā)明能從大規(guī)模文檔數(shù)據(jù)當(dāng)中自動(dòng)、快速、靈活、有效地完成主題生成,并分析評估任意給定文檔在生成主題上的主題分布,適用于快速生成主題的場合。而且本發(fā)明沒有針對特定場景或領(lǐng)域知識(shí)進(jìn)行優(yōu)化,原則上支持任意文檔集合,具備廣義性。
以上是對本發(fā)明的較佳實(shí)施進(jìn)行了具體說明,但本發(fā)明創(chuàng)造并不限于所述實(shí)施例,熟悉本領(lǐng)域的技術(shù)人員在不違背本發(fā)明精神的前提下還可做作出種種的等同變形或替換,這些等同的變形或替換均包含在本申請權(quán)利要求所限定的范圍內(nèi)。