取預(yù)定數(shù)量的分詞作為所述 目標(biāo)文檔的主題詞。
[0077] W上結(jié)合附圖詳細(xì)描述了本發(fā)明的優(yōu)選實(shí)施方式,但是,本發(fā)明并不限于上述實(shí) 施方式中的具體細(xì)節(jié),在本發(fā)明的技術(shù)構(gòu)思范圍內(nèi),可W對(duì)本發(fā)明的技術(shù)方案進(jìn)行多種簡(jiǎn) 單變型,運(yùn)些簡(jiǎn)單變型均屬于本發(fā)明的保護(hù)范圍。
[0078] 此外,盡管在附圖中W特定順序描述了本發(fā)明方法的操作,但是,運(yùn)并非要求或者 暗示必須按照該特定順序來(lái)執(zhí)行運(yùn)些操作,或是必須執(zhí)行全部所示的操作才能實(shí)現(xiàn)期望的 結(jié)果。附加地或備選地,可W省略某些步驟,將多個(gè)步驟合并為一個(gè)步驟執(zhí)行,和/或?qū)⒁粋€(gè) 步驟分解為多個(gè)步驟執(zhí)行。
[0079] 本領(lǐng)域技術(shù)人員知道,本發(fā)明的實(shí)施方式可W實(shí)現(xiàn)為一種系統(tǒng)、裝置、設(shè)備、方法 或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明的實(shí)施方式可W具體實(shí)現(xiàn)為W下形式,即:完全的硬件、完 全的軟件(包括固件、駐留軟件、微代碼等),或者硬件和軟件結(jié)合的形式。
[0080] 另外需要說(shuō)明的是,在上述【具體實(shí)施方式】中所描述的各個(gè)具體技術(shù)特征,在不矛 盾的情況下,可W通過(guò)任何合適的方式進(jìn)行組合。為了避免不必要的重復(fù),本發(fā)明對(duì)各種可 能的組合方式不再另行說(shuō)明。
[0081] 此外,本發(fā)明的各種不同的實(shí)施方式之間也可W進(jìn)行任意組合,只要其不違背本 發(fā)明的思想,其同樣應(yīng)當(dāng)視為本發(fā)明所公開(kāi)的內(nèi)容。
【主權(quán)項(xiàng)】
1. 一種文檔主題詞提取方法,其特征在于,所述方法包括: 對(duì)目標(biāo)文檔進(jìn)行分詞處理,其中,所述目標(biāo)文檔為文檔庫(kù)中的任一文檔; 針對(duì)同一分詞,根據(jù)該分詞在所述目標(biāo)文檔中每次出現(xiàn)時(shí)的分詞屬性,獲取與所述分 詞屬性相對(duì)應(yīng)的權(quán)值,并根據(jù)所述權(quán)值,確定該分詞在所述目標(biāo)文檔中的詞頻權(quán)重; 基于所述文檔庫(kù),確定所述分詞的逆向文檔頻率; 基于所述詞頻權(quán)重和所述逆向文檔頻率,提取預(yù)定數(shù)量的分詞作為所述目標(biāo)文檔的主 題詞。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取與所述分詞屬性相對(duì)應(yīng)的權(quán)值, 包括: 判斷所述分詞屬性是否滿(mǎn)足多個(gè)預(yù)設(shè)條件中的至少一個(gè)預(yù)設(shè)條件; 在所述分詞屬性不滿(mǎn)足任一預(yù)設(shè)條件時(shí),獲取預(yù)設(shè)的基準(zhǔn)權(quán)值作為與所述分詞屬性相 對(duì)應(yīng)的權(quán)值。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取與所述分詞屬性相對(duì)應(yīng)的權(quán)值, 還包括: 在所述分詞屬性滿(mǎn)足至少一個(gè)預(yù)設(shè)條件時(shí),獲取所述分詞屬性所滿(mǎn)足的各個(gè)預(yù)設(shè)條件 所對(duì)應(yīng)的權(quán)值,并將獲取到的各個(gè)預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值的乘積作為與所述分詞屬性相對(duì) 應(yīng)的權(quán)值。4. 根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述分詞屬性包括分詞位置、字體樣 式、字體號(hào)和分詞內(nèi)容;以及,所述多個(gè)預(yù)設(shè)條件包括:分詞位置位于段首;分詞位置位于標(biāo) 題;分詞的字體樣式為粗體;分詞的字體樣式為斜體;分詞的字體號(hào)大于常規(guī)字體號(hào);分詞 的字體號(hào)小于常規(guī)字體號(hào);分詞內(nèi)容與預(yù)設(shè)的干擾詞內(nèi)容相匹配。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述分詞位置位于段首這一預(yù)設(shè)條件所對(duì) 應(yīng)的權(quán)值、所述分詞位置位于標(biāo)題這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞的字體樣式為粗 體這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞的字體樣式為斜體這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、 以及所述分詞的字體號(hào)大于常規(guī)字體號(hào)這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值大于所述基準(zhǔn)權(quán)值;以 及 所述分詞的字體號(hào)小于常規(guī)字體號(hào)這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞內(nèi)容與預(yù)設(shè) 的干擾詞內(nèi)容相匹配這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值小于所述基準(zhǔn)權(quán)值。6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,通過(guò)以下方式來(lái)確定該分詞在所述目標(biāo)文 檔中的詞頻權(quán)重:其中,TFW表示分詞的詞頻權(quán)重;Wn表示該分詞在所述目標(biāo)文檔中第η次出現(xiàn)時(shí)的分詞屬 性所對(duì)應(yīng)的權(quán)值;Ν表示該分詞在所述目標(biāo)文檔中的總出現(xiàn)次數(shù);I表示所述目標(biāo)文檔中的 分詞總數(shù)。7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述詞頻權(quán)重和所述逆向文檔頻 率,提取預(yù)定數(shù)量的分詞作為所述目標(biāo)文檔的主題詞,包括: 計(jì)算所述分詞的詞頻權(quán)重與逆向文檔頻率的乘積; 按照所述詞頻權(quán)重與所述逆向文檔頻率的乘積從大到小的順序,提取預(yù)定數(shù)量的分詞 作為所述目標(biāo)文檔的主題詞。8. -種文檔主題詞提取裝置,其特征在于,所述裝置包括: 分詞處理模塊,被配置為對(duì)目標(biāo)文檔進(jìn)行分詞處理,其中,所述目標(biāo)文檔為文檔庫(kù)中的 任一文檔; 權(quán)值獲取模塊,被配置為針對(duì)同一分詞,根據(jù)該分詞在所述目標(biāo)文檔中每次出現(xiàn)時(shí)的 分詞屬性,獲取與所述分詞屬性相對(duì)應(yīng)的權(quán)值; 詞頻權(quán)重確定模塊,被配置為根據(jù)所述權(quán)值,確定該分詞在所述目標(biāo)文檔中的詞頻權(quán) 重; 逆向文檔頻率確定模塊,被配置為基于所述文檔庫(kù),確定所述分詞的逆向文檔頻率; 主題詞提取模塊,被配置為基于所述詞頻權(quán)重和所述逆向文檔頻率,提取預(yù)定數(shù)量的 分詞作為所述目標(biāo)文檔的主題詞。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述權(quán)值獲取模塊包括: 判斷子模塊,被配置為判斷所述分詞屬性是否滿(mǎn)足多個(gè)預(yù)設(shè)條件中的至少一個(gè)預(yù)設(shè)條 件; 第一權(quán)值獲取子模塊,被配置為在所述分詞屬性不滿(mǎn)足任一預(yù)設(shè)條件時(shí),獲取預(yù)設(shè)的 基準(zhǔn)權(quán)值作為與所述分詞屬性相對(duì)應(yīng)的權(quán)值。10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述權(quán)值獲取模塊還包括: 第二權(quán)值獲取子模塊,被配置為在所述分詞屬性滿(mǎn)足至少一個(gè)預(yù)設(shè)條件時(shí),獲取所述 分詞屬性所滿(mǎn)足的各個(gè)預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值,并將獲取到的各個(gè)預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值 的乘積作為與所述分詞屬性相對(duì)應(yīng)的權(quán)值。11. 根據(jù)權(quán)利要求9或10所述的裝置,其特征在于,所述分詞屬性包括分詞位置、字體樣 式、字體號(hào)和分詞內(nèi)容;以及,所述多個(gè)預(yù)設(shè)條件包括:分詞位置位于段首;分詞位置位于標(biāo) 題;分詞的字體樣式為粗體;分詞的字體樣式為斜體;分詞的字體號(hào)大于常規(guī)字體號(hào);分詞 的字體號(hào)小于常規(guī)字體號(hào);分詞內(nèi)容與預(yù)設(shè)的干擾詞內(nèi)容相匹配。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述分詞位置位于段首這一預(yù)設(shè)條件所 對(duì)應(yīng)的權(quán)值、所述分詞位置位于標(biāo)題這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞的字體樣式為 粗體這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞的字體樣式為斜體這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán) 值、以及所述分詞的字體號(hào)大于常規(guī)字體號(hào)這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值大于所述基準(zhǔn)權(quán) 值;以及 所述分詞的字體號(hào)小于常規(guī)字體號(hào)這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞內(nèi)容與預(yù)設(shè) 的干擾詞內(nèi)容相匹配這一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值小于所述基準(zhǔn)權(quán)值。13. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述詞頻權(quán)重確定模塊被配置為通過(guò)以 下方式來(lái)確定該分詞在所述目標(biāo)文檔中的詞頻權(quán)重:其中,TFW表示分詞的詞頻權(quán)重;Wn表示該分詞在所述目標(biāo)文檔中第η次出現(xiàn)時(shí)的分詞屬 性所對(duì)應(yīng)的權(quán)值;Ν表示該分詞在所述目標(biāo)文檔中的總出現(xiàn)次數(shù);I表示所述目標(biāo)文檔中的 分詞總數(shù)。14.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述主題詞提取模塊包括: 計(jì)算子模塊,被配置為計(jì)算所述分詞的詞頻權(quán)重與逆向文檔頻率的乘積; 主題詞提取子模塊,被配置為按照所述詞頻權(quán)重與所述逆向文檔頻率的乘積從大到小 的順序,提取預(yù)定數(shù)量的分詞作為所述目標(biāo)文檔的主題詞。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種文檔主題詞提取方法及裝置。所述方法包括:對(duì)目標(biāo)文檔進(jìn)行分詞處理,其中,所述目標(biāo)文檔為文檔庫(kù)中的任一文檔;針對(duì)同一分詞,根據(jù)該分詞在所述目標(biāo)文檔中每次出現(xiàn)時(shí)的分詞屬性,獲取與所述分詞屬性相對(duì)應(yīng)的權(quán)值,并根據(jù)所述權(quán)值,確定該分詞在所述目標(biāo)文檔中的詞頻權(quán)重;基于所述文檔庫(kù),確定所述分詞的逆向文檔頻率;基于所述詞頻權(quán)重和所述逆向文檔頻率,提取預(yù)定數(shù)量的分詞作為所述目標(biāo)文檔的主題詞。由此使得所提取出的主題詞具有更高的準(zhǔn)確性和可靠性,能夠更客觀地表示該文檔的中心思想,從而能夠?yàn)楹罄m(xù)的文檔分類(lèi)、文檔推薦等提供準(zhǔn)確、可靠的數(shù)據(jù)支持,使得文檔分類(lèi)結(jié)果更為準(zhǔn)確、文檔推薦結(jié)果更符合用戶(hù)需求等等。
【IPC分類(lèi)】G06F17/27
【公開(kāi)號(hào)】CN105630769
【申請(qǐng)?zhí)枴緾N201510990608
【發(fā)明人】趙博
【申請(qǐng)人】東軟集團(tuán)股份有限公司
【公開(kāi)日】2016年6月1日
【申請(qǐng)日】2015年12月24日