文檔主題詞提取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)處理領(lǐng)域,具體地,設(shè)及一種文檔主題詞提取方法及裝置。
【背景技術(shù)】
[0002] 主題詞是一篇文章所表達(dá)的中屯、思想,主題信息挖掘是有效解決文檔空間向量高 維稀疏性,提高文本分類質(zhì)量的重要手段,同時(shí)也在信息推薦中起到了重要的作用。評(píng)估一 個(gè)詞匯對(duì)于一個(gè)文檔庫(kù)中的其中一份文檔的重要程度的算法常用的是TF( Term Rrequency,詞頻)-IDF(Inverse Do州ment Rrequency,逆向文檔頻率)算法。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的是提供一種文檔主題詞提取方法及裝置,W使得提取出的主題詞更 為準(zhǔn)確。
[0004] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的第一方面,提供一種文檔主題詞提取方法,所述 方法包括:對(duì)目標(biāo)文檔進(jìn)行分詞處理,其中,所述目標(biāo)文檔為文檔庫(kù)中的任一文檔;針對(duì)同 一分詞,根據(jù)該分詞在所述目標(biāo)文檔中每次出現(xiàn)時(shí)的分詞屬性,獲取與所述分詞屬性相對(duì) 應(yīng)的權(quán)值,并根據(jù)所述權(quán)值,確定該分詞在所述目標(biāo)文檔中的詞頻權(quán)重;基于所述文檔庫(kù), 確定所述分詞的逆向文檔頻率;基于所述詞頻權(quán)重和所述逆向文檔頻率,提取預(yù)定數(shù)量的 分詞作為所述目標(biāo)文檔的主題詞。
[0005] 在第一方面的一些可選的實(shí)施方式中,所述獲取與所述分詞屬性相對(duì)應(yīng)的權(quán)值, 包括:判斷所述分詞屬性是否滿足多個(gè)預(yù)設(shè)條件中的至少一個(gè)預(yù)設(shè)條件;在所述分詞屬性 不滿足任一預(yù)設(shè)條件時(shí),獲取預(yù)設(shè)的基準(zhǔn)權(quán)值作為與所述分詞屬性相對(duì)應(yīng)的權(quán)值。
[0006] 在第一方面的一些可選的實(shí)施方式中,所述獲取與所述分詞屬性相對(duì)應(yīng)的權(quán)值, 還包括:在所述分詞屬性滿足至少一個(gè)預(yù)設(shè)條件時(shí),獲取所述分詞屬性所滿足的各個(gè)預(yù)設(shè) 條件所對(duì)應(yīng)的權(quán)值,并將獲取到的各個(gè)預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值的乘積作為與所述分詞屬性 相對(duì)應(yīng)的權(quán)值。
[0007] 在第一方面的一些可選的實(shí)施方式中,所述分詞屬性包括分詞位置、字體樣式、字 體號(hào)和分詞內(nèi)容;W及,所述多個(gè)預(yù)設(shè)條件包括:分詞位置位于段首;分詞位置位于標(biāo)題;分 詞的字體樣式為粗體;分詞的字體樣式為斜體;分詞的字體號(hào)大于常規(guī)字體號(hào);分詞的字體 號(hào)小于常規(guī)字體號(hào);分詞內(nèi)容與預(yù)設(shè)的干擾詞內(nèi)容相匹配。
[000引在第一方面的一些可選的實(shí)施方式中,所述分詞位置位于段首運(yùn)一預(yù)設(shè)條件所對(duì) 應(yīng)的權(quán)值、所述分詞位置位于標(biāo)題運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞的字體樣式為粗 體運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞的字體樣式為斜體運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、 W及所述分詞的字體號(hào)大于常規(guī)字體號(hào)運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值大于所述基準(zhǔn)權(quán)值;W 及所述分詞的字體號(hào)小于常規(guī)字體號(hào)運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞內(nèi)容與預(yù)設(shè)的 干擾詞內(nèi)容相匹配運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值小于所述基準(zhǔn)權(quán)值。
[0009]在第一方面的一些可選的實(shí)施方式中,通過(guò)W下方式來(lái)確定該分詞在所述目標(biāo)文 檔中的詞頻權(quán)重:
[0010]
[ocm]其中,TFW表示分詞的詞頻權(quán)重;Wn表示該分詞在所述目標(biāo)文檔中第η次出現(xiàn)時(shí)的 分詞屬性所對(duì)應(yīng)的權(quán)值;Ν表示該分詞在所述目標(biāo)文檔中的總出現(xiàn)次數(shù);I表示所述目標(biāo)文 檔中的分詞總數(shù)。
[0012] 在第一方面的一些可選的實(shí)施方式中,所述基于所述詞頻權(quán)重和所述逆向文檔頻 率,提取預(yù)定數(shù)量的分詞作為所述目標(biāo)文檔的主題詞,包括:計(jì)算所述分詞的詞頻權(quán)重與逆 向文檔頻率的乘積;按照所述詞頻權(quán)重與所述逆向文檔頻率的乘積從大到小的順序,提取 預(yù)定數(shù)量的分詞作為所述目標(biāo)文檔的主題詞。
[0013] 根據(jù)本發(fā)明的第二方面,提供一種文檔主題詞提取裝置,所述裝置包括:分詞處理 模塊,被配置為對(duì)目標(biāo)文檔進(jìn)行分詞處理,其中,所述目標(biāo)文檔為文檔庫(kù)中的任一文檔;權(quán) 值獲取模塊,被配置為針對(duì)同一分詞,根據(jù)該分詞在所述目標(biāo)文檔中每次出現(xiàn)時(shí)的分詞屬 性,獲取與所述分詞屬性相對(duì)應(yīng)的權(quán)值;詞頻權(quán)重確定模塊,被配置為根據(jù)所述權(quán)值,確定 該分詞在所述目標(biāo)文檔中的詞頻權(quán)重;逆向文檔頻率確定模塊,被配置為基于所述文檔庫(kù), 確定所述分詞的逆向文檔頻率;主題詞提取模塊,被配置為基于所述詞頻權(quán)重和所述逆向 文檔頻率,提取預(yù)定數(shù)量的分詞作為所述目標(biāo)文檔的主題詞。
[0014] 在第二方面的一些可選的實(shí)施方式中,所述權(quán)值獲取模塊包括:判斷子模塊,被配 置為判斷所述分詞屬性是否滿足多個(gè)預(yù)設(shè)條件中的至少一個(gè)預(yù)設(shè)條件;第一權(quán)值獲取子模 塊,被配置為在所述分詞屬性不滿足任一預(yù)設(shè)條件時(shí),獲取預(yù)設(shè)的基準(zhǔn)權(quán)值作為與所述分 詞屬性相對(duì)應(yīng)的權(quán)值。
[0015] 在第二方面的一些可選的實(shí)施方式中,所述權(quán)值獲取模塊還包括:第二權(quán)值獲取 子模塊,被配置為在所述分詞屬性滿足至少一個(gè)預(yù)設(shè)條件時(shí),獲取所述分詞屬性所滿足的 各個(gè)預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值,并將獲取到的各個(gè)預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值的乘積作為與所述 分詞屬性相對(duì)應(yīng)的權(quán)值。
[0016] 在第二方面的一些可選的實(shí)施方式中,所述分詞屬性包括分詞位置、字體樣式、字 體號(hào)和分詞內(nèi)容;W及,所述多個(gè)預(yù)設(shè)條件包括:分詞位置位于段首;分詞位置位于標(biāo)題;分 詞的字體樣式為粗體;分詞的字體樣式為斜體;分詞的字體號(hào)大于常規(guī)字體號(hào);分詞的字體 號(hào)小于常規(guī)字體號(hào);分詞內(nèi)容與預(yù)設(shè)的干擾詞內(nèi)容相匹配。
[0017] 在第二方面的一些可選的實(shí)施方式中,所述分詞位置位于段首運(yùn)一預(yù)設(shè)條件所對(duì) 應(yīng)的權(quán)值、所述分詞位置位于標(biāo)題運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞的字體樣式為粗 體運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞的字體樣式為斜體運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、 W及所述分詞的字體號(hào)大于常規(guī)字體號(hào)運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值大于所述基準(zhǔn)權(quán)值;W 及所述分詞的字體號(hào)小于常規(guī)字體號(hào)運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值、所述分詞內(nèi)容與預(yù)設(shè)的 干擾詞內(nèi)容相匹配運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值小于所述基準(zhǔn)權(quán)值。
[0018] 在第二方面的一些可選的實(shí)施方式中,所述詞頻權(quán)重確定模塊被配置為通過(guò)W下 方式來(lái)確定該分詞在所述目標(biāo)文檔中的詞頻權(quán)重:
[0019]
[0020] 其中,TFW表示分詞的詞頻權(quán)重;Wn表示該分詞在所述目標(biāo)文檔中第η次出現(xiàn)時(shí)的 分詞屬性所對(duì)應(yīng)的權(quán)值;Ν表示該分詞在所述目標(biāo)文檔中的總出現(xiàn)次數(shù);I表示所述目標(biāo)文 檔中的分詞總數(shù)。
[0021] 在第二方面的一些可選的實(shí)施方式中,所述主題詞提取模塊包括:計(jì)算子模塊,被 配置為計(jì)算所述分詞的詞頻權(quán)重與逆向文檔頻率的乘積;主題詞提取子模塊,被配置為按 照所述詞頻權(quán)重與所述逆向文檔頻率的乘積從大到小的順序,提取預(yù)定數(shù)量的分詞作為所 述目標(biāo)文檔的主題詞。
[0022] 在上述技術(shù)方案中,考慮了分詞在文檔中每次出現(xiàn)時(shí)的分詞屬性(例如,分詞位 置、字體樣式等等),并基于與分詞屬性相對(duì)應(yīng)的權(quán)值來(lái)確定該分詞在文檔中的詞頻權(quán)重, 由此使得所提取出的主題詞具有更高的準(zhǔn)確性和可靠性,能夠更客觀地表示該文檔的中屯、 思想,從而能夠?yàn)楹罄m(xù)的文檔分類、文檔推薦等提供準(zhǔn)確、可靠的數(shù)據(jù)支持,使得文檔分類 結(jié)果更為準(zhǔn)確、文檔推薦結(jié)果更符合用戶需求等等。
[0023] 本發(fā)明的其他特征和優(yōu)點(diǎn)將在隨后的【具體實(shí)施方式】部分予W詳細(xì)說(shuō)明。
【附圖說(shuō)明】
[0024] 附圖是用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,并且構(gòu)成說(shuō)明書的一部分,與下面的具 體實(shí)施方式一起用于解釋本發(fā)明,但并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中:
[0025] 圖1是根據(jù)本發(fā)明的實(shí)施方式提供的文檔主題詞提取方法的流程圖。
[00%]圖2Α示出了一示例目標(biāo)文檔的內(nèi)容。
[0027] 圖2Β示出了對(duì)圖2Α所述的目標(biāo)文檔進(jìn)行分詞處理后的分詞結(jié)果。
[0028] 圖3Α至圖3D是根據(jù)本發(fā)明的實(shí)施方式提供的文檔主題詞提取裝置的框圖。
【具體實(shí)施方式】
[0029] W下結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行詳細(xì)說(shuō)明。應(yīng)當(dāng)理解的是,此處所描 述的【具體實(shí)施方式】?jī)H用于說(shuō)明