亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文檔主題詞提取方法及裝置的制造方法_3

文檔序號:9865494閱讀:來源:國知局
式為粗體運一預設條件所對應的權值《3、分詞的字體樣式為斜體運一預設條件 所對應的權值ω 4、分詞的字體號大于常規(guī)字體號運一預設條件所對應的權值ω 5、分詞的字 體號小于常規(guī)字體號運一預設條件所對應的權值《6、分詞內容與預設的干擾詞內容相匹 配運一預設條件所對應的權值ω 7。
[0060] 由于ωι~《7的取值不同可導致對文檔主題詞提取結果的不同,進而影響文檔分 類精度,因此,在本發(fā)明的一個優(yōu)選實施方式中,為獲取最優(yōu)的分類精度,可使用線性回歸 的方式計算ωι~《7的取值,設:
[0061] y = f ( ω i) (4)
[0062] 其中,y為ω i取某一個值時對應的文檔的分類精度,通過對ω i的多次取值,可擬合 出函數(shù)f(),進而對函數(shù)f()求導,得出y得到最大值的極值點…,此時,該ωι的值即為第i個 預設條件所對應的權值。
[0063] 通常情況下,文檔中每一段的首句代表所在段的主題思想,因此,如果某個分詞的 分詞屬性表示該分詞的位置在段首,則其相對應的權值應相對較高,從而提高其對主題詞 提取結果的影響力。如果某個分詞的分詞屬性表示該分詞的字體樣式為粗體,則其相對應 的權值應當較高,因為粗體通常表示用戶認為是重要的信息,因此運些詞對主題詞提取結 果的影響力應當被提高。如果某個分詞的分詞屬性表示該分詞的字體樣式為斜體,則其相 對應的權值應當較高,因為斜體通常表示用戶認為是要進行區(qū)分的信息,因此運些詞對主 題詞提取結果的影響力應當被提高。如果某個分詞的分詞屬性表示該分詞的字體號為大字 體號(即,大于常規(guī)字體號),則其相對應的權值應當較高,因為大字體號通常表示用戶想要 突出顯示的信息,因此運些詞對主題詞提取結果的影響力應當被提高。而如果某個分詞的 分詞屬性表示該分詞的字體號為小字體號(即,小于常規(guī)字體號),則其相對應的權值應當 較低,因為小字體號通常表示用戶想要進行解釋或者注釋的信息(例如,參考文獻、作者簡 介等等),因此運些詞對主題詞提取結果的影響力應當被降低。此外,如果某個分詞的分詞 屬性表示該分詞內容與預設的干擾詞相匹配,則其相對應的權值應當較低,因為運些詞不 應該成為文檔主題詞,因此運些詞對主題詞提取結果的影響力應當被降低。
[0064] 如果W所設定的基準權值ω 0為基準,則:分詞位置位于段首運一預設條件所對應 的權值ω 1、分詞位置位于標題運一預設條件所對應的權值ω 2、分詞的字體樣式為粗體運一 預設條件所對應的權值ω 3、分詞的字體樣式為斜體運一預設條件所對應的權值ω 4、W及分 詞的字體號大于常規(guī)字體號運一預設條件所對應的權值ω 5大于基準權值ω 0;另外,分詞的 字體號小于常規(guī)字體號運一預設條件所對應的權值《6、W及分詞內容與預設的干擾詞內 容相匹配運一預設條件所對應的權值ω 7小于基準權值ω 0。
[0065] 當某個分詞屬性只滿足W上預設條件中的一個預設條件時(例如,只滿足分詞的 字體樣式為粗體運一預設條件),該分詞屬性所對應的權值為該預設條件所對應的權值(例 如,為《3)。而當某個分詞屬性滿足W上預設條件中的多個預設條件時(例如,滿足分詞的 字體樣式為粗體、W及分詞的字體樣式為斜體運兩個預設條件),則該分詞屬性所對應的權 值為所滿足的預設條件所對應的權值的乘積(例如,為ω 3 X ω 4)。
[0066] 例如,如圖2Β所示的分詞結果,針對"文理科"運一分詞,其第一次在文檔中出現(xiàn)時 的分詞屬性滿足分詞位置位于標題、分詞的字體樣式為粗體、W及分詞的字體號大于常規(guī) 字體號運Ξ個預設條件,因此,"文理科"運一分詞第一次在文檔中出現(xiàn)時的分詞屬性所對 應的權值為《2Χ ?3Χ 〇5。之后,"文理科"運一分詞第二次在文檔中出現(xiàn)時的分詞屬性均 不滿足上述任一預設條件,因此,"文理科"運一分詞第二次在文檔中出現(xiàn)時的分詞屬性所 對應的權值為基準權值ω 0。最后,"文理科"運一分詞第Ξ次在文檔中出現(xiàn)時的分詞屬性滿 足分詞的字體樣式為粗體、W及分詞的字體樣式為斜體運兩個預設條件,因此,"文理科"運 一分詞第Ξ次在文檔中出現(xiàn)時的分詞屬性所對應的權值為W3X ?4。
[0067] 運樣,可W根據(jù)同一分詞在目標文檔中每次出現(xiàn)時的分詞屬性所對應的權值之 和,利用等式(1),確定出該分詞的詞頻權重。例如,針對"文理科"運一分詞,其在圖2Α所示 的文檔中的詞頻權重為:
[0068] 之后,按照詞頻權重與逆向文檔頻率的乘積從大到小的順序,提取預定數(shù)量的分 詞作為目標文檔的主題詞。通過此種方式所提取出的主題詞具有更高的準確性和可靠性, 能夠更客觀地表示該文檔的中屯、思想,從而能夠為后續(xù)的文檔分類、文檔推薦等提供準確、 可靠的數(shù)據(jù)支持,使得文檔分類結果更為準確、文檔推薦結果更符合用戶需求等等。
[0069] 圖3Α至圖3D是根據(jù)本發(fā)明的實施方式提供的文檔主題詞提取裝置300的框圖。如 圖3Α所示,該裝置300可W包括:分詞處理模塊310,被配置為對目標文檔進行分詞處理,其 中,所述目標文檔為文檔庫中的任一文檔;權值獲取模塊320,被配置為針對同一分詞,根據(jù) 該分詞在所述目標文檔中每次出現(xiàn)時的分詞屬性,獲取與所述分詞屬性相對應的權值;詞 頻權重確定模塊330,被配置為根據(jù)所述權值,確定該分詞在所述目標文檔中的詞頻權重; 逆向文檔頻率確定模塊340,被配置為基于所述文檔庫,確定所述分詞的逆向文檔頻率;主 題詞提取模塊350,被配置為基于所述詞頻權重和所述逆向文檔頻率,提取預定數(shù)量的分詞 作為所述目標文檔的主題詞。
[0070] 本發(fā)明提供的上述文檔主題詞提取裝置300,考慮了分詞在文檔中每次出現(xiàn)時的 分詞屬性(例如,分詞位置、字體樣式等等),并基于與分詞屬性相對應的權值來確定該分詞 在文檔中的詞頻權重,由此使得所提取出的主題詞具有更高的準確性和可靠性,能夠更客 觀地表示該文檔的中屯、思想,從而能夠為后續(xù)的文檔分類、文檔推薦等提供準確、可靠的數(shù) 據(jù)支持,使得文檔分類結果更為準確、文檔推薦結果更符合用戶需求等等。
[0071] 可選地,如圖3Β所示,所述權值獲取模塊320可W包括:判斷子模塊321,被配置為 判斷所述分詞屬性是否滿足多個預設條件中的至少一個預設條件;第一權值獲取子模塊 322, 被配置為在所述分詞屬性不滿足任一預設條件時,獲取預設的基準權值作為與所述分 詞屬性相對應的權值。
[0072] 可選地,如圖3C所示,所述權值獲取模塊320還可W包括:第二權值獲取子模塊 323, 被配置為在所述分詞屬性滿足至少一個預設條件時,獲取所述分詞屬性所滿足的各個 預設條件所對應的權值,并將獲取到的各個預設條件所對應的權值的乘積作為與所述分詞 屬性相對應的權值。
[0073] 可選地,所述分詞屬性包括分詞位置、字體樣式、字體號和分詞內容;W及,所述多 個預設條件包括:分詞位置位于段首;分詞位置位于標題;分詞的字體樣式為粗體;分詞的 字體樣式為斜體;分詞的字體號大于常規(guī)字體號;分詞的字體號小于常規(guī)字體號;分詞內容 與預設的干擾詞內容相匹配。
[0074] 可選地,所述分詞位置位于段首運一預設條件所對應的權值、所述分詞位置位于 標題運一預設條件所對應的權值、所述分詞的字體樣式為粗體運一預設條件所對應的權 值、所述分詞的字體樣式為斜體運一預設條件所對應的權值、W及所述分詞的字體號大于 常規(guī)字體號運一預設條件所對應的權值大于所述基準權值;W及所述分詞的字體號小于常 規(guī)字體號運一預設條件所對應的權值、所述分詞內容與預設的干擾詞內容相匹配運一預設 條件所對應的權值小于所述基準權值。
[0075] 可選地,所述詞頻權重確定模塊330被配置為通過W上等式(1)來確定該分詞在所 述目標文檔中的詞頻權重。
[0076] 可選地,如圖3D所述,所述主題詞提取模塊350可W包括:計算子模塊351,被配置 為計算所述分詞的詞頻權重與逆向文檔頻率的乘積;主題詞提取子模塊352,被配置為按照 所述詞頻權重與所述逆向文檔頻率的乘積從大到小的順序,提
當前第3頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1