和解釋本發(fā)明,并不用于限制本發(fā)明。
[0030] 圖1是根據(jù)本發(fā)明的實(shí)施方式提供的文檔主題詞提取方法的流程圖。如圖1所示, 該方法可W包括W下步驟。
[0031] 在步驟S101中,對(duì)目標(biāo)文檔進(jìn)行分詞處理,其中,該目標(biāo)文檔可W為文檔庫(kù)中的任 一文檔。
[0032] 文檔庫(kù)中可W包含多篇文檔,目標(biāo)文檔可W為文檔庫(kù)中的任一文檔。在一個(gè)實(shí)施 方式中,可W由用戶來(lái)從文檔庫(kù)中選擇其中一篇作為目標(biāo)文檔,或者在另一實(shí)施方式中,可 W由計(jì)算機(jī)隨機(jī)或者按照預(yù)定選取規(guī)則(例如,按照文檔順序選取,按照文檔大小來(lái)選取, 等等)來(lái)從文檔庫(kù)中選取一篇作為目標(biāo)文檔。
[0033] 對(duì)目標(biāo)文檔進(jìn)行分詞處理,可W將目標(biāo)文檔劃分成由若干分詞組成的分詞序列。 例如,圖2Α示出了一示例目標(biāo)文檔的內(nèi)容,通過(guò)對(duì)目標(biāo)文檔進(jìn)行分詞處理,能夠得到圖2Β所 示的分詞結(jié)果。
[0034] 在步驟S102中,針對(duì)同一分詞,根據(jù)該分詞在目標(biāo)文檔中每次出現(xiàn)時(shí)的分詞屬性, 獲取與分詞屬性相對(duì)應(yīng)的權(quán)值,并根據(jù)所述權(quán)值,確定該分詞在目標(biāo)文檔中的詞頻權(quán)重。
[0035] 在本公開中,分詞屬性可W包括W下中的至少一者:分詞位置、字體樣式、字體號(hào)、 分詞內(nèi)容。其中,分詞位置可W包括段首、標(biāo)題和其他;字體樣式可W包括粗體、斜體和其 他;字體號(hào)可W包括大字體號(hào)、常規(guī)字體號(hào)和小字體號(hào)。在一個(gè)優(yōu)選實(shí)施方式中,分詞屬性 可W包括上述的全部,運(yùn)樣,可W使得最終結(jié)果更為準(zhǔn)確。
[0036] 具體地,針對(duì)某個(gè)分詞的分詞位置的檢測(cè),可W首先通過(guò)檢測(cè)分詞是否處于本段 的首句來(lái)檢測(cè)分詞位置是否在段首,如果是,則確定分詞位置為"段首"。
[0037] 此外,隨著互聯(lián)網(wǎng)的飛速發(fā)展,計(jì)算機(jī)所處理的文檔多是采集于互聯(lián)網(wǎng)的超文本 數(shù)據(jù),運(yùn)類數(shù)據(jù)除文字內(nèi)容外,還包含超文本標(biāo)簽用于頁(yè)面顯示。針對(duì)運(yùn)種類型的文檔信 息,可W通過(guò)檢測(cè)超文本標(biāo)簽來(lái)獲取某些分詞屬性。例如,可W通過(guò)檢測(cè)該分詞的超文本標(biāo) 簽是否包含<H>標(biāo)簽(標(biāo)題標(biāo)簽)來(lái)判斷該分詞位置是否位于標(biāo)題,如果包含,則確定分詞位 置為"標(biāo)題"。如果該分詞的分詞位置既不在段首,也不在標(biāo)題,則可W確定分詞位置為"其 他'。
[0038] 針對(duì)某個(gè)分詞的字體樣式的檢測(cè),可W通過(guò)檢測(cè)分詞的超文本標(biāo)簽是否包含沛〉 標(biāo)簽(粗體標(biāo)簽)來(lái)判斷該分詞是否為粗體,如果包含,則確定該分詞的字體樣式為粗體。另 夕h可W通過(guò)檢測(cè)分詞的超文本標(biāo)簽是否包含<1〉標(biāo)簽(斜體標(biāo)簽)來(lái)判斷該分詞是否為斜 體,如果包含,則確定該分詞的字體樣式為斜體。如果該分詞的字體樣式既不是粗體,也不 是斜體,則可W確定分詞的字體樣式為"其他"。
[0039] 針對(duì)某個(gè)分詞的字體號(hào)的檢測(cè),可W通過(guò)檢測(cè)分詞的超文本標(biāo)簽中的<font-siZe 〉標(biāo)簽(字號(hào)標(biāo)簽)來(lái)得到分詞的字體號(hào)。在一篇文檔中,大部分內(nèi)容具有統(tǒng)一的字體號(hào),可 W對(duì)每個(gè)分詞的字體號(hào)進(jìn)行統(tǒng)計(jì),選定最多分詞所對(duì)應(yīng)的字體號(hào)作為"常規(guī)字體號(hào)",運(yùn)樣, 大于常規(guī)字體號(hào)的分詞的字體號(hào)被歸為"大字體號(hào)",小于常規(guī)字體號(hào)的分詞的字體號(hào)被歸 為"小字體號(hào)"。
[0040] 在步驟S101中得到的分詞結(jié)果中包含有若干個(gè)分詞,有些分詞可能會(huì)有所重復(fù), 例如,如圖2B所示,"文理科"運(yùn)一分詞在目標(biāo)文檔中出現(xiàn)了3次,而有些分詞可能僅出現(xiàn)一 次,例如,如圖2B所示,"表示"運(yùn)一分詞在目標(biāo)文檔中僅出現(xiàn)了 1次。針對(duì)同一分詞,可W按 照上述方法,確定出該分詞在每次出現(xiàn)時(shí)的分詞屬性。之后,獲取與該分詞屬性相對(duì)應(yīng)的權(quán) 值,并根據(jù)該權(quán)值,確定該分詞在目標(biāo)文檔中的詞頻權(quán)重。
[0041] 例如,可W通過(guò)W下等式(1)來(lái)確定分詞在目標(biāo)文檔中的詞頻權(quán)重:
[0042]
(1)
[0043] 其中,TFW表示分詞的詞頻權(quán)重;Wn表示該分詞在目標(biāo)文檔中第η次出現(xiàn)時(shí)的分詞 屬性所對(duì)應(yīng)的權(quán)值;Ν表示該分詞在目標(biāo)文檔中的總出現(xiàn)次數(shù);I表示目標(biāo)文檔中的分詞總 數(shù)。其中,運(yùn)里提到的分詞總數(shù)是在步驟S101后得到的分詞結(jié)果中的全部分詞的數(shù)量。
[0044] 在步驟S103中,基于文檔庫(kù),確定分詞的逆向文檔頻率。
[0045] 例如,可W通過(guò)W下等式(2)來(lái)確定分詞的逆向文檔頻率:
[0046]
(2)
[0047] 其中,IDF表示該分詞的逆向文檔頻率;D表示文檔庫(kù)中的文檔總數(shù);d表示文檔庫(kù) 中包含有該分詞的文檔的數(shù)量。
[0048] 在步驟S104中,基于分詞的詞頻權(quán)重和逆向文檔頻率,提取預(yù)定數(shù)量的分詞作為 目標(biāo)文檔的主題詞。
[0049] 具體地,該步驟S104可W包括:計(jì)算分詞的詞頻權(quán)重與逆向文檔頻率的乘積,該乘 積可W作為分詞在目標(biāo)文檔中的最終權(quán)重。例如,可W通過(guò)W下等式(3)來(lái)確定分詞的最終 權(quán)重W:
[0化0] W=TFWXIDF (3)
[0051] 接下來(lái),按照詞頻權(quán)重與逆向文檔頻率的乘積從大到小的順序,提取預(yù)定數(shù)量的 分詞作為目標(biāo)文檔的主題詞。例如,選取乘積結(jié)果排名在前5位的分詞作為目標(biāo)文檔的主題 詞。
[0052] 綜上所述,本發(fā)明提供的上述文檔主題詞提取方法,考慮了分詞在文檔中每次出 現(xiàn)時(shí)的分詞屬性(例如,分詞位置、字體樣式等等),并基于與分詞屬性相對(duì)應(yīng)的權(quán)值來(lái)確定 該分詞在文檔中的詞頻權(quán)重,由此使得所提取出的主題詞具有更高的準(zhǔn)確性和可靠性,能 夠更客觀地表示該文檔的中屯、思想,從而能夠?yàn)楹罄m(xù)的文檔分類、文檔推薦等提供準(zhǔn)確、可 靠的數(shù)據(jù)支持,使得文檔分類結(jié)果更為準(zhǔn)確、文檔推薦結(jié)果更符合用戶需求等等。
[0053] 下面具體描述當(dāng)確定某個(gè)分詞的詞頻權(quán)重時(shí),如何根據(jù)該分詞在目標(biāo)文檔中每次 出現(xiàn)時(shí)的分詞屬性,獲取與該分詞屬性相對(duì)應(yīng)的權(quán)值的示例方法。
[0054] 首先,可W預(yù)先設(shè)定一個(gè)基準(zhǔn)權(quán)值ω〇,例如,該基準(zhǔn)權(quán)值ω〇可W被設(shè)定為1,運(yùn)樣, 當(dāng)檢測(cè)到某個(gè)分詞在目標(biāo)文檔中本次出現(xiàn)時(shí)的分詞屬性后,可W通過(guò)判斷分詞屬性是否滿 足多個(gè)預(yù)設(shè)條件中的至少一個(gè)預(yù)設(shè)條件,來(lái)決定是否獲取該基準(zhǔn)權(quán)值ω〇作為運(yùn)一分詞屬 性所對(duì)應(yīng)的權(quán)值。在本公開中,多個(gè)預(yù)設(shè)條件可W例如包括但不限于W下中的至少一者:分 詞位置位于段首;分詞位置位于標(biāo)題;分詞的字體樣式為粗體;分詞的字體樣式為斜體;分 詞的字體號(hào)大于常規(guī)字體號(hào);分詞的字體號(hào)小于常規(guī)字體號(hào);分詞內(nèi)容與預(yù)設(shè)的干擾詞內(nèi) 容相匹配。優(yōu)選地,多個(gè)預(yù)設(shè)條件包括上述條件的全部,運(yùn)樣,可W使得最終結(jié)果更為準(zhǔn)確。
[0055] 可W按照前面在步驟S102中描述的方法,來(lái)判斷分詞屬性是否滿足"分詞位置位 于段首"、"分詞的字體樣式為粗體"、"分詞的字體樣式為斜體"、"分詞的字體號(hào)大于常規(guī)字 體號(hào)"、"分詞的字體號(hào)小于常規(guī)字體號(hào)"的預(yù)設(shè)條件。
[0056] 另外,在文檔中有時(shí)會(huì)包括運(yùn)樣一些詞,運(yùn)些詞可能在每篇文檔中均出現(xiàn),例如, "摘要"、"引言"等詞,運(yùn)些詞主要用于劃分文檔結(jié)構(gòu),而并非是文檔的實(shí)質(zhì)內(nèi)容,因此,在本 公開中,可W將運(yùn)些詞稱為"干擾詞"。可W預(yù)先設(shè)置一些干擾詞。運(yùn)樣,當(dāng)分詞的分詞內(nèi)容 與運(yùn)些預(yù)置的干擾詞中的任一干擾詞的內(nèi)容相匹配(例如,內(nèi)容一致)時(shí),則該分詞可W被 確認(rèn)為是干擾詞。
[0057] 當(dāng)分詞屬性不滿足上述任一預(yù)設(shè)條件時(shí),獲取預(yù)設(shè)的基準(zhǔn)權(quán)值ω〇作為與該分詞 屬性相對(duì)應(yīng)的權(quán)值。例如,如圖2Β所示的分詞結(jié)果,針對(duì)"表示"運(yùn)一分詞,其在文檔中出現(xiàn) 時(shí)的分詞屬性均不滿足上述任一預(yù)設(shè)條件,因此,確定其所對(duì)應(yīng)的權(quán)值為基準(zhǔn)權(quán)值ω〇。
[0058] 而當(dāng)分詞屬性滿足上述的至少一個(gè)預(yù)設(shè)條件時(shí),則首先獲取分詞屬性所滿足的各 個(gè)預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值,之后,將獲取到的各個(gè)預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值的乘積作為與該 分詞屬性相對(duì)應(yīng)的權(quán)值。
[0059] 具體地,可W預(yù)先確定每個(gè)預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值,即,預(yù)先確定分詞位置位于段 首運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值ω 1、分詞位置位于標(biāo)題運(yùn)一預(yù)設(shè)條件所對(duì)應(yīng)的權(quán)值ω 2、分詞 的字體樣