預(yù)估新詞文檔頻率的方法及裝置制造方法

文檔序號(hào)：6493466閱讀：122來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

預(yù)估新詞文檔頻率的方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)一種預(yù)估新詞文檔頻率的方法及裝置，其方法包括：獲取第一文檔集和第二文檔集；第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集；分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在第一文檔集和第二文檔集中的文檔頻率；統(tǒng)計(jì)每一預(yù)設(shè)新詞在第二文檔集中的文檔頻率；獲取預(yù)設(shè)常用詞在第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系；根據(jù)對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在第二文檔集中的文檔頻率，獲取預(yù)設(shè)新詞在第一文檔集中的文檔頻率。本發(fā)明提高了新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率，彌補(bǔ)了傳統(tǒng)的統(tǒng)計(jì)方法對(duì)于新詞的文檔頻率統(tǒng)計(jì)結(jié)果誤差較大的缺陷；且本發(fā)明對(duì)于新詞在特征選擇、關(guān)鍵詞抽取、向量空間模型表示等【技術(shù)領(lǐng)域】的應(yīng)用具有重要意義。
【專(zhuān)利說(shuō)明】預(yù)估新詞文檔頻率的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】，尤其涉及一種預(yù)估新詞文檔頻率的方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展，新詞日益增多，其已逐漸成為互聯(lián)網(wǎng)領(lǐng)域越來(lái)越普遍的一個(gè)現(xiàn)象。新詞又叫未登錄詞，是指以前從未出現(xiàn)，而最近比較流行的有意義的詞。新詞一般伴隨熱點(diǎn)事件、熱點(diǎn)人物而產(chǎn)生，往往帶有極大的信息量，是文本分類(lèi)、關(guān)鍵詞抽取等技術(shù)不可或缺的特征項(xiàng)。而文檔頻率(DF,Document Frequency)作為一種經(jīng)典的信息度量因子，也在這些相關(guān)【技術(shù)領(lǐng)域】被廣泛應(yīng)用，比如向量空間模型、特征選擇、特征權(quán)重等等。
[0003]通常，文檔頻率是指一個(gè)詞在海量文檔集合里出現(xiàn)的文檔次數(shù)。傳統(tǒng)的文檔頻率計(jì)算方法一般是基于海量文檔集合的統(tǒng)計(jì)。其大致方法是先從全量文檔中隨機(jī)篩選出一個(gè)較大數(shù)量(比如100萬(wàn))的文檔集，然后對(duì)每篇文檔集進(jìn)行分詞，并統(tǒng)計(jì)每個(gè)詞在多少篇文檔中出現(xiàn)，由此統(tǒng)計(jì)的文檔次數(shù)就作為該詞的文檔頻率。
[0004]這種基于海量文檔集合統(tǒng)計(jì)的方法比較穩(wěn)定，對(duì)于常用詞的文檔頻率比較準(zhǔn)確，但是由于新詞只出現(xiàn)在極少的時(shí)新性高的文檔中，傳統(tǒng)的這種統(tǒng)計(jì)方法對(duì)于新詞的文檔頻率統(tǒng)計(jì)結(jié)果誤差較大，一般會(huì)大大低于其真實(shí)值。
[0005]因此，傳統(tǒng)的基于海量文檔集統(tǒng)計(jì)的文檔頻率計(jì)算方法不太適用新詞，尋找更好的新詞文檔頻率計(jì)算方法顯得尤為重要。

【發(fā)明內(nèi)容】

[0006]本發(fā)明的主要目的在于提供一種預(yù)估新詞文檔頻率的方法及裝置，旨在提高新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率。
[0007]為了達(dá)到上述目的，本發(fā)明提出一種預(yù)估新詞文檔頻率的方法，包括:
[0008]獲取第一文檔集和第二文檔集；所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集；
[0009]分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率；統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率；
[0010]獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系;
[0011]根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率，獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
[0012]本發(fā)明還提出一種預(yù)估新詞文檔頻率的裝置，包括:
[0013]文檔集獲取模塊，用于獲取第一文檔集和第二文檔集；所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集；
[0014]統(tǒng)計(jì)模塊，用于分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率；統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率；[0015]擬合關(guān)系獲取模塊，用于獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系；
[0016]新詞文檔頻率獲取模塊，用于根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率，獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
[0017]本發(fā)明提出的一種預(yù)估新詞文檔頻率的方法及裝置，通過(guò)確定海量文檔集(第一文檔集)和新文檔集(第二文檔集)，并統(tǒng)計(jì)常用詞在海量文檔集和新文檔集里的文檔頻率，再尋找這兩個(gè)文檔頻率之間的關(guān)系，最后利用新詞在新文檔集里的文檔頻率來(lái)預(yù)估其在海量文檔集中的文檔頻率，由此提高了新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率，從而彌補(bǔ)了傳統(tǒng)的統(tǒng)計(jì)方法對(duì)于新詞的文檔頻率統(tǒng)計(jì)結(jié)果誤差較大的缺陷；而且本發(fā)明對(duì)于新詞在特征選擇、關(guān)鍵詞抽取、向量空間模型表示等【技術(shù)領(lǐng)域】的應(yīng)用具有重要意義。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0018]圖1是本發(fā)明預(yù)估新詞文檔頻率的方法較佳實(shí)施例的流程示意圖；
[0019]圖2是本發(fā)明預(yù)估新詞文檔頻率的方法較佳實(shí)施例中一種實(shí)例的文檔頻率擬合曲線(xiàn)示意圖；
[0020]圖3是本發(fā)明預(yù)估新詞文檔頻率的裝置較佳實(shí)施例的結(jié)構(gòu)示意圖；
[0021]圖4是本發(fā)明預(yù)估新詞文檔頻率的裝置較佳實(shí)施例中擬合關(guān)系獲取模塊的結(jié)構(gòu)示意圖。
[0022]為了使本發(fā)明的技術(shù)方案更加清楚、明了，下面將結(jié)合附圖作進(jìn)一步詳述。
【具體實(shí)施方式】
[0023]本發(fā)明實(shí)施例的解決方案主要是:通過(guò)確定海量文檔集(第一文檔集)和新文檔集(第二文檔集)，并統(tǒng)計(jì)常用詞在海量文檔集和新文檔集里的文檔頻率，再尋找這兩個(gè)文檔頻率之間的關(guān)系，最后利用新詞在新文檔集里的文檔頻率來(lái)預(yù)估其在海量文檔集中的文檔頻率，以提高新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率，彌補(bǔ)傳統(tǒng)的統(tǒng)計(jì)方法對(duì)于新詞的文檔頻率統(tǒng)計(jì)結(jié)果誤差較大的缺陷。
[0024]如圖1所示，本發(fā)明較佳實(shí)施例提出一種預(yù)估新詞文檔頻率的方法，包括:
[0025]步驟S101，獲取第一文檔集和第二文檔集；所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集；
[0026]由于新詞往往只出現(xiàn)在時(shí)新性高的頁(yè)面中，而傳統(tǒng)的基于海量文檔集統(tǒng)計(jì)的文檔頻率計(jì)算方法存在較大誤差，本實(shí)施例引入新文檔集概念，并基于海量文檔集和新文檔集來(lái)估計(jì)新詞在海量文檔集中的文檔頻率。
[0027]具體地，首先，確定海量文檔集A (即本實(shí)施例所稱(chēng)第一文檔集)和新文檔集B (即本實(shí)施例所稱(chēng)第二文檔集)兩個(gè)文檔集合，其中:
[0028]作為優(yōu)選方案，海量文檔集A共包含約100萬(wàn)篇文檔，從全量文檔中隨機(jī)挑選；海量文檔集A里的文檔基本為兩年前的數(shù)據(jù)。
[0029]新文檔集B共包含約5萬(wàn)篇文檔，可以從各大門(mén)戶(hù)網(wǎng)站首頁(yè)中抓??；新文檔集B里的文檔基本為最近一個(gè)月以?xún)?nèi)的數(shù)據(jù)。
[0030]需要說(shuō)明的是，上述海量文檔集A里的文檔數(shù)據(jù)的產(chǎn)生時(shí)間也可以不限于兩年前，比如還可以一年前等；上述新文檔集B里的文檔數(shù)據(jù)的產(chǎn)生時(shí)間也可以不限定為最近一個(gè)月以?xún)?nèi)，比如還可以是半月以?xún)?nèi)，等等。
[0031]步驟S102，分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率；統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率；
[0032]其中，預(yù)設(shè)常用詞是指經(jīng)常出現(xiàn)的詞，目前定義的常用詞約有7萬(wàn)個(gè)；預(yù)設(shè)新詞是指基于互聯(lián)網(wǎng)技術(shù)發(fā)展而出現(xiàn)在時(shí)新性高的文檔中的詞，新詞一般伴隨熱點(diǎn)事件、熱點(diǎn)人物而產(chǎn)生，其存在時(shí)間較短。
[0033]設(shè)定常用詞為W，新詞為t，在確定兩個(gè)文檔集A和B后，分別統(tǒng)計(jì)每個(gè)常用詞w在A和B里的文檔頻率，分別表示為DF_A_w和DF_B_w，其中DF_A_w為常用詞w在海量文檔集A的真實(shí)文檔頻率，DF_B_w用于持續(xù)在新文檔集B里與新詞作比較。
[0034]此外，還要統(tǒng)計(jì)每個(gè)新詞t在新文檔集B里的文檔頻率DF_B_t，以便后續(xù)得到常用詞在海量文檔集A和新文檔集B中的文檔頻率的對(duì)應(yīng)擬合關(guān)系后，依據(jù)新詞t在新文檔集B里的文檔頻率DF_B_t獲取新詞在海量文檔集A中的文檔頻率DF_A_t。
[0035]上述統(tǒng)計(jì)常用詞w在A和B里的文檔頻率，以及統(tǒng)計(jì)新詞t在B中的文檔頻率，可以采用以下方案:
[0036]先對(duì)文檔集(A或B)中的每篇文檔進(jìn)行分詞，然后統(tǒng)計(jì)每個(gè)詞在多少篇文檔中出現(xiàn)過(guò)，由此統(tǒng)計(jì)得到的文檔次數(shù)即作為該詞的文檔頻率。
[0037]步驟S103，獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系；
[0038]步驟S104，根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率，獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
[0039]上述步驟103及步驟S104中，在獲取到每個(gè)常用詞w在海量文檔集A的文檔頻率DF_A_w和新文檔集B里的文檔頻率DF_B_w后，分析常用詞在海量文檔集A和新文檔集B里的文檔頻率關(guān)系。
[0040]首先，將所有常用詞在海量文檔集A中的文檔頻率從小至大進(jìn)行排序，得到排序序列；然后對(duì)所述排序序列以組為單位進(jìn)行分段；這里以100為分段間隔，即0-100為一組，101-200為一組，依此類(lèi)推。
[0041]之后以組為單位，計(jì)算每個(gè)組里所有常用詞的平均DF_B_w ;然后，以每一組的平均DF_B_w作為橫坐標(biāo)，以該組中心處的排序值為縱坐標(biāo)繪圖，繪制得到文檔頻率擬合曲線(xiàn)。其中，基于前50個(gè)組的數(shù)據(jù)得到的文檔頻率擬合曲線(xiàn)如圖2所示。
[0042]從圖2所示的散點(diǎn)圖中可以看出:常用詞在海量文檔集A和新文檔集B中的文檔頻率兩者存在接近線(xiàn)性的擬合關(guān)系，這說(shuō)明常用詞在兩個(gè)文檔集A和B中的文檔頻率之間存在線(xiàn)性關(guān)系。
[0043]考慮到新詞最終也會(huì)變成常用詞而穩(wěn)定下來(lái)，因此以新詞在新文檔集B中的文檔頻率DF_B_t為橫坐標(biāo)，利用圖2所示的線(xiàn)性擬合關(guān)系曲線(xiàn)得到的縱坐標(biāo)值即為新詞在海量文檔集A里的文檔頻率DF_A_t。
[0044]相比傳統(tǒng)的文檔頻率計(jì)算方法僅僅是基于海量文檔集合的統(tǒng)計(jì)所帶來(lái)的誤差大的缺陷，本實(shí)施例通過(guò)上述方案，提高了新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率，從而彌補(bǔ)了傳統(tǒng)的統(tǒng)計(jì)方法的缺陷；而且本實(shí)施例對(duì)于新詞在特征選擇、關(guān)鍵詞抽取、向量空間模型表示等【技術(shù)領(lǐng)域】的應(yīng)用具有重要意義。
[0045]如圖3所示，本發(fā)明較佳實(shí)施例提出一種預(yù)估新詞文檔頻率的裝置，包括:文檔集獲取模塊201、統(tǒng)計(jì)模塊202、擬合關(guān)系獲取模塊203及新詞文檔頻率獲取模塊204，其中:
[0046]文檔集獲取模塊201，用于獲取第一文檔集和第二文檔集；所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集；
[0047]統(tǒng)計(jì)模塊202，用于分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率；統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率；
[0048]擬合關(guān)系獲取模塊203，用于獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系；
[0049]新詞文檔頻率獲取模塊204，用于根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率，獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
[0050]由于新詞往往只出現(xiàn)在時(shí)新性高的頁(yè)面中，而傳統(tǒng)的基于海量文檔集統(tǒng)計(jì)的文檔頻率計(jì)算方法存在較大誤差，本實(shí)施例引入新文檔集概念，并基于海量文檔集和新文檔集來(lái)估計(jì)新詞在海量文檔集中的文檔頻率。
[0051]具體地，首先，確定海量文檔集A (即本實(shí)施例所稱(chēng)第一文檔集)和新文檔集B (即本實(shí)施例所稱(chēng)第二文檔集)兩個(gè)文檔集合，其中:
[0052]作為優(yōu)選方案，海量文檔集A共包含約100萬(wàn)篇文檔，從全量文檔中隨機(jī)挑選；海量文檔集A里的文檔基本為兩年前的數(shù)據(jù)。
[0053]新文檔集B共包含約5萬(wàn)篇文檔，可以從各大門(mén)戶(hù)網(wǎng)站首頁(yè)中抓取；新文檔集B里的文檔基本為最近一個(gè)月以?xún)?nèi)的數(shù)據(jù)。
[0054]需要說(shuō)明的是，上述海量文檔集A里的文檔數(shù)據(jù)的產(chǎn)生時(shí)間也可以不限于兩年前，比如還可以一年前等；上述新文檔集B里的文檔數(shù)據(jù)的產(chǎn)生時(shí)間也可以不限定為最近一個(gè)月以?xún)?nèi)，比如還可以是半月以?xún)?nèi)，等等。
[0055]然后，分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率；統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率。
[0056]其中，預(yù)設(shè)常用詞是指經(jīng)常出現(xiàn)的詞，目前定義的常用詞約有7萬(wàn)個(gè)；預(yù)設(shè)新詞是指基于互聯(lián)網(wǎng)技術(shù)發(fā)展而出現(xiàn)在時(shí)新性高的文檔中的詞，新詞一般伴隨熱點(diǎn)事件、熱點(diǎn)人物而產(chǎn)生，其存在時(shí)間較短。
[0057]設(shè)定常用詞為W，新詞為t，在確定兩個(gè)文檔集A和B后，分別統(tǒng)計(jì)每個(gè)常用詞w在A和B里的文檔頻率，分別表示為DF_A_w和DF_B_w，其中DF_A_w為常用詞w在海量文檔集A的真實(shí)文檔頻率，DF_B_w用于持續(xù)在新文檔集B里與新詞作比較。
[0058]此外，還要統(tǒng)計(jì)每個(gè)新詞t在新文檔集B里的文檔頻率DF_B_t，以便后續(xù)得到常用詞在海量文檔集A和新文檔集B中的文檔頻率的對(duì)應(yīng)擬合關(guān)系后，依據(jù)新詞t在新文檔集B里的文檔頻率DF_B_t獲取新詞在海量文檔集A中的文檔頻率DF_A_t。
[0059]上述統(tǒng)計(jì)常用詞w在A和B里的文檔頻率，以及統(tǒng)計(jì)新詞t在B中的文檔頻率，可以采用以下方案:
[0060]先對(duì)文檔集(A或B)中的每篇文檔進(jìn)行分詞，然后統(tǒng)計(jì)每個(gè)詞在多少篇文檔中出現(xiàn)過(guò)，由此統(tǒng)計(jì)得到的文檔次數(shù)即作為該詞的文檔頻率。
[0061]在獲取到每個(gè)常用詞w在海量文檔集A的文檔頻率DF_A_w和新文檔集B里的文檔頻率DF_B_w后，分析常用詞在海量文檔集A和新文檔集B里的文檔頻率關(guān)系。
[0062]首先，將所有常用詞在海量文檔集A中的文檔頻率從小至大進(jìn)行排序，得到排序序列；然后對(duì)所述排序序列以組為單位進(jìn)行分段；這里以100為分段間隔，即0-100為一組，101-200為一組，依此類(lèi)推。
[0063]之后以組為單位，計(jì)算每個(gè)組里所有常用詞的平均DF_B_w ;然后，以每一組的平均DF_B_w作為橫坐標(biāo)，以該組中心處的排序值為縱坐標(biāo)繪圖，繪制得到文檔頻率擬合曲線(xiàn)。其中，基于前50個(gè)組的數(shù)據(jù)得到的文檔頻率擬合曲線(xiàn)如圖2所示。
[0064]從圖2所示的散點(diǎn)圖中可以看出:常用詞在海量文檔集A和新文檔集B中的文檔頻率兩者存在接近線(xiàn)性的擬合關(guān)系，這說(shuō)明常用詞在兩個(gè)文檔集A和B中的文檔頻率之間存在線(xiàn)性關(guān)系。
[0065]考慮到新詞最終也會(huì)變成常用詞而穩(wěn)定下來(lái)，因此以新詞在新文檔集B中的文檔頻率DF_B_t為橫坐標(biāo)，利用圖2所示的線(xiàn)性擬合關(guān)系曲線(xiàn)得到的縱坐標(biāo)值即為新詞在海量文檔集A里的文檔頻率DF_A_t。
[0066]在具體實(shí)施過(guò)程中，如圖4所示，上述擬合關(guān)系獲取模塊203可以包括:排序單元2031、分段單元2032、計(jì)算單元2033以及繪制單元2034，其中:
[0067]排序單元2031，用于將所有預(yù)設(shè)常用詞在所述第一文檔集中的文檔頻率從小至大進(jìn)行排序，得到排序序列；
[0068]分段單元2032，用于對(duì)所述排序序列以組為單位進(jìn)行分段；
[0069]計(jì)算單元2033，用于計(jì)算每一組中所有預(yù)設(shè)常用詞在所述第二文檔集中的平均文檔頻率；
[0070]繪制單元2034，用于以每一組的所述平均文檔頻率為橫坐標(biāo)，以該組中心處的排序值為縱坐標(biāo)，繪制得到文檔頻率擬合曲線(xiàn)。
[0071]本發(fā)明實(shí)施例預(yù)估新詞文檔頻率的方法及裝置，通過(guò)確定海量文檔集(第一文檔集)和新文檔集(第二文檔集)，并統(tǒng)計(jì)常用詞在海量文檔集和新文檔集里的文檔頻率，再尋找這兩個(gè)文檔頻率之間的關(guān)系，最后利用新詞在新文檔集里的文檔頻率來(lái)預(yù)估其在海量文檔集中的文檔頻率，由此提高了新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率，從而彌補(bǔ)了傳統(tǒng)的統(tǒng)計(jì)方法對(duì)于新詞的文檔頻率統(tǒng)計(jì)結(jié)果誤差較大的缺陷；而且本發(fā)明對(duì)于新詞在特征選擇、關(guān)鍵詞抽取、向量空間模型表示等【技術(shù)領(lǐng)域】的應(yīng)用具有重要意義。
[0072]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例，并非因此限制本發(fā)明的專(zhuān)利范圍，凡是利用本發(fā)明說(shuō)明書(shū)及附圖內(nèi)容所作的等效結(jié)構(gòu)或流程變換，或直接或間接運(yùn)用在其它相關(guān)的【技術(shù)領(lǐng)域】，均同理包括在本發(fā)明的專(zhuān)利保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種預(yù)估新詞文檔頻率的方法，其特征在于，包括: 獲取第一文檔集和第二文檔集；所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集；分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率；統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率；獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系; 根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率，獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系的步驟包括: 將所有預(yù)設(shè)常用詞在所述第一文檔集中的文檔頻率從小至大進(jìn)行排序，得到排序序列；對(duì)所述排序序列以組為單位進(jìn)行分段；計(jì)算每一組中所有預(yù)設(shè)常用詞在所述第二文檔集中的平均文檔頻率；以每一組的所述平均文檔頻率為橫坐標(biāo)，以該組中心處的排序值為縱坐標(biāo)，繪制得到文檔頻率擬合曲線(xiàn)。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述根據(jù)對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率，獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率的步驟包括: 以所述預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率為橫坐標(biāo)，從所述文檔頻率擬合曲線(xiàn)中查找對(duì)應(yīng)的縱坐標(biāo)，即為該預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
4.根據(jù)權(quán)利要求1、2或3所述的方法，其特征在于，所述獲取第一文檔集和第二文檔集的步驟包括: 從給定的全量文檔中隨機(jī)挑選第一預(yù)定數(shù)量的海量文檔，作為所述第一文檔集；從預(yù)定的門(mén)戶(hù)網(wǎng)站首頁(yè)中抓取第二預(yù)定數(shù)量的新文檔，作為所述第二文檔集；所述第一預(yù)定數(shù)量大于所述第二預(yù)定數(shù)量。
5.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述第一文檔集中的文檔數(shù)據(jù)產(chǎn)生時(shí)間至少為兩年以上；所述第二文檔集中的文檔數(shù)據(jù)產(chǎn)生時(shí)間在一月之內(nèi)。
6.一種預(yù)估新詞文檔頻率的裝置，其特征在于，包括: 文檔集獲取模塊，用于獲取第一文檔集和第二文檔集；所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集；統(tǒng)計(jì)模塊，用于分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率；統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率；擬合關(guān)系獲取模塊，用于獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系；新詞文檔頻率獲取模塊，用于根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率，獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
7.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述擬合關(guān)系獲取模塊包括:排序單元，用于將所有預(yù)設(shè)常用詞在所述第一文檔集中的文檔頻率從小至大進(jìn)行排序，得到排序序列；分段單元，用于對(duì)所述排序序列以組為單位進(jìn)行分段；計(jì)算單元，用于計(jì)算每一組中所有預(yù)設(shè)常用詞在所述第二文檔集中的平均文檔頻率；繪制單元，用于以每一組的所述平均文檔頻率為橫坐標(biāo)，以該組中心處的排序值為縱坐標(biāo)，繪制得到文檔頻率擬合曲線(xiàn)。
8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述新詞文檔頻率獲取模塊還用于以所述預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率為橫坐標(biāo)，從所述文檔頻率擬合曲線(xiàn)中查找對(duì)應(yīng)的縱坐標(biāo)，即為該預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
9.根據(jù)權(quán)利要求6、7或8所述的裝置，其特征在于，所述文檔集獲取模塊還用于從給定的全量文檔中隨機(jī)挑選第一預(yù)定數(shù)量的海量文檔，作為所述第一文檔集；從預(yù)定的門(mén)戶(hù)網(wǎng)站首頁(yè)中抓取第二預(yù)定數(shù)量的新文檔，作為所述第二文檔集；所述第一預(yù)定數(shù)量大于所述第二預(yù)定數(shù)量。
10.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述第一文檔集中的文檔數(shù)據(jù)產(chǎn)生時(shí)間至少為兩年以上；所述第二文檔集中的文檔數(shù)據(jù)產(chǎn)生時(shí)間在一月之內(nèi)。
【文檔編號(hào)】G06F17/30GK103885989SQ201210566103
【公開(kāi)日】2014年6月25日申請(qǐng)日期:2012年12月24日優(yōu)先權(quán)日:2012年12月24日
【發(fā)明者】蔡兵申請(qǐng)人:騰訊科技（武漢）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡兵
技術(shù)所有人：騰訊科技(武漢)有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：搜索方法及系統(tǒng)的制作方法
上一篇：操作處理方法和電子設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

頻率電壓緊急控制裝置相關(guān)技術(shù)

頻率電壓控制裝置相關(guān)技術(shù)

gps時(shí)鐘頻率標(biāo)準(zhǔn)裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

預(yù)估新詞文檔頻率的方法及裝置制造方法