預(yù)估新詞文檔頻率的方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)一種預(yù)估新詞文檔頻率的方法及裝置,其方法包括:獲取第一文檔集和第二文檔集;第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集;分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在第一文檔集和第二文檔集中的文檔頻率;統(tǒng)計(jì)每一預(yù)設(shè)新詞在第二文檔集中的文檔頻率;獲取預(yù)設(shè)常用詞在第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系;根據(jù)對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在第二文檔集中的文檔頻率,獲取預(yù)設(shè)新詞在第一文檔集中的文檔頻率。本發(fā)明提高了新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率,彌補(bǔ)了傳統(tǒng)的統(tǒng)計(jì)方法對(duì)于新詞的文檔頻率統(tǒng)計(jì)結(jié)果誤差較大的缺陷;且本發(fā)明對(duì)于新詞在特征選擇、關(guān)鍵詞抽取、向量空間模型表示等【技術(shù)領(lǐng)域】的應(yīng)用具有重要意義。
【專(zhuān)利說(shuō)明】預(yù)估新詞文檔頻率的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種預(yù)估新詞文檔頻率的方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,新詞日益增多,其已逐漸成為互聯(lián)網(wǎng)領(lǐng)域越來(lái)越普遍的一個(gè)現(xiàn)象。新詞又叫未登錄詞,是指以前從未出現(xiàn),而最近比較流行的有意義的詞。新詞一般伴隨熱點(diǎn)事件、熱點(diǎn)人物而產(chǎn)生,往往帶有極大的信息量,是文本分類(lèi)、關(guān)鍵詞抽取等技術(shù)不可或缺的特征項(xiàng)。而文檔頻率(DF,Document Frequency)作為一種經(jīng)典的信息度量因子,也在這些相關(guān)【技術(shù)領(lǐng)域】被廣泛應(yīng)用,比如向量空間模型、特征選擇、特征權(quán)重等等。
[0003]通常,文檔頻率是指一個(gè)詞在海量文檔集合里出現(xiàn)的文檔次數(shù)。傳統(tǒng)的文檔頻率計(jì)算方法一般是基于海量文檔集合的統(tǒng)計(jì)。其大致方法是先從全量文檔中隨機(jī)篩選出一個(gè)較大數(shù)量(比如100萬(wàn))的文檔集,然后對(duì)每篇文檔集進(jìn)行分詞,并統(tǒng)計(jì)每個(gè)詞在多少篇文檔中出現(xiàn),由此統(tǒng)計(jì)的文檔次數(shù)就作為該詞的文檔頻率。
[0004]這種基于海量文檔集合統(tǒng)計(jì)的方法比較穩(wěn)定,對(duì)于常用詞的文檔頻率比較準(zhǔn)確,但是由于新詞只出現(xiàn)在極少的時(shí)新性高的文檔中,傳統(tǒng)的這種統(tǒng)計(jì)方法對(duì)于新詞的文檔頻率統(tǒng)計(jì)結(jié)果誤差較大,一般會(huì)大大低于其真實(shí)值。
[0005]因此,傳統(tǒng)的基于海量文檔集統(tǒng)計(jì)的文檔頻率計(jì)算方法不太適用新詞,尋找更好的新詞文檔頻率計(jì)算方法顯得尤為重要。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的主要目的在于提供一種預(yù)估新詞文檔頻率的方法及裝置,旨在提高新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率。
[0007]為了達(dá)到上述目的,本發(fā)明提出一種預(yù)估新詞文檔頻率的方法,包括:
[0008]獲取第一文檔集和第二文檔集;所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集;
[0009]分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率;統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率;
[0010]獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系;
[0011]根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率,獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
[0012]本發(fā)明還提出一種預(yù)估新詞文檔頻率的裝置,包括:
[0013]文檔集獲取模塊,用于獲取第一文檔集和第二文檔集;所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集;
[0014]統(tǒng)計(jì)模塊,用于分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率;統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率;[0015]擬合關(guān)系獲取模塊,用于獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系;
[0016]新詞文檔頻率獲取模塊,用于根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率,獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
[0017]本發(fā)明提出的一種預(yù)估新詞文檔頻率的方法及裝置,通過(guò)確定海量文檔集(第一文檔集)和新文檔集(第二文檔集),并統(tǒng)計(jì)常用詞在海量文檔集和新文檔集里的文檔頻率,再尋找這兩個(gè)文檔頻率之間的關(guān)系,最后利用新詞在新文檔集里的文檔頻率來(lái)預(yù)估其在海量文檔集中的文檔頻率,由此提高了新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率,從而彌補(bǔ)了傳統(tǒng)的統(tǒng)計(jì)方法對(duì)于新詞的文檔頻率統(tǒng)計(jì)結(jié)果誤差較大的缺陷;而且本發(fā)明對(duì)于新詞在特征選擇、關(guān)鍵詞抽取、向量空間模型表示等【技術(shù)領(lǐng)域】的應(yīng)用具有重要意義。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0018]圖1是本發(fā)明預(yù)估新詞文檔頻率的方法較佳實(shí)施例的流程示意圖;
[0019]圖2是本發(fā)明預(yù)估新詞文檔頻率的方法較佳實(shí)施例中一種實(shí)例的文檔頻率擬合曲線(xiàn)示意圖;
[0020]圖3是本發(fā)明預(yù)估新詞文檔頻率的裝置較佳實(shí)施例的結(jié)構(gòu)示意圖;
[0021]圖4是本發(fā)明預(yù)估新詞文檔頻率的裝置較佳實(shí)施例中擬合關(guān)系獲取模塊的結(jié)構(gòu)示意圖。
[0022]為了使本發(fā)明的技術(shù)方案更加清楚、明了,下面將結(jié)合附圖作進(jìn)一步詳述。
【具體實(shí)施方式】
[0023]本發(fā)明實(shí)施例的解決方案主要是:通過(guò)確定海量文檔集(第一文檔集)和新文檔集(第二文檔集),并統(tǒng)計(jì)常用詞在海量文檔集和新文檔集里的文檔頻率,再尋找這兩個(gè)文檔頻率之間的關(guān)系,最后利用新詞在新文檔集里的文檔頻率來(lái)預(yù)估其在海量文檔集中的文檔頻率,以提高新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率,彌補(bǔ)傳統(tǒng)的統(tǒng)計(jì)方法對(duì)于新詞的文檔頻率統(tǒng)計(jì)結(jié)果誤差較大的缺陷。
[0024]如圖1所示,本發(fā)明較佳實(shí)施例提出一種預(yù)估新詞文檔頻率的方法,包括:
[0025]步驟S101,獲取第一文檔集和第二文檔集;所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集;
[0026]由于新詞往往只出現(xiàn)在時(shí)新性高的頁(yè)面中,而傳統(tǒng)的基于海量文檔集統(tǒng)計(jì)的文檔頻率計(jì)算方法存在較大誤差,本實(shí)施例引入新文檔集概念,并基于海量文檔集和新文檔集來(lái)估計(jì)新詞在海量文檔集中的文檔頻率。
[0027]具體地,首先,確定海量文檔集A (即本實(shí)施例所稱(chēng)第一文檔集)和新文檔集B (即本實(shí)施例所稱(chēng)第二文檔集)兩個(gè)文檔集合,其中:
[0028]作為優(yōu)選方案,海量文檔集A共包含約100萬(wàn)篇文檔,從全量文檔中隨機(jī)挑選;海量文檔集A里的文檔基本為兩年前的數(shù)據(jù)。
[0029]新文檔集B共包含約5萬(wàn)篇文檔,可以從各大門(mén)戶(hù)網(wǎng)站首頁(yè)中抓??;新文檔集B里的文檔基本為最近一個(gè)月以?xún)?nèi)的數(shù)據(jù)。
[0030]需要說(shuō)明的是,上述海量文檔集A里的文檔數(shù)據(jù)的產(chǎn)生時(shí)間也可以不限于兩年前,比如還可以一年前等;上述新文檔集B里的文檔數(shù)據(jù)的產(chǎn)生時(shí)間也可以不限定為最近一個(gè)月以?xún)?nèi),比如還可以是半月以?xún)?nèi),等等。
[0031]步驟S102,分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率;統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率;
[0032]其中,預(yù)設(shè)常用詞是指經(jīng)常出現(xiàn)的詞,目前定義的常用詞約有7萬(wàn)個(gè);預(yù)設(shè)新詞是指基于互聯(lián)網(wǎng)技術(shù)發(fā)展而出現(xiàn)在時(shí)新性高的文檔中的詞,新詞一般伴隨熱點(diǎn)事件、熱點(diǎn)人物而產(chǎn)生,其存在時(shí)間較短。
[0033]設(shè)定常用詞為W,新詞為t,在確定兩個(gè)文檔集A和B后,分別統(tǒng)計(jì)每個(gè)常用詞w在A和B里的文檔頻率,分別表示為DF_A_w和DF_B_w,其中DF_A_w為常用詞w在海量文檔集A的真實(shí)文檔頻率,DF_B_w用于持續(xù)在新文檔集B里與新詞作比較。
[0034]此外,還要統(tǒng)計(jì)每個(gè)新詞t在新文檔集B里的文檔頻率DF_B_t,以便后續(xù)得到常用詞在海量文檔集A和新文檔集B中的文檔頻率的對(duì)應(yīng)擬合關(guān)系后,依據(jù)新詞t在新文檔集B里的文檔頻率DF_B_t獲取新詞在海量文檔集A中的文檔頻率DF_A_t。
[0035]上述統(tǒng)計(jì)常用詞w在A和B里的文檔頻率,以及統(tǒng)計(jì)新詞t在B中的文檔頻率,可以采用以下方案:
[0036]先對(duì)文檔集(A或B)中的每篇文檔進(jìn)行分詞,然后統(tǒng)計(jì)每個(gè)詞在多少篇文檔中出現(xiàn)過(guò),由此統(tǒng)計(jì)得到的文檔次數(shù)即作為該詞的文檔頻率。
[0037]步驟S103,獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系;
[0038]步驟S104,根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率,獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
[0039]上述步驟103及步驟S104中,在獲取到每個(gè)常用詞w在海量文檔集A的文檔頻率DF_A_w和新文檔集B里的文檔頻率DF_B_w后,分析常用詞在海量文檔集A和新文檔集B里的文檔頻率關(guān)系。
[0040]首先,將所有常用詞在海量文檔集A中的文檔頻率從小至大進(jìn)行排序,得到排序序列;然后對(duì)所述排序序列以組為單位進(jìn)行分段;這里以100為分段間隔,即0-100為一組,101-200為一組,依此類(lèi)推。
[0041]之后以組為單位,計(jì)算每個(gè)組里所有常用詞的平均DF_B_w ;然后,以每一組的平均DF_B_w作為橫坐標(biāo),以該組中心處的排序值為縱坐標(biāo)繪圖,繪制得到文檔頻率擬合曲線(xiàn)。其中,基于前50個(gè)組的數(shù)據(jù)得到的文檔頻率擬合曲線(xiàn)如圖2所示。
[0042]從圖2所示的散點(diǎn)圖中可以看出:常用詞在海量文檔集A和新文檔集B中的文檔頻率兩者存在接近線(xiàn)性的擬合關(guān)系,這說(shuō)明常用詞在兩個(gè)文檔集A和B中的文檔頻率之間存在線(xiàn)性關(guān)系。
[0043]考慮到新詞最終也會(huì)變成常用詞而穩(wěn)定下來(lái),因此以新詞在新文檔集B中的文檔頻率DF_B_t為橫坐標(biāo),利用圖2所示的線(xiàn)性擬合關(guān)系曲線(xiàn)得到的縱坐標(biāo)值即為新詞在海量文檔集A里的文檔頻率DF_A_t。
[0044]相比傳統(tǒng)的文檔頻率計(jì)算方法僅僅是基于海量文檔集合的統(tǒng)計(jì)所帶來(lái)的誤差大的缺陷,本實(shí)施例通過(guò)上述方案,提高了新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率,從而彌補(bǔ)了傳統(tǒng)的統(tǒng)計(jì)方法的缺陷;而且本實(shí)施例對(duì)于新詞在特征選擇、關(guān)鍵詞抽取、向量空間模型表示等【技術(shù)領(lǐng)域】的應(yīng)用具有重要意義。
[0045]如圖3所示,本發(fā)明較佳實(shí)施例提出一種預(yù)估新詞文檔頻率的裝置,包括:文檔集獲取模塊201、統(tǒng)計(jì)模塊202、擬合關(guān)系獲取模塊203及新詞文檔頻率獲取模塊204,其中:
[0046]文檔集獲取模塊201,用于獲取第一文檔集和第二文檔集;所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集;
[0047]統(tǒng)計(jì)模塊202,用于分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率;統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率;
[0048]擬合關(guān)系獲取模塊203,用于獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系;
[0049]新詞文檔頻率獲取模塊204,用于根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率,獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
[0050]由于新詞往往只出現(xiàn)在時(shí)新性高的頁(yè)面中,而傳統(tǒng)的基于海量文檔集統(tǒng)計(jì)的文檔頻率計(jì)算方法存在較大誤差,本實(shí)施例引入新文檔集概念,并基于海量文檔集和新文檔集來(lái)估計(jì)新詞在海量文檔集中的文檔頻率。
[0051]具體地,首先,確定海量文檔集A (即本實(shí)施例所稱(chēng)第一文檔集)和新文檔集B (即本實(shí)施例所稱(chēng)第二文檔集)兩個(gè)文檔集合,其中:
[0052]作為優(yōu)選方案,海量文檔集A共包含約100萬(wàn)篇文檔,從全量文檔中隨機(jī)挑選;海量文檔集A里的文檔基本為兩年前的數(shù)據(jù)。
[0053]新文檔集B共包含約5萬(wàn)篇文檔,可以從各大門(mén)戶(hù)網(wǎng)站首頁(yè)中抓取;新文檔集B里的文檔基本為最近一個(gè)月以?xún)?nèi)的數(shù)據(jù)。
[0054]需要說(shuō)明的是,上述海量文檔集A里的文檔數(shù)據(jù)的產(chǎn)生時(shí)間也可以不限于兩年前,比如還可以一年前等;上述新文檔集B里的文檔數(shù)據(jù)的產(chǎn)生時(shí)間也可以不限定為最近一個(gè)月以?xún)?nèi),比如還可以是半月以?xún)?nèi),等等。
[0055]然后,分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率;統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率。
[0056]其中,預(yù)設(shè)常用詞是指經(jīng)常出現(xiàn)的詞,目前定義的常用詞約有7萬(wàn)個(gè);預(yù)設(shè)新詞是指基于互聯(lián)網(wǎng)技術(shù)發(fā)展而出現(xiàn)在時(shí)新性高的文檔中的詞,新詞一般伴隨熱點(diǎn)事件、熱點(diǎn)人物而產(chǎn)生,其存在時(shí)間較短。
[0057]設(shè)定常用詞為W,新詞為t,在確定兩個(gè)文檔集A和B后,分別統(tǒng)計(jì)每個(gè)常用詞w在A和B里的文檔頻率,分別表示為DF_A_w和DF_B_w,其中DF_A_w為常用詞w在海量文檔集A的真實(shí)文檔頻率,DF_B_w用于持續(xù)在新文檔集B里與新詞作比較。
[0058]此外,還要統(tǒng)計(jì)每個(gè)新詞t在新文檔集B里的文檔頻率DF_B_t,以便后續(xù)得到常用詞在海量文檔集A和新文檔集B中的文檔頻率的對(duì)應(yīng)擬合關(guān)系后,依據(jù)新詞t在新文檔集B里的文檔頻率DF_B_t獲取新詞在海量文檔集A中的文檔頻率DF_A_t。
[0059]上述統(tǒng)計(jì)常用詞w在A和B里的文檔頻率,以及統(tǒng)計(jì)新詞t在B中的文檔頻率,可以采用以下方案:
[0060]先對(duì)文檔集(A或B)中的每篇文檔進(jìn)行分詞,然后統(tǒng)計(jì)每個(gè)詞在多少篇文檔中出現(xiàn)過(guò),由此統(tǒng)計(jì)得到的文檔次數(shù)即作為該詞的文檔頻率。
[0061]在獲取到每個(gè)常用詞w在海量文檔集A的文檔頻率DF_A_w和新文檔集B里的文檔頻率DF_B_w后,分析常用詞在海量文檔集A和新文檔集B里的文檔頻率關(guān)系。
[0062]首先,將所有常用詞在海量文檔集A中的文檔頻率從小至大進(jìn)行排序,得到排序序列;然后對(duì)所述排序序列以組為單位進(jìn)行分段;這里以100為分段間隔,即0-100為一組,101-200為一組,依此類(lèi)推。
[0063]之后以組為單位,計(jì)算每個(gè)組里所有常用詞的平均DF_B_w ;然后,以每一組的平均DF_B_w作為橫坐標(biāo),以該組中心處的排序值為縱坐標(biāo)繪圖,繪制得到文檔頻率擬合曲線(xiàn)。其中,基于前50個(gè)組的數(shù)據(jù)得到的文檔頻率擬合曲線(xiàn)如圖2所示。
[0064]從圖2所示的散點(diǎn)圖中可以看出:常用詞在海量文檔集A和新文檔集B中的文檔頻率兩者存在接近線(xiàn)性的擬合關(guān)系,這說(shuō)明常用詞在兩個(gè)文檔集A和B中的文檔頻率之間存在線(xiàn)性關(guān)系。
[0065]考慮到新詞最終也會(huì)變成常用詞而穩(wěn)定下來(lái),因此以新詞在新文檔集B中的文檔頻率DF_B_t為橫坐標(biāo),利用圖2所示的線(xiàn)性擬合關(guān)系曲線(xiàn)得到的縱坐標(biāo)值即為新詞在海量文檔集A里的文檔頻率DF_A_t。
[0066]在具體實(shí)施過(guò)程中,如圖4所示,上述擬合關(guān)系獲取模塊203可以包括:排序單元2031、分段單元2032、計(jì)算單元2033以及繪制單元2034,其中:
[0067]排序單元2031,用于將所有預(yù)設(shè)常用詞在所述第一文檔集中的文檔頻率從小至大進(jìn)行排序,得到排序序列;
[0068]分段單元2032,用于對(duì)所述排序序列以組為單位進(jìn)行分段;
[0069]計(jì)算單元2033,用于計(jì)算每一組中所有預(yù)設(shè)常用詞在所述第二文檔集中的平均文檔頻率;
[0070]繪制單元2034,用于以每一組的所述平均文檔頻率為橫坐標(biāo),以該組中心處的排序值為縱坐標(biāo),繪制得到文檔頻率擬合曲線(xiàn)。
[0071]本發(fā)明實(shí)施例預(yù)估新詞文檔頻率的方法及裝置,通過(guò)確定海量文檔集(第一文檔集)和新文檔集(第二文檔集),并統(tǒng)計(jì)常用詞在海量文檔集和新文檔集里的文檔頻率,再尋找這兩個(gè)文檔頻率之間的關(guān)系,最后利用新詞在新文檔集里的文檔頻率來(lái)預(yù)估其在海量文檔集中的文檔頻率,由此提高了新詞文檔頻率統(tǒng)計(jì)的準(zhǔn)確率,從而彌補(bǔ)了傳統(tǒng)的統(tǒng)計(jì)方法對(duì)于新詞的文檔頻率統(tǒng)計(jì)結(jié)果誤差較大的缺陷;而且本發(fā)明對(duì)于新詞在特征選擇、關(guān)鍵詞抽取、向量空間模型表示等【技術(shù)領(lǐng)域】的應(yīng)用具有重要意義。
[0072]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專(zhuān)利范圍,凡是利用本發(fā)明說(shuō)明書(shū)及附圖內(nèi)容所作的等效結(jié)構(gòu)或流程變換,或直接或間接運(yùn)用在其它相關(guān)的【技術(shù)領(lǐng)域】,均同理包括在本發(fā)明的專(zhuān)利保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種預(yù)估新詞文檔頻率的方法,其特征在于,包括: 獲取第一文檔集和第二文檔集;所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集; 分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率;統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率; 獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系; 根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率,獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系的步驟包括: 將所有預(yù)設(shè)常用詞在所述第一文檔集中的文檔頻率從小至大進(jìn)行排序,得到排序序列; 對(duì)所述排序序列以組為單位進(jìn)行分段; 計(jì)算每一組中所有預(yù)設(shè)常用詞在所述第二文檔集中的平均文檔頻率; 以每一組的所述平均文檔頻率為橫坐標(biāo),以該組中心處的排序值為縱坐標(biāo),繪制得到文檔頻率擬合曲線(xiàn)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率,獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率的步驟包括: 以所述預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率為橫坐標(biāo),從所述文檔頻率擬合曲線(xiàn)中查找對(duì)應(yīng)的縱坐標(biāo),即為該預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
4.根據(jù)權(quán)利要求1、2或3所述的方法,其特征在于,所述獲取第一文檔集和第二文檔集的步驟包括: 從給定的全量文檔中隨機(jī)挑選第一預(yù)定數(shù)量的海量文檔,作為所述第一文檔集;從預(yù)定的門(mén)戶(hù)網(wǎng)站首頁(yè)中抓取第二預(yù)定數(shù)量的新文檔,作為所述第二文檔集;所述第一預(yù)定數(shù)量大于所述第二預(yù)定數(shù)量。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述第一文檔集中的文檔數(shù)據(jù)產(chǎn)生時(shí)間至少為兩年以上;所述第二文檔集中的文檔數(shù)據(jù)產(chǎn)生時(shí)間在一月之內(nèi)。
6.一種預(yù)估新詞文檔頻率的裝置,其特征在于,包括: 文檔集獲取模塊,用于獲取第一文檔集和第二文檔集;所述第一文檔集所包含的文檔數(shù)據(jù)產(chǎn)生時(shí)間早于所述第二文檔集; 統(tǒng)計(jì)模塊,用于分別統(tǒng)計(jì)每一預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率;統(tǒng)計(jì)每一預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率; 擬合關(guān)系獲取模塊,用于獲取所述預(yù)設(shè)常用詞在所述第一文檔集和第二文檔集中的文檔頻率的對(duì)應(yīng)擬合關(guān)系; 新詞文檔頻率獲取模塊,用于根據(jù)所述對(duì)應(yīng)擬合關(guān)系以及預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率,獲取所述預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述擬合關(guān)系獲取模塊包括:排序單元,用于將所有預(yù)設(shè)常用詞在所述第一文檔集中的文檔頻率從小至大進(jìn)行排序,得到排序序列; 分段單元,用于對(duì)所述排序序列以組為單位進(jìn)行分段; 計(jì)算單元,用于計(jì)算每一組中所有預(yù)設(shè)常用詞在所述第二文檔集中的平均文檔頻率; 繪制單元,用于以每一組的所述平均文檔頻率為橫坐標(biāo),以該組中心處的排序值為縱坐標(biāo),繪制得到文檔頻率擬合曲線(xiàn)。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述新詞文檔頻率獲取模塊還用于以所述預(yù)設(shè)新詞在所述第二文檔集中的文檔頻率為橫坐標(biāo),從所述文檔頻率擬合曲線(xiàn)中查找對(duì)應(yīng)的縱坐標(biāo),即為該預(yù)設(shè)新詞在所述第一文檔集中的文檔頻率。
9.根據(jù)權(quán)利要求6、7或8所述的裝置,其特征在于,所述文檔集獲取模塊還用于從給定的全量文檔中隨機(jī)挑選第一預(yù)定數(shù)量的海量文檔,作為所述第一文檔集;從預(yù)定的門(mén)戶(hù)網(wǎng)站首頁(yè)中抓取第二預(yù)定數(shù)量的新文檔,作為所述第二文檔集;所述第一預(yù)定數(shù)量大于所述第二預(yù)定數(shù)量。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一文檔集中的文檔數(shù)據(jù)產(chǎn)生時(shí)間至少為兩年以上 ;所述第二文檔集中的文檔數(shù)據(jù)產(chǎn)生時(shí)間在一月之內(nèi)。
【文檔編號(hào)】G06F17/30GK103885989SQ201210566103
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2012年12月24日 優(yōu)先權(quán)日:2012年12月24日
【發(fā)明者】蔡兵 申請(qǐng)人:騰訊科技(武漢)有限公司