亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種從文檔集中自動發(fā)現(xiàn)新詞的方法及裝置制造方法

文檔序號:6547427閱讀:210來源:國知局
一種從文檔集中自動發(fā)現(xiàn)新詞的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種從文檔集中自動發(fā)現(xiàn)新詞的方法及裝置,其中,模板獲取單元獲取一個或多個模板;詞語提取單元從所述文檔集中提取出與所述一個或多個模板中的各模板相匹配的詞語;候選模板集合加入單元從所述一個或多個模板中至少選取一部分模板加入到候選模板集合;候選詞集合加入單元從提取出的與所述一個或多個模板中的各模板相匹配的詞語中至少選取一部分詞語加入到候選詞集合;新詞集合加入單元基于候選模板集合中的模板對所述候選詞集合中的候選詞排序,基于所述排序?qū)⒁欢〝?shù)量的候選詞加入到新詞集合。與現(xiàn)有技術(shù)相比,本發(fā)明提供的方法和裝置可以有效地發(fā)現(xiàn)新詞。
【專利說明】—種從文檔集中自動發(fā)現(xiàn)新詞的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理技術(shù),尤其涉及一種從文檔集中自動發(fā)現(xiàn)新詞的方法及裝置?!颈尘凹夹g(shù)】
[0002]在社交網(wǎng)絡(luò)中,網(wǎng)民喜歡用自己個性化的語言表達(dá)對政治、社會、文化等的看法。通常,個性化語言被越多的人傳播越容易成為新的網(wǎng)絡(luò)熱詞(簡稱“新詞”)。目前,新詞在自動文摘、文本聚類/分類、信息檢索等方面有著很重要的應(yīng)用,據(jù)統(tǒng)計,每年互聯(lián)網(wǎng)上出現(xiàn)超過1000個的中文新詞,這些新詞大多為各個領(lǐng)域具有時效性的專業(yè)術(shù)語,由于這些新詞大多不存在字典中,因而使得現(xiàn)有的分詞算法很難將這些新詞從文檔集中識別。以情感類的新詞“給力(形容詞)”,文檔“表演非常給力”為例,現(xiàn)有的分詞算法通常對其進(jìn)行如下分詞:表演/名詞非常/副詞給/動詞力/名詞,從而使得新詞“給力”不能作為一個完整的詞進(jìn)行切分,進(jìn)行影響新詞的識別。

【發(fā)明內(nèi)容】

[0003]本發(fā)明解決的技術(shù)問題之一為提升新詞識別的準(zhǔn)確性。
[0004]根據(jù)本發(fā)明的一個方面的一個實施例,提供了一種從文檔集中自動發(fā)現(xiàn)新詞的方法,包括:
[0005]獲取一個或多個模板;
[0006]從所述文檔集中提取出與所述一個或多個模板中的各模板相匹配的詞語;
[0007]從所述一個或多個模板中至少選取一部分模板加入到候選模板集合;
[0008]從提取出的與所述一個或多個模板中的各模板相匹配的詞語中至少選取一部分詞語加入到候選詞集合;
[0009]基于候選模板集合中的模板對所述候選詞集合中的候選詞排序,基于所述排序?qū)⒁欢〝?shù)量的候選詞加入到新詞集合。
[0010]根據(jù)本發(fā)明的一個實施例,通過以下任一方式獲取所述一個或多個模板:
[0011]預(yù)先規(guī)定所述一個或多個模板,或
[0012]在獲取文檔集后,對所述文檔集進(jìn)行切詞處理,從經(jīng)過切詞處理的文檔集中提取出與特定正則表達(dá)式相匹配的所述一個或多個模板。
[0013]根據(jù)本發(fā)明的一個實施例,從所述一個或多個模板中至少選取一部分模板加入到候選模板集合的步驟包括以下中的任一個:
[0014]將所述一個或多個模板全部加入候選模板集合;
[0015]基于所述一個或多個模板的每個模板在所述文檔集中出現(xiàn)的次數(shù),將一部分模板加入候選模板集合。
[0016]根據(jù)本發(fā)明的一個實施例,基于所述一個或多個模板的每個模板在所述文檔集中出現(xiàn)的次數(shù)將一部分模板加入候選模板集合的步驟包括:[0017]將在所述文檔集中出現(xiàn)的次數(shù)排在前f名的模板加入候選模板集合,f為正整數(shù);或
[0018]將在所述文檔集中出現(xiàn)的次數(shù)超過特定閾值的模板加入候選模板集合。
[0019]根據(jù)本發(fā)明的一個實施例,從提取出的與所述一個或多個模板中的各模板相匹配的詞語中至少選取一部分詞語加入到候選詞集合的步驟包括以下中的任一個:
[0020]將所述匹配的詞語全部加入到候選詞集合;
[0021]基于所述匹配的詞語與各模板的匹配次數(shù),將一部分詞語加入候選詞集合。
[0022]根據(jù)本發(fā)明的一個實施例,基于所述匹配的詞語與各模板的匹配次數(shù),將一部分詞語加入候選詞集合的步驟包括:
[0023]將匹配的詞語中與各模板的匹配次數(shù)排在前g名的詞語加入候選詞集合,g為正整數(shù);或
[0024]將匹配的詞語中與各模板的匹配次數(shù)超過特定閾值的詞語加入候選詞集合。
[0025]根據(jù)本發(fā)明的一個實施例,本方法還包括:在基于候選模板集合中的模板對所述候選詞集合中的候選詞排序之前,用預(yù)先規(guī)定的新詞集合對候選模板集合中的模板進(jìn)行排序,并基于所述排序過濾候選模板集合。
[0026]根據(jù)本發(fā)明的一個實施例,本方法還包括:用得到的新詞集合對候選模板集合中的模板進(jìn)行排序,并基于所述排序過濾候選模板集合,并用過濾后的候選模板集合再次對所述候選詞集合中的候選詞排序并基于所述排序再次將一定數(shù)量的候選詞加入到新詞集合。
[0027]根據(jù)本發(fā)明的一個實施例,對候選模板集合中的模板進(jìn)行排序是通過基于以下公式計算候選模板集合中的模板權(quán)重并根據(jù)所計算的模板權(quán)重對候選模板集合中的模板進(jìn)行排序來進(jìn)行的:
【權(quán)利要求】
1.一種從文檔集中自動發(fā)現(xiàn)新詞的方法(1),包括: 獲取一個或多個模板(101); 從所述文檔集中提取出與所述一個或多個模板中的各模板相匹配的詞語(102); 從所述一個或多個模板中至少選取一部分模板加入到候選模板集合(103); 從提取出的與所述一個或多個模板中的各模板相匹配的詞語中至少選取一部分詞語加入到候選詞集合(104); 基于候選模板集合中的模板對所述候選詞集合中的候選詞排序,基于所述排序?qū)⒁欢〝?shù)量的候選詞加入到新詞集合(105)。
2.根據(jù)權(quán)利要求1所述的方法(I),其中通過以下任一方式獲取所述一個或多個模板: 預(yù)先規(guī)定所述一個或多個模板,或 在獲取文檔集后,對所述文檔集進(jìn)行切詞處理,從經(jīng)過切詞處理的文檔集中提取出與特定正則表達(dá)式相匹配的所述一個或多個模板。
3.根據(jù)權(quán)利要求1所述的方法(I),其中從所述一個或多個模板中至少選取一部分模板加入到候選模板集合 的步驟包括以下中的任一個: 將所述一個或多個模板全部加入候選模板集合; 基于所述一個或多個模板的每個模板在所述文檔集中出現(xiàn)的次數(shù),將一部分模板加入候選模板集合。
4.根據(jù)權(quán)利要求3所述的方法(I),其中基于所述一個或多個模板的每個模板在所述文檔集中出現(xiàn)的次數(shù)將一部分模板加入候選模板集合的步驟包括: 將在所述文檔集中出現(xiàn)的次數(shù)排在前f名的模板加入候選模板集合,f為正整數(shù);或 將在所述文檔集中出現(xiàn)的次數(shù)超過特定閾值的模板加入候選模板集合。
5.根據(jù)權(quán)利要求1所述的方法(I),其中從提取出的與所述一個或多個模板中的各模板相匹配的詞語中至少選取一部分詞語加入到候選詞集合的步驟包括以下中的任一個: 將所述匹配的詞語全部加入到候選詞集合; 基于所述匹配的詞語與各模板的匹配次數(shù),將一部分詞語加入候選詞集合。
6.根據(jù)權(quán)利要求5所述的方法(I),其中基于所述匹配的詞語與各模板的匹配次數(shù),將一部分詞語加入候選詞集合的步驟包括: 將匹配的詞語中與各模板的匹配次數(shù)排在前g名的詞語加入候選詞集合,g為正整數(shù);或 將匹配的詞語中與各模板的匹配次數(shù)超過特定閾值的詞語加入候選詞集合。
7.根據(jù)權(quán)利要求1所述的方法(1),還包括:在基于候選模板集合中的模板對所述候選詞集合中的候選詞排序之前,用預(yù)先規(guī)定的新詞集合對候選模板集合中的模板進(jìn)行排序,并基于所述排序過濾候選模板集合。
8.根據(jù)權(quán)利要求1所述的方法(1),還包括:用得到的新詞集合對候選模板集合中的模板進(jìn)行排序,并基于所述排序過濾候選模板集合,并用過濾后的候選模板集合再次對所述候選詞集合中的候選詞排序并基于所述排序再次將一定數(shù)量的候選詞加入到新詞集合。
9.根據(jù)權(quán)利要求7或8所述的方法(I),其中對候選模板集合中的模板進(jìn)行排序是通過基于以下公式計算候選模板集合中的模板權(quán)重并根據(jù)所計算的模板權(quán)重對候選模板集合中的模板進(jìn)行排序來進(jìn)行的:
10.一種從文檔集中自動發(fā)現(xiàn)新詞的裝置(2),包括: 模板獲取單元(201),被配置為獲取一個或多個模板; 詞語提取單元(202),被配置為從所述文檔集中提取出與所述一個或多個模板中的各模板相匹配的詞語; 候選模板集合加入單元(203),被配置為從所述一個或多個模板中至少選取一部分模板加入到候選模板集合; 候選詞集合加入單元(204),被配置為從提取出的與所述一個或多個模板中的各模板相匹配的詞語中至少選取一部分詞語加入到候選詞集合; 新詞集合加入單元(205),被配置為基于候選模板集合中的模板對所述候選詞集合中的候選詞排序,基于所述排序?qū)⒁欢〝?shù)量的候選詞加入到新詞集合。
【文檔編號】G06F17/30GK103955453SQ201410220317
【公開日】2014年7月30日 申請日期:2014年5月23日 優(yōu)先權(quán)日:2014年5月23日
【發(fā)明者】黃民烈, 朱小燕 申請人:清華大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1