漢語(yǔ)縮略語(yǔ)處理方法和裝置的制作方法

文檔序號(hào)：6575085閱讀：166來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：漢語(yǔ)縮略語(yǔ)處理方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及文本信息處理領(lǐng)域，特別涉及漢語(yǔ)縮略語(yǔ)處理方法和裝置。
背景技術(shù)：
縮略語(yǔ)指語(yǔ)言中由固定說(shuō)法經(jīng)過(guò)壓縮,省略或統(tǒng)括而形成的詞語(yǔ)。自然語(yǔ)言的經(jīng)濟(jì)性原則導(dǎo)致了縮略語(yǔ)的出現(xiàn)，通過(guò)對(duì)詞進(jìn)行縮略，能夠很好的起到精煉表達(dá)的作用，如"北京大學(xué)"簡(jiǎn)稱"北大"。縮略語(yǔ)在自然語(yǔ)言中十分常見(jiàn)，在新詞中占據(jù)了很大一部分比例。
由于縮略語(yǔ)的大量使用，形成了自然語(yǔ)言處理中未登錄新詞的主要來(lái)源，導(dǎo)致了機(jī)器在處理中文信息時(shí)，在分詞、詞性標(biāo)注、詞義確定與歧義排除、命名實(shí)體識(shí)別和實(shí)體共指消解等諸多問(wèn)題上存在嚴(yán)重障礙。同時(shí)，由于原形式與縮略形式在表層上的不同，對(duì)信息檢索、關(guān)鍵詞抽取、機(jī)器翻譯、問(wèn)答系統(tǒng)等應(yīng)用也會(huì)造成影響。例如，以"北京大學(xué)"作為檢索條目，對(duì)含有"北大"的文本可能會(huì)漏檢，反之亦然。由此可見(jiàn)，縮略語(yǔ)處理是自然語(yǔ)言處理中一項(xiàng)重要的基礎(chǔ)性工作。
由于縮略語(yǔ)形成方式的復(fù)雜性和新詞的層出不窮，目前漢語(yǔ)縮略語(yǔ)詞典版本較少，主要由專家根據(jù)個(gè)人知識(shí)編寫(xiě)，很難窮盡，而且更新較慢。漢語(yǔ)縮略語(yǔ)應(yīng)用廣泛，有研究表明，新聞標(biāo)題中大約有20%的句子會(huì)使用縮略語(yǔ)。而由于縮略語(yǔ)的簡(jiǎn)潔性，縮略語(yǔ)在日常生活及網(wǎng)絡(luò)中也越來(lái)越流行，因此漢語(yǔ)縮略語(yǔ)識(shí)別的研究顯得尤為迫切和重要。
在對(duì)現(xiàn)有技術(shù)進(jìn)行分析后，發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少具有如下缺點(diǎn)現(xiàn)有技術(shù)在識(shí)別漢語(yǔ)縮略語(yǔ)時(shí)所使用的語(yǔ)料庫(kù)多是非真實(shí)環(huán)境，規(guī)模較小，時(shí)效性欠佳，有的還需要人工干預(yù)，實(shí)驗(yàn)結(jié)果準(zhǔn)確率較低。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種漢語(yǔ)縮略語(yǔ)處理方法和裝置。所述技術(shù)方案如下-一種漢語(yǔ)縮略語(yǔ)處理方法，包括對(duì)用戶查詢?nèi)罩局械乃袞嗽冊(cè)~進(jìn)行預(yù)處理；
將預(yù)處理后的査詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的査詢?cè)~聚集為一組，得到多個(gè)組；對(duì)每一個(gè)組中的査詢?cè)~，執(zhí)行
根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì)；對(duì)于每一個(gè)候選對(duì)，如果其中的源短語(yǔ)具有地名，且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素
與所述地名相對(duì)應(yīng)，則過(guò)濾掉所述源短語(yǔ)中的地名；
根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)
的集合。
一種漢語(yǔ)縮略語(yǔ)處理裝置，包括
預(yù)處理模塊，用于對(duì)用戶查詢?nèi)罩局械乃袞嗽冊(cè)~進(jìn)行預(yù)處理；
相關(guān)詞聚集模塊，用于將預(yù)處理后的査詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的査詢?cè)~聚集為一組，得到多個(gè)組
候選對(duì)生成模塊，用于對(duì)每一個(gè)組中的査詢?cè)~，執(zhí)行根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì)；
過(guò)濾模塊，用于對(duì)于每一個(gè)候選對(duì)，如果其中的源短語(yǔ)具有地名，且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與所述地名相對(duì)應(yīng)，則過(guò)濾掉所述源短語(yǔ)中的地名；
篩選模塊，用于根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。
本發(fā)明實(shí)施例利用用戶查詢?nèi)罩荆瑥挠脩舨樵內(nèi)罩局型诰驖h語(yǔ)縮略語(yǔ)，并通過(guò)一系列的過(guò)濾和篩選辦法，快速?gòu)恼鎸?shí)語(yǔ)料庫(kù)中得到縮略語(yǔ)、源短語(yǔ)對(duì)的較佳結(jié)果集合，提高了縮略語(yǔ)、源短語(yǔ)對(duì)的時(shí)效性和準(zhǔn)確度。

圖1是本發(fā)明實(shí)施例漢語(yǔ)縮略語(yǔ)處理方法流程圖2是本發(fā)明實(shí)施例根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選的方法流程圖；圖3是本發(fā)明實(shí)施例在第二次篩選后的結(jié)果中，根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度對(duì)候選對(duì)進(jìn)行篩選的方法流程圖4是本發(fā)明實(shí)施例漢語(yǔ)縮略語(yǔ)處理裝置示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
6實(shí)施例一
本發(fā)明實(shí)施例提供了一種漢語(yǔ)縮略語(yǔ)處理方法，如圖1所示，包括110:對(duì)用戶査詢?nèi)罩局械乃袞嗽冊(cè)~進(jìn)行預(yù)處理。
去除用戶査詢?nèi)罩局械脑胍魱嗽冊(cè)~。這里的噪音查詢?cè)~主要是指含有外文字符、亂碼的査詢?cè)~。上述預(yù)處理還包括過(guò)濾査詢?cè)~中的數(shù)字、全角字母、標(biāo)點(diǎn)符號(hào)、空格等。
120:將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組，得到多個(gè)組；對(duì)每一個(gè)組中的查詢?cè)~，執(zhí)行步驟130、 140、 150。
在經(jīng)過(guò)上一步的預(yù)處理之后，保留的査詢?cè)~詞條大多是正常的中文查詢?cè)~。在査詢?nèi)罩局校?一條記錄一般包括如下內(nèi)容查詢?cè)~、該査詢?cè)~對(duì)應(yīng)的一條URL (Uniform ResourceLocator,統(tǒng)一資源定位符，也稱為網(wǎng)頁(yè)地址)以及該URL對(duì)應(yīng)的用戶點(diǎn)擊數(shù)。將預(yù)處理后的査詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組，得到多個(gè)組。指向同一網(wǎng)站同一目錄的查詢?cè)~指的是在查詢?nèi)罩局?，?duì)應(yīng)的URL為指向同一網(wǎng)站同一目錄的查詢?cè)~。對(duì)應(yīng)的URL指向同一網(wǎng)站同一目錄的查詢?cè)~較為相關(guān)。例如查詢?cè)~"北京大學(xué)"對(duì)應(yīng)的URL為www.pku.edu.cn;而"北大"也對(duì)應(yīng)于www.pku.edu.cn，因此"北京大學(xué)"與"北大"相關(guān)性較高。
完全相同的URL都是指向同一網(wǎng)站同一目錄的URL。對(duì)于不同的URL，本發(fā)明實(shí)施例中，判斷不同的URL是指向同一網(wǎng)站同一目錄的URL的方法是-
URL —般是以http:〃開(kāi)頭，截取其網(wǎng)址中第3個(gè)"/"之前，http:〃之后的部分，得到保留后的結(jié)果(如http:Vsports.sohu.com/nba.shtml僅保留sports.sohu.com;如果只含有三個(gè)"〃，，第3個(gè)"/"之后沒(méi)有內(nèi)容，貝ij http:〃后的內(nèi)容全部保留，比如http:〃www.sohu.cora/僅保留www.sohu.com)。若不同的URL按照上述方法，保留后的結(jié)果完全相同，則認(rèn)為它們是指向同一網(wǎng)站同一目錄的URL。
下面對(duì)查詢?cè)~聚集為多個(gè)組后的每一個(gè)組作為當(dāng)前組，執(zhí)行步驟130、 140、 150。130:根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì)。字對(duì)齊規(guī)則指(1)字?jǐn)?shù)較少的認(rèn)為是縮略語(yǔ)，字?jǐn)?shù)較多的認(rèn)為是源短語(yǔ)；(2)縮略語(yǔ)中的每個(gè)字均在源短語(yǔ)中順序出現(xiàn)。由此可見(jiàn)，若査詢?cè)~A中的每個(gè)字均在査詢?cè)~B中順序出現(xiàn)，且査詢?cè)~A比查詢?cè)~B字?jǐn)?shù)少，則被挑選出，作為本發(fā)明實(shí)施例的一個(gè)源短語(yǔ)與縮略語(yǔ)匹配的候選對(duì)，其中查詢?cè)~A是縮略語(yǔ)，查詢?cè)~B是源短語(yǔ)。
本實(shí)施例中，根據(jù)字對(duì)齊規(guī)則生成當(dāng)前組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的所有候選對(duì)。比如，
7步驟120中將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的査詢?cè)~聚集為一組后，得到的多個(gè)組中的一組查詢?cè)~為"北大"、"北大生"、"北京大學(xué)"、"北京大學(xué)生""北大本科招生"
四個(gè)詞，那么此處按照字對(duì)齊規(guī)則提取出的候選對(duì)為(北大、北大生)，(北大、北京大學(xué))，(北大、北京大學(xué)生)，(北大生、北京大學(xué)生)，(北京大學(xué)、北京大學(xué)生)，(北大、北大本科招生)，(北京大學(xué)、北大本科招生)，(北大生、北大本科招生)，每個(gè)括號(hào)中一個(gè)候選對(duì)。
140:對(duì)于每一個(gè)候選對(duì)，如果其中的源短語(yǔ)具有地名，且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與該地名相對(duì)應(yīng)，則過(guò)濾掉該源短語(yǔ)中的地名。
提取出候選對(duì)后，由于地名會(huì)對(duì)縮略語(yǔ)造成影響，因此要選擇性過(guò)濾候選對(duì)中的地名。如果其中的源短語(yǔ)具有地名，且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與所述地名相對(duì)應(yīng)，則過(guò)濾掉所述源短語(yǔ)中的地名。如對(duì)于候選對(duì)(市一中，沈陽(yáng)市第一中學(xué))，這里源短語(yǔ)"沈陽(yáng)市第一中學(xué)"中的"沈陽(yáng)"在縮略語(yǔ)"市一中"中沒(méi)有對(duì)應(yīng)的語(yǔ)素，且"市"對(duì)于縮略語(yǔ)的識(shí)別沒(méi)有什么意義，于是該候選對(duì)被處理為候選對(duì)(一中，第一中學(xué))，相應(yīng)地，(沈陽(yáng)一中，遼寧省沈陽(yáng)市第一中學(xué))也應(yīng)當(dāng)被處理為候選對(duì)(一中，第一中學(xué))；而對(duì)于候選對(duì)(北大，北京大學(xué))中的地名"北京"，由于縮略語(yǔ)"北大"中有"北"與之對(duì)應(yīng)，且縮略語(yǔ)中沒(méi)有北京，故應(yīng)當(dāng)保留，即該對(duì)不作處理。
150:根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集
合o
參見(jiàn)圖2，步驟150具體包括以下步驟
210:在該組內(nèi)過(guò)濾后的結(jié)果中，對(duì)包含人名的候選對(duì)進(jìn)行去除，不包含人名的候選對(duì)進(jìn)行保留，得到第一次篩選后的結(jié)果。
當(dāng)前組在經(jīng)過(guò)步驟140中的過(guò)濾后，對(duì)包含人名的候選對(duì)進(jìn)行去除，不包含人名的候選
對(duì)進(jìn)行保留，得到第一次篩選后的結(jié)果。因?yàn)榘嗣亩陶Z(yǔ)通常都不是縮略語(yǔ)，因此本步驟中需要直接去掉，比如對(duì)于候選對(duì)(王偉，王偉的哥哥)，由于"王偉"是人名，因此這一對(duì)將從當(dāng)前組的候選對(duì)中去除。
另外候選對(duì)中還往往存在一個(gè)縮略語(yǔ)對(duì)應(yīng)于超過(guò)3個(gè)的源短語(yǔ)的現(xiàn)象，比如步驟130中所述的候選對(duì)中縮略語(yǔ)"北大"對(duì)應(yīng)了超過(guò)3個(gè)的源短語(yǔ)，因此本實(shí)施例中還根據(jù)用戶査詢?cè)恢局胁樵冊(cè)~的點(diǎn)擊數(shù)信息將縮略語(yǔ)對(duì)應(yīng)于多個(gè)源短語(yǔ)的現(xiàn)象變?yōu)?一對(duì)三"，即一個(gè)縮略語(yǔ)
至多對(duì)應(yīng)于三個(gè)源短語(yǔ)。具體做法為選取同一縮略語(yǔ)對(duì)應(yīng)的源短語(yǔ)中用戶點(diǎn)擊次數(shù)最多的
三個(gè)源短語(yǔ)。
220:在第一次篩選后的結(jié)果中，保留源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng)語(yǔ)素的候選對(duì)，得到第二次篩選后的結(jié)果。
候選對(duì)中的縮略語(yǔ)的形成方式較多，與源短語(yǔ)的匹配程度也不一樣。源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng)語(yǔ)素的候選對(duì)中的縮略語(yǔ)與源短語(yǔ)的匹配程度較高。上述源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng)語(yǔ)素的候選對(duì)可以分為三類(lèi)(l)語(yǔ)素構(gòu)成類(lèi)即源短語(yǔ)中每個(gè)詞對(duì)應(yīng)于縮略語(yǔ)中的每個(gè)詞，如北京大學(xué)——北大；(2)混合類(lèi)即混合法構(gòu)成，縮略語(yǔ)與源短語(yǔ)相比沒(méi)有缺少任何詞，如廣播體操——廣播操；(3)缺失類(lèi)即中間缺失一些詞，剩余的詞每詞一字，且首尾不缺詞，如中華人民共和國(guó)——中國(guó)。
230:在第二次篩選后的結(jié)果中，根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度對(duì)候選對(duì)進(jìn)行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。
對(duì)于網(wǎng)頁(yè)鏈接相似度方面，由于縮略語(yǔ)和源短語(yǔ)有著相同的語(yǔ)義，因此我們認(rèn)為使用搜索引擎分別檢索縮略語(yǔ)和源短語(yǔ)得到的內(nèi)容大致是相同的，表現(xiàn)為URL的鏈接較為相似。對(duì)于共現(xiàn)相似度方面，由于縮略語(yǔ)和源短語(yǔ)通常有共現(xiàn)現(xiàn)象，比如標(biāo)題中使用縮略語(yǔ)，正文中使用源短語(yǔ)等方式，縮略語(yǔ)與源短語(yǔ)會(huì)共同出現(xiàn)在相近的位置，因此它們有較高的共現(xiàn)頻率，表現(xiàn)為利用搜索引擎對(duì)其進(jìn)行檢索，在得到的結(jié)果中二者可能會(huì)出現(xiàn)在同一段摘要中?？s略語(yǔ)和源短語(yǔ)的語(yǔ)義相關(guān)性越高，可能的共現(xiàn)次數(shù)越多。對(duì)于文本相似度，由于縮略語(yǔ)和源短語(yǔ)二者語(yǔ)義相似，因此使用搜索引擎檢索二者得到的文本內(nèi)容可能是類(lèi)似的，也許它們并不
來(lái)源于同一個(gè)URL，但是可能是同一篇文章或者是同一主題。因此文本相似度越高，縮略語(yǔ)
和源短語(yǔ)越匹配。
參見(jiàn)圖3，在第二次篩選后的結(jié)果中，將每一個(gè)候選對(duì)分別作為當(dāng)前候選對(duì)，執(zhí)行以下
步驟-
310:分別計(jì)算當(dāng)前候選對(duì)的網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度。網(wǎng)頁(yè)鏈接相似度的計(jì)算方法，具體包括
(1) 將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)分別作為查詢?cè)~輸入搜索引擎進(jìn)行搜索，并在搜索引擎搜索得到的所有結(jié)果中取第一預(yù)設(shè)數(shù)目的該縮略語(yǔ)的搜索結(jié)果和第一預(yù)設(shè)數(shù)目的該源
短語(yǔ)的搜索結(jié)果。本實(shí)施例中，在搜索引擎搜索得到的所有結(jié)果中取前20條該縮略語(yǔ)的搜索結(jié)果和前20條該源短語(yǔ)的搜索結(jié)果。如果搜索引擎搜索得到的結(jié)果不足20條，以其得到的實(shí)際條數(shù)作為第一預(yù)設(shè)數(shù)目。
(2) 將相似計(jì)數(shù)進(jìn)行初始化(本實(shí)施例中初始化為0)，并對(duì)取出的該縮略語(yǔ)的搜索結(jié)
果中的每一條分別作為當(dāng)前條，執(zhí)行 .
將當(dāng)前條對(duì)應(yīng)的網(wǎng)頁(yè)鏈接，與取出的該源短語(yǔ)的搜索結(jié)果對(duì)應(yīng)的網(wǎng)頁(yè)鏈接依次進(jìn)行比對(duì)，當(dāng)相同時(shí)停止比對(duì)，將所述相似計(jì)數(shù)加1;本實(shí)施例在比對(duì)時(shí)，僅比較搜索結(jié)果對(duì)應(yīng)的網(wǎng)頁(yè)
鏈接的第一級(jí)，也就是步驟120中所說(shuō)的網(wǎng)址中第3個(gè)"/"之前的部分。
當(dāng)取出的該縮略語(yǔ)的搜索結(jié)果中的每一條都與取出的該源短語(yǔ)的搜索結(jié)果完成比對(duì)后，根據(jù)相似計(jì)數(shù)和第一預(yù)設(shè)數(shù)目計(jì)算網(wǎng)頁(yè)鏈接相似度，網(wǎng)頁(yè)鏈接相似度的計(jì)算式為二纖"" 龍中,一第一預(yù)設(shè)數(shù)目，
A為網(wǎng)頁(yè)鏈接相似度，countA為相似計(jì)數(shù)。共現(xiàn)相似度的計(jì)算方法具體包括
(1) 將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)同時(shí)作為査詢?cè)~輸入搜索引擎搜索，并在搜索引擎搜索的結(jié)果中取第二預(yù)設(shè)數(shù)目的搜索結(jié)果。本實(shí)施例中，在搜索引擎搜索的結(jié)果中取前20條搜索結(jié)果。如果搜索引擎搜索得到的結(jié)果不足20條，以其得到的實(shí)際條數(shù)作為第二預(yù)設(shè)數(shù)百。
(2) 將共現(xiàn)次數(shù)進(jìn)行初始化(本實(shí)施例中初始化為0)，把取出的每一個(gè)搜索結(jié)果對(duì)應(yīng)的摘要作為當(dāng)前摘要，執(zhí)行如果當(dāng)前摘要中該縮略語(yǔ)和該源短語(yǔ)均出現(xiàn)過(guò)，則共現(xiàn)次數(shù)加
根據(jù)共現(xiàn)次數(shù)和第二預(yù)設(shè)值計(jì)算共現(xiàn)相似度，共現(xiàn)相似度的計(jì)算式為— 麵"W 其中
2一第二預(yù)設(shè)數(shù)目，升T'
g為共現(xiàn)相似度，countB為共現(xiàn)次數(shù)。
本實(shí)施例借助現(xiàn)有技術(shù)文本分類(lèi)的方法來(lái)計(jì)算文本相似度，具體包括-
(1) 使用語(yǔ)料庫(kù)(比如"大百科全書(shū)")進(jìn)行訓(xùn)練，通過(guò)二元分詞法(二元分詞法即為雙字切分，比如一個(gè)句子"我愛(ài)清華大學(xué)"，采用二元分詞會(huì)得到5個(gè)詞"我愛(ài)"、"愛(ài)清"、
"清華"、"華大"、"大學(xué)")，選擇出6,0000個(gè)詞作為特征表示，因此特征向量空間的維數(shù)為6,0000維。
(2) 對(duì)于上述第二次篩選后得到的結(jié)果中的候選對(duì)，將縮略語(yǔ)和源短語(yǔ)均分別作為關(guān)鍵詞送入搜索引擎査詢，并分別將各自的前20項(xiàng)摘要作為一篇文本寫(xiě)入文件。
(3) 針對(duì)上述文件，對(duì)于縮略語(yǔ)和源短語(yǔ)的兩個(gè)檢索內(nèi)容的文本，若二元分詞后文本中得到的詞屬于6,0000維范圍的詞，計(jì)算每個(gè)詞的權(quán)重(按下述計(jì)算式計(jì)算)，每個(gè)詞的權(quán)重"々.即為特征向量上每一維的值，由此，縮略語(yǔ)文本得到一個(gè)對(duì)應(yīng)的向量》，源短語(yǔ)文本也得到一個(gè)對(duì)應(yīng)的向量《。
詞權(quán)重計(jì)算式<formula>formula see original document page 10</formula>
其中，/e[1，60000]， j為l或2，為詞i在文本j中的權(quán)重，7",.表示詞i在文本j中的頻率，N為語(yǔ)料庫(kù)的文檔數(shù)目。D巧表示詞i在該語(yǔ)料庫(kù)中的文檔頻率，即在多少篇文檔中出現(xiàn)。文本l為縮略語(yǔ)文本，文本2為源短語(yǔ)文本。
然后按照現(xiàn)有的余弦相似度公式計(jì)算二者的文本相似度，最后寫(xiě)入文件。縮略語(yǔ)與源短語(yǔ)的文本相似度0)5(》，0 = 14^ (公式二)，
其中，》代表縮略語(yǔ)采用搜索引擎得到的縮略語(yǔ)文本對(duì)應(yīng)的向量，《代表源短語(yǔ)采用索索引擎得到的源短語(yǔ)文本對(duì)應(yīng)的向量?！?代表向量-和向量《相乘，|》|*|《|代表向量》的模和向量^的模相乘。
320:根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度，得到總相似度。
上述網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度的計(jì)算不區(qū)分先后順序。當(dāng)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度均計(jì)算出來(lái)以后，可以根據(jù)實(shí)際情況或者經(jīng)驗(yàn)，給每一種相似度規(guī)定一個(gè)權(quán)重值(一個(gè)百分比數(shù))，然后依據(jù)規(guī)定的權(quán)重值計(jì)算網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度的總相似度。
330:若上述總相似度大于預(yù)設(shè)閾值，則當(dāng)前候選對(duì)保留，否則去除。
此處的預(yù)設(shè)閾值可以通過(guò)實(shí)驗(yàn)來(lái)確定，是一個(gè)0到1之間的數(shù)。
本發(fā)明實(shí)施例經(jīng)過(guò)上述步驟，通過(guò)計(jì)算機(jī)可以快速得到縮略語(yǔ)、源短語(yǔ)對(duì)的較佳結(jié)果集合。本實(shí)施例中還利用用戶查詢?nèi)罩局锌s略語(yǔ)和源短語(yǔ)的點(diǎn)擊數(shù)信息，使用二者的加權(quán)調(diào)和
平均數(shù)(見(jiàn)公式三)來(lái)計(jì)算推薦值
推薦值-G.210.8 (公式三)，
縮略語(yǔ)點(diǎn)擊數(shù)+源短語(yǔ)點(diǎn)擊數(shù)推薦值越大，說(shuō)明人們使用越多，流行度越好，從而進(jìn)行熱門(mén)推薦。本發(fā)明實(shí)施例利用用戶査詢?nèi)罩?，從用戶查詢?nèi)罩局型诰驖h語(yǔ)縮略語(yǔ)，并通過(guò)一系列的過(guò)
濾和篩選辦法，快速?gòu)恼鎸?shí)語(yǔ)料庫(kù)中得到縮略語(yǔ)、源短語(yǔ)對(duì)的較佳結(jié)果集合，提高了縮略語(yǔ)、
源短語(yǔ)對(duì)的時(shí)效性和準(zhǔn)確度。
實(shí)施例二
本發(fā)明實(shí)施例提供了一種漢語(yǔ)縮略語(yǔ)處理裝置，如圖4所示，包括預(yù)處理模塊401，用于對(duì)用戶査詢?nèi)罩局械乃袞嗽冊(cè)~進(jìn)行預(yù)處理。
去除用戶查詢?nèi)罩局械脑胍魱嗽冊(cè)~。這里的噪音查詢?cè)~主要是指含有外文字符、亂碼的查詢?cè)~。上述預(yù)處理還包括過(guò)濾査詢?cè)~中的數(shù)字、全角字母、標(biāo)點(diǎn)符號(hào)、空格等。
相關(guān)詞聚集模塊402，用于將預(yù)處理后的査詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的査詢?cè)~聚
11集為一組，得到多個(gè)組。
在經(jīng)過(guò)預(yù)處理模塊401的預(yù)處理之后，保留的査詢?cè)~詞條大多是正常的中文査詢?cè)~。在査詢?nèi)罩局校?一條記錄一般包括如下內(nèi)容查詢?cè)~、該查詢?cè)~對(duì)應(yīng)的一條URL (UniformResource Locator,統(tǒng)一資源定位符,也稱為網(wǎng)頁(yè)地址)以及該URL對(duì)應(yīng)的用戶點(diǎn)擊數(shù)。指向同一網(wǎng)站同一目錄的査詢?cè)~指的是在查詢?nèi)罩局?，?duì)應(yīng)的URL為指向同一網(wǎng)站同一目錄的查詢?cè)~。對(duì)應(yīng)的URL指向同一網(wǎng)站同一目錄的査詢?cè)~較為相關(guān)。例如査詢?cè)~"北京大學(xué)"對(duì)應(yīng)的URL為www.pku.edu.cn;而"北大"也對(duì)應(yīng)于www.pku.edu.cn，因此"北京大學(xué)"與"北大"相關(guān)性較高。
完全相同的URL都是指向同一網(wǎng)站同一目錄的URL。對(duì)于不同的URL，本發(fā)明實(shí)施例中，判斷不同的URL是指向同一網(wǎng)站同一目錄的URL的方法是
URL—般是以http:Z/開(kāi)頭，截取其網(wǎng)址中第3個(gè)"/"之前，http:Z/之后的部分，得到保留后的結(jié)果(如http:〃sports.sohu.com/nba.shtml僅保留sports.sohu.com;如果只含有三個(gè)"/"，第3個(gè)"/"之后沒(méi)有內(nèi)容，貝U http:〃后的內(nèi)容全部保留，比如http:〃www.sohu.com/僅保留www.sohu.com)。若不同的URL按照上述方法，保留后的結(jié)果完全相同，則認(rèn)為它們是指向同一網(wǎng)站同一目錄的URL。
候選對(duì)生成模塊403，用于對(duì)由相關(guān)詞聚集模塊402得到的每一個(gè)組中的査詢?cè)~，執(zhí)行根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì)。
字對(duì)齊規(guī)則指(1)字?jǐn)?shù)較少的認(rèn)為是縮略語(yǔ)，字?jǐn)?shù)較多的認(rèn)為是源短語(yǔ)；(2)縮略語(yǔ)中的每個(gè)字均在源短語(yǔ)中順序出現(xiàn)。由此可見(jiàn)，若查詢?cè)~A中的每個(gè)字均在査詢?cè)~B中順序出現(xiàn)，且査詢?cè)~A比查詢?cè)~B字?jǐn)?shù)少，則被挑選出，作為本發(fā)明實(shí)施例的一個(gè)源短語(yǔ)與縮略語(yǔ)匹配的候選對(duì)，其中査詢?cè)~A是縮略語(yǔ)，査詢?cè)~B是源短語(yǔ)。
本實(shí)施例中，根據(jù)字對(duì)齊規(guī)則生成當(dāng)前組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的所有候選對(duì)。比如，相關(guān)詞聚集模塊402將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組后，得到的多個(gè)組中的一組查詢?cè)~為"北大"、"北大生"、"北京大學(xué)"、"北京大學(xué)生""北大本科招生"四個(gè)詞，那么此處按照字對(duì)齊規(guī)則提取出的候選對(duì)為(北大、北大生)，(北大、北京大學(xué))，(北大、北京大學(xué)生)，(北大生、北京大學(xué)生)，(北京大學(xué)、北京大學(xué)生)，(北大、北大本科招生)，(北京大學(xué)、北大本科招生)，(北大生、北大本科招生)，每個(gè)括號(hào)中一個(gè)候選對(duì)。
過(guò)濾模塊404，用于對(duì)于每一個(gè)候選對(duì)，如果其中的源短語(yǔ)具有地名，且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與該地名相對(duì)應(yīng)，則過(guò)濾掉該源短語(yǔ)中的地名。提取出候選對(duì)后，由于地名會(huì)對(duì)縮略語(yǔ)造成影響，因此要選擇性過(guò)濾候選對(duì)中的地名。如果其中的源短語(yǔ)具有地名，且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與所述地名相對(duì)應(yīng)，則過(guò)濾掉所述源短語(yǔ)中的地名。如對(duì)于候選對(duì)(市一中，沈陽(yáng)市第一中學(xué))，這里源短語(yǔ)"沈陽(yáng)市第一中學(xué)" 中的"沈陽(yáng)"在縮略語(yǔ)"市一中"中沒(méi)有對(duì)應(yīng)的語(yǔ)素，且"市"對(duì)于縮略語(yǔ)的識(shí)別沒(méi)有什么意義，于是該候選對(duì)被處理為候選對(duì)(一中，第一中學(xué))，相應(yīng)地，(沈陽(yáng)一中，遼寧省沈陽(yáng) 市第一中學(xué))也應(yīng)當(dāng)被處理為候選對(duì)(一中，第一中學(xué))；而對(duì)于候選對(duì)(北大，北京大學(xué)) 中的地名"北京"，由于縮略語(yǔ)"北大"中有"北"與之對(duì)應(yīng)，且縮略語(yǔ)中沒(méi)有"北京"，故應(yīng)當(dāng)保留，即該對(duì)不作處理。
篩選模塊405，用于根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選，得到該組內(nèi)源短語(yǔ) 與縮略語(yǔ)對(duì)的集合。
篩選模塊405具體包括
第一子模塊，用于在該組內(nèi)過(guò)濾后的結(jié)果中，對(duì)包含人名的候選對(duì)進(jìn)行去除，不包含人名的候選對(duì)進(jìn)行保留，得到第一次篩選后的結(jié)果。
比如對(duì)于候選對(duì)(王偉，王偉的哥哥)，由于"王偉"是人名，因此這一對(duì)將從當(dāng)前組的候選對(duì)中去除。
另外候選對(duì)中還往往存在一個(gè)縮略語(yǔ)對(duì)應(yīng)于超過(guò)3個(gè)的源短語(yǔ)的現(xiàn)象，比如步驟130中所述的候選對(duì)中縮略語(yǔ)"北大"對(duì)應(yīng)了超過(guò)3個(gè)的源短語(yǔ)，因此本實(shí)施例中還根據(jù)用戶査詢日志中査詢?cè)~的點(diǎn)擊數(shù)信息將縮略語(yǔ)對(duì)應(yīng)于多個(gè)源短語(yǔ)的現(xiàn)象變?yōu)?一對(duì)三"，即一個(gè)縮略語(yǔ) 至多對(duì)應(yīng)于三個(gè)源短語(yǔ)。具體做法為選取同一縮略語(yǔ)對(duì)應(yīng)的源短語(yǔ)中用戶點(diǎn)擊次數(shù)最多的三個(gè)源短語(yǔ)。
第二子模塊，用于在第一次篩選后的結(jié)果中，保留源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng) 語(yǔ)素的候選對(duì)，得到第二次篩選后的結(jié)果。
上述源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng)語(yǔ)素的候選對(duì)可以包括三種情況(1)語(yǔ)素構(gòu) 成情況即源短語(yǔ)中每個(gè)詞對(duì)應(yīng)于縮略語(yǔ)中的每個(gè)詞，如-北京大學(xué)——北大；(2)混合情況即混合法構(gòu)成，縮略語(yǔ)與源短語(yǔ)相比沒(méi)有缺少任何詞，如廣播體操——廣播操；(3) 缺失情況即中間缺失一些詞，剩余的詞每詞一字,且首尾不缺詞，如中華人民共和國(guó)—— 中國(guó)。
第三子模塊，用于在第二次篩選后的結(jié)果中，根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度對(duì)候選對(duì)進(jìn)行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。第三子模塊具體包括-
第一單元，用于在第二次篩選后的結(jié)果中，將每一個(gè)候選對(duì)分別作為當(dāng)前候選對(duì)，執(zhí)行分別計(jì)算當(dāng)前候選對(duì)的網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度。網(wǎng)頁(yè)鏈接相似度的計(jì)算方法，具體包括
(1) 將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)分別作為查詢?cè)~輸入搜索引擎進(jìn)行搜索，并在搜索引擎搜索得到的所有結(jié)果中取第一預(yù)設(shè)數(shù)目的該縮略語(yǔ)的搜索結(jié)果和第一預(yù)設(shè)數(shù)目的該源短語(yǔ)的搜索結(jié)果。本實(shí)施例中，在搜索引擎搜索得到的所有結(jié)果中取前20條該縮略語(yǔ)的搜索結(jié)果和前20條該源短語(yǔ)的搜索結(jié)果。如果搜索引擎搜索得到的結(jié)果不足20條，以其得到的實(shí)際條數(shù)作為第一預(yù)設(shè)數(shù)目。
(2) 將相似計(jì)數(shù)進(jìn)行初始化(本實(shí)施例中初始化為0)，并對(duì)取出的該縮略語(yǔ)的搜索結(jié) 果中的每一條分別作為當(dāng)前條，執(zhí)行
將當(dāng)前條對(duì)應(yīng)的網(wǎng)頁(yè)鏈接，與取出的該源短語(yǔ)的搜索結(jié)果對(duì)應(yīng)的網(wǎng)頁(yè)鏈接依次進(jìn)行比對(duì)，
當(dāng)相同時(shí)停止比對(duì)，將所述相似計(jì)數(shù)加1;本實(shí)施例在比對(duì)時(shí)，僅比較搜索結(jié)果對(duì)應(yīng)的網(wǎng)頁(yè)
鏈接的第一級(jí)，也就是步驟120中所說(shuō)的網(wǎng)址中第3個(gè)"/"之前的部分。
當(dāng)取出的該縮略語(yǔ)的搜索結(jié)果中的每一條都與取出的該源短語(yǔ)的搜索結(jié)果完成比對(duì)后，根據(jù)相似計(jì)數(shù)和第一預(yù)設(shè)數(shù)目計(jì)算網(wǎng)頁(yè)鏈接相似度，網(wǎng)頁(yè)鏈接相似度的計(jì)算式為-
尸=其中 1_第一預(yù)設(shè)數(shù)目
《為網(wǎng)頁(yè)鏈接相似度，countA為相似計(jì)數(shù)。共現(xiàn)相似度的計(jì)算方法具體包括
(1) 將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)同時(shí)作為査詢?cè)~輸入搜索引擎搜索，并在搜索引擎搜索的結(jié)果中取第二預(yù)設(shè)數(shù)目的搜索結(jié)果。本實(shí)施例中，在搜索引擎搜索的結(jié)果中取前20 條搜索結(jié)果。如果搜索引擎搜索得到的結(jié)果不足20條，以其得到的實(shí)際條數(shù)作為第二預(yù)設(shè)數(shù) 目。
(2) 將共現(xiàn)次數(shù)進(jìn)行初始化(本實(shí)施例中初始化為0)，把取出的每一個(gè)搜索結(jié)果對(duì)應(yīng) 的摘要作為當(dāng)前摘要，執(zhí)行如果當(dāng)前摘要中該縮略語(yǔ)和該源短語(yǔ)均出現(xiàn)過(guò)，則共現(xiàn)次數(shù)加 1。
根據(jù)共現(xiàn)次數(shù)和第二預(yù)設(shè)值計(jì)算共現(xiàn)相似度，共現(xiàn)相似度的計(jì)算式為-尸—講"^ '其中，
2—第二預(yù)設(shè)數(shù)目
^為共現(xiàn)相似度，countB為共現(xiàn)次數(shù)。
本實(shí)施例借助現(xiàn)有技術(shù)文本分類(lèi)的方法來(lái)計(jì)算文本相似度，具體包括-(1)使用語(yǔ)料庫(kù)(比如"大百科全書(shū)")進(jìn)行訓(xùn)練，通過(guò)二元分詞法(二元分詞法即為雙字切分，比如一個(gè)句子"我愛(ài)清華大學(xué)"，采用二元分詞會(huì)得到5個(gè)詞"我愛(ài)"、"愛(ài)清"、 "清華"、"華大"、"大學(xué)")，選擇出6,0000個(gè)詞作為特征表示，因此特征向量的維數(shù)為6,0000
14維。
(2) 對(duì)于上述第二次篩選后得到的結(jié)果中的候選對(duì)，將縮略語(yǔ)和源短語(yǔ)均分別作為關(guān)鍵詞送入搜索引擎查詢，并分別將各自的前20項(xiàng)摘要作為一篇文本寫(xiě)入文件。
(3) 針對(duì)上述文件，對(duì)于縮略語(yǔ)和源短語(yǔ)的兩個(gè)檢索內(nèi)容的文本，若二元分詞后文本中得到的詞屬于6,0000維范圍的詞，計(jì)算每個(gè)詞的權(quán)重(按下述計(jì)算式計(jì)算)，每個(gè)詞的權(quán)重即為特征向量上每一維的值，由此，縮略語(yǔ)文本得到一個(gè)對(duì)應(yīng)的向量》，源短語(yǔ)文本也得到一個(gè)對(duì)應(yīng)的向量g。
1og(7^+1.0"log(iV/Z^) (公式一)，￡[lOg(7^+1.0)*lOg(iV/I^)]2 厶工，
其中，/e[l,60000]， j為1或2， a&為詞i在文本j中的權(quán)重，7巧.表示詞i在文本j中的頻率，N為語(yǔ)料庫(kù)的文檔數(shù)目。Z)巧表示詞i在該語(yǔ)料庫(kù)中的文檔頻率，即在多少篇文檔中出現(xiàn)。文本l為縮略語(yǔ)文本，文本2為源短語(yǔ)文本。
然后按照現(xiàn)有的余弦相似度公式計(jì)算二者的文本相似度，最后寫(xiě)入文件。
縮略語(yǔ)與源短語(yǔ)的文本相似度cos( &《)=(公式二 )，
l爿1《1
其中，》代表縮略語(yǔ)采用搜索引擎得到的縮略語(yǔ)文本對(duì)應(yīng)的向量，g代表源短語(yǔ)采用索索引擎得到的源短語(yǔ)文本對(duì)應(yīng)的向量?！穅代表向量》和向量《相乘，|》|*間代表向量-的模和向量-的模相乘。
第二單元，用于根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度，得到總相似度。
當(dāng)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度均計(jì)算出來(lái)以后，可以根據(jù)實(shí)際情況或者經(jīng)驗(yàn)，給每一種相似度規(guī)定一個(gè)權(quán)重值(一個(gè)百分比數(shù))，然后依據(jù)規(guī)定的權(quán)重值計(jì)算綜合考慮了網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度的總相似度。
第三單元，用于若所述總相似度大于預(yù)設(shè)閾值，則當(dāng)前候選對(duì)保留，否則去除。
此處的預(yù)設(shè)閾值可以通過(guò)實(shí)驗(yàn)來(lái)確定，是一個(gè)0到1之間的數(shù)。
本發(fā)明實(shí)施例利用用戶査詢?nèi)罩?，從用戶查詢?nèi)罩局型诰驖h語(yǔ)縮略語(yǔ)，并通過(guò)過(guò)濾模塊和篩選模塊，快速?gòu)恼鎸?shí)語(yǔ)料庫(kù)中得到縮略語(yǔ)、源短語(yǔ)對(duì)的較佳結(jié)果集合，提高了縮略語(yǔ)、源短語(yǔ)對(duì)的時(shí)效性和準(zhǔn)確度。
本發(fā)明實(shí)施例可以利用軟件實(shí)現(xiàn)，相應(yīng)的軟件程序可以存儲(chǔ)在可讀取的存儲(chǔ)介質(zhì)中，例如，計(jì)算機(jī)的硬盤(pán)、緩存或光盤(pán)中。
以上所述僅為本發(fā)明的較佳實(shí)施例，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種漢語(yǔ)縮略語(yǔ)處理方法，其特征在于，包括對(duì)用戶查詢?nèi)罩局械乃胁樵冊(cè)~進(jìn)行預(yù)處理；將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組，得到多個(gè)組；對(duì)每一個(gè)組中的查詢?cè)~，執(zhí)行根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì)；對(duì)于每一個(gè)候選對(duì)，如果其中的源短語(yǔ)具有地名，且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與所述地名相對(duì)應(yīng)，則過(guò)濾掉所述源短語(yǔ)中的地名；根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。
2. 如權(quán)利要求1所述的漢語(yǔ)縮略語(yǔ)處理方法，其特征在于，所述對(duì)用戶查詢?nèi)罩局械乃?有査詢?cè)~進(jìn)行預(yù)處理具體為去除用戶查詢?nèi)罩局械暮型馕淖址?、亂碼的查詢?cè)~，并過(guò)濾査詢?cè)~中的數(shù)字、！^點(diǎn)符號(hào)或空格。
3. 如權(quán)利要求1所述的漢語(yǔ)縮略語(yǔ)處理方法，其特征在于，所述根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi) 過(guò)濾后的結(jié)果進(jìn)行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合，具體包括在該組內(nèi)過(guò)濾后的結(jié)果中，對(duì)包含人名的候選對(duì)進(jìn)行去除，不包含人名的候選對(duì)進(jìn)行保留，得到第一次篩選后的結(jié)果；在第一次篩選后的結(jié)果中，保留源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng)語(yǔ)素的候選對(duì)，得到第二次篩選后的結(jié)果；在第二次篩選后的結(jié)果中，根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度對(duì)候選對(duì)進(jìn) 行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。
4. 如權(quán)利要求3所述的漢語(yǔ)縮略語(yǔ)處理方法，其特征在于，所述在第二次篩選后的結(jié)果中，根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度對(duì)候選對(duì)進(jìn)行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合，具體包括在第二次篩選后的結(jié)果中，將每一個(gè)候選對(duì)分別作為當(dāng)前候選對(duì)，執(zhí)行分別計(jì)算當(dāng)前候選對(duì)的網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度；根據(jù)所述網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度，得到總相似度; 若所述總相似度大于預(yù)設(shè)閾值，則當(dāng)前候選對(duì)保留，否則去除。
5.如權(quán)利要求4所述的漢語(yǔ)縮略語(yǔ)處理方法，其特征在于，所述網(wǎng)頁(yè)鏈接相似度的計(jì)算方法，具體包括將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)分別作為査詢?cè)~輸入搜索引擎進(jìn)行搜索，并在搜索引擎搜索得到的所有結(jié)果中取第一預(yù)設(shè)數(shù)目的所述縮略語(yǔ)的搜索結(jié)果和第一預(yù)設(shè)數(shù)目的所述源短語(yǔ)的搜索結(jié)果；將相似計(jì)數(shù)進(jìn)行初始化，并對(duì)取出的所述縮略語(yǔ)的搜索結(jié)果中的每一條分別作為當(dāng)前條，執(zhí)行將當(dāng)前條對(duì)應(yīng)的網(wǎng)頁(yè)鏈接，與取出的所述源短語(yǔ)的搜索結(jié)果對(duì)應(yīng)的網(wǎng)頁(yè)鏈接依次進(jìn)行比對(duì)，當(dāng)相同時(shí)停止比對(duì)，將所述相似計(jì)數(shù)加l;當(dāng)取出的所述縮略語(yǔ)的搜索結(jié)果中的每一條都與取出的所述源短語(yǔ)的搜索結(jié)果完成比對(duì) 后，根據(jù)所述相似計(jì)數(shù)和第一預(yù)設(shè)數(shù)目計(jì)算網(wǎng)頁(yè)鏈接相似度，所述網(wǎng)頁(yè)鏈接相似度的計(jì)算式為.戶=_謹(jǐn)"_，其中，1第一預(yù)設(shè)數(shù)目《為網(wǎng)頁(yè)鏈接相似度，comitA為所述相似計(jì)數(shù)。
6.如權(quán)利要求4所述的漢語(yǔ)縮略語(yǔ)處理方法，其特征在于，所述共現(xiàn)相似度的計(jì)算方法具體包括將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)同時(shí)作為査詢?cè)~輸入搜索引擎搜索，并在搜索引擎搜索的結(jié)果中取第二預(yù)設(shè)數(shù)目的搜索結(jié)果；將共現(xiàn)次數(shù)進(jìn)行初始化，把取出的每一個(gè)所述搜索結(jié)果對(duì)應(yīng)的摘要作為當(dāng)前摘要，執(zhí)行-如果當(dāng)前摘要中所述縮略語(yǔ)和所述源短語(yǔ)均出現(xiàn)過(guò)，則所述共現(xiàn)次數(shù)加1;根據(jù)所述共現(xiàn)次數(shù)和所述第二預(yù)設(shè)數(shù)目計(jì)算共現(xiàn)相似度，所述共現(xiàn)相似度的計(jì)算式為 = 謹(jǐn)"^ 龍中2一第二預(yù)設(shè)數(shù)目，升T，g為共現(xiàn)相似度，countB為所述共現(xiàn)次數(shù)。
7. —種漢語(yǔ)縮略語(yǔ)處理裝置，其特征在于，包括-預(yù)處理模塊，用于對(duì)用戶查詢?nèi)罩局械乃袞嗽冊(cè)~進(jìn)行預(yù)處理；相關(guān)詞聚集模塊，用于將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組，得到多個(gè)組；候選對(duì)生成模塊，用于對(duì)每一個(gè)組中的查詢?cè)~，執(zhí)行根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì)；過(guò)濾模塊，用于對(duì)于每一個(gè)候選對(duì)，如果其中的源短語(yǔ)具有地名，且其中的縮略語(yǔ)中沒(méi) 有語(yǔ)素與所述地名相對(duì)應(yīng)，則過(guò)濾掉所述源短語(yǔ)中的地名；篩選模塊，用于根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。
8. 如權(quán)利要求7所述的漢語(yǔ)縮略語(yǔ)處理裝置，其特征在于，所述預(yù)處理模塊具體用于，去除用戶査詢?nèi)罩局械暮型馕淖址?、亂碼的查詢?cè)~，并過(guò)濾査詢?cè)~中的數(shù)字、標(biāo)點(diǎn)符號(hào)或空格。
9. 如權(quán)利要求7所述的漢語(yǔ)縮略語(yǔ)處理裝置，其特征在于，所述篩選模塊包括第一子模塊，用于在該組內(nèi)過(guò)濾后的結(jié)果中，對(duì)包含人名的候選對(duì)進(jìn)行去除，不包含人名的候選對(duì)進(jìn)行保留，得到第一次篩選后的結(jié)果；第二子模塊，用于在第一次篩選后的結(jié)果中，保留源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng) 語(yǔ)素的候選對(duì)，得到第二次篩選后的結(jié)果；第三子模塊，用于在第二次篩選后的結(jié)果中，根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度對(duì)候選對(duì)進(jìn)行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。
10. 如權(quán)利要求9所述的漢語(yǔ)縮略語(yǔ)處理裝置，其特征在于，所述第三子模塊包括第一單元，用于在第二次篩選后的結(jié)果中，將每一個(gè)候選對(duì)分別作為當(dāng)前候選對(duì)，執(zhí)行:分別計(jì)算當(dāng)前候選對(duì)的網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度；第二單元，用于根據(jù)所述網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度，得到總相似度；第三單元，用于若所述總相似度大于預(yù)設(shè)閾值，則當(dāng)前候選對(duì)保留，否則去除。
全文摘要
本發(fā)明公開(kāi)了漢語(yǔ)縮略語(yǔ)處理方法和裝置，屬于文本信息處理領(lǐng)域。該方法包括對(duì)用戶查詢?nèi)罩局械乃胁樵冊(cè)~進(jìn)行預(yù)處理；將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組，得到多個(gè)組；對(duì)每一個(gè)組中的查詢?cè)~，執(zhí)行根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì)；對(duì)于每一個(gè)候選對(duì)，如果其中的源短語(yǔ)具有地名，且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與所述地名相對(duì)應(yīng)，則過(guò)濾掉所述源短語(yǔ)中的地名；根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選，得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。該裝置包括預(yù)處理模塊、候選對(duì)生成模塊、過(guò)濾模塊和篩選模塊。本發(fā)明利用用戶查詢?nèi)罩就诰驖h語(yǔ)縮略語(yǔ)，提高了縮略語(yǔ)、源短語(yǔ)對(duì)的時(shí)效性和準(zhǔn)確度。
文檔編號(hào)G06F17/30GK101599075SQ20091008837
公開(kāi)日2009年12月9日申請(qǐng)日期2009年7月2日優(yōu)先權(quán)日2009年7月2日
發(fā)明者佟子健, 孫茂松, 王燦輝, 謝麗星申請(qǐng)人:清華大學(xué);北京搜狗科技發(fā)展有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：謝麗星;孫茂松;佟子健;王燦輝
技術(shù)所有人：清華大學(xué);北京搜狗科技發(fā)展有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

濕熱處理的方法和裝置相關(guān)技術(shù)

生活污水處理裝置相關(guān)技術(shù)

汽車(chē)尾氣處理裝置相關(guān)技術(shù)

軟化水處理裝置相關(guān)技術(shù)

船用生活污水處理裝置相關(guān)技術(shù)

醫(yī)療污水處理裝置相關(guān)技術(shù)

尾氣處理裝置相關(guān)技術(shù)

小型醫(yī)療污水處理裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

漢語(yǔ)縮略語(yǔ)處理方法和裝置的制作方法