亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

漢語(yǔ)縮略語(yǔ)處理方法和裝置的制作方法

文檔序號(hào):6575085閱讀:166來(lái)源:國(guó)知局
專利名稱:漢語(yǔ)縮略語(yǔ)處理方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及文本信息處理領(lǐng)域,特別涉及漢語(yǔ)縮略語(yǔ)處理方法和裝置。
背景技術(shù)
縮略語(yǔ)指語(yǔ)言中由固定說(shuō)法經(jīng)過(guò)壓縮,省略或統(tǒng)括而形成的詞語(yǔ)。自然語(yǔ)言的經(jīng)濟(jì)性原則導(dǎo)致了縮略語(yǔ)的出現(xiàn),通過(guò)對(duì)詞進(jìn)行縮略,能夠很好的起到精煉表達(dá)的作用,如"北京大學(xué)"簡(jiǎn)稱"北大"。縮略語(yǔ)在自然語(yǔ)言中十分常見(jiàn),在新詞中占據(jù)了很大一部分比例。
由于縮略語(yǔ)的大量使用,形成了自然語(yǔ)言處理中未登錄新詞的主要來(lái)源,導(dǎo)致了機(jī)器在處理中文信息時(shí),在分詞、詞性標(biāo)注、詞義確定與歧義排除、命名實(shí)體識(shí)別和實(shí)體共指消解等諸多問(wèn)題上存在嚴(yán)重障礙。同時(shí),由于原形式與縮略形式在表層上的不同,對(duì)信息檢索、關(guān)鍵詞抽取、機(jī)器翻譯、問(wèn)答系統(tǒng)等應(yīng)用也會(huì)造成影響。例如,以"北京大學(xué)"作為檢索條目,對(duì)含有"北大"的文本可能會(huì)漏檢,反之亦然。由此可見(jiàn),縮略語(yǔ)處理是自然語(yǔ)言處理中一項(xiàng)重要的基礎(chǔ)性工作。
由于縮略語(yǔ)形成方式的復(fù)雜性和新詞的層出不窮,目前漢語(yǔ)縮略語(yǔ)詞典版本較少,主要由專家根據(jù)個(gè)人知識(shí)編寫(xiě),很難窮盡,而且更新較慢。漢語(yǔ)縮略語(yǔ)應(yīng)用廣泛,有研究表明,新聞標(biāo)題中大約有20%的句子會(huì)使用縮略語(yǔ)。而由于縮略語(yǔ)的簡(jiǎn)潔性,縮略語(yǔ)在日常生活及網(wǎng)絡(luò)中也越來(lái)越流行,因此漢語(yǔ)縮略語(yǔ)識(shí)別的研究顯得尤為迫切和重要。
在對(duì)現(xiàn)有技術(shù)進(jìn)行分析后,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少具有如下缺點(diǎn)現(xiàn)有技術(shù)在識(shí)別漢語(yǔ)縮略語(yǔ)時(shí)所使用的語(yǔ)料庫(kù)多是非真實(shí)環(huán)境,規(guī)模較小,時(shí)效性欠佳,有的還需要人工干預(yù),實(shí)驗(yàn)結(jié)果準(zhǔn)確率較低。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供了一種漢語(yǔ)縮略語(yǔ)處理方法和裝置。所述技術(shù)方案如下-一種漢語(yǔ)縮略語(yǔ)處理方法,包括對(duì)用戶查詢?nèi)罩局械乃袞嗽冊(cè)~進(jìn)行預(yù)處理;
將預(yù)處理后的査詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的査詢?cè)~聚集為一組,得到多個(gè)組;對(duì)每一個(gè)組中的査詢?cè)~,執(zhí)行
根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì);對(duì)于每一個(gè)候選對(duì),如果其中的源短語(yǔ)具有地名,且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素
與所述地名相對(duì)應(yīng),則過(guò)濾掉所述源短語(yǔ)中的地名;
根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選,得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)
的集合。
一種漢語(yǔ)縮略語(yǔ)處理裝置,包括
預(yù)處理模塊,用于對(duì)用戶查詢?nèi)罩局械乃袞嗽冊(cè)~進(jìn)行預(yù)處理;
相關(guān)詞聚集模塊,用于將預(yù)處理后的査詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的査詢?cè)~聚集為一組,得到多個(gè)組
候選對(duì)生成模塊,用于對(duì)每一個(gè)組中的査詢?cè)~,執(zhí)行根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì);
過(guò)濾模塊,用于對(duì)于每一個(gè)候選對(duì),如果其中的源短語(yǔ)具有地名,且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與所述地名相對(duì)應(yīng),則過(guò)濾掉所述源短語(yǔ)中的地名;
篩選模塊,用于根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選,得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。
本發(fā)明實(shí)施例利用用戶查詢?nèi)罩荆瑥挠脩舨樵內(nèi)罩局型诰驖h語(yǔ)縮略語(yǔ),并通過(guò)一系列的過(guò)濾和篩選辦法,快速?gòu)恼鎸?shí)語(yǔ)料庫(kù)中得到縮略語(yǔ)、源短語(yǔ)對(duì)的較佳結(jié)果集合,提高了縮略語(yǔ)、源短語(yǔ)對(duì)的時(shí)效性和準(zhǔn)確度。


圖1是本發(fā)明實(shí)施例漢語(yǔ)縮略語(yǔ)處理方法流程圖2是本發(fā)明實(shí)施例根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選的方法流程圖;圖3是本發(fā)明實(shí)施例在第二次篩選后的結(jié)果中,根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度對(duì)候選對(duì)進(jìn)行篩選的方法流程圖4是本發(fā)明實(shí)施例漢語(yǔ)縮略語(yǔ)處理裝置示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
6實(shí)施例一
本發(fā)明實(shí)施例提供了一種漢語(yǔ)縮略語(yǔ)處理方法,如圖1所示,包括110:對(duì)用戶査詢?nèi)罩局械乃袞嗽冊(cè)~進(jìn)行預(yù)處理。
去除用戶査詢?nèi)罩局械脑胍魱嗽冊(cè)~。這里的噪音查詢?cè)~主要是指含有外文字符、亂碼的査詢?cè)~。上述預(yù)處理還包括過(guò)濾査詢?cè)~中的數(shù)字、全角字母、標(biāo)點(diǎn)符號(hào)、空格等。
120:將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組,得到多個(gè)組;對(duì)每一個(gè)組中的查詢?cè)~,執(zhí)行步驟130、 140、 150。
在經(jīng)過(guò)上一步的預(yù)處理之后,保留的査詢?cè)~詞條大多是正常的中文查詢?cè)~。在査詢?nèi)罩局校?一條記錄一般包括如下內(nèi)容查詢?cè)~、該査詢?cè)~對(duì)應(yīng)的一條URL (Uniform ResourceLocator,統(tǒng)一資源定位符,也稱為網(wǎng)頁(yè)地址)以及該URL對(duì)應(yīng)的用戶點(diǎn)擊數(shù)。將預(yù)處理后的査詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組,得到多個(gè)組。指向同一網(wǎng)站同一目錄的查詢?cè)~指的是在查詢?nèi)罩局?,?duì)應(yīng)的URL為指向同一網(wǎng)站同一目錄的查詢?cè)~。對(duì)應(yīng)的URL指向同一網(wǎng)站同一目錄的查詢?cè)~較為相關(guān)。例如查詢?cè)~"北京大學(xué)"對(duì)應(yīng)的URL為www.pku.edu.cn;而"北大"也對(duì)應(yīng)于www.pku.edu.cn,因此"北京大學(xué)"與"北大"相關(guān)性較高。
完全相同的URL都是指向同一網(wǎng)站同一目錄的URL。對(duì)于不同的URL,本發(fā)明實(shí)施例中,判斷不同的URL是指向同一網(wǎng)站同一目錄的URL的方法是-
URL —般是以http:〃開(kāi)頭,截取其網(wǎng)址中第3個(gè)"/"之前,http:〃之后的部分,得到保留后的結(jié)果(如http:Vsports.sohu.com/nba.shtml僅保留sports.sohu.com;如果只含有三個(gè)"〃,,第3個(gè)"/"之后沒(méi)有內(nèi)容,貝ij http:〃后的內(nèi)容全部保留,比如http:〃www.sohu.cora/僅保留www.sohu.com)。若不同的URL按照上述方法,保留后的結(jié)果完全相同,則認(rèn)為它們是指向同一網(wǎng)站同一目錄的URL。
下面對(duì)查詢?cè)~聚集為多個(gè)組后的每一個(gè)組作為當(dāng)前組,執(zhí)行步驟130、 140、 150。130:根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì)。字對(duì)齊規(guī)則指(1)字?jǐn)?shù)較少的認(rèn)為是縮略語(yǔ),字?jǐn)?shù)較多的認(rèn)為是源短語(yǔ);(2)縮略語(yǔ)中的每個(gè)字均在源短語(yǔ)中順序出現(xiàn)。由此可見(jiàn),若査詢?cè)~A中的每個(gè)字均在査詢?cè)~B中順序出現(xiàn),且査詢?cè)~A比查詢?cè)~B字?jǐn)?shù)少,則被挑選出,作為本發(fā)明實(shí)施例的一個(gè)源短語(yǔ)與縮略語(yǔ)匹配的候選對(duì),其中查詢?cè)~A是縮略語(yǔ),查詢?cè)~B是源短語(yǔ)。
本實(shí)施例中,根據(jù)字對(duì)齊規(guī)則生成當(dāng)前組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的所有候選對(duì)。比如,
7步驟120中將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的査詢?cè)~聚集為一組后,得到的多個(gè)組中的一組查詢?cè)~為"北大"、"北大生"、"北京大學(xué)"、"北京大學(xué)生""北大本科招生"
四個(gè)詞,那么此處按照字對(duì)齊規(guī)則提取出的候選對(duì)為(北大、北大生),(北大、北京大學(xué)),(北大、北京大學(xué)生),(北大生、北京大學(xué)生),(北京大學(xué)、北京大學(xué)生),(北大、北大本科招生),(北京大學(xué)、北大本科招生),(北大生、北大本科招生),每個(gè)括號(hào)中一個(gè)候選對(duì)。
140:對(duì)于每一個(gè)候選對(duì),如果其中的源短語(yǔ)具有地名,且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與該地名相對(duì)應(yīng),則過(guò)濾掉該源短語(yǔ)中的地名。
提取出候選對(duì)后,由于地名會(huì)對(duì)縮略語(yǔ)造成影響,因此要選擇性過(guò)濾候選對(duì)中的地名。如果其中的源短語(yǔ)具有地名,且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與所述地名相對(duì)應(yīng),則過(guò)濾掉所述源短語(yǔ)中的地名。如對(duì)于候選對(duì)(市一中,沈陽(yáng)市第一中學(xué)),這里源短語(yǔ)"沈陽(yáng)市第一中學(xué)"中的"沈陽(yáng)"在縮略語(yǔ)"市一中"中沒(méi)有對(duì)應(yīng)的語(yǔ)素,且"市"對(duì)于縮略語(yǔ)的識(shí)別沒(méi)有什么意義,于是該候選對(duì)被處理為候選對(duì)(一中,第一中學(xué)),相應(yīng)地,(沈陽(yáng)一中,遼寧省沈陽(yáng)市第一中學(xué))也應(yīng)當(dāng)被處理為候選對(duì)(一中,第一中學(xué));而對(duì)于候選對(duì)(北大,北京大學(xué))中的地名"北京",由于縮略語(yǔ)"北大"中有"北"與之對(duì)應(yīng),且縮略語(yǔ)中沒(méi)有北京,故應(yīng)當(dāng)保留,即該對(duì)不作處理。
150:根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選,得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集
合o
參見(jiàn)圖2,步驟150具體包括以下步驟
210:在該組內(nèi)過(guò)濾后的結(jié)果中,對(duì)包含人名的候選對(duì)進(jìn)行去除,不包含人名的候選對(duì)進(jìn)行保留,得到第一次篩選后的結(jié)果。
當(dāng)前組在經(jīng)過(guò)步驟140中的過(guò)濾后,對(duì)包含人名的候選對(duì)進(jìn)行去除,不包含人名的候選
對(duì)進(jìn)行保留,得到第一次篩選后的結(jié)果。因?yàn)榘嗣亩陶Z(yǔ)通常都不是縮略語(yǔ),因此本步驟中需要直接去掉,比如對(duì)于候選對(duì)(王偉,王偉的哥哥),由于"王偉"是人名,因此這一對(duì)將從當(dāng)前組的候選對(duì)中去除。
另外候選對(duì)中還往往存在一個(gè)縮略語(yǔ)對(duì)應(yīng)于超過(guò)3個(gè)的源短語(yǔ)的現(xiàn)象,比如步驟130中所述的候選對(duì)中縮略語(yǔ)"北大"對(duì)應(yīng)了超過(guò)3個(gè)的源短語(yǔ),因此本實(shí)施例中還根據(jù)用戶査詢?cè)恢局胁樵冊(cè)~的點(diǎn)擊數(shù)信息將縮略語(yǔ)對(duì)應(yīng)于多個(gè)源短語(yǔ)的現(xiàn)象變?yōu)?一對(duì)三",即一個(gè)縮略語(yǔ)
至多對(duì)應(yīng)于三個(gè)源短語(yǔ)。具體做法為選取同一縮略語(yǔ)對(duì)應(yīng)的源短語(yǔ)中用戶點(diǎn)擊次數(shù)最多的
三個(gè)源短語(yǔ)。
220:在第一次篩選后的結(jié)果中,保留源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng)語(yǔ)素的候選對(duì),得到第二次篩選后的結(jié)果。
候選對(duì)中的縮略語(yǔ)的形成方式較多,與源短語(yǔ)的匹配程度也不一樣。源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng)語(yǔ)素的候選對(duì)中的縮略語(yǔ)與源短語(yǔ)的匹配程度較高。上述源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng)語(yǔ)素的候選對(duì)可以分為三類(lèi)(l)語(yǔ)素構(gòu)成類(lèi)即源短語(yǔ)中每個(gè)詞對(duì)應(yīng)于縮略語(yǔ)中的每個(gè)詞,如北京大學(xué)——北大;(2)混合類(lèi)即混合法構(gòu)成,縮略語(yǔ)與源短語(yǔ)相比沒(méi)有缺少任何詞,如廣播體操——廣播操;(3)缺失類(lèi)即中間缺失一些詞,剩余的詞每詞一字,且首尾不缺詞,如中華人民共和國(guó)——中國(guó)。
230:在第二次篩選后的結(jié)果中,根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度對(duì)候選對(duì)進(jìn)行篩選,得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。
對(duì)于網(wǎng)頁(yè)鏈接相似度方面,由于縮略語(yǔ)和源短語(yǔ)有著相同的語(yǔ)義,因此我們認(rèn)為使用搜索引擎分別檢索縮略語(yǔ)和源短語(yǔ)得到的內(nèi)容大致是相同的,表現(xiàn)為URL的鏈接較為相似。對(duì)于共現(xiàn)相似度方面,由于縮略語(yǔ)和源短語(yǔ)通常有共現(xiàn)現(xiàn)象,比如標(biāo)題中使用縮略語(yǔ),正文中使用源短語(yǔ)等方式,縮略語(yǔ)與源短語(yǔ)會(huì)共同出現(xiàn)在相近的位置,因此它們有較高的共現(xiàn)頻率,表現(xiàn)為利用搜索引擎對(duì)其進(jìn)行檢索,在得到的結(jié)果中二者可能會(huì)出現(xiàn)在同一段摘要中??s略語(yǔ)和源短語(yǔ)的語(yǔ)義相關(guān)性越高,可能的共現(xiàn)次數(shù)越多。對(duì)于文本相似度,由于縮略語(yǔ)和源短語(yǔ)二者語(yǔ)義相似,因此使用搜索引擎檢索二者得到的文本內(nèi)容可能是類(lèi)似的,也許它們并不
來(lái)源于同一個(gè)URL,但是可能是同一篇文章或者是同一主題。因此文本相似度越高,縮略語(yǔ)
和源短語(yǔ)越匹配。
參見(jiàn)圖3,在第二次篩選后的結(jié)果中,將每一個(gè)候選對(duì)分別作為當(dāng)前候選對(duì),執(zhí)行以下
步驟-
310:分別計(jì)算當(dāng)前候選對(duì)的網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度。網(wǎng)頁(yè)鏈接相似度的計(jì)算方法,具體包括
(1) 將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)分別作為查詢?cè)~輸入搜索引擎進(jìn)行搜索,并在搜索引擎搜索得到的所有結(jié)果中取第一預(yù)設(shè)數(shù)目的該縮略語(yǔ)的搜索結(jié)果和第一預(yù)設(shè)數(shù)目的該源
短語(yǔ)的搜索結(jié)果。本實(shí)施例中,在搜索引擎搜索得到的所有結(jié)果中取前20條該縮略語(yǔ)的搜索結(jié)果和前20條該源短語(yǔ)的搜索結(jié)果。如果搜索引擎搜索得到的結(jié)果不足20條,以其得到的實(shí)際條數(shù)作為第一預(yù)設(shè)數(shù)目。
(2) 將相似計(jì)數(shù)進(jìn)行初始化(本實(shí)施例中初始化為0),并對(duì)取出的該縮略語(yǔ)的搜索結(jié)
果中的每一條分別作為當(dāng)前條,執(zhí)行 .
將當(dāng)前條對(duì)應(yīng)的網(wǎng)頁(yè)鏈接,與取出的該源短語(yǔ)的搜索結(jié)果對(duì)應(yīng)的網(wǎng)頁(yè)鏈接依次進(jìn)行比對(duì),當(dāng)相同時(shí)停止比對(duì),將所述相似計(jì)數(shù)加1;本實(shí)施例在比對(duì)時(shí),僅比較搜索結(jié)果對(duì)應(yīng)的網(wǎng)頁(yè)
鏈接的第一級(jí),也就是步驟120中所說(shuō)的網(wǎng)址中第3個(gè)"/"之前的部分。
當(dāng)取出的該縮略語(yǔ)的搜索結(jié)果中的每一條都與取出的該源短語(yǔ)的搜索結(jié)果完成比對(duì)后,根據(jù)相似計(jì)數(shù)和第一預(yù)設(shè)數(shù)目計(jì)算網(wǎng)頁(yè)鏈接相似度,網(wǎng)頁(yè)鏈接相似度的計(jì)算式為二 纖"" 龍中,一第一預(yù)設(shè)數(shù)目,
A為網(wǎng)頁(yè)鏈接相似度,countA為相似計(jì)數(shù)。共現(xiàn)相似度的計(jì)算方法具體包括
(1) 將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)同時(shí)作為査詢?cè)~輸入搜索引擎搜索,并在搜索引擎搜索的結(jié)果中取第二預(yù)設(shè)數(shù)目的搜索結(jié)果。本實(shí)施例中,在搜索引擎搜索的結(jié)果中取前20條搜索結(jié)果。如果搜索引擎搜索得到的結(jié)果不足20條,以其得到的實(shí)際條數(shù)作為第二預(yù)設(shè)數(shù)百。
(2) 將共現(xiàn)次數(shù)進(jìn)行初始化(本實(shí)施例中初始化為0),把取出的每一個(gè)搜索結(jié)果對(duì)應(yīng)的摘要作為當(dāng)前摘要,執(zhí)行如果當(dāng)前摘要中該縮略語(yǔ)和該源短語(yǔ)均出現(xiàn)過(guò),則共現(xiàn)次數(shù)加
根據(jù)共現(xiàn)次數(shù)和第二預(yù)設(shè)值計(jì)算共現(xiàn)相似度,共現(xiàn)相似度的計(jì)算式為— 麵"W 其中
2一第二預(yù)設(shè)數(shù)目,升T'
g為共現(xiàn)相似度,countB為共現(xiàn)次數(shù)。
本實(shí)施例借助現(xiàn)有技術(shù)文本分類(lèi)的方法來(lái)計(jì)算文本相似度,具體包括-
(1) 使用語(yǔ)料庫(kù)(比如"大百科全書(shū)")進(jìn)行訓(xùn)練,通過(guò)二元分詞法(二元分詞法即為雙字切分,比如一個(gè)句子"我愛(ài)清華大學(xué)",采用二元分詞會(huì)得到5個(gè)詞"我愛(ài)"、"愛(ài)清"、
"清華"、"華大"、"大學(xué)"),選擇出6,0000個(gè)詞作為特征表示,因此特征向量空間的維數(shù)為6,0000維。
(2) 對(duì)于上述第二次篩選后得到的結(jié)果中的候選對(duì),將縮略語(yǔ)和源短語(yǔ)均分別作為關(guān)鍵詞送入搜索引擎査詢,并分別將各自的前20項(xiàng)摘要作為一篇文本寫(xiě)入文件。
(3) 針對(duì)上述文件,對(duì)于縮略語(yǔ)和源短語(yǔ)的兩個(gè)檢索內(nèi)容的文本,若二元分詞后文本中得到的詞屬于6,0000維范圍的詞,計(jì)算每個(gè)詞的權(quán)重(按下述計(jì)算式計(jì)算),每個(gè)詞的權(quán)重"々.即為特征向量上每一維的值,由此,縮略語(yǔ)文本得到一個(gè)對(duì)應(yīng)的向量》,源短語(yǔ)文本也得到一個(gè)對(duì)應(yīng)的向量《。
詞權(quán)重計(jì)算式<formula>formula see original document page 10</formula>
其中,/e[1,60000], j為l或2, 為詞i在文本j中的權(quán)重,7",.表示詞i在文本j中的頻率,N為語(yǔ)料庫(kù)的文檔數(shù)目。D巧表示詞i在該語(yǔ)料庫(kù)中的文檔頻率,即在多少篇文檔中出現(xiàn)。文本l為縮略語(yǔ)文本,文本2為源短語(yǔ)文本。
然后按照現(xiàn)有的余弦相似度公式計(jì)算二者的文本相似度,最后寫(xiě)入文件。縮略語(yǔ)與源短語(yǔ)的文本相似度0)5(》,0 = 14^ (公式二),
其中,》代表縮略語(yǔ)采用搜索引擎得到的縮略語(yǔ)文本對(duì)應(yīng)的向量,《代表源短語(yǔ)采用索索引擎得到的源短語(yǔ)文本對(duì)應(yīng)的向量?!?代表向量-和向量《相乘,|》|*|《|代表向量》的模和向量^的模相乘。
320:根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度,得到總相似度。
上述網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度的計(jì)算不區(qū)分先后順序。當(dāng)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度均計(jì)算出來(lái)以后,可以根據(jù)實(shí)際情況或者經(jīng)驗(yàn),給每一種相似度規(guī)定一個(gè)權(quán)重值(一個(gè)百分比數(shù)),然后依據(jù)規(guī)定的權(quán)重值計(jì)算網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度的總相似度。
330:若上述總相似度大于預(yù)設(shè)閾值,則當(dāng)前候選對(duì)保留,否則去除。
此處的預(yù)設(shè)閾值可以通過(guò)實(shí)驗(yàn)來(lái)確定,是一個(gè)0到1之間的數(shù)。
本發(fā)明實(shí)施例經(jīng)過(guò)上述步驟,通過(guò)計(jì)算機(jī)可以快速得到縮略語(yǔ)、源短語(yǔ)對(duì)的較佳結(jié)果集合。本實(shí)施例中還利用用戶查詢?nèi)罩局锌s略語(yǔ)和源短語(yǔ)的點(diǎn)擊數(shù)信息,使用二者的加權(quán)調(diào)和
平均數(shù)(見(jiàn)公式三)來(lái)計(jì)算推薦值
推薦值-G.210.8 (公式三),
縮略語(yǔ)點(diǎn)擊數(shù)+源短語(yǔ)點(diǎn)擊數(shù)推薦值越大,說(shuō)明人們使用越多,流行度越好,從而進(jìn)行熱門(mén)推薦。本發(fā)明實(shí)施例利用用戶査詢?nèi)罩?,從用戶查詢?nèi)罩局型诰驖h語(yǔ)縮略語(yǔ),并通過(guò)一系列的過(guò)
濾和篩選辦法,快速?gòu)恼鎸?shí)語(yǔ)料庫(kù)中得到縮略語(yǔ)、源短語(yǔ)對(duì)的較佳結(jié)果集合,提高了縮略語(yǔ)、
源短語(yǔ)對(duì)的時(shí)效性和準(zhǔn)確度。
實(shí)施例二
本發(fā)明實(shí)施例提供了一種漢語(yǔ)縮略語(yǔ)處理裝置,如圖4所示,包括預(yù)處理模塊401,用于對(duì)用戶査詢?nèi)罩局械乃袞嗽冊(cè)~進(jìn)行預(yù)處理。
去除用戶查詢?nèi)罩局械脑胍魱嗽冊(cè)~。這里的噪音查詢?cè)~主要是指含有外文字符、亂碼的查詢?cè)~。上述預(yù)處理還包括過(guò)濾査詢?cè)~中的數(shù)字、全角字母、標(biāo)點(diǎn)符號(hào)、空格等。
相關(guān)詞聚集模塊402,用于將預(yù)處理后的査詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的査詢?cè)~聚
11集為一組,得到多個(gè)組。
在經(jīng)過(guò)預(yù)處理模塊401的預(yù)處理之后,保留的査詢?cè)~詞條大多是正常的中文査詢?cè)~。在査詢?nèi)罩局校?一條記錄一般包括如下內(nèi)容查詢?cè)~、該查詢?cè)~對(duì)應(yīng)的一條URL (UniformResource Locator,統(tǒng)一資源定位符,也稱為網(wǎng)頁(yè)地址)以及該URL對(duì)應(yīng)的用戶點(diǎn)擊數(shù)。指向同一網(wǎng)站同一目錄的査詢?cè)~指的是在查詢?nèi)罩局?,?duì)應(yīng)的URL為指向同一網(wǎng)站同一目錄的查詢?cè)~。對(duì)應(yīng)的URL指向同一網(wǎng)站同一目錄的査詢?cè)~較為相關(guān)。例如査詢?cè)~"北京大學(xué)"對(duì)應(yīng)的URL為www.pku.edu.cn;而"北大"也對(duì)應(yīng)于www.pku.edu.cn,因此"北京大學(xué)"與"北大"相關(guān)性較高。
完全相同的URL都是指向同一網(wǎng)站同一目錄的URL。對(duì)于不同的URL,本發(fā)明實(shí)施例中,判斷不同的URL是指向同一網(wǎng)站同一目錄的URL的方法是
URL—般是以http:Z/開(kāi)頭,截取其網(wǎng)址中第3個(gè)"/"之前,http:Z/之后的部分,得到保留后的結(jié)果(如http:〃sports.sohu.com/nba.shtml僅保留sports.sohu.com;如果只含有三個(gè)"/",第3個(gè)"/"之后沒(méi)有內(nèi)容,貝U http:〃后的內(nèi)容全部保留,比如http:〃www.sohu.com/僅保留www.sohu.com)。若不同的URL按照上述方法,保留后的結(jié)果完全相同,則認(rèn)為它們是指向同一網(wǎng)站同一目錄的URL。
候選對(duì)生成模塊403,用于對(duì)由相關(guān)詞聚集模塊402得到的每一個(gè)組中的査詢?cè)~,執(zhí)行根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì)。
字對(duì)齊規(guī)則指(1)字?jǐn)?shù)較少的認(rèn)為是縮略語(yǔ),字?jǐn)?shù)較多的認(rèn)為是源短語(yǔ);(2)縮略語(yǔ)中的每個(gè)字均在源短語(yǔ)中順序出現(xiàn)。由此可見(jiàn),若查詢?cè)~A中的每個(gè)字均在査詢?cè)~B中順序出現(xiàn),且査詢?cè)~A比查詢?cè)~B字?jǐn)?shù)少,則被挑選出,作為本發(fā)明實(shí)施例的一個(gè)源短語(yǔ)與縮略語(yǔ)匹配的候選對(duì),其中査詢?cè)~A是縮略語(yǔ),査詢?cè)~B是源短語(yǔ)。
本實(shí)施例中,根據(jù)字對(duì)齊規(guī)則生成當(dāng)前組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的所有候選對(duì)。比如,相關(guān)詞聚集模塊402將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組后,得到的多個(gè)組中的一組查詢?cè)~為"北大"、"北大生"、"北京大學(xué)"、"北京大學(xué)生""北大本科招生"四個(gè)詞,那么此處按照字對(duì)齊規(guī)則提取出的候選對(duì)為(北大、北大生),(北大、北京大學(xué)),(北大、北京大學(xué)生),(北大生、北京大學(xué)生),(北京大學(xué)、北京大學(xué)生),(北大、北大本科招生),(北京大學(xué)、北大本科招生),(北大生、北大本科招生),每個(gè)括號(hào)中一個(gè)候選對(duì)。
過(guò)濾模塊404,用于對(duì)于每一個(gè)候選對(duì),如果其中的源短語(yǔ)具有地名,且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與該地名相對(duì)應(yīng),則過(guò)濾掉該源短語(yǔ)中的地名。提取出候選對(duì)后,由于地名會(huì)對(duì)縮略語(yǔ)造成影響,因此要選擇性過(guò)濾候選對(duì)中的地名。 如果其中的源短語(yǔ)具有地名,且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與所述地名相對(duì)應(yīng),則過(guò)濾掉所述 源短語(yǔ)中的地名。如對(duì)于候選對(duì)(市一中,沈陽(yáng)市第一中學(xué)),這里源短語(yǔ)"沈陽(yáng)市第一中學(xué)" 中的"沈陽(yáng)"在縮略語(yǔ)"市一中"中沒(méi)有對(duì)應(yīng)的語(yǔ)素,且"市"對(duì)于縮略語(yǔ)的識(shí)別沒(méi)有什么 意義,于是該候選對(duì)被處理為候選對(duì)(一中,第一中學(xué)),相應(yīng)地,(沈陽(yáng)一中,遼寧省沈陽(yáng) 市第一中學(xué))也應(yīng)當(dāng)被處理為候選對(duì)(一中,第一中學(xué));而對(duì)于候選對(duì)(北大,北京大學(xué)) 中的地名"北京",由于縮略語(yǔ)"北大"中有"北"與之對(duì)應(yīng),且縮略語(yǔ)中沒(méi)有"北京",故 應(yīng)當(dāng)保留,即該對(duì)不作處理。
篩選模塊405,用于根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選,得到該組內(nèi)源短語(yǔ) 與縮略語(yǔ)對(duì)的集合。
篩選模塊405具體包括
第一子模塊,用于在該組內(nèi)過(guò)濾后的結(jié)果中,對(duì)包含人名的候選對(duì)進(jìn)行去除,不包含人 名的候選對(duì)進(jìn)行保留,得到第一次篩選后的結(jié)果。
比如對(duì)于候選對(duì)(王偉,王偉的哥哥),由于"王偉"是人名,因此這一對(duì)將從當(dāng)前組的 候選對(duì)中去除。
另外候選對(duì)中還往往存在一個(gè)縮略語(yǔ)對(duì)應(yīng)于超過(guò)3個(gè)的源短語(yǔ)的現(xiàn)象,比如步驟130中 所述的候選對(duì)中縮略語(yǔ)"北大"對(duì)應(yīng)了超過(guò)3個(gè)的源短語(yǔ),因此本實(shí)施例中還根據(jù)用戶査詢 日志中査詢?cè)~的點(diǎn)擊數(shù)信息將縮略語(yǔ)對(duì)應(yīng)于多個(gè)源短語(yǔ)的現(xiàn)象變?yōu)?一對(duì)三",即一個(gè)縮略語(yǔ) 至多對(duì)應(yīng)于三個(gè)源短語(yǔ)。具體做法為選取同一縮略語(yǔ)對(duì)應(yīng)的源短語(yǔ)中用戶點(diǎn)擊次數(shù)最多的 三個(gè)源短語(yǔ)。
第二子模塊,用于在第一次篩選后的結(jié)果中,保留源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng) 語(yǔ)素的候選對(duì),得到第二次篩選后的結(jié)果。
上述源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng)語(yǔ)素的候選對(duì)可以包括三種情況(1)語(yǔ)素構(gòu) 成情況即源短語(yǔ)中每個(gè)詞對(duì)應(yīng)于縮略語(yǔ)中的每個(gè)詞,如-北京大學(xué)——北大;(2)混合情 況即混合法構(gòu)成,縮略語(yǔ)與源短語(yǔ)相比沒(méi)有缺少任何詞,如廣播體操——廣播操;(3) 缺失情況即中間缺失一些詞,剩余的詞每詞一字,且首尾不缺詞,如中華人民共和國(guó)—— 中國(guó)。
第三子模塊,用于在第二次篩選后的結(jié)果中,根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本 相似度對(duì)候選對(duì)進(jìn)行篩選,得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。第三子模塊具體包括-
第一單元,用于在第二次篩選后的結(jié)果中,將每一個(gè)候選對(duì)分別作為當(dāng)前候選對(duì),執(zhí)行分別計(jì)算當(dāng)前候選對(duì)的網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度。 網(wǎng)頁(yè)鏈接相似度的計(jì)算方法,具體包括
(1) 將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)分別作為查詢?cè)~輸入搜索引擎進(jìn)行搜索,并在搜 索引擎搜索得到的所有結(jié)果中取第一預(yù)設(shè)數(shù)目的該縮略語(yǔ)的搜索結(jié)果和第一預(yù)設(shè)數(shù)目的該源 短語(yǔ)的搜索結(jié)果。本實(shí)施例中,在搜索引擎搜索得到的所有結(jié)果中取前20條該縮略語(yǔ)的搜索 結(jié)果和前20條該源短語(yǔ)的搜索結(jié)果。如果搜索引擎搜索得到的結(jié)果不足20條,以其得到的 實(shí)際條數(shù)作為第一預(yù)設(shè)數(shù)目。
(2) 將相似計(jì)數(shù)進(jìn)行初始化(本實(shí)施例中初始化為0),并對(duì)取出的該縮略語(yǔ)的搜索結(jié) 果中的每一條分別作為當(dāng)前條,執(zhí)行
將當(dāng)前條對(duì)應(yīng)的網(wǎng)頁(yè)鏈接,與取出的該源短語(yǔ)的搜索結(jié)果對(duì)應(yīng)的網(wǎng)頁(yè)鏈接依次進(jìn)行比對(duì),
當(dāng)相同時(shí)停止比對(duì),將所述相似計(jì)數(shù)加1;本實(shí)施例在比對(duì)時(shí),僅比較搜索結(jié)果對(duì)應(yīng)的網(wǎng)頁(yè)
鏈接的第一級(jí),也就是步驟120中所說(shuō)的網(wǎng)址中第3個(gè)"/"之前的部分。
當(dāng)取出的該縮略語(yǔ)的搜索結(jié)果中的每一條都與取出的該源短語(yǔ)的搜索結(jié)果完成比對(duì)后, 根據(jù)相似計(jì)數(shù)和第一預(yù)設(shè)數(shù)目計(jì)算網(wǎng)頁(yè)鏈接相似度,網(wǎng)頁(yè)鏈接相似度的計(jì)算式為-
尸=其中 1_第一預(yù)設(shè)數(shù)目
《為網(wǎng)頁(yè)鏈接相似度,countA為相似計(jì)數(shù)。 共現(xiàn)相似度的計(jì)算方法具體包括
(1) 將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)同時(shí)作為査詢?cè)~輸入搜索引擎搜索,并在搜索引 擎搜索的結(jié)果中取第二預(yù)設(shè)數(shù)目的搜索結(jié)果。本實(shí)施例中,在搜索引擎搜索的結(jié)果中取前20 條搜索結(jié)果。如果搜索引擎搜索得到的結(jié)果不足20條,以其得到的實(shí)際條數(shù)作為第二預(yù)設(shè)數(shù) 目。
(2) 將共現(xiàn)次數(shù)進(jìn)行初始化(本實(shí)施例中初始化為0),把取出的每一個(gè)搜索結(jié)果對(duì)應(yīng) 的摘要作為當(dāng)前摘要,執(zhí)行如果當(dāng)前摘要中該縮略語(yǔ)和該源短語(yǔ)均出現(xiàn)過(guò),則共現(xiàn)次數(shù)加 1。
根據(jù)共現(xiàn)次數(shù)和第二預(yù)設(shè)值計(jì)算共現(xiàn)相似度,共現(xiàn)相似度的計(jì)算式為-尸—講"^ '其中,
2—第二預(yù)設(shè)數(shù)目
^為共現(xiàn)相似度,countB為共現(xiàn)次數(shù)。
本實(shí)施例借助現(xiàn)有技術(shù)文本分類(lèi)的方法來(lái)計(jì)算文本相似度,具體包括-(1)使用語(yǔ)料庫(kù)(比如"大百科全書(shū)")進(jìn)行訓(xùn)練,通過(guò)二元分詞法(二元分詞法即為 雙字切分,比如一個(gè)句子"我愛(ài)清華大學(xué)",采用二元分詞會(huì)得到5個(gè)詞"我愛(ài)"、"愛(ài)清"、 "清華"、"華大"、"大學(xué)"),選擇出6,0000個(gè)詞作為特征表示,因此特征向量的維數(shù)為6,0000
14維。
(2) 對(duì)于上述第二次篩選后得到的結(jié)果中的候選對(duì),將縮略語(yǔ)和源短語(yǔ)均分別作為關(guān)鍵 詞送入搜索引擎查詢,并分別將各自的前20項(xiàng)摘要作為一篇文本寫(xiě)入文件。
(3) 針對(duì)上述文件,對(duì)于縮略語(yǔ)和源短語(yǔ)的兩個(gè)檢索內(nèi)容的文本,若二元分詞后文本中 得到的詞屬于6,0000維范圍的詞,計(jì)算每個(gè)詞的權(quán)重(按下述計(jì)算式計(jì)算),每個(gè)詞的權(quán)重 即為特征向量上每一維的值,由此,縮略語(yǔ)文本得到一個(gè)對(duì)應(yīng)的向量》,源短語(yǔ)文本也得到 一個(gè)對(duì)應(yīng)的向量g。
1og(7^+1.0"log(iV/Z^) (公式一), £[lOg(7^+1.0)*lOg(iV/I^)]2 厶工 ,
其中,/e[l,60000], j為1或2, a&為詞i在文本j中的權(quán)重,7巧.表示詞i在文本j中 的頻率,N為語(yǔ)料庫(kù)的文檔數(shù)目。Z)巧表示詞i在該語(yǔ)料庫(kù)中的文檔頻率,即在多少篇文檔 中出現(xiàn)。文本l為縮略語(yǔ)文本,文本2為源短語(yǔ)文本。
然后按照現(xiàn)有的余弦相似度公式計(jì)算二者的文本相似度,最后寫(xiě)入文件。
縮略語(yǔ)與源短語(yǔ)的文本相似度cos( &《)=(公式二 ),
l爿1《1
其中,》代表縮略語(yǔ)采用搜索引擎得到的縮略語(yǔ)文本對(duì)應(yīng)的向量,g代表源短語(yǔ)采用索 索引擎得到的源短語(yǔ)文本對(duì)應(yīng)的向量?!穅代表向量》和向量《相乘,|》|*間代表向量-的 模和向量-的模相乘。
第二單元,用于根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度,得到總相似度。
當(dāng)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度均計(jì)算出來(lái)以后,可以根據(jù)實(shí)際情況或者 經(jīng)驗(yàn),給每一種相似度規(guī)定一個(gè)權(quán)重值(一個(gè)百分比數(shù)),然后依據(jù)規(guī)定的權(quán)重值計(jì)算綜合考 慮了網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度的總相似度。
第三單元,用于若所述總相似度大于預(yù)設(shè)閾值,則當(dāng)前候選對(duì)保留,否則去除。
此處的預(yù)設(shè)閾值可以通過(guò)實(shí)驗(yàn)來(lái)確定,是一個(gè)0到1之間的數(shù)。
本發(fā)明實(shí)施例利用用戶査詢?nèi)罩?,從用戶查詢?nèi)罩局型诰驖h語(yǔ)縮略語(yǔ),并通過(guò)過(guò)濾模塊 和篩選模塊,快速?gòu)恼鎸?shí)語(yǔ)料庫(kù)中得到縮略語(yǔ)、源短語(yǔ)對(duì)的較佳結(jié)果集合,提高了縮略語(yǔ)、 源短語(yǔ)對(duì)的時(shí)效性和準(zhǔn)確度。
本發(fā)明實(shí)施例可以利用軟件實(shí)現(xiàn),相應(yīng)的軟件程序可以存儲(chǔ)在可讀取的存儲(chǔ)介質(zhì)中,例 如,計(jì)算機(jī)的硬盤(pán)、緩存或光盤(pán)中。
以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之 內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種漢語(yǔ)縮略語(yǔ)處理方法,其特征在于,包括對(duì)用戶查詢?nèi)罩局械乃胁樵冊(cè)~進(jìn)行預(yù)處理;將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組,得到多個(gè)組;對(duì)每一個(gè)組中的查詢?cè)~,執(zhí)行根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì);對(duì)于每一個(gè)候選對(duì),如果其中的源短語(yǔ)具有地名,且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與所述地名相對(duì)應(yīng),則過(guò)濾掉所述源短語(yǔ)中的地名;根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選,得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。
2. 如權(quán)利要求1所述的漢語(yǔ)縮略語(yǔ)處理方法,其特征在于,所述對(duì)用戶查詢?nèi)罩局械乃?有査詢?cè)~進(jìn)行預(yù)處理具體為去除用戶查詢?nèi)罩局械暮型馕淖址?、亂碼的查詢?cè)~,并過(guò)濾査詢?cè)~中的數(shù)字、!^點(diǎn)符 號(hào)或空格。
3. 如權(quán)利要求1所述的漢語(yǔ)縮略語(yǔ)處理方法,其特征在于,所述根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi) 過(guò)濾后的結(jié)果進(jìn)行篩選,得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合,具體包括在該組內(nèi)過(guò)濾后的結(jié)果中,對(duì)包含人名的候選對(duì)進(jìn)行去除,不包含人名的候選對(duì)進(jìn)行保 留,得到第一次篩選后的結(jié)果;在第一次篩選后的結(jié)果中,保留源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng)語(yǔ)素的候選對(duì),得 到第二次篩選后的結(jié)果;在第二次篩選后的結(jié)果中,根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度對(duì)候選對(duì)進(jìn) 行篩選,得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。
4. 如權(quán)利要求3所述的漢語(yǔ)縮略語(yǔ)處理方法,其特征在于,所述在第二次篩選后的結(jié)果中,根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度對(duì)候選對(duì)進(jìn)行篩選,得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合,具體包括在第二次篩選后的結(jié)果中,將每一個(gè)候選對(duì)分別作為當(dāng)前候選對(duì),執(zhí)行分別計(jì)算當(dāng)前候選對(duì)的網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度; 根據(jù)所述網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度,得到總相似度; 若所述總相似度大于預(yù)設(shè)閾值,則當(dāng)前候選對(duì)保留,否則去除。
5.如權(quán)利要求4所述的漢語(yǔ)縮略語(yǔ)處理方法,其特征在于,所述網(wǎng)頁(yè)鏈接相似度的計(jì)算 方法,具體包括將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)分別作為査詢?cè)~輸入搜索引擎進(jìn)行搜索,并在搜索引 擎搜索得到的所有結(jié)果中取第一預(yù)設(shè)數(shù)目的所述縮略語(yǔ)的搜索結(jié)果和第一預(yù)設(shè)數(shù)目的所述源 短語(yǔ)的搜索結(jié)果;將相似計(jì)數(shù)進(jìn)行初始化,并對(duì)取出的所述縮略語(yǔ)的搜索結(jié)果中的每一條分別作為當(dāng)前條, 執(zhí)行將當(dāng)前條對(duì)應(yīng)的網(wǎng)頁(yè)鏈接,與取出的所述源短語(yǔ)的搜索結(jié)果對(duì)應(yīng)的網(wǎng)頁(yè)鏈接依次進(jìn)行比對(duì),當(dāng)相同時(shí)停止比對(duì),將所述相似計(jì)數(shù)加l;當(dāng)取出的所述縮略語(yǔ)的搜索結(jié)果中的每一條都與取出的所述源短語(yǔ)的搜索結(jié)果完成比對(duì) 后,根據(jù)所述相似計(jì)數(shù)和第一預(yù)設(shè)數(shù)目計(jì)算網(wǎng)頁(yè)鏈接相似度,所述網(wǎng)頁(yè)鏈接相似度的計(jì)算式為.戶=_謹(jǐn)"_,其中,1第一預(yù)設(shè)數(shù)目《為網(wǎng)頁(yè)鏈接相似度,comitA為所述相似計(jì)數(shù)。
6.如權(quán)利要求4所述的漢語(yǔ)縮略語(yǔ)處理方法,其特征在于,所述共現(xiàn)相似度的計(jì)算方法具體包括將當(dāng)前候選對(duì)中的縮略語(yǔ)和源短語(yǔ)同時(shí)作為査詢?cè)~輸入搜索引擎搜索,并在搜索引擎搜索的結(jié)果中取第二預(yù)設(shè)數(shù)目的搜索結(jié)果;將共現(xiàn)次數(shù)進(jìn)行初始化,把取出的每一個(gè)所述搜索結(jié)果對(duì)應(yīng)的摘要作為當(dāng)前摘要,執(zhí)行-如果當(dāng)前摘要中所述縮略語(yǔ)和所述源短語(yǔ)均出現(xiàn)過(guò),則所述共現(xiàn)次數(shù)加1;根據(jù)所述共現(xiàn)次數(shù)和所述第二預(yù)設(shè)數(shù)目計(jì)算共現(xiàn)相似度,所述共現(xiàn)相似度的計(jì)算式為 = 謹(jǐn)"^ 龍中2一第二預(yù)設(shè)數(shù)目,升T,g為共現(xiàn)相似度,countB為所述共現(xiàn)次數(shù)。
7. —種漢語(yǔ)縮略語(yǔ)處理裝置,其特征在于,包括-預(yù)處理模塊,用于對(duì)用戶查詢?nèi)罩局械乃袞嗽冊(cè)~進(jìn)行預(yù)處理;相關(guān)詞聚集模塊,用于將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組,得到多個(gè)組;候選對(duì)生成模塊,用于對(duì)每一個(gè)組中的查詢?cè)~,執(zhí)行根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源 短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì);過(guò)濾模塊,用于對(duì)于每一個(gè)候選對(duì),如果其中的源短語(yǔ)具有地名,且其中的縮略語(yǔ)中沒(méi) 有語(yǔ)素與所述地名相對(duì)應(yīng),則過(guò)濾掉所述源短語(yǔ)中的地名;篩選模塊,用于根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選,得到該組內(nèi)源短語(yǔ)與縮 略語(yǔ)對(duì)的集合。
8. 如權(quán)利要求7所述的漢語(yǔ)縮略語(yǔ)處理裝置,其特征在于,所述預(yù)處理模塊具體用于, 去除用戶査詢?nèi)罩局械暮型馕淖址?、亂碼的查詢?cè)~,并過(guò)濾査詢?cè)~中的數(shù)字、標(biāo)點(diǎn)符號(hào)或 空格。
9. 如權(quán)利要求7所述的漢語(yǔ)縮略語(yǔ)處理裝置,其特征在于,所述篩選模塊包括 第一子模塊,用于在該組內(nèi)過(guò)濾后的結(jié)果中,對(duì)包含人名的候選對(duì)進(jìn)行去除,不包含人名的候選對(duì)進(jìn)行保留,得到第一次篩選后的結(jié)果;第二子模塊,用于在第一次篩選后的結(jié)果中,保留源短語(yǔ)的首尾的詞在縮略語(yǔ)中有對(duì)應(yīng) 語(yǔ)素的候選對(duì),得到第二次篩選后的結(jié)果;第三子模塊,用于在第二次篩選后的結(jié)果中,根據(jù)網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本 相似度對(duì)候選對(duì)進(jìn)行篩選,得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。
10. 如權(quán)利要求9所述的漢語(yǔ)縮略語(yǔ)處理裝置,其特征在于,所述第三子模塊包括 第一單元,用于在第二次篩選后的結(jié)果中,將每一個(gè)候選對(duì)分別作為當(dāng)前候選對(duì),執(zhí)行:分別計(jì)算當(dāng)前候選對(duì)的網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度;第二單元,用于根據(jù)所述網(wǎng)頁(yè)鏈接相似度、共現(xiàn)相似度和文本相似度,得到總相似度; 第三單元,用于若所述總相似度大于預(yù)設(shè)閾值,則當(dāng)前候選對(duì)保留,否則去除。
全文摘要
本發(fā)明公開(kāi)了漢語(yǔ)縮略語(yǔ)處理方法和裝置,屬于文本信息處理領(lǐng)域。該方法包括對(duì)用戶查詢?nèi)罩局械乃胁樵冊(cè)~進(jìn)行預(yù)處理;將預(yù)處理后的查詢?nèi)罩局兄赶蛲痪W(wǎng)站同一目錄的查詢?cè)~聚集為一組,得到多個(gè)組;對(duì)每一個(gè)組中的查詢?cè)~,執(zhí)行根據(jù)字對(duì)齊規(guī)則生成該組內(nèi)的源短語(yǔ)與縮略語(yǔ)匹配的多個(gè)候選對(duì);對(duì)于每一個(gè)候選對(duì),如果其中的源短語(yǔ)具有地名,且其中的縮略語(yǔ)中沒(méi)有語(yǔ)素與所述地名相對(duì)應(yīng),則過(guò)濾掉所述源短語(yǔ)中的地名;根據(jù)預(yù)設(shè)規(guī)則對(duì)該組內(nèi)過(guò)濾后的結(jié)果進(jìn)行篩選,得到該組內(nèi)源短語(yǔ)與縮略語(yǔ)對(duì)的集合。該裝置包括預(yù)處理模塊、候選對(duì)生成模塊、過(guò)濾模塊和篩選模塊。本發(fā)明利用用戶查詢?nèi)罩就诰驖h語(yǔ)縮略語(yǔ),提高了縮略語(yǔ)、源短語(yǔ)對(duì)的時(shí)效性和準(zhǔn)確度。
文檔編號(hào)G06F17/30GK101599075SQ20091008837
公開(kāi)日2009年12月9日 申請(qǐng)日期2009年7月2日 優(yōu)先權(quán)日2009年7月2日
發(fā)明者佟子健, 孫茂松, 王燦輝, 謝麗星 申請(qǐng)人:清華大學(xué);北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1