亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

應(yīng)用于搜索引擎的分詞網(wǎng)設(shè)計(jì)方法與親近度計(jì)算方法

文檔序號(hào):6368450閱讀:154來源:國(guó)知局
專利名稱:應(yīng)用于搜索引擎的分詞網(wǎng)設(shè)計(jì)方法與親近度計(jì)算方法
技術(shù)領(lǐng)域
本發(fā)明涉及應(yīng)用于搜索引擎的分詞網(wǎng)設(shè)計(jì)方法與親近度計(jì)算方法,屬于計(jì)算機(jī)科學(xué)技術(shù)領(lǐng)域。
背景技術(shù)
網(wǎng)絡(luò)內(nèi)容搜索是目前應(yīng)用最為廣泛的一種互聯(lián)網(wǎng)服務(wù),各國(guó)都在發(fā)展具有自主知識(shí)產(chǎn)權(quán)的搜索引擎,也沒有停止過對(duì)搜索引擎關(guān)鍵技術(shù)的研究。國(guó)際上著名的搜索引擎繁多,諸如Google、Yahoo、Bing等,國(guó)內(nèi)著名的搜索引擎有百度、搜狗、奇虎、中搜、人民搜索等,全世界的搜索引擎不計(jì)其數(shù)。
國(guó)際公司都對(duì)搜索引擎技術(shù)進(jìn)行了改進(jìn),在搜索引擎中,文本的分類、聚類、輸入詞的理解被認(rèn)為是最富有挑戰(zhàn)性的工作,國(guó)內(nèi)外眾公司把搜索引擎對(duì)輸入詞的理解能力以及網(wǎng)頁(yè)的親近性分析作為企業(yè)的核心競(jìng)爭(zhēng)力技術(shù)進(jìn)行研究。如美國(guó)公司Google的創(chuàng)始人Larry Page等在2001年提出并申請(qǐng)的專利PageRank方法,國(guó)內(nèi)中文搜索引擎公司百度的創(chuàng)始人李彥宏(Robin Li)等在1996年提出并申請(qǐng)的專利“超鏈分析”方法等,都是業(yè)內(nèi)著名的網(wǎng)頁(yè)親近性分析方法。專利“超鏈分析”方法把所有指向某個(gè)頁(yè)面的鏈接來代替網(wǎng)頁(yè)的內(nèi)容,并以此計(jì)算和查詢的親近性。專利PageRank方法是基于網(wǎng)頁(yè)重要性的算法。本發(fā)明提出應(yīng)用于搜索引擎的分詞網(wǎng)設(shè)計(jì)方法與親近度計(jì)算方法。該發(fā)明通過概括分詞的屬性,設(shè)置分詞和屬性之間的相關(guān)值(量化值),形成基于量化的分詞網(wǎng),并采用兩種方法“并聯(lián)計(jì)算法”和“串并聯(lián)計(jì)算法”計(jì)算分詞和分詞的親近度。

發(fā)明內(nèi)容
本發(fā)明“應(yīng)用于搜索引擎的分詞網(wǎng)設(shè)計(jì)方法與親近度計(jì)算方法”包括兩部分基于屬性的量化分詞網(wǎng)設(shè)計(jì)方法和分詞親近度計(jì)算方法。(I)基于屬性的暈化分詞網(wǎng)設(shè)計(jì)方法基于屬性的量化分詞網(wǎng)如圖I所示,它包括分詞和屬性兩部分,每個(gè)分詞有多個(gè)屬性,如分詞“蘋果”有“甜”、“酸”、“紅”等屬性(“甜”、“酸”、“紅“本身也是分詞)。本發(fā)明在分詞和屬性之間定義了屬性相關(guān)度,如在“蘋果”的屬性中,定義了 “甜”的屬性相關(guān)度為0. 8 (屬性相關(guān)度是一個(gè)0-1之間的數(shù))。一個(gè)分詞和多個(gè)屬性有不同的屬性相關(guān)度,多個(gè)分詞通過屬性構(gòu)成基于屬性的量化分詞網(wǎng)。圖I中分詞和分詞之間通過屬性是關(guān)聯(lián)的,如分詞“蘋果”和分詞“梨”通過屬性“甜”關(guān)聯(lián)起來,那么分詞和分詞之間通過屬性有一定的親近性。(2)分詞親近度計(jì)算方法分詞親近度并聯(lián)計(jì)算法直接相關(guān)的兩個(gè)分詞通過多個(gè)屬性直接相關(guān),稱為“分詞并聯(lián)相關(guān)”,如圖2為分詞直接并聯(lián)相關(guān)。結(jié)合圖2,這里給出分詞親近度并聯(lián)計(jì)算方法,“分詞A”和“分詞B”的親近度并聯(lián)計(jì)算方法為PB (分詞 A,分詞 B) = (allXal2+a21Xa22+—+anlXan2)/n,
其中η為并聯(lián)數(shù)。圖2 的并聯(lián)數(shù)為 2,所以為(allXal2+a21Xa22)/2.分詞親近度串聯(lián)計(jì)算方法有的分詞是不直接相關(guān)的,但都和某些分詞直接相關(guān),本發(fā)明稱之為分詞的串聯(lián)。圖3是一種分詞串聯(lián)的情況,圖3中“分詞A”和“分詞C”不直接相關(guān),但兩個(gè)分詞都和“分詞B”相關(guān),這時(shí)候,“分詞A”和“分詞C”是串聯(lián)相關(guān),結(jié)合圖3,本發(fā)明給出“分詞A”和“分詞C”親近度計(jì)算為PZ (分詞A,分詞C) = PB (分詞A,分詞B) XPB (分詞 B,分詞 C)。在圖3中,PZ (分詞 A,分詞 C) = [(allXal2+a21Xa22)/2] X[(b llXbl2+b21Xb22)/2]。分詞串并聯(lián)親近 度計(jì)算方法對(duì)于分詞串并聯(lián)混合的連接情況,這里稱為分詞串并聯(lián)相關(guān),本發(fā)明對(duì)分詞親近度的計(jì)算方法為,原則上以并聯(lián)計(jì)算為主,串聯(lián)計(jì)算為輔。也可以串并計(jì)算,即串聯(lián)計(jì)算出的值為并聯(lián)的一個(gè)分支。圖4是“分詞A”和“分詞C”串并聯(lián)混合相關(guān)。結(jié)合圖4,本發(fā)明給出“分詞A”和“分詞C”串并聯(lián)親近度計(jì)算方法為。PC (分詞A,分詞C) = (PZ (分詞A,分詞C)+PB (分詞A,分詞C))/2= {[(allXal2+a21Xa22)/2] X [ (bll Xbl2+b21 Xb22)/2]+(cllXcl2)}/2。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例也僅僅是本發(fā)明的一部分實(shí)施例,而不是全部實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。為了說明應(yīng)用于搜索引擎的分詞網(wǎng)設(shè)計(jì)方法,這里給出一個(gè)關(guān)于水果的實(shí)例,其中取“蘋果”、“梨”和“西紅柿”三個(gè)分屬于水果的分詞,并給出水果的5個(gè)屬性“樹木”、“酸”、“甜”、“紅”、“圓”。如果分詞“蘋果”和屬性“甜”相關(guān),則給出分詞“蘋果”和屬性“甜”之間的相關(guān)線和相關(guān)值(量化定義或人工給出),圖5中給出該相關(guān)值為O. 5。圖5給出了分詞“蘋果”、“梨”和“西紅柿”和5個(gè)屬性形成的分詞網(wǎng),“蘋果”、“梨”和“西紅柿”和5個(gè)屬性的相關(guān)線和相關(guān)值如圖5所示。從圖5可以看出,“梨”和“蘋果”、“梨”和“西紅柿”、“蘋果”和“西紅柿”之間有串
聯(lián)關(guān)系,也有并聯(lián)關(guān)系。依據(jù)圖5所示的分詞網(wǎng)絡(luò),本發(fā)明可以計(jì)算出三對(duì)分詞“梨”和“蘋果”、“梨”和“西紅柿”、“蘋果”和“西紅柿”之間的親近度。分別采用并聯(lián)計(jì)算法和串并聯(lián)計(jì)算法計(jì)算。第一種,采用并聯(lián)計(jì)算法。在這里先考察分詞“梨”和“蘋果”的親近度。圖6為分詞“梨”和“蘋果”并聯(lián)關(guān)系及相關(guān)性分詞網(wǎng)。分詞“梨”和“蘋果”分別通過屬性“樹木”、“甜”和“圓”形成了并聯(lián)關(guān)系。這里給出分詞“梨”和“蘋果”的親近度計(jì)算公式為PB(梨,蘋果)=[(O. 7X0. 7) + (0. 8X0. 5) + (0. 6X0. 8)]/3 = O. 46。
同樣的道理,可以計(jì)算出分詞“梨”和“西紅柿”、“蘋果”和“西紅柿”的親近度PB (蘋果,西紅柿)=[(O. 3 X O. 9) + (O. 6 X O. 7) + (O. 8 X O. 8) ] /3 = O. 44 PB (梨,西紅柿)=(O. 6X0. 8)/I = O. 48。并聯(lián)計(jì)算法極大的增大了屬性相關(guān)性,忽略考慮了不相關(guān)性。在特性上,加強(qiáng)了屬性相關(guān)性。第二種,采用串并聯(lián)計(jì)算法。這里考察分詞“梨”和“西紅柿”之間的親近度。首先把圖5三個(gè)分詞“梨”、“蘋果”和“西紅柿”之間形成的分詞網(wǎng)轉(zhuǎn)換成分詞“梨”和“西紅柿”之間的串并聯(lián)關(guān)系圖,圖7給出了轉(zhuǎn)換后的分詞“梨”和“西紅柿”之間的串并聯(lián)關(guān)系圖。結(jié)合圖7,本發(fā)明給出分詞“梨”和“西紅柿”的串并聯(lián)親近度計(jì)算公式為PC (梨,西紅柿)=[PB (梨,蘋果)XPB (蘋果,西紅柿)+PB (梨,西紅柿)]/2 =(O. 46X0. 44+0. 48)/2 = O. 34。
本發(fā)明的優(yōu)勢(shì)本發(fā)明提出應(yīng)用于搜索引擎的分詞網(wǎng)設(shè)計(jì)方法與親近度計(jì)算方法。該發(fā)明通過概括分詞的屬性,設(shè)置分詞和屬性之間的相關(guān)值(量化值),形成基于量化的分詞網(wǎng),采用兩種方法(“并聯(lián)計(jì)算法”和“串并聯(lián)計(jì)算法”)計(jì)算分詞和分詞的親近度。本發(fā)明的優(yōu)點(diǎn)主要有(I)本發(fā)明分詞網(wǎng)量化定義了分詞和屬性之間的關(guān)系,這樣分詞通過屬性建立了分詞之間的網(wǎng)狀關(guān)系。(2)本發(fā)明分詞網(wǎng)設(shè)計(jì)的屬性是有限的,不是屬性和所有的分詞有量化關(guān)系,在計(jì)算機(jī)存儲(chǔ)中可以節(jié)省空間,在計(jì)算機(jī)計(jì)算中可以提高計(jì)算量。(3)基于分詞網(wǎng),本發(fā)明分詞親近度計(jì)算方法提出了并聯(lián)親近度計(jì)算法,在計(jì)算上能大大提高計(jì)算速度,能加強(qiáng)分詞之間的直接屬性關(guān)系。提出的串并聯(lián)親近度計(jì)算法,能很好考慮強(qiáng)相關(guān)性和弱相關(guān)性。


圖I基于屬性的量化分詞網(wǎng);圖2分詞直接并聯(lián)相關(guān)及親近度并聯(lián)計(jì)算方法;圖3分詞串聯(lián)相關(guān)親近度計(jì)算;圖4分詞串并聯(lián)相關(guān)及親近度計(jì)算;圖5水果和5種屬性的相關(guān)性及分詞網(wǎng);圖6分詞“梨”和“蘋果”并聯(lián)關(guān)系及相關(guān)性分詞網(wǎng);圖7分詞“梨”和“西紅柿”之間的串并聯(lián)關(guān)系。
權(quán)利要求
1.基于屬性的量化分詞網(wǎng)設(shè)計(jì)方法定義了分詞和屬性之間的相關(guān)性、相關(guān)值。通過概括分詞的有限強(qiáng)相關(guān)屬性,設(shè)置分詞和屬性之間的相關(guān)值,這樣分詞通過屬性建立了分詞之間的網(wǎng)狀關(guān)系。分詞網(wǎng)設(shè)計(jì)的屬性是有限的,不是屬性和所有的分詞有量化關(guān)系,在計(jì)算機(jī)存儲(chǔ)中可以節(jié)省空間,在計(jì)算機(jī)計(jì)算中可以提高計(jì)算量。
2.分詞親近度計(jì)算方法基于量化的分詞網(wǎng),采用兩種方法“并聯(lián)計(jì)算法”和“串并聯(lián)計(jì)算法”計(jì)算分詞和分詞的親近度,兩種方法分別應(yīng)用于強(qiáng)相關(guān)性和弱相關(guān)性親近度計(jì)算,能很好的考慮強(qiáng)相關(guān)性和弱相關(guān)性。
全文摘要
本發(fā)明提出應(yīng)用于搜索引擎的分詞網(wǎng)設(shè)計(jì)方法與親近度計(jì)算方法,包括分詞網(wǎng)設(shè)計(jì)方法和分詞親近度計(jì)算方法兩部分。本發(fā)明通過概括分詞的有限強(qiáng)相關(guān)屬性,設(shè)置分詞和屬性之間的相關(guān)值,形成量化分詞網(wǎng),基于量化的分詞網(wǎng),本發(fā)明提出“并聯(lián)計(jì)算法”和“串并聯(lián)計(jì)算法”兩種計(jì)算方法,分別計(jì)算分詞和分詞的親近度,體現(xiàn)了強(qiáng)屬性和弱屬性親近關(guān)系。
文檔編號(hào)G06F17/30GK102708154SQ20121011846
公開日2012年10月3日 申請(qǐng)日期2012年4月20日 優(yōu)先權(quán)日2012年4月20日
發(fā)明者孫松林, 張鈁煒, 王斐, 陸月明 申請(qǐng)人:北京郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1