亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

信息聚合方法及裝置的制作方法

文檔序號:6363679閱讀:204來源:國知局
專利名稱:信息聚合方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體涉及一種信息聚合方法及裝置。
背景技術(shù)
信息聚合是將具有內(nèi)在聯(lián)系的不同信息組合成一個結(jié)構(gòu)體,例如人名、電話號碼、郵件地址,如果這些信息都是屬于某個人的資料,那么就可以將該人名、電話號碼、郵件地址組成一個大的信息塊,它是一個結(jié)構(gòu)體:(人名,電話號碼,郵件地址)。利用信息聚合技術(shù),可以為用戶提供多來源信息的一站式的個性化服務(wù)。比如,終端設(shè)備監(jiān)測用戶的郵件或者短信息,自動地從郵件或者短信息中提取感興趣的信息,如聯(lián)系人資料、事件信息等,然后就生成一個日程表事件、事務(wù)提醒事件、或者通訊錄聯(lián)系人,然后將信息存放在對應(yīng)的位置,例如日程表、事務(wù)提醒器、聯(lián)系人列表等,以幫助用戶處理信息,提升工作效率。信息聚合是信息提取的必要前提,利用一種可量化的標(biāo)準(zhǔn)聚合信息是信息聚合的核心工作。選用不同的衡量準(zhǔn)則會影響到信息聚合的效果,從而影響到信息提取的最終結(jié)果。在現(xiàn)有技術(shù)中,信息聚合的常用方法是利用語法結(jié)構(gòu)分析。語法結(jié)構(gòu)分析利用語法原理,根據(jù)不同的語法成分合并信息。例如,以漢語語法為例,句子成分有主語、謂語、賓語、定語、狀語、補(bǔ)語。每個成分對詞匯屬性都有要求,例如,名詞可以充當(dāng)主語,動詞可以作謂語,形容詞修飾名詞等等。根據(jù)詞匯的不同屬性,就可以聚合句子成分。然而,句子的復(fù)雜性以及成分的多樣性,使得語法結(jié)構(gòu)分析不易量化。例如語法分析中的就近原則,對于終端設(shè)備而言,就是一個非常復(fù)雜的問題,因為遠(yuǎn)近沒有量化定義,終端設(shè)備不知道什么是遠(yuǎn),什么是近。由于語法結(jié)構(gòu)分析難以量化,因此,信息聚合的準(zhǔn)確度較低。

發(fā)明內(nèi)容
本發(fā)明實施例針對上述現(xiàn)有技術(shù)存在的問題,提供一種信息聚合方法及裝置,以提高信息聚合的準(zhǔn)確度。為此,本發(fā)明實施例提供如下技術(shù)方案:一種信息聚合方法,包括:確定信息量在文件中的相關(guān)信息;根據(jù)所述相關(guān)信息計算不同信息量之間的距離;根據(jù)計算得到的不同信息量之間的距離對不同的信息量進(jìn)行聚合?!N信息聚合裝置,包括:信息確定單元,用于確定信息量在文件中的相關(guān)信息;計算單元,用于根據(jù)所述相關(guān)信息計算不同信息量之間的距離;聚合單元,用于根據(jù)計算得到的不同信息量之間的距離對不同的信息量進(jìn)行聚

口 o本發(fā)明實施例提供的信息聚合方法及裝置,通過確定信息量在文件中的相關(guān)信息,并根據(jù)所述相關(guān)信息計算不同信息量之間的距離,從而對文件中的不同信息量之間的距離進(jìn)行量化處理,利用量化后的距離對不同的信息量進(jìn)行聚合,有效地提高了信息聚合的準(zhǔn)確度。


為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明實施例信息聚合方法的流程圖;圖2是本發(fā)明實施例信息聚合裝置的結(jié)構(gòu)示意圖;圖3是本發(fā)明實施例中聚合單元的一種結(jié)構(gòu)示意圖。
具體實施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明實施例的方案,下面結(jié)合附圖和實施方式對本發(fā)明實施例作進(jìn)一步的詳細(xì)說明。本發(fā)明實施例信息聚合方法及裝置,通過確定信息量在文件中的相關(guān)信息,并根據(jù)所述相關(guān)信息計算不同信息量之間的距離,從而對文件中的不同信息量之間的距離進(jìn)行量化處理,利用量化后的距離對不同的信息量進(jìn)行聚合,有效地提高信息聚合的準(zhǔn)確度。本發(fā)明實施例信息聚合方法可以應(yīng)用于終端設(shè)備或服務(wù)器,比如,終端設(shè)備監(jiān)測用戶的郵件或者短信息,自動實現(xiàn)對其中用戶關(guān)注的信息的聚合。如圖1所示,是本發(fā)明實施例信息聚合方法的流程圖,包括以下步驟:步驟101,確定信息量在文件中的相關(guān)信息。所述信息量是指用戶關(guān)注的信息,例如,可以是人名、電話號碼、郵箱地址,也可以是會議主題、會議地點、會議內(nèi)容等等。每個信息量包括由一個或多個字符串組成,每個信息量都有它對應(yīng)的相關(guān)信息。在本實施例中,該步驟可以是確定不同信息量在文件中的相關(guān)信息。也可以理解為,獲取文件中用戶關(guān)注的信息對應(yīng)的相關(guān)相息,或是獲取文件中信息量對應(yīng)的相關(guān)信息。所述文件可以是用戶的郵件或者短信息,當(dāng)然也可以是其它文件,對此本發(fā)明實施例不做限定。在本實施例中,文件可以是終端設(shè)備當(dāng)前收到的用戶的郵件或者短信息,也可以是已經(jīng)存儲在終端設(shè)備上的用戶的郵件或者短信息,本發(fā)明實施例不做限定。在實際應(yīng)用中,可以利用句子切分技術(shù),首先將文件中每個句子中的連續(xù)字符串切分為不同的詞,然后再確定其中的每個詞是否為需要關(guān)注的信息量。比如可以預(yù)先定義一些需要關(guān)注的信息量的類別,對切分后的分詞進(jìn)行類別標(biāo)注,然后根據(jù)各詞的類別確定其是否為需要關(guān)注的信息量。除此之外,還可以利用其它方式來識別文件中的信息量,比如,可以設(shè)置一些需要關(guān)注的詞匯表,然后,根據(jù)這些詞匯表過濾文件中的內(nèi)容,找出其中需要關(guān)注的信息量。當(dāng)然,還可以有更多其它方式來識別文件中的信息量,對此本發(fā)明實施例不做限定。在本發(fā)明實施例中,所述相關(guān)信息可以是位置信息,比如,信息量在文件中的段落位置、起始位置、結(jié)束位置。其中,所述段落位置表示所述信息量在文件中的自然段落位置,是一個常數(shù);所述起始位置和結(jié)束位置表示所述信息量在文件中所在句子中的位置。信息量位于文件的第一段落,則段落位置就是I,如果處于第二段落,段落位置就是2,依此類推。如,文件中有以下內(nèi)容:“小明今天到北京出差,他的電話是12345678?!逼渲行枰P(guān)注的信息量有:小明、他、電話和12345678。假設(shè)上述內(nèi)容位于文件中的第n個段落,每個漢字占用兩個位置空間,數(shù)字占用一個位置空間,開始的位置是I。則其中各信息量在文件中的相關(guān)信息如下:小明(n,l,4);他(n,21,22);電話(n,25,28);12345678(n,31,38)。當(dāng)然,所述相關(guān)信息還可以包括其它信息,比如,信息量的語法屬性等信息。步驟102,根據(jù)所述相關(guān)信息計算不同信息量之間的距離。具體地,可以先根據(jù)信息量的相關(guān)信息計算該信息量的標(biāo)簽數(shù)值,,以獲得不同信息量對應(yīng)的標(biāo)簽數(shù)值。在本實施例中,可以理解為,由于每個信息量有一個其對應(yīng)的相關(guān)信息,通過計算標(biāo)簽數(shù)值,從而使每個信息量可以獲得其對應(yīng)的標(biāo)簽數(shù)值,然后根據(jù)計算得到的標(biāo)簽數(shù)值計算不同信息量之間的距離。下面以所述相關(guān)信息只包括位置信息,并以上述文件中的內(nèi)容為例進(jìn)行說明。如,可以定義按以下公式⑴計算信息量的標(biāo)簽數(shù)值:L =段落位置*標(biāo)簽系數(shù)+(起始位置+結(jié)束位置)/2 (I)其中,L表示信息量的標(biāo)簽數(shù)值。在上述公式(I)中加入標(biāo)簽系數(shù)是為了保證計算得到的各信息量的標(biāo)簽數(shù)值的唯一性。在實際應(yīng)用中,該標(biāo)簽系數(shù)可以是文件中所有段落中包含字符數(shù)最多的段落中的字符數(shù)的最大值。為了描述方便,將所述標(biāo)簽系數(shù)記為maX_siZe。例如,文件中有三個自然段落,第一段落的字符數(shù)是nl,第二段落的字符數(shù)是n2,第三段落的字符數(shù)是n3,則max_size = max (nl, n2, n3)。假如max_size的取值不是文件中所有段落中包含字符數(shù)最多的段落中的字符數(shù)的最大值,而是其他數(shù)值,例如取當(dāng)前段落的字符數(shù)值,這樣就不能保證標(biāo)簽的唯一性。例如,有三段文字,第一段有1000個字符,第二段有500個字符,第三段有600個字符。如果max_size的取值是當(dāng)前段落的數(shù)值,則會出現(xiàn)如下情況:第一段中信息量的標(biāo)簽數(shù)值為:1*1000+ (開始位置+結(jié)束位置)/2,這個標(biāo)簽數(shù)值的取值范圍是(1000,2000),這一段的開始位置是1,結(jié)束位置是1000,它們的中間值范圍是(1,1000);第二段中信息量的標(biāo)簽數(shù)值為:2*500+(開始位置+結(jié)束位置)/2,這個標(biāo)簽數(shù)值的取值范圍是(1000,1500),這一段的開始位置是1,結(jié)束位置是500,它們的中間值范圍是(1,500);按照同樣的方式,第三段中信息量的標(biāo)簽數(shù)值的范圍是(1800,2400)??梢姡谝欢沃行畔⒘康臉?biāo)簽數(shù)值范圍覆蓋了第二段中信息量的標(biāo)簽數(shù)值范圍,第一段中信息量的標(biāo)簽數(shù)值和第三段中信息量的標(biāo)簽數(shù)值有重合。當(dāng)然,上述標(biāo)簽系數(shù)也可以是大于文件中所有段落中包含字符數(shù)最多的段落中的字符數(shù)的最大值的一個數(shù)。根據(jù)上述公式(I),可以得到上述各信息量的標(biāo)簽數(shù)值如下:L(小明)=n*max—size+5/2 ;L(他)=n*max—size+43/2 ;L(電話)=n*max—size+53/2 ;L (12345678) = n*max—size+59/2。在本實施例中, 當(dāng)要計算不同信息量之間的距離時,可以理解為:計算文件中的任意兩個不同信息量之間的距離。在本實施例中,可以將兩個不同信息量對應(yīng)的標(biāo)簽數(shù)值的差值的絕對值作為這兩個信息量之間的距離,即按照以下公式(2)計算不同信息量之間的距離:d(x, y) = L (x) -L (y)(2)其中,x和y表示兩個不同信息量。根據(jù)上述公式(2),可以得到上述各信息量之間的距離如下:d(小明,他)=19;d(小明,電話)=24;d (小明,12345678) = 27 ;d (他,電話)=5;d (他,12345678) = 8 ;d(電話,12345678) = 3。在本實施例中,通過上述的計算,可以獲得多個距離。也可以理解為:通過上述計算過程,可以對文件中的不同信息量之間的距離進(jìn)行量化,使終端設(shè)備可以準(zhǔn)確識別不同信息量之間的距離的遠(yuǎn)近,從而為信息聚合提供準(zhǔn)確的參考依據(jù)。步驟103,根據(jù)計算得到的不同信息量之間的距離對不同的信息量進(jìn)行聚合。在聚合過程中,需要考慮不同信息量之間的距離,按照就近原則進(jìn)行聚合。需要聚合的信息可以是不同類別且具有關(guān)聯(lián)性的信息,通常是人名、電話、地址、郵箱這類信息,也可以按照用戶制定的信息類別聚合。由于不同信息量之間會存在指代關(guān)系(比如“他”和“小明”)和/或?qū)Φ汝P(guān)系(比如“電話”和“12345678”),因此,可以先根據(jù)指代關(guān)系和/或?qū)Φ汝P(guān)系對相關(guān)的信息量之間的距離進(jìn)行修正,然后,選擇一個最小的距離,將該距離對應(yīng)的信息量聚合。例如,上述得到的距離中,d(小明,12345678) = 27,由于“小明”和“他”具有指代關(guān)系,而“12345678”和“電話”具有對等關(guān)系,而且d(他,電話)=5,因此,可以將d(小明,12345678)修正為5,即與d(他,電話)的值一樣。這樣,再將計算得到的“小明”與“12345678”的距離與計算得到的“12345678”與其它人名的距離進(jìn)行比較,選擇一個最小的數(shù)值來聚合,即將電話號碼“ 12345678”與其距離最短的人名進(jìn)行聚合。上述指代關(guān)系和對等關(guān)系的判斷可以根據(jù)各信息量的語法屬性及距離關(guān)系來確定。在本實施例中 ,可以理解為,根據(jù)各信息量的語法屬性可以判斷不同信息量之間的指代關(guān)系或?qū)Φ汝P(guān)系,進(jìn)一步的,還可以根據(jù)各信息量的語法屬性和距離關(guān)系來進(jìn)一步的判斷不同信息量之間的指代關(guān)系或?qū)Φ汝P(guān)系。比如,“電話”與“ 12345678”是用關(guān)連詞“是”連接,從而可以確定它們是對等關(guān)系。再比如,“小明”是一個人名,“他”是一個代詞,而且上述文本中沒有其它代詞,因此可以確定它們具有指代關(guān)系。當(dāng)然,如果文本中還有其它代詞,則需要根據(jù)每個代詞與“小明”的距離,確定距離最近的代詞與“小明”具有指代關(guān)系。反之,如果文本中還有其它人名,則同樣需要確定根據(jù)每個人名與代詞“他”的距離,確定距離最近的人名與代詞“他”具有指代關(guān)系。對于有多個人名和多個代詞的情況,同樣可以按照上述方式確定其中的人名與代詞指代關(guān)系。當(dāng)然,如果不同信息量之間不存在指代關(guān)系和對等關(guān)系,則不需要對計算得到的不同信息量之間的距離進(jìn)行修正,而是直接對計算得到的不同信息量之間的距離中最小距離對應(yīng)的信息量進(jìn)行聚合。上面的舉例中,不同信息量出現(xiàn)在文件中的一個段落中。下面進(jìn)一步舉例說明信息量位于不同段落中的情況下信息聚合的過程。例如,一個文件中有以下內(nèi)容:王總明天到北京出差,他的電話是12345678。王總將會與張總開會,會議期間不方便接聽電話,有急事可以找王總他的秘書小王,他的電話是87654321,或者給王總直接發(fā)郵件或者直接發(fā)郵件給王總,他的郵件地址是:abcidomain.com。對于上述文本,用戶需要關(guān)注的信息量是人名,電話號碼,電子郵件地址。上述文本有兩個段落,出現(xiàn)三個人,分別是王總,張總,小王。其中,王總在兩段中都出現(xiàn),在第二段中出現(xiàn)了三次;有三個"他",分別是:第一段出現(xiàn)一個“他”,第二段有兩個“他”;兩個電話號碼,分別是:12345678、87654321 ;一個電子郵件地址,abcidomain.com。假設(shè)漢字占兩個字符位置,中文標(biāo)點占兩個字符位置,ASCII字符占一個字符位置。對于上述文本內(nèi)容,首先確定信息量在文件中的相關(guān)信息,具體如下:第一段的信息量有:王總,他,電話,12345678;第二段的信息量有:王總,張總,王總(第二個),小王,他(第一個他),電話,87654321,王總(第三個),他(第二個他),郵件地址,abcidomain.com。在最新的文本中,第一段有40個字符,第二段有146個字符。設(shè)定max_size = 134。由于信息量中有四個"王總",三個"他"出現(xiàn),為了區(qū)分出現(xiàn)重復(fù)的信息量,采用以下標(biāo)記:段落數(shù)值_信息量_第幾個,如第二段中第三個出現(xiàn)的王總記為:2_王總_3,其他的依此類推。上述信息量在文件中的相關(guān)信息分別為:1_ 王總 _1(1,1,4);1_他_1(1,21,22);
1_ 電話 _1(1,25,28);12345678(1,31,38);2_ 王總 _1(2,1,4);張總(2,11,14);2_ 電話 _1(2,39,42);2_ 王總 _2(2,55,58);小王(2,65,68);2_他_1(2,71,72);2_ 電話 _2(2,75,78);87654321 (2,81,88);2_ 王總 _3(2,97,100);2_他_2(2,113,114);郵件地址(2,121,124);abcidomain.com(2,129,132)。然后,按照前面定義的距離計算公式計算兩兩信息量之間的距離,具體計算過程與前面舉例中類似,在此不再一一描述。在得到信息量之間的距離后,確定信息量之間的指代關(guān)系及對等關(guān)系。(I)確定代詞"他"的指代關(guān)系。(1(1_王總_1,1_他_1) = I (1+4)/2-(21+22)/2 I =19;(1(1_他_1,2_ 王總 _1(2,1,4)) = [134+(21+22)/2]-[2*134+(1+4)/2] =115。按照上述方式,同樣計算這個代詞與其他人名的距離。這樣就獲得6個距離(因為有六個人名,重復(fù)的算出現(xiàn)的次數(shù))。根據(jù)這六個距離中最小值,可以確定第一段中的"他"是指代第一段中的"王總",也就是說,“他”和“王總”具有指代關(guān)系。按照上述方式,同樣可以確定第二段中的第一個"他"是指代"小王",第二個"他"是指代"王總"。這樣,就可以確定上述文本中的人稱代詞的指代關(guān)系。(2)確定電話與號碼的對等關(guān)系。如"1_電話 _1"與"12345678"," 2_ 電話 _2"與"87654321","郵件地址"與"abc@domain.com"。利用上述確定的指代關(guān)系和對等關(guān)系,可以確定:第一段中的"他"指代"王總","電話"就是"12345678"。對計算得到的信息量之間的距離進(jìn)行修正,可以得到:d(l_ 王總 _1,12345678) = d(l_ 他 _1,1_ 電話 _1) =5。然后,再計算"12345678"與其他名字的距離,在這些距離中選擇一個最小的值決定這個電話號碼的歸屬。在確定了指代關(guān)系和對等關(guān)系后,選擇距離最小的相關(guān)信息量中的人名、電話號碼及郵件地址進(jìn)行聚合,最終可以得到如下的聚合結(jié)果:王總,12345678,abcidomain.com ;小王,87654321;張總。
在實際應(yīng)用中,終端設(shè)備得到上述聚合結(jié)果后,可以將該聚合結(jié)果保存到相應(yīng)的文件中,和/或展示給用戶,以供用戶選擇等操作??梢姡景l(fā)明實施例信息聚合方法,通過確定信息量在文件中的相關(guān)信息,并根據(jù)所述相關(guān)信息計算不同信息量之間的距離,使不同信息量之間的距離都有一個具體的數(shù)值,從而對文件中的不同信息量之間的距離進(jìn)行量化處理,利用量化后的距離對不同的信息量進(jìn)行聚合,不僅可以利用終端設(shè)備自動實現(xiàn)信息的聚合,而且可以有效地提高信息聚合的準(zhǔn)確度,進(jìn)而為信息提取處理提供準(zhǔn)確的信息源;同時,由于有效的提高了信息聚合的準(zhǔn)確度,進(jìn)而可以為用戶需要關(guān)注的信息提供更準(zhǔn)確的服務(wù),從而可以提高用戶的體驗。相應(yīng)地,本發(fā)明實施例還提供一種信息聚合裝置,該裝置可以是終端設(shè)備或服務(wù)器等設(shè)備的一部分。所述終端設(shè)備可以是手機(jī)、PDA、平板電腦等智能終端設(shè)備。如圖2所示,是該裝置的一種結(jié)構(gòu)示意圖。在該實施例中,所述裝置包括:信息確定單元201,用于確定信息量在文件中的相關(guān)信息。在本實施例中,所述信息量是指用戶關(guān)注的信息,例如,可以是人名、電話號碼、郵箱地址,也可以是會議主題、會議地點、會議內(nèi)容等等。每個信息量包括由一個或多個字符串組成,每個信息量都有它對應(yīng)的相關(guān)彳目息。在本實施例中,彳目息確定單兀201可以是確定不同彳目息量在文件中的相關(guān)/[目
肩、O所述文件可以是用戶的郵件或者短信息,當(dāng)然也可以是其它文件,對此本發(fā)明實施例不做限定。在本實施例中,文件可以是終端設(shè)備當(dāng)前收到的用戶的郵件或者短信息,也可以是已經(jīng)存儲在終端設(shè)備上的用戶的郵件或者短信息,本發(fā)明實施例不做限定。計算單元202,用于根據(jù)所述相關(guān)信息計算不同信息量之間的距離。在本實施例中,計算單元202可以先根據(jù)信息量的相關(guān)信息計算該信息量的標(biāo)簽數(shù)值,在本實施例中,可以理解為,通過計算單元202計算標(biāo)簽數(shù)值,從而使每個信息量可以獲得其對應(yīng)的標(biāo)簽數(shù)值,然后根據(jù)計算得到的標(biāo)簽數(shù)值計算不同信息量之間的距離。聚合單元203,用于根據(jù)計算得到的不同信息量之間的距離對不同的信息量進(jìn)行聚合。在本實施例中,在聚合過程中,需要考慮不同信息量之間的距離,按照就近原則進(jìn)行聚合。需要聚合的信息可以是不同類別且具有關(guān)聯(lián)性的信息,通常是人名、電話、地址、郵箱這類信息,也可以按照用戶制定的信息類別聚合。由于不同信息量之間會存在指代關(guān)系(比如“他”和“小明”)和/或?qū)Φ汝P(guān)系(比如“電話”和“12345678”),因此,可以先根據(jù)指代關(guān)系和/或?qū)Φ汝P(guān)系對相關(guān)的信息量之間的距離進(jìn)行修正,然后,選擇一個最小的距離,將該距離對應(yīng)的信息量聚合。上述指代關(guān)系和對等關(guān)系的判斷可以根據(jù)各信息量的語法屬性及距離關(guān)系來確定。在本實施例中,可以理解為,根據(jù)各信息量的語法屬性可以判斷不同信息量之間的指代關(guān)系或?qū)Φ汝P(guān)系,進(jìn)一步的,還可以根據(jù)各信息量的語法屬性和距離關(guān)系來進(jìn)一步的判斷不同信息量之間的指代關(guān)系或?qū)Φ汝P(guān)系。在本發(fā)明實施例中,可以利用句子切分技術(shù),先將文件中每個句子中的連續(xù)字符串切分為不同的詞,然后再確定其中的每個詞是否為需要關(guān)注的信息量。比如可以預(yù)先定義一些需要關(guān)注的信息量的類別,對切分后的分詞進(jìn)行類別標(biāo)注,然后根據(jù)各詞的類別確定其是否為需要關(guān)注的信息量。除此之 外,還可以利用其它方式來識別文件中的信息量,比如,可以設(shè)置一些需要關(guān)注的詞匯表,然后,根據(jù)這些詞匯表過濾文件中的內(nèi)容,找出其中
需要關(guān)注的信息量。當(dāng)然,還可以有更多其它方式來識別文件中的信息量,對此本發(fā)明實施例不做限定。所述信息確定單元201可以只對需要關(guān)注的信息量確定其在文件中的相關(guān)信息。所述相關(guān)信息可以是位置信息,比如,段落位置、起始位置和結(jié)束位置,所述段落位置表示所述信息量在文件中的自然段落位置;所述起始位置和結(jié)束位置表示所述信息量在文件中所在句子中的位置。當(dāng)然,所述相關(guān)信息還可以包括其它信息,比如,信息量的語法屬性等信息。在本發(fā)明實施例中,上述計算單元202的一種具體結(jié)構(gòu)包括:第一計算子單元和第二計算子單元(未圖示)。其中:所述第一計算子單元,用于根據(jù)所述相關(guān)信息計算所述信息量的標(biāo)簽數(shù)值,具體可以按照上述公式(I)來計算各信息量的標(biāo)簽數(shù)值。在本實施例中,可以理解為,由于每個信息量有一個其對應(yīng)的相關(guān)信息,因而,通過計算標(biāo)簽數(shù)值,從而使每個信息量可以獲得其對應(yīng)的標(biāo)簽數(shù)值。所述第二計算子單元,用于根據(jù)所述標(biāo)簽數(shù)值計算不同信息量之間的距離。在本實施例中,當(dāng)要計算不同信息量之間的距離時,可以理解為:計算文件中的任意兩個不同信息量之間的距離。在本實施例中,可以將兩個不同信息量對應(yīng)的標(biāo)簽數(shù)值的差值的絕對值作為這兩個信息量之間的距離,即按照上述公式⑵來計算不同信息量之間的距離。上述各信息量的標(biāo)簽數(shù)值、以及不同信息量之間的距離的詳細(xì)計算過程可參照前面本發(fā)明實施例信息聚合方法中的描述,在此不再贅述。如圖3所示,是本發(fā)明實施例中所述聚合單元的一種具體結(jié)構(gòu)示意圖。在該實施例中,所述聚合單元包括:關(guān)系確定子單元301,用于確定不同信息量之間是否有指代關(guān)系和/或?qū)Φ汝P(guān)系;修正子單元302,用于當(dāng)所述關(guān)系確定子單元301確定不同信息量之間有指代關(guān)系和/或?qū)Φ汝P(guān)系時,根據(jù)所述關(guān)系確定子單兀確定的指代關(guān)系和/或?qū)Φ汝P(guān)系對所述計算單元計算得到的不同信息量之間的距離進(jìn)行修正;合并子單元303,用于在所述關(guān)系確定子單元301確定不同信息量之間有指代關(guān)系和/或?qū)Φ汝P(guān)系時,將所述修正子單元302修正后的距離中最小距離對應(yīng)的信息量進(jìn)行
壞人
口 o在本實施例中,該合并子單元303進(jìn)一步用于在所述關(guān)系確定子單元301確定不同信息量之間沒有指代關(guān)系和/或?qū)Φ汝P(guān)系時,將上述計算單元計算得到的不同信息量之間的距離中最小距離對應(yīng)的信息量進(jìn)行聚合。上述關(guān)系確定子單元301對指代關(guān)系和對等關(guān)系的判斷可以根據(jù)各信息量的語法屬性及距離關(guān)系來確定。在本實施例中,可以理解為,根據(jù)各信息量的語法屬性可以判斷不同信息量之間的指代關(guān)系和/或?qū)Φ汝P(guān)系,進(jìn)一步的,還可以根據(jù)各信息量的語法屬性和距離關(guān)系來進(jìn)一步的判斷不同信息量之間的指代關(guān)系和/或?qū)Φ汝P(guān)系。具體可參照前面本發(fā)明實施例中的描述,在此不再贅述。同樣,上述修正子單元302和合并子單元303的具體處理過程也可參照前面本發(fā)明實施例中的描述,在此不再贅述。本發(fā)明實施例信息聚合裝置,通過確定信息量在文件中的相關(guān)信息,并根據(jù)所述相關(guān)信息計算不同信息量之間的距離,從而對文件中的不同信息量之間的距離進(jìn)行量化處理,利用量化后的距離對不同的信息量進(jìn)行聚合,有效地提高了信息聚合的準(zhǔn)確度,進(jìn)而為信息提取處理提供準(zhǔn)確的信息源;同時,由于有效的提高了信息聚合的準(zhǔn)確度,進(jìn)而可以為用戶需要關(guān)注的信息提供更準(zhǔn)確的服務(wù),從而可以提高用戶的體驗。需要說明的是,本發(fā)明實施例信息聚合方法及裝置,可以應(yīng)用在終端設(shè)備上,也可以應(yīng)用在服務(wù)器等設(shè)備上,不僅可以實現(xiàn)文本信息的聚合,而且還可以實現(xiàn)圖像信息的聚
口 o本說明書中的各個實施例均采用遞進(jìn)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。以上對本發(fā)明實施例進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體實施方式
對本發(fā)明進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及設(shè)備;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1.一種信息聚合方法,其特征在于,包括: 確定信息量在文件中的相關(guān)信息; 根據(jù)所述相關(guān)信息計算不同信息量之間的距離; 根據(jù)計算得到的不同信息量之間的距離對不同的信息量進(jìn)行聚合。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述信息量為用戶關(guān)注的信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定信息量在文件中的相關(guān)信息包括: 確定信息量在文件中的位置信息,所述位置信息包括:段落位置,起始位置,結(jié)束位置,其中,所述段落位置表示所述信息量在文件中的自然段落位置,所述起始位置和結(jié)束位置表示所述信息量在文件中所在句子中的位置。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述相關(guān)信息計算不同信息量之間的距離包括: 根據(jù)所述相關(guān)信息計算所述信息量的標(biāo)簽數(shù)值,以獲得不同信息量對應(yīng)的標(biāo)簽數(shù)值; 根據(jù)所述標(biāo)簽數(shù)值計算不同信息量之間的距離。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于, 所述根據(jù)所述相關(guān)信息計算所述信息量的標(biāo)簽數(shù)值包括: 利用以下公式計算所述信息量的標(biāo)簽數(shù)值:L =段落位置*標(biāo)簽系數(shù)+(起始位置+結(jié)束位置)/2; 所述根據(jù)所述標(biāo)簽數(shù)值計算不同信息量之間的距離包括: 將不同信息量對應(yīng)的標(biāo)簽數(shù)值的差值的絕對值作為所述不同信息量之間的距離。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述標(biāo)簽系數(shù)大于或等于所述文件中所有段落中包含字符數(shù)最多的段落中的字符數(shù)的最大值。
7.根據(jù)權(quán)利要求1至6任一項所述的方法,其特征在于,所述根據(jù)計算得到的不同信息量之間的距離對不同的信息量進(jìn)行聚合包括: 確定不同信息量之間是否有指代關(guān)系和/或?qū)Φ汝P(guān)系; 當(dāng)確定不同信息量之間有指代關(guān)系和/或?qū)Φ汝P(guān)系時,根據(jù)所述指代關(guān)系和/或?qū)Φ汝P(guān)系對所述距離進(jìn)行修正; 將修正后的距離中最小距離對應(yīng)的信息量進(jìn)行聚合。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)計算得到的不同信息量之間的距離對不同的信息量進(jìn)行聚合進(jìn)一步包括: 當(dāng)確定不同信息量之間沒有指代關(guān)系和/或?qū)Φ汝P(guān)系時,則將計算得到的不同信息量之間的距離中最小距離對應(yīng)的信息量進(jìn)行聚合。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述確定不同信息量之間是否有指代關(guān)系和/或?qū)Φ汝P(guān)系包括: 根據(jù)各信息量的語法屬性判斷不同信息量之間的指代關(guān)系和/或?qū)Φ汝P(guān)系。
10.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述確定不同信息量之間是否有指代關(guān)系和/或?qū)Φ汝P(guān)系進(jìn)一步包括: 根據(jù)各信息量的語法屬性和距離關(guān)系判斷不同信息量之間的指代關(guān)系和/或?qū)Φ汝P(guān)系。
11.一種信息聚合裝置,其特征在于,包括: 信息確定單元,用于確定信息量在文件中的相關(guān)信息; 計算單元,用于根據(jù)所述相關(guān)信息計算不同信息量之間的距離; 聚合單元,用于根據(jù)計算得到的不同信息量之間的距離對不同的信息量進(jìn)行聚合。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于, 所述信息確定單元,具體用于確定信息量在文件中的位置信息,所述位置信息包括:段落位置,起始位置,結(jié)束位置;所述段落位置表示所述信息量在文件中的自然段落位置;所述起始位置和結(jié)束位置表示所述信息量在文件中所在句子中的位置,所述信息量為用戶關(guān)注的信息。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述計算單元包括: 第一計算子單元,用于根據(jù)所述相關(guān)信息計算所述信息量的標(biāo)簽數(shù)值,以獲得不同信息量對應(yīng)的標(biāo)簽數(shù)值; 第二計算子單元,用于根據(jù)所述標(biāo)簽數(shù)值計算不同信息量之間的距離。
14.根據(jù)權(quán)利要求12所述的裝置,其特征在于, 所述第一計算子單元,具體用于利用以下公式計算所述信息量的標(biāo)簽數(shù)值:L =段落位置*標(biāo)簽系數(shù)+ (起始位置+結(jié)束位置)/2 ; 所述第二計算子單元,具體用于將不同信息量對應(yīng)的標(biāo)簽數(shù)值的差值的絕對值作為所述不同信息量之間的距離。
15.根據(jù)權(quán)利要求11至14任一項所述的裝置,其特征在于,所述聚合單元具體包括: 關(guān)系確定子單元,用于確定不同信息量之間是否有指代關(guān)系和/或?qū)Φ汝P(guān)系; 修正子單元,用于當(dāng)所述關(guān)系確定子單元301確定不同信息量之間有指代關(guān)系和/或?qū)Φ汝P(guān)系時,根據(jù)所述關(guān)系確定子單兀確定的指代關(guān)系和/或?qū)Φ汝P(guān)系對所述計算單兀計算得到的不同信息量之間的距離進(jìn)行修正; 合并子單元,用于在所述關(guān)系確定子單元確定不同信息量之間有指代關(guān)系和/或?qū)Φ汝P(guān)系時,將所述修正子單元修正后的距離中最小距離對應(yīng)的信息量進(jìn)行聚合。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述合并子單元進(jìn)一步用于在所述關(guān)系確定子單元確定不同信息量之間沒有指代關(guān)系和/或?qū)Φ汝P(guān)系時,將所述計算單元計算得到的不同信息量之間的距離中最小距離對應(yīng)的信息量進(jìn)行聚合。
17.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述關(guān)系確定子單元進(jìn)一步用于根據(jù)各信息量的語法屬性判斷不同信息量之間的指代關(guān)系和/或?qū)Φ汝P(guān)系。
18.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述關(guān)系確定子單元進(jìn)一步用于根據(jù)各信息量的語法屬性和距離關(guān)系判斷不同信息量之間的指代關(guān)系和/或?qū)Φ汝P(guān)系。
全文摘要
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,公開了一種信息聚合方法及裝置,該方法包括確定信息量在文件中的相關(guān)信息;根據(jù)所述相關(guān)信息計算不同信息量之間的距離;根據(jù)計算得到的不同信息量之間的距離對不同的信息量進(jìn)行聚合。利用本發(fā)明,可以提高信息聚合的準(zhǔn)確度。
文檔編號G06F17/30GK103218371SQ20121001891
公開日2013年7月24日 申請日期2012年1月20日 優(yōu)先權(quán)日2012年1月20日
發(fā)明者劉冰 申請人:華為終端有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1