本發(fā)明涉及通信技術(shù)領(lǐng)域,更具體的涉及網(wǎng)絡(luò)信息所屬地域識別方法及裝置。
背景技術(shù):
隨著因特網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,網(wǎng)絡(luò)媒體已被公認(rèn)為是繼報(bào)紙、廣播、電視之后的“第四媒體”,網(wǎng)絡(luò)成為信息主要載體之一,網(wǎng)絡(luò)的傳播特性使得海量的網(wǎng)絡(luò)信息涌向用戶。
但用戶還是更關(guān)注發(fā)生在身邊的事情,因此如何能夠準(zhǔn)確的識別網(wǎng)絡(luò)信息中的地域信息,顯得尤為重要。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供了一種網(wǎng)絡(luò)信息所屬地域識別方法及裝置,以克服現(xiàn)有技術(shù)中沒有識別網(wǎng)絡(luò)信息所屬地域的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種網(wǎng)絡(luò)信息所屬地域識別方法,包括:
獲取網(wǎng)絡(luò)信息中包括的地域集合,所述地域集合包括至少一個(gè)地域;
依據(jù)所述地域集合中每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一地域相應(yīng)的權(quán)重,權(quán)重用于表征所述網(wǎng)絡(luò)信息所屬地域?yàn)橄鄳?yīng)地域的概率;
依據(jù)每一地域相應(yīng)的權(quán)重,從所述地域名稱集中,確定所述網(wǎng)絡(luò)信息所屬地域。
其中,所述獲取網(wǎng)絡(luò)信息中包括的地域名稱集包括:
將所述網(wǎng)絡(luò)信息進(jìn)行劃分,獲得多個(gè)詞;
從所述多個(gè)詞中,獲得與預(yù)先存儲的各地域相匹配的目標(biāo)詞;
由所述目標(biāo)詞組成所述地域集合。
其中,所述依據(jù)所述地域集合中每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一地域相應(yīng)的權(quán)重包括:
判斷所述地域集合中每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的位置;
當(dāng)所述地域集合中第一地域在所述網(wǎng)絡(luò)信息中的標(biāo)題位置時(shí),依據(jù)第一函數(shù)計(jì)算所述第一地域的權(quán)重,所述第一函數(shù)以相應(yīng)地域在所述標(biāo)題中的位置為因變量,以權(quán)重為自變量的函數(shù),且所述第一函數(shù)的自變量和因變量為負(fù)相關(guān);
當(dāng)所述地域集合中第二地域在所述網(wǎng)絡(luò)信息的正文中位置時(shí),依據(jù)第二函數(shù)計(jì)算所述第二地域的權(quán)重,所述第二函數(shù)以相應(yīng)地域在所述正文中的位置為因變量,以權(quán)重為自變量的函數(shù),且所述第二函數(shù)的自變量和因變量為負(fù)相關(guān)。
其中,所述依據(jù)所述地域集合中每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一地域相應(yīng)的權(quán)重,還包括:
當(dāng)所述地域集合中第三地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)大于等于兩次時(shí),將所述第三地域?qū)?yīng)的各權(quán)重相加;
將所述第三地域?qū)?yīng)的各權(quán)重相加之和,確定為所述第三地域的權(quán)重。
其中,所述依據(jù)每一地域相應(yīng)的權(quán)重,從所述地域名稱集中,確定所述網(wǎng)絡(luò)信息所屬地域包括:
依據(jù)預(yù)先存儲的用于表征各地域所屬關(guān)系的上下級關(guān)系,判斷所述地域集合中各地域之間是否具有上下級關(guān)系;
當(dāng)所述地域集合中至少兩個(gè)地域之間具有上下級關(guān)系時(shí),將所述至少兩個(gè)地域確定為一細(xì)粒度地域;
將所述至少兩個(gè)地域相應(yīng)的權(quán)重進(jìn)行預(yù)設(shè)計(jì)算,獲得所述細(xì)粒度地域相應(yīng)的權(quán)重;
依據(jù)所述地域集合中每一細(xì)粒度地域相應(yīng)的權(quán)重,以及所述地域集合中與各地域都不具有上下級關(guān)系的粗粒度地域相應(yīng)的權(quán)重,從所述地域集合包含的細(xì)粒度地域和粗粒度地域中,確定所述網(wǎng)絡(luò)信息所屬地域。
其中,所述從所述地域集合包含的細(xì)粒度地域和粗粒度地域中,確定所述網(wǎng)絡(luò)信息所屬地域包括:
判斷所述地域集合包含的細(xì)粒度地域和粗粒度地域相應(yīng)的權(quán)重與第一預(yù)設(shè)閾值的大小關(guān)系;
當(dāng)大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為零個(gè)時(shí),確定所述網(wǎng)絡(luò)信息無所屬地域;
當(dāng)大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為至少一個(gè)時(shí),將最大權(quán)重對應(yīng)的目標(biāo)地域,確定為所述網(wǎng)絡(luò)信息所屬地域?qū)傩?,所述目?biāo)地域?yàn)榧?xì)粒度地域或粗粒度地域。
其中,所述當(dāng)大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為至少一個(gè)時(shí),將最大權(quán)重對應(yīng)的目標(biāo)地域,確定為所述網(wǎng)絡(luò)信息所屬地域?qū)傩园ǎ?/p>
當(dāng)大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為一個(gè)時(shí),將大于等于所述第一預(yù)設(shè)閾值的權(quán)重相應(yīng)的目標(biāo)地域,確定為所述網(wǎng)絡(luò)信息所屬地域?qū)傩裕?/p>
當(dāng)大于等于所述預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為至少兩個(gè)時(shí),計(jì)算大于等于所述預(yù)設(shè)閾值的權(quán)重相應(yīng)的至少兩個(gè)目標(biāo)地域中,每兩個(gè)目標(biāo)地域相應(yīng)權(quán)重的差值;
當(dāng)至少一個(gè)差值大于等于第二預(yù)設(shè)閾值時(shí),將最大權(quán)重對應(yīng)的目標(biāo)地域,確定為所述網(wǎng)絡(luò)信息所屬地域?qū)傩裕?/p>
當(dāng)所有差值均小于所述第二預(yù)設(shè)閾值時(shí),確定所述網(wǎng)絡(luò)信息無所屬地域。
一種網(wǎng)絡(luò)信息所屬地域識別裝置,包括:
獲取模塊,用于獲取網(wǎng)絡(luò)信息中包括的地域集合,所述地域集合包括至少一個(gè)地域;
第一確定模塊,用于依據(jù)所述地域集合中每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一地域相應(yīng)的權(quán)重,權(quán)重用于表征所述網(wǎng)絡(luò)信息所屬地域?yàn)橄鄳?yīng)地域的概率;
第二確定模塊,用于依據(jù)每一地域相應(yīng)的權(quán)重,從所述地域名稱集中,確定所述網(wǎng)絡(luò)信息所屬地域。
其中,所述第一確定模塊包括:
第一判斷單元,用于判斷每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的位置;
第一計(jì)算單元,用于當(dāng)所述地域集合中第一地域在所述網(wǎng)絡(luò)信息中的標(biāo)題位置時(shí),依據(jù)第一函數(shù)計(jì)算所述第一地域的權(quán)重,所述第一函數(shù)以相應(yīng)地域在所述標(biāo)題中的位置為因變量,以權(quán)重為自變量的函數(shù),且所述第一函數(shù)的自變量和因變量為負(fù)相關(guān);
第二計(jì)算單元,用于當(dāng)所述地域集合中第二地域在所述網(wǎng)絡(luò)信息的正文中位置時(shí),依據(jù)第二函數(shù)計(jì)算所述第二地域的權(quán)重,所述第二函數(shù)以相應(yīng)地域在所述正文中的位置為因變量,以權(quán)重為自變量的函數(shù),且所述第二函數(shù)的自變量和因變量為負(fù)相關(guān)。
其中,所述第二確定模塊包括:
第二判斷單元,用于依據(jù)預(yù)先存儲的用于表征各地域所屬關(guān)系的上下級關(guān)系,判斷所述地域集合中各地域之間是否具有上下級關(guān)系;
第一確定單元,用于當(dāng)所述地域集合中至少兩個(gè)地域之間具有上下級關(guān)系時(shí),將所述至少兩個(gè)地域確定為一細(xì)粒度地域;
獲取單元,用于將所述至少兩個(gè)地域相應(yīng)的權(quán)重進(jìn)行預(yù)設(shè)計(jì)算,獲得所述細(xì)粒度地域相應(yīng)的權(quán)重;
第二確定單元,用于依據(jù)所述地域集合中每一細(xì)粒度地域相應(yīng)的權(quán)重,以及所述地域集合中與各地域都不具有上下級關(guān)系的粗粒度地域相應(yīng)的權(quán)重,從所述地域集合包含的細(xì)粒度地域和粗粒度地域中,確定所述網(wǎng)絡(luò)信息所屬地域。
經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)信息所屬地域識別方法中,通過獲取網(wǎng)絡(luò)信息中包含的地域集合;依據(jù)地域集合中每一地域在網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一地域相應(yīng)的權(quán)重,權(quán)重用于表征網(wǎng)絡(luò)信息所屬地域?yàn)橄鄳?yīng)地域的概率。依據(jù)每一地域相應(yīng)的權(quán)重,從地域名稱集中,確定網(wǎng)絡(luò)信息所屬地域。從而在推送網(wǎng)絡(luò)信息時(shí),依據(jù)網(wǎng)絡(luò)信息所屬地域進(jìn)行相應(yīng)推送。例如,對寶安區(qū)的用戶推送寶安區(qū)的網(wǎng)絡(luò)信息。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種網(wǎng)絡(luò)信息所屬地域識別方法的流程圖;
圖2為本發(fā)明實(shí)施例提供的一種網(wǎng)絡(luò)信息所屬地域識別方法中依據(jù)所述地域集合中每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一地域相應(yīng)的權(quán)重的一種實(shí)現(xiàn)方式的方法流程示意圖;
圖3為本發(fā)明實(shí)施例提供的地域樹狀結(jié)構(gòu)的部分示意圖;
圖4為本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)信息所屬地域識別方法中依據(jù)每一地域相應(yīng)的權(quán)重,從所述地域名稱集中,確定所述網(wǎng)絡(luò)信息所屬地域的一種實(shí)現(xiàn)方式的方法流程示意圖;
圖5為采用本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)信息所屬地域識別方法識別各網(wǎng)絡(luò)信息所屬地域的示意圖;
圖6為本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)信息所屬地域識別裝置的結(jié)構(gòu)示意圖;
圖7為本發(fā)明實(shí)施例提供的電子設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1,為本發(fā)明實(shí)施例提供的一種網(wǎng)絡(luò)信息所屬地域識別方法的流程圖,該方法包括:
步驟s101:獲取網(wǎng)絡(luò)信息中包括的地域集合,所述地域集合包括至少一個(gè)地域。
本發(fā)明實(shí)施例是針對網(wǎng)絡(luò)信息中記載有地域的網(wǎng)絡(luò)信息而言的,若網(wǎng)絡(luò)信息中根本就不包括地域,則本發(fā)明實(shí)施例無法通過網(wǎng)絡(luò)信息獲知其所屬地域。
網(wǎng)絡(luò)信息可以為語音信息、文本信息等等。當(dāng)網(wǎng)絡(luò)信息為語音信息時(shí),可以將語音信息轉(zhuǎn)換為文本信息。本發(fā)明實(shí)施例提供但不限于以下“獲取網(wǎng)絡(luò)信息中包括的地域集合”的實(shí)現(xiàn)方法。
對網(wǎng)絡(luò)信息進(jìn)行劃分,獲得多個(gè)詞;從所述多個(gè)詞中,獲得與預(yù)先存儲的各地域相匹配的目標(biāo)詞;由所述目標(biāo)詞組成所述地域集合。
假設(shè)網(wǎng)絡(luò)信息為:寶安區(qū)文化節(jié)。
可以將網(wǎng)絡(luò)信息劃分為:寶、寶安、寶安區(qū)、寶安區(qū)文、寶安區(qū)文化、寶安區(qū)文化節(jié);安、安區(qū)、安區(qū)文、安區(qū)文化、安區(qū)文化節(jié);區(qū)、區(qū)文、區(qū)文化、區(qū)文化節(jié);文、文化、文化節(jié);化、化節(jié);節(jié)。
優(yōu)選的,由于中文文本的特殊性,在提取詞的時(shí)候需要用分詞工具準(zhǔn)確的將網(wǎng)絡(luò)信息切分成詞和短語并且過濾掉如“地、的、她、他、它....”等無用的助詞、副詞、停用詞。若網(wǎng)絡(luò)信息為英文詞匯,則可以過濾掉如:a、an等詞。
上述各地域可以預(yù)先存儲在地域信息庫中。各地域可以包含全國或全世界所有的省、市、縣、鎮(zhèn)、村,優(yōu)選的,各地域還可以包含街道信息,居委會信息,地域的經(jīng)緯度信息,以及一些地域的標(biāo)志性信息,比如濟(jì)南的大明湖,北京的故宮等等。
通過將對網(wǎng)絡(luò)信息劃分的多個(gè)詞與預(yù)先存儲的各地域進(jìn)行匹配,可以獲得寶安區(qū)這一地域詞匯。
步驟s102:依據(jù)所述地域集合中每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一地域相應(yīng)的權(quán)重,權(quán)重用于表征所述網(wǎng)絡(luò)信息所屬地域?yàn)橄鄳?yīng)地域的概率。
網(wǎng)絡(luò)信息一般包括標(biāo)題和正文,地域在網(wǎng)絡(luò)信息中出現(xiàn)的位置可以是指地域在正文中出現(xiàn),或,地域在標(biāo)題中出現(xiàn)。
地域在網(wǎng)絡(luò)中出現(xiàn)的位置還可以是指地域位于文中的第幾個(gè)詞,若網(wǎng)絡(luò)信息為“寶安區(qū)文化節(jié)”為例,寶安區(qū)的位置為第1個(gè)詞,即寶安區(qū)在該網(wǎng)絡(luò)信息中出現(xiàn)的位置為1。
優(yōu)選的,地域在標(biāo)題中出現(xiàn)時(shí)相應(yīng)的權(quán)重,高于在正文中出現(xiàn)時(shí)相應(yīng)的權(quán)重。
地域的權(quán)重與地域在網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)呈正相關(guān),與出現(xiàn)的位置呈負(fù)相關(guān)。
正相關(guān)(positivecorrelation),是指兩個(gè)變量變動(dòng)方向相同,一個(gè)變量由大到小或由小到大變化時(shí),另一個(gè)變量亦由大到小或由小到大變化。
負(fù)相關(guān)是指兩個(gè)變量變動(dòng)方向相反,一各變量由大到小或由小到大變化時(shí),另一個(gè)變量反而由小到大或由大到小變化。
步驟s103:依據(jù)每一地域相應(yīng)的權(quán)重,從所述地域名稱集中,確定所述網(wǎng)絡(luò)信息所屬地域。
權(quán)重越大的地域,是網(wǎng)絡(luò)信息所屬地域的可能性越大。
本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)信息所屬地域識別方法中,通過獲取網(wǎng)絡(luò)信息中包含的地域集合;依據(jù)地域集合中每一地域在網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一地域相應(yīng)的權(quán)重,權(quán)重用于表征網(wǎng)絡(luò)信息所屬地域?yàn)橄鄳?yīng)地域的概率。依據(jù)每一地域相應(yīng)的權(quán)重,從地域名稱集中,確定網(wǎng)絡(luò)信息所屬地域。從而在推送網(wǎng)絡(luò)信息時(shí),依據(jù)網(wǎng)絡(luò)信息所屬地域進(jìn)行相應(yīng)推送。例如,對寶安區(qū)的用戶推送寶安區(qū)的網(wǎng)絡(luò)信息。
如圖2所示,為本發(fā)明實(shí)施例提供的一種網(wǎng)絡(luò)信息所屬地域識別方法中依據(jù)所述地域集合中每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一地域相應(yīng)的權(quán)重的一種實(shí)現(xiàn)方式的方法流程示意圖,該方法包括:
步驟s201:判斷所述地域集合中每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的位置。
步驟s202:當(dāng)所述地域集合中第一地域在所述網(wǎng)絡(luò)信息中的標(biāo)題位置時(shí),依據(jù)第一函數(shù)計(jì)算所述第一地域的權(quán)重。
所述第一函數(shù)以相應(yīng)地域在所述標(biāo)題中的位置為因變量,以權(quán)重為自變量的函數(shù),且所述第一函數(shù)的自變量和因變量為負(fù)相關(guān)。
第一函數(shù)的具體呈現(xiàn)公式有多種,本發(fā)明實(shí)施例提供但不限于以下公式:
第一函數(shù)的權(quán)重=第一數(shù)值1/位置,其中,第一數(shù)值可以為大于等于1的任意值,假設(shè)第一數(shù)值為2,則第一函數(shù)的權(quán)重=21/位置,仍以寶安區(qū)文化節(jié)為例,假設(shè)寶安區(qū)文化節(jié)為標(biāo)題,則寶安區(qū)的權(quán)重=21/1=2。再以“首屆福永黃油蟹美食文化節(jié)在寶安區(qū)舉行”為標(biāo)題為例,寶安區(qū)的權(quán)重=21/14。
步驟s203:當(dāng)所述地域集合中第二地域在所述網(wǎng)絡(luò)信息的正文中位置時(shí),依據(jù)第二函數(shù)計(jì)算所述第二地域的權(quán)重。
所述第二函數(shù)以相應(yīng)地域在所述正文中的位置為因變量,以權(quán)重為自變量的函數(shù),且所述第二函數(shù)的自變量和因變量為負(fù)相關(guān)。
第二函數(shù)的具體呈現(xiàn)公式有多種,本發(fā)明實(shí)施例提供但不限于以下公式:
第二函數(shù)的權(quán)重=第二數(shù)值1/位置其中,第二數(shù)值可以為大于等于1的任意值,優(yōu)選的,第二數(shù)值小于第一數(shù)值。假設(shè)第一數(shù)值為1.01,則第一函數(shù)的權(quán)重=1.011/位置,仍以寶安區(qū)文化節(jié)為例,假設(shè)寶安區(qū)文化節(jié)為正文,則寶安區(qū)的權(quán)重=1.011/1=1.01。再以“首屆福永黃油蟹美食文化節(jié)在寶安區(qū)舉行”為正文為例,寶安區(qū)的權(quán)重=1.011/14。
可以理解的是,若同一地域在網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)大于等于2次時(shí),該地域?yàn)榫W(wǎng)絡(luò)信息所屬地域的概率就更大,此時(shí)還包括:
步驟s204:當(dāng)所述地域集合中第三地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)大于等于兩次時(shí),將所述第三地域?qū)?yīng)的各權(quán)重相加。
步驟s205:將所述第三地域?qū)?yīng)的各權(quán)重相加之和,確定為所述第三地域的權(quán)重。
上述第一地域、第二地域、第三地域可能是同一地域,也可能是不同的地域。若為同一地域,則表明,同一地域在標(biāo)題和正文中都出現(xiàn)了。
可以理解的是,網(wǎng)絡(luò)信息中包含的地域可能沒有上下級關(guān)系,例如:北京和上海,但是有的地域是有上下級關(guān)系的,例如,廣東省、深圳市、寶安區(qū)。上述實(shí)施例中,預(yù)先存儲的各地域,可以通過樹狀結(jié)構(gòu)存儲的,即地域信息庫中以樹狀結(jié)構(gòu)存儲各地域的,通過該樹狀結(jié)構(gòu)可以找到地域集合中每一地域所在的分支。如圖3所示,為本發(fā)明實(shí)施例提供的地域樹狀結(jié)構(gòu)的部分示意圖。
圖3中,河北省、保定市、博野縣、許村為一個(gè)分支;廣東省、深圳市、寶安區(qū)為另一個(gè)分支??梢酝ㄟ^樹狀結(jié)構(gòu)判斷地域集合中各地域之間是否有上下級關(guān)系。這樣可以獲得更加細(xì)粒度的地域。例如許村相比河北省是更加細(xì)粒度的地域。假設(shè)地域集合中包括:河北省、保定市、博野縣、許村、廣東省、深圳市、寶安區(qū)、北京;則河北省、保定市、博野縣、許村對應(yīng)一細(xì)粒度地域;廣東省、深圳市、寶安區(qū)對應(yīng)一細(xì)粒度地域。北京對應(yīng)粗粒度地域。
如圖4所示,為本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)信息所屬地域識別方法中依據(jù)每一地域相應(yīng)的權(quán)重,從所述地域名稱集中,確定所述網(wǎng)絡(luò)信息所屬地域的一種實(shí)現(xiàn)方式的方法流程示意圖,該方法包括:
步驟s401:依據(jù)預(yù)先存儲的用于表征各地域所屬關(guān)系的上下級關(guān)系,判斷所述地域集合中各地域之間是否具有上下級關(guān)系。
由于有些地域是有歧義的,例如,對于朝陽這一地域而言,北京有朝陽區(qū),遼寧有朝陽市。假設(shè)地域集合中包括:遼寧省、朝陽,則可以依據(jù)預(yù)先存儲的各地域所屬關(guān)系的上下級關(guān)系,確定朝陽為遼寧省的朝陽市。因此,本發(fā)明實(shí)施例提供的步驟s401還可以有效的解決地域中有歧義的問題。
步驟s402:當(dāng)所述地域集合中至少兩個(gè)地域之間具有上下級關(guān)系時(shí),將所述至少兩個(gè)地域確定為一細(xì)粒度地域。
步驟s403:將所述至少兩個(gè)地域相應(yīng)的權(quán)重進(jìn)行預(yù)設(shè)計(jì)算,獲得所述細(xì)粒度地域相應(yīng)的權(quán)重。
預(yù)設(shè)計(jì)算可以為乘積、求平均值等等。
以廣東省、深圳市、寶安區(qū)為例,則寶安區(qū)的權(quán)重=廣東省的權(quán)重*深圳市權(quán)重*保安區(qū)的權(quán)重,或,寶安區(qū)的權(quán)重=(廣東省的權(quán)重+深圳市權(quán)重+保安區(qū)的權(quán)重)/3。
步驟s404:依據(jù)所述地域集合中每一細(xì)粒度地域相應(yīng)的權(quán)重,以及所述地域集合中與各地域都不具有上下級關(guān)系的粗粒度地域相應(yīng)的權(quán)重,從所述地域集合包含的細(xì)粒度地域和粗粒度地域中,確定所述網(wǎng)絡(luò)信息所屬地域。
可以理解的是,若地域集合中每一細(xì)粒度地域相應(yīng)的權(quán)重、每一粗粒度地域相應(yīng)的權(quán)重都比較小,則說明該網(wǎng)絡(luò)信息沒有明顯的地域?qū)傩?。所述從所述地域集合包含的?xì)粒度地域和粗粒度地域中,確定所述網(wǎng)絡(luò)信息所屬地域包括:
判斷所述地域集合包含的細(xì)粒度地域和粗粒度地域相應(yīng)的權(quán)重與第一預(yù)設(shè)閾值的大小關(guān)系;
當(dāng)大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為零個(gè)時(shí),確定所述網(wǎng)絡(luò)信息無所屬地域;
當(dāng)大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為至少一個(gè)時(shí),將最大權(quán)重對應(yīng)的目標(biāo)地域,確定為所述網(wǎng)絡(luò)信息所屬地域?qū)傩?,所述目?biāo)地域?yàn)榧?xì)粒度地域或粗粒度地域。
可以理解的是,若大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為至少一個(gè)時(shí),且大于等于所述第一預(yù)設(shè)閾值的權(quán)重相應(yīng)的各目標(biāo)地域相應(yīng)的權(quán)重中,任意兩個(gè)目標(biāo)地域相應(yīng)權(quán)重的差值都較小時(shí),說明網(wǎng)絡(luò)信息可能仍沒有明顯地域?qū)傩浴;蛘撸W(wǎng)絡(luò)信息所屬地域?yàn)槎鄠€(gè)目的地域。
所述當(dāng)大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為至少一個(gè)時(shí),將最大權(quán)重對應(yīng)的目標(biāo)地域,確定為所述網(wǎng)絡(luò)信息所屬地域?qū)傩园ǎ?/p>
當(dāng)大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為一個(gè)時(shí),將大于等于所述第一預(yù)設(shè)閾值的權(quán)重相應(yīng)的目標(biāo)地域,確定為所述網(wǎng)絡(luò)信息所屬地域?qū)傩裕?/p>
當(dāng)大于等于所述預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為至少兩個(gè)時(shí),計(jì)算大于等于所述預(yù)設(shè)閾值的權(quán)重相應(yīng)的至少兩個(gè)目標(biāo)地域中,每兩個(gè)目標(biāo)地域相應(yīng)權(quán)重的差值;
當(dāng)至少一個(gè)差值大于等于第二預(yù)設(shè)閾值時(shí),將最大權(quán)重對應(yīng)的目標(biāo)地域,確定為所述網(wǎng)絡(luò)信息所屬地域?qū)傩裕?/p>
當(dāng)所有差值均小于所述第二預(yù)設(shè)閾值時(shí),確定所述網(wǎng)絡(luò)信息無所屬地域。
上述第一預(yù)設(shè)值和第二預(yù)設(shè)值可以根據(jù)實(shí)際情況進(jìn)行設(shè)置。
如圖5所示,為采用本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)信息所屬地域識別方法識別各網(wǎng)絡(luò)信息所屬地域的示意圖。
圖5中,用虛線框框出的部分為每一網(wǎng)絡(luò)信息相應(yīng)的地域集合所包含的地域。
圖5中示出了采用本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)信息所屬地域識別方法識別地域新聞、招聘信息、尋人啟事、地域美食的例子。采用本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)信息所屬地域識別方法還可以識別其他網(wǎng)絡(luò)信息,例如天氣預(yù)報(bào)等等。
本發(fā)明實(shí)施例還提供了與網(wǎng)絡(luò)信息所屬地域識別方法,對應(yīng)的網(wǎng)絡(luò)信息所屬地域識別裝置,如圖6所示,為本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)信息所屬地域識別裝置的結(jié)構(gòu)示意圖,該網(wǎng)絡(luò)信息所屬地域識別裝置包括:
獲取模塊61,用于獲取網(wǎng)絡(luò)信息中包括的地域集合,所述地域集合包括至少一個(gè)地域;
第一確定模塊62,用于依據(jù)所述地域集合中每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一地域相應(yīng)的權(quán)重,權(quán)重用于表征所述網(wǎng)絡(luò)信息所屬地域?yàn)橄鄳?yīng)地域的概率;
第二確定模塊63,用于依據(jù)每一地域相應(yīng)的權(quán)重,從所述地域名稱集中,確定所述網(wǎng)絡(luò)信息所屬地域。
可選的,獲取模塊包括:
獲取詞匯單元,用于將所述網(wǎng)絡(luò)信息進(jìn)行劃分,獲得多個(gè)詞;
獲取目標(biāo)詞單元,用于從所述多個(gè)詞中,獲得與預(yù)先存儲的各地域相匹配的目標(biāo)詞;
組成單元,用于由所述目標(biāo)詞組成所述地域集合。
可選的,第一確定模塊包括:
第一判斷單元,用于判斷每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的位置;
第一計(jì)算單元,用于當(dāng)所述地域集合中第一地域在所述網(wǎng)絡(luò)信息中的標(biāo)題位置時(shí),依據(jù)第一函數(shù)計(jì)算所述第一地域的權(quán)重,所述第一函數(shù)以相應(yīng)地域在所述標(biāo)題中的位置為因變量,以權(quán)重為自變量的函數(shù),且所述第一函數(shù)的自變量和因變量為負(fù)相關(guān);
第二計(jì)算單元,用于當(dāng)所述地域集合中第二地域在所述網(wǎng)絡(luò)信息的正文中位置時(shí),依據(jù)第二函數(shù)計(jì)算所述第二地域的權(quán)重,所述第二函數(shù)以相應(yīng)地域在所述正文中的位置為因變量,以權(quán)重為自變量的函數(shù),且所述第二函數(shù)的自變量和因變量為負(fù)相關(guān)。
可選的,第一確定模塊還包括:
相加單元,用于當(dāng)所述地域集合中第三地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)大于等于兩次時(shí),將所述第三地域?qū)?yīng)的各權(quán)重相加;
確定權(quán)重單元,用于將所述第三地域?qū)?yīng)的各權(quán)重相加之和,確定為所述第三地域的權(quán)重。
可選的,第二確定模塊包括:
第二判斷單元,用于依據(jù)預(yù)先存儲的用于表征各地域所屬關(guān)系的上下級關(guān)系,判斷所述地域集合中各地域之間是否具有上下級關(guān)系;
第一確定單元,用于當(dāng)所述地域集合中至少兩個(gè)地域之間具有上下級關(guān)系時(shí),將所述至少兩個(gè)地域確定為一細(xì)粒度地域;
獲取單元,用于將所述至少兩個(gè)地域相應(yīng)的權(quán)重進(jìn)行預(yù)設(shè)計(jì)算,獲得所述細(xì)粒度地域相應(yīng)的權(quán)重;
第二確定單元,用于依據(jù)所述地域集合中每一細(xì)粒度地域相應(yīng)的權(quán)重,以及所述地域集合中與各地域都不具有上下級關(guān)系的粗粒度地域相應(yīng)的權(quán)重,從所述地域集合包含的細(xì)粒度地域和粗粒度地域中,確定所述網(wǎng)絡(luò)信息所屬地域。
可選的,第二確定單元包括:
判斷子單元,用于判斷所述地域集合包含的細(xì)粒度地域和粗粒度地域相應(yīng)的權(quán)重與第一預(yù)設(shè)閾值的大小關(guān)系;
第一確定子單元,用于當(dāng)大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為零個(gè)時(shí),確定所述網(wǎng)絡(luò)信息無所屬地域;
第二確定子單元,用于當(dāng)大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為至少一個(gè)時(shí),將最大權(quán)重對應(yīng)的目標(biāo)地域,確定為所述網(wǎng)絡(luò)信息所屬地域?qū)傩裕瞿繕?biāo)地域?yàn)榧?xì)粒度地域或粗粒度地域。
可選的,第二確定子單元包括:
第一確定子模塊,用于當(dāng)大于等于所述第一預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為一個(gè)時(shí),將大于等于所述第一預(yù)設(shè)閾值的權(quán)重相應(yīng)的目標(biāo)地域,確定為所述網(wǎng)絡(luò)信息所屬地域?qū)傩裕?/p>
計(jì)算子模塊,用于當(dāng)大于等于所述預(yù)設(shè)閾值的權(quán)重的個(gè)數(shù)為至少兩個(gè)時(shí),計(jì)算大于等于所述預(yù)設(shè)閾值的權(quán)重相應(yīng)的至少兩個(gè)目標(biāo)地域中,每兩個(gè)目標(biāo)地域相應(yīng)權(quán)重的差值;
第二確定子模塊,用于當(dāng)至少一個(gè)差值大于等于第二預(yù)設(shè)閾值時(shí),將最大權(quán)重對應(yīng)的目標(biāo)地域,確定為所述網(wǎng)絡(luò)信息所屬地域?qū)傩裕?/p>
第三確定子模塊,用于當(dāng)所有差值均小于所述第二預(yù)設(shè)閾值時(shí),確定所述網(wǎng)絡(luò)信息無所屬地域。
本發(fā)明實(shí)施例還提供了一種電子設(shè)備,如圖7所示,為本發(fā)明實(shí)施例提供的電子設(shè)備的結(jié)構(gòu)示意圖,該電子設(shè)備包括:處理器71,通信接口72,存儲器73和通信總線74;
其中處理器71、通信接口72、存儲器73通過通信總線74完成相互間的通信;
可選的,通信接口72可以為通信模塊的接口,如gsm模塊的接口;
處理器71,用于執(zhí)行程序;
存儲器73,用于存放程序和數(shù)據(jù);
程序可以包括程序代碼,所述程序代碼包括計(jì)算機(jī)操作指令;數(shù)據(jù)可以包括地域或地域之間的上下級關(guān)系。
處理器71可能是一個(gè)中央處理器cpu,或者是特定集成電路asic(applicationspecificintegratedcircuit),或者是被配置成實(shí)施本發(fā)明實(shí)施例的一個(gè)或多個(gè)集成電路。
存儲器73可能包含高速ram存儲器,也可能還包括非易失性存儲器(non-volatilememory),例如至少一個(gè)磁盤存儲器。
其中,程序可具體用于:
獲取網(wǎng)絡(luò)信息中包括的地域集合,所述地域集合包括至少一個(gè)地域;
依據(jù)所述地域集合中每一地域在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一地域相應(yīng)的權(quán)重,權(quán)重用于表征所述網(wǎng)絡(luò)信息所屬地域?yàn)橄鄳?yīng)地域的概率;
依據(jù)每一地域相應(yīng)的權(quán)重,從所述地域名稱集中,確定所述網(wǎng)絡(luò)信息所屬地域。
最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。
對所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本申請。對這些實(shí)施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本申請的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本申請將不會被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。