亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于poi數(shù)據(jù)的連鎖品牌采集方法及裝置的制造方法

文檔序號:9375776閱讀:814來源:國知局
基于poi數(shù)據(jù)的連鎖品牌采集方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術領域,特別涉及一種基于POI數(shù)據(jù)的連鎖品牌采集方法及
目.0
【背景技術】
[0002]POI是“Point of Interest”的縮寫,中文可以翻譯為“興趣點”,一個POI可以是一棟房子、一個商鋪、一個郵筒、一個公交站等。
[0003]連鎖品牌是非常有價值的數(shù)據(jù),應用比較廣泛。比如商業(yè)上做定向推廣需要用到這個數(shù)據(jù),又比如在地圖POI數(shù)據(jù)處理中也需要用到這個數(shù)據(jù),現(xiàn)有技術中,通常會通過人工標注樣本,再根據(jù)標注后的樣本采用訓練器來采集連鎖品牌,但該方式非常繁瑣,采集效率較低。

【發(fā)明內(nèi)容】

[0004]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種基于POI數(shù)據(jù)的連鎖品牌采集方法及裝置。
[0005]依據(jù)本發(fā)明的一個方面,提供了一種基于POI數(shù)據(jù)的連鎖品牌采集方法,所述方法包括:
[0006]獲取若干POI數(shù)據(jù),從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù);
[0007]將各二元組數(shù)據(jù)中的名稱按照預設規(guī)則進行分割,并根據(jù)分割結果對所述二元組數(shù)據(jù)進行聚類,以獲得各類二元組數(shù)據(jù);
[0008]獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量;
[0009]在所述數(shù)量超過預設閾值時,將該類二元組數(shù)據(jù)的分割結果作為連鎖品牌。
[0010]可選地,所述將各二元組數(shù)據(jù)中的名稱按照預設規(guī)則進行分割,進一步包括:
[0011]將各二元組數(shù)據(jù)中的名稱按照預設符號進行分割,并將所述預設符號前的部分作為分割結果。
[0012]可選地,所述根據(jù)分割結果對所述二元組數(shù)據(jù)進行聚類,以獲得各類二元組數(shù)據(jù),進一步包括:
[0013]將具有相同分割結果的二元組數(shù)據(jù)聚為一類,以獲得各類二元組數(shù)據(jù)。
[0014]可選地,所述獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量,進一步包括:
[0015]遍歷各類二元組數(shù)據(jù),并將遍歷到的當前類二元組數(shù)據(jù)按照地址進行去重處理,并統(tǒng)計去重處理后的當前類二元組數(shù)據(jù)的數(shù)量。
[0016]可選地,所述將遍歷到的當前類二元組數(shù)據(jù)中的地址進行去重處理之前,所述方法還包括:
[0017]將遍歷到的當前類二元組數(shù)據(jù)中的地址進行格式統(tǒng)一處理。
[0018]依據(jù)本發(fā)明的另一個方面,提供了一種基于POI數(shù)據(jù)的連鎖品牌采集裝置,所述裝置包括:
[0019]數(shù)據(jù)提取器,適于獲取若干POI數(shù)據(jù),從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù);
[0020]分割聚類器,適于將各二元組數(shù)據(jù)中的名稱按照預設規(guī)則進行分割,并根據(jù)分割結果對所述二元組數(shù)據(jù)進行聚類,以獲得各類二元組數(shù)據(jù);
[0021]數(shù)量獲取器,適于獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量;
[0022]品牌獲取器,適于在所述數(shù)量超過預設閾值時,將該類二元組數(shù)據(jù)的分割結果作為連鎖品牌。
[0023]可選地,所述分割聚類器,進一步適于將各二元組數(shù)據(jù)中的名稱按照預設符號進行分割,并將所述預設符號前的部分作為分割結果。
[0024]可選地,所述分割聚類器,進一步適于將具有相同分割結果的二元組數(shù)據(jù)聚為一類,以獲得各類二元組數(shù)據(jù)。
[0025]可選地,所述數(shù)量獲取器,進一步適于遍歷各類二元組數(shù)據(jù),并將遍歷到的當前類二元組數(shù)據(jù)按照地址進行去重處理,并統(tǒng)計去重處理后的當前類二元組數(shù)據(jù)的數(shù)量。
[0026]可選地,所述數(shù)量獲取器,還適于將遍歷到的當前類二元組數(shù)據(jù)中的地址進行格式統(tǒng)一處理。
[0027]本發(fā)明通過從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù),將各二元組數(shù)據(jù)中的名稱按照預設規(guī)則進行分割,并根據(jù)分割結果對所述二元組數(shù)據(jù)進行聚類,以獲得各類二元組數(shù)據(jù),獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量,在所述數(shù)量超過預設閾值時,將該類二元組數(shù)據(jù)的分割結果作為連鎖品牌,采集連鎖品牌的方式非常簡便,大幅提高了采集效率,并且準確率和召回率均較高。
【附圖說明】
[0028]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0029]圖1是本發(fā)明一種實施方式的基于POI數(shù)據(jù)的連鎖品牌采集方法的流程圖;
[0030]圖2是本發(fā)明一種實施方式的基于POI數(shù)據(jù)的連鎖品牌采集方法的流程圖;
[0031]圖3是本發(fā)明一種實施方式的基于POI數(shù)據(jù)的連鎖品牌采集裝置的結構框圖。
【具體實施方式】
[0032]下面結合附圖和實施方式,對本發(fā)明的【具體實施方式】作進一步詳細描述。以下實施方式用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
[0033]圖1是本發(fā)明一種實施方式的基于POI數(shù)據(jù)的連鎖品牌采集方法的流程圖;參照圖1,所述方法包括:
[0034]SlOl:獲取若干POI數(shù)據(jù),從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù);
[0035]需要說明的是,POI數(shù)據(jù)一般包含名稱、類別、地址、經(jīng)度、瑋度、附近的酒店飯店商鋪等信息,故而,在各POI數(shù)據(jù)中均包括有一個二元組數(shù)據(jù)。
[0036]S102:將各二元組數(shù)據(jù)中的名稱按照預設規(guī)則進行分割,并根據(jù)分割結果對所述二元組數(shù)據(jù)進行聚類,以獲得各類二元組數(shù)據(jù);
[0037]可理解的是,二元組數(shù)據(jù)中存在很多未設置分店的店鋪,當然,也存在大量的關于某一品牌名的多家分店,這些分店的名稱通常采用“品牌名(XXX店)”或“品牌名-XXX店”等形式,比如“慶豐包子鋪(昌平沙河店)”、“慶豐包子鋪-昌平高教園店”等,其中“慶豐包子鋪”則是品牌名。
[0038]為獲取各二元組數(shù)據(jù)中的品牌名,需要將各二元組數(shù)據(jù)中的名稱按照預設規(guī)則進行分割,在具體實現(xiàn)中,可采用多種方式來進行分割,為提高分割效率,本實施方式中將各二元組數(shù)據(jù)中的名稱按照預設符號進行分割,并將所述預設符號前的部分作為分割結果(即品牌名);
[0039]也就是說,根據(jù)分店的名稱所采用的形式確定預設符號,例如,為了針對“品牌名(XXX店)”這種分店形式,可將符號“(”添加至所述預設符號中,或者,為了針對“品牌名-XXX店”這種分店形式,也可將符號添加至所述預設符號中。
[0040]當然,還可采用其他方式來進行分割,本實施方式對此不加以限制。
[0041]需要說明的是,根據(jù)分割結果可采用多種方式對所述二元組數(shù)據(jù)進行聚類,例如:可根據(jù)分割結果的相似程度來進行聚類,即計算分割結果之間的相似度,當相似度超過一定閾值時,將其聚為一類,但考慮到本身會存在一些相似的品牌名,為提高聚類的精確度,本實施方式中,將具有相同分割結果的二元組數(shù)據(jù)聚為一類,以獲得各類二元組數(shù)據(jù),當然,還可采用其他方式對所述二元組數(shù)據(jù)進行聚類,本實施方式對此不加以限制。
[0042]S103:獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量;
[0043]在具體實現(xiàn)中,由于一類二元組數(shù)據(jù)中可能具有存在相同地址的不同二元組數(shù)據(jù),該情況通常是這些相同地址的不同二元組數(shù)據(jù)均表征同一家分店,但分店是需要達到一定數(shù)量才能稱其為連鎖品牌的,若僅以各類二元組數(shù)據(jù)的數(shù)量來確定連鎖品牌,則必然出現(xiàn)錯誤,故而,本步驟中需要獲取各類二元組數(shù)據(jù)中不同地址的數(shù)據(jù)。
[0044]下面以一個具體的例子來說明本步驟,但不限定本發(fā)明的保護范圍。
[0045]假設一類二元組數(shù)據(jù)中包括九個二元組數(shù)據(jù),且地址分別為:A、A’、A”、B、B’、C、C’、C”和C”’,但地址A、A’和A”相同,B和B’相同,C、C’、C”和C”’相同,則可獲取該類二元組數(shù)據(jù)中不同地址的數(shù)量為3。
[0046]S104:在所述數(shù)量超過預設閾值時,將該類二元組數(shù)據(jù)的分割結果作為連鎖品牌。
[0047]在具體實現(xiàn)中,所述預設閾值可根據(jù)需要進行調(diào)整,通常設置為3或大于3的數(shù)值。
[0048]本實施方式通過從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù),將各二元組數(shù)據(jù)中的名稱按照預設規(guī)則進行分割,并根據(jù)分割結果對所述二元組數(shù)據(jù)進行聚類,以獲得各類二元組數(shù)據(jù),獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量,在所述數(shù)量超過預設閾值時,將該類二元組數(shù)據(jù)的分割結果作為連鎖品牌,采集連鎖品牌的方式非常簡便,大幅提高了采集效率,并且準確率和召回率均較高。
[0049]圖2是本發(fā)明一種實施方式的基于POI數(shù)據(jù)的連鎖品牌采集方法的流程圖;參照圖2,所述方法包括:
[0050]S201:獲取若干POI數(shù)據(jù),從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù);
[0051]S202:將各二元組數(shù)據(jù)中的名稱按照預設規(guī)則進行分割,并根據(jù)分割結果對所述二元組數(shù)據(jù)進行聚類,以獲得各類二元組數(shù)據(jù);
[0052]需要說明的是,步驟S201?S202與圖1所示的實施方式的步驟SlOl?S102相同,在此不再贅述。
[0053]S203:遍歷各類二元組數(shù)據(jù),并
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1