識別雜貨鋪的方法、裝置及搜索店鋪的方法、系統(tǒng)的制作方法
【專利摘要】本申請?zhí)峁┝艘环N識別雜貨鋪的方法及裝置,以實現(xiàn)準(zhǔn)確識別雜貨鋪的目的,避免因行業(yè)信息填寫不準(zhǔn)確或類目作弊導(dǎo)致的識別不準(zhǔn)確的問題。其中一種識別雜貨鋪的方法包括:獲取指定店鋪的產(chǎn)品信息,并從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞;統(tǒng)計所述指定店鋪的核心產(chǎn)品詞在所述指定店鋪的產(chǎn)品信息中出現(xiàn)的頻率,作為核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率;識別所述指定店鋪的核心產(chǎn)品詞所屬的行業(yè),并根據(jù)屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率,計算所述行業(yè)在所述指定店鋪中出現(xiàn)的頻率,作為行業(yè)頻率;根據(jù)所述行業(yè)頻率計算所述指定店鋪所屬的各個行業(yè)的產(chǎn)品占比,并依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪。
【專利說明】識別雜貨鋪的方法、裝置及搜索店鋪的方法、系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本申請涉及搜索技術(shù),特別是涉及一種識別雜貨鋪的方法、裝置及搜索店鋪的方法、系統(tǒng)。
【背景技術(shù)】
[0002]目前電子商務(wù)網(wǎng)站(簡稱電商網(wǎng)站)提供了便利的產(chǎn)品信息以及供應(yīng)商獲取途徑,但是這些電商網(wǎng)站提供的供應(yīng)商實力良莠不齊,用戶無法快速從海量的信息中找到有實力、專業(yè)性強(qiáng)的供應(yīng)商。而這類專業(yè)性強(qiáng)的供應(yīng)商往往經(jīng)營領(lǐng)域比較集中,專注于做某個特定領(lǐng)域的產(chǎn)品,而不是從事多個領(lǐng)域、每個領(lǐng)域做的都不夠?qū)I(yè)的雜貨鋪。因此,需要將這些從事多個領(lǐng)域、不夠?qū)I(yè)的雜貨鋪從大量的店鋪信息中識別出來,以提高搜索準(zhǔn)確率。
[0003]電子商務(wù)網(wǎng)站發(fā)布的產(chǎn)品信息中包含產(chǎn)品所屬的類目,現(xiàn)有的雜貨鋪識別方法是直接統(tǒng)計電子商務(wù)網(wǎng)站發(fā)布的類目信息,以類目代表行業(yè),根據(jù)每個行業(yè)的占比識別出雜貨鋪。
[0004]但是,如果發(fā)布的產(chǎn)品信息沒有填寫準(zhǔn)確的類目,或者進(jìn)行類目作弊,例如:在發(fā)布的時候?qū)⒌赇佒猩婕岸鄠€行業(yè)的產(chǎn)品類目全部設(shè)置為某個行業(yè),上述識別方法將不能準(zhǔn)確識別出雜貨鋪店鋪。
【發(fā)明內(nèi)容】
[0005]本申請?zhí)峁┝艘环N識別雜貨鋪的方法及裝置,以實現(xiàn)準(zhǔn)確識別雜貨鋪的目的,避免因行業(yè)信息填寫不準(zhǔn)確或類目作弊導(dǎo)致的識別不準(zhǔn)確的問題。
[0006]相應(yīng)的,本申請還提供了一種搜索店鋪的方法及系統(tǒng),在搜索的時候降低雜貨鋪的排序,從而提聞搜索準(zhǔn)確率。
[0007]為了解決上述問題,本申請公開了一種識別雜貨鋪的方法,包括:
[0008]獲取指定店鋪的產(chǎn)品信息,并從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞;
[0009]統(tǒng)計所述指定店鋪的核心產(chǎn)品詞在所述指定店鋪的產(chǎn)品信息中出現(xiàn)的頻率,作為核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率;
[0010]識別所述指定店鋪的核心產(chǎn)品詞所屬的行業(yè),并根據(jù)屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率,計算所述行業(yè)在所述指定店鋪中出現(xiàn)的頻率,作為行業(yè)頻率;
[0011]根據(jù)所述行業(yè)頻率計算所述指定店鋪所屬的各個行業(yè)的產(chǎn)品占比,并依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪。
[0012]可選地,所述從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞,包括:
[0013]從所述產(chǎn)品信息中提取出標(biāo)題,并對所述標(biāo)題進(jìn)行切詞,得到切詞結(jié)果;
[0014]將所述切詞結(jié)果與核心產(chǎn)品詞表進(jìn)行匹配,匹配到的核心產(chǎn)品詞作為所述指定店鋪的核心產(chǎn)品詞。
[0015]可選地,所述識別所述指定店鋪的核心產(chǎn)品詞所屬的行業(yè)包括:[0016]統(tǒng)計核心產(chǎn)品詞的行業(yè)點(diǎn)擊率;
[0017]將所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率與各行業(yè)的行業(yè)閾值進(jìn)行匹配,判斷所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率是否達(dá)到行業(yè)閾值;
[0018]若所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率達(dá)到行業(yè)閾值,則判定該核心產(chǎn)品詞屬于該行業(yè)。
[0019]可選地,所述根據(jù)屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率,計算所述行業(yè)在所述指定店鋪中出現(xiàn)的頻率,包括:
[0020]將所述屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率進(jìn)行加和,作為該行業(yè)在所述指定店鋪中出現(xiàn)的頻率。
[0021]可選地,所述根據(jù)所述行業(yè)頻率計算所述指定店鋪所屬的各個行業(yè)的產(chǎn)品占比包括:
[0022]將所述行業(yè)的行業(yè)頻率相加作為行業(yè)總頻率;
[0023]將所述行業(yè)的行業(yè)頻率與所述行業(yè)總頻率相除,相除的商作為該行業(yè)的產(chǎn)品占比。
[0024]可選地,所述依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪包括:
[0025]當(dāng)指定店鋪中有兩個行業(yè)的產(chǎn)品占比超過閾值時,判定該店鋪為雜貨鋪。
[0026]本申請還公開了一種搜索店鋪的方法,包括:
[0027]接收搜索關(guān)鍵詞;
[0028]查找與所述搜索關(guān)鍵詞相匹配的店鋪,得到候選店鋪;
[0029]將所述候選店鋪中識別為雜貨鋪的候選店鋪排在未識別為雜貨鋪的候選店鋪之后并輸出;
[0030]所述雜貨鋪通過以下步驟識別:
[0031]將所述候選店鋪作為指定店鋪,獲取指定店鋪的產(chǎn)品信息,并從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞;
[0032]統(tǒng)計所述指定店鋪的核心產(chǎn)品詞在所述指定店鋪的產(chǎn)品信息中出現(xiàn)的頻率,作為核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率;
[0033]識別所述指定店鋪的核心產(chǎn)品詞所屬的行業(yè),并根據(jù)屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率,計算所述行業(yè)在所述指定店鋪中出現(xiàn)的頻率,作為行業(yè)頻率;
[0034]根據(jù)所述行業(yè)頻率計算所述指定店鋪所屬的各個行業(yè)的產(chǎn)品占比,并依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪。
[0035]本申請還公開了一種識別雜貨鋪的裝置,包括:
[0036]提取模塊,用于獲取指定店鋪的產(chǎn)品信息,并從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞;
[0037]產(chǎn)品詞頻率計算模塊,用于統(tǒng)計所述指定店鋪的核心產(chǎn)品詞在所述指定店鋪的產(chǎn)品信息中出現(xiàn)的頻率,作為核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率;
[0038]行業(yè)頻率計算模塊,用于識別所述指定店鋪的核心產(chǎn)品詞所屬的行業(yè),并根據(jù)屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率,計算所述行業(yè)在所述指定店鋪中出現(xiàn)的頻率,作為行業(yè)頻率;
[0039]判定模塊,用于根據(jù)所述行業(yè)頻率計算所述指定店鋪所屬的各個行業(yè)的產(chǎn)品占t匕,并依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪。
[0040]可選地,所述提取模塊包括:
[0041]提取子模塊,用于從所述產(chǎn)品信息中提取出標(biāo)題,并對所述標(biāo)題進(jìn)行切詞,得到切詞結(jié)果;
[0042]匹配子模塊,用于將所述切詞結(jié)果與核心產(chǎn)品詞表進(jìn)行匹配,匹配到的核心產(chǎn)品詞作為所述指定店鋪的核心產(chǎn)品詞。
[0043]可選地,所述行業(yè)頻率計算模塊包括:
[0044]行業(yè)識別子模塊,用于統(tǒng)計核心產(chǎn)品詞的行業(yè)點(diǎn)擊率,并將所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率與各行業(yè)的行業(yè)閾值進(jìn)行匹配,判斷所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率是否達(dá)到行業(yè)閾值;若所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率達(dá)到行業(yè)閾值,則判定該核心產(chǎn)品詞屬于該行業(yè);
[0045]計算子模塊,用于將所述屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率進(jìn)行加和,作為該彳丁業(yè)在所述指定店鋪中出現(xiàn)的頻率。
[0046]可選地,所述判定模塊包括:
[0047]產(chǎn)品占比計算子模塊,用于將每個行業(yè)的行業(yè)頻率相加作為行業(yè)總頻率,并將每個行業(yè)的行業(yè)頻率與所述行業(yè)總頻率相除,相除的商作為該行業(yè)的產(chǎn)品占比;
[0048]判定子模塊,用于當(dāng)指定店鋪中有兩個行業(yè)的產(chǎn)品占比超過閾值時,判定該店鋪為雜貨鋪。
[0049]本申請還公開了一種搜索店鋪的系統(tǒng),包括:
[0050]接收模塊,用于接收搜索關(guān)鍵詞;
[0051]查找模塊,用于查找與所述搜索關(guān)鍵詞相匹配的店鋪,得到候選店鋪;
[0052]排序模塊,用于將所述候選店鋪中識別為雜貨鋪的候選店鋪排在未識別為雜貨鋪的候選店鋪之后并輸出;
[0053]所述雜貨鋪通過以下模塊識別:
[0054]提取模塊,用于將所述候選店鋪作為指定店鋪,獲取指定店鋪的產(chǎn)品信息,并從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞;
[0055]產(chǎn)品詞頻率計算模塊,用于統(tǒng)計所述指定店鋪的核心產(chǎn)品詞在所述指定店鋪的產(chǎn)品信息中出現(xiàn)的頻率,作為核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率;
[0056]行業(yè)頻率計算模塊,用于識別所述指定店鋪的核心產(chǎn)品詞所屬的行業(yè),并根據(jù)屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率,計算所述行業(yè)在所述指定店鋪中出現(xiàn)的頻率,作為行業(yè)頻率;
[0057]判定模塊,用于根據(jù)所述行業(yè)頻率計算所述指定店鋪所屬的各個行業(yè)的產(chǎn)品占t匕,并依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪。
[0058]與現(xiàn)有技術(shù)相比,本申請包括以下優(yōu)點(diǎn):
[0059]本申請實施例提供的識別雜貨鋪的方法,首先從指定店鋪的產(chǎn)品信息中提取出核心產(chǎn)品詞,其次,統(tǒng)計核心產(chǎn)品詞在指定店鋪中的產(chǎn)品詞頻率,并基于用戶的搜索點(diǎn)擊行為挖掘出核心產(chǎn)品詞對應(yīng)的行業(yè);最后,根據(jù)行業(yè)頻率計算指定店鋪所屬的各個行業(yè)的產(chǎn)品占比,并依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪。由于本申請實施例是根據(jù)從產(chǎn)品信息中提取到的核心產(chǎn)品詞識別出產(chǎn)品分布,再根據(jù)產(chǎn)品分布識別出所屬的行業(yè),而不是直接使用用戶填寫的行業(yè)信息,因此可以避免賣家行業(yè)分布信息填寫不準(zhǔn)確或類目作弊導(dǎo)致的雜貨鋪識別不準(zhǔn)確的問題,提高了識別雜貨鋪的準(zhǔn)確率。
[0060]本申請實施例提供的搜索店鋪的方法,可以在搜索的時候?qū)⑦@些從事多個領(lǐng)域,不夠?qū)I(yè)的雜貨鋪從大量的店鋪中識別出來,并降低其排序,從而提高搜索的準(zhǔn)確率。
[0061]當(dāng)然,實施本申請的任一產(chǎn)品不一定需要同時達(dá)到以上所述的所有優(yōu)點(diǎn)。
【專利附圖】
【附圖說明】
[0062]圖1是本申請實施例所述一種識別雜貨鋪的方法的流程圖;
[0063]圖2是本申請實施例所述指定店鋪的產(chǎn)品信息示意圖;
[0064]圖3是本申請實施例所述指定店鋪的一條產(chǎn)品信息示意圖;
[0065]圖4是本申請實施例所述一種識別雜貨鋪的裝置的結(jié)構(gòu)框圖;
[0066]圖5是本申請實施例所述一種搜索店鋪的方法的流程圖;
[0067]圖6是本申請實施例所述一種搜索店鋪的系統(tǒng)的結(jié)構(gòu)框圖。
【具體實施方式】
[0068]為使本申請的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實施方式】對本申請作進(jìn)一步詳細(xì)的說明。
[0069]雜貨鋪是指從事多個領(lǐng)域,每個領(lǐng)域做的都不夠?qū)I(yè)的店鋪。本申請就是將這些從事多個領(lǐng)域,不夠?qū)I(yè)的雜貨鋪從大量的店鋪中識別出來。
[0070]本申請是從賣家發(fā)布的產(chǎn)品信息的標(biāo)題或其他商品描述信息中挖掘出核心產(chǎn)品詞,并且基于用戶的搜索點(diǎn)擊行為挖掘出核心產(chǎn)品詞對應(yīng)的行業(yè),最后統(tǒng)計行業(yè)的分布,根據(jù)行業(yè)分布識別出雜貨鋪。下面通過實施例進(jìn)行詳細(xì)說明。
[0071]參照圖1,其示出了本申請實施例所述一種識別雜貨鋪的方法的流程圖,本實施例具體可以包括以下步驟:
[0072]步驟100,獲取指定店鋪的產(chǎn)品信息,并從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞;
[0073]指定店鋪是指本次要識別的某個店鋪,沒有特別指定,可以理解為是泛指某個待識別的店鋪。
[0074]如圖2所示是一家指定店鋪的產(chǎn)品信息示意圖,店鋪的每條產(chǎn)品信息通常包含標(biāo)題、屬性、類目、價格、圖片、詳情頁面的描述信息等幾個部分,產(chǎn)品信息是由店鋪的賣家自行填寫的。
[0075]下面以圖3所示的該指定店鋪的一條產(chǎn)品信息為例進(jìn)行說明。在圖3所示的產(chǎn)品信息中,“新中長款大碼毛衣女裝寬松休閑蝙蝠”是標(biāo)題,Y25是價格。行業(yè)信息沒有展現(xiàn)出來,是用戶從類目體系中選擇的,例如圖3的產(chǎn)品信息用戶會指定到“毛衣”類目,屬于“女裝”行業(yè)。類目是一整個體系:例如“服裝”下面有“女裝”、“男裝”、“童裝”等類目,而“女裝”類目下面又有“連衣裙”、“毛衣”、“牛仔褲”、“T恤”、“羽絨服”、“皮衣”等類目。
[0076]本實施例中可以采用以下方式從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞:
[0077]首先,從所述產(chǎn)品信息中提取出標(biāo)題,并對所述標(biāo)題進(jìn)行切詞,得到切詞結(jié)果;[0078]所謂切詞,是指將一個漢字序列切分成一個一個單獨(dú)的詞。例如,從圖3所示的產(chǎn)品信息中提取出標(biāo)題“新中長款大碼毛衣女裝寬松休閑蝙蝠然后對標(biāo)題進(jìn)行切詞,結(jié)果為“新中長款、大碼、毛衣、女裝、寬松、休閑、蝙蝠”。
[0079]其次,將所述切詞結(jié)果與核心產(chǎn)品詞表進(jìn)行匹配,匹配到的核心產(chǎn)品詞作為所述指定店鋪的核心產(chǎn)品詞。
[0080]核心產(chǎn)品詞表記錄了能夠標(biāo)識產(chǎn)品的詞,可以通過訓(xùn)練模型獲得,也可以通過經(jīng)驗人工標(biāo)注。例如,“連衣裙”、“起重機(jī)”、“玩具”等能夠標(biāo)識產(chǎn)品的詞都位于核心產(chǎn)品詞表中,而“女式連衣裙”中的“女式”為產(chǎn)品修飾詞,并不在核心產(chǎn)品詞表中。
[0081]將上述切詞結(jié)果中的詞與核心產(chǎn)品詞表進(jìn)行匹配,在核心產(chǎn)品詞表中出現(xiàn)的詞作為核心產(chǎn)品詞。例如,上述切詞結(jié)果中出現(xiàn)在核心產(chǎn)品詞表中的詞為“毛衣”,即圖3所示的產(chǎn)品信息中,核心產(chǎn)品詞為“毛衣”。
[0082]同理,可以從圖2所示的指定店鋪的產(chǎn)品信息中,取到核心產(chǎn)品詞“毛衣”、“針織衫”、“蝙蝠衫”、“收納盒”、“掛袋”。
[0083]需要說明的是,本申請也可以采用其他的核心產(chǎn)品詞提取方式,本申請的保護(hù)范圍不應(yīng)限定于上述實施例。
[0084]步驟102,統(tǒng)計所述指定店鋪的核心產(chǎn)品詞在所述指定店鋪的產(chǎn)品信息中出現(xiàn)的頻率,作為核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率;
[0085]例如,在圖2所示的指定店鋪中,核心產(chǎn)品詞“毛衣”出現(xiàn)了 4次,所以該核心產(chǎn)品詞“毛衣”對應(yīng)的產(chǎn)品詞頻率為4。同理,核心產(chǎn)品詞“針織衫”對應(yīng)的產(chǎn)品詞頻率為3,核心產(chǎn)品詞“蝙蝠衫”對應(yīng)的產(chǎn)品詞頻率為1,核心產(chǎn)品詞“收納盒”對應(yīng)的產(chǎn)品詞頻率為3,核心產(chǎn)品詞“掛袋”對應(yīng)的產(chǎn)品詞頻率為I。如表1所示:
[0086]
【權(quán)利要求】
1.一種識別雜貨鋪的方法,其特征在于,包括: 獲取指定店鋪的產(chǎn)品信息,并從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞;統(tǒng)計所述指定店鋪的核心產(chǎn)品詞在所述指定店鋪的產(chǎn)品信息中出現(xiàn)的頻率,作為核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率; 識別所述指定店鋪的核心產(chǎn)品詞所屬的行業(yè),并根據(jù)屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率,計算所述行業(yè)在所述指定店鋪中出現(xiàn)的頻率,作為行業(yè)頻率; 根據(jù)所述行業(yè)頻率計算所述指定店鋪所屬的各個行業(yè)的產(chǎn)品占比,并依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞,包括: 從所述產(chǎn)品信息中提取出標(biāo)題,并對所述標(biāo)題進(jìn)行切詞,得到切詞結(jié)果; 將所述切詞結(jié)果與核心產(chǎn)品詞表進(jìn)行匹配,匹配到的核心產(chǎn)品詞作為所述指定店鋪的核心產(chǎn)品詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述識別所述指定店鋪的核心產(chǎn)品詞所屬的行業(yè)包括: 統(tǒng)計核心產(chǎn)品詞的行業(yè)點(diǎn)擊率; 將所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率與各行業(yè)的行業(yè)閾值進(jìn)行匹配,判斷所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率是否達(dá)到行業(yè)閾值; 若所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率達(dá)到行業(yè)閾值,則判定該核心產(chǎn)品詞屬于該行業(yè)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率,計算所述行業(yè)在所述指定店鋪中出現(xiàn)的頻率,包括: 將所述屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率進(jìn)行加和,作為該行業(yè)在所述指定店鋪中出現(xiàn)的頻率。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述行業(yè)頻率計算所述指定店鋪所屬的各個行業(yè)的產(chǎn)品占比包括: 將所述行業(yè)的行業(yè)頻率相加作為行業(yè)總頻率; 將所述行業(yè)的行業(yè)頻率與所述行業(yè)總頻率相除,相除的商作為該行業(yè)的產(chǎn)品占比。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪包括: 當(dāng)指定店鋪中有兩個行業(yè)的產(chǎn)品占比超過閾值時,判定該店鋪為雜貨鋪。
7.一種搜索店鋪的方法,其特征在于,包括: 接收搜索關(guān)鍵詞; 查找與所述搜索關(guān)鍵詞相匹配的店鋪,得到候選店鋪; 將所述候選店鋪中識別為雜貨鋪的候選店鋪排在未識別為雜貨鋪的候選店鋪之后并輸出; 所述雜貨鋪通過以下步驟識別: 將所述候選店鋪作為指定店鋪,獲取指定店鋪的產(chǎn)品信息,并從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞; 統(tǒng)計所述指定店鋪的核心產(chǎn)品詞在所述指定店鋪的產(chǎn)品信息中出現(xiàn)的頻率,作為核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率; 識別所述指定店鋪的核心產(chǎn)品詞所屬的行業(yè),并根據(jù)屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率,計算所述行業(yè)在所述指定店鋪中出現(xiàn)的頻率,作為行業(yè)頻率; 根據(jù)所述行業(yè)頻率計算所述指定店鋪所屬的各個行業(yè)的產(chǎn)品占比,并依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪。
8.一種識別雜貨鋪的裝置,其特征在于,包括: 提取模塊,用于獲取指定店鋪的產(chǎn)品信息,并從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞; 產(chǎn)品詞頻率計算模塊,用于統(tǒng)計所述指定店鋪的核心產(chǎn)品詞在所述指定店鋪的產(chǎn)品信息中出現(xiàn)的頻率,作為核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率; 行業(yè)頻率計算模塊,用于識別所述指定店鋪的核心產(chǎn)品詞所屬的行業(yè),并根據(jù)屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率,計算所述行業(yè)在所述指定店鋪中出現(xiàn)的頻率,作為行業(yè)頻率; 判定模塊,用于根據(jù)所述行業(yè)頻率計算所述指定店鋪所屬的各個行業(yè)的產(chǎn)品占比,并依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述提取模塊包括: 提取子模塊,用于從所述產(chǎn)品信息中提取出標(biāo)題,并對所述標(biāo)題進(jìn)行切詞,得到切詞結(jié)果; 匹配子模塊,用于將所述切詞結(jié)果與核心產(chǎn)品詞表進(jìn)行匹配,匹配到的核心產(chǎn)品詞作為所述指定店鋪的核心產(chǎn)品詞。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述行業(yè)頻率計算模塊包括: 行業(yè)識別子模塊,用于統(tǒng)計核心產(chǎn)品詞的行業(yè)點(diǎn)擊率,并將所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率與各行業(yè)的行業(yè)閾值進(jìn)行匹配,判斷所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率是否達(dá)到行業(yè)閾值;若所述核心產(chǎn)品詞的行業(yè)點(diǎn)擊率達(dá)到行業(yè)閾值,則判定該核心產(chǎn)品詞屬于該行業(yè); 計算子模塊,用于將所述屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率進(jìn)行加和,作為該打業(yè)在所述指定店鋪中出現(xiàn)的頻率。
11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述判定模塊包括: 產(chǎn)品占比計算子模塊,用于將每個行業(yè)的行業(yè)頻率相加作為行業(yè)總頻率,并將每個行業(yè)的行業(yè)頻率與所述行業(yè)總頻率相除,相除的商作為該行業(yè)的產(chǎn)品占比; 判定子模塊,用于當(dāng)指定店鋪中有兩個行業(yè)的產(chǎn)品占比超過閾值時,判定該店鋪為雜貨鋪。
12.一種搜索店鋪的系統(tǒng),其特征在于,包括: 接收模塊,用于接收搜索關(guān)鍵詞; 查找模塊,用于查找與所述搜索關(guān)鍵詞相匹配的店鋪,得到候選店鋪; 排序模塊,用于將所述候選店鋪中識別為雜貨鋪的候選店鋪排在未識別為雜貨鋪的候選店鋪之后并輸出; 所述雜貨鋪通過以下模塊識別: 提取模塊,用于將所述候選店鋪作為指定店鋪,獲取指定店鋪的產(chǎn)品信息,并從所述產(chǎn)品信息中提取出所述指定店鋪的核心產(chǎn)品詞;產(chǎn)品詞頻率計算模塊,用于統(tǒng)計所述指定店鋪的核心產(chǎn)品詞在所述指定店鋪的產(chǎn)品信息中出現(xiàn)的頻率,作為核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率; 行業(yè)頻率計算模塊,用于識別所述指定店鋪的核心產(chǎn)品詞所屬的行業(yè),并根據(jù)屬于同一行業(yè)的核心產(chǎn)品詞對應(yīng)的產(chǎn)品詞頻率,計算所述行業(yè)在所述指定店鋪中出現(xiàn)的頻率,作為行業(yè)頻率; 判定模塊,用于根據(jù)所述行業(yè)頻率計算所述指定店鋪所屬的各個行業(yè)的產(chǎn)品占比,并依據(jù)各個行業(yè)的產(chǎn)品占比判定所述指定店鋪是否為雜貨鋪。
【文檔編號】G06Q30/00GK103942693SQ201310019559
【公開日】2014年7月23日 申請日期:2013年1月18日 優(yōu)先權(quán)日:2013年1月18日
【發(fā)明者】宋超, 馮景華, 張一楠, 陳超 申請人:阿里巴巴集團(tuán)控股有限公司