亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種適用于電子商務(wù)中文網(wǎng)站商品標(biāo)簽化的方法_2

文檔序號:9564702閱讀:來源:國知局
>[0037] 本發(fā)明具體包括分詞詞庫構(gòu)建的方法、標(biāo)簽采集的方法及標(biāo)簽標(biāo)示商品的方法; 分詞詞庫構(gòu)建的方法用于對電子商務(wù)中文網(wǎng)站內(nèi)的商品名稱做分詞處理;標(biāo)簽采集的方法 用于根據(jù)商品名稱為電子商務(wù)中文網(wǎng)站內(nèi)的所有商品尋找與它相應(yīng)的標(biāo)簽;標(biāo)簽標(biāo)示商品 的方法用于為電子商務(wù)中文網(wǎng)站內(nèi)所有商品尋找與它存有相關(guān)關(guān)系的標(biāo)簽。所述商品名稱 是電子商務(wù)中文網(wǎng)站的商家用戶對自己商品所做的簡短文字描述。
[0038] 以中國制造網(wǎng)中文站為例,一種適用于電子商務(wù)中文網(wǎng)站商品標(biāo)簽化的方法,包 括分詞詞庫的構(gòu)建方法、標(biāo)簽采集的方法及標(biāo)簽標(biāo)示商品的方法,參閱圖1所示;
[0039] 所謂分詞詞庫的構(gòu)建方法,指基于對電子商務(wù)中文網(wǎng)站內(nèi)各商品關(guān)鍵詞在不同商 品描述中的頻次統(tǒng)計,保留頻次大于3的關(guān)鍵詞,并從中篩選出關(guān)鍵詞字?jǐn)?shù)小于等于5的關(guān) 鍵詞作為詞庫數(shù)據(jù),當(dāng)長度比較長的關(guān)鍵詞包含多個短的關(guān)鍵詞的時,這些長的詞將不會 入庫,比如:"電動自行車",這個詞包含"電動"和"自行車"兩個短詞,那么"電動自行車"這 個詞不會登錄到分詞詞庫中。
[0040] 特別地,考慮到電子商務(wù)中文網(wǎng)站內(nèi)商品關(guān)鍵詞通常由商品賣家添加,因而從這 些關(guān)鍵詞中選取簡短精煉且高頻出現(xiàn)的詞列入分詞詞庫中,能最大程度保證分詞的準(zhǔn)確 性;
[0041] 現(xiàn)有如下15件商品和商家為其添加的商品關(guān)鍵詞:
[0043] 經(jīng)過統(tǒng)計,選擇頻數(shù)大于等于3的商品關(guān)鍵詞進入分詞詞庫,如下表所示:

[0046] 所謂標(biāo)簽采集方法,指基于已構(gòu)建的詞庫,通過逆向最大匹配分詞算法對電子商 務(wù)中文網(wǎng)站內(nèi)所有商品名稱進行分詞處理;按照漢語語法特點,選取商品名稱經(jīng)分詞處理 后形成的最后一個詞作為該商品的商品標(biāo)簽;最終,所有商品標(biāo)簽組成標(biāo)簽數(shù)據(jù)集合;
[0047] 按照上述的實例,15件商品商品經(jīng)分詞后的結(jié)果和形成的商品標(biāo)簽如下:
[0049] 所謂基于詞庫的逆向最大匹配分詞算法,指對需要分詞的語句從后往前反復(fù)掃 描,每次掃描的短語最大長度是詞庫中長度最大的詞的長度,當(dāng)掃描的短語在詞庫中,則掃 描到的位置就作為切分點,下次掃描從這個切分點開始往前繼續(xù)掃描;如果掃描長度從最 大到最小還沒有找到在詞庫中,則掃描位置向前移動一位,這個位置作為新的切分點,然后 繼續(xù)掃描。下面是具體例子:
[0050] 以商品名稱"力超全自動薄膜開關(guān)絲印機"為例,現(xiàn)基于我們已經(jīng)構(gòu)建的詞庫進行 分詞:
[0051] 步驟一:確認(rèn)詞庫中長度最大的詞是"絲印機"或者"全自動"等長度是3的詞,所 以掃描的長度從最大是3開始遞減,最小掃描長度為2 ;
[0052] 步驟二:從后往前開始掃描待分詞語句,首先掃描到的三個字是"絲印機",這三個 字組成的詞在詞庫中,所以"絲印機"前的這個位置作為切分點,語句變?yōu)?力超全自動薄膜 開關(guān)/絲印機";
[0053] 步驟三:從上次掃描到的切分點開始繼續(xù)掃描,首先掃描到的三個字是"膜開關(guān)", 這三個詞組成的詞不在詞庫中,所以掃描長度減1再次掃描,掃描到的兩個字是"開關(guān)",這 兩個字組成的詞還是不在詞庫中,這個時候需要向前移動一位找到新的切分點,這個時候 語句變?yōu)?力超全自動薄膜開/關(guān)/絲印機";
[0054] 步驟四:繼續(xù)按照步驟二和步驟三的掃描切分,一直切分到最后,語句變?yōu)?力/ 超/全自動/薄/膜/開/關(guān)/絲印機",然后停止退出;
[0055] 經(jīng)過上面四步,可以得到指定語句基于詞庫的分詞結(jié)果。
[0056] 所謂標(biāo)簽標(biāo)示商品的方法,指通過利用文本挖掘算法,尋找商品和標(biāo)簽之間的關(guān) 系。特別地,利用文本挖掘算法的前提是商品和標(biāo)簽都具備能體現(xiàn)兩者關(guān)系且有代表性的 內(nèi)容作為判斷依據(jù)。商品屬性能多方位表明商品特征,如果標(biāo)簽也有自己的特征數(shù)據(jù),通過 比較兩者在特征的相似性,即可確定商品和標(biāo)簽之間的相似關(guān)系。
[0057] 參閱圖2所示,標(biāo)簽標(biāo)示商品的方法具體包括的步驟有:
[0058] 步驟101 :標(biāo)簽特征的獲取
[0059] 在標(biāo)簽集合的基礎(chǔ)上確定隸屬每一個標(biāo)簽的特征信息。如果某個標(biāo)簽出現(xiàn)在某個 商品的名稱中,則默認(rèn)這個標(biāo)簽與該商品存在相關(guān)關(guān)系。
[0060] 按照這個思路,首先篩選出包含某一特定標(biāo)簽詞的商品名稱,然后根據(jù)商品名稱 找到該商品的商品特征信息數(shù)據(jù),統(tǒng)計出所有商品特征信息數(shù)據(jù)作為該標(biāo)簽的特征信息數(shù) 據(jù);特別地,商品特征信息數(shù)據(jù)來自于商品屬性信息;
[0061] 按照上述的例子,首先整理出15件商品和他們的商品屬性,相應(yīng)地,標(biāo)簽"絲印 機"的標(biāo)簽特征包括:操作方式_全自動、印刷面_平面、印刷顏色_多色;標(biāo)簽"涂布機"的 標(biāo)簽特征包括:印刷顏色_多色、操作方式_全自動、印刷面_平面;標(biāo)簽"網(wǎng)印機"的標(biāo)簽 特征包括:印刷顏色_多色、品牌_冠達(dá)、操作方式_全自動、印刷面_平面;其他更具體如 下表:

[0064] 步驟102 :判斷商品和標(biāo)簽間的相似關(guān)系
[0065] 基于某一特定標(biāo)簽的所有標(biāo)簽特征,分析每個標(biāo)簽特征的權(quán)重,評估每一個標(biāo)簽 特征在所有標(biāo)簽特征中的代表性,具體包括:
[0066] 步驟102-1 :分析每一個標(biāo)簽特征在標(biāo)簽集合的分布情況:如果一個標(biāo)簽特征集 中于同一個標(biāo)簽中,則默認(rèn)該標(biāo)簽特征的代表性強;如果一個標(biāo)簽特征分布在多個標(biāo)簽中, 則默認(rèn)該標(biāo)簽特征的代表性不強;
[0067] 為方便理解,選取標(biāo)簽"絲印機"、"網(wǎng)印機"和"車床",并統(tǒng)計他們標(biāo)簽特征的出現(xiàn) 的頻次,如下表:
[0069] 步驟102-2 :參照TF*IDF權(quán)重計算方法,針對代表性強的標(biāo)簽特征,做加權(quán),權(quán)重 為標(biāo)簽特征在該標(biāo)簽中出現(xiàn)的頻次乘以初始權(quán)重(初始權(quán)重技需要確定);針對代表性弱 的標(biāo)簽特征,做降權(quán),權(quán)重為初始權(quán)重除以該標(biāo)簽在不同標(biāo)簽中出現(xiàn)的頻次;標(biāo)簽特征在標(biāo) 簽中的權(quán)重Boost p可參照如下公式:
[0071] 其中,count (p, t)表示標(biāo)簽特征p在標(biāo)簽t中出現(xiàn)的次數(shù),size (t)表示標(biāo)簽t所 包含的標(biāo)簽特征的個數(shù),N表示標(biāo)簽集合中的標(biāo)簽總數(shù),tags (p, t)表示包含標(biāo)簽特征p的 標(biāo)簽t的個數(shù)。
[0072] 以下是標(biāo)簽"絲印機"、"網(wǎng)印機"和"車床"各自的特征屬性的權(quán)重:
[0073] [Boost 絲印機](操作方式-全自動)=(3/7)*log(3/2) = 0· 〇75
[0074] [Boost 絲印機](印刷面-平面)=(2/7) *log (3/2) = 0· 050
[0075] [Boost 絲印機](印刷顏色-多色)=(2/7)*log(3/2) = 0· 050
[0076] [Boost 網(wǎng)印機](印刷顏色-多色)=(3/ll)*log(3/2) = 0· 048
[0077] [Boost 網(wǎng)印機](操作方式-全自動)=(3/11) *log (3/2) = 0· 048
[0078] [Boost 網(wǎng)印機](印刷面-平面)=(3/11) *log (3/2) = 0· 048
[0079] [Boost 網(wǎng)印機](品牌-冠達(dá))=(2/ll)*log(3/2) = 0· 032
[0080] [Boost 車床](安裝形式-落地式)=(3/16) *log (3/1) =0· 089
[0081] [Boost 車床](精密度-精密)=(4/16)*log(3/l) =0· 119
[0082] [Boost 車床](布局形式-臥式)=(2/16) *log (3/1) =0· 060
[0083] [Boost 車床](自動化程度-自動)=(3/16) *log (3/1) =0· 089
[0084] [Boost車床](刀架數(shù)量-雙刀架數(shù)控車床)=(2/16) *log (3/1)
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1