專利名稱:一種發(fā)布商品信息的方法及裝置的制作方法
技術領域:
本申請涉及計算機網站技術,特別涉及一種發(fā)布商品信息的方法及裝置。
背景技術:
在電子商務領域中,一個商品的描述內容(例如,商品標題)包含了該產品的重要信息,例如,參閱圖1所示,某商品的標題為“&New arrived&Fashionwind coat, ladies' coat, fashion coat, women' s wind coat (Wholesale price +Dodropship),,,這個商品標題記錄了商品的相關信息,可以向用戶準確展現該商品為一件女士風衣。但是,該商品標題卻存在信息冗余,重復詞匯羅列堆砌的問題,如,“i^ashion wind coat ","fashion coat”、“l(fā)adies' coat”和“women' swind coat”這些詞匯重復出現,造成了商品信息的冗余,這樣,嚴重降低了商品信息的簡潔性和準確性,并且在用戶搜索該商品時,也會由于商品信息的冗余,而造成搜索效率的下降,系統(tǒng)需要耗費大量的資源進行信息比對和排查, 從而降低了識別檢索效率,也增加了系統(tǒng)的運行負荷。
發(fā)明內容
本申請?zhí)峁┮环N發(fā)布商品信息的方法及裝置,用以提高商品信息的準確性和簡潔性,從而降低系統(tǒng)后期檢索時的運行負荷。本申請?zhí)峁┑木唧w技術方案如下一種發(fā)布商品信息的方法,包括接收用戶輸入的商品信息,并對所述商品信息進行解析;根據解析結果獲得所述商品信息的指定特征屬性的取值,所述指定特征屬性用于描述商品信息所包含詞匯的羅列堆砌程度;根據各指定特征屬性的取值,基于最大熵原理,計算所述商品信息為羅列堆砌信息的置信度;確定所述置信度達到設定閾值時,阻止發(fā)布所述商品信息。一種網站服務器,包括通信單元,用于接收用戶輸入的商品信息;解析單元,用于對所述商品信息進行解析,并根據解析結果獲得所述商品信息的指定特征屬性的取值,所述指定特征屬性用于描述商品信息所包含詞匯的羅列堆砌程度;第一處理單元,用于根據各指定特征屬性的取值,基于最大熵原理,計算所述商品信息為羅列堆砌信息的置信度;第二處理單元,用于在確定所述置信度達到設定閾值時,阻止發(fā)布所述商品信息。綜上所述,本申請實施例中,網站服務器在商品信息發(fā)布之前,根據預設規(guī)則對其包含的詞匯的羅列堆砌程度進行評估,確定商品信息羅列堆砌時,阻止商品信息的發(fā)布,或者,建議修改后再重新發(fā)布。這樣,可以有效提高商品信息的簡潔性和準確性,從而在后續(xù)檢索過程中大幅度降低系統(tǒng)運行負荷,保證了電子商務網站的正常運行,確保了網站的服務質量。
圖1為現有技術下商品標題示意圖;圖2為本申請實施例中網站服務器功能結構示意圖;圖3為本申請實施例中分類器原理示意圖;圖4為本申請實施例中網站服務器發(fā)布商品信息流程圖。
具體實施例方式在電子商務領域中,為了提高所發(fā)布的商品信息的準確性和簡潔性,從而降低系統(tǒng)后續(xù)檢索時的運行負荷,本申請實施例中,電子商務網站的服務器接收用戶輸入的商品信息,并對所述商品信息進行解析,再根據解析結果獲得所述商品信息的指定特征屬性的取值,所述指定特征屬性用于描述商品信息所包含詞匯的羅列堆砌程度,以及根據各指定特征屬性的取值,基于最大熵原理,計算所述商品信息為羅列堆砌信息的置信度,并在確定所述置信度達到設定閾值時,阻止發(fā)布所述商品信息;本申請實施例中,羅列堆砌分為對相同商品的羅列和對不同商品的堆砌。相同商品的羅列指的是在商品標題中使用多種描述同一商品名稱的詞語或詞組甚至多次出現同一關鍵詞語,不同商品的堆砌是指在商品標題中堆砌了多種商品名稱,比如“mp3 player, mp4 player, ipod, walkman"0羅列堆砌程度,是指同一商品名稱重復羅列出現的程度,或者多種商品名稱堆砌的程度。下面結合附圖對本申請優(yōu)選的實施方式進行詳細說明。參閱圖2所示,本申請實施例中,用于管理電子商務網站的網站服務器包括通信單元10、解析單元11、第一解析單元12和第二解析單元13,其中,通信單元10,用于接收用戶輸入的商品信息;解析單元11,用于對所述商品信息進行解析,并根據解析結果獲得所述商品信息的指定特征屬性的取值,所述指定特征屬性用于描述商品信息所包含詞匯的羅列堆砌程度;計算單元12,用于根據各指定特征屬性的取值,基于最大熵原理,計算所述商品信息為羅列堆砌信息的置信度;所謂置信度即是指將所述的商品信息判斷為羅列堆砌信息的可靠程度如圖2所示,上述計算單元12進一步包括第一計算子單元120和第二計算子單元 121,其中,第一計算子單元120,用于將所述各指定特征屬性的取值,作為基于最大熵原理的條件概率模型的給定信息;第二計算子單元121,用于采用條件概率模型計算在所述給定信息的情況下,所述商品信息為羅列堆砌信息的后驗概率,并將所述后驗概率作為商品信息為羅列堆砌信息的
置信度。執(zhí)行單元13,用于在確定所述置信度達到設定閾值時,阻止發(fā)布所述商品信息。如圖2所示,網站服務器中還可以包括策略單元14,用于在執(zhí)行單元13阻止發(fā)布所述商品信息后,根據所述解析結果確定造成所述商品信息包含的詞匯羅列堆砌的關鍵詞匯,并通過通信單10向用戶返回所述關鍵詞匯,提示用戶基于該關鍵詞匯對商品信息進行修改;以及在向用戶返回所述關鍵詞匯時,向該用戶通知相應的修改策略。
基于上述原理,本申請實施例中,采用基于機器學習的羅列堆砌識別算法,對用戶指示發(fā)布的商品信息進行檢測,在確定商品信息包含的詞匯的羅列堆砌程序的置信度達到設定閾值時,阻止商品信息的發(fā)布。本實施例中,較佳地,采用基于最大熵原理的條件概率模型來計算上述置信度,其公式如下所示少l々 = ^eXp|^>,/)(U))公式 1
z\x) V J其中 ye{titl e is mess,title is not mess},表不y 有 title is mess禾口 tetle is notmess兩種取值,具體采用哪一取值,根據預設參量決定,如,y取值為title ismess 時,表示計算出的P (y I Χ)為標題包含羅列堆砌信息的后驗概率;Χ為商品信息的指定特征屬性,其具體含義將在后續(xù)實施例中進行詳細闡述。^為最大熵模型針對各指定特征屬性的特征值,λ ^是當前商品信息的各指定特征屬性對應的權重,可以根據經驗值預先設置; Z(X)是歸一化因子,也可以根據經驗值預先設置。在實際中,還可以采用線性回歸等機器學習模型來建立條件概率模型。在實際中, 還可以采用支持向量機模型,雖然不是條件概率模型,但是計算的分值也可以用來作為置信度。基于上述公式1,可以構建羅列堆砌分類器,輸入為商品信息,輸出為分類結果,即商品信息包含的詞匯是否羅列堆砌的置信度,假設,類1為title ismess ;類2為title is not mess,則上述分類器的結構示意圖如圖3所示。本申請實施例中,在基于機器學習的羅列堆砌識別算法時,針對商品信息所獲取的指定特征屬性分為詞法特征屬性或/和句法特征屬性。下面以商品信息為商品標題為例,對這兩類特征屬性分別作出介紹。首先,根據商品標題的解析結果獲得其詞法特征屬性,該詞法特征屬性包括1、商品標題包含的逗號個數。商品標題中包含逗號的個數,一定程度上反映了該商品標題所包含詞匯為羅列堆砌的可能性。通常情況下,商品標題中逗號個數越多,商品標題包含詞匯為羅列堆砌的可能性越大。例如,在商品標題‘‘#24 Baseball Jersey, Baseball Jerseys, Jerseys, SportsJerseys, Sport Jersey,Jersey,24# Baseball Jersey,,中,ig號個數為 6。2、商品標題的句長(如,詞匯個數+逗號個數)。通常情況下,因為羅列堆砌的商品標題包含了比較多的冗余信息,因此,商品標題的句長越長,商品標題所包含詞匯為羅列堆砌的可能性越大。例如,在羅列堆砌標題“100 % Original Asus P6T7 WS SuperComputerMotherboard, ASUS Motherboard, Computer Motherboard, ComputerMainboard, Motherboard"中,句i為 18。3、商品標題去重后包含的詞匯個數與商品標題中詞匯總數的比率通常情況下,經過去根處理后的商品標題中,去重復后詞匯的個數占原商品標題中詞匯總數的比例越小,標題為羅列堆砌的可能性越大。其中,所謂去根處理,即是去除英文詞匯的后綴,保留詞干,若是中文標題,則根據省略去根處理這一操作步驟,下同,不再贅述。例如,商品標題為 “100% Original Asus P6T7 WS SuperComputerMotherboard, ASUS Motherboard, Computer Motherboard, ComputerMainboard, Motherboard,,,經過去根處理后,對應的詞匯串為 “100% OriginAsus P6T7 WS SuperComput Motherboard ASUS Motherboard ComputMotherboard Comput Mainboard Motherboard,,(個數為 14), 去除重復詞匯后的句子為 “100% Origin Asus P6T7 WS SuperComput Motherboard ComputMainboarcK個數為9),則該商品標題去重后詞匯個數與總詞匯個數的比率為9/14。4、商品標題中出現頻率最高的詞匯的出現次數。通常情況下,在商品標題中某一詞匯的出現頻率越高,商品標題針對該詞匯對應的商品進行羅列堆砌的可能性越大。例如,在商品標題“09 branded handbag, designer handbag, new stylehandbag, fashion handbag, ladies' handbag, elegant handbag" ψ, ^jlWCiIfIjp , HiMM^-B. 高的詞匯為“handbag”,而出現次數為6。顯而易見,該商品標題是針對對商品“handbag” 進行羅列堆砌的。5、按照預設規(guī)則將商品標題劃分為若干片段后每個片段中指定位置的詞匯組成的集合中,去重后詞匯個數與集合中詞匯總數的比率。通常情況,上述預設規(guī)則包含但不限于按照商品標題中的逗號所在位置將商品標題劃分為若干片段,或/和按照商品標題中出現頻率最高的詞匯所在位置將商品標題劃分為若干片段。上述兩種方式僅為舉例,不排除其他劃分方式的實施。a)以逗號劃分為例,將商品標題按照其包含的逗號所在位置劃分為若干片段后, 指定由每個片段的最后一個詞匯組成一個集合。如果在該集合中,去重后詞匯個數與集合中詞匯總數的比率越低,則該商品標題包含的詞匯為羅列堆砌的可能性越大。例如,在商品標題"Paypal-Fashion sunglasses, ED sunglasses, CA sunglasses, Brand name sunglasses, designer sunglasses"中,首先經過i司 去 t艮后,根據逗號分塊后得到的片段集合為{ “I^aypal-Fashion sunglass", "ED sunglass", "CAsunglass","Brand nam sunglass","design sunglass,,},各片段塊最后一個i司夕匚的集合為{ “sunglass", “sunglass", “sunglass", “sunglass", “sunglass"},去重后的i司合為{ “sunglass”}。則每個片段最后一個詞匯組成的集合中,去重后詞匯個數與集合中詞匯總數的比率為1/5。b)再次以逗號劃分為例,將商品標題按照其包含的逗號所在位置劃分為若干片段后,指定由每個片段最后兩個詞匯組成一個集合,如果在該集合中,去重后bi-gram詞匯 (即由各片段最后兩個詞匯組成的詞匯)個數與集合中bi-gram詞匯總數的比率越低,則該商品標題包含的詞匯為羅列堆砌的可能性越大。例如,商品標題為"Degree name card holder, business card holder, name cardcase, business card case, card holder, credit card holder,,,i^iii司^CIit艮禾口iS 號劃分后,得到的片段集合為{ “Degree nam card hold”,“busi card hold”,“namcard cas”,“busi card cas”,“card hold”,“credit card hold” },每個片段最后兩個詞匯組
7成的集合為{ "card hold", "card hold", "card cas", "card cas”,“cardhold”,“card hold”},去重后的集合為{ "card hold", "card cas”}。則去重后bi-gram詞匯個數與集合中bi-gram詞匯總數的比率為1/3。c)以按出現頻率最高的詞匯進行片段劃分為例,將商品標題按照其包含的出現頻率最高的詞匯劃分為若干片段后,指定由每個片段最后一個詞匯組成一個集合,則該集合中去重后的詞匯個數與集合中詞匯總數的比率越低,該商品標題所包含詞匯為羅列堆砌的可能性越大。例如,商品標題為"New style Brand tshirt Polo tshirt Fashion tshirt mens Topquality tshirt Paypal ”,經過詞匯去根處理后,得到的句子為“New styl Brand tshirtPolo tshirt Fashion tshirt men Top qualiti tshirt Payp''^^, [^3 ^ ! 的詞匯為“tshirt”。用“tshirt”做為分隔符對該句子進行分割,得到的片段集合為{“New styl Brand tshirt,,,"Polo tshirt,,,"Fashion tshirt,,,"men Topqualiti tshirt,,, “Payp” },指定由每個片段最后一個詞匯組成的集合為{ "tshirt", "tshirt", "tshirt", “tshirt”,“hyp”},去重后的詞匯集合為{ “tshirt”,“hyp”},則每個片段最后一個詞匯組成的集合中,去重后詞匯個數與集合中詞匯總數的比率為2/5。實際應用中,上述a)、b)和c)中介紹的片段劃分方式和相應的比率計算方式,可以實施其中的一種,也可以為了提高最終計算結果的精確性而組合性實施,組合方式任意, 在此不再贅述。6、按照預設規(guī)則將商品標題劃分為若干片段后,每個片段的方差。仍以逗號劃分為例,商品標題根據包含的逗號所在位置劃分成若干片段后,每個片段對應了相應的片段長度,即包含詞匯的個數。通常情況下,這些片段組成的集合中,片段長度的方差越小,則該商品標題包含的詞匯為羅列堆砌的可能性越大。例如,在商品標題"Paypal-Fashion sunglasses, ED sunglasses, CA sunglasses, Brand name sunglasses, designer sunglasses,,中,經過詞匯去根禾口逗號戈lj 分后得到的片段集合為{ "Paypal-Fashion sunglass,,,"ED sunglass,,,"CA sunglass,,, "Brand nam sunglass","design sunglass”}。則片段對應的長度集合為{2,2,2,3,2},相應的片段長度的方差為0.2。本實施例中,除了要根據商品標題的解析結果獲得其詞法特征屬性,還要根據該解析結果獲得商品標題的句法特征屬性,這其中包括先要對商品標題進行詞性標注,即針對商品標題包含的每一個詞匯標注對應的詞性,例如,名詞、動詞、形容詞、副詞等等。詞性的類別比較少(例如,Penn TreeBank定義的詞性有36種),因此,基于詞性特征的屬性比基于詞匯特征的屬性更具有泛化能力,可以擴展本申請技術方案的應用范圍。為了進一步提高其泛化性,本實施例中,定義了詞性的超類,即把詞性分為名詞(N),動詞(V),形容詞 (JJ),副詞(ADV),介詞(T0),數詞(DT)等?;谏鲜鲈恚旧暾垖嵤├?,所謂的句法特征屬性包括1、商品標題去重后包含的詞匯的詞性個數與商品標題中詞匯的詞性總數的比率。通常情況下,商品標題去重復后所包含詞匯的詞性個數占原商品標題中詞匯的詞性總數的比率越低,該商品標題包含的詞匯為羅列堆砌的可能性越大。例如,商品標題為 “100% Original Asus P6T7 WS SuperComputerMotherboard,ASUS Motherboard, Computer Motherboard, ComputerMainboard, Motherboard,,,其分別對應的詞性為“DT JJ N DT N N N, N N, N N, N N,N”,去重后得到的詞性集合為{ “DT”,“JJ”, “N”}。那么,去重復后包含的詞匯的詞性個數占原商品標題中詞匯詞性總數的比率為3/14。2、商品標題中為名詞的詞匯去重后的個數與為名詞的詞匯總數的比率。在電子商務領域中,商品標題中的名詞具有更豐富的信息,描述了該商品的比較重要的信息,而且商品名稱一般都為名詞。因此,通常情況下,商品標題中為名詞的詞匯去重后的個數與為名詞的詞匯總數的比率越小,商品標題包含的詞匯為羅列堆砌的可能性越大。例如,商品標題為 “100% Original Asus P6T7 WS SuperComputerMotherboard, ASUS Motherboard, Computer Motherboard, ComputerMainboard, Motherboard,,中的名詞為"Asus WS Supercomputer MotherboardASUS Motherboard Computer Motherboard Computer Mainboard Motherboard”,去除重復后得到的名詞集合為{ “Asus”,“WS”, “Supercomputer”,“Motherboard”,“Mainboard”},則商品標題中為名詞的詞匯去重后的個數與為名詞的詞匯總數的比率為5/11。3、出現頻率最高的詞性的出現次數。以bi-gram詞性為例,為了提高對沒有標點符號的羅列堆砌的商品標題的識別, 較佳地,可以考察標題中連續(xù)兩個詞性(即bi-gram詞匯)的出現頻率,通常情況下,如果連續(xù)兩個詞性的出現頻率越高,則該商品標題包含的詞匯為羅列堆砌的可能性越大。例如,商品標題 % "Power Amplifier Audio Amplifier Professional PowerAmplifier Karaoke Amplifier Pa Pro Amplifier”,其對應的詞性序列為 “JJ N JJ NJJ N N N N N N N”,從中抽取出的的 bi-gram 詞性集合為{ "JJ N”,“N JJ”,“JJN”,“N JJ", "JJ N”,“N N”,“N N”,“N N”,“N N”,“N N”,“N N”,“N N” },其中,出現頻率最高的 bi-gram詞性序列為“N N”,次數為7。4、按照預設規(guī)則將商品信息劃分為若干片段后,每個片段中指定位置的詞匯的詞性組成的集合中,去重后的詞性個數與集合中詞性總數的比率。其中,所謂按照預設規(guī)則將商品信息劃分為若干片段,包含但不限于,按照商品信息中的逗號所在位置將商品標題劃分為若干片段、或/和,按照商品信息中出現頻率最高的詞匯所在位置將商品標題劃分為若干片段。較佳地,仍以bi-gram詞性為例,通常情況下,商品信息劃分為若干片段后,指定由每個片段最后兩個詞匯的詞性組成的集合中,去重后bi-gram詞性個數與集合中 bi-gram詞性總數的比率越低,則該商品標題所包含詞匯為羅列堆砌的可能性越大。例如,商品標題為 “100% Original Asus P6T7 WS SuperComputerMotherboard, ASUS Motherboard, Computer Motherboard, ComputerMainboard, Motherboard,,,其中,每個片段最后兩個詞匯的詞性組成的集合為{ “N N”,“N N”,“N N”,“N N”,“N”},(最后一個片段只有一個詞匯,則bi-gram詞性序列為“N”),則去重后的集合為{ “N N”,“N”},那么,這兩個集合元素數目之間的比率為2/5。本申請實施例中,商品信息還可以包含其他內容,例如,商品描述信息、商品介紹信息等等,本實施例僅以商品信息為商品標題為例進行闡述?;谏鲜鲈?,參閱圖4所示,本申請實施例中,仍以商品標題為例,網站服務器對用戶指示發(fā)布的商品標題進行評估的詳細流程如下步驟400 接收用戶輸入的商品標題。步驟410 用于對所述商品標題進行解析,并根據解析結果獲得所述商品標題的指定特征屬性的取值,該指定特征屬性用于描述商品標題所包含詞匯的羅列堆砌程度。本實施例中,所謂的指定特征屬性包含詞法特征屬性或/和詞法特征屬性,其中,詞法特征屬性包含以下任意一種或任意組合商品標題包含的逗號個數;商品標題的句長;商品標題去重后包含的詞匯個數與商品標題中詞匯總數的比率;商品標題中出現頻率最高的詞匯的出現次數;按照預設規(guī)則將商品標題劃分為若干片段后,將每個片段中指定位置的詞匯組成集合,針對該集合去重后的詞匯個數與集合中詞匯總數的比率;按照預設規(guī)則將商品標題劃分為若干片段后,每個片段的方差;句法特征屬性包含以下任意一種或任意組合商品標題去重后包含的詞匯的詞性個數與信息標題中詞匯的詞性總數的比率;商品標題中為名詞的詞匯去重后的個數與為名詞的詞匯總數的比率;出現頻率最高的詞性的出現次數;按照預設規(guī)則將商品標題劃分為若干片段后,每個片段中指定位置的詞匯的詞性組成的集合中,去重后的詞性個數與集合中詞性總數的比率。步驟420 根據各指定特征屬性的取值,基于最大熵原理,計算所述商品標題為羅列堆砌信息的置信度。本實施例中,所謂基于最大熵原理,計算所述商品標題為羅列堆砌信息
的置信度,即是將各指定特征屬性的取值,作為基于最大熵原理的條件概率模型 f \
的給定信息;再采用條件概率模型計算在所述給定信息
V J/
的情況下,所述商品標題為羅列堆砌信息的后驗概率ρ (y IX),并將該后驗概率ρ (y IX)作為商品標題為羅列堆砌信息的置信度。步驟430 將所述置信度與設定閾值進行比較,確定所述置信度達到設定閾值時, 阻止發(fā)布所述商品標題。實際應用中,網站服務器阻止發(fā)布用戶輸入的商品標題后,還應根據步驟410中獲得的解析結果,確定造成商品標題包含的詞匯羅列堆砌的關鍵詞匯,如,“handbag”, 并向用戶返回該關鍵詞匯,提示用戶基于該關鍵詞匯對商品標題進行修改,如,將對針對 "handbag"的多次重復描述進行簡化,壓縮,將針對“handbag”的多種形容詞匯盡量在一句話中呈現。進一步地,網站服務器還可以將本地自動修改后的商品標題作為修改策略呈現給用戶,以供用戶參考和選擇?;谏鲜鰧嵤├?,下面以一些具體的實驗數據對上述流程進行進一步闡述。在實際應用中,各指定特征屬性的取值都將被被歸一化為0-1的數值,然后分段映射到整數,以簡化后續(xù)計算流程。例如,6被歸一化到0. 3(即6/20,20為歸一化參數,可以根據被歸一化的數據的取值而具體設定),并映射為整數3。針對這一特征,本實施例中, 將歸一化后的數值與整數之間的映射關系設置為0_>0,(0,0.05]->1,(0. 05,0. 15]->2, (0. 15,0. 3]->3,(0. 3,0. 5]->4,(0. 5,1]->5。以下實施例中所有映射操作均基于此原理,將不再贅述。那么,本實施例中,商品標題為“#24 Baseball Jersey, BaseballJerseys,
Σ+Ο,少)Jerseys, Sports Jerseys, Sport Jersey, Jersey,24# Baseball Jersey,,,/[段設f艮據商品標題的解析結果獲得的指定特征屬性的取值分別為商品標題包含的逗號個數逗號個數為6,經歸一化處理后轉化為0. 3,再經映射處理,轉化為整數3 ;其對應于λ (χ, y),其中,假設λ工的取值為0. 0653117,^ (x, y)的取
權利要求
1.一種發(fā)布商品信息的方法,其特征在于,包括 接收用戶輸入的商品信息,并對所述商品信息進行解析;根據解析結果獲得所述商品信息的指定特征屬性的取值,所述指定特征屬性用于描述商品信息所包含詞匯的羅列堆砌程度;根據各指定特征屬性的取值,基于最大熵原理,計算所述商品信息為羅列堆砌信息的置信度;確定所述置信度達到設定閾值時,阻止發(fā)布所述商品信息。
2.根據權利要求1所述的方法,其特征在于,所述根據各指定特征屬性的取值,基于最大熵原理,計算所述商品信息為羅列堆砌信息的置信度,包括將所述各指定特征屬性的取值,作為基于最大熵原理的條件概率模型的給定信息; 采用條件概率模型計算在所述給定信息的情況下,所述商品信息為羅列堆砌信息的后驗概率,并將所述后驗概率作為商品信息為羅列堆砌信息的置信度。
3.如權利要求1或2所述的方法,其特征在于,所述指定特征屬性包含詞法特征屬性或 /和句法特征屬性;其中,所述詞法特征屬性包含以下任意一種或任意組合商品信息包含的逗號個數;商品信息的句長;商品信息去重后包含的詞匯個數與商品信息中詞匯總數的比率;商品信息中出現頻率最高的詞匯的出現次數;按照預設規(guī)則將商品信息劃分為若干片段后,將每個片段中指定位置的詞匯組成集合,針對該集合去重后的詞匯個數與集合中詞匯總數的比率;按照預設規(guī)則將商品信息劃分為若干片段后,每個片段的方差;所述句法特征屬性包含以下任意一種或任意組合商品信息去重后包含的詞匯的詞性個數與信息標題中詞匯的詞性總數的比率;商品信息中為名詞的詞匯去重后的個數與為名詞的詞匯總數的比率;出現頻率最高的詞性的出現次數;按照預設規(guī)則將商品信息劃分為若干片段后,每個片段中指定位置的詞匯的詞性組成的集合中,去重后的詞性個數與集合中詞性總數的比率。
4.如權利要求3所述的方法,其特征在于,所述按照預設規(guī)則將商品信息劃分為若干片段,包括按照商品信息中的逗號所在位置將商品標題劃分為若干片段; 或/和按照商品信息中出現頻率最高的詞匯所在位置將商品標題劃分為若干片段。
5.如權利要求1或2所述的方法,其特征在于,阻止發(fā)布所述商品信息后,還包括 根據所述解析結果確定造成所述商品信息包含的詞匯羅列堆砌的關鍵詞匯; 向用戶返回所述關鍵詞匯,提示用戶基于該關鍵詞匯對商品信息進行修改。
6.如權利要求5所述的方法,其特征在于,向用戶返回所述關鍵詞匯時,向該用戶通知相應的修改策略。
7.—種網站服務器,其特征在于,包括 通信單元,用于接收用戶輸入的商品信息;解析單元,用于對所述商品信息進行解析,并根據解析結果獲得所述商品信息的指定特征屬性的取值,所述指定特征屬性用于描述商品信息所包含詞匯的羅列堆砌程度;計算單元,用于根據各指定特征屬性的取值,基于最大熵原理,計算所述商品信息為羅列堆砌信息的置信度;執(zhí)行單元,用于在確定所述置信度達到設定閾值時,阻止發(fā)布所述商品信息。
8.根據權利要求7所述的網站服務器,其特征在于,所述計算單元包括第一計算子單元,用于將所述各指定特征屬性的取值,作為基于最大熵原理的條件概率模型的給定信息;第二計算子單元,用于采用條件概率模型計算在所述給定信息的情況下,所述商品信息為羅列堆砌信息的后驗概率,并將所述后驗概率作為商品信息為羅列堆砌信息的置信度。
9.如權利要求7或8所述的網站服務器,其特征在于,所述指定特征屬性包含詞法特征屬性或/和句法特征屬性;其中,所述詞法特征屬性包含以下任意一種或任意組合商品信息包含的逗號個數;商品信息的句長;商品信息去重后包含的詞匯個數與商品信息中詞匯總數的比率;商品信息中出現頻率最高的詞匯的出現次數;按照預設規(guī)則將商品信息劃分為若干片段后,將每個片段中指定位置的詞匯組成集合,針對該集合去重后的詞匯個數與集合中詞匯總數的比率;按照預設規(guī)則將商品信息劃分為若干片段后,每個片段的方差;所述句法特征屬性包含以下任意一種或任意組合商品信息去重后包含的詞匯的詞性個數與信息標題中詞匯的詞性總數的比率;商品信息中為名詞的詞匯去重后的個數與為名詞的詞匯總數的比率;出現頻率最高的詞性的出現次數;按照預設規(guī)則將商品信息劃分為若干片段后,每個片段中指定位置的詞匯的詞性組成的集合中,去重后的詞性個數與集合中詞性總數的比率。
10.如權利要求7或8所述的網站服務器,其特征在于,還包括策略單元,用于在所述第二處理單元阻止發(fā)布所述商品信息后,根據所述解析結果確定造成所述商品信息包含的詞匯羅列堆砌的關鍵詞匯,并通過所述通信單元向用戶返回所述關鍵詞匯,提示用戶基于該關鍵詞匯對商品信息進行修改。
11.如權利要求10所述的網站服務器,其特征在于,所述策略單元向用戶返回所述關鍵詞匯時,向該用戶通知相應的修改策略。
全文摘要
本申請涉及計算機領域,公開了一種發(fā)布商品信息的方法及裝置,用以降低系統(tǒng)后期檢索時的運行負荷,該方法為接收用戶輸入的商品信息,并對所述商品信息進行解析;根據解析結果獲得所述商品信息的指定特征屬性的取值,所述指定特征屬性用于描述商品信息所包含詞匯的羅列堆砌程度;根據各指定特征屬性的取值,基于最大熵原理,計算所述商品信息為羅列堆砌信息的置信度;確定所述置信度達到設定閾值時,阻止發(fā)布所述商品信息,或者建議修改商品信息再重發(fā)。這樣,可以有效提高商品信息的簡潔性和準確性,從而在后續(xù)檢索過程中大幅度降低系統(tǒng)運行負荷,保證了電子商務網站的正常運行,確保了網站的服務質量。本申請同時公開了一種網站服務器。
文檔編號G06F17/30GK102262765SQ20101018744
公開日2011年11月30日 申請日期2010年5月27日 優(yōu)先權日2010年5月27日
發(fā)明者張勤, 張壽松, 林鋒 申請人:阿里巴巴集團控股有限公司