專利名稱:一種站內(nèi)信息的篩選方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息服務(wù)技術(shù)領(lǐng)域,尤其涉及一種站內(nèi)信息的篩選方法和裝置。
背景技術(shù):
搜索、類目導(dǎo)航是幫助人們在以信息發(fā)布為主要功能網(wǎng)站快速定位所需信息的重要手段。然而由于這種網(wǎng)站每天發(fā)布的信息量很大,即便通過關(guān)鍵詞搜索或通過細分類目導(dǎo)航,最后找到的相關(guān)信息仍然很多,讓人難以快速進行選擇和決策。而且通過關(guān)鍵詞或者細分類目導(dǎo)航查找站內(nèi)信息時,會調(diào)取所有與所述關(guān)鍵詞或者細分類目相關(guān)的站內(nèi)信息,這樣使網(wǎng)頁客戶端與網(wǎng)站服務(wù)器之間交互的接口壓力大增,來自客戶端的訪問量過多時對 服務(wù)器的系統(tǒng)性能造成影響,嚴重時會導(dǎo)致服務(wù)器通信擁塞甚至癱瘓。本發(fā)明通過文本挖掘的技術(shù)手段,提供一種同類商品匹配度的識別算法,幫助人們自動找到最相似的同類商品,并通過同類商品的對比導(dǎo)購,幫助用戶快速的進行購買決策。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種站內(nèi)信息的篩選方法和裝置,能夠篩選到更精確的相關(guān)站內(nèi)信息,降低了網(wǎng)頁客戶端與網(wǎng)站服務(wù)器之間交互的接口壓力。為達此目的,本發(fā)明采用以下技術(shù)方案一種站內(nèi)信息的篩選方法,包括以下步驟A、根據(jù)輸入的特征標識獲取具備所述特征標識的站內(nèi)信息,從獲取的站內(nèi)信息中解析出關(guān)鍵詞并填寫到結(jié)構(gòu)化存儲表格的屬性字段中;B、對所述結(jié)構(gòu)化存儲表格各個屬性字段中的關(guān)鍵詞進行詞頻分析,確定類別屬性和差異屬性;C、根據(jù)類別屬性計算所述獲取的站內(nèi)信息中當前被訪問的站內(nèi)信息與其他站內(nèi)信息之間的匹配度,篩選出匹配度高于預(yù)設(shè)匹配度閾值的同類匹配站內(nèi)信息;D、對所述同類匹配站內(nèi)信息中的預(yù)設(shè)屬性進行判定,過濾掉所述預(yù)設(shè)屬性異常的同類匹配站內(nèi)信息;E、生成同類匹配站內(nèi)信息表并顯示表中站內(nèi)信息的差異屬性。步驟B中,將各個屬性字段中出現(xiàn)次數(shù)大于第一預(yù)設(shè)閾值的關(guān)鍵詞作為該屬性的高頻關(guān)鍵詞,將所述高頻關(guān)鍵詞出現(xiàn)比例大于第二預(yù)設(shè)閾值的屬性確定為類別屬性,所述類別屬性之外的其他屬性為差異屬性。步驟B中確定類別屬性和差異屬性后,計算各屬性的權(quán)重。步驟C中,根據(jù)各個類別屬性的權(quán)重,利用加權(quán)的文本相似匹配算法得到站內(nèi)信息之間的匹配度。步驟E中,所述同類匹配站內(nèi)信息表中的站內(nèi)信息根據(jù)與當前被訪問的站內(nèi)信息的匹配度從大到小排列,表中的任一站內(nèi)信息被訪問時,同時顯不表中其他站內(nèi)信息的差異屬性。一種站內(nèi)信息的篩選裝置,包括信息解析模塊,屬性分析模塊,同類匹配模塊,差錯過濾模塊和差異顯示模塊,所述信息解析模塊,屬性分析模塊,同類匹配模塊,差錯過濾模塊和差異顯示模塊依次連接,其中,信息解析模塊,用于根據(jù)輸入的特征標識獲取具備所述特征標識的站內(nèi)信息,從獲取的站內(nèi)信息中解析出關(guān)鍵詞并填寫到結(jié)構(gòu)化存儲表格的屬性字段中;屬性分析模塊,用于對所述結(jié)構(gòu)化存儲表格各個屬性字段中的關(guān)鍵詞進行詞頻分析,確定類別屬性和差異屬性;同類匹配模塊,用于根據(jù)類別屬性計算所述獲取的站內(nèi)信息中當前被訪問的站內(nèi)信息與其他站內(nèi)信息之間的匹配度,篩選出匹配度高于預(yù)設(shè)匹配度閾值的同類匹配站內(nèi)信息; 差錯過濾模塊,用于對所述同類匹配站內(nèi)信息中的預(yù)設(shè)屬性進行判定,過濾掉所述預(yù)設(shè)屬性異常的同類匹配站內(nèi)信息;差異顯示模塊,用于生成同類匹配站內(nèi)信息表并顯示表中站內(nèi)信息的差異屬性。所述屬性分析模塊,將各個屬性字段中出現(xiàn)次數(shù)大于等于第一預(yù)設(shè)閾值的關(guān)鍵詞作為該屬性的高頻關(guān)鍵詞,將所述高頻關(guān)鍵詞出現(xiàn)比例大于等于第二預(yù)設(shè)閾值的屬性確定為類別屬性,所述類別屬性之外的其他屬性為差異屬性。所述屬性分析模塊,還用于計算各個類別屬性與差異屬性的權(quán)重。所述同類匹配模塊根據(jù)各個類別屬性的權(quán)重,利用加權(quán)的文本相似匹配算法得到站內(nèi)信息之間的匹配度。所述差異顯示模塊生成的同類匹配站內(nèi)信息表中的站內(nèi)信息根據(jù)與當前被訪問的站內(nèi)信息的匹配度從大到小排列,表中的任一站內(nèi)信息被訪問時,同時顯不表中其他站內(nèi)信息的差異屬性。采用本發(fā)明的技術(shù)方案,通過文本挖掘的技術(shù)手段,提供一種同類站內(nèi)信息匹配度的識別算法,能夠篩選到更精確的相關(guān)站內(nèi)信息,降低了網(wǎng)頁客戶端與網(wǎng)站服務(wù)器之間交互的接口壓力,而且方便用戶對查詢到的相關(guān)站內(nèi)信息進行對比。
圖I是本發(fā)明具體實施方式
提供的站內(nèi)信息篩選方法的流程示意圖。圖2是本發(fā)明具體實施方式
提供的站內(nèi)信息篩選裝置的結(jié)構(gòu)示意圖。圖3是以電商網(wǎng)站為例應(yīng)用本發(fā)明具體實施方式
提供的站內(nèi)信息篩選方法時的流程示意圖。
具體實施例方式本發(fā)明的技術(shù)方案適用于以向公眾提供信息發(fā)布平臺和渠道為主要功能的網(wǎng)站,如電子商務(wù)、同城信息等大型綜合信息發(fā)布平臺網(wǎng)站,以及地產(chǎn)、旅游、招聘、征婚等等具有主題信息發(fā)布功能的網(wǎng)站,通過文本挖掘的技術(shù)手段,提供一種同類站內(nèi)信息匹配度的識別算法,能夠篩選到更精確的相關(guān)站內(nèi)信息,降低了網(wǎng)頁客戶端與網(wǎng)站服務(wù)器之間交互的接口壓力。
下面結(jié)合附圖并通過具體實施方式
來進一步說明本發(fā)明的技術(shù)方案。圖I是本發(fā)明具體實施方式
提供的站內(nèi)信息篩選方法的流程示意圖。如圖I所示,該方法包括步驟S101,根據(jù)輸入的特征標識獲取具備所述特征標識的站內(nèi)信息,從獲取的站內(nèi)信息中解析出關(guān)鍵詞并填寫到結(jié)構(gòu)化存儲表格的屬性字段中。所述特征標識是指信息的名稱或關(guān)鍵詞、種類以及其他對要篩選出的信息具有標識作用的參考信息。系統(tǒng)根據(jù)輸入的特征標識通過同類信息導(dǎo)入功能接口程序獲取具有所述特征標識的全部站內(nèi)信息。利用常用的文本分詞技術(shù),通過分詞對各個信息的標題名稱及內(nèi)容描述進行關(guān)鍵詞解析,得到關(guān)于每個信息的各類屬性描述的關(guān)鍵詞,同一屬性有多個關(guān)鍵詞時用短號連接。如果網(wǎng)站中原有的信息描述已經(jīng)結(jié)構(gòu)化時,即所述具有描述作用的關(guān)鍵詞與所述屬性之間的映射關(guān)系已經(jīng)存在,則將解析出的關(guān)鍵詞填寫到以屬性字段為列名的信息結(jié)構(gòu)·化存儲數(shù)據(jù)庫的表格中即可。當網(wǎng)站中原有的信息描述沒有結(jié)構(gòu)化時,需要先建立關(guān)鍵詞與屬性字段的映射字典,然后對解析出的關(guān)鍵詞對應(yīng)結(jié)構(gòu)化存儲到數(shù)據(jù)表的各屬性列中。步驟S102,對所述結(jié)構(gòu)化存儲表格各個屬性字段中的關(guān)鍵詞進行詞頻分析,確定類別屬性和差異屬性。將各個屬性字段中出現(xiàn)次數(shù)超過第一預(yù)設(shè)閾值的關(guān)鍵詞作為該屬性的高頻關(guān)鍵詞,將所述高頻關(guān)鍵詞出現(xiàn)比例大于第二預(yù)設(shè)閾值的屬性確定為類別屬性,所述類別屬性之外的其他屬性為差異屬性。對結(jié)構(gòu)化存儲的信息關(guān)鍵詞進行分析,得到各列屬性中出現(xiàn)頻次較高的關(guān)鍵詞,將各個屬性字段中出現(xiàn)次數(shù)大于等于第一預(yù)設(shè)閾值的關(guān)鍵詞作為該屬性的高頻關(guān)鍵詞,并對各高頻關(guān)鍵詞出現(xiàn)在不同信息中的次數(shù)進行統(tǒng)計。對于某一屬性字段,如果列表記錄中高頻關(guān)鍵詞在不同行(即不同信息)中出現(xiàn)的次數(shù)/總行數(shù)(即總信息數(shù))大于等于第二預(yù)設(shè)閾值,則把此屬性作為類別屬性,類別屬性用于確定信息是否是同類,只有同類信息才會顯示出來進行對比;其它的屬性作為差異屬性,用于在鎖定了同類信息后,對比同類信息中的關(guān)鍵差異。在識別了各屬性的類別后,還需要識別各屬性的權(quán)重,權(quán)重的識別一方面可以根據(jù)高頻詞出現(xiàn)的次數(shù)比例,一方面可以根據(jù)各屬性在用戶搜索時或者進行過濾排序時輸入或者點擊行為的次數(shù),并對兩類數(shù)據(jù)進行標準化處理和加權(quán)求和綜合考慮。各屬性的權(quán)重值通過如下公式計算屬性權(quán)重值=1+高頻詞出現(xiàn)比例+標準化的點擊次數(shù)*2步驟S103,根據(jù)類別屬性計算所述獲取的站內(nèi)信息中當前被訪問的站內(nèi)信息與其他站內(nèi)信息之間的匹配度,篩選出匹配度高于預(yù)設(shè)匹配度閾值的同類匹配站內(nèi)信息。匹配度的計算只需要考慮類別屬性,可通過計算以上列表矩陣的兩個信息的類別屬性的文本相似度來得到。用矢量A表示信息I對各個類別屬性的向量,矢量B表示信息2對各個類別屬性的向量,那么信息I與信息2的匹配度可以用下面的文本矢量的夾角余弦相似性公式計算
Si wi7f7rlfy|A, B) 二 cos(/i, B)=
I '' ' A B若考慮屬性的權(quán)重,只需要對A、B矢量的各維度,分別乘上各自對應(yīng)的屬性的權(quán)重值,然后套用上述公式進行計算即可。匹配度的計算還可以通過更簡單的算法來實現(xiàn),比如計算各A類屬性中出現(xiàn)相同詞的次數(shù),并綜合加權(quán)求和。設(shè)定匹配度閾值,如果某個信息與當前訪問的站內(nèi)信息之間的匹配度大于等于這個閾值,則兩個信息是匹配相似的同類信息。如果某個信息與當前訪問的站內(nèi)信息之間的匹配度小于等于這個閾值,則說明這個信息與當前訪問的站內(nèi)信息的差異很大,不屬于同類信息,沒必要出現(xiàn)在后續(xù)的信息差異對比中,因此將這個信息過濾掉。通過匹配過濾,把需要進行對比選擇的信息聚焦在少量范圍內(nèi),極大地幫助用戶提升了決策效率,并且減少客戶端網(wǎng)頁與服務(wù)器交互的接口壓力,對系統(tǒng)性能也有很大提升。 步驟S104,對所述同類匹配站內(nèi)信息中的預(yù)設(shè)屬性進行判定,過濾掉所述預(yù)設(shè)屬性異常的同類匹配站內(nèi)信息。在確定了同類的匹配信息后,為防止一些信息的不準確或不完整被誤歸為同類信息,通過防差錯過濾對一些預(yù)設(shè)屬性進行判定,過濾掉已匹配信息中的異常項,保證匹配的結(jié)果更為可靠。步驟S105,生成同類匹配站內(nèi)信息表并顯示表中站內(nèi)信息的差異屬性。所述同類匹配站內(nèi)信息表中的站內(nèi)信息根據(jù)與當前被訪問的站內(nèi)信息的匹配度從大到小排列,表中的任一站內(nèi)信息被訪問時,同時顯不表中其他站內(nèi)信息的差異屬性。相應(yīng)的,本發(fā)明具體實施方式
提供了一種站內(nèi)信息篩選裝置,如圖2所示,該裝置包括信息解析模塊201,屬性分析模塊202,同類匹配模塊203,差錯過濾模塊204和差異顯示模塊205,所述信息解析模塊201,屬性分析模塊202,同類匹配模塊203,差錯過濾模塊204和差異顯示模塊205依次連接,其中,信息解析模塊201,用于根據(jù)輸入的特征標識獲取具備所述特征標識的站內(nèi)信息,從獲取的站內(nèi)信息中解析出關(guān)鍵詞并填寫到結(jié)構(gòu)化存儲表格的屬性字段中;屬性分析模塊202,用于對所述結(jié)構(gòu)化存儲表格各個屬性字段中的關(guān)鍵詞進行詞頻分析,確定類別屬性和差異屬性;同類匹配模塊203,用于根據(jù)類別屬性計算所述獲取的站內(nèi)信息中當前被訪問的站內(nèi)信息與其他站內(nèi)信息之間的匹配度,篩選出匹配度高于預(yù)設(shè)匹配度閾值的同類匹配站內(nèi)f目息;差錯過濾模塊204,用于對所述同類匹配站內(nèi)信息中的預(yù)設(shè)屬性進行判定,過濾掉所述預(yù)設(shè)屬性異常的同類匹配站內(nèi)信息;差異顯示模塊205,用于生成同類匹配站內(nèi)信息表并顯示表中站內(nèi)信息的差異屬性。所述屬性分析模塊201,將各個屬性字段中出現(xiàn)次數(shù)超過第一預(yù)設(shè)閾值的關(guān)鍵詞作為該屬性的高頻關(guān)鍵詞,將所述高頻關(guān)鍵詞出現(xiàn)比例大于第二預(yù)設(shè)閾值的屬性確定為類別屬性,所述類別屬性之外的其他屬性為差異屬性。所述屬性分析模塊,還用于計算各個類別屬性與差異屬性的權(quán)重。所述同類匹配模塊203根據(jù)各個類別屬性的權(quán)重,利用加權(quán)的文本相似匹配算法得到站內(nèi)信息之間的匹配度。所述差異顯示模塊205生成的同類匹配站內(nèi)信息表中的站內(nèi)信息根據(jù)與當前被訪問的站內(nèi)信息的匹配度從大到小排列,表中的任一站內(nèi)信息被訪問時,同時顯不表中其他站內(nèi)信息的差異屬性。下面以電商網(wǎng)站為例,進一步說明本發(fā)明具體實施方式
提供的站內(nèi)信息篩選方法和裝置,對電商網(wǎng)站站內(nèi)信息篩選的流程如圖3所示步驟S301,如輸入“連衣裙”類目的關(guān)鍵詞或ID號,通過信息解析模塊的同類目商 品信息導(dǎo)入功能接口程序獲取該類目下的全部商品的信息。步驟S302,利用文本分詞功能,通過分詞對各商品標題及內(nèi)容描述進行關(guān)鍵詞解析,得到每件商品各類屬性描述的關(guān)鍵詞,同一屬性有多個關(guān)鍵詞時用短號連接。步驟S303,當網(wǎng)站中原有的商品信息描述已經(jīng)結(jié)構(gòu)化時,可將解析出的關(guān)鍵詞填寫到以屬性字段為列名的信息結(jié)構(gòu)化存儲數(shù)據(jù)庫的表格中。比如包括以下屬性字段標題,品牌,款式,面料,袖長,領(lǐng)型,腰型,花邊,風(fēng)格,季節(jié),圖案,顏色,銷量,信用,價格,其它,等。當網(wǎng)站中原來的商品描述信息沒有結(jié)構(gòu)化時,需要先建立關(guān)鍵詞與屬性字段的映射字典,然后對解析出的關(guān)鍵詞對應(yīng)結(jié)構(gòu)化存儲到數(shù)據(jù)表的各屬性列中。步驟S304,通過對結(jié)構(gòu)化存儲的商品信息關(guān)鍵詞進行分析,得到各列屬性中出現(xiàn)頻次較高的關(guān)鍵詞,并對各高頻關(guān)鍵詞出現(xiàn)在不同商品的次數(shù)進行統(tǒng)計。對于某一屬性字段,如果列表記錄中高頻關(guān)鍵詞在不同行(即不同商品)中出現(xiàn)的次數(shù)/總行數(shù)(即總商品數(shù))>某一閾值,則把此屬性作為類別屬性,類別屬性用于確定商品是否是同類,只有同類的商品才會展現(xiàn)出來進行對比;其它的屬性作為差異屬性,用于在鎖定了同類商品后,對比同類商品中關(guān)鍵差異。在識別了各屬性的類別后,還需要識別各屬性的權(quán)重,權(quán)重的識別一方面可以根據(jù)高頻詞出現(xiàn)的次數(shù)比例,一方面可以根據(jù)各屬性在用戶搜索時進行過濾排序時點擊行為的次數(shù),并對兩類數(shù)據(jù)進行標準化處理和加權(quán)求和綜合考慮。說明示例
權(quán)利要求
1.一種站內(nèi)信息的篩選方法,其特征在于,包括以下步驟 A、根據(jù)輸入的特征標識獲取具備所述特征標識的站內(nèi)信息,從獲取的站內(nèi)信息中解析出關(guān)鍵詞并填寫到結(jié)構(gòu)化存儲表格的屬性字段中; B、對所述結(jié)構(gòu)化存儲表格各個屬性字段中的關(guān)鍵詞進行詞頻分析,確定類別屬性和差異屬性; C、根據(jù)類別屬性計算所述獲取的站內(nèi)信息中當前被訪問的站內(nèi)信息與其他站內(nèi)信息之間的匹配度,篩選出匹配度高于預(yù)設(shè)匹配度閾值的同類匹配站內(nèi)信息; D、對所述同類匹配站內(nèi)信息中的預(yù)設(shè)屬性進行判定,過濾掉所述預(yù)設(shè)屬性異常的同類匹配站內(nèi)信息; E、生成同類匹配站內(nèi)信息表并顯示表中站內(nèi)信息的差異屬性。
2.根據(jù)權(quán)利要求I所述的站內(nèi)信息的篩選方法,其特征在于,步驟B中,將各個屬性字段中出現(xiàn)次數(shù)大于第一預(yù)設(shè)閾值的關(guān)鍵詞作為該屬性的高頻關(guān)鍵詞,將所述高頻關(guān)鍵詞出現(xiàn)比例大于第二預(yù)設(shè)閾值的屬性確定為類別屬性,所述類別屬性之外的其他屬性為差異屬性。
3.根據(jù)權(quán)利要求I或2所述的站內(nèi)信息的篩選方法,其特征在于,步驟B中確定類別屬性和差異屬性后,計算各屬性的權(quán)重。
4.根據(jù)權(quán)利要求I所述的站內(nèi)信息的篩選方法,其特征在于,步驟C中,根據(jù)各個類別屬性的權(quán)重,利用加權(quán)的文本相似匹配算法得到站內(nèi)信息之間的匹配度。
5.根據(jù)權(quán)利要求I所述的站內(nèi)信息的篩選方法,其特征在于,步驟E中,所述同類匹配站內(nèi)信息表中的站內(nèi)信息根據(jù)與當前被訪問的站內(nèi)信息的匹配度從大到小排列,表中的任一站內(nèi)信息被訪問時,同時顯不表中其他站內(nèi)信息的差異屬性。
6.一種站內(nèi)信息的篩選裝置,其特征在于,包括信息解析模塊,屬性分析模塊,同類匹配模塊,差錯過濾模塊和差異顯示模塊,所述信息解析模塊,屬性分析模塊,同類匹配模塊,差錯過濾模塊和差異顯示模塊依次連接,其中, 信息解析模塊,用于根據(jù)輸入的特征標識獲取具備所述特征標識的站內(nèi)信息,從獲取的站內(nèi)信息中解析出關(guān)鍵詞并填寫到結(jié)構(gòu)化存儲表格的屬性字段中; 屬性分析模塊,用于對所述結(jié)構(gòu)化存儲表格各個屬性字段中的關(guān)鍵詞進行詞頻分析,確定類別屬性和差異屬性; 同類匹配模塊,用于根據(jù)類別屬性計算所述獲取的站內(nèi)信息中當前被訪問的站內(nèi)信息與其他站內(nèi)信息之間的匹配度,篩選出匹配度高于預(yù)設(shè)匹配度閾值的同類匹配站內(nèi)信息; 差錯過濾模塊,用于對所述同類匹配站內(nèi)信息中的預(yù)設(shè)屬性進行判定,過濾掉所述預(yù)設(shè)屬性異常的同類匹配站內(nèi)信息; 差異顯示模塊,用于生成同類匹配站內(nèi)信息表并顯示表中站內(nèi)信息的差異屬性。
7.根據(jù)權(quán)利要求6所述的站內(nèi)信息的篩選裝置,其特征在于,所述屬性分析模塊,將各個屬性字段中出現(xiàn)次數(shù)大于等于第一預(yù)設(shè)閾值的關(guān)鍵詞作為該屬性的高頻關(guān)鍵詞,將所述高頻關(guān)鍵詞出現(xiàn)比例大于等于第二預(yù)設(shè)閾值的屬性確定為類別屬性,所述類別屬性之外的其他屬性為差異屬性。
8.根據(jù)權(quán)利要求5或6所述的站內(nèi)信息的篩選裝置,其特征在于,所述屬性分析模塊,還用于計算各個類別屬性與差異屬性的權(quán)重。
9.根據(jù)權(quán)利要求6所述的站內(nèi)信息的篩選裝置,其特征在于,所述同類匹配模塊根據(jù)各個類別屬性的權(quán)重,利用加權(quán)的文本相似匹配算法得到站內(nèi)信息之間的匹配度。
10.根據(jù)權(quán)利要求6所述的站內(nèi)信息的篩選裝置,其特征在于,所述差異顯示模塊生成的同類匹配站內(nèi)信息表中的站內(nèi)信息根據(jù)與當前被訪問的站內(nèi)信息的匹配度從大到小排列,表中的任一站內(nèi)信息被訪問時,同時顯不表中其他站內(nèi)信息的差異屬性。
全文摘要
本發(fā)明公開了一種站內(nèi)信息的篩選方法和裝置,通過文本挖掘的技術(shù)手段,篩選出站內(nèi)信息之間類別屬性和差異屬性,利用同類站內(nèi)信息匹配度的識別算法,將具有較高匹配度的同類站內(nèi)信息篩選出來,通過差異屬性對同類站內(nèi)信息進行對比。本發(fā)明能夠篩選到更精確的相關(guān)站內(nèi)信息,降低了網(wǎng)頁客戶端與網(wǎng)站服務(wù)器之間交互的接口壓力,而且方便用戶對查詢到的相關(guān)站內(nèi)信息進行對比。
文檔編號G06F17/30GK102722567SQ20121017984
公開日2012年10月10日 申請日期2012年5月30日 優(yōu)先權(quán)日2012年5月30日
發(fā)明者何勇, 張旭, 楊志雄, 蘇寧軍 申請人:杭州遙指科技有限公司