專利名稱:實現(xiàn)觀點搜索引擎排序的方法
技術領域:
本發(fā)明涉及信息檢索和搜索引擎技術領域,是一種實現(xiàn)觀點搜索 引擎排序的方法。
背景技術:
二十一世紀是信息化的時代,第三產(chǎn)業(yè)在各國的比重不斷上升,
特別是服務業(yè),信息服務業(yè)成為21世紀的主導產(chǎn)業(yè),這導致了電子商 務的產(chǎn)生和發(fā)展,在全球信息化大勢所驅(qū)的影響下,各國的電子商務 不斷的改進和完善,電子商務成為各個國家和各大公司爭奪的焦點。 而在我國,計算機與網(wǎng)絡技術的普及與發(fā)展,電子商務迅速崛起,眾 多的信息技術企業(yè)、風險投資公司、生產(chǎn)流通企業(yè)紛紛開展電子商務。
2007年,世界電子商務繼續(xù)快速發(fā)展,成為經(jīng)濟全球化的助推器。 電子商務的廣泛應用降低了企業(yè)經(jīng)營、管理和商務活動的成本,促進 了資金、技術、產(chǎn)品、服務和人員在全球范圍的流動,推動了經(jīng)濟全 球化的發(fā)展。目前,電子商務的應用已經(jīng)成為決定企業(yè)國際競爭力的 重要因素,以美國亞馬遜、EBAY以及中國的阿里巴巴等公司的成功 說明電子商務正在引領世界服務業(yè)發(fā)展,并影響著未來商業(yè)發(fā)展模式。
從整體情況看,2007年世界電子商務交易額達12.8萬億美元,占 全球商品交易的18%。以美國為首的發(fā)達國家,仍然是電子商務主力 軍,中國等發(fā)展中國家電子商務異軍突起,日益成為國際電子商務市 場的重要力量。2007年,B2B電子商務仍占主導地位,B2C、 G2C、 G2B、 C2C等電子商務發(fā)展迅猛,呈現(xiàn)多元發(fā)展態(tài)勢。以大型骨干企 業(yè)為龍頭的行業(yè)電子商務是B2B主流力量,ASP等第三方電子商務平 臺成為中小企業(yè)電子商務應用的成功模式之一。
當在網(wǎng)上購物時,用戶面臨的一個很大的問題就是如何在眾多的 電子商務網(wǎng)站上找到自己想要的物品評價信息,基于用戶評論信息的
4觀點搜索引擎是解決這個問題的關鍵,當用戶輸入一個產(chǎn)品或產(chǎn)品屬 性時,觀點搜索引擎就按照關鍵詞語到索引文件中査找,并返回最相 關的產(chǎn)品觀點信息。
目前針對用戶評論信息的觀點搜索引擎還處在研究階段。并且存 在以下問題,第一沒有充分考慮到評論信息的品質(zhì)高低。第二沒有考 慮到時間維度信息在搜索結果排序中的重要性。第三沒有對搜索結果 進行統(tǒng)計分析及可視化。
發(fā)明內(nèi)容
(一) 要解決的技術問題
有鑒于此,為了為潛在用戶提供方便快捷的觀點信息服務,以及 解決現(xiàn)有的觀點搜索排序方法存在的問題,本發(fā)明的主要目的是提供 一種實現(xiàn)觀點搜索引擎排序的方法,以克服現(xiàn)有觀點搜索引擎排序方 法存在的問題,如只考慮觀點信息的相關性,沒有對搜索結果進行可 視化等缺陷,為潛在用戶提供更有效的觀點信息服務。
(二) 技術方案
為了達到上述目的,本發(fā)明提供了一種實現(xiàn)觀點搜索引擎排序的 方法,該方法包括
步驟S1:使用網(wǎng)絡爬蟲對用戶評論網(wǎng)頁進行抓取,對抓取的網(wǎng)頁 進行預處理,從預處理后的網(wǎng)頁中提取出用戶評論信息;
步驟S2:使用數(shù)據(jù)挖掘技術從該用戶評論信息中提取產(chǎn)品的屬性,
并確定屬性評論信息的極性,構建評論信息庫;
步驟S3:轉(zhuǎn)換該評論信息庫中所有用戶評論信息文檔的格式,構
建用戶評論信息文檔的層次結構;
步驟S4:對轉(zhuǎn)換以后的用戶評論信息建立倒排序索引;
步驟S5:對建立倒排序索引的用戶評論信息進行排序;
步驟S6:對用戶評論信息進行統(tǒng)計分析及可視化。
優(yōu)選地,步驟S1中所述對用戶評論網(wǎng)頁進行抓取,首先獲得電子
商務網(wǎng)站的URL網(wǎng)址,然后利用抓取器采用寬度優(yōu)先抓取的策略對這
5些電子商務網(wǎng)站進行抓取。
優(yōu)選地,步驟Sl中所述提取出用戶評論信息采用RoadRunner算 法對抓取的用戶評論信息網(wǎng)頁進行提取。
優(yōu)選地,步驟S2中所述數(shù)據(jù)挖掘技術為association rule mining技 術,所述確定屬性評論信息的極性是確定用戶對該屬性的評論是正面 的還是反面的。
優(yōu)選地,步驟S3中所述用戶評論信息文檔的層次結構用于表示用 戶評論信息中的元數(shù)據(jù)信息和用戶評論信息的具體內(nèi)容,在用戶評論 信息的具體內(nèi)容表示上以用戶評論信息中含有產(chǎn)品屬性和觀點極性的 評論句子為單位,評論句子包括該句子含有的產(chǎn)品屬性、觀點極性和 句子的具體內(nèi)容。
優(yōu)選地,步驟S4中所述建立的倒排序索引,用于存儲用戶評論信 息中的元數(shù)據(jù),同時索引了評論句子的具體內(nèi)容,該索引是建立在句 子層次上的索引,而不是在用戶評論文檔層次上的索引。
優(yōu)選地,步驟S5中所述對建立倒排序索引的用戶評論信息進行排 序,以評論信息的相關性、評論信息的品質(zhì)因子、評論信息的時間維 度信息為關鍵詞進行。
優(yōu)選地,步驟S6中所述對用戶評論信息進行統(tǒng)計分析及可視化, 是通過對搜索出的用戶評論信息進行統(tǒng)計分析,將用戶評論信息隨時 間變化的趨勢信息,以及對于某種產(chǎn)品屬性的正反面評價對比信息進 行可視化。
(三)有益效果
從上述技術方案可以看出,本發(fā)明提供的這種實現(xiàn)觀點搜索引擎 排序的方法,有效地融合了用戶評論信息的品質(zhì)因素,并充分考慮了 時間維度信息,能夠為潛在用戶提供更準確、更相關、更及時的觀點 信息服務。因此,本發(fā)明從一定程度上解決了現(xiàn)有觀點搜索排序方法 存在的問題。同時本發(fā)明對搜索結果進行統(tǒng)計分析,將用戶評論信息 隨時間變化的趨勢信息,以及對于某種產(chǎn)品屬性的正反面評價對比信 息進行可視化,給潛在用戶清晰直觀的用戶評論信息。
圖1是本發(fā)明提供的實現(xiàn)觀點搜索引擎排序的方法流程圖; 圖2是依照本發(fā)明實施例經(jīng)過步驟Sl預處理后的結果示意圖; 圖3是依照本發(fā)明實施例步驟S2屬性抽取以及屬性評論信息的極 性確定的結果示意圖4是依照本發(fā)明實施例表示用戶評論信息文檔的層次結構圖,-圖5是依照本發(fā)明實施例經(jīng)過步驟S3轉(zhuǎn)換后的結果示意圖; 圖6是依照本發(fā)明實施例評論信息隨時間變化的曲線圖7是依照本發(fā)明實施例正反面觀點對比用的直方圖8是依照本發(fā)明實施例用戶搜索產(chǎn)品屬性"Sony W55 Size"是
系統(tǒng)返回的結果圖。
具體實施例方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,以下結合具 體實施例,并參照附圖,對本發(fā)明進一步詳細說明。應指出的是,所 描述的實施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。
為了實現(xiàn)本發(fā)明的方法,考慮到算法涉及多線程抓取和建立倒排 序索引,如果在單機實現(xiàn),最好保證處理器主頻不小于2GHz,內(nèi)存不 小于1G,可采用任何常用編程語言編寫。
本發(fā)明提出的觀點搜索引擎排序方法,總體流程如圖1所示,具 體包括用戶評論信息抓取(步驟S1)部分和構建評論信息庫(S2) 為整個搜索引擎準備數(shù)據(jù);步驟S3將評論信息庫中所有用戶評論信息 文檔轉(zhuǎn)換成如圖4所示的層次結構;步驟S4是對轉(zhuǎn)換以后的用戶評論 信息建立倒排序索引;步驟S5是對用戶的搜索結果進行排序;步驟 S6是對用戶搜索結果進行統(tǒng)計分析及可視化。
基于圖1所示的實現(xiàn)觀點搜索引擎排序的方法流程圖,以下詳細 說明本發(fā)明提供的這種實現(xiàn)觀點搜索引擎排序的方法流程圖。
步驟S1:使用網(wǎng)絡爬蟲對用戶評論網(wǎng)頁進行抓取,對抓取的網(wǎng)頁 進行預處理,從預處理后的網(wǎng)頁中提取出用戶評論信息。評論網(wǎng)頁進行抓取,首先獲得電子商務網(wǎng)站 網(wǎng)站的URL網(wǎng)址,然后利用抓取器采用寬度優(yōu)先抓取的策略對這些電 子商務網(wǎng)站進行抓取。對電子商務網(wǎng)站進行目錄式抓取,因為本發(fā)明 是針對用戶評論信息,所以要抓取的目標網(wǎng)頁主要來自電子商務網(wǎng)站,
比如亞馬遜等。首先人為獲得這些網(wǎng)站的URL網(wǎng)址,用自己編寫的抓
取器對這些電子商務網(wǎng)站進行抓取。由于這些網(wǎng)站絕大多數(shù)都是電子 商務主題的信息,而且層次較少,所以采用寬度優(yōu)先抓取的策略。見
圖1中步驟S1。由于網(wǎng)頁抓取己經(jīng)有許多成熟的方法,所以不屬于本 發(fā)明強調(diào)的內(nèi)容。
使用基于RoadRunner算法對抓取的用戶評論信息網(wǎng)頁進行相關信 息抽取,主要提取用戶發(fā)表在網(wǎng)站上評論信息,RoadRunner算法參考 文獻"RoadRunner: Towards Automatic Data Extraction from Large Web Sites"。預處理的結果如圖2所示。
步驟S2:使用數(shù)據(jù)挖掘技術從該用戶評論信息中提取產(chǎn)品的屬性, 并確定屬性評論信息的極性,構建評論信息庫。
在本步驟中,所述提取出用戶評論信息采用RoadRunner算法對抓 取的用戶評論信息網(wǎng)頁進行提取,即采用數(shù)據(jù)挖掘中association rule mining技術從步驟Sl預處理的結果提取產(chǎn)品屬性以及對屬性的評論信 息,具體方法參考文獻"Mining Opinion Features in Customer Reviews"。然后確定屬性的評論信息的觀點極性,即確定用戶對該屬 性的評論是正面的還是反面的,確定觀點極性的方法參考文獻 "Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification of Reviews"。提取結果如圖3所示。
步驟S3:轉(zhuǎn)換該評論信息庫中所有用戶評論信息文檔的格式,構
建用戶評論信息文檔的層次結構。
在本步驟中,所述用戶評論信息文檔的層次結構用于表示用戶評 論信息中的元數(shù)據(jù)信息和用戶評論信息的具體內(nèi)容,在用戶評論信息 的具體內(nèi)容表示上以用戶評論信息中含有產(chǎn)品屬性和觀點極性的評論 句子為單位,評論句子包括該句子含有的產(chǎn)品屬性、觀點極性和句子
的具體內(nèi)容。
8將步驟S2處理的結果轉(zhuǎn)換成如圖4所示的層次結構,轉(zhuǎn)換結果如 圖5所示。該層次結構能夠清晰表示用戶評論文檔的元數(shù)據(jù)以及用戶 評論文檔的具體內(nèi)容。
步驟S4:對轉(zhuǎn)換以后的用戶評論信息建立倒排序索引。 在本步驟中,所述建立的倒排序索引,用于存儲用戶評論信息中 的元數(shù)據(jù),同時索引了評論句子的具體內(nèi)容,該索引是建立在句子層 次上的索引,而不是在用戶評論文檔層次上的索引。為了能夠快速找
到用戶需求的信息,我們?yōu)椴襟ES3處理的結果建立倒排序索引,所謂
倒排序索引就是在搜索引擎實際的引用之中,有時需要按照關鍵字的 某些值查找記錄,所以我們是按照關鍵字建立索引,這個索引我們就 稱之為倒排索引,而帶有倒排索引的文件我們又稱作倒排索引文件也 可以叫它為倒排文件來實現(xiàn)快速的檢索與高速的效率。注意本發(fā)明中
倒排序索引的特點是對元數(shù)據(jù)進行存儲的,在實施例中的元數(shù)據(jù)為"A
very good choice for lots of people-easy to carry, easy to use"; "257/261"; "2007年3月24日"。而對用戶評論信息的具體內(nèi)容我們是以句子為 單位進行索引,而不是以一個用戶評論信息文檔為單位進行索引的。 這樣做的好處是,用戶評論信息文檔中往往會對產(chǎn)品的多個屬性進行 評論,而每個句子一般只含有對一個屬性的評論信息,以句子為單位 進行索引,有利于更精確的定位到用戶查詢的屬性。
步驟S5:對建立倒排序索引的用戶評論信息進行排序。 在本步驟中,所述對建立倒排序索引的用戶評論信息進行排序, 以評論信息的相關性、評論信息的品質(zhì)因子、評論信息的時間維度信 息為關鍵詞進行。本發(fā)明中排序方法不單單考慮相關性,而且考慮了 用戶評論信息品質(zhì)因子、時間維度信息。具體算法如下所述
品質(zhì)因子計算公式 a a ,其中02,是第i個用
戶評論文檔的品質(zhì)因子;力是閱讀了本評論的讀者中認為該評論有幫
9助的人數(shù);6.是閱讀了本條評論的讀者人數(shù)。
時間維度信息計算公式TDFi=l + eXp^^,其中TDFi是第i個用
戶評論文檔的時間維度信息; 是該用戶評論信息發(fā)表的時間;t是用 戶查詢的時間;/ 是一個常量。
相關性計算公式Z氣.=Z《(0*W/W"G.,W)*/Ar(^/^W),該
z /€《公式。
最終得分計算公式^ .="Zi + (l-")(7PF.+02.),尸凡為第i個用 戶評論文檔的最終得分。它將決定該文檔最終的排序;a為0到1的
下面給出一個具體的計算排序的實例,為了簡單在這里以3個用 戶評論信息文檔為例,如表1所示。本例中"=0.65, / =10。
Review 1Review2Review3
Help257/26116/1715/18
Date3/24/074/10/075/15/07
表1
:個評論信息的品質(zhì)因子分別為:
w 257 257 , o; Ogl =-+-=1.85
261 261+17+18 16
17 261+17+18 15
18 261+17+18 :個評論信息的時間維度信息分別為
:0.99 0.88
10,H+eXp{-,1—3)—24]H.49 丄 " 30*10
30*10H.58
J 30*10 三個評論信息的相關性分別為
三個評論信息最終得分為
,=0.65*0.87+0.35*(1.85+1.49)=1.73
=0.65*0.91 + 0.35*(0.99 + 1.51)=1.47
,=0.65*0.96+0.35*(0.88+1.58)=1.49
根據(jù)最后的得分巧>巧>^2,可以確定三個評論信息排名。
步驟S6:對用戶評論信息進行統(tǒng)計分析及可視化。 在本步驟中,所述對用戶評論信息進行統(tǒng)計分析及可視化,是通 過對搜索出的用戶評論信息進行統(tǒng)計分析,將用戶評論信息隨時間變 化的趨勢信息,以及對于某種產(chǎn)品屬性的正反面評價對比信息進行可 視化。
為了給用戶提供更加直觀的信息,需要對搜索結果進行可視化, 評論信息隨時間變化曲線具體實現(xiàn)方法如下,以月份為基本單位,統(tǒng) 計每個月份中針對某種產(chǎn)品評論的總數(shù),然后以月份為橫坐標,每個 月份的評論數(shù)為縱坐標得到用戶評論信息隨時間變化的趨勢曲線,見
圖6。正反面觀點信息對比直方圖實現(xiàn)方法是,在搜索結果中統(tǒng)計正面
觀點總數(shù)與反面觀點總數(shù),然后將正反面觀點對比用直方圖表示,見
圖7。圖8為用戶搜索產(chǎn)品屬性"Sony W55 Size"是系統(tǒng)返回的結果圖。其中左上方為"Sony W55 Size"的評論信息隨時間變化趨勢曲線, 右上方為"Sony W55 Size"正反面觀點信息對比直方圖,下方為針對 "Sony W55 Size"這一屬性具體的評論信息。
以上所述的具體實施例,對本發(fā)明的目的、技術方案和有益效果 進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體 實施例而己,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi), 所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍 之內(nèi)。
權利要求
1、一種實現(xiàn)觀點搜索引擎排序的方法,其特征在于,該方法包括步驟S1使用網(wǎng)絡爬蟲對用戶評論網(wǎng)頁進行抓取,對抓取的網(wǎng)頁進行預處理,從預處理后的網(wǎng)頁中提取出用戶評論信息;步驟S2使用數(shù)據(jù)挖掘技術從該用戶評論信息中提取產(chǎn)品的屬性,并確定屬性評論信息的極性,構建評論信息庫;步驟S3轉(zhuǎn)換該評論信息庫中所有用戶評論信息文檔的格式,構建用戶評論信息文檔的層次結構;步驟S4對轉(zhuǎn)換以后的用戶評論信息建立倒排序索引;步驟S5對建立倒排序索引的用戶評論信息進行排序;步驟S6對用戶評論信息進行統(tǒng)計分析及可視化。
2、 根據(jù)權利要求l所述的實現(xiàn)觀點搜索引擎排序的方法,其特征 在于,步驟S1中所述對用戶評論網(wǎng)頁進行抓取,首先獲得電子商務網(wǎng) 站的URL網(wǎng)址,然后利用抓取器采用寬度優(yōu)先抓取的策略對這些電子 商務網(wǎng)站進行抓取。
3、 根據(jù)權利要求l所述的實現(xiàn)觀點搜索引擎排序的方法,其特征 在于,步驟Sl中所述提取出用戶評論信息采用RoadRunner算法對抓 取的用戶評論信息網(wǎng)頁進行提取。
4、 根據(jù)權利要求l所述的實現(xiàn)觀點搜索引擎排序的方法,其特征 在于,步驟S2中所述數(shù)據(jù)挖掘技術為association rule mining技術,所 述確定屬性評論信息的極性是確定用戶對該屬性的評論是正面的還是 反面的。
5、 根據(jù)權利要求l所述的實現(xiàn)觀點搜索引擎排序的方法,其特征在于,步驟S3中所述用戶評論信息文檔的層次結構用于表示用戶評論信息中的元數(shù)據(jù)信息和用戶評論信息的具體內(nèi)容,在用戶評論信息的 具體內(nèi)容表示上以用戶評論信息中含有產(chǎn)品屬性和觀點極性的評論句子為單位,評論句子包括該句子含有的產(chǎn)品屬性、觀點極性和句子的 具體內(nèi)容。
6、 根據(jù)權利要求l所述的實現(xiàn)觀點搜索引擎排序的方法,其特征在于,步驟S4中所述建立的倒排序索引,用于存儲用戶評論信息中的 元數(shù)據(jù),同時索引了評論句子的具體內(nèi)容,該索引是建立在句子層次 上的索引,而不是在用戶評論文檔層次上的索引。
7、 根據(jù)權利要求l所述的實現(xiàn)觀點搜索引擎排序的方法,其特征 在于,步驟S5中所述對建立倒排序索引的用戶評論信息進行排序,以 評論信息的相關性、評論信息的品質(zhì)因子、評論信息的時間維度信息 為關鍵詞進行。
8、 根據(jù)權利要求l所述的實現(xiàn)觀點搜索引擎排序的方法,其特征 在于,步驟S6中所述對用戶評論信息進行統(tǒng)計分析及可視化,是通過 對搜索出的用戶評論信息進行統(tǒng)計分析,將用戶評論信息隨時間變化 的趨勢信息,以及對于某種產(chǎn)品屬性的正反面評價對比信息進行可視 化。
全文摘要
本發(fā)明公開了一種實現(xiàn)觀點搜索引擎排序的方法,包括使用網(wǎng)絡爬蟲對用戶評論網(wǎng)頁進行抓取,對抓取的網(wǎng)頁進行預處理,從預處理后的網(wǎng)頁中提取出用戶評論信息;使用數(shù)據(jù)挖掘技術從該用戶評論信息中提取產(chǎn)品的屬性,并確定屬性評論信息的極性,構建評論信息庫;轉(zhuǎn)換該評論信息庫中所有用戶評論信息文檔的格式,構建用戶評論信息文檔的層次結構;對轉(zhuǎn)換以后的用戶評論信息建立倒排序索引;對建立倒排序索引的用戶評論信息進行排序;對用戶評論信息進行統(tǒng)計分析及可視化。利用本發(fā)明,有效地融合了用戶評論信息的品質(zhì)因素,并充分考慮了時間維度信息,能夠為潛在用戶提供更準確、更相關、更及時的觀點信息服務。
文檔編號G06F17/30GK101515269SQ200810057879
公開日2009年8月26日 申請日期2008年2月20日 優(yōu)先權日2008年2月20日
發(fā)明者戴汝為, 李秋丹, 王春恒, 繆慶亮 申請人:中國科學院自動化研究所