專利名稱:基于語義的查找、集成和提供評論信息的方法及搜索系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù),特別涉及實(shí)現(xiàn)了對異構(gòu)的和層次化的評論內(nèi)容的評估、集成和整合的方法和搜索引擎系統(tǒng)。
背景技術(shù):
人們利用搜索引擎查找關(guān)于產(chǎn)品、服務(wù)、活動、人物等評論信息已非常普遍。顯然, 評論信息的可信度對用戶使用該信息有直接的影響。本發(fā)明所述“評論”一詞是指,但不限于,散布在網(wǎng)頁上的評論,評價(jià),意見,言論,判斷,評估等。此外,它也泛指文字評論信息和包括了靜態(tài)圖像、動態(tài)圖像、動畫、影像等任何多媒體數(shù)字文件類型的非文字評論信息?,F(xiàn)實(shí)情況是,所有的搜索引擎僅僅把包含評論信息的鏈接返回給用戶,由用戶自己判斷信息的真?zhèn)巍S袠O少數(shù)搜索引擎在返回的信息旁邊加上手工驗(yàn)證信息,如“評論人身份被確認(rèn)”等。在上述情形中,搜索引擎框架中缺乏信息真實(shí)性評估模塊,無法更好地滿足用戶的需求。此外,很多評論信息包含了異構(gòu)信息(即文字信息和非文字信息,下同)。例如,不少評論者在論壇、博客和郵件中用情感圖標(biāo)(Emoticon)和GIF圖片表達(dá)態(tài)度和觀點(diǎn)。另一個(gè)典型例子是,cnet、tigerdirect等網(wǎng)站大量使用影像信息來評論產(chǎn)品。隨著iPhone、數(shù)碼攝像機(jī)和網(wǎng)絡(luò)攝像機(jī)的逐步流行,可以預(yù)見,互聯(lián)網(wǎng)上非文字評論信息將更加廣泛地傳播。從用戶體驗(yàn)來看,非文字信息具有直觀、易懂的優(yōu)點(diǎn)。更重要的是,它們是用戶評論不可分隔的部分,忽略這些信息會造成用戶無法獲得全面信息等問題。在現(xiàn)有的搜索引擎框架中(如圖1所示),由于缺乏非文字信息提取、非文字信息與文字信息的有效映射、非文字信息集成等功能模塊,非文字信息的處理被忽略掉了。另一個(gè)值得注意的問題是,評論對象往往不是孤立的,與之相關(guān)的對象也能為用戶提供有價(jià)值的信息。例如,消費(fèi)者在購買一款數(shù)碼相機(jī)(如Powershot 4500IS)時(shí),最先關(guān)注的往往是這款相機(jī)的品牌(如佳能)。在用戶查找關(guān)于一款相機(jī)的評論信息時(shí),搜索引擎自動返回與這款相機(jī)相關(guān)的信息(如對品牌的評論)是很有意義的。換言之,賦予搜索引擎框發(fā)現(xiàn)、創(chuàng)建和管理與評論對象相關(guān)的評論信息的新功能將能夠更好地服務(wù)廣大用戶??傊?,能夠合理評估信息的真?zhèn)魏屯瑫r(shí)管理異構(gòu)信息不應(yīng)被看成是現(xiàn)有搜索引擎可有可無的功能特點(diǎn),而是搜索引擎技術(shù)進(jìn)一步發(fā)展中所必備的功能。此外,如佳能相機(jī)的例子所述,搜索引擎需要新的系統(tǒng)設(shè)計(jì)和方法來自動發(fā)掘、集成、總結(jié)和管理評價(jià)對象的層級關(guān)系。
發(fā)明內(nèi)容
本發(fā)明要解決的問題是,克服現(xiàn)有技術(shù)中的不足,提供一種基于語義的查找、集成和提供評論信息的搜索方法和搜索引擎系統(tǒng)。為解決技術(shù)問題,本發(fā)明的解決方案是提供一種基于語義的查找、集成和提供評論信息的方法,包括利用搜索引擎發(fā)現(xiàn)和集成文字評論信息,并按主題分類和匯總評論文本;該方法還包括對非文字評論信息的提取,并挖掘非文字評論信息與文字評論信息之間的語義聯(lián)系,在此基礎(chǔ)上集成這兩類信息以供搜索服務(wù)需要;其實(shí)現(xiàn)的步驟包括(1)主動識別提供評論信息的數(shù)據(jù)源或被動接收包含評論信息的信息源的鏈接請求,建立與該數(shù)據(jù)源的鏈接,并將包含評論信息在內(nèi)的數(shù)據(jù)保存到抓取服務(wù)器上;(2)分析包含評論信息的數(shù)據(jù),提取元信息以建立文字評論信息和非文字評論信息的語義注解標(biāo)簽;(3)利用語義注解標(biāo)簽從包含評論信息的數(shù)據(jù)中提取文字評論信息和非文字評論 fn息;(4)對文字評論信息與非文字評論信息進(jìn)行標(biāo)準(zhǔn)化處理,通過語義分析來評估、過濾不合適的評論信息,并進(jìn)行異常處理;(5)對已評估的信息根據(jù)評價(jià)對象及其內(nèi)在的語義關(guān)系進(jìn)行集成;(6)為集成好的信息和原始數(shù)據(jù)建立索引;(7)利用索引信息處理查詢要求,返回匹配的內(nèi)容。在本說明中,元信息泛指對信息的特征的描述。而步驟O)中所述的元信息在此處特指對評論信息的描述、說明,比如評論人、評論時(shí)間等。元信息可以用來建立評論信息的注解標(biāo)簽。本發(fā)明所述步驟(1)中,抓取服務(wù)器能夠主動抓取數(shù)據(jù)源,也能夠自動接收數(shù)據(jù)源,并識別數(shù)據(jù)源是否包含評論信息和建立與包含評論信息的數(shù)據(jù)源的鏈接。本發(fā)明所述步驟(2)包括判斷評論信息所在的分類,具體如下(A)利用鍵-值表的鍵屬性檢索數(shù)據(jù)源和評論信息的元信息;如鍵屬性匹配到某項(xiàng)元信息,則相應(yīng)的值屬性的值被當(dāng)成信息分類返回;如鍵屬性無法匹配元信息,則執(zhí)行下一步;(B)檢索評論信息源文件中的標(biāo)簽;如果標(biāo)簽的屬性包含了指定的分類詞或詞組,則將這些詞或詞組做為信息分類返回;如果所有標(biāo)簽屬性都不包含指定的分類詞或詞組,則執(zhí)行下一步驟;(C)掃描評論信息正文,計(jì)算分類詞或詞組出現(xiàn)的詞頻;將最大詞頻對應(yīng)的分類詞或詞組做為信息分類返回;如果詞頻總和為零,則將信息分類設(shè)置為NULL。本發(fā)明所述步驟(3)中,還包括從被保存的數(shù)據(jù)中提取與文字評論信息相關(guān)的非文字評論信息。本發(fā)明步驟(4)所述的過濾包括過濾與屏蔽垃圾數(shù)據(jù)、內(nèi)容重復(fù)或相似的數(shù)據(jù)、 與評論對象和內(nèi)容相矛盾的數(shù)據(jù)、對評論對象惡意攻擊的內(nèi)容;步驟(4)所述的異常處理包括(A)按信息被過濾、屏蔽的原因?qū)惓P畔⒎诸悾?B)將異常信息和異常類別存入統(tǒng)計(jì)數(shù)據(jù)庫中,并更新相關(guān)的統(tǒng)計(jì)參數(shù);更新后的統(tǒng)計(jì)參數(shù)將用于分析新的評論信息是否在某個(gè)方面處在異常的統(tǒng)計(jì)區(qū)間;(C)更新檢測標(biāo)志的值來標(biāo)記發(fā)生異常的原因以及指定進(jìn)一步檢測的方向;(D)將異常信息存入日志數(shù)據(jù)庫。本發(fā)明步驟( 所述的集成,包括對來自相同數(shù)據(jù)源和不同數(shù)據(jù)源的文字評論信息和非文字評論信息分別進(jìn)行集成處理,以及對評論信息按其內(nèi)在的語義關(guān)系進(jìn)行集成; 對后者的集成是把一開始呈離散狀態(tài)的評論信息按照評價(jià)對象的語義關(guān)系聯(lián)系起來,即將每一條評論信息映射到一個(gè)具有單層或多層的樹狀結(jié)構(gòu)上,以標(biāo)識該評論信息與其他評論信息的關(guān)系;基于此樹狀結(jié)構(gòu),對已映射好的評論信息進(jìn)行集成。本發(fā)明還提供了一種用于實(shí)現(xiàn)前述方法的搜索引擎系統(tǒng),包括網(wǎng)絡(luò)蜘蛛模塊、解析器模塊、檢索器模塊和展示器模塊;該系統(tǒng)還包括用于分析和提取網(wǎng)頁信息以建立語義注解標(biāo)簽的分析器模塊;用于創(chuàng)建數(shù)據(jù)模板、裝載信息及排錯(cuò)處理的評估器模塊;和應(yīng)用語義分析方法對信息進(jìn)行集成的集成器模塊;所述網(wǎng)絡(luò)蜘蛛模塊、分析器模塊、解析器模塊、評估器模塊、集成器模塊、檢索器模塊和展示器模塊依次順序布置。本發(fā)明所述分析器模塊包括一個(gè)分類識別器模塊,該分類識別器模塊能對分析器模塊接收到的信息進(jìn)行檢索和掃描,并根據(jù)鍵-值列表對應(yīng)關(guān)系或指定的詞或詞組出現(xiàn)的詞頻進(jìn)行分類。本發(fā)明所述評估器模塊包括兩個(gè)組件具有對文字內(nèi)容進(jìn)行標(biāo)準(zhǔn)化處理、構(gòu)建文字信息模板文件和處理異常的功能,從而用于文字信息的內(nèi)容評估器模塊;和具有構(gòu)建非文字信息模板文件和內(nèi)容識別的功能,從而用于非文字信息的內(nèi)容評估器模塊。本發(fā)明所述集成器模塊應(yīng)用了語義分析方法,既能夠?qū)碜酝粩?shù)據(jù)源或者不同數(shù)據(jù)源的文字評論信息和非文字評論信息進(jìn)行集成,又能夠根據(jù)評論對象之間的語義關(guān)系把呈離散狀態(tài)的評論信息以樹結(jié)構(gòu)的形式組織起來,對同屬于一個(gè)主題的評論信息進(jìn)行層次上的集成。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是非文字信息具有直觀、易懂的優(yōu)點(diǎn),更是用戶評論不可分隔的部分。本發(fā)明所涉及的語義搜索引擎系統(tǒng)包含多個(gè)系統(tǒng)功能模塊,實(shí)現(xiàn)了對異構(gòu)信息(即文字信息和非文字信息)和層次化的評論內(nèi)容的評估、集成和整合。賦予搜索引擎發(fā)現(xiàn)、創(chuàng)建和管理與評論對象相關(guān)的評論信息的新功能,能夠帶來更多更體貼的使用體驗(yàn),更好地服務(wù)廣大用戶。
圖1是現(xiàn)有技術(shù)中用來發(fā)現(xiàn)、集成和提供評論信息的搜索引擎的框架。圖2是本發(fā)明申請所描述的用于發(fā)現(xiàn)、集成和提供評論信息的新型搜索引擎的框架。圖3是圖2中分析器模塊的框架和處理過程的展示。圖4是圖2中評估器模塊的結(jié)構(gòu)描述。圖5是圖4中用于文字信息的內(nèi)容評估器模塊的框架和處理過程描述。圖6是圖4中用于非文字信息的內(nèi)容評估器模塊的框架和處理過程描述。圖7是適用于異構(gòu)評論信息的數(shù)據(jù)結(jié)構(gòu)文件。圖8是集成評論信息的框架,該框架適用與同一個(gè)網(wǎng)站和多網(wǎng)站的異構(gòu)信息集成。圖9是圖2中檢索器的框架結(jié)構(gòu)。
具體實(shí)施方式
首先需要說明的是,本發(fā)明涉及搜索引擎技術(shù)的應(yīng)用,是計(jì)算機(jī)技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的一種應(yīng)用。在本發(fā)明的實(shí)現(xiàn)過程中,會涉及到多個(gè)軟件功能模塊的應(yīng)用。申請人認(rèn)為,如在仔細(xì)閱讀申請文件、準(zhǔn)確理解本發(fā)明的實(shí)現(xiàn)原理和發(fā)明目的以后,在結(jié)合現(xiàn)有公知技術(shù)的情況下,本領(lǐng)域技術(shù)人員完全可以運(yùn)用其掌握的軟件編程技能實(shí)現(xiàn)本發(fā)明。前述軟件功能模塊包括但不限于網(wǎng)絡(luò)蜘蛛模塊、分析器模塊、解析器模塊、評估器模塊、集成器模塊、檢索器模塊、展示器模塊、異常檢測模塊、文字信息模版文件、非文字信息模版文件等, 凡本發(fā)明申請文件提及的均屬此范疇,申請人不再一一列舉。1、當(dāng)前現(xiàn)存的搜索引擎的框架圖1描述了現(xiàn)存的搜索引擎用來發(fā)現(xiàn)和集成評論信息的框架。該框架包括網(wǎng)絡(luò)蜘蛛模塊100、解析器模塊102、集成器模塊104和檢索器模塊106。除集成器模塊104用來按主題分類和匯總評論文本外,該框架與谷歌等通用搜索引擎的框架幾乎一樣,即在于向用戶提供鏈接到評論信息的超鏈接,而不是評估評論信息的內(nèi)容。此外,非文本評論信息的處理被排除在現(xiàn)存的框架外,原因是該框架只實(shí)現(xiàn)對文本信息的發(fā)現(xiàn),提取和匯總功能。同時(shí),現(xiàn)存搜索引擎沒有對評論對象的層次結(jié)構(gòu)進(jìn)行處理的能力。2、語義搜索引擎的框架圖2展示了本發(fā)明中用于查找、匯總評論信息的搜索引擎框架。該框架功能可分為三大塊第一個(gè)功能塊是網(wǎng)絡(luò)蜘蛛模塊200。它可以被部署在一個(gè)或多個(gè)服務(wù)器(即抓取服務(wù)器)上,既可以有選擇地抓取包含評論信息的網(wǎng)頁,將網(wǎng)頁保存到抓取服務(wù)器上的內(nèi)存或文件系統(tǒng)中,也可以自動接收數(shù)據(jù)源發(fā)送的數(shù)據(jù),識別其中是否包含評論信息,之后主動建立與包含評論信息的數(shù)據(jù)源的鏈接,將包含評論信息的數(shù)據(jù)保存到抓取服務(wù)器的內(nèi)存或文件系統(tǒng)中。第二個(gè)功能塊是集成索引模塊210。它包含下面幾個(gè)子模塊分析器模塊201 該模塊用來分析存放在抓取服務(wù)器上的評論信息網(wǎng)頁,并從網(wǎng)頁中提取域名、網(wǎng)址等網(wǎng)頁元信息用來建立異構(gòu)信息的語義注解標(biāo)簽(armotators)。語義注解標(biāo)簽是本體、機(jī)器學(xué)習(xí)等語義分析技術(shù)產(chǎn)生的某些特定文件、程序或數(shù)據(jù)結(jié)構(gòu)。它的一個(gè)特例就是存儲了產(chǎn)品信息的XML文件;這個(gè)文件中包含了產(chǎn)品名稱、描述等信息以及這些信息出現(xiàn)在網(wǎng)頁上的位置。更復(fù)雜的語義注解標(biāo)簽可以是一段從網(wǎng)頁上獲取特定的信息 JScript代碼。由于生成語義注解標(biāo)簽的目的就是從數(shù)據(jù)源中提取出結(jié)構(gòu)化的信息,這些腳本必須了解被提取信息的內(nèi)在含義,而不是這些信息的字面含義。換言之,語義注解標(biāo)簽并不依賴關(guān)鍵字的字面匹配技術(shù)?;谡Z義注解標(biāo)簽的分析器模塊使搜索引擎具有了分析信息相關(guān)性和理解自然語言的能力;解析器模塊202 該模塊利用分析器模塊201創(chuàng)建的語義注解標(biāo)簽從被抓取、保存下來的數(shù)據(jù)中提取文字信息和非文字信息。如當(dāng)前數(shù)據(jù)中不包含語義注解標(biāo)簽指示的目標(biāo)信息,該模塊還將自動鏈接到語義注解標(biāo)簽指示的目標(biāo)數(shù)據(jù)源以便獲取目標(biāo)信息內(nèi)容;評估器模塊203 該模塊用于評估由解析器模塊202提取的異構(gòu)信息,并執(zhí)行信息過濾和異常檢測。該模塊執(zhí)行的第一步是為文字信息和非文字信息分別創(chuàng)建數(shù)據(jù)模版文件,并把需要評估的信息內(nèi)容進(jìn)行標(biāo)準(zhǔn)化處理后裝載到這些模版文件中。標(biāo)準(zhǔn)化處理包括將評論時(shí)間、評論人地址、評論人經(jīng)驗(yàn)值等信息內(nèi)容轉(zhuǎn)換成統(tǒng)一的格式。評估器模塊執(zhí)行的第二步是過濾不合適的內(nèi)容。這一步將利用語義分析工具對垃圾數(shù)據(jù)、內(nèi)容重復(fù)或相似的數(shù)據(jù)、與評論對象和內(nèi)容相矛盾的數(shù)據(jù)、對評論對象惡意攻擊的內(nèi)容等進(jìn)行過濾或屏蔽。評估器還將利用預(yù)先定義好的異常檢測模塊20313對被裝載的內(nèi)容進(jìn)行異常檢測。異常檢測模塊20313將分析信息被過濾或屏蔽的原因和錯(cuò)誤類型,并將信息和錯(cuò)誤類型保存到統(tǒng)計(jì)數(shù)據(jù)庫和日志數(shù)據(jù)庫中做為進(jìn)一步分析處理的依據(jù)。沒有違反任何錯(cuò)誤規(guī)則的評論數(shù)據(jù)及其模版將被保存到分析服務(wù)器的內(nèi)存中等待集成處理;集成器模塊204 該模塊實(shí)施的信息集成包含三步一是對來自相同數(shù)據(jù)源的異構(gòu)信息進(jìn)行集成,二是對來自不同數(shù)據(jù)源的異構(gòu)信息進(jìn)行集成,最后是對在語義層次上存在相互關(guān)系的異構(gòu)數(shù)據(jù)進(jìn)行集成。第一步是利用信息模板2034識別出評論主題相同或者相似且來自同一數(shù)據(jù)源的信息,并基于這些信息更新其元信息,如評論數(shù)、評論人數(shù)、評論時(shí)間分布、評論內(nèi)容傾向等。第二種是利用信息模板2034識別出評論主題相同或相似但來自不同數(shù)據(jù)源的信息,并基于這些信息更新其元信息。第三步是利用信息模板2034和語義注解標(biāo)簽挖掘評論數(shù)據(jù)之間的語義關(guān)聯(lián)性,以此構(gòu)建單層或多層的樹狀結(jié)構(gòu),最后將評論數(shù)據(jù)映射到這個(gè)樹狀結(jié)構(gòu)上進(jìn)行集成。檢索器模塊205 該模塊把單詞、短語和語義注解標(biāo)簽映射到已經(jīng)集成好的數(shù)據(jù)信息和抓取服務(wù)器抓取到的最原始的數(shù)據(jù)集中。同時(shí),該模塊把這些映射關(guān)系儲存到數(shù)據(jù)庫或文件系統(tǒng)中做為評論信息的索引。這些索引信息將被用來處理用戶的信息查詢。第三個(gè)功能模塊是展示器模塊220。這個(gè)模塊負(fù)責(zé)接收和處理最終用戶的查詢,并利用檢索器模塊205產(chǎn)生的索引信息向用戶返回匹配的內(nèi)容。3、兩種框架的差異兩種框架的差異首先表現(xiàn)在現(xiàn)存搜索引擎框架的設(shè)計(jì)者認(rèn)為,通過在現(xiàn)存框架內(nèi)增加一個(gè)數(shù)據(jù)集成模塊就能夠?qū)崿F(xiàn)對評論信息的處理,以及能夠滿足用戶的需求;后者框架的設(shè)計(jì)者認(rèn)為,由于評論信息富含自然語言特征(如個(gè)性化詞匯、語義規(guī)則等),僅僅依靠增加單個(gè)數(shù)據(jù)集成模塊,而不是把語義分析功能視為整個(gè)搜索引擎框架中不可或缺的部分,則無法有效完成對評論信息的處理。此外,后者框架的設(shè)計(jì)者認(rèn)為,僅僅對評論信息進(jìn)行處理并不能很好地滿足用戶的需求。對用戶而言,很多評論信息帶有特殊的應(yīng)用范圍和明顯的層次結(jié)構(gòu)。正如前面提到的佳能相機(jī)的例子,用戶在做購買決策時(shí)需要的不僅僅是對該相機(jī)的評論信息,還需要對一個(gè)品牌的認(rèn)識。從這點(diǎn)來看,搜索引擎具備分析評論信息層次結(jié)構(gòu)的能力是非常重要的。顯然,現(xiàn)存的搜索引擎并不具備這樣的能力。最后,正如前面提到的,異構(gòu)數(shù)據(jù)已被用來表達(dá)用戶的觀點(diǎn)已經(jīng)成為一種趨勢。因此,語義搜索引擎的設(shè)計(jì)者認(rèn)為,要更好地處理用戶評論信息,搜索引擎必須能夠處理異構(gòu)數(shù)據(jù)。顯然,傳統(tǒng)搜索引擎的設(shè)計(jì)者尚未認(rèn)識到這一點(diǎn)。4、構(gòu)建語義注解標(biāo)簽圖3描述了分析器模塊201框架結(jié)構(gòu)。該模塊的輸入包括域名2011,網(wǎng)址2012、 HTML文字信息2013、HTML非文字信息2014。該模塊的輸出分別為標(biāo)識文字信息的語義解析標(biāo)簽201B和標(biāo)識非文字信息的語義解析標(biāo)簽201C。整個(gè)分析過程始于將輸入域名、網(wǎng)址等信息傳遞內(nèi)存緩沖區(qū)2015,之后在傳遞給分類識別器模塊2016。該模塊負(fù)責(zé)判斷評論信息所在的分類。此處的“分類”一詞指的是,既包括一個(gè)大分類,也包括一個(gè)大分類及其下屬的多個(gè)小分類?,F(xiàn)在就值得提出的是,這些分類信息不僅在這個(gè)模塊非常有用,而且在后來的模塊和流程都會多次用到。例如,在評估器模塊203中,這些分類信息被用于構(gòu)建文字信息模版20311和非文字信息模板20321。這兩個(gè)模版將在集成器204中被用來集成評論信息。以下介紹識別分類的過程1)分類識別器模塊2016首先在一個(gè)鍵-值列表中檢索輸入的域名。這個(gè)列表中, “鍵”屬性對應(yīng)的是域名信息,“值”屬性對應(yīng)的是域名所在的分類。如果列表的“鍵”屬性包含了輸入的域名,那么對應(yīng)的“值”屬性的值將被返回做為輸入域名所屬的分類。如果列表的“鍵”屬性不包含輸入的域名,類別識別模塊執(zhí)行第2·)步;2)搜索HTML網(wǎng)頁源碼中的<title>和〈description〉標(biāo)簽。如果這些標(biāo)簽的某個(gè)屬性包含了指定的分類詞或詞組,那么這些詞或詞組將被返回做為輸入域名所屬的分類。例如,如果在〈title〉標(biāo)簽中某個(gè)屬性存在包含關(guān)鍵詞“HDTV”,而“HDTV”是一個(gè)預(yù)先定義的分類,則輸入的域名被歸為“HDTV”這個(gè)類別。如果類別識別模塊無法從〈title〉和 〈description〉標(biāo)簽中獲得分類詞或詞組,則執(zhí)行第3)步;3)掃描HTML網(wǎng)頁源碼,計(jì)算特定分類詞或詞組在該源碼中出現(xiàn)的詞頻。將這些詞頻從高到低排序后,取最大詞頻對應(yīng)的分類詞或詞組做為域名類別。如果詞頻總和是零,那么類別識別模塊將該域名的分類設(shè)置為NULL。當(dāng)類別識別完畢后,類別信息被用來選擇適當(dāng)?shù)臄?shù)據(jù)分析模塊以便創(chuàng)建語義解析標(biāo)簽。這些數(shù)據(jù)分析模塊包括正則表達(dá)式2017,數(shù)據(jù)挖掘2018、多媒體數(shù)據(jù)分析2019和機(jī)器學(xué)習(xí)201A??傮w而言,該分析器模塊使用正則表達(dá)式模塊和數(shù)據(jù)挖掘模塊來分析文字信息和創(chuàng)建語義解析標(biāo)簽。對于非文字信息,多媒體數(shù)據(jù)分析模塊2019是創(chuàng)建這類信息的語義解析標(biāo)簽主要工具,而創(chuàng)建過程不僅基于非文字信息的自身屬性(如文件格式、相對地址等),也基于在同一數(shù)據(jù)文件中與該非文字信息相關(guān)的文字信息。5、評論內(nèi)容的評估圖4描述了評估器模塊203的兩個(gè)組件用于文字信息的內(nèi)容評估器模塊2031和用于非文字信息的內(nèi)容評估器模塊2032。有必要指出,評估過程實(shí)質(zhì)上就是這兩個(gè)模塊的互動過程2033。要理解為什么需要兩個(gè)模塊的互動,請看例子某個(gè)用戶在博客中寫下“什么? ”后,又在其后加上了一連串的哭臉小圖標(biāo)。單單從文字信息“什么? ”來做情感分析是不足夠的,但是加上對哭臉圖標(biāo)的分析,內(nèi)容評估模塊就可以比較準(zhǔn)確地判斷出該用戶在表達(dá)驚詫、不解、憤怒等負(fù)面情緒。反過來,有的時(shí)候,單從非文字信息很難做出判斷,這時(shí)輔之以文字信息則有可能提高判斷的正確率。圖5描述了用于文字信息的內(nèi)容評估器模塊2031的框架和組成。該模塊首先基于文字信息20310構(gòu)建文字信息模版文件20311。該模版文件既包含一個(gè)主題模版(用于描述評論對象,如分類信息),也包含一個(gè)內(nèi)容模版(用于裝填原始的評論信息數(shù)據(jù)和從內(nèi)容模版到主題模版的映射信息)。當(dāng)文字信息模版文件20311建立后,評估器模塊首先初始化檢測標(biāo)簽20312,然后再進(jìn)行異常檢測。異常檢測模塊20313則利用該模版文件和統(tǒng)計(jì)數(shù)據(jù)庫20314進(jìn)行異常檢測。在正式檢測前,異常檢測模塊20313會初始化若干個(gè)檢測標(biāo)志。這些標(biāo)志被用來標(biāo)明檢測過程的異常情況和狀態(tài)。
異常檢測模塊處理下列異常類別1)不匹配20315(即評論對象是某筆記本電腦,但評論內(nèi)容討論的對象是自行車);2)沖突20316(即同一評論中出現(xiàn)自相矛盾的情況);3)垃圾20317(即某個(gè)用戶ID在一定時(shí)間內(nèi)多次重復(fù)評論同一個(gè)評論對象);4)誤導(dǎo)20318(即某具體評論跟絕大多數(shù)其他評論內(nèi)容意見相左,且沒有事實(shí)依據(jù));5)其他20319(如分類信息缺失、評論文字丟失等)。異常類別確定后,異常檢測模塊20313會進(jìn)行如下處理1)將異常類別作為一個(gè)新的記錄存入統(tǒng)計(jì)數(shù)據(jù)庫20314中,并更新相關(guān)的統(tǒng)計(jì)參數(shù)。例如,出現(xiàn)某類異常的次數(shù)與所有異常的總數(shù)的比例。更新后的統(tǒng)計(jì)參數(shù)將用于檢測新的評論信息是否在某個(gè)方面處在異常的統(tǒng)計(jì)區(qū)間;2)標(biāo)簽賦值2031A來標(biāo)記發(fā)生異常的原因,并將發(fā)生異常的原因?qū)懭虢y(tǒng)計(jì)數(shù)據(jù)庫 20314 3)將錯(cuò)誤信息存入日志數(shù)據(jù)庫203IB。對于在異常檢測中沒有被檢測出異常的數(shù)據(jù),異常檢測模塊20313將把這些數(shù)據(jù)傳遞給集成器模塊204。圖6描述了用于非文字信息的內(nèi)容評估器模塊2032的框架和組成。該模塊提取非文字評論信息20320的文件名、作者、創(chuàng)建時(shí)間、修改時(shí)間、文件格式等屬性信息,并基于這些信息構(gòu)建非文字信息模版文件20321。隨后,評估器模塊利用這些屬性信息到非文字信息內(nèi)容數(shù)據(jù)庫20323中查找是否已存在評論信息20320。如果該記錄存在,則執(zhí)行模板更新過程20326。該過程將把從數(shù)據(jù)庫記錄的內(nèi)容更新到模版文件20321中。更新后的信息模板將做為輸入?yún)?shù)傳入集成器204中。如果記錄不存在,執(zhí)行非文字內(nèi)容分析過程20325。該過程首先提取非文字信息的屬性信息,包括文件大小、尺寸、分辨率、像素、ISO速度、創(chuàng)建人、創(chuàng)建時(shí)間、最后更新時(shí)間、 幀信息、壓縮比等。接著,該過程利用這些屬性信息進(jìn)行交叉分析,包括文件類型確認(rèn)、字符信息提取、動作識別、圖像切割和內(nèi)容歸類等。最后,分析結(jié)果數(shù)據(jù)被寫入更新到非文字信息模版20321,同時(shí)也被寫入非文字信息內(nèi)容數(shù)據(jù)庫20323。當(dāng)非文字信息模板更新完畢后,它將做為輸入?yún)?shù)傳入集成器204中。圖7顯示了一個(gè)模板文件2034,該模板同時(shí)適用于處理文字信息和非文字信息的情況。該模板包括了主題模版和內(nèi)容模版主題模版包含對評論對象的描述信息,內(nèi)容模版包含評論數(shù)據(jù)以及描述評論數(shù)據(jù)的元信息。6、評論內(nèi)容的集成圖8描述了集成器模塊204的組成。該模塊用于對同網(wǎng)站評論對象的集成(同網(wǎng)站集成2041)、跨網(wǎng)站評論對象的集成(跨網(wǎng)站集成2042)和具有層級關(guān)系的評論對象的集成(層次集成2048)。如果評論數(shù)據(jù)對應(yīng)相同的域名和評論對象的ID,那么內(nèi)容的集成則為同網(wǎng)站集成。這時(shí),首先分別對同網(wǎng)站的文字信息2043和非文字信息2044進(jìn)行集成。接著是異構(gòu)信息間的集成,即將集成后的文字信息和非文字信息進(jìn)一步集成,以確保兩者之間不產(chǎn)生內(nèi)容上的矛盾,以及兩者對應(yīng)的主題模版中共有的屬性字段包含相同的數(shù)值。類似的,如果評論數(shù)據(jù)對應(yīng)于不同域名但評論對象ID相同(利用實(shí)體關(guān)聯(lián)確保相同的評論對象有相同的ID),那么內(nèi)容集成則為跨網(wǎng)站集成2042??缇W(wǎng)站集成2042與同網(wǎng)站集成2041的過程相同,即既包含對跨網(wǎng)站的文字信息2046和非文字信息2047的集成, 也包含對2046和2047這些異構(gòu)信息的集成。當(dāng)同網(wǎng)站和跨網(wǎng)站信息集成完畢后,進(jìn)行層次集成2048。層次集成既可以在同一網(wǎng)站上進(jìn)行,也可以在跨網(wǎng)站間進(jìn)行。層次集成的目的就是要把表面上離散、但內(nèi)容上相關(guān)的主題模版組織起來,并把它們合理地映射到樹狀的結(jié)構(gòu)中。例如,主題模版A的值是佳能品牌,主題模版B的值是佳能相機(jī),主題模版C的值是佳能450d。這些主題模版中,A首先被識別成樹狀結(jié)構(gòu)的父節(jié)點(diǎn),原因是“品牌”這個(gè)詞的語義范圍比起其他兩個(gè)關(guān)鍵詞“相機(jī)”和“450d”更廣。其次,通過比較“品牌”、“相機(jī)”之間的語義相似度和“品牌”、“450d”之間的語義相似度,前者相似度更高,因此,B(而非C)應(yīng)該作為A的直接子節(jié)點(diǎn)。同樣的道理,由于B的語義范圍比C更廣(在語義概念上,C實(shí)際上是B的特例),C只能作為B的子節(jié)點(diǎn),而非B的兄弟節(jié)點(diǎn)。至此,基于層級關(guān)系的三個(gè)離散的主題模版就被組織成為一個(gè)樹狀的層級結(jié)構(gòu)。從功能上講,層次集成的過程基于文字信息模版204A和非文字信息模版204B,并從這兩個(gè)模版中提取主題模版集合204C,該集合中包括主題1、主題2等。這些主題開始時(shí)處于離散的狀態(tài),但是當(dāng)集成過程完畢后,它們將被組織到一個(gè)樹結(jié)構(gòu)204D中。這個(gè)樹狀結(jié)構(gòu)是依據(jù)主題模版之間的語義關(guān)系來建立的。7、評論內(nèi)容的檢索圖9描述了檢索器模塊205的框架和組成。檢索器模塊205是由主題索引文件 2051和內(nèi)容索引文件2052構(gòu)成。主題索引文件2051把描述評論對象的主要信息映射到主題模版的鍵-值對中。內(nèi)容索引文件2052具體評論信息映射到內(nèi)容模版的鍵-值對中。 映射過程需要把文字內(nèi)容2053和非文字內(nèi)容20M各自映射到相應(yīng)的主題模版2055和內(nèi)容模板2056,同時(shí)以源文件形式2057保存文字和非文字內(nèi)容。索引完成后,索引數(shù)據(jù)保存在索引倉庫2058中。
權(quán)利要求
1.基于語義的查找、集成和提供評論信息的方法,包括利用搜索引擎發(fā)現(xiàn)和集成文字評論信息,并按主題分類和匯總評論文本;其特征在于,該方法還包括對非文字評論信息的提取,并挖掘非文字評論信息與文字評論信息之間的語義聯(lián)系,在此基礎(chǔ)上集成這兩類信息以供搜索服務(wù)需要;其實(shí)現(xiàn)的步驟包括(1)主動識別提供評論信息的數(shù)據(jù)源或被動接收包含評論信息的信息源的鏈接請求, 建立與該數(shù)據(jù)源的鏈接,并將包含評論信息在內(nèi)的數(shù)據(jù)保存到抓取服務(wù)器上;(2)分析包含評論信息的數(shù)據(jù),提取元信息以建立文字評論信息和非文字評論信息的語義注解標(biāo)簽;(3)利用語義注解標(biāo)簽從包含評論信息的數(shù)據(jù)中提取文字評論信息和非文字評論信息;(4)對文字評論信息與非文字評論信息進(jìn)行標(biāo)準(zhǔn)化處理,通過語義分析來評估、過濾不合適的評論信息,并進(jìn)行異常處理;(5)對已評估的信息根據(jù)評價(jià)對象及其內(nèi)在的語義關(guān)系進(jìn)行集成;(6)為集成好的信息和原始數(shù)據(jù)建立索引;(7)利用索引信息處理查詢要求,返回匹配的內(nèi)容。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(1)中,抓取服務(wù)器能夠主動抓取數(shù)據(jù)源,也能夠自動接收數(shù)據(jù)源,并識別數(shù)據(jù)源是否包含評論信息和建立與包含評論信息的數(shù)據(jù)源的鏈接。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(2)包括判斷評論信息所在的分類,具體如下(A)利用鍵-值表的鍵屬性檢索數(shù)據(jù)源和評論信息的元信息;如鍵屬性匹配到某項(xiàng)元信息,則相應(yīng)的值屬性的值被當(dāng)成信息分類返回;如鍵屬性無法匹配元信息,則執(zhí)行下一止少;(B)檢索評論信息源文件中的標(biāo)簽;如果標(biāo)簽的屬性包含了指定的分類詞或詞組,則將這些詞或詞組做為信息分類返回;如果所有標(biāo)簽屬性都不包含指定的分類詞或詞組,則執(zhí)行下一步驟;(C)掃描評論信息正文,計(jì)算分類詞或詞組出現(xiàn)的詞頻;將最大詞頻對應(yīng)的分類詞或詞組做為信息分類返回;如果詞頻總和為零,則將信息分類設(shè)置為NULL。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(3)中,還包括從被保存的數(shù)據(jù)中提取與文字評論信息相關(guān)的非文字評論信息。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟(4)所述的過濾包括過濾與屏蔽垃圾數(shù)據(jù)、內(nèi)容重復(fù)或相似的數(shù)據(jù)、與評論對象和內(nèi)容相矛盾的數(shù)據(jù)、對評論對象惡意攻擊的內(nèi)容;步驟(4)所述的異常處理包括(A)按信息被過濾、屏蔽的原因?qū)惓P畔⒎诸悾?B)將異常信息和異常類別存入統(tǒng)計(jì)數(shù)據(jù)庫中,并更新相關(guān)的統(tǒng)計(jì)參數(shù);更新后的統(tǒng)計(jì)參數(shù)將用于分析新的評論信息是否在某個(gè)方面處在異常的統(tǒng)計(jì)區(qū)間;(C)更新檢測標(biāo)志的值來標(biāo)記發(fā)生異常的原因以及指定進(jìn)一步檢測的方向;(D)將異常信息存入日志數(shù)據(jù)庫。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟( 所述的集成,包括對來自相同數(shù)據(jù)源和不同數(shù)據(jù)源的文字評論信息和非文字評論信息分別進(jìn)行集成處理,以及對評論信息按其內(nèi)在的語義關(guān)系進(jìn)行集成;對后者的集成是把一開始呈離散狀態(tài)的評論信息按照評價(jià)對象的語義關(guān)系聯(lián)系起來,即將每一條評論信息映射到一個(gè)具有單層或多層的樹狀結(jié)構(gòu)上,以標(biāo)識該評論信息與其他評論信息的關(guān)系;基于此樹狀結(jié)構(gòu),對已映射好的評論信息進(jìn)行集成。
7.一種用于實(shí)現(xiàn)權(quán)利要求1所述方法的搜索引擎系統(tǒng),包括網(wǎng)絡(luò)蜘蛛模塊、解析器模塊、檢索器模塊和展示器模塊;其特征在于,該系統(tǒng)還包括用于分析和提取網(wǎng)頁信息以建立語義注解標(biāo)簽的分析器模塊;用于創(chuàng)建數(shù)據(jù)模板、裝載信息及排錯(cuò)處理的評估器模塊; 和應(yīng)用語義分析方法對信息進(jìn)行集成的集成器模塊;所述網(wǎng)絡(luò)蜘蛛模塊、分析器模塊、解析器模塊、評估器模塊、集成器模塊、檢索器模塊和展示器模塊依次順序布置。
8.根據(jù)權(quán)利要求7所述的搜索引擎系統(tǒng),其特征在于,所述分析器模塊包括一個(gè)分類識別器模塊,該分類識別器模塊能對分析器模塊接收到的信息進(jìn)行檢索和掃描,并根據(jù)鍵-值列表對應(yīng)關(guān)系或指定的詞或詞組出現(xiàn)的詞頻進(jìn)行分類。
9.根據(jù)權(quán)利要求7所述的搜索引擎系統(tǒng),其特征在于,所述評估器模塊包括兩個(gè)組件 具有對文字內(nèi)容進(jìn)行標(biāo)準(zhǔn)化處理、構(gòu)建文字信息模板文件和處理異常的功能,從而用于文字信息的內(nèi)容評估器模塊;和具有構(gòu)建非文字信息模板文件和內(nèi)容識別的功能,從而用于非文字信息的內(nèi)容評估器模塊。
10.根據(jù)權(quán)利要求7所述的搜索引擎系統(tǒng),其特征在于,所述集成器模塊應(yīng)用了語義分析方法,既能夠?qū)碜酝粩?shù)據(jù)源或者不同數(shù)據(jù)源的文字評論信息和非文字評論信息進(jìn)行集成,又能夠根據(jù)評論對象之間的語義關(guān)系把呈離散狀態(tài)的評論信息以樹結(jié)構(gòu)的形式組織起來,對同屬于一個(gè)主題的評論信息進(jìn)行層次上的集成。
全文摘要
本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù),旨在提供一種基于語義的查找、集成和提供評論信息的方法及搜索系統(tǒng)。該方法包括利用搜索引擎發(fā)現(xiàn)和集成文字評論信息,并按主題分類和匯總評論文本;特別還包括對非文字評論信息的提取,并挖掘非文字評論信息與文字評論信息之間的語義聯(lián)系,在此基礎(chǔ)上集成這兩類信息以供搜索服務(wù)需要。本發(fā)明實(shí)現(xiàn)了對異構(gòu)信息(即文字信息和非文字信息)和層次化的評論內(nèi)容的評估、集成和整合。賦予搜索引擎發(fā)現(xiàn)、創(chuàng)建和管理與評論對象相關(guān)的評論信息的新功能,能夠帶來更多更體貼的使用體驗(yàn),更好地服務(wù)廣大用戶。
文檔編號G06F17/30GK102279894SQ201110278049
公開日2011年12月14日 申請日期2011年9月19日 優(yōu)先權(quán)日2011年9月19日
發(fā)明者周誠 申請人:嘉興億言堂信息科技有限公司