專(zhuān)利名稱(chēng):信息抽取方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及網(wǎng)絡(luò)信息處理領(lǐng)域,尤其涉及從評(píng)論信息中同時(shí)提取相互關(guān)聯(lián) 的第一評(píng)價(jià)信息和第二評(píng)價(jià)信息的信息處理技術(shù)。特別地,本發(fā)明涉及一種信息抽取方法 和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)上的信息量每天都在以驚人的速度增長(zhǎng)。越來(lái)越 多的人喜歡在網(wǎng)上發(fā)表他們對(duì)人、事、物的意見(jiàn),網(wǎng)絡(luò)上出現(xiàn)了大量含有個(gè)人觀點(diǎn)和評(píng)論的 信息。如何分析和監(jiān)測(cè)網(wǎng)絡(luò)上的評(píng)論信息,如何減輕人們閱讀大量相關(guān)評(píng)論信息的工作量, 已經(jīng)成為信息處理領(lǐng)域中的一個(gè)研究熱點(diǎn)。在對(duì)評(píng)論信息進(jìn)行分析時(shí),如何從評(píng)論信息中提取出所關(guān)注的評(píng)價(jià)對(duì)象和評(píng)價(jià)內(nèi) 容是一個(gè)基本問(wèn)題。例如,在購(gòu)買(mǎi)電子商品“手機(jī)”之前,人們往往習(xí)慣于先查看一下網(wǎng)絡(luò) 上已有的關(guān)于該商品的相關(guān)屬性的評(píng)論。此時(shí),評(píng)價(jià)對(duì)象例如手機(jī)的體積、屏幕大小、分辨 率等以及相關(guān)的評(píng)價(jià)內(nèi)容例如“大”、“小”、“好”、“清晰”等等都是所關(guān)注的信息。目前,相關(guān)的代表性研究主要包括#Hu M禾口Liu B.所著的“Mining Opinion Features in Customer Reviews,,(參 見(jiàn)Proceedings of the American Association for Artificial Intelligence,第755 760 頁(yè),2004 年);· Hu M 禾口 Liu B.所著的“Mining and Summarizing Customer Reviews,,(參 見(jiàn) Proceedings of the ACM Conference on Knowledge Discovery and Data Mining,第 168 177頁(yè),2004年);以及· Popescu A 禾口 Etzioni 0.所著的"Extracting Product Features and Opinions from Reviews,,(參見(jiàn)Proceedings of the Conference on Empirical Methods in Natural Language Proceedings,第 339-346 頁(yè),2005 年)。在上述這些研究中,Liu等人采用了基于關(guān)聯(lián)規(guī)則挖掘(Associate Rule Mining) 和詞頻統(tǒng)計(jì)的被評(píng)論特征提取方法,而Popescu等人采用了基于點(diǎn)互信息的屬性詞提取。 其中,對(duì)詞語(yǔ)的出現(xiàn)頻率信息的利用有利于從評(píng)論信息中提取出高頻的商品特征,但是往 往忽略了低頻的商品特征。此外,還有以下代表性研究· Du, W. F.禾口 S. B. Tan.所著的"An Iterative Reinforcement Approach for Fine-Grained Opinion Mining,,(參見(jiàn) Proceedings ofthe Annual Conference of the North American Chapter of the Association for Computational Linguistics,第 486_492 頁(yè),2OO9 年);#Su,Q.和Χ. Y. Xu等人所著的“Hidden Sentiment Association in Chinese Web Opinion Mining"(參見(jiàn) Proceedings of the Seventeenth International Conference on World Wide Web,第 959-968 頁(yè);2008 年)。
4
在這些研究中,對(duì)于評(píng)價(jià)詞語(yǔ)的確認(rèn),最近鄰匹配是有效的。同時(shí)Du和Su等人研 究了獲取商品屬性和評(píng)價(jià)詞語(yǔ)之間的關(guān)聯(lián)程度。然而在現(xiàn)有技術(shù)中,只是將評(píng)價(jià)對(duì)象的抽取和評(píng)價(jià)內(nèi)容的抽取分為兩個(gè)任務(wù)進(jìn)行研究。
發(fā)明內(nèi)容
在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本 理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的 關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概 念,以此作為稍后論述的更詳細(xì)描述的前序。本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的上述問(wèn)題之一,實(shí)現(xiàn)自動(dòng)提取評(píng)價(jià)對(duì)象和 評(píng)價(jià)內(nèi)容,從而至少部分地彌補(bǔ)人工費(fèi)時(shí)費(fèi)力的缺點(diǎn)。為此,本發(fā)明的一個(gè)目的是提供一種用于從包括評(píng)論語(yǔ)句的評(píng)論信息中提取相互 關(guān)聯(lián)的第一評(píng)價(jià)信息和第二評(píng)價(jià)信息的方法和裝置,其能夠在統(tǒng)一的過(guò)程中抽取第一評(píng)價(jià) 信息和第二評(píng)價(jià)信息。本發(fā)明的另一個(gè)目的是提供在被計(jì)算設(shè)備執(zhí)行時(shí)使計(jì)算設(shè)備能夠執(zhí)行上述方法 的處理過(guò)程的計(jì)算機(jī)程序代碼,以及其上存儲(chǔ)有該計(jì)算機(jī)程序代碼的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì) 及計(jì)算機(jī)程序產(chǎn)品。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種信息抽取方法,包括a)獲取第一評(píng)價(jià)信息的初始種子;b)確定與第一評(píng)價(jià)信息的種子關(guān)聯(lián)的第二評(píng)價(jià)信息;c)根據(jù)與第一評(píng)價(jià)信息的種子關(guān)聯(lián)出現(xiàn)的第二評(píng)價(jià)信息的權(quán)重來(lái)確定新的第二 評(píng)價(jià)信息的種子;d)確定與第二評(píng)價(jià)信息的種子關(guān)聯(lián)的第一評(píng)價(jià)信息;e)根據(jù)與第二評(píng)價(jià)信息的種子關(guān)聯(lián)出現(xiàn)的第一評(píng)價(jià)信息的權(quán)重來(lái)確定新的第一 評(píng)價(jià)信息的種子;f)判斷是否滿(mǎn)足迭代結(jié)束條件,如果否,則又執(zhí)行步驟b)至e),否則輸出所獲得 的第一評(píng)價(jià)信息和第二評(píng)價(jià)信息。根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種信息抽取裝置,包括第一評(píng)價(jià)信息初始 種子獲取裝置,用于獲取第一評(píng)價(jià)信息的初始種子;迭代抽取裝置,基于所述第一評(píng)價(jià)信息 的初始種子通過(guò)迭代的方式交替抽取第二評(píng)價(jià)信息種子和第一評(píng)價(jià)信息種子。依據(jù)本發(fā)明的其它方面,還提供了相應(yīng)的計(jì)算機(jī)程序代碼、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì) 和計(jì)算機(jī)程序產(chǎn)品。本發(fā)明的一個(gè)優(yōu)點(diǎn)在于,在根據(jù)本發(fā)明實(shí)施例的用于從評(píng)論信息中提取第一評(píng)價(jià) 信息和第二評(píng)價(jià)信息的方法和裝置中,可以自動(dòng)地并且高效地從給定評(píng)論信息集合中提取 出第一評(píng)價(jià)信息和第二評(píng)價(jià)信息,消除了人工提取信息費(fèi)時(shí)費(fèi)力的缺點(diǎn),可以提高信息提 取效率和縮短信息提取周期。本發(fā)明的又一個(gè)優(yōu)點(diǎn)在于,在根據(jù)本發(fā)明實(shí)施例的用于從評(píng)論信息中提取第一評(píng) 價(jià)信息和第二評(píng)價(jià)信息的方法和裝置中,沒(méi)有采用基于詞典的信息提取技術(shù),而是在獲得第一評(píng)價(jià)信息的初始種子之后通過(guò)迭代的方法抽取第二評(píng)價(jià)信息并隨后進(jìn)一步抽取第一 評(píng)價(jià)信息,從而克服了基于詞典提取信息時(shí)詞典覆蓋率差及靈活性差等缺點(diǎn)。通過(guò)以下結(jié)合附圖對(duì)本發(fā)明的最佳實(shí)施例的詳細(xì)說(shuō)明,本發(fā)明的這些以及其他優(yōu) 點(diǎn)將更加明顯。
本發(fā)明可以通過(guò)參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所 有附圖中使用了相同或相似的附圖標(biāo)記來(lái)表示相同或者相似的部件。所述附圖連同下面的 詳細(xì)說(shuō)明一起包含在本說(shuō)明書(shū)中并且形成本說(shuō)明書(shū)的一部分,而且用來(lái)進(jìn)一步舉例說(shuō)明本 發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。在附圖中圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的、用于同時(shí)抽取第一評(píng)價(jià)信息和第二評(píng)價(jià)信 息的方法流程圖;圖2示出了第一評(píng)價(jià)信息和第二評(píng)價(jià)信息之間的關(guān)系示意圖;圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于從評(píng)論信息中同時(shí)抽取第一評(píng)價(jià)信 息和第二評(píng)價(jià)信息的信息抽取裝置的示意性方框圖;圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的關(guān)聯(lián)評(píng)價(jià)信息種子獲取裝置的結(jié)構(gòu)示意 圖;以及圖5是示出了在其中可以實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的方法和/或裝置的通用個(gè)人計(jì) 算機(jī)的示例性結(jié)構(gòu)的方框圖。
具體實(shí)施例方式在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見(jiàn), 在說(shuō)明書(shū)中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開(kāi)發(fā)任何這種實(shí)際實(shí)施 例的過(guò)程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開(kāi)發(fā)人員的具體目標(biāo),例如,符 合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有 所改變。此外,還應(yīng)該了解,雖然開(kāi)發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開(kāi) 內(nèi)容的本領(lǐng)域技術(shù)人員來(lái)說(shuō),這種開(kāi)發(fā)工作僅僅是例行的任務(wù)。在此,還需要說(shuō)明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中 僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明 關(guān)系不大的其他細(xì)節(jié)。發(fā)明人注意到,在評(píng)論中,通常存在不同種類(lèi)的評(píng)價(jià)信息,而這些不同種類(lèi)的評(píng)價(jià) 信息之間可能會(huì)有較強(qiáng)的關(guān)聯(lián)。舉例而言,第一評(píng)價(jià)信息可以是評(píng)價(jià)對(duì)象,而第二評(píng)價(jià)信息 可以是評(píng)價(jià)內(nèi)容,它們相互關(guān)聯(lián)、相互影響。例如在日常對(duì)商品屬性的評(píng)論語(yǔ)句中,人們習(xí) 慣于在被評(píng)價(jià)對(duì)象周?chē)嚯x內(nèi)給出意見(jiàn)(例如同一個(gè)句子中,甚至同一個(gè)短單句中)。因 此,可以利用第一評(píng)價(jià)信息和第二評(píng)價(jià)信息之間的這種內(nèi)在關(guān)聯(lián)來(lái)同時(shí)抽取第一評(píng)價(jià)信息 和第二評(píng)價(jià)信息,并且在抽取過(guò)程的同時(shí)可能獲得第一評(píng)價(jià)信息和第二評(píng)價(jià)信息之間的關(guān) 系,從而有利于隨后的進(jìn)一步分析。圖1是示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的、用于同時(shí)抽取第一評(píng)價(jià)信息和第二評(píng)價(jià) 信息的方法流程圖。
需要說(shuō)明的是,在執(zhí)行根據(jù)圖1所示的方法之前,已經(jīng)從外部獲取了第一評(píng)價(jià)信 息和第二評(píng)價(jià)信息的候選單元。所述候選單元可以利用任何方法,包括現(xiàn)有技術(shù)中的方法 來(lái)獲得。例如,可以首先接收從網(wǎng)絡(luò)上收集到的各種商品評(píng)論信息。在此,可以采用現(xiàn)有的 各種信息收集方法,例如,采用面向互聯(lián)網(wǎng)的網(wǎng)絡(luò)爬蟲(chóng)的方式,或者采用指定數(shù)據(jù)來(lái)源的方 式,來(lái)定期地自動(dòng)從網(wǎng)絡(luò)上收集評(píng)論信息。隨后可以對(duì)所收集到的評(píng)論信息進(jìn)行包括分句、 分詞、詞性標(biāo)注等在內(nèi)的各種預(yù)處理,以獲得包括在所收集到的評(píng)論信息中的眾多評(píng)論語(yǔ) 句的詞、詞性向量。在此可以采用已有的自然語(yǔ)言處理方法來(lái)對(duì)評(píng)論信息進(jìn)行預(yù)處理。在預(yù)處理之后,可以獲取第一評(píng)價(jià)信息和第二評(píng)價(jià)信息的候選單元。例如可以利 用基本名詞短語(yǔ)識(shí)別技術(shù)從經(jīng)預(yù)處理的評(píng)論信息中提取出候選評(píng)價(jià)對(duì)象,然后統(tǒng)計(jì)候選評(píng) 價(jià)對(duì)象在評(píng)論信息中出現(xiàn)的次數(shù),并選擇那些出現(xiàn)頻率滿(mǎn)足預(yù)定條件(例如,大于預(yù)定閾 值)的候選評(píng)價(jià)對(duì)象作為第一評(píng)價(jià)信息候選單元。在確定第一評(píng)價(jià)信息候選單元時(shí),為了避免冗余,可以進(jìn)行剪枝過(guò)濾(priming filtering)。例如,如果A、B均為候選評(píng)價(jià)信息,且A多數(shù)作為B的一部分出現(xiàn),而A單獨(dú) 出現(xiàn)的次數(shù)小于預(yù)先設(shè)定的閾值,則判定A不是第一評(píng)價(jià)信息候選單元。相應(yīng)地,也可以獲取第二評(píng)價(jià)信息的候選單元。作為一個(gè)例子,如果第二評(píng)價(jià)信息 是評(píng)價(jià)內(nèi)容,由于考慮到評(píng)價(jià)內(nèi)容通常為形容詞,所以可以抽取形容詞詞性的詞語(yǔ)來(lái)作為 評(píng)價(jià)內(nèi)容候選單元。當(dāng)然本發(fā)明并未排除可能采用其他詞語(yǔ)來(lái)作為評(píng)價(jià)內(nèi)容候選單元。上述的評(píng)論信息收集、預(yù)處理等內(nèi)容是本領(lǐng)域技術(shù)人員所熟知的,因而在此不再 贅述。在獲取了第一評(píng)價(jià)信息和第二評(píng)價(jià)信息的候選單元的基礎(chǔ)上,本發(fā)明提出了一種 一體化抽取第一評(píng)價(jià)信息和第二評(píng)價(jià)信息的方法。在步驟SllO中,首先獲取第一評(píng)價(jià)信息的初始種子。根據(jù)本發(fā)明的一種實(shí)施方 式,第一評(píng)價(jià)信息的初始種子的獲取可以自動(dòng)地進(jìn)行。在本發(fā)明中,對(duì)句子進(jìn)行分詞之后, 所包含的詞性數(shù)目少于某個(gè)閾值的句子可以定義為短句子,例如,該閾值可以限定為5。因 為短句子的評(píng)論信息句型比較簡(jiǎn)單,所以能夠有效地獲取所要抽取的第一評(píng)價(jià)信息的初始 種子。在該步驟中,如果第一評(píng)價(jià)信息為評(píng)價(jià)對(duì)象,則例如可以將短句子中包含的至少一個(gè) 名詞/名詞短語(yǔ)作為第一評(píng)價(jià)信息的初始種子,或者如果第一評(píng)價(jià)信息為評(píng)價(jià)內(nèi)容,則例 如可以將短句子中包含的至少一個(gè)形容詞作為第一評(píng)價(jià)信息的初始種子。當(dāng)然根據(jù)本發(fā)明 的初始種子并不局限于從短句子中選取,然而優(yōu)選的是,不從包含多個(gè)名詞或名詞短語(yǔ)或 形容詞的句子抽取初始種子,因?yàn)檫@樣可能會(huì)引入較大的干擾。此外優(yōu)選的是,先選取一個(gè) 名詞/名詞短語(yǔ)或者選取一個(gè)形容詞作為初始種子。步驟SllO中的第一評(píng)價(jià)信息的初始種子的獲取并不局限于上述的自動(dòng)獲取方 式,也可能從外部獲取初始種子,例如可以由用戶(hù)手動(dòng)輸入初始種子。隨后,在步驟S120中,確定與第一評(píng)價(jià)信息的種子關(guān)聯(lián)的第二評(píng)價(jià)信息。以第一 評(píng)價(jià)信息為評(píng)價(jià)對(duì)象而第二評(píng)價(jià)信息為評(píng)價(jià)內(nèi)容為例,研究表明,人們習(xí)慣于在被評(píng)價(jià)對(duì) 象附近(例如在同一個(gè)句子中)給出對(duì)被評(píng)價(jià)對(duì)象的意見(jiàn),因此,認(rèn)為與評(píng)價(jià)對(duì)象近距離出 現(xiàn)的評(píng)價(jià)內(nèi)容(例如形容詞)與該評(píng)價(jià)對(duì)象有關(guān)系。例如,可以假設(shè)與評(píng)價(jià)對(duì)象相距距離 在某個(gè)閾值之下的評(píng)價(jià)內(nèi)容與該評(píng)價(jià)對(duì)象有關(guān),這里的距離可以是指評(píng)價(jià)對(duì)象與評(píng)價(jià)內(nèi)容之間的詞的個(gè)數(shù)。該閾值例如可以為4。當(dāng)然,本領(lǐng)域技術(shù)人員也可以使用任何其他可能的方法來(lái)確定與第一評(píng)價(jià)信息的 種子關(guān)聯(lián)的第二評(píng)價(jià)信息。例如,可以認(rèn)為與第一評(píng)價(jià)信息的種子在同一個(gè)句子中的第二 評(píng)價(jià)信息就可能與該第一評(píng)價(jià)信息的種子關(guān)聯(lián),或者也可以使用依存句法分析方法等。依 存句法分析方法通過(guò)對(duì)句子進(jìn)行句法分析來(lái)將句子由線性序列轉(zhuǎn)化為結(jié)構(gòu)化的依存分析 樹(shù),從而分析各部分信息之間的關(guān)聯(lián)。這些方法屬于現(xiàn)有技術(shù),因而在此不再進(jìn)一步討論。同樣以第一評(píng)價(jià)信息為評(píng)價(jià)對(duì)象而第二評(píng)價(jià)信息為評(píng)價(jià)內(nèi)容為例,圖2示出了第 一評(píng)價(jià)信息和第二評(píng)價(jià)信息之間的關(guān)系示意圖。從圖中可以看到,第一評(píng)價(jià)信息和第二評(píng) 價(jià)信息之間有三種關(guān)系一對(duì)多,例如“尺寸”-“大”、“尺寸”-“小”、“尺寸”-“好”,或者“尺寸”-“好”、 “鏡頭”-“好”;一對(duì)一,例如“照片”-“清晰的”;以及一對(duì)空,例如“時(shí)間,,、“人們”。在圖2中,關(guān)聯(lián)的第一評(píng)價(jià)信息和第二評(píng)價(jià)信息之間有雙向連線,其中可以對(duì)每 個(gè)雙向連線(即第一評(píng)價(jià)信息和第二評(píng)價(jià)信息的詞語(yǔ)對(duì))設(shè)置權(quán)重。例如,詞語(yǔ)對(duì)的權(quán)重 可以基于這對(duì)詞語(yǔ)出現(xiàn)的頻率來(lái)定義。在步驟S130中,根據(jù)與第一評(píng)價(jià)信息的種子相關(guān)聯(lián)的第二評(píng)價(jià)信息的權(quán)重來(lái)確 定新的第二評(píng)價(jià)信息的種子。一種方法是,對(duì)于第一評(píng)價(jià)信息的所有種子Vi,統(tǒng)計(jì)第二評(píng)價(jià) 信息的候選單元U與該種子構(gòu)成的詞語(yǔ)對(duì)(U,Vi)在評(píng)論信息中出現(xiàn)的頻度(這里,“構(gòu)成 詞語(yǔ)對(duì)”的含義就是指二者在評(píng)論信息中是相關(guān)聯(lián)的),將該頻度與候選單元U在評(píng)論信息 中出現(xiàn)的頻度N(U)的比率作為該第二評(píng)價(jià)信息候選單元u的權(quán)重,該權(quán)重是評(píng)價(jià)標(biāo)準(zhǔn)。比 率越高,該候選單元u的權(quán)重越大,則說(shuō)明該候選單元u與第一評(píng)價(jià)信息的種子的關(guān)聯(lián)越緊 密,因此該候選單元u越應(yīng)該被選擇為新的第二評(píng)價(jià)信息的種子。作為一個(gè)例子,該比率可以通過(guò)下式計(jì)算
權(quán)利要求
1.一種信息抽取方法,包括a)獲取第一評(píng)價(jià)信息的初始種子;b)確定與第一評(píng)價(jià)信息的種子關(guān)聯(lián)的第二評(píng)價(jià)信息;c)根據(jù)與第一評(píng)價(jià)信息的種子關(guān)聯(lián)出現(xiàn)的第二評(píng)價(jià)信息的權(quán)重來(lái)確定新的第二評(píng)價(jià) 信息的種子;d)確定與第二評(píng)價(jià)信息的種子關(guān)聯(lián)的第一評(píng)價(jià)信息;e)根據(jù)與第二評(píng)價(jià)信息的種子關(guān)聯(lián)出現(xiàn)的第一評(píng)價(jià)信息的權(quán)重來(lái)確定新的第一評(píng)價(jià) 信息的種子;f)判斷是否滿(mǎn)足迭代結(jié)束條件,如果否,則又執(zhí)行步驟b)至e),否則輸出所獲得的第 一評(píng)價(jià)信息和第二評(píng)價(jià)信息。
2.一種信息抽取裝置(300),包括第一評(píng)價(jià)信息初始種子獲取裝置(310),用于獲取第一評(píng)價(jià)信息的初始種子;迭代抽取裝置(320),基于所述第一評(píng)價(jià)信息的初始種子通過(guò)迭代的方式交替抽取第 二評(píng)價(jià)信息種子和第一評(píng)價(jià)信息種子。
3.如權(quán)利要求2所述的信息抽取裝置(300),其中迭代抽取裝置(320)包括關(guān)聯(lián)評(píng)價(jià)信息確定裝置(3200),用于確定與基礎(chǔ)評(píng)價(jià)信息種子關(guān)聯(lián)的關(guān)聯(lián)評(píng)價(jià)信息;關(guān)聯(lián)評(píng)價(jià)信息種子獲取裝置(3202),用于根據(jù)與基礎(chǔ)評(píng)價(jià)信息種子關(guān)聯(lián)出現(xiàn)的關(guān)聯(lián)評(píng) 價(jià)信息的權(quán)重來(lái)確定關(guān)聯(lián)評(píng)價(jià)信息種子;以及迭代結(jié)束判斷裝置(3204),用于判斷迭代是否應(yīng)該結(jié)束,如果結(jié)束則輸出所獲得的評(píng) 價(jià)信息種子,如果不結(jié)束則將所述關(guān)聯(lián)評(píng)價(jià)信息種子作為新的基礎(chǔ)評(píng)價(jià)信息種子;其中,所述迭代抽取裝置(320)首先將所述第一評(píng)價(jià)信息的初始種子作為所述基礎(chǔ)評(píng) 價(jià)信息種子,獲得作為所述關(guān)聯(lián)評(píng)價(jià)信息種子的新的第二評(píng)價(jià)信息種子,然后在繼續(xù)迭代 的情況下,將第二評(píng)價(jià)信息種子作為新的基礎(chǔ)評(píng)價(jià)信息種子,獲得作為所述關(guān)聯(lián)評(píng)價(jià)信息 種子的新的第一評(píng)價(jià)信息種子,以此類(lèi)推,交替獲取第二評(píng)價(jià)信息種子和第一評(píng)價(jià)信息種 子,直到迭代結(jié)束。
4.根據(jù)權(quán)利要求2所述的信息抽取裝置(300),其中第一評(píng)價(jià)信息初始種子獲取裝置 (310)配置為將句子中包含的至少一個(gè)名詞/名詞短語(yǔ)作為第一評(píng)價(jià)信息的初始種子,或 者將句子中包含的至少一個(gè)形容詞作為第一評(píng)價(jià)信息的初始種子。
5.根據(jù)權(quán)利要求2所述的信息抽取裝置(300),其中第一評(píng)價(jià)信息初始種子獲取裝置 (310)配置為從外部獲取初始種子。
6.根據(jù)權(quán)利要求3所述的信息抽取裝置(300),其中所述關(guān)聯(lián)評(píng)價(jià)信息種子獲取裝置(320 還包括統(tǒng)計(jì)裝置(32021),用于統(tǒng)計(jì)基礎(chǔ)評(píng) 價(jià)信息與關(guān)聯(lián)評(píng)價(jià)信息在評(píng)論信息中關(guān)聯(lián)出現(xiàn)的頻度;以及計(jì)算裝置(32022),用于計(jì)算 統(tǒng)計(jì)裝置(32021)所獲得的頻度與該關(guān)聯(lián)評(píng)價(jià)信息在評(píng)論信息中出現(xiàn)的頻度的比率,并將 該比率作為關(guān)聯(lián)評(píng)價(jià)信息的權(quán)重。
7.根據(jù)權(quán)利要求3所述的信息抽取裝置(300),其中關(guān)聯(lián)評(píng)價(jià)信息種子獲取裝置 (3202)被配置為,在確定關(guān)聯(lián)評(píng)價(jià)信息的權(quán)重之后,將權(quán)重最大的預(yù)定數(shù)量的關(guān)聯(lián)評(píng)價(jià)信 息或者權(quán)重大于預(yù)定閾值的關(guān)聯(lián)評(píng)價(jià)信息加入到關(guān)聯(lián)評(píng)價(jià)信息種子集合中。
8.根據(jù)權(quán)利要求3所述的信息抽取裝置(300),其中關(guān)聯(lián)評(píng)價(jià)信息確定裝置(3200)被 配置為,將與基礎(chǔ)評(píng)價(jià)信息相距距離在預(yù)定閾值之下的評(píng)價(jià)信息認(rèn)為是與基礎(chǔ)評(píng)價(jià)信息相 關(guān)聯(lián)的關(guān)聯(lián)評(píng)價(jià)信息。
9.根據(jù)權(quán)利要求3所述的信息抽取裝置(300),其中迭代結(jié)束判斷裝置(3204)被配置 為,當(dāng)完成預(yù)定次數(shù)的迭代之后,判斷迭代結(jié)束,或者當(dāng)所獲得的新的評(píng)價(jià)信息的權(quán)重小于 預(yù)定閾值時(shí),判斷迭代結(jié)束。
10.根據(jù)權(quán)利要求2所述的信息抽取裝置(300),其中所述迭代抽取裝置(320)被配置 為在迭代結(jié)束之后還輸出第一評(píng)價(jià)信息和第二評(píng)價(jià)信息之間的關(guān)系。
全文摘要
本發(fā)明公開(kāi)了一種信息抽取方法和裝置。其中該信息抽取方法包括a)獲取第一評(píng)價(jià)信息的初始種子;b)確定與第一評(píng)價(jià)信息的種子關(guān)聯(lián)的第二評(píng)價(jià)信息;c)根據(jù)與第一評(píng)價(jià)信息的種子關(guān)聯(lián)出現(xiàn)的第二評(píng)價(jià)信息的權(quán)重來(lái)確定新的第二評(píng)價(jià)信息的種子;d)確定與第二評(píng)價(jià)信息的種子關(guān)聯(lián)的第一評(píng)價(jià)信息;e)根據(jù)與第二評(píng)價(jià)信息的種子關(guān)聯(lián)出現(xiàn)的第一評(píng)價(jià)信息的權(quán)重來(lái)確定新的第一評(píng)價(jià)信息的種子;f)判斷是否滿(mǎn)足迭代結(jié)束條件,如果否,則又執(zhí)行步驟b)至e),否則輸出所獲得的第一評(píng)價(jià)信息和第二評(píng)價(jià)信息。此外,本發(fā)明還公開(kāi)了一種相應(yīng)的信息抽取裝置。
文檔編號(hào)G06F17/30GK102073653SQ20091022610
公開(kāi)日2011年5月25日 申請(qǐng)日期2009年11月20日 優(yōu)先權(quán)日2009年11月20日
發(fā)明者于浩, 夏迎炬, 孟遙, 張姝, 賈文杰 申請(qǐng)人:富士通株式會(huì)社