專(zhuān)利名稱(chēng):一種基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的方法與設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的方法與設(shè)備。
背景技術(shù):
在現(xiàn)有技術(shù)中,諸如維基百科、互動(dòng)百科、搜搜百科等網(wǎng)絡(luò)百科的詞條主要基于非結(jié)構(gòu)化的文本進(jìn)行描述,其中,所述“非結(jié)構(gòu)化文本”意指不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的文本數(shù)據(jù),由此導(dǎo)致百科詞條所包含的大量文本內(nèi)容難于被分析與維護(hù),而結(jié)構(gòu)化文本則可通過(guò)數(shù)據(jù)庫(kù)的二維表結(jié)構(gòu)來(lái)邏輯表達(dá),因而便于文本內(nèi)容的維護(hù)及基于該結(jié)構(gòu)化文本進(jìn)行數(shù)據(jù)挖掘。因此,需要提供一種能夠基于非結(jié)構(gòu)化文本自動(dòng)生成結(jié)構(gòu)化信息實(shí)體的方法。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的方法與設(shè)備。根據(jù)本發(fā)明的一個(gè)方面,提供一種基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的方法,其中,該方法包括以下步驟a獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本;b基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi);c根據(jù)所述分類(lèi),生成所述中心詞的結(jié)構(gòu)化信息實(shí)體。根據(jù)本發(fā)明的一個(gè)方面,提供一種基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的設(shè)備,其中,該設(shè)備包括文本獲取裝置,用于獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本;分類(lèi)獲取裝置,用于基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi);生成裝置,用于根據(jù)所述分類(lèi),生成所述中心詞的結(jié)構(gòu)化信息實(shí)體。與現(xiàn)有技術(shù)相比,本發(fā)明根據(jù)中心詞的非結(jié)構(gòu)化文本,生成該中心詞對(duì)應(yīng)的結(jié)構(gòu)化信息實(shí)體,由此便于對(duì)該中心詞所包含的內(nèi)容進(jìn)行數(shù)據(jù)挖掘,并降低中心詞內(nèi)容維護(hù)的成本。
通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯圖1示出根據(jù)本發(fā)明一個(gè)方面基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的設(shè)備示意圖;圖2示出根據(jù)本發(fā)明另一個(gè)方面基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的方法流程圖。附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。圖1示出根據(jù)本發(fā)明一個(gè)方面基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的設(shè)備示意圖。信息實(shí)體生成設(shè)備1包括文本獲取裝置11、分類(lèi)獲取裝置12和生成裝置13。在此, 信息實(shí)體生成設(shè)備1包括但不限于計(jì)算機(jī)、網(wǎng)絡(luò)主機(jī)、單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集或多個(gè)服務(wù)器構(gòu)成的云。在此,云由基于云計(jì)算(Cloud Computing)的大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。具體地,文本獲取裝置11獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本。更具體地,文本獲取裝置11定期或應(yīng)事件觸發(fā)實(shí)時(shí)地獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本,例如根據(jù)中心詞, 在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲得與該中心詞的非結(jié)構(gòu)化文本,或者定期地通過(guò)約定的通信方式直接從第三方設(shè)備讀取該中心詞的非結(jié)構(gòu)化文本。在此,所述“中心詞”意指該非結(jié)構(gòu)化文本緊緊圍繞進(jìn)行闡述的詞語(yǔ)。例如,假設(shè)信息實(shí)體生成設(shè)備1為網(wǎng)絡(luò)百科服務(wù)器,文本獲取裝置11根據(jù)預(yù)置的中心詞列表中的中心詞“周杰倫”在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),獲得該中心詞的非結(jié)構(gòu)化文本內(nèi)容為“周杰倫是中國(guó)臺(tái)灣華語(yǔ)流行歌手,發(fā)行諸多音樂(lè)專(zhuān)輯。近年涉足電影行業(yè),出演電影不能說(shuō)的秘密”。再如,文本獲取裝置11按一定周期,將預(yù)置的中心詞作為輸入?yún)?shù)定期地通過(guò)調(diào)用設(shè)定的應(yīng)用編程接口(API)向第三方設(shè)備發(fā)送獲取該中心詞的非結(jié)構(gòu)化文本的請(qǐng)求,并接收該第三方設(shè)備基于該請(qǐng)求返回的非結(jié)構(gòu)化文本。在此,上述中心詞數(shù)據(jù)庫(kù)用于存儲(chǔ)已存在的所有中心詞的相關(guān)信息,該中心詞數(shù)據(jù)庫(kù)包括但不限于關(guān)系數(shù)據(jù)庫(kù),內(nèi)存存儲(chǔ)器,硬盤(pán)存儲(chǔ)器等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取中心詞的非結(jié)構(gòu)化文本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取中心詞的非結(jié)構(gòu)化文本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。隨后,分類(lèi)獲取裝置12基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析, 以獲取所述中心詞的分類(lèi)。具體地,分類(lèi)獲取裝置12例如基于利用諸如決策樹(shù)、支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)方法而獲得的用于對(duì)語(yǔ)料所屬分類(lèi)進(jìn)行分類(lèi)預(yù)測(cè)的預(yù)定分類(lèi)模型,對(duì)文本獲取裝置11所提供的中心詞的非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,獲得該非結(jié)構(gòu)化文本所屬不同分類(lèi)的概率,并據(jù)此獲取該中心詞的分類(lèi),或者將文本獲取裝置11所提供的中心詞的非結(jié)構(gòu)化文本在如分類(lèi)數(shù)據(jù)庫(kù)的簡(jiǎn)單分類(lèi)模型中進(jìn)行匹配查詢(xún),以獲得該中心詞的分類(lèi)。例如,分類(lèi)獲取裝置12根據(jù)文本獲取裝置11獲取的中心詞“周杰倫”的非結(jié)構(gòu)化文本“周杰倫是中國(guó)臺(tái)灣華語(yǔ)流行歌手,發(fā)行諸多音樂(lè)專(zhuān)輯。近年涉足電影行業(yè),出演電影不能說(shuō)的秘密”,在由第三方設(shè)備提供的分類(lèi)模型中進(jìn)行分類(lèi)分析,獲得該中心詞屬于“歌手/ 歌唱家”分類(lèi)的概率為0. 9,屬于“演員”分類(lèi)的概率為0. 7,屬于其他分類(lèi)的概率小于0. 1, 據(jù)此將所屬概率最大的“歌手/歌唱家”作為“周杰倫”的分類(lèi)。再如,分類(lèi)獲取裝置12對(duì)文本獲取裝置11獲取的中心詞“周杰倫”的非結(jié)構(gòu)化文本“周杰倫是中國(guó)臺(tái)灣華語(yǔ)流行歌手,發(fā)行諸多音樂(lè)專(zhuān)輯。近年涉足電影行業(yè)?!崩谜蜃畲笃ヅ浞衷~算法對(duì)該非結(jié)構(gòu)化文本進(jìn)行分詞處理,獲得的分詞包括“中國(guó)”,“臺(tái)灣”,“流行歌手”,“音樂(lè)專(zhuān)輯”,“電影”等,將該些分詞作為分類(lèi)關(guān)鍵詞在分類(lèi)數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲得各分類(lèi)關(guān)鍵詞所對(duì)應(yīng)的分類(lèi),并將其作為中心詞所屬的分類(lèi)如“歌手/歌唱家”,“演員”和“導(dǎo)演”。在此,上述分類(lèi)數(shù)據(jù)庫(kù)中已預(yù)置分類(lèi)關(guān)鍵詞與分類(lèi)的映射關(guān)系,例如關(guān)鍵詞“歌手”與分類(lèi)“歌手/歌唱家”相對(duì)應(yīng),關(guān)鍵詞“電影”與分類(lèi)“演員,,相對(duì)應(yīng),關(guān)鍵詞“電影”還可與“導(dǎo)演”相對(duì)應(yīng)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取中心詞的分類(lèi)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取中心詞的分類(lèi)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。接著,生成裝置13根據(jù)所述分類(lèi),生成所述中心詞的結(jié)構(gòu)化信息實(shí)體。具體地,生成裝置13根據(jù)分類(lèi)獲取裝置12獲得的中心詞的分類(lèi),獲得與該分類(lèi)相對(duì)應(yīng)的預(yù)定義信息實(shí)體數(shù)據(jù)結(jié)構(gòu),并據(jù)此生成該中心詞的結(jié)構(gòu)化信息實(shí)體。在此,所述“信息實(shí)體”意指具有結(jié)構(gòu)化特征的數(shù)據(jù),包括但不限于網(wǎng)絡(luò)百科中的詞條,電子商務(wù)網(wǎng)站中的商品信息,電子圖書(shū)館中的圖書(shū)條目,電子期刊網(wǎng)站中的期刊、論文信息等。例如,假設(shè)分類(lèi)獲取裝置12獲得的中心詞“七里香”的分類(lèi)為“音樂(lè)專(zhuān)輯”,生成裝置13根據(jù)該分類(lèi)獲得預(yù)置的與“音樂(lè)專(zhuān)輯” 分類(lèi)相對(duì)應(yīng)的信息實(shí)體數(shù)據(jù)結(jié)構(gòu),其中包括屬性“專(zhuān)輯名稱(chēng)”,“表演者”,“發(fā)行時(shí)間”,“發(fā)行公司”,“專(zhuān)輯曲目”等,并基于該數(shù)據(jù)結(jié)構(gòu)生成“七里香”的信息實(shí)體。再如,假設(shè)分類(lèi)獲取裝置12獲得的中心詞“周杰倫”的分類(lèi)為“歌手/歌唱家”,生成裝置13根據(jù)該分類(lèi),在屬性模板庫(kù)中進(jìn)行匹配查詢(xún)以獲得該分類(lèi)所對(duì)應(yīng)的一個(gè)或多個(gè)屬性模板,如“發(fā)行音樂(lè)專(zhuān)輯”、 “所獲音樂(lè)獎(jiǎng)項(xiàng)”,“舉辦演唱會(huì)”等,然后生成包含該(等)屬性模板的中心詞“周杰倫”的信息實(shí)體。在此,所述“屬性模板”包括與該分類(lèi)相對(duì)應(yīng)的一個(gè)或多個(gè)特定屬性,用以描述屬于該分類(lèi)的信息實(shí)體的某一個(gè)方面的相關(guān)信息。在此,所述“屬性”意指用于描述信息實(shí)體信息項(xiàng)的最小單位,例如,屬性模板“發(fā)行音樂(lè)專(zhuān)輯”用于描述分類(lèi)為“歌手/歌唱家”的信息實(shí)體“周杰倫”發(fā)行的所有音樂(lè)專(zhuān)輯信息,其包括屬性“發(fā)行專(zhuān)輯名稱(chēng)”、“發(fā)行時(shí)間”、“曲目名稱(chēng)”等。在此,上述屬性模板庫(kù)用于存儲(chǔ)分類(lèi)與該分類(lèi)相對(duì)應(yīng)的已有屬性模板的映射信息,該屬性模板庫(kù)包括但不限于關(guān)系數(shù)據(jù)庫(kù),內(nèi)存存儲(chǔ)器,硬盤(pán)存儲(chǔ)器等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述生成結(jié)構(gòu)化信息實(shí)體的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的生成結(jié)構(gòu)化信息實(shí)體的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。在此,需要說(shuō)明的是,舉例中的各項(xiàng)數(shù)值作為說(shuō)明作用的示例,僅供理解本發(fā)明, 不作為實(shí)際應(yīng)用時(shí)的真實(shí)數(shù)據(jù)。如無(wú)特別說(shuō)明,本文中其他地方出現(xiàn)的數(shù)值的功用與此處相同,為簡(jiǎn)明起見(jiàn),不再贅述。優(yōu)選地,文本獲取裝置11和分類(lèi)獲取裝置12和生成裝置13之間是持續(xù)不斷地工作。具體地,文本獲取裝置11獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本;隨后,分類(lèi)獲取裝置12 基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi);接著, 生成裝置13根據(jù)所述分類(lèi),生成所述中心詞的結(jié)構(gòu)化信息實(shí)體;在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指各裝置分別按照設(shè)定的或?qū)崟r(shí)調(diào)整的工作模式要求進(jìn)行與中心詞相關(guān)的非結(jié)構(gòu)化信息實(shí)體的獲取、中心詞分類(lèi)的獲取、及結(jié)構(gòu)化信息實(shí)體的生成,直至文本獲取裝置11在較長(zhǎng)時(shí)間內(nèi)停止對(duì)與中心詞相關(guān)的非結(jié)構(gòu)化文本的獲取。優(yōu)選地,分類(lèi)獲取裝置12還包括分詞獲取單元(未示出)和第一獲取單元(未示出),其中,分詞獲取單元對(duì)所述非結(jié)構(gòu)文本進(jìn)行分詞處理,獲得多個(gè)分詞;接著,第一獲取單元基于所述預(yù)定分類(lèi)模型,對(duì)所述多個(gè)分詞進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi)。具體地,分詞獲取單元例如通過(guò)諸如正向最大匹配等分詞算法對(duì)文本獲取裝置11獲取的與中心詞相關(guān)的非結(jié)構(gòu)化文本進(jìn)行分詞處理,獲得該非結(jié)構(gòu)文本的多個(gè)分詞;然后,第一獲取單元基于該預(yù)定分類(lèi)模型,例如對(duì)分詞獲取單元獲得的該些分詞進(jìn)行特征提取,獲得多條特征信息,然后對(duì)該多條特征進(jìn)行權(quán)重計(jì)算,并基于加權(quán)的該多條特征對(duì)各分詞進(jìn)行分類(lèi)預(yù)測(cè),據(jù)此獲得該中心詞的分類(lèi)。例如,分詞獲取單元對(duì)文本獲取裝置11獲取的中心詞“周杰倫”的非結(jié)構(gòu)化文本“周杰倫是中國(guó)臺(tái)灣的流行歌手...”利用正向最大匹配分詞算法對(duì)該非結(jié)構(gòu)化文本進(jìn)行分詞處理,獲得的分詞結(jié)果為“周杰倫/是/中國(guó)/臺(tái)灣/的/流行 /歌手...”;接著,第一獲取單元根據(jù)該預(yù)定分類(lèi)模型,對(duì)該分詞結(jié)果中的每個(gè)分詞進(jìn)行詞性標(biāo)注、詞頻(TF)及反文檔頻率(IDF)獲取等操作以獲得該非結(jié)構(gòu)化文本的特征信息,例如,該非結(jié)構(gòu)化文本中名詞的比例為0. 3,據(jù)此獲得特征“名詞比例0. 3” ;再如該非結(jié)構(gòu)化文本的分詞結(jié)果中分詞的總數(shù)為100個(gè),而分詞“歌曲”出現(xiàn)20次,由此獲得“歌曲”的詞頻為0.2( = 20/100),并據(jù)此獲得特征“歌曲TF :0. 2”,然后,第一獲取單元根據(jù)預(yù)定規(guī)則對(duì)該各特征信息進(jìn)行加權(quán),例如,若分詞的詞頻(TF)較高則該分詞的詞頻特征的權(quán)重較大,反之,則權(quán)重較小,接著,第一獲取單元利用在該預(yù)定分類(lèi)模型中實(shí)現(xiàn)的基于支持向量機(jī)(SVM)的文本分類(lèi)方法對(duì)每個(gè)分詞進(jìn)行分類(lèi)預(yù)測(cè),例如,在該100個(gè)分詞中,80個(gè)分詞的分類(lèi)預(yù)測(cè)結(jié)果為“歌手/歌唱家”,10個(gè)分詞的分類(lèi)預(yù)測(cè)結(jié)果為“演員”,10個(gè)分詞的分類(lèi)預(yù)測(cè)結(jié)果為“導(dǎo)演”,據(jù)此獲得中心詞“周杰倫”的分類(lèi)為“歌手/歌唱家”。在此,所述實(shí)施例中的分詞算法包括但不限于正向最大匹配,反向最大匹配,雙向最大匹配,語(yǔ)言模型方法, 最短路徑算法等等。在此,所述實(shí)施例中的文本分類(lèi)方法包括但不限于Rocchio法,K臨近法,決策樹(shù),樸素貝葉斯,支持向量機(jī)(SVM)等等。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述對(duì)非結(jié)構(gòu)化文本進(jìn)行分詞及獲取中心詞的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的對(duì)非結(jié)構(gòu)化文本進(jìn)行分詞及獲取中心詞的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。 更優(yōu)選地,第一獲取單元還包括概率獲取單元(未示出)和分類(lèi)獲取單元(未示出),其中,概率獲取單元基于所述預(yù)定分類(lèi)模型,對(duì)所述多個(gè)分詞進(jìn)行分類(lèi)分析,以獲取所述中心詞所屬各候選分類(lèi)的概率;接著,分類(lèi)獲取單元根據(jù)所述概率,從所述各候選分類(lèi)中確定所述中心詞的分類(lèi)。具體地,概率獲取單元基于所述預(yù)定分類(lèi)模型,對(duì)分詞獲取單元獲取的分詞結(jié)果進(jìn)行分類(lèi)分析,以獲取中心詞屬于各候選分類(lèi)的概率;接著,分類(lèi)獲取單元根據(jù)概率獲取單元獲得的該中心詞屬于各候選分類(lèi)的概率,例如將各候選分類(lèi)中該中心詞所屬概率最大的分類(lèi)作為該中心詞的分類(lèi),或者將各候選分類(lèi)中概率大于預(yù)設(shè)概率閾值的一個(gè)或多個(gè)分類(lèi)均作為該中心詞的分類(lèi)。例如,概率獲取單元基于該預(yù)定分類(lèi)模型,對(duì)分詞獲取單元獲得的與中心詞“周杰倫”相關(guān)的非結(jié)構(gòu)化文本的分詞結(jié)果進(jìn)行分類(lèi)分析,并據(jù)此獲得該中心詞屬于分類(lèi)“歌手/歌唱家”的概率為0. 92,屬于分類(lèi)“演員”的概率為0. 78,而屬于分類(lèi)“導(dǎo)演”的概率為0. 5 ;接著,分類(lèi)獲取單元根據(jù)概率獲取單元獲得的該中心詞屬于各候選分類(lèi)的概率,按照中心詞所屬分類(lèi)的概率需大于概率閾值0.7的規(guī)則,確定中心詞 “周杰倫”的分類(lèi)為“歌手/歌唱家”和“演員”。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述獲取分類(lèi)概率及確定中心詞分類(lèi)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取分類(lèi)概率及確定中心詞分類(lèi)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。在另一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D1),信息實(shí)體生成設(shè)備1還包括模型獲取裝置 (未示出),該模型獲取裝置基于預(yù)置語(yǔ)料及其對(duì)應(yīng)分類(lèi)信息的語(yǔ)料庫(kù),對(duì)該語(yǔ)料庫(kù)進(jìn)行機(jī)器學(xué)習(xí),以獲得用于對(duì)語(yǔ)料所屬分類(lèi)進(jìn)行概率性分析的所述預(yù)定分類(lèi)模型。以下參照?qǐng)D1 對(duì)該另一優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中,文本獲取裝置11獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本;隨后,分類(lèi)獲取裝置12基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi);接著,生成裝置13根據(jù)所述分類(lèi),生成所述中心詞的結(jié)構(gòu)化信息實(shí)體;其具體過(guò)程與前述參照?qǐng)D1所描述的實(shí)施例中文本獲取裝置11、分類(lèi)獲取裝置12和生成裝置13所執(zhí)行的過(guò)程相同,為簡(jiǎn)明起見(jiàn),以引用方式包含于此,而不做贅述。具體地,例如在語(yǔ)料庫(kù)中預(yù)先放置一定數(shù)量的語(yǔ)料及對(duì)該些語(yǔ)料人為賦予的預(yù)定義分類(lèi)信息,如,“七里香歌曲”、“不能說(shuō)的秘密電影”、“劉翔運(yùn)動(dòng)員”,模型獲取裝置基于該語(yǔ)料庫(kù)通過(guò)諸如決策樹(shù)分析、支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)方法進(jìn)行機(jī)器學(xué)習(xí),并據(jù)此獲得用于對(duì)語(yǔ)料所屬分類(lèi)進(jìn)行概率性分析的所述預(yù)定分類(lèi)模型。在此,所述上述“語(yǔ)料庫(kù)”意指承載在語(yǔ)言的實(shí)際使用中真實(shí)出現(xiàn)過(guò)的語(yǔ)言材料,及對(duì)其中的語(yǔ)言材料進(jìn)行加工 (分析和處理)而獲得的相應(yīng)分類(lèi)信息,其可保存存儲(chǔ)在各種類(lèi)型的數(shù)據(jù)庫(kù)、文本文件等中,以供查詢(xún)之用。。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述獲取分類(lèi)模型的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取分類(lèi)模型的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。在又一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D1),信息實(shí)體生成設(shè)備1還包括模板獲取裝置 (未示出),該模板獲取裝置根據(jù)所述分類(lèi),獲取與所述分類(lèi)相對(duì)應(yīng)的屬性模板;其中,生成裝置13根據(jù)所述分類(lèi)及其對(duì)應(yīng)的該屬性模板,生成包含所述屬性模板的所述信息實(shí)體。以下參照?qǐng)D1對(duì)該又一優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中,文本獲取裝置11獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本;隨后,分類(lèi)獲取裝置12基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi);其具體過(guò)程與前述參照?qǐng)D1所描述的實(shí)施例中文本獲取裝置11和分類(lèi)獲取裝置12所執(zhí)行的過(guò)程相同,為簡(jiǎn)明起見(jiàn),以引用方式包含于此,而不做贅述。具體地,模板獲取裝置根據(jù)分類(lèi)獲取裝置12所提供的中心詞的分類(lèi),例如通過(guò)在屬性模板庫(kù)中進(jìn)行匹配查詢(xún),以獲取與該分類(lèi)相對(duì)應(yīng)的一個(gè)或多個(gè)預(yù)定義屬性模板,將該分類(lèi)的缺省屬性模板作為將包含在該中心詞的信息實(shí)體中的屬性模板,或者將滿足預(yù)定規(guī)則的該分類(lèi)的屬性模板作為將包含在該中心詞的信息實(shí)體中的屬性模板;接著,生成裝置 13根據(jù)分類(lèi)獲取裝置12獲取的中心詞的分類(lèi)和模板獲取裝置獲取的將包含于該中心詞的信息實(shí)體中的屬性模板,生成包含該(些)屬性模板的該中心詞的結(jié)構(gòu)化信息實(shí)體。在此, 所述“屬性模板”包括與該分類(lèi)相對(duì)應(yīng)的一個(gè)或多個(gè)特定屬性,用以描述屬于該分類(lèi)的信息實(shí)體的某一個(gè)方面的相關(guān)信息。在此,所述“屬性”意指用于描述該信息實(shí)體的信息項(xiàng)最小單位。在此,屬性模板庫(kù)用于存儲(chǔ)分類(lèi)與該分類(lèi)相對(duì)應(yīng)的已有屬性模板的映射信息,該屬性模板庫(kù)包括但不限于關(guān)系數(shù)據(jù)庫(kù),內(nèi)存存儲(chǔ)器,硬盤(pán)存儲(chǔ)器等。例如,假設(shè)分類(lèi)獲取裝置12 獲得的中心詞“周杰倫”的分類(lèi)為“歌手/歌唱家”和“演員”,模板獲取裝置根據(jù)該2個(gè)分類(lèi),在屬性模板庫(kù)中進(jìn)行匹配查詢(xún),獲得分類(lèi)“歌手/歌唱家”的屬性模板包括“發(fā)行音樂(lè)專(zhuān)輯”、“所獲音樂(lè)獎(jiǎng)項(xiàng)”、“舉辦演唱會(huì)”、“簽約經(jīng)紀(jì)公司”,分類(lèi)“演員,,的屬性模板包括“出演電影”、“出演電視劇”、“所獲影視獎(jiǎng)項(xiàng)”;假設(shè)將包含在中心詞“周杰倫”的信息實(shí)體中的屬性模板需要滿足的預(yù)定規(guī)則為超過(guò)80%的具有相同分類(lèi)的其他信息實(shí)體包含該屬性模板, 模板獲取裝置根據(jù)分類(lèi)“歌手/歌唱家”,在信息實(shí)體數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲得具有該分類(lèi)的所有其他信息實(shí)體,然后,在該所有其他信息實(shí)體中依次遍歷其包含的屬性模板, 并獲得包含“發(fā)行音樂(lè)專(zhuān)輯”、“所獲音樂(lè)獎(jiǎng)項(xiàng)”、“舉辦演唱會(huì)”、“簽約經(jīng)紀(jì)公司”的其他信息實(shí)體在該所有其他信息實(shí)體中所占的比例依次為100^^85^^70^^75%,據(jù)此確定將包含于中心詞“周杰倫”的信息實(shí)體中的屬性模板為“發(fā)行音樂(lè)專(zhuān)輯”和“所獲音樂(lè)獎(jiǎng)項(xiàng)”,執(zhí)行同樣的操作確定分類(lèi)“演員”的屬性模板“出演電影”將包含于該中心詞的信息實(shí)體中; 接著,生成裝置13根據(jù)模板獲取裝置獲取的將包含于該中心詞的信息實(shí)體中屬性模板“發(fā)行音樂(lè)專(zhuān)輯”、“所獲音樂(lè)獎(jiǎng)項(xiàng)”和“出演電影”,為該中心詞生成包含該些屬性模板的結(jié)構(gòu)化信息實(shí)體,使該信息實(shí)體具有該些屬性模板所包括的屬性,如屬性模板“發(fā)行音樂(lè)專(zhuān)輯”包括屬性“專(zhuān)輯名稱(chēng)”、“發(fā)行時(shí)間”、“曲目名稱(chēng)”,屬性模板“所獲音樂(lè)獎(jiǎng)項(xiàng)”包括屬性“獎(jiǎng)項(xiàng)名稱(chēng)”、“獲獎(jiǎng)時(shí)間”,屬性模板“出演電影”包括屬性“電影名稱(chēng)”、“飾演角色”。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述獲取屬性模板及生成信息實(shí)體的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取屬性模板及生成信息實(shí)體的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。優(yōu)選地,信息實(shí)體生成設(shè)備1還包括模板更新裝置(未示出),該模板更新裝置根據(jù)所述信息實(shí)體的歷史訪問(wèn)信息,更新所述信息實(shí)體中的所述屬性模板。具體地,模板更新裝置根據(jù)生成裝置13生成的結(jié)構(gòu)化信息實(shí)體的歷史訪問(wèn)信息,例如添加新的屬性模板到該信息實(shí)體中,或者從該信息實(shí)體中的刪除其包含的某(些)屬性模板。例如,假設(shè)信息實(shí)體的歷史訪問(wèn)信息為該信息實(shí)體的屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù),模板更新裝置根據(jù)生成裝置13生成的中心詞“周杰倫”的信息實(shí)體,基于該信息實(shí)體的歷史訪問(wèn)日志進(jìn)行統(tǒng)計(jì)分析,獲得與該信息實(shí)體包含的每個(gè)屬性模板中各屬性的屬性?xún)?nèi)容相對(duì)應(yīng)的網(wǎng)頁(yè)頁(yè)面的累計(jì)瀏覽次數(shù),其中屬性模板“發(fā)行音樂(lè)專(zhuān)輯”中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù)為20000次,屬性模板“所獲音樂(lè)獎(jiǎng)項(xiàng)”中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù)為20 次,據(jù)此,獲得屬性模板“所獲音樂(lè)獎(jiǎng)項(xiàng)”所對(duì)應(yīng)的累計(jì)瀏覽次數(shù)小于累計(jì)瀏覽次數(shù)閾值100 次,則將該屬性模板從該信息實(shí)體中刪除。再如,假設(shè)信息實(shí)體的歷史訪問(wèn)信息為所述信息實(shí)體的用戶歷史行為記錄,模板更新裝置根據(jù)生成裝置13生成的中心詞“周杰倫”的信息實(shí)體,基于信息實(shí)體的用戶歷史行為記錄進(jìn)行統(tǒng)計(jì)分析獲得在用戶的10000條“周杰倫”信息實(shí)體點(diǎn)擊記錄中有9000條的該點(diǎn)擊記錄后緊隨“蘭亭序”信息實(shí)體和“可愛(ài)女人”信息實(shí)體的點(diǎn)擊記錄,而在用戶的8000條“王力宏”信息實(shí)體點(diǎn)擊記錄中有7000條的該點(diǎn)擊記錄后緊隨“唯一”信息實(shí)體和“龍的傳人”信息實(shí)體的點(diǎn)擊記錄,通過(guò)對(duì)該統(tǒng)計(jì)分析結(jié)果進(jìn)行聚類(lèi),獲得“周杰倫”、“王力宏”與“蘭亭序”、“可愛(ài)女人”、“唯一”、“龍的傳人”之間存在“歌手-歌曲”的關(guān)系,則據(jù)此為“周杰倫”信息實(shí)體添加“表演歌曲”屬性模板,該屬性模板包括屬性“歌曲名稱(chēng)”。本領(lǐng)域技術(shù)人員應(yīng)能理解上述更新信息實(shí)體屬性模板的方式僅為舉例, 其他現(xiàn)有的或今后可能出現(xiàn)的更新信息實(shí)體屬性模板的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。更優(yōu)選地,所述歷史訪問(wèn)信息包括但不限于以下至少任一項(xiàng)
-所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù);-所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的瀏覽頻次;-所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)編輯次數(shù);-所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的編輯頻次;-所述信息實(shí)體的用戶歷史行為記錄。具體地,若歷史訪問(wèn)信息包括所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù),則模板更新裝置在該累計(jì)瀏覽次數(shù)低于預(yù)設(shè)的累計(jì)瀏覽次數(shù)閾值時(shí),將該屬性模板從該信息實(shí)體中刪除。若歷史訪問(wèn)信息包括所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的瀏覽頻次,則模板更新裝置在該瀏覽頻次低于預(yù)設(shè)的瀏覽頻次閾值時(shí), 將該屬性模板從該信息實(shí)體中刪除。若歷史訪問(wèn)信息包括所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)編輯次數(shù),則模板更新裝置在該累計(jì)編輯次數(shù)低于預(yù)設(shè)的累計(jì)編輯閾值時(shí),將該屬性模板從該信息實(shí)體中刪除。若歷史訪問(wèn)信息包括所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的編輯頻次,則模板更新裝置在該編輯頻次低于預(yù)設(shè)的編輯頻次閾值時(shí),將該屬性模板從該信息實(shí)體中刪除。在此,上述累計(jì)瀏覽次數(shù),瀏覽頻次,累計(jì)編輯次數(shù),編輯頻次可通過(guò)對(duì)信息實(shí)體的歷史訪問(wèn)日志進(jìn)行統(tǒng)計(jì)分析獲得,也可通過(guò)預(yù)定的通信方式第三方設(shè)備讀取。本領(lǐng)域技術(shù)人員應(yīng)能理解上述每項(xiàng)歷史訪問(wèn)信息不僅可以單獨(dú)用于更新信息實(shí)體的屬性模板,還可以相互結(jié)合后用以加權(quán)更新信息實(shí)體的屬性模板。 本領(lǐng)域技術(shù)人員應(yīng)能理解上述歷史訪問(wèn)信息僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的歷史訪問(wèn)信息如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。更優(yōu)選地,信息實(shí)體生成設(shè)備1還包括中心詞獲取裝置(未示出)、屬性獲取裝置 (未示出)和添加裝置(未示出),其中,中心詞獲取裝置根據(jù)所述非結(jié)構(gòu)化文本,在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲取所述非結(jié)構(gòu)化文本中的中心詞文本及其分類(lèi);隨后,屬性獲取裝置從所述信息實(shí)體的屬性模板中獲取與所述中心詞文本具有相同分類(lèi)的屬性;接著, 添加裝置將所述中心詞文本作為所述屬性的屬性?xún)?nèi)容添加到所述信息實(shí)體中。具體地,中心詞獲取裝置例如對(duì)文本獲取裝置11獲取的非結(jié)構(gòu)化文本通過(guò)諸如正向最大匹配等分詞算法進(jìn)行分詞處理,然后將獲得的每個(gè)分詞在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲取該非結(jié)構(gòu)化文本中包含的中心詞文本及該(些)中心詞文本對(duì)應(yīng)的分類(lèi);隨后,屬性獲取裝置對(duì)生成裝置13生成的信息實(shí)體中包含的各屬性模板中的屬性進(jìn)行遍歷,直到獲得某個(gè)屬性的預(yù)置分類(lèi)與該中心詞文本所對(duì)應(yīng)的分類(lèi)相同;接著,添加裝置將中心詞獲取裝置獲取的中心詞文本作為在屬性獲取裝置獲取的與該中心詞文本對(duì)應(yīng)的所述屬性的屬性?xún)?nèi)容添加到所述信息實(shí)體中。例如,假設(shè)文本獲取裝置11獲取的中心詞“周杰倫”非結(jié)構(gòu)化文本“周杰倫是中國(guó)臺(tái)灣著名流行歌手,代表音樂(lè)專(zhuān)輯作品包括“跨時(shí)代”等,并曾出演電影“不能說(shuō)的秘密”,中心詞獲取裝置對(duì)該非結(jié)構(gòu)化文本利用正向最大匹配算法進(jìn)行分詞處理,獲取的分詞包括“中國(guó)”,“跨時(shí)代” “不能說(shuō)的秘密”等等,將該些分詞依次在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),獲得在中心詞數(shù)據(jù)庫(kù)中未查詢(xún)到名稱(chēng)為“中國(guó)”的中心詞,但查詢(xún)到名稱(chēng)為“跨時(shí)代”和“不能說(shuō)的秘密”的中心詞及其與該中心詞對(duì)應(yīng)的分類(lèi),據(jù)此,將分詞“跨時(shí)代”和“不能說(shuō)的秘密”作為該非結(jié)構(gòu)化文本的中心詞文本,并將在中心詞數(shù)據(jù)庫(kù)中查詢(xún)到的與名稱(chēng)為“跨時(shí)代”和“不能說(shuō)的秘密”中心詞對(duì)應(yīng)的分類(lèi)作為相應(yīng)的中心詞文本的分類(lèi),如“跨時(shí)代”的分類(lèi)為“音樂(lè)專(zhuān)輯”,“不能說(shuō)的秘密”的分類(lèi)為“電影”;隨后,屬性獲取裝置對(duì)生成裝置13生成的中心詞“周杰倫”的信息實(shí)體中包含的各屬性模板中的屬性進(jìn)行遍歷,獲得屬性模板“發(fā)行音樂(lè)專(zhuān)輯”中的屬性“專(zhuān)輯名稱(chēng)”的預(yù)置分類(lèi)與中心詞文本“跨時(shí)代”的分類(lèi)相同,執(zhí)行上述同樣的操作,獲得屬性模板“出演電影”中的屬性“電影名稱(chēng)”的預(yù)置分類(lèi)與中心詞文本“不能說(shuō)的秘密”的分類(lèi)相同;接著,添加裝置將中心詞文本“跨時(shí)代”作為屬性模板“發(fā)行音樂(lè)專(zhuān)輯”中的屬性“專(zhuān)輯名稱(chēng)”的屬性?xún)?nèi)容添加到“周杰倫”信息實(shí)體,同樣,將中心詞文本“不能說(shuō)的秘密”作為屬性模板“出演電影”中的屬性“電影名稱(chēng)”的屬性?xún)?nèi)容添加到“周杰倫”信息實(shí)體。在此,上述中心詞數(shù)據(jù)庫(kù)用于存儲(chǔ)已存在的所有中心詞的相關(guān)信息, 該中心詞數(shù)據(jù)庫(kù)包括但不限于關(guān)系數(shù)據(jù)庫(kù),內(nèi)存存儲(chǔ)器,硬盤(pán)存儲(chǔ)器等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取中心詞文本,獲取屬性模板中的屬性及添加屬性?xún)?nèi)容的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取中心詞文本,獲取屬性模板中的屬性及添加屬性?xún)?nèi)容的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。更優(yōu)選地,信息實(shí)體生成設(shè)備1還包括數(shù)據(jù)庫(kù)更新裝置(未示出),該數(shù)據(jù)庫(kù)更新裝置根據(jù)所述中心詞的分類(lèi),建立或更新所述中心詞數(shù)據(jù)庫(kù)。具體地,數(shù)據(jù)庫(kù)更新裝置將中心詞及分類(lèi)獲取裝置12獲得的該中心詞的分類(lèi)寫(xiě)入到中心詞數(shù)據(jù)庫(kù)中,以更新該中心詞數(shù)據(jù)庫(kù);若檢測(cè)到該中心詞數(shù)據(jù)庫(kù)未建立,則先行初始化該中心詞數(shù)據(jù)庫(kù),然后將所述中心詞及其分類(lèi)寫(xiě)入到該中心詞數(shù)據(jù)庫(kù)中。例如,數(shù)據(jù)庫(kù)更新裝置將中心詞“周杰倫”及分類(lèi)獲取裝置12獲得的該中心詞的分類(lèi)“歌手/歌唱家”,插入到該中心詞數(shù)據(jù)庫(kù)中,以更新該中心詞數(shù)據(jù)庫(kù)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述建立或更新中心詞數(shù)據(jù)庫(kù)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的建立或更新中心詞數(shù)據(jù)庫(kù)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。圖2示出根據(jù)本發(fā)明一個(gè)方面基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的方法流程圖。在此,信息實(shí)體生成設(shè)備1包括但不限于計(jì)算機(jī)、網(wǎng)絡(luò)主機(jī)、單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集或多個(gè)服務(wù)器構(gòu)成的云。在此,云由基于云計(jì)算(Cloud Computing)的大量計(jì)算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。具體地,在步驟Sl中,信息實(shí)體生成設(shè)備1獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本。更具體地,在步驟Sl中,信息實(shí)體生成設(shè)備1定期或應(yīng)事件觸發(fā)實(shí)時(shí)地獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本,例如在步驟Sl中,根據(jù)中心詞在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲得與該中心詞的非結(jié)構(gòu)化文本,或者定期地通過(guò)約定的通信方式直接從第三方設(shè)備讀取該中心詞的非結(jié)構(gòu)化文本。在此,所述“中心詞”意指該非結(jié)構(gòu)化文本緊緊圍繞進(jìn)行闡述的詞語(yǔ)。 例如,假設(shè)信息實(shí)體生成設(shè)備1為網(wǎng)絡(luò)百科服務(wù)器,在步驟Si中,信息實(shí)體生成設(shè)備1根據(jù)預(yù)置的中心詞列表中的中心詞“周杰倫”在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),獲得該中心詞的非結(jié)構(gòu)化文本內(nèi)容為“周杰倫是中國(guó)臺(tái)灣華語(yǔ)流行歌手,發(fā)行諸多音樂(lè)專(zhuān)輯。近年涉足電影行業(yè),出演電影不能說(shuō)的秘密”。再如,在步驟Sl中,信息實(shí)體生成設(shè)備1按一定周期,將預(yù)置的中心詞作為輸入?yún)?shù)定期地通過(guò)調(diào)用設(shè)定的應(yīng)用編程接口(API)向第三方設(shè)備發(fā)送獲取該中心詞的非結(jié)構(gòu)化文本的請(qǐng)求,并接收該第三方設(shè)備基于該請(qǐng)求返回的非結(jié)構(gòu)化文本。在此,上述中心詞數(shù)據(jù)庫(kù)用于存儲(chǔ)已存在的所有中心詞的相關(guān)信息,該中心詞數(shù)據(jù)庫(kù)包括但不限于關(guān)系數(shù)據(jù)庫(kù),內(nèi)存存儲(chǔ)器,硬盤(pán)存儲(chǔ)器等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取中心詞的非結(jié)構(gòu)化文本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取中心詞的非結(jié)構(gòu)化文本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。隨后,在步驟S2中,信息實(shí)體生成設(shè)備1基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi)。具體地,在步驟S2中,信息實(shí)體生成設(shè)備1例如基于利用諸如決策樹(shù)、支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)方法而獲得的用于對(duì)語(yǔ)料所屬分類(lèi)進(jìn)行分類(lèi)預(yù)測(cè)的預(yù)定分類(lèi)模型,對(duì)信息實(shí)體生成設(shè)備1在步驟Sl中所提供的中心詞的非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,獲得該非結(jié)構(gòu)化文本所屬不同分類(lèi)的概率,并據(jù)此獲取該中心詞的分類(lèi),或者將信息實(shí)體生成設(shè)備1在步驟Sl中所提供的中心詞的非結(jié)構(gòu)化文本在如分類(lèi)數(shù)據(jù)庫(kù)的簡(jiǎn)單分類(lèi)模型中進(jìn)行匹配查詢(xún),以獲得該中心詞的分類(lèi)。例如,在步驟S2中,信息實(shí)體生成設(shè)備1根據(jù)其在步驟Sl中獲取的中心詞“周杰倫”的非結(jié)構(gòu)化文本“周杰倫是中國(guó)臺(tái)灣華語(yǔ)流行歌手,發(fā)行諸多音樂(lè)專(zhuān)輯。近年涉足電影行業(yè),出演電影不能說(shuō)的秘密”,在由第三方設(shè)備提供的分類(lèi)模型中進(jìn)行分類(lèi)分析,獲得該中心詞屬于“歌手/歌唱家”分類(lèi)的概率為0. 9,屬于“演員,,分類(lèi)的概率為0. 7,屬于其他分類(lèi)的概率小于0. 1,據(jù)此將所屬概率最大的“歌手/歌唱家”作為“周杰倫”的分類(lèi)。再如,在步驟S2中,信息實(shí)體生成設(shè)備1 對(duì)其在步驟Sl中獲取的中心詞“周杰倫”的非結(jié)構(gòu)化文本“周杰倫是中國(guó)臺(tái)灣華語(yǔ)流行歌手,發(fā)行諸多音樂(lè)專(zhuān)輯。近年涉足電影行業(yè)?!崩谜蜃畲笃ヅ浞衷~算法對(duì)該非結(jié)構(gòu)化文本進(jìn)行分詞處理,獲得的分詞包括“中國(guó)”,“臺(tái)灣”,“流行歌手”,“音樂(lè)專(zhuān)輯”,“電影”等,將該些分詞作為分類(lèi)關(guān)鍵詞在分類(lèi)數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲得各分類(lèi)關(guān)鍵詞所對(duì)應(yīng)的分類(lèi),并將其作為中心詞所屬的分類(lèi)如“歌手/歌唱家”,“演員”和“導(dǎo)演”。在此,上述分類(lèi)數(shù)據(jù)庫(kù)中已預(yù)置分類(lèi)關(guān)鍵詞與分類(lèi)的映射關(guān)系,例如關(guān)鍵詞“歌手”與分類(lèi)“歌手/歌唱家”相對(duì)應(yīng),關(guān)鍵詞“電影”與分類(lèi)“演員,,相對(duì)應(yīng),關(guān)鍵詞“電影”還可與“導(dǎo)演”相對(duì)應(yīng)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取中心詞的分類(lèi)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取中心詞的分類(lèi)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。接著,在步驟S3中,信息實(shí)體生成設(shè)備1根據(jù)所述分類(lèi),生成所述中心詞的結(jié)構(gòu)化信息實(shí)體。具體地,在步驟S3中,信息實(shí)體生成設(shè)備1根據(jù)其在步驟S2中獲得的中心詞的分類(lèi),獲得與該分類(lèi)相對(duì)應(yīng)的預(yù)定義信息實(shí)體數(shù)據(jù)結(jié)構(gòu),并據(jù)此生成該中心詞的結(jié)構(gòu)化信息實(shí)體。在此,所述“信息實(shí)體”意指具有結(jié)構(gòu)化特征的數(shù)據(jù),包括但不限于網(wǎng)絡(luò)百科中的詞條,電子商務(wù)網(wǎng)站中的商品信息,電子圖書(shū)館中的圖書(shū)條目,電子期刊網(wǎng)站中的期刊、論文信息等。例如,假設(shè)在步驟S2中,信息實(shí)體生成設(shè)備1獲得的中心詞“七里香”的分類(lèi)為“音樂(lè)專(zhuān)輯”,在步驟S3中,信息實(shí)體生成設(shè)備1根據(jù)該分類(lèi)獲得預(yù)置的與“音樂(lè)專(zhuān)輯”分類(lèi)相對(duì)應(yīng)的信息實(shí)體數(shù)據(jù)結(jié)構(gòu),其中包括屬性“專(zhuān)輯名稱(chēng)”,“表演者”,“發(fā)行時(shí)間”,“發(fā)行公司”, “專(zhuān)輯曲目”等,并基于該數(shù)據(jù)結(jié)構(gòu)生成“七里香”的信息實(shí)體。再如,假設(shè)在步驟S2中,信息實(shí)體生成設(shè)備1獲得的中心詞“周杰倫”的分類(lèi)為“歌手/歌唱家”,在步驟S3中,信息實(shí)體生成設(shè)備1根據(jù)該分類(lèi),在屬性模板庫(kù)中進(jìn)行匹配查詢(xún)以獲得該分類(lèi)所對(duì)應(yīng)的一個(gè)或多個(gè)屬性模板,如“發(fā)行音樂(lè)專(zhuān)輯”、“所獲音樂(lè)獎(jiǎng)項(xiàng)”,“舉辦演唱會(huì)”等,然后生成包含該(等) 屬性模板的中心詞“周杰倫”的信息實(shí)體。在此,所述“屬性模板”包括與該分類(lèi)相對(duì)應(yīng)的一個(gè)或多個(gè)特定屬性,用以描述屬于該分類(lèi)的信息實(shí)體的某一個(gè)方面的相關(guān)信息。在此,所述“屬性”意指用于描述信息實(shí)體信息項(xiàng)的最小單位,例如,屬性模板“發(fā)行音樂(lè)專(zhuān)輯”用于描述分類(lèi)為“歌手/歌唱家”的信息實(shí)體“周杰倫”發(fā)行的所有音樂(lè)專(zhuān)輯信息,其包括屬性“發(fā)行專(zhuān)輯名稱(chēng)”、“發(fā)行時(shí)間”、“曲目名稱(chēng)”等。在此,上述屬性模板庫(kù)用于存儲(chǔ)分類(lèi)與該分類(lèi)相對(duì)應(yīng)的已有屬性模板的映射信息,該屬性模板庫(kù)包括但不限于關(guān)系數(shù)據(jù)庫(kù),內(nèi)存存儲(chǔ)器,硬盤(pán)存儲(chǔ)器等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述生成結(jié)構(gòu)化信息實(shí)體的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的生成結(jié)構(gòu)化信息實(shí)體的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。在此,需要說(shuō)明的是,舉例中的各項(xiàng)數(shù)值作為說(shuō)明作用的示例,僅供理解本發(fā)明, 不作為實(shí)際應(yīng)用時(shí)的真實(shí)數(shù)據(jù)。如無(wú)特別說(shuō)明,本文中其他地方出現(xiàn)的數(shù)值的功用與此處相同,為簡(jiǎn)明起見(jiàn),不再贅述。優(yōu)選地,信息實(shí)體生成設(shè)備1在步驟Si、步驟S2和步驟S3中是持續(xù)不斷地工作。 具體地,在步驟Sl中,信息實(shí)體生成設(shè)備1獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本;隨后,在步驟S2中,信息實(shí)體生成設(shè)備1基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi);接著,在步驟S3中,信息實(shí)體生成設(shè)備1根據(jù)所述分類(lèi),生成所述中心詞的結(jié)構(gòu)化信息實(shí)體;在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指各步驟分別按照設(shè)定的或?qū)崟r(shí)調(diào)整的工作模式要求進(jìn)行與中心詞相關(guān)的非結(jié)構(gòu)化信息實(shí)體的獲取、中心詞分類(lèi)的獲取、及結(jié)構(gòu)化信息實(shí)體的生成,直至信息實(shí)體生成設(shè)備1在較長(zhǎng)時(shí)間內(nèi)停止對(duì)與中心詞相關(guān)的非結(jié)構(gòu)化文本的獲取。優(yōu)選地,在步驟S2中,該過(guò)程還包括步驟S21 (未示出)和步驟S22(未示出),其中,在步驟S21中,信息實(shí)體生成設(shè)備1對(duì)所述非結(jié)構(gòu)文本進(jìn)行分詞處理,獲得多個(gè)分詞;接著,在步驟S22中,信息實(shí)體生成設(shè)備1基于所述預(yù)定分類(lèi)模型,對(duì)所述多個(gè)分詞進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi)。具體地,在步驟S21中,信息實(shí)體生成設(shè)備1例如通過(guò)諸如正向最大匹配等分詞算法對(duì)信息實(shí)體生成設(shè)備1在步驟Sl中獲取的與中心詞相關(guān)的非結(jié)構(gòu)化文本進(jìn)行分詞處理,獲得該非結(jié)構(gòu)文本的多個(gè)分詞;然后,在步驟S22中,信息實(shí)體生成設(shè)備1基于該預(yù)定分類(lèi)模型,例如對(duì)其在步驟S21中獲得的該些分詞進(jìn)行特征提取,獲得多條特征信息,然后對(duì)該多條特征進(jìn)行權(quán)重計(jì)算,并基于加權(quán)的該多條特征對(duì)各分詞進(jìn)行分類(lèi)預(yù)測(cè),據(jù)此獲得該中心詞的分類(lèi)。例如,在步驟S21中,信息實(shí)體生成設(shè)備1對(duì)其在步驟Sl中獲取的中心詞“周杰倫”的非結(jié)構(gòu)化文本“周杰倫是中國(guó)臺(tái)灣的流行歌手...”利用正向最大匹配分詞算法對(duì)該非結(jié)構(gòu)化文本進(jìn)行分詞處理,獲得的分詞結(jié)果為“周杰倫/是/ 中國(guó)/臺(tái)灣/的/流行/歌手...”;接著,在步驟S22中,信息實(shí)體生成設(shè)備1根據(jù)該預(yù)定分類(lèi)模型,對(duì)該分詞結(jié)果中的每個(gè)分詞進(jìn)行詞性標(biāo)注、詞頻(TF)及反文檔頻率(IDF)獲取等操作以獲得該非結(jié)構(gòu)化文本的特征信息,例如,該非結(jié)構(gòu)化文本中名詞的比例為0. 3,據(jù)此獲得特征“名詞比例0. 3”;再如該非結(jié)構(gòu)化文本的分詞結(jié)果中分詞的總數(shù)為100個(gè),而分詞“歌曲”出現(xiàn)20次,由此獲得“歌曲”的詞頻為0. 2( = 20/100),并據(jù)此獲得特征“歌曲TF :0. 2”,然后,信息實(shí)體生成設(shè)備1根據(jù)預(yù)定規(guī)則對(duì)該各特征信息進(jìn)行加權(quán),例如,若分詞的詞頻(TF)較高則該分詞的詞頻特征的權(quán)重較大,反之,則權(quán)重較小,接著,信息實(shí)體生成設(shè)備1利用在該預(yù)定分類(lèi)模型中實(shí)現(xiàn)的基于支持向量機(jī)(SVM)的文本分類(lèi)方法對(duì)每個(gè)分詞進(jìn)行分類(lèi)預(yù)測(cè),例如,在該100個(gè)分詞中,80個(gè)分詞的分類(lèi)預(yù)測(cè)結(jié)果為“歌手/歌唱家”, 10個(gè)分詞的分類(lèi)預(yù)測(cè)結(jié)果為“演員”,10個(gè)分詞的分類(lèi)預(yù)測(cè)結(jié)果為“導(dǎo)演”,據(jù)此獲得中心詞“周杰倫”的分類(lèi)為“歌手/歌唱家”。在此,所述實(shí)施例中的分詞算法包括但不限于正向最大匹配,反向最大匹配,雙向最大匹配,語(yǔ)言模型方法,最短路徑算法等等。在此,所述實(shí)施例中的文本分類(lèi)方法包括但不限于Rocchio法,K臨近法,決策樹(shù),樸素貝葉斯,支持向量機(jī) (SVM)等等。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述對(duì)非結(jié)構(gòu)化文本進(jìn)行分詞及獲取中心詞的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的對(duì)非結(jié)構(gòu)化文本進(jìn)行分詞及獲取中心詞的的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。更優(yōu)選地,在步驟S22中,該過(guò)程還包括步驟S221(未示出)和步驟S222(未示出),其中,在步驟S221中,信息實(shí)體生成設(shè)備1基于所述預(yù)定分類(lèi)模型,對(duì)所述多個(gè)分詞進(jìn)行分類(lèi)分析,以獲取所述中心詞所屬各候選分類(lèi)的概率;接著,在步驟S222中,信息實(shí)體生成設(shè)備1根據(jù)所述概率,從所述各候選分類(lèi)中確定所述中心詞的分類(lèi)。具體地,在步驟S221 中,信息實(shí)體生成設(shè)備1基于所述預(yù)定分類(lèi)模型,對(duì)其在步驟S21中獲取的分詞結(jié)果進(jìn)行分類(lèi)分析,以獲取中心詞屬于各候選分類(lèi)的概率;接著,在步驟S222中,信息實(shí)體生成設(shè)備 1根據(jù)其在步驟S221中獲得的該中心詞屬于各候選分類(lèi)的概率,例如將各候選分類(lèi)中該中心詞所屬概率最大的分類(lèi)作為該中心詞的分類(lèi),或者將各候選分類(lèi)中概率大于預(yù)設(shè)概率閾值的一個(gè)或多個(gè)分類(lèi)均作為該中心詞的分類(lèi)。例如,在步驟S221中,信息實(shí)體生成設(shè)備1 基于該預(yù)定分類(lèi)模型,對(duì)其在步驟S21中獲得的與中心詞“周杰倫”相關(guān)的非結(jié)構(gòu)化文本的分詞結(jié)果進(jìn)行分類(lèi)分析,并據(jù)此獲得該中心詞屬于分類(lèi)“歌手/歌唱家”的概率為0. 92,屬于分類(lèi)“演員,,的概率為0. 78,而屬于分類(lèi)“導(dǎo)演”的概率為0. 5 ;接著,在步驟S222中,信息實(shí)體生成設(shè)備1根據(jù)其在步驟S221中獲得的該中心詞屬于各候選分類(lèi)的概率,按照中心詞所屬分類(lèi)的概率需大于概率閾值0. 7的規(guī)則,確定中心詞“周杰倫”的分類(lèi)為“歌手/歌唱家”和“演員”。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述獲取分類(lèi)概率及確定中心詞分類(lèi)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取分類(lèi)概率及確定中心詞分類(lèi)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。在另一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D2),該過(guò)程還包括步驟S4(未示出),在步驟S4 中,信息實(shí)體生成設(shè)備1基于預(yù)置語(yǔ)料及其對(duì)應(yīng)分類(lèi)信息的語(yǔ)料庫(kù),對(duì)該語(yǔ)料庫(kù)進(jìn)行機(jī)器學(xué)習(xí),以獲得用于對(duì)語(yǔ)料所屬分類(lèi)進(jìn)行概率性分析的所述預(yù)定分類(lèi)模型。以下參照?qǐng)D2對(duì)該另一優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中,在步驟Sl中,信息實(shí)體生成設(shè)備1獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本;隨后,在步驟S2中,信息實(shí)體生成設(shè)備1基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi);接著,在步驟S3中,信息實(shí)體生成設(shè)備1根據(jù)所述分類(lèi),生成所述中心詞的結(jié)構(gòu)化信息實(shí)體;其具體過(guò)程與前述參照?qǐng)D2所描述的實(shí)施例中信息實(shí)體生成設(shè)備1在步驟Si、步驟S2和步驟S3中所執(zhí)行的過(guò)程相同,為簡(jiǎn)明起見(jiàn),以引用方式包含于此,而不做贅述。具體地,例如在語(yǔ)料庫(kù)中預(yù)先放置一定數(shù)量的語(yǔ)料及對(duì)該些語(yǔ)料人為賦予的預(yù)定義分類(lèi)信息,如,“七里香歌曲”、“不能說(shuō)的秘密電影”、“劉翔運(yùn)動(dòng)員”,在步驟S4中,信息實(shí)體生成設(shè)備1基于該語(yǔ)料庫(kù)通過(guò)諸如決策樹(shù)分析、支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)方法進(jìn)行機(jī)器學(xué)習(xí),并據(jù)此獲得用于對(duì)語(yǔ)料所屬分類(lèi)進(jìn)行概率性分析的所述預(yù)定分類(lèi)模型。在此,所述“語(yǔ)料庫(kù)”意指承載在語(yǔ)言的實(shí)際使用中真實(shí)出現(xiàn)過(guò)的語(yǔ)言材料,及對(duì)其中的語(yǔ)言材料進(jìn)行加工(分析和處理)而獲得的相應(yīng)分類(lèi)信息,其可存儲(chǔ)在各種類(lèi)型的數(shù)據(jù)庫(kù)、文本文件等,以供查詢(xún)之用。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述獲取分類(lèi)模型的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取分類(lèi)模型的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。在又一個(gè)優(yōu)選實(shí)施例中(參照?qǐng)D2),該過(guò)程還包括步驟S5(未示出),在步驟S5 中,信息實(shí)體生成設(shè)備1根據(jù)所述分類(lèi),獲取與所述分類(lèi)相對(duì)應(yīng)的屬性模板;其中,在步驟 S3中,信息實(shí)體生成設(shè)備1根據(jù)所述分類(lèi)及其對(duì)應(yīng)的該屬性模板,生成包含所述屬性模板的所述信息實(shí)體。以下參照?qǐng)D2對(duì)該又一優(yōu)選實(shí)施例進(jìn)行詳細(xì)描述,其中,在步驟Sl中,信息實(shí)體生成設(shè)備1獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本;隨后,在步驟S2中,信息實(shí)體生成設(shè)備1基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi);其具體過(guò)程與前述參照?qǐng)D2所描述的實(shí)施例中信息實(shí)體生成設(shè)備1在步驟S 1、步驟S2中所執(zhí)行的過(guò)程相同,為簡(jiǎn)明起見(jiàn),以引用方式包含于此,而不做贅述。具體地,在步驟S5中,信息實(shí)體生成設(shè)備1根據(jù)其在步驟S2中所提供的中心詞的分類(lèi),例如通過(guò)在屬性模板庫(kù)中進(jìn)行匹配查詢(xún),以獲取與該分類(lèi)相對(duì)應(yīng)的一個(gè)或多個(gè)預(yù)定義屬性模板,將該分類(lèi)的缺省屬性模板作為將包含在該中心詞的信息實(shí)體中的屬性模板, 或者將滿足預(yù)定規(guī)則的該分類(lèi)的屬性模板作為將包含在該中心詞的信息實(shí)體中的屬性模板;接著,在步驟S3中,信息實(shí)體生成設(shè)備1根據(jù)其在步驟S2中獲取的中心詞的分類(lèi)和信息實(shí)體生成設(shè)備1在步驟S5中獲取的將包含于該中心詞的信息實(shí)體中的屬性模板,生成包含該(些)屬性模板的該中心詞的結(jié)構(gòu)化信息實(shí)體。在此,所述上述“屬性模板”包括與該分類(lèi)相對(duì)應(yīng)的一個(gè)或多個(gè)特定屬性,用以描述屬于該分類(lèi)的信息實(shí)體的某一個(gè)方面的相關(guān)信息。在此,所述“屬性”意指用于描述該信息實(shí)體的信息項(xiàng)最小單位。在此,屬性模板庫(kù)用于存儲(chǔ)分類(lèi)與該分類(lèi)相對(duì)應(yīng)的已有屬性模板的映射信息,該屬性模板庫(kù)包括但不限于關(guān)系數(shù)據(jù)庫(kù),內(nèi)存存儲(chǔ)器,硬盤(pán)存儲(chǔ)器等。例如,假設(shè)在步驟S2中,信息實(shí)體生成設(shè)備1獲得的中心詞“周杰倫”的分類(lèi)為“歌手/歌唱家”和“演員”,在步驟S5中,信息實(shí)體生成設(shè)備1 根據(jù)該2個(gè)分類(lèi),在屬性模板庫(kù)中進(jìn)行匹配查詢(xún),獲得分類(lèi)“歌手/歌唱家”的屬性模板包括 “發(fā)行音樂(lè)專(zhuān)輯”、“所獲音樂(lè)獎(jiǎng)項(xiàng)”、“舉辦演唱會(huì)”、“簽約經(jīng)紀(jì)公司”,分類(lèi)“演員”的屬性模板包括“出演電影”、“出演電視劇”、“所獲影視獎(jiǎng)項(xiàng)”;假設(shè)將包含在中心詞“周杰倫”的信息實(shí)體中的屬性模板需要滿足的預(yù)定規(guī)則為超過(guò)80%的具有相同分類(lèi)的其他信息實(shí)體包含該屬性模板,在步驟S5中,信息實(shí)體生成設(shè)備1根據(jù)分類(lèi)“歌手/歌唱家”,在信息實(shí)體數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲得具有該分類(lèi)的所有其他信息實(shí)體,然后,在該所有其他信息實(shí)體中依次遍歷其包含的屬性模板,并獲得包含“發(fā)行音樂(lè)專(zhuān)輯”、“所獲音樂(lè)獎(jiǎng)項(xiàng)”、“舉辦演唱會(huì)”、“簽約經(jīng)紀(jì)公司,,的其他信息實(shí)體在該所有其他信息實(shí)體中所占的比例依次為100 %、 85<%、70%、75%,據(jù)此確定將包含于中心詞“周杰倫”的信息實(shí)體中的屬性模板為“發(fā)行音樂(lè)專(zhuān)輯”和“所獲音樂(lè)獎(jiǎng)項(xiàng)”,執(zhí)行同樣的操作確定分類(lèi)“演員”的屬性模板“出演電影”將包含于該中心詞的信息實(shí)體中;接著,在步驟S3中,信息實(shí)體生成設(shè)備1根據(jù)其在步驟S5中獲取的將包含于該中心詞的信息實(shí)體中屬性模板“發(fā)行音樂(lè)專(zhuān)輯”、“所獲音樂(lè)獎(jiǎng)項(xiàng)”和“出演電影”,為該中心詞生成包含該些屬性模板的結(jié)構(gòu)化信息實(shí)體,使該信息實(shí)體具有該些屬性模板所包括的屬性,如屬性模板“發(fā)行音樂(lè)專(zhuān)輯”包括屬性“專(zhuān)輯名稱(chēng)”、“發(fā)行時(shí)間”、“曲目名稱(chēng)”,屬性模板“所獲音樂(lè)獎(jiǎng)項(xiàng),,包括屬性“獎(jiǎng)項(xiàng)名稱(chēng)”、“獲獎(jiǎng)時(shí)間”,屬性模板“出演電影”包括屬性“電影名稱(chēng)”、“飾演角色”。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述獲取屬性模板及生成信息實(shí)體的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取屬性模板及生成信息實(shí)體的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。優(yōu)選地,該過(guò)程還包括步驟S6 (未示出),在步驟S6中,信息實(shí)體生成設(shè)備1根據(jù)所述信息實(shí)體的歷史訪問(wèn)信息,更新所述信息實(shí)體中的所述屬性模板。具體地,在步驟S6 中,信息實(shí)體生成設(shè)備1根據(jù)其在步驟S3中生成的結(jié)構(gòu)化信息實(shí)體的歷史訪問(wèn)信息,例如添加新的屬性模板到該信息實(shí)體中,或者從該信息實(shí)體中的刪除其包含的某(些)屬性模板。例如,假設(shè)信息實(shí)體的歷史訪問(wèn)信息為該信息實(shí)體的屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù),在步驟S6中,信息實(shí)體生成設(shè)備1根據(jù)其在步驟S3中生成的中心詞“周杰倫”的信息實(shí)體,基于該信息實(shí)體的歷史訪問(wèn)日志進(jìn)行統(tǒng)計(jì)分析,獲得與該信息實(shí)體包含的每個(gè)屬性模板中各屬性的屬性?xún)?nèi)容相對(duì)應(yīng)的網(wǎng)頁(yè)頁(yè)面的累計(jì)瀏覽次數(shù),其中屬性模板“發(fā)行音樂(lè)專(zhuān)輯”中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù)為20000次,屬性模板“所獲音樂(lè)獎(jiǎng)項(xiàng)”中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù)為20次,據(jù)此,獲得屬性模板“所獲音樂(lè)獎(jiǎng)項(xiàng)”所對(duì)應(yīng)的累計(jì)瀏覽次數(shù)小于累計(jì)瀏覽次數(shù)閾值100次,則將該屬性模板從該信息實(shí)體中刪除。再如, 假設(shè)信息實(shí)體的歷史訪問(wèn)信息為所述信息實(shí)體的用戶歷史行為記錄,在步驟S6中,信息實(shí)體生成設(shè)備1根據(jù)其在步驟S3中生成的中心詞“周杰倫”的信息實(shí)體,基于信息實(shí)體的用戶歷史行為記錄進(jìn)行統(tǒng)計(jì)分析獲得在用戶的10000條“周杰倫”信息實(shí)體點(diǎn)擊記錄中有9000 條的該點(diǎn)擊記錄后緊隨“蘭亭序”信息實(shí)體和“可愛(ài)女人”信息實(shí)體的點(diǎn)擊記錄,而在用戶的8000條“王力宏”信息實(shí)體點(diǎn)擊記錄中有7000條的該點(diǎn)擊記錄后緊隨“唯一”信息實(shí)體和“龍的傳人”信息實(shí)體的點(diǎn)擊記錄,通過(guò)對(duì)該統(tǒng)計(jì)分析結(jié)果進(jìn)行聚類(lèi),獲得“周杰倫”、“王力宏”與“蘭亭序”、“可愛(ài)女人”、“唯一”、“龍的傳人”之間存在“歌手-歌曲”的關(guān)系,則據(jù)此為“周杰倫”信息實(shí)體添加“表演歌曲”屬性模板,該屬性模板包括屬性“歌曲名稱(chēng)”。本領(lǐng)域技術(shù)人員應(yīng)能理解上述更新信息實(shí)體屬性模板的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的更新信息實(shí)體屬性模板的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。更優(yōu)選地,所述歷史訪問(wèn)信息包括但不限于以下至少任一項(xiàng)-所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù);-所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的瀏覽頻次;-所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)編輯次數(shù);-所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的編輯頻次;-所述信息實(shí)體的用戶歷史行為記錄。具體地,若歷史訪問(wèn)信息包括所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù),則在步驟S6中,信息實(shí)體生成設(shè)備1在該累計(jì)瀏覽次數(shù)低于預(yù)設(shè)的累計(jì)瀏覽次數(shù)閾值時(shí),將該屬性模板從該信息實(shí)體中刪除。若歷史訪問(wèn)信息包括所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的瀏覽頻次,則在步驟S6中,信息實(shí)體生成設(shè)備1在該瀏覽頻次低于預(yù)設(shè)的瀏覽頻次閾值時(shí),將該屬性模板從該信息實(shí)體中刪除。若歷史訪問(wèn)信息包括所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)編輯次數(shù),則在步驟S6 中,信息實(shí)體生成設(shè)備1在該累計(jì)編輯次數(shù)低于預(yù)設(shè)的累計(jì)編輯閾值時(shí),將該屬性模板從該信息實(shí)體中刪除。若歷史訪問(wèn)信息包括所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的編輯頻次,則在步驟S6中,信息實(shí)體生成設(shè)備1在該編輯頻次低于預(yù)設(shè)的編輯頻次閾值時(shí),將該屬性模板從該信息實(shí)體中刪除。在此,上述累計(jì)瀏覽次數(shù),瀏覽頻次,累計(jì)編輯次數(shù),編輯頻次可通過(guò)對(duì)信息實(shí)體的歷史訪問(wèn)日志進(jìn)行統(tǒng)計(jì)分析獲得,也可通過(guò)預(yù)定的通信方式從第三方設(shè)備讀取。本領(lǐng)域技術(shù)人員應(yīng)能理解上述每項(xiàng)歷史訪問(wèn)信息不僅可以單獨(dú)用于更新信息實(shí)體的屬性模板,還可以相互結(jié)合后用以加權(quán)更新信息實(shí)體的屬性模板。本領(lǐng)域技術(shù)人員應(yīng)能理解上述歷史訪問(wèn)信息僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的歷史訪問(wèn)信息如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。
更優(yōu)選地,該過(guò)程還包括步驟S7(未示出)、步驟S8(未示出)和步驟S9(未示出),其中,在步驟S7中,信息實(shí)體生成設(shè)備1根據(jù)所述非結(jié)構(gòu)化文本,在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲取所述非結(jié)構(gòu)化文本中的中心詞文本及其分類(lèi);隨后,在步驟S8中,信息實(shí)體生成設(shè)備1從所述信息實(shí)體的屬性模板中獲取與所述中心詞文本具有相同分類(lèi)的屬性;接著,在步驟S9中,信息實(shí)體生成設(shè)備1將所述中心詞文本作為所述屬性的屬性?xún)?nèi)容添加到所述信息實(shí)體中。具體地,在步驟S7中,信息實(shí)體生成設(shè)備1例如對(duì)其在步驟Sl 中獲取的非結(jié)構(gòu)化文本通過(guò)諸如正向最大匹配等分詞算法進(jìn)行分詞處理,然后將獲得的每個(gè)分詞在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲取該非結(jié)構(gòu)化文本中包含的中心詞文本及該 (些)中心詞文本對(duì)應(yīng)的分類(lèi);隨后,在步驟S8中,信息實(shí)體生成設(shè)備1對(duì)其在步驟S3中生成的信息實(shí)體中包含的各屬性模板中的屬性進(jìn)行遍歷,直到獲得某個(gè)屬性的預(yù)置分類(lèi)與該中心詞文本所對(duì)應(yīng)的分類(lèi)相同;接著,在步驟S9中,信息實(shí)體生成設(shè)備1將其在步驟S7 中獲取的中心詞文本作為信息實(shí)體生成設(shè)備1在步驟S8中獲取的與該中心詞文本對(duì)應(yīng)的所述屬性的屬性?xún)?nèi)容添加到所述信息實(shí)體中。例如,假設(shè)在步驟Sl中,信息實(shí)體生成設(shè)備1 獲取的中心詞“周杰倫”非結(jié)構(gòu)化文本“周杰倫是中國(guó)臺(tái)灣著名流行歌手,代表音樂(lè)專(zhuān)輯作品包括“跨時(shí)代”等,并曾出演電影不能說(shuō)的秘密”,在步驟S7中,信息實(shí)體生成設(shè)備1對(duì)該非結(jié)構(gòu)化文本利用正向最大匹配算法進(jìn)行分詞處理,獲取的分詞包括“中國(guó)”,“跨時(shí)代”“不能說(shuō)的秘密”等等,將該些分詞依次在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),獲得在中心詞數(shù)據(jù)庫(kù)中未查詢(xún)到名稱(chēng)為“中國(guó)”的中心詞,但查詢(xún)到名稱(chēng)為“跨時(shí)代”和“不能說(shuō)的秘密”的中心詞及其與該中心詞對(duì)應(yīng)的分類(lèi),據(jù)此,將分詞“跨時(shí)代”和“不能說(shuō)的秘密”作為該非結(jié)構(gòu)化文本的中心詞文本,并將在中心詞數(shù)據(jù)庫(kù)中查詢(xún)到的與名稱(chēng)為“跨時(shí)代”和“不能說(shuō)的秘密” 中心詞對(duì)應(yīng)的分類(lèi)作為相應(yīng)的中心詞文本的分類(lèi),如“跨時(shí)代”的分類(lèi)為“音樂(lè)專(zhuān)輯”,“不能說(shuō)的秘密”的分類(lèi)為“電影”;隨后,在步驟S8中,信息實(shí)體生成設(shè)備1對(duì)其在步驟S3中生成的中心詞“周杰倫”的信息實(shí)體中包含的各屬性模板中的屬性進(jìn)行遍歷,獲得屬性模板 “發(fā)行音樂(lè)專(zhuān)輯”中的屬性“專(zhuān)輯名稱(chēng)”的預(yù)置分類(lèi)與中心詞文本“跨時(shí)代”的分類(lèi)相同,執(zhí)行上述同樣的操作,獲得屬性模板“出演電影”中的屬性“電影名稱(chēng)”的預(yù)置分類(lèi)與中心詞文本“不能說(shuō)的秘密”的分類(lèi)相同;接著,在步驟S9中,信息實(shí)體生成設(shè)備1將中心詞文本 “跨時(shí)代”作為屬性模板“發(fā)行音樂(lè)專(zhuān)輯”中的屬性“專(zhuān)輯名稱(chēng)”的屬性?xún)?nèi)容添加到“周杰倫” 信息實(shí)體,同樣,將中心詞文本“不能說(shuō)的秘密”作為屬性模板“出演電影”中的屬性“電影名稱(chēng)”的屬性?xún)?nèi)容添加到“周杰倫”信息實(shí)體。在此,上述中心詞數(shù)據(jù)庫(kù)用于存儲(chǔ)已存在的所有中心詞的相關(guān)信息,該中心詞數(shù)據(jù)庫(kù)包括但不限于關(guān)系數(shù)據(jù)庫(kù),內(nèi)存存儲(chǔ)器,硬盤(pán)存儲(chǔ)器等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取中心詞文本,獲取屬性模板中的屬性及添加屬性?xún)?nèi)容的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取中心詞文本,獲取屬性模板中的屬性及添加屬性?xún)?nèi)容的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。
更優(yōu)選地,該過(guò)程還包括步驟SlO (未示出),在步驟SlO中,信息實(shí)體生成設(shè)備1 根據(jù)所述中心詞的分類(lèi),建立或更新所述中心詞數(shù)據(jù)庫(kù)。具體地,在步驟SlO中,信息實(shí)體生成設(shè)備1將中心詞及信息實(shí)體生成設(shè)備1在步驟S2中獲得的該中心詞的分類(lèi)寫(xiě)入到中心詞數(shù)據(jù)庫(kù)中,以更新該中心詞數(shù)據(jù)庫(kù);若檢測(cè)到該中心詞數(shù)據(jù)庫(kù)未建立,則先行初始化該中心詞數(shù)據(jù)庫(kù),然后將所述中心詞及其分類(lèi)寫(xiě)入到該中心詞數(shù)據(jù)庫(kù)中。例如,在步驟SlO 中,信息實(shí)體生成設(shè)備ι將中心詞“周杰倫”及信息實(shí)體生成設(shè)備1在步驟S2中獲得的該中心詞的分類(lèi)“歌手/歌唱家”,插入到該中心詞數(shù)據(jù)庫(kù)中,以更新該中心詞數(shù)據(jù)庫(kù)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述建立或更新中心詞數(shù)據(jù)庫(kù)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的建立或更新中心詞數(shù)據(jù)庫(kù)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以?xún)?nèi),并在此以引用方式包含于此。對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無(wú)論從哪一點(diǎn)來(lái)看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說(shuō)明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此外,顯然“包括” 一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。系統(tǒng)權(quán)利要求中陳述的多個(gè)單元或裝置也可以由一個(gè)單元或裝置通過(guò)軟件或者硬件來(lái)實(shí)現(xiàn)。第一,第二等詞語(yǔ)用來(lái)表示名稱(chēng),而并不表示任何特定的順序。
權(quán)利要求
1.一種計(jì)算機(jī)實(shí)現(xiàn)的基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的方法,其中,該方法包括以下步驟a獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本;b基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi); c根據(jù)所述分類(lèi),生成所述中心詞的結(jié)構(gòu)化信息實(shí)體。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟b還包括 -對(duì)所述非結(jié)構(gòu)文本進(jìn)行分詞處理,獲得多個(gè)分詞;X基于所述預(yù)定分類(lèi)模型,對(duì)所述多個(gè)分詞進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi)。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述步驟X還包括-基于所述預(yù)定分類(lèi)模型,對(duì)所述多個(gè)分詞進(jìn)行分類(lèi)分析,以獲取所述中心詞所屬各候選分類(lèi)的概率;-根據(jù)所述概率,從所述各候選分類(lèi)中確定所述中心詞的分類(lèi)。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其中,該方法還包括-基于預(yù)置語(yǔ)料及其對(duì)應(yīng)分類(lèi)信息的語(yǔ)料庫(kù),對(duì)該語(yǔ)料庫(kù)進(jìn)行機(jī)器學(xué)習(xí),以獲得用于對(duì)語(yǔ)料所屬分類(lèi)進(jìn)行概率性分析的所述預(yù)定分類(lèi)模型。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其中,該方法還包括 -根據(jù)所述分類(lèi),獲取與所述分類(lèi)相對(duì)應(yīng)的屬性模板;其中,所述步驟c還包括-根據(jù)所述分類(lèi)及其對(duì)應(yīng)的該屬性模板,生成包含所述屬性模板的所述信息實(shí)體。
6.根據(jù)權(quán)利要求5所述的方法,其中,該方法還包括-根據(jù)所述信息實(shí)體的歷史訪問(wèn)信息,更新所述信息實(shí)體中的所述屬性模板。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述歷史訪問(wèn)信息包括以下至少任一項(xiàng) -所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù);-所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的瀏覽頻次; -所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)編輯次數(shù); -所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的編輯頻次; -所述信息實(shí)體的用戶歷史行為記錄。
8.根據(jù)權(quán)利要求5至7中任一項(xiàng)所述的方法,其中,該方法還包括-根據(jù)所述非結(jié)構(gòu)化文本,在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲取所述非結(jié)構(gòu)化文本中的中心詞文本及其分類(lèi);-從所述信息實(shí)體的屬性模板中獲取與所述中心詞文本具有相同分類(lèi)的屬性; -將所述中心詞文本作為所述屬性的屬性?xún)?nèi)容添加到所述信息實(shí)體中。
9.根據(jù)權(quán)利要求8所述的方法,其中,該方法還包括 -根據(jù)所述中心詞的分類(lèi),建立或更新所述中心詞數(shù)據(jù)庫(kù)。
10.一種基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的設(shè)備,其中,該設(shè)備包括 文本獲取裝置,用于獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本;分類(lèi)獲取裝置,用于基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi);生成裝置,用于根據(jù)所述分類(lèi),生成所述中心詞的結(jié)構(gòu)化信息實(shí)體。
11.根據(jù)權(quán)利要求10所述的設(shè)備,其中,所述分類(lèi)獲取裝置包括 分詞獲取單元,用于對(duì)所述非結(jié)構(gòu)文本進(jìn)行分詞處理,獲得多個(gè)分詞;第一獲取單元,用于基于所述預(yù)定分類(lèi)模型,對(duì)所述多個(gè)分詞進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi)。
12.根據(jù)權(quán)利要求11所述的設(shè)備,其中,所述第一獲取單元還包括概率獲取單元,用于基于所述預(yù)定分類(lèi)模型,對(duì)所述多個(gè)分詞進(jìn)行分類(lèi)分析,以獲取所述中心詞所屬各候選分類(lèi)的概率;分類(lèi)獲取單元,用于根據(jù)所述概率,從所述各候選分類(lèi)中確定所述中心詞的分類(lèi)。
13.根據(jù)權(quán)利要求10至12中任一項(xiàng)所述的設(shè)備,其中,該設(shè)備還包括模型獲取裝置,用于基于預(yù)置語(yǔ)料及其對(duì)應(yīng)分類(lèi)信息的語(yǔ)料庫(kù),對(duì)該語(yǔ)料庫(kù)進(jìn)行機(jī)器學(xué)習(xí),以獲得用于對(duì)語(yǔ)料所屬分類(lèi)進(jìn)行概率性分析的所述預(yù)定分類(lèi)模型。
14.根據(jù)權(quán)利要求10至13中任一項(xiàng)所述的設(shè)備,其中,該設(shè)備還包括 模板獲取裝置,用于根據(jù)所述分類(lèi),獲取與所述分類(lèi)相對(duì)應(yīng)的屬性模板;其中,所述生成裝置還用于根據(jù)所述分類(lèi)及其對(duì)應(yīng)的該屬性模板,生成包含所述屬性模板的所述信息實(shí)體。
15.根據(jù)權(quán)利要求14所述的設(shè)備,其中,該設(shè)備還包括模板更新裝置,用于根據(jù)所述信息實(shí)體的歷史訪問(wèn)信息,更新所述信息實(shí)體中的所述屬性模板。
16.根據(jù)權(quán)利要求15所述的設(shè)備,其中,所述歷史訪問(wèn)信息包括以下至少任一項(xiàng) -所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)瀏覽次數(shù);-所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的瀏覽頻次; -所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的累計(jì)編輯次數(shù); -所述信息實(shí)體的所述屬性模板中各屬性的屬性?xún)?nèi)容的編輯頻次; -所述信息實(shí)體的用戶歷史行為記錄。
17.根據(jù)權(quán)利要求14至16中任一項(xiàng)所述的設(shè)備,其中,該設(shè)備還包括中心詞獲取裝置,用于根據(jù)所述非結(jié)構(gòu)化文本,在中心詞數(shù)據(jù)庫(kù)中進(jìn)行匹配查詢(xún),以獲取所述非結(jié)構(gòu)化文本中的中心詞文本及其分類(lèi);屬性獲取裝置,用于從所述信息實(shí)體的屬性模板中獲取與所述中心詞文本具有相同分類(lèi)的屬性;添加裝置,用于將所述中心詞文本作為所述屬性的屬性?xún)?nèi)容添加到所述信息實(shí)體中。
18.根據(jù)權(quán)利要求17所述的設(shè)備,其中,該設(shè)備還包括數(shù)據(jù)庫(kù)更新裝置,用于根據(jù)所述中心詞的分類(lèi),建立或更新所述中心詞數(shù)據(jù)庫(kù)。
全文摘要
本發(fā)明的目的是提供一種基于非結(jié)構(gòu)化文本生成結(jié)構(gòu)化信息實(shí)體的方法與設(shè)備。其中,信息實(shí)體生成設(shè)備獲取與中心詞相關(guān)的非結(jié)構(gòu)化文本;基于預(yù)定分類(lèi)模型,對(duì)所述非結(jié)構(gòu)化文本進(jìn)行分類(lèi)分析,以獲取所述中心詞的分類(lèi);根據(jù)所述分類(lèi),生成所述中心詞的結(jié)構(gòu)化信息實(shí)體。與現(xiàn)有技術(shù)相比,本發(fā)明根據(jù)中心詞的非結(jié)構(gòu)化文本,生成該中心詞對(duì)應(yīng)的結(jié)構(gòu)化信息實(shí)體,由此便于對(duì)該中心詞所包含的內(nèi)容進(jìn)行數(shù)據(jù)挖掘,并降低中心詞內(nèi)容維護(hù)的成本。
文檔編號(hào)G06F17/30GK102214208SQ20111010722
公開(kāi)日2011年10月12日 申請(qǐng)日期2011年4月27日 優(yōu)先權(quán)日2011年4月27日
發(fā)明者嚴(yán)孫榮, 夏寅, 左莉, 張偉, 曹建棟, 李博, 李永強(qiáng), 王麗寶, 王京津, 王坤, 耿磊, 肖琦, 蘇上海, 陸海霞 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司