[0075] 并且,所獲取的原始語料文檔可以包括公司新聞?wù)Z料、行業(yè)描述、產(chǎn)品服務(wù)描述及 廣品服務(wù)之間的關(guān)系等。
[0076] 102、從對象原始語料文檔中提取類型關(guān)鍵詞集合和主題關(guān)鍵詞集合。
[0077] 當(dāng)從外部數(shù)據(jù)源獲得了大量的原始語料文檔后,可以對該原始語料文檔進(jìn)行預(yù)處 理,以從對象原始語料文檔中提取對象的類型關(guān)鍵詞集合和主題關(guān)鍵詞集合,其中提取出 來的類型關(guān)鍵詞集合和主題關(guān)鍵詞集合可以代表用自然語言描述的對象類型和對象主題。
[0078] 并且,可以將相應(yīng)的類型關(guān)鍵詞集合和主題關(guān)鍵詞集合以對象管理列表的形式保 存在對象管理數(shù)據(jù)庫中,以便為對象信息的處理提供原始語料的依據(jù)。
[0079] 具體地,可以將原始語料文檔進(jìn)行分詞,利用語義相似度的判斷方式將分詞得到 的關(guān)鍵詞分成多個語義相似的關(guān)鍵詞集合。
[0080] 在得到關(guān)鍵詞集合后,可以按照關(guān)鍵詞詞義大致確定出其是類型關(guān)鍵詞還是主題 關(guān)鍵詞。并且,由于主題關(guān)鍵詞有時也能輔助的反映出關(guān)鍵詞的類型,因此在確定類型關(guān)鍵 詞集合時,還可以將能夠幫助確定關(guān)鍵詞類型的輔助信息,包括與類型關(guān)鍵詞相鄰的主題 關(guān)鍵詞作為輔助信息而附加到類型關(guān)鍵詞集合的相應(yīng)類型關(guān)鍵詞的后面。
[0081] 在從原始語料文檔中提取出針對一個對象的類型關(guān)鍵詞集合、主題關(guān)鍵詞集合 后,可以將上述關(guān)鍵詞集合保存在對象管理數(shù)據(jù)庫中,并且,從大量原始語料文檔中篩選出 包含以上類型關(guān)鍵詞集合、主題關(guān)鍵詞集合的原始語料文檔,將上述篩選出的原始語料文 檔也與關(guān)鍵詞集合相對應(yīng)地保存在對象管理數(shù)據(jù)庫中,以便為隨后的數(shù)據(jù)處理和分析提供 原始語料的依據(jù)。
[0082] 例如在原始語料文檔中提取出以公司實體A-D表示的四個對象,針對這四個對象 及其類型關(guān)鍵詞集合、主題關(guān)鍵詞集合所保存的對象管理列表可以參見表1,其中括號中為 輔助關(guān)鍵詞。
[0083] 表 1
[0084]
[0085] 表1中對象名稱以公司實體的名稱表示,對象類型以公司行業(yè)表示,對象主題以產(chǎn) 品服務(wù)表示,原始語料文檔具體為新聞?wù)Z料文檔。
[0086]上表中,可以對新聞?wù)Z料"公司A所制造的鍵盤同時具備鼠標(biāo)功能"進(jìn)行分詞處理, 得到公司名稱為"公司A",行業(yè)是涉及"制造"的行業(yè),涉及的產(chǎn)品服務(wù)可能包括"鍵盤"和 "鼠標(biāo)",并且可以將所制造的"鍵盤"、"鼠標(biāo)"作為行業(yè)的輔助信息,以通過該行業(yè)的輔助信 息幫助確定該行業(yè)的進(jìn)一步分類。
[0087] 并且,在按照語義得到關(guān)鍵詞集合后,可以確定各個關(guān)鍵詞集合的權(quán)重,將權(quán)重靠 前的關(guān)鍵詞集合進(jìn)行處理以確定類型關(guān)鍵詞集合和主題關(guān)鍵詞集合并進(jìn)行維護(hù)。
[0088] 103、將類型關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對象類型作為對象類型,以及將主題關(guān)鍵 詞集合所匹配到的標(biāo)準(zhǔn)對象主題作為對象主題。
[0089] 由于從原始語料文檔提取出來的類型關(guān)鍵詞集合和主題關(guān)鍵詞集合代表的是用 自然語言描述的對象類型和對象主題,而在用自然語言描述類型和主題時,由于自然語言 的表述形式多種多樣,因此有可能不能反映對象的真實類型和主題,或者表述的不夠準(zhǔn)確 或規(guī)范,在這種情況下利用對象類型和主題來分析對象之間的關(guān)系就有可能不夠準(zhǔn)確,也 可能漏掉一些重要的信息而導(dǎo)致不能全方面的獲得分析結(jié)果。因此為了使自然語言描述的 對象類型和對象主題能夠用于大規(guī)模的數(shù)據(jù)分析,需要將自然語言描述的對象信息轉(zhuǎn)換成 標(biāo)準(zhǔn)化的對象信息。該步驟的主要目的就是將由自然語言描述的類型關(guān)鍵詞集合和主題關(guān) 鍵詞集合進(jìn)行標(biāo)準(zhǔn)化,即以國家、行業(yè)標(biāo)準(zhǔn)等標(biāo)準(zhǔn)的方式來表示對象類型和對象主題。
[0090] 將類型關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對象類型作為對象類型,以及將主題關(guān)鍵詞集 合所匹配到的標(biāo)準(zhǔn)對象主題作為對象主題可以具體包括:將所述類型關(guān)鍵詞集合和主題關(guān) 鍵詞集合分別與預(yù)先建立的標(biāo)準(zhǔn)類型分類知識庫和標(biāo)準(zhǔn)主題分類知識庫進(jìn)行匹配;確定所 述標(biāo)準(zhǔn)類型分類知識庫中與類型關(guān)鍵詞集合相匹配的標(biāo)準(zhǔn)對象類型分類,以及所述標(biāo)準(zhǔn)主 題分類知識庫中與主題關(guān)鍵詞集合相匹配的標(biāo)準(zhǔn)對象主題分類;依據(jù)匹配的標(biāo)準(zhǔn)對象類型 分類和標(biāo)準(zhǔn)對象主題分類確定對象類型和對象主題。
[0091] 具體地,該標(biāo)準(zhǔn)類型分類知識庫和標(biāo)準(zhǔn)主題分類知識庫各自維護(hù)有標(biāo)準(zhǔn)的類型分 類和標(biāo)準(zhǔn)的主題分類。
[0092] 以公司行業(yè)作為類型,以公司產(chǎn)品服務(wù)作為主題為例,現(xiàn)有的標(biāo)準(zhǔn)的行業(yè)分類可 以包括國家行業(yè)分類標(biāo)準(zhǔn)、全球行業(yè)分類標(biāo)準(zhǔn)、新工業(yè)行業(yè)分類標(biāo)準(zhǔn)、以及電子信息產(chǎn)業(yè)行 業(yè)標(biāo)準(zhǔn)等多種標(biāo)準(zhǔn)的行業(yè)分類,該建立的標(biāo)準(zhǔn)類型分類知識庫就是將上述多種標(biāo)準(zhǔn)的行業(yè) 分類進(jìn)行聚合和統(tǒng)一形成的。
[0093] 如圖2所示,圖2示出了在標(biāo)準(zhǔn)類型分類知識庫中一種以樹形結(jié)構(gòu)來維護(hù)的標(biāo)準(zhǔn)行 業(yè)類型分類。
[0094] 從該樹形結(jié)構(gòu)中可以看出,如果將制造業(yè)201作為一級分類的話,則在該一級分類 下還可以包括二、三、四級等分類,其中圖2所示的第四級分類屬于分類的最小單元。
[0095] 優(yōu)選地,每個分類中可以包含對于具體類型分類的輔助說明、關(guān)鍵詞擴(kuò)展、關(guān)鍵詞 的別名等信息,以幫助將關(guān)鍵詞集合與類型分類中的具體類型進(jìn)行匹配。
[0096] 當(dāng)然,還可以對四級分類進(jìn)行進(jìn)一步細(xì)分以得到第五、第六級分類等,其分類的目 的就是將當(dāng)前的對象信息中以自然語言描述的對象類型能夠以標(biāo)準(zhǔn)的方式來表示。
[0097] 舉個例子,可以將表1里所初步提取的行業(yè)類型,包括公司A的制造(鍵盤、鼠標(biāo)), 公司B的開發(fā)(手機(jī)、耳機(jī)),公司C的開發(fā)(鐵路售票、程序),公司D的生產(chǎn)(手機(jī)、半導(dǎo)體電 路)這些關(guān)鍵詞集合通過語義檢索、關(guān)鍵詞擴(kuò)展等方式與標(biāo)準(zhǔn)知識庫中的行業(yè)分類進(jìn)行匹 配,并結(jié)合行業(yè)分類所記錄的輔助信息,得到標(biāo)準(zhǔn)化的對象類型信息,例如:將公司A的行業(yè) 匹配到第四級的電子計算機(jī)外部設(shè)備制造204中,可以將公司行業(yè)的初始描述以標(biāo)準(zhǔn)化的 方式來表示。利用表1的類型關(guān)鍵詞集合與標(biāo)準(zhǔn)對象類型進(jìn)行匹配,可以得到如表2的對應(yīng) 關(guān)系:
[0098] 表 2
[0099]
[0100]
[0101] 另外,上述標(biāo)準(zhǔn)化的匹配過程雖然是在建立對象管理數(shù)據(jù)庫以后進(jìn)行的,但是也 可以在建立對象管理數(shù)據(jù)庫的同時,或者提取到關(guān)鍵詞集合時直接執(zhí)行。
[0102] 上述是對對象類型進(jìn)行的標(biāo)準(zhǔn)化處理,而對于對象主題的標(biāo)準(zhǔn)化處理,可以采用 與對象類型標(biāo)準(zhǔn)化相同的方式。即通過建立標(biāo)準(zhǔn)主題分類知識庫,利用標(biāo)準(zhǔn)主題分類知識 庫中的主題分類標(biāo)準(zhǔn)將主題關(guān)鍵詞集合以標(biāo)準(zhǔn)化的方式進(jìn)行表述,由于將主題關(guān)鍵詞集合 所匹配到的標(biāo)準(zhǔn)對象主題作為對象主題的各個步驟與將類型關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn) 對象類型作為對象類型的步驟相同,因此不再贅述。
[0103] 主題分類知識庫中的主題分類不僅可以采用與類型分類知識庫中相同的樹形結(jié) 構(gòu)來表示。而且,主題分類知識庫中的主題分類也可以不以樹形結(jié)構(gòu)表示,而是通過將對象 主題以及對象主題別名分為一組的方式將標(biāo)準(zhǔn)主題分成多個組。
[0104] 以公司的產(chǎn)品服務(wù)作為對象主題為例,所維護(hù)的標(biāo)準(zhǔn)主題分類知識庫中的具有相 同含義的一組產(chǎn)品服務(wù)可以包括:移動通信終端,及可能構(gòu)成該移動通信終端別名的手機(jī)、 無線電話、移動電話、掌上電話、大哥大等。這些構(gòu)成的標(biāo)準(zhǔn)主題組也是基于國家標(biāo)準(zhǔn)主題 分類、行業(yè)標(biāo)準(zhǔn)主題分類等而確定的,更具體地,對于產(chǎn)品服務(wù)來說,可以將上述多種標(biāo)準(zhǔn) 的產(chǎn)品分類進(jìn)行聚合和統(tǒng)一,以建立起標(biāo)準(zhǔn)主題分類知識庫。
[0105] 另外,以上所舉的一組相同含義的產(chǎn)品服務(wù)僅代表了一種可能的形式,其他任何 按照分類標(biāo)準(zhǔn)對標(biāo)準(zhǔn)主題進(jìn)行分組的方式均在本發(fā)明保護(hù)的范圍內(nèi)。
[0106] 在將標(biāo)準(zhǔn)主題分成多個組后,則一個對象的主題關(guān)鍵詞集合就可能對應(yīng)到一組標(biāo) 準(zhǔn)主題;由于一組標(biāo)準(zhǔn)主題中可以包括一個或多個標(biāo)準(zhǔn)主題,因此一個對象能夠根據(jù)標(biāo)準(zhǔn) 主題分類知識庫擴(kuò)展出多個標(biāo)準(zhǔn)的對象主題。
[0107] 進(jìn)一步地,在將主題關(guān)鍵詞集合匹配到標(biāo)準(zhǔn)對象主題以得到一個或多個對象主題 后,可以對對象的一個或多個主題進(jìn)行分析和篩選,以準(zhǔn)確確定對象的對象主題,從而能夠 幫助準(zhǔn)確識別對象之間主題的相關(guān)性。
[0108] 而對對象的一個或多個主題進(jìn)行分析和篩選可以利用文檔主題生成模型來實現(xiàn)。
[0109] 具體地,可以利用文檔主題生成模型對對象管理數(shù)據(jù)庫中保存的包含主題關(guān)鍵詞 集合的原始語料文檔進(jìn)行主題提取,以從原始語料文檔中獲得同一對象的主要的對象主 題。
[0110]該文檔主題生成模型可以采用三層貝葉斯概率模型(LDA)、概率潛在語義分析 (PLSA)等來實現(xiàn)。
[0111]舉個例子,表1的公司D的原始語料文檔中包含內(nèi)容"公司D所生產(chǎn)的半導(dǎo)體電路已 在智能手機(jī)中得到了廣泛的應(yīng)用……。公司D主要生產(chǎn)智能手機(jī),但也逐漸涉及半導(dǎo)體電路 領(lǐng)域的半導(dǎo)體電路制造",從該原始語料文檔中提取出了對象主題關(guān)鍵詞"手機(jī)、半導(dǎo)體電 路",并且根據(jù)"手機(jī)"、"半導(dǎo)體電路"這些對象主題關(guān)鍵詞分別匹配到了標(biāo)準(zhǔn)主題分類中的 "移動通信終端、手機(jī)、無線電話、移動電話、掌上電話、大哥大"這一組主題以及"半導(dǎo)體電 路、電路、電路板"這一組主題。至此,確定公司D能夠提供的產(chǎn)品服務(wù)包括兩組主題,但得出 這樣的結(jié)論并不一定是準(zhǔn)確的。因為從包含該主題關(guān)鍵詞的原始語料文檔的內(nèi)容中可以獲 知,"公司D主要生產(chǎn)智能手機(jī),但也逐漸涉及半導(dǎo)體電路領(lǐng)域的半導(dǎo)體電路制造",即該公 司D實際上所提供的產(chǎn)品服務(wù)主要以"手機(jī)"為主,而"半導(dǎo)體電路"為輔。
[0112] 為了明確公司的主題,以便更精確的確定對象主題,因此在將主題關(guān)鍵詞集合匹 配到標(biāo)準(zhǔn)對象主題以得到一個或多個對象主題后,可以利用文檔主題生成模型對對象管理 數(shù)據(jù)庫中保存的包含關(guān)鍵詞"手機(jī)"