一種確定相關(guān)對(duì)象的方法和裝置的制造方法
【專利說(shuō)明】一種確定相關(guān)對(duì)象的方法和裝置 【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)處理的技術(shù)領(lǐng)域,尤其涉及一種確定相關(guān)對(duì)象的方法和裝 置。 【【背景技術(shù)】】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展,人們可以從互聯(lián)網(wǎng)網(wǎng)頁(yè)、企業(yè)網(wǎng)站、或者提供特定信息服務(wù)的 數(shù)據(jù)庫(kù)等外部數(shù)據(jù)源獲取越來(lái)越多的原始數(shù)據(jù)信息,這些原始數(shù)據(jù)信息可以為人們提供大 量所需要的內(nèi)容。然而,由于通過(guò)外部數(shù)據(jù)源所獲取的信息數(shù)量龐大、單位價(jià)值相對(duì)較低、 幾乎全是以原始語(yǔ)料文檔的方式存在,因此如何處理這些原始數(shù)據(jù)信息以獲得人們想要的 內(nèi)容,或者如何分析原始數(shù)據(jù)信息中這些內(nèi)容之間的關(guān)系以便為人們提供服務(wù),是目前亟 待解決的問(wèn)題。
[0003] 現(xiàn)有的處理和分析原始數(shù)據(jù)信息的方式通常是依據(jù)從業(yè)或者分析人員的經(jīng)驗(yàn),將 采集的原始數(shù)據(jù)信息通過(guò)人工的方式進(jìn)行分析和判斷以提取出有用的內(nèi)容。
[0004] 但是通過(guò)經(jīng)驗(yàn)分析法進(jìn)行數(shù)據(jù)分析,人力成本過(guò)高,并且分析結(jié)果受限于分析人 員的經(jīng)驗(yàn)和市場(chǎng)活動(dòng)范圍。 【
【發(fā)明內(nèi)容】
】
[0005] 本發(fā)明提供了一種確定相關(guān)對(duì)象的方法和裝置,用以降低人力成本,提高準(zhǔn)確性。
[0006] 具體技術(shù)方案如下:
[0007] 本發(fā)明提供了一種確定相關(guān)對(duì)象的方法,所述方法包括:
[0008] 依據(jù)對(duì)象的原始語(yǔ)料文檔確定對(duì)象的對(duì)象類型和對(duì)象主題;
[0009] 按照對(duì)象類型聚合對(duì)象,得到一個(gè)以上的對(duì)象簇;
[0010] 依據(jù)同一對(duì)象簇中對(duì)象之間的主題相似度,獲得待分析對(duì)象的相關(guān)對(duì)象。
[0011] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述依據(jù)對(duì)象的原始語(yǔ)料文檔確定對(duì)象的對(duì)象類型和 對(duì)象主題具體包括:
[0012] 從外部數(shù)據(jù)源獲取對(duì)象的原始語(yǔ)料文檔;
[0013] 從所述對(duì)象的原始語(yǔ)料文檔中提取類型關(guān)鍵詞集合和主題關(guān)鍵詞集合;
[0014] 將類型關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對(duì)象類型作為對(duì)象類型,以及主題關(guān)鍵詞集合 所匹配到的標(biāo)準(zhǔn)對(duì)象主題作為對(duì)象主題。
[0015] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述將類型關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對(duì)象類型作為 對(duì)象類型,以及主題關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對(duì)象主題作為對(duì)象主題具體包括:
[0016] 將所述類型關(guān)鍵詞集合和主題關(guān)鍵詞集合分別與預(yù)先建立的標(biāo)準(zhǔn)類型分類知識(shí) 庫(kù)和標(biāo)準(zhǔn)主題分類知識(shí)庫(kù)進(jìn)行匹配;
[0017] 確定所述標(biāo)準(zhǔn)類型分類知識(shí)庫(kù)中與類型關(guān)鍵詞集合相匹配的標(biāo)準(zhǔn)對(duì)象類型分類, 以及所述標(biāo)準(zhǔn)主題分類知識(shí)庫(kù)中與主題關(guān)鍵詞集合相匹配的標(biāo)準(zhǔn)對(duì)象主題分類;
[0018] 依據(jù)匹配的標(biāo)準(zhǔn)對(duì)象類型分類和標(biāo)準(zhǔn)對(duì)象主題分類確定對(duì)象類型和對(duì)象主題。
[0019] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,按照對(duì)象類型聚合對(duì)象,得到一個(gè)以上的對(duì)象簇包括:
[0020] 查找標(biāo)準(zhǔn)對(duì)象類型樹(shù)形結(jié)構(gòu),確定各對(duì)象類型在所述標(biāo)準(zhǔn)對(duì)象類型樹(shù)形結(jié)構(gòu)的位 置;
[0021] 若各對(duì)象的對(duì)象類型之間具有相同的上級(jí)節(jié)點(diǎn),且對(duì)象類型之間的層級(jí)差符合預(yù) 設(shè)的要求,則確定該各對(duì)象屬于同一對(duì)象簇。
[0022] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,采用如下方式確定對(duì)象之間的主題相似度:
[0023] 分別確定各對(duì)象的主題向量,所述主題向量由對(duì)象的每個(gè)對(duì)象主題構(gòu)成;
[0024] 確定各對(duì)象的主題向量的余弦相似度作為對(duì)象之間的主題相似度。
[0025] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,周期性地或者受事件觸發(fā)時(shí),執(zhí)行所述方法。
[0026] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述方法還包括:
[0027] 將各對(duì)象分別作為待分析對(duì)象,執(zhí)行所述方法;
[0028] 在結(jié)果數(shù)據(jù)庫(kù)中存儲(chǔ)各對(duì)象對(duì)應(yīng)的相關(guān)對(duì)象。
[0029] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述方法還包括:
[0030] 將用戶輸入的對(duì)象作為待分析對(duì)象,執(zhí)行所述方法,并輸出待分析對(duì)象的相關(guān)對(duì) 象。
[0031] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述方法還包括:
[0032]獲取用戶輸入的對(duì)象;
[0033] 查詢所述結(jié)果數(shù)據(jù)庫(kù),確定并輸出與所述輸入的對(duì)象對(duì)應(yīng)的相關(guān)對(duì)象。
[0034] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述對(duì)象的原始語(yǔ)料文檔包括公司的新聞?wù)Z料、行業(yè) 描述、產(chǎn)品服務(wù)描述及關(guān)系;
[0035]所述對(duì)象類型包括公司行業(yè);
[0036] 所述對(duì)象主題包括公司提供的產(chǎn)品服務(wù);
[0037] 所述相關(guān)對(duì)象包括存在競(jìng)爭(zhēng)關(guān)系的公司。
[0038] 本發(fā)明還提供了一種確定相關(guān)對(duì)象的裝置,所述裝置包括:
[0039] 確定單元,用于依據(jù)對(duì)象的原始語(yǔ)料文檔確定對(duì)象的對(duì)象類型和對(duì)象主題;
[0040] 聚合單元,用于按照對(duì)象類型聚合對(duì)象,得到一個(gè)以上的對(duì)象簇;
[0041] 相關(guān)對(duì)象獲得單元,用于依據(jù)同一對(duì)象簇中對(duì)象之間的主題相似度,獲得待分析 對(duì)象的相關(guān)對(duì)象。
[0042] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述確定單元具體包括:
[0043] 原始語(yǔ)料文檔獲取單元,用于從外部數(shù)據(jù)源獲取對(duì)象的原始語(yǔ)料文檔;
[0044] 關(guān)鍵詞集合提取單元,用于從所述對(duì)象的原始語(yǔ)料文檔中提取類型關(guān)鍵詞集合和 主題關(guān)鍵詞集合;
[0045] 匹配單元,用于將類型關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對(duì)象類型作為對(duì)象類型,以及 主題關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對(duì)象主題作為對(duì)象主題。
[0046] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述匹配單元具體執(zhí)行以下操作:
[0047] 將所述類型關(guān)鍵詞集合和主題關(guān)鍵詞集合分別與預(yù)先建立的標(biāo)準(zhǔn)類型分類知識(shí) 庫(kù)和標(biāo)準(zhǔn)主題分類知識(shí)庫(kù)進(jìn)行匹配;
[0048] 確定所述標(biāo)準(zhǔn)類型分類知識(shí)庫(kù)中與類型關(guān)鍵詞集合相匹配的標(biāo)準(zhǔn)對(duì)象類型分類, 以及所述標(biāo)準(zhǔn)主題分類知識(shí)庫(kù)中與主題關(guān)鍵詞集合相匹配的標(biāo)準(zhǔn)對(duì)象主題分類;
[0049] 依據(jù)匹配的標(biāo)準(zhǔn)對(duì)象類型分類和標(biāo)準(zhǔn)對(duì)象主題分類確定對(duì)象類型和對(duì)象主題。
[0050] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述聚合單元具體執(zhí)行以下操作:
[0051 ]查找標(biāo)準(zhǔn)對(duì)象類型樹(shù)形結(jié)構(gòu),確定各對(duì)象類型在所述標(biāo)準(zhǔn)對(duì)象類型樹(shù)形結(jié)構(gòu)的位 置;
[0052] 若各對(duì)象的對(duì)象類型之間具有相同的上級(jí)節(jié)點(diǎn),且對(duì)象類型之間的層級(jí)差符合預(yù) 設(shè)的要求,則確定該各對(duì)象屬于同一對(duì)象簇。
[0053] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述相關(guān)對(duì)象獲得單元執(zhí)行如下操作以確定對(duì)象之間 的主題相似度:
[0054] 分別確定各對(duì)象的主題向量,所述主題向量由對(duì)象的每個(gè)對(duì)象主題構(gòu)成;
[0055] 確定各對(duì)象的主題向量的余弦相似度作為對(duì)象之間的主題相似度。
[0056] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,周期性地或者受事件觸發(fā)時(shí),使所述裝置執(zhí)行確定相 關(guān)對(duì)象的操作。
[0057] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述裝置將各對(duì)象分別作為待分析對(duì)象,執(zhí)行確定相 關(guān)對(duì)象的操作;并且由所述相關(guān)對(duì)象獲得單元將各對(duì)象對(duì)應(yīng)的相關(guān)對(duì)象存儲(chǔ)在結(jié)果數(shù)據(jù)庫(kù) 中。
[0058] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述裝置將用戶輸入的對(duì)象作為待分析對(duì)象,執(zhí)行確 定相關(guān)對(duì)象的操作,并輸出待分析對(duì)象的相關(guān)對(duì)象。
[0059] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述裝置還包括輸入單元和輸出單元:所述輸入單元 用于獲取用戶輸入的對(duì)象;所述輸出單元用于將由所述相關(guān)對(duì)象獲得單元通過(guò)查詢所述結(jié) 果數(shù)據(jù)庫(kù)確定的與所述輸入的對(duì)象對(duì)應(yīng)的相關(guān)對(duì)象輸出。
[0060] 根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述對(duì)象的原始語(yǔ)料文檔包括公司的新聞?wù)Z料、行業(yè) 描述、產(chǎn)品服務(wù)描述及關(guān)系;
[0061] 所述對(duì)象類型包括公司行業(yè);
[0062] 所述對(duì)象主題包括公司提供的產(chǎn)品服務(wù);
[0063] 所述相關(guān)對(duì)象包括存在競(jìng)爭(zhēng)關(guān)系的公司。
[0064] 由以上技術(shù)方案可以看出,本發(fā)明通過(guò)對(duì)象類型之間的相通性以及對(duì)象主題之間 的相似性,自動(dòng)實(shí)現(xiàn)了待分析對(duì)象的相關(guān)對(duì)象確定,降低了人力成本,且提高了分析準(zhǔn)確 性。 【【附圖說(shuō)明】】
[0065] 圖1為本發(fā)明實(shí)施例一提供的一種確定相關(guān)對(duì)象的方法的流程圖;
[0066] 圖2為本發(fā)明實(shí)施例一提供的一種以樹(shù)形結(jié)構(gòu)來(lái)維護(hù)的標(biāo)準(zhǔn)行業(yè)類型分類示意 圖;
[0067] 圖3為本發(fā)明實(shí)施例二提供的一種確定相關(guān)對(duì)象的裝置的結(jié)構(gòu)示意圖。 【【具體實(shí)施方式】】
[0068] 為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì) 本發(fā)明進(jìn)行詳細(xì)描述。
[0069] 本發(fā)明的基本思想是依據(jù)對(duì)象的原始語(yǔ)料文檔確定對(duì)象的對(duì)象類型和對(duì)象主題; 按照對(duì)象類型聚合對(duì)象,得到一個(gè)以上的對(duì)象簇;依據(jù)同一對(duì)象簇中對(duì)象之間的主題相似 度,確定待分析對(duì)象的相關(guān)對(duì)象。通過(guò)上述方式,可以對(duì)涉及對(duì)象的原始語(yǔ)料文檔進(jìn)行分 析,基于對(duì)象類型之間的共通性以及對(duì)象主題之間的相似性來(lái)確定對(duì)象之間的相關(guān)程度, 從而深入全面的確定對(duì)象之間的關(guān)系。
[0070] 實(shí)施例一、
[0071] 圖1為本發(fā)明實(shí)施例一提供的一種確定相關(guān)對(duì)象的方法的流程圖,如圖1所示,該 方法的流程如下:
[0072] 101、從外部數(shù)據(jù)源獲取對(duì)象的原始語(yǔ)料文檔。
[0073] 在該步驟中,可以從提供特定信息的互聯(lián)網(wǎng)網(wǎng)頁(yè)、企業(yè)網(wǎng)站、或者專用數(shù)據(jù)庫(kù)等外 部數(shù)據(jù)源中獲取與想要確定相互關(guān)系的對(duì)象相關(guān)的原始語(yǔ)料文檔。其中所提供的特定信息 可以包括對(duì)確定對(duì)象的類型和主題有幫助的信息。
[0074]該原始語(yǔ)料文檔可以通過(guò)從互聯(lián)網(wǎng)抓取網(wǎng)頁(yè)的方式,或者通過(guò)企業(yè)或特定數(shù)據(jù)庫(kù) 直接提供等方式來(lái)獲得。