理可以確定,和待分析公司A具有競(jìng)爭(zhēng)關(guān)系的公司是 公司D,兩個(gè)公司屬于在同一對(duì)象簇中具有相同或相似主題的對(duì)象。
[0188] 其中,可以將各對(duì)象分別作為待分析對(duì)象,或者將用戶(hù)輸入的對(duì)象作為待分析對(duì) 象。
[0189] 當(dāng)將各對(duì)象分別作為待分析對(duì)象時(shí),可以對(duì)所有的原始語(yǔ)料文檔進(jìn)行處理以獲得 涉及每個(gè)對(duì)象的關(guān)鍵詞集合,也就是說(shuō)將原始語(yǔ)料文檔中涉及的每個(gè)對(duì)象分別作為待分析 對(duì)象,以確定每個(gè)對(duì)象之間是否存在相應(yīng)關(guān)系。
[0190]并且,在將各對(duì)象分別作為待分析對(duì)象的情況下,可以周期性地或者受事件觸發(fā) 時(shí)執(zhí)行確定待分析對(duì)象的操作,將各對(duì)象對(duì)應(yīng)的相關(guān)對(duì)象存儲(chǔ)在結(jié)果數(shù)據(jù)庫(kù)中。當(dāng)用戶(hù)通 過(guò)輸入單元306輸入一特定對(duì)象以使相關(guān)對(duì)象獲得單元305查詢(xún)結(jié)果數(shù)據(jù)庫(kù)時(shí),可以通過(guò)查 詢(xún)數(shù)據(jù)庫(kù)確定與輸入的對(duì)象對(duì)應(yīng)的相關(guān)對(duì)象,并由輸出單元307輸出該相關(guān)對(duì)象。
[0191] 另外,也可以將用戶(hù)輸入的對(duì)象作為待分析對(duì)象,當(dāng)接收到用戶(hù)通過(guò)輸入單元306 輸入的待分析對(duì)象時(shí)執(zhí)行確定待分析對(duì)象的操作,從而實(shí)時(shí)輸出待分析對(duì)象的相關(guān)對(duì)象。 進(jìn)一步地,可以先確定該待分析對(duì)象的對(duì)象類(lèi)型及該待分析對(duì)象包含的所有對(duì)象主題。當(dāng) 對(duì)原始語(yǔ)料文檔進(jìn)行分詞處理得到各對(duì)象的關(guān)鍵詞集合后,可以利用待分析對(duì)象的對(duì)象類(lèi) 型或?qū)ο笾黝}的語(yǔ)義來(lái)匹配各對(duì)象的關(guān)鍵詞集合,以使用待分析對(duì)象的類(lèi)型或主題幫助從 各對(duì)象的關(guān)鍵詞集合中提取到各對(duì)象的對(duì)象類(lèi)型集合或?qū)ο笾黝}集合。因此對(duì)于將用戶(hù)輸 入的對(duì)象作為待分析對(duì)象來(lái)說(shuō),可以在確定單元300中增加利用待分析對(duì)象的類(lèi)型或主題 來(lái)幫助提取其他各對(duì)象的對(duì)象類(lèi)型集合或?qū)ο笾黝}集合的操作,除此之外,其他操作均與 將各對(duì)象分別作為待分析對(duì)象類(lèi)似。
[0192] 本發(fā)明提供的各實(shí)施例,可以通過(guò)知識(shí)庫(kù)對(duì)原始語(yǔ)料文檔中的對(duì)象類(lèi)型和對(duì)象主 題進(jìn)行解釋?zhuān)缓髴?yīng)用對(duì)象類(lèi)型之間的相通性,以及對(duì)象主題之間的相似性,從而確定出待 分析對(duì)象的相關(guān)對(duì)象。通過(guò)上述實(shí)施例,可以有效、全面、即時(shí)的識(shí)別相關(guān)對(duì)象,為深入的監(jiān) 測(cè)與分析相關(guān)對(duì)象提供建議。
[0193] 在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的方法和裝置,可以通過(guò)其 它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅 僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。
[0194] 所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè) 網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目 的。
[0195] 另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以 是各個(gè)單元單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單 元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
[0196] 以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種確定相關(guān)對(duì)象的方法,其特征在于,所述方法包括: 依據(jù)對(duì)象的原始語(yǔ)料文檔確定對(duì)象的對(duì)象類(lèi)型和對(duì)象主題; 按照對(duì)象類(lèi)型聚合對(duì)象,得到一個(gè)以上的對(duì)象簇; 依據(jù)同一對(duì)象簇中對(duì)象之間的主題相似度,獲得待分析對(duì)象的相關(guān)對(duì)象。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)對(duì)象的原始語(yǔ)料文檔確定對(duì)象的 對(duì)象類(lèi)型和對(duì)象主題具體包括: 從外部數(shù)據(jù)源獲取對(duì)象的原始語(yǔ)料文檔; 從所述對(duì)象的原始語(yǔ)料文檔中提取類(lèi)型關(guān)鍵詞集合和主題關(guān)鍵詞集合; 將類(lèi)型關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對(duì)象類(lèi)型作為對(duì)象類(lèi)型,以及主題關(guān)鍵詞集合所匹 配到的標(biāo)準(zhǔn)對(duì)象主題作為對(duì)象主題。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將類(lèi)型關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對(duì) 象類(lèi)型作為對(duì)象類(lèi)型,以及主題關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對(duì)象主題作為對(duì)象主題具體包 括: 將所述類(lèi)型關(guān)鍵詞集合和主題關(guān)鍵詞集合分別與預(yù)先建立的標(biāo)準(zhǔn)類(lèi)型分類(lèi)知識(shí)庫(kù)和 標(biāo)準(zhǔn)主題分類(lèi)知識(shí)庫(kù)進(jìn)行匹配; 確定所述標(biāo)準(zhǔn)類(lèi)型分類(lèi)知識(shí)庫(kù)中與類(lèi)型關(guān)鍵詞集合相匹配的標(biāo)準(zhǔn)對(duì)象類(lèi)型分類(lèi),以及 所述標(biāo)準(zhǔn)主題分類(lèi)知識(shí)庫(kù)中與主題關(guān)鍵詞集合相匹配的標(biāo)準(zhǔn)對(duì)象主題分類(lèi); 依據(jù)匹配的標(biāo)準(zhǔn)對(duì)象類(lèi)型分類(lèi)和標(biāo)準(zhǔn)對(duì)象主題分類(lèi)確定對(duì)象類(lèi)型和對(duì)象主題。4. 根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,按照對(duì)象類(lèi)型聚合對(duì)象,得到一 個(gè)以上的對(duì)象簇包括: 查找標(biāo)準(zhǔn)對(duì)象類(lèi)型樹(shù)形結(jié)構(gòu),確定各對(duì)象類(lèi)型在所述標(biāo)準(zhǔn)對(duì)象類(lèi)型樹(shù)形結(jié)構(gòu)的位置; 若各對(duì)象的對(duì)象類(lèi)型之間具有相同的上級(jí)節(jié)點(diǎn),且對(duì)象類(lèi)型之間的層級(jí)差符合預(yù)設(shè)的 要求,則確定該各對(duì)象屬于同一對(duì)象簇。5. 根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,采用如下方式確定對(duì)象之間的 主題相似度: 分別確定各對(duì)象的主題向量,所述主題向量由對(duì)象的每個(gè)對(duì)象主題構(gòu)成; 確定各對(duì)象的主題向量的余弦相似度作為對(duì)象之間的主題相似度。6. 根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,周期性地或者受事件觸發(fā)時(shí),執(zhí) 行所述方法。7. 根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述方法還包括: 將各對(duì)象分別作為待分析對(duì)象,執(zhí)行所述方法; 在結(jié)果數(shù)據(jù)庫(kù)中存儲(chǔ)各對(duì)象對(duì)應(yīng)的相關(guān)對(duì)象。8. 根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述方法還包括: 將用戶(hù)輸入的對(duì)象作為待分析對(duì)象,執(zhí)行所述方法,并輸出待分析對(duì)象的相關(guān)對(duì)象。9. 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括: 獲取用戶(hù)輸入的對(duì)象; 查詢(xún)所述結(jié)果數(shù)據(jù)庫(kù),確定并輸出與所述輸入的對(duì)象對(duì)應(yīng)的相關(guān)對(duì)象。10. 根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于, 所述對(duì)象的原始語(yǔ)料文檔包括公司的新聞?wù)Z料、行業(yè)描述、產(chǎn)品服務(wù)描述及關(guān)系; 所述對(duì)象類(lèi)型包括公司行業(yè); 所述對(duì)象主題包括公司提供的產(chǎn)品服務(wù); 所述相關(guān)對(duì)象包括存在競(jìng)爭(zhēng)關(guān)系的公司。11. 一種確定相關(guān)對(duì)象的裝置,其特征在于,所述裝置包括: 確定單元,用于依據(jù)對(duì)象的原始語(yǔ)料文檔確定對(duì)象的對(duì)象類(lèi)型和對(duì)象主題; 聚合單元,用于按照對(duì)象類(lèi)型聚合對(duì)象,得到一個(gè)以上的對(duì)象簇; 相關(guān)對(duì)象獲得單元,用于依據(jù)同一對(duì)象簇中對(duì)象之間的主題相似度,獲得待分析對(duì)象 的相關(guān)對(duì)象。12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述確定單元具體包括: 原始語(yǔ)料文檔獲取單元,用于從外部數(shù)據(jù)源獲取對(duì)象的原始語(yǔ)料文檔; 關(guān)鍵詞集合提取單元,用于從所述對(duì)象的原始語(yǔ)料文檔中提取類(lèi)型關(guān)鍵詞集合和主題 關(guān)鍵詞集合; 匹配單元,用于將類(lèi)型關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對(duì)象類(lèi)型作為對(duì)象類(lèi)型,以及主題 關(guān)鍵詞集合所匹配到的標(biāo)準(zhǔn)對(duì)象主題作為對(duì)象主題。13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述匹配單元具體執(zhí)行以下操作: 將所述類(lèi)型關(guān)鍵詞集合和主題關(guān)鍵詞集合分別與預(yù)先建立的標(biāo)準(zhǔn)類(lèi)型分類(lèi)知識(shí)庫(kù)和 標(biāo)準(zhǔn)主題分類(lèi)知識(shí)庫(kù)進(jìn)行匹配; 確定所述標(biāo)準(zhǔn)類(lèi)型分類(lèi)知識(shí)庫(kù)中與類(lèi)型關(guān)鍵詞集合相匹配的標(biāo)準(zhǔn)對(duì)象類(lèi)型分類(lèi),以及 所述標(biāo)準(zhǔn)主題分類(lèi)知識(shí)庫(kù)中與主題關(guān)鍵詞集合相匹配的標(biāo)準(zhǔn)對(duì)象主題分類(lèi); 依據(jù)匹配的標(biāo)準(zhǔn)對(duì)象類(lèi)型分類(lèi)和標(biāo)準(zhǔn)對(duì)象主題分類(lèi)確定對(duì)象類(lèi)型和對(duì)象主題。14. 根據(jù)權(quán)利要求11至13任一項(xiàng)所述的裝置,其特征在于,所述聚合單元具體執(zhí)行以下 操作: 查找標(biāo)準(zhǔn)對(duì)象類(lèi)型樹(shù)形結(jié)構(gòu),確定各對(duì)象類(lèi)型在所述標(biāo)準(zhǔn)對(duì)象類(lèi)型樹(shù)形結(jié)構(gòu)的位置; 若各對(duì)象的對(duì)象類(lèi)型之間具有相同的上級(jí)節(jié)點(diǎn),且對(duì)象類(lèi)型之間的層級(jí)差符合預(yù)設(shè)的 要求,則確定該各對(duì)象屬于同一對(duì)象簇。15. 根據(jù)權(quán)利要求11至13任一項(xiàng)所述的裝置,其特征在于,所述相關(guān)對(duì)象獲得單元執(zhí)行 如下操作以確定對(duì)象之間的主題相似度: 分別確定各對(duì)象的主題向量,所述主題向量由對(duì)象的每個(gè)對(duì)象主題構(gòu)成; 確定各對(duì)象的主題向量的余弦相似度作為對(duì)象之間的主題相似度。16. 根據(jù)權(quán)利要求11至13任一項(xiàng)所述的裝置,其特征在于,周期性地或者受事件觸發(fā) 時(shí),使所述裝置執(zhí)行確定相關(guān)對(duì)象的操作。17. 根據(jù)權(quán)利要求11至13任一項(xiàng)所述的裝置,其特征在于,所述裝置將各對(duì)象分別作為 待分析對(duì)象,執(zhí)行確定相關(guān)對(duì)象的操作;并且由所述相關(guān)對(duì)象獲得單元將各對(duì)象對(duì)應(yīng)的相 關(guān)對(duì)象存儲(chǔ)在結(jié)果數(shù)據(jù)庫(kù)中。18. 根據(jù)權(quán)利要求11至13任一項(xiàng)所述的裝置,其特征在于,所述裝置將用戶(hù)輸入的對(duì)象 作為待分析對(duì)象,執(zhí)行確定相關(guān)對(duì)象的操作,并輸出待分析對(duì)象的相關(guān)對(duì)象。19. 根據(jù)權(quán)利要求17所述的裝置,其特征在于,所述裝置還包括輸入單元和輸出單元: 所述輸入單元用于獲取用戶(hù)輸入的對(duì)象;所述輸出單元用于將由所述相關(guān)對(duì)象獲得單元通 過(guò)查詢(xún)所述結(jié)果數(shù)據(jù)庫(kù)確定的與所述輸入的對(duì)象對(duì)應(yīng)的相關(guān)對(duì)象輸出。20.根據(jù)權(quán)利要求11至13任一項(xiàng)所述的裝置,其特征在于, 所述對(duì)象的原始語(yǔ)料文檔包括公司的新聞?wù)Z料、行業(yè)描述、產(chǎn)品服務(wù)描述及關(guān)系; 所述對(duì)象類(lèi)型包括公司行業(yè); 所述對(duì)象主題包括公司提供的產(chǎn)品服務(wù); 所述相關(guān)對(duì)象包括存在競(jìng)爭(zhēng)關(guān)系的公司。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種確定相關(guān)對(duì)象的方法和裝置。其中一種確定相關(guān)對(duì)象的方法包括:依據(jù)對(duì)象的原始語(yǔ)料文檔確定對(duì)象的對(duì)象類(lèi)型和對(duì)象主題;按照對(duì)象類(lèi)型聚合對(duì)象,得到一個(gè)以上的對(duì)象簇;依據(jù)同一對(duì)象簇中對(duì)象之間的主題相似度,獲得待分析對(duì)象的相關(guān)對(duì)象。應(yīng)用本發(fā)明所提供方法和裝置,可以自動(dòng)實(shí)現(xiàn)待分析對(duì)象的相關(guān)對(duì)象的確定,克服了現(xiàn)有技術(shù)中通過(guò)經(jīng)驗(yàn)分析法進(jìn)行數(shù)據(jù)分析造成的人力成本過(guò)高,并且分析結(jié)果受限于分析人員的經(jīng)驗(yàn)和市場(chǎng)活動(dòng)范圍的缺陷。
【IPC分類(lèi)】G06F17/30
【公開(kāi)號(hào)】CN105512270
【申請(qǐng)?zhí)枴緾N201510882827
【發(fā)明人】葛寧
【申請(qǐng)人】百度在線(xiàn)網(wǎng)絡(luò)技術(shù)(北京)有限公司
【公開(kāi)日】2016年4月20日
【申請(qǐng)日】2015年12月4日