本發(fā)明涉及數(shù)據(jù)處理
技術(shù)領(lǐng)域:
,特別是涉及一種知識庫數(shù)據(jù)的更新方法及裝置。
背景技術(shù):
:知識庫(KnowledgeBase)是知識工程中結(jié)構(gòu)化,易操作,易利用,全面有組織的知識集群,是針對某一(或某些)領(lǐng)域問題求解的需要,采用某種(或若干)知識表示方式在計算機存儲器中存儲、組織、管理和使用的互相聯(lián)系的知識片集合。這些知識片包括與領(lǐng)域相關(guān)的理論知識、事實數(shù)據(jù),由專家經(jīng)驗得到的啟發(fā)式知識,如某領(lǐng)域內(nèi)有關(guān)的定義、定理和運算法則以及常識性知識等。目前,在建立知識庫后,基于知識庫中的數(shù)據(jù)信息定期從第三方數(shù)據(jù)源檢索是否存在更新的數(shù)據(jù)信息。在更新知識庫中數(shù)據(jù)信息時,主要通過人工檢索第三方數(shù)據(jù)源的方式實現(xiàn),具體實現(xiàn)過程如下:基于爬蟲程序從第三方數(shù)據(jù)源獲取數(shù)據(jù)信息,或者通過人工檢索的方式從第三方數(shù)據(jù)源獲取數(shù)據(jù)信息;將獲取到的數(shù)據(jù)信息進(jìn)行篩選、核實、分類、整理;將整理后的數(shù)據(jù)信息與知識庫中原有的數(shù)據(jù)信息進(jìn)行比對,若整理后的數(shù)據(jù)信息與知識庫中原有的數(shù)據(jù)信息不一致,則基于整理后的數(shù)據(jù)信息更新知識庫。發(fā)明人在通過上述方式更新知識庫時,發(fā)現(xiàn)其存在如下問題:由于知識庫對應(yīng)的領(lǐng)域所包含的數(shù)據(jù)信息非常龐大,并且數(shù)據(jù)信息較復(fù)雜,導(dǎo)致人工在對知識庫進(jìn)行更新時其操作過程復(fù)雜繁瑣、耗時耗力,同時,更新知識庫數(shù)據(jù)信息時依賴于人工,導(dǎo)致誤差率和遺漏率增大。技術(shù)實現(xiàn)要素:有鑒于此,本發(fā)明提供的一種知識庫數(shù)據(jù)的更新方法及裝置,主要目的在于簡化更新知識庫的操作過程及降低人工更新知識庫導(dǎo)致的誤差率及遺漏率。為了解決上述問題,本發(fā)明主要提供如下技術(shù)方案:一方面,本發(fā)明提供了一種知識庫數(shù)據(jù)的更新方法,該方法包括:獲取待更新數(shù)據(jù);對所述待更新數(shù)據(jù)進(jìn)行格式化處理,所述格式化處理為將所述待更新數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)處理為與知識庫中原有數(shù)據(jù)一致的數(shù)據(jù)結(jié)構(gòu);將格式化處理后的所述待更新數(shù)據(jù)與所述知識庫中所述原有數(shù)據(jù)進(jìn)行比對;若格式化處理后的所述待更新數(shù)據(jù)與所述原有數(shù)據(jù)不一致,則基于格式化處理后的所述待更新數(shù)據(jù)更新所述知識庫。另一方面,本發(fā)明還提供一種知識庫數(shù)據(jù)的更新裝置,該裝置包括:獲取單元,用于獲取待更新數(shù)據(jù);處理單元,用于對所述獲取單元獲取的所述待更新數(shù)據(jù)進(jìn)行格式化處理,所述格式化處理為將所述待更新數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)處理為與知識庫中原有數(shù)據(jù)一致的數(shù)據(jù)結(jié)構(gòu);比對單元,用于將所述處理單元格式化處理后的所述待更新數(shù)據(jù)與所述知識庫中所述原有數(shù)據(jù)進(jìn)行比對;更新單元,用于當(dāng)所述比對單元比對的格式化處理后的所述待更新數(shù)據(jù)與所述原有數(shù)據(jù)不一致時,基于格式化處理后的所述待更新數(shù)據(jù)更新所述知識庫。借由上述技術(shù)方案,本發(fā)明提供的技術(shù)方案至少具有下列優(yōu)點:本發(fā)明提供的知識庫數(shù)據(jù)的更新方法及裝置,數(shù)據(jù)對接平臺首先獲取待更新數(shù)據(jù),對獲取到的待更新數(shù)據(jù)進(jìn)行格式化處理,將待更新數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)處理為與知識庫中原有數(shù)據(jù)一致的數(shù)據(jù)結(jié)構(gòu),將格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)進(jìn)行比對,若格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)不一致,則基于格式化處理后的待更新數(shù)據(jù)更新知識庫;與現(xiàn)有技術(shù)中人工更新知識庫相比,本發(fā)明中數(shù)據(jù)對接平臺能夠連接預(yù)設(shè)第三方數(shù)據(jù)源與知識庫,當(dāng)確定知識庫中的原有數(shù)據(jù)與獲取的待更新數(shù)據(jù)不一致時,基于待更新數(shù)據(jù)更新知識庫,其獲取的待更新數(shù)據(jù)為可以為預(yù)設(shè)第三方數(shù)據(jù)源(即多平臺信息內(nèi)容的集合或特指某一數(shù)據(jù)源)中的全部數(shù)據(jù),其數(shù)據(jù)覆蓋范圍廣,降低了更新數(shù)據(jù)的遺漏率;同時,數(shù)據(jù)對接平 臺從預(yù)設(shè)第三方數(shù)據(jù)源獲取待更新數(shù)據(jù)以及將待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)的比對過程均為自動化執(zhí)行,簡化了更新知識庫的操作過程,降低了更新知識庫的時間消耗,降低了更新知識庫的誤差率。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。附圖說明通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:圖1示出了本發(fā)明實施例提供的一種知識庫數(shù)據(jù)的更新方法的流程圖;圖2示出了本發(fā)明實施例提供的另一種知識庫數(shù)據(jù)的更新方法的流程圖;圖3示出了本發(fā)明實施例提供的一種知識庫數(shù)據(jù)的更新裝置的組成框圖;圖4示出了本發(fā)明實施例提供的另一種知識庫數(shù)據(jù)的更新裝置的組成框圖。具體實施方式下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。本發(fā)明實施例提供一種知識庫數(shù)據(jù)的更新方法,如圖1所示,該方法包括:101、獲取待更新數(shù)據(jù)。其中,可以從預(yù)設(shè)第三方數(shù)據(jù)源獲取待更新數(shù)據(jù)。下述均以第三方數(shù) 據(jù)源為獲取待更新數(shù)據(jù)的數(shù)據(jù)源為例說明。本發(fā)明通過構(gòu)建數(shù)據(jù)對接平臺實現(xiàn)知識庫數(shù)據(jù)的自更新,其中,數(shù)據(jù)對接平臺能夠連接預(yù)設(shè)第三方數(shù)據(jù)源與知識庫,在數(shù)據(jù)對接平臺更新知識庫時,首先從預(yù)設(shè)第三方數(shù)據(jù)源獲取待更新數(shù)據(jù);其中,所述待更新數(shù)據(jù)為多個。需要說明的是,所述更新知識庫包括更新知識庫中原有的數(shù)據(jù)、向知識庫中添加新的數(shù)據(jù)。在本發(fā)明實施例中,相應(yīng)于更新知識庫的不同類型,所述預(yù)設(shè)第三方數(shù)據(jù)源可以是多個信息平臺內(nèi)容的集合,也可以包括但不局限于以下內(nèi)容,例如:預(yù)設(shè)第三方數(shù)據(jù)源為知識庫中原有數(shù)據(jù)對應(yīng)的數(shù)據(jù)來源;或者,預(yù)設(shè)第三方數(shù)據(jù)源為添加到知識庫中新數(shù)據(jù)對應(yīng)的數(shù)據(jù)來源。具體的,所述預(yù)設(shè)第三方數(shù)據(jù)源可以為網(wǎng)站中對應(yīng)的各種網(wǎng)頁、微博或者微信等信息分享平臺等等,本發(fā)明實施例對預(yù)設(shè)第三方數(shù)據(jù)源的類型不進(jìn)行具體限定。102、對所述待更新數(shù)據(jù)進(jìn)行格式化處理。本發(fā)明實施例中,知識庫中的數(shù)據(jù)可能來自于不同的預(yù)設(shè)第三方數(shù)據(jù)源,該些不同預(yù)設(shè)第三方數(shù)據(jù)源之間的數(shù)據(jù)結(jié)構(gòu)可能與知識庫中數(shù)據(jù)對應(yīng)的數(shù)據(jù)結(jié)構(gòu)存在差異,因此,在數(shù)據(jù)對接平臺獲取到待更新數(shù)據(jù)之后,需要將該待更新數(shù)據(jù)格式化處理為與知識庫中原有數(shù)據(jù)一致的數(shù)據(jù)結(jié)構(gòu),以確保當(dāng)待更新數(shù)據(jù)與知識庫中的原有數(shù)據(jù)存在差異時,能夠基于格式化處理后的待更新數(shù)據(jù)更新知識庫。103、將格式化處理后的所述待更新數(shù)據(jù)與所述知識庫中所述原有數(shù)據(jù)進(jìn)行比對。將步驟102中格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)進(jìn)行比對,其目的在于確認(rèn)待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)是否存在差異,若存在差異,則執(zhí)行步驟104;若未存在差異,則說明知識庫中的原有數(shù)據(jù)無需更新。作為本發(fā)明實施例的一種實現(xiàn)方式,在將格式化處理后的待更新數(shù)據(jù)與知識庫中的原有數(shù)據(jù)進(jìn)行比對時,首先,獲取待更新數(shù)據(jù)中的其中一個待更新數(shù)據(jù),基于該待更新數(shù)據(jù)遍歷知識庫,確定知識庫中與待更新數(shù)據(jù)對應(yīng)的數(shù)據(jù),將知識庫中的數(shù)據(jù)與該待更新數(shù)據(jù)進(jìn)行比對。本發(fā)明實施例 對待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)進(jìn)行比對的具體實現(xiàn)形式不進(jìn)行限定。104、若格式化處理后的所述待更新數(shù)據(jù)與所述原有數(shù)據(jù)不一致,則基于格式化處理后的所述待更新數(shù)據(jù)更新所述知識庫。當(dāng)格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)一致時,說明知識庫中的數(shù)據(jù)不存在更新后的數(shù)據(jù),因此,無需對該知識庫中的原有數(shù)據(jù)進(jìn)行更新;當(dāng)格式化處理后的待更新數(shù)據(jù)與知識庫中的原有數(shù)據(jù)不一致時,說明知識庫中的數(shù)據(jù)存在更新后的數(shù)據(jù),并基于格式化處理后的待更新數(shù)據(jù)更新知識庫。本發(fā)明實施例提供的知識庫數(shù)據(jù)的更新方法,數(shù)據(jù)對接平臺首先可以從預(yù)設(shè)第三方數(shù)據(jù)源獲取待更新數(shù)據(jù),對獲取到的待更新數(shù)據(jù)進(jìn)行格式化處理,將待更新數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)處理為與知識庫中原有數(shù)據(jù)一致的數(shù)據(jù)結(jié)構(gòu),將格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)進(jìn)行比對,若格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)不一致,則基于格式化處理后的待更新數(shù)據(jù)更新知識庫;與現(xiàn)有技術(shù)中人工更新知識庫相比,本發(fā)明實施例中數(shù)據(jù)對接平臺能夠連接預(yù)設(shè)第三方數(shù)據(jù)源與知識庫,當(dāng)確定知識庫中的原有數(shù)據(jù)與從預(yù)設(shè)第三方數(shù)據(jù)源獲取的待更新數(shù)據(jù)不一致時,基于待更新數(shù)據(jù)更新知識庫,其獲取的待更新數(shù)據(jù)為可以為預(yù)設(shè)第三方數(shù)據(jù)源(即多平臺信息內(nèi)容的集合或特指某一數(shù)據(jù)源)中的全部數(shù)據(jù),其數(shù)據(jù)覆蓋范圍廣,降低了更新數(shù)據(jù)的遺漏率;同時,數(shù)據(jù)對接平臺從預(yù)設(shè)第三方數(shù)據(jù)源獲取待更新數(shù)據(jù)以及將待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)的比對過程均為自動化執(zhí)行,簡化了更新知識庫的操作過程,降低了更新知識庫的時間消耗,降低了更新知識庫的誤差率。為了更清晰的理解本發(fā)明實施例所述的知識庫,以下將以示例的形式進(jìn)行說明。假設(shè),所述知識庫為北京市內(nèi)的公司,如表1所示,知識庫中包含多個字段,每個字段對應(yīng)不同的內(nèi)容;此外,可以為名稱1的公司名稱創(chuàng)建關(guān)于名稱1的知識庫,在名稱1的知識庫中針對公司內(nèi)不同的員工設(shè)置相應(yīng)的字段。表1僅為示例性的舉例,本發(fā)明實施例對知識庫中的內(nèi)容不進(jìn)行限定。表1公司名稱公司地址公司法人聯(lián)系電話業(yè)務(wù)方向名稱1北京…張三123…房地產(chǎn)名稱2北京…李四123…銷售名稱3北京…王五123…法律…………………………進(jìn)一步的,作為對上述實施例的細(xì)化和擴(kuò)展,在步驟102對待更新數(shù)據(jù)進(jìn)行格式化處理時,首先,確定該待更新數(shù)據(jù)在知識庫中的字段信息,再基于該字段信息獲取知識庫中該字段信息對應(yīng)的數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)對接平臺基于該數(shù)據(jù)結(jié)構(gòu)對待更新數(shù)據(jù)進(jìn)行格式化處理。在本發(fā)明實施例中,在確認(rèn)待更新數(shù)據(jù)在知識庫中的字段信息時,數(shù)據(jù)對接平臺可以根據(jù)待更新數(shù)據(jù)的具體內(nèi)容推薦其在知識庫中的字段信息,例如,若待更新數(shù)據(jù)為長度為11個字符,且數(shù)據(jù)類型為數(shù)值型的字符串,則推薦該待更新數(shù)據(jù)在知識庫中的字段為聯(lián)系電話;或者,當(dāng)數(shù)據(jù)對接平臺無法確定該待更新數(shù)據(jù)在知識庫中的字段信息時,人工確認(rèn)待更新數(shù)據(jù)在知識庫中的字段信息。本發(fā)明實施例對確認(rèn)待更新數(shù)據(jù)在知識庫中的字段信息的具體實現(xiàn)方式不進(jìn)行限定。作為本發(fā)明實施例的另一種實現(xiàn)方式,在數(shù)據(jù)對接平臺從預(yù)設(shè)第三方數(shù)據(jù)源獲取待更新數(shù)據(jù)之后,檢測該待更新數(shù)據(jù)是否已明確指出該待更新數(shù)據(jù)在知識庫中的字段信息,并判斷該待更新數(shù)據(jù)的字段是否與知識庫中的字段是否相同,若確定該待更新數(shù)據(jù)的字段與知識庫中的字段相同,則直接將該待更新數(shù)據(jù)與知識庫內(nèi)該字段信息對應(yīng)的原有數(shù)據(jù)進(jìn)行比對;若確定該待更新數(shù)據(jù)的字段與知識庫中的字段不相同,則執(zhí)行重新確定待更新數(shù)據(jù)在知識庫中的字段信息,并將該待更新數(shù)據(jù)與知識庫內(nèi)該字段信息對應(yīng)的原有數(shù)據(jù)進(jìn)行比對。進(jìn)一步的,為了能夠進(jìn)一步確保更新知識庫的準(zhǔn)確性,在基于格式化處理后的待更新數(shù)據(jù)更新數(shù)據(jù)庫之前,輸出顯示格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)不一致的數(shù)據(jù),便于知識庫的運維人員查看格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)不一致的數(shù)據(jù),并對該些不一致的數(shù)據(jù)進(jìn)行核實、確認(rèn)。作為本發(fā)明實施例的一種實現(xiàn)方式,在基于格式化處理后的待更新數(shù)據(jù)更新知識庫時,從用戶層面上講,知識庫運維人員在對格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)不一致的數(shù)據(jù)進(jìn)行核實、確認(rèn)之后,通過鼠標(biāo)或者鍵盤點擊數(shù)據(jù)對接平臺中的確認(rèn)按鍵,基于待更新數(shù)據(jù)更新知識庫;從技術(shù)實現(xiàn)層面上講,數(shù)據(jù)對接平臺接收確認(rèn)更新知識庫的執(zhí)行指令,根據(jù)該執(zhí)行指令更新知識庫。作為本發(fā)明實施例的另一種實現(xiàn)方式,在基于格式化處理后的待更新數(shù)據(jù)更新知識庫時,當(dāng)確認(rèn)格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)不一致時,會在預(yù)置時間內(nèi)自動基于待更新數(shù)據(jù)更新知識庫,其中,所述預(yù)置時間為人為設(shè)置的,其可以設(shè)置為10分鐘,也可以設(shè)置為30分鐘,具體的本發(fā)明實施例對此不進(jìn)行限定。進(jìn)一步的,為了確保知識庫中原有數(shù)據(jù)的時效性,在數(shù)據(jù)對接平臺從預(yù)設(shè)第三方數(shù)據(jù)源獲取待更新數(shù)據(jù)時,基于爬蟲程序爬取預(yù)設(shè)第三方數(shù)據(jù)源所獲取的待更新數(shù)據(jù),爬蟲程序?qū)@取到的待更新數(shù)據(jù)發(fā)送給數(shù)據(jù)對接平臺,數(shù)據(jù)對接平臺接收并獲取該待更新數(shù)據(jù)。需要說明的是,為了確保預(yù)設(shè)第三方數(shù)據(jù)源的數(shù)據(jù)與知識庫中的原有數(shù)據(jù)的同步性,在基于爬蟲程序爬取預(yù)設(shè)第三方數(shù)據(jù)源中的待更新數(shù)據(jù)時,設(shè)置爬蟲程序的爬取頻次與獲取待更新數(shù)據(jù)的數(shù)據(jù)源更新的頻次一致,實現(xiàn)基于爬蟲程序?qū)崟r監(jiān)測第三方數(shù)據(jù)源中數(shù)據(jù)的更新變化。在本發(fā)明實施例中,在設(shè)置爬蟲程序的爬取頻次時,需要獲取預(yù)設(shè)第三方數(shù)據(jù)源的更新頻次,所述預(yù)設(shè)第三方數(shù)據(jù)源的更新頻次為根據(jù)經(jīng)驗人為設(shè)定,在更新預(yù)設(shè)第三方數(shù)據(jù)源時通常為占用互聯(lián)網(wǎng)資源較少的時間段,例如,00:00-04:00。因此,在設(shè)置爬蟲程序的執(zhí)行頻次時,可以設(shè)置爬蟲程序的開始執(zhí)行時間為00:00,爬蟲程序的爬取頻次為30分鐘執(zhí)行一次。本發(fā)明實施例對爬蟲程序的開始執(zhí)行時間、爬蟲程序的爬取頻次、預(yù)設(shè)第三方數(shù)據(jù)源的更新時間段等內(nèi)容不進(jìn)行具體限定。在具體實施時,為了更全面的獲取待更新數(shù)據(jù),在基于爬蟲程序爬取預(yù)設(shè)第三方數(shù)據(jù)源所獲取的待更新數(shù)據(jù)時,以深度優(yōu)先的爬取策略爬取預(yù)設(shè)第三方數(shù)據(jù)源,確保更大范圍的獲取待更新數(shù)據(jù),降低更新知識庫的遺漏率。進(jìn)一步的,以下將提供一種知識庫數(shù)據(jù)的更新方法的完整流程,如圖2所示,該方法包括:201、爬蟲程序爬取預(yù)設(shè)第三方數(shù)據(jù)源,獲取待更新數(shù)據(jù),并將所述待更新數(shù)據(jù)發(fā)送至數(shù)據(jù)對接平臺。202、數(shù)據(jù)對接平臺接收并獲取待更新數(shù)據(jù)。203、數(shù)據(jù)對接平臺對所述待更新數(shù)據(jù)進(jìn)行格式化處理。204、數(shù)據(jù)對接平臺將格式化處理后的所述待更新數(shù)據(jù)與所述知識庫中所述原有數(shù)據(jù)進(jìn)行比對。若格式化處理后的所述待更新數(shù)據(jù)與所述原有數(shù)據(jù)不一致,則執(zhí)行步驟205;若格式化處理后的所述待更新數(shù)據(jù)與所述原有數(shù)據(jù)不一致,則執(zhí)行步驟206。205、數(shù)據(jù)對接平臺基于格式化處理后的所述待更新數(shù)據(jù)更新所述知識庫。206、數(shù)據(jù)對接平臺不更新所述知識庫。需要說明的,有關(guān)圖2中步驟201至步驟206的詳細(xì)描述,請參考以上有關(guān)描述,本發(fā)明實施例在此不再進(jìn)行贅述。根據(jù)上述方法實施例,下面提供一種裝置實施例,該裝置實施例與前述方法實施例對應(yīng),為便于閱讀,本裝置實施例不再對前述方法實施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實施例中的裝置能夠?qū)?yīng)實現(xiàn)前述方法實施例中的全部內(nèi)容。進(jìn)一步的,本發(fā)明實施例提供一種知識庫數(shù)據(jù)的更新裝置,如圖3所示,該裝置包括:獲取單元31,用于獲取待更新數(shù)據(jù);處理單元32,用于對所述獲取單元31獲取的所述待更新數(shù)據(jù)進(jìn)行格式化處理,所述格式化處理為將所述待更新數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)處理為與所述原有數(shù)據(jù)一致的數(shù)據(jù)結(jié)構(gòu);比對單元33,用于將所述處理單元32格式化處理后的所述待更新數(shù)據(jù)與所述知識庫中所述原有數(shù)據(jù)進(jìn)行比對;更新單元34,用于當(dāng)所述比對單元33比對的格式化處理后的所述待更 新數(shù)據(jù)與所述原有數(shù)據(jù)不一致時,基于格式化處理后的所述待更新數(shù)據(jù)更新所述知識庫。進(jìn)一步的,如圖4所示,所述處理單元32包括:獲取模塊321,用于獲取所述知識庫中原有數(shù)據(jù)對應(yīng)的數(shù)據(jù)結(jié)構(gòu);處理模塊322,用于基于所述獲取模塊321獲取的所述數(shù)據(jù)結(jié)構(gòu)對所述待更新數(shù)據(jù)進(jìn)行格式化處理。進(jìn)一步的,如圖4所示,所述裝置還包括:顯示單元35,用于在所述更新單元34基于格式化處理后的所述待更新數(shù)據(jù)更新所述知識庫之前,輸出顯示格式化處理后的所述待更新數(shù)據(jù)與所述原有數(shù)據(jù)不一致的數(shù)據(jù)。進(jìn)一步的,如圖4所示,所述更新單元34包括:接收模塊341,用于接收確認(rèn)更新所述知識庫的執(zhí)行指令;更新模塊342,用于根據(jù)所述接收模塊341接收的所述執(zhí)行指令更新所述知識庫。進(jìn)一步的,如圖4所示,所述獲取單元31,包括:接收模塊311,用于接收爬蟲程序爬取的所述待更新數(shù)據(jù),所述爬蟲程序的爬取頻次與獲取待更新數(shù)據(jù)的數(shù)據(jù)源更新的頻次一致;獲取模塊312,用于獲取所述接收模塊311接收的所述待更新數(shù)據(jù)。本發(fā)明實施例提供的知識庫數(shù)據(jù)的更新裝置,數(shù)據(jù)對接平臺首先可以從預(yù)設(shè)第三方數(shù)據(jù)源(即多平臺信息內(nèi)容的集合或特指某一數(shù)據(jù)源)獲取待更新數(shù)據(jù),對獲取到的待更新數(shù)據(jù)進(jìn)行格式化處理,將待更新數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)處理為與知識庫中原有數(shù)據(jù)一致的數(shù)據(jù)結(jié)構(gòu),將格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)進(jìn)行比對,若格式化處理后的待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)不一致,則基于格式化處理后的待更新數(shù)據(jù)更新知識庫;與現(xiàn)有技術(shù)中人工更新知識庫相比,本發(fā)明實施例中數(shù)據(jù)對接平臺能夠連接預(yù)設(shè)第三方數(shù)據(jù)源與知識庫,當(dāng)確定知識庫中的原有數(shù)據(jù)與從預(yù)設(shè)第三方數(shù)據(jù)源獲取的待更新數(shù)據(jù)不一致時,基于待更新數(shù)據(jù)更新知識庫,其獲取的待更新數(shù)據(jù)為預(yù)設(shè)第三方數(shù)據(jù)源中的全部數(shù)據(jù),其數(shù)據(jù)覆蓋范圍廣,降低了更新數(shù)據(jù)的遺漏率;同時,數(shù)據(jù)對接平臺從預(yù)設(shè)第三方數(shù)據(jù)源獲取 待更新數(shù)據(jù)以及將待更新數(shù)據(jù)與知識庫中原有數(shù)據(jù)的比對過程均為自動化執(zhí)行,簡化了更新知識庫的操作過程,降低了更新知識庫的時間消耗,降低了更新知識庫的誤差率。所述知識庫數(shù)據(jù)的更新裝置包括處理器和存儲器,上述獲取單元、處理單元、比對單元和更新單元等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應(yīng)的功能。處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上,通過調(diào)整內(nèi)核參數(shù)來簡化更新知識庫的操作過程及降低人工更新知識庫導(dǎo)致的誤差率及遺漏率。存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flashRAM),存儲器包括至少一個存儲芯片。本申請還提供了一種計算機程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取待更新數(shù)據(jù);對所述待更新數(shù)據(jù)進(jìn)行格式化處理,所述格式化處理為將所述待更新數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)處理為與知識庫中原有數(shù)據(jù)一致的數(shù)據(jù)結(jié)構(gòu);將格式化處理后的所述待更新數(shù)據(jù)與所述知識庫中所述原有數(shù)據(jù)進(jìn)行比對;若格式化處理后的所述待更新數(shù)據(jù)與所述原有數(shù)據(jù)不一致,則基于格式化處理后的所述待更新數(shù)據(jù)更新所述知識庫。在本發(fā)明的上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流 程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。在一個典型的配置中,計算設(shè)備包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flashRAM)。存儲器是計算機可讀介質(zhì)的示例。計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機存取存儲器(SRAM)、動態(tài)隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機可讀 介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號和載波。還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。本領(lǐng)域技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。以上僅為本申請的實施例而已,并不用于限制本申請。對于本領(lǐng)域技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請的權(quán)利要求范圍之內(nèi)。當(dāng)前第1頁1 2 3