亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種索引數(shù)據(jù)更新方法、系統(tǒng)及搜索引擎的制作方法

文檔序號(hào):9911231閱讀:534來源:國(guó)知局
一種索引數(shù)據(jù)更新方法、系統(tǒng)及搜索引擎的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù)領(lǐng)域,尤其是一種索引數(shù)據(jù)更新方法、系統(tǒng)及搜索引 擎。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的日益發(fā)展,用戶產(chǎn)生大量的信息資訊需求,由此專業(yè)的資訊類 網(wǎng)站迅速發(fā)展壯大,站內(nèi)外資訊的整合和快速專業(yè)的檢索也變得迫切,基于傳統(tǒng)的網(wǎng)頁(yè)檢 索技術(shù)或數(shù)據(jù)庫(kù)檢索已變得難以滿足需要。為處理龐大且更新數(shù)據(jù)極快的資訊數(shù)據(jù),快速 準(zhǔn)確地滿足用戶的資訊檢索定位,就需要提高對(duì)這些海量動(dòng)態(tài)變化的資訊數(shù)據(jù)建立索引的 速度,因此,實(shí)時(shí)索引構(gòu)建技術(shù)一直是互聯(lián)網(wǎng)搜索技術(shù)研究的重點(diǎn)。
[0003] 目前常見的一種索引數(shù)據(jù)更新方法是基于結(jié)構(gòu)化的數(shù)據(jù)文檔進(jìn)行索引并提供檢 索服務(wù)。在擬定的數(shù)據(jù)組織結(jié)構(gòu)下采集網(wǎng)頁(yè)數(shù)據(jù)或由第三方推送結(jié)構(gòu)化的數(shù)據(jù),以全量+增 量的索引方式,定期更新索引。故而更新頻率一般都是在十分鐘以上,不能實(shí)現(xiàn)實(shí)時(shí)索引且 及時(shí)呈現(xiàn)資訊,尤其對(duì)于一些實(shí)時(shí)性要求高的檢索需求,這種索引更新方案顯然是不夠的。

【發(fā)明內(nèi)容】

[0004] 為此,本發(fā)明提供一種索引數(shù)據(jù)更新方法、系統(tǒng)及搜索引擎,以力圖解決或者至少 緩解上面存在的問題。
[0005] 根據(jù)本發(fā)明的一個(gè)方面,提供一種索引數(shù)據(jù)更新方法,方法包括步驟:接收第三方 推送中心推送的索引數(shù)據(jù)更新消息,更新消息按"數(shù)據(jù)ID+數(shù)據(jù)字符串+消息類型+消息數(shù)據(jù) 版本"的格式封裝,其中,數(shù)據(jù)ID唯一地標(biāo)識(shí)更新消息,數(shù)據(jù)字符串包括由待更新數(shù)據(jù)的字 段名稱和字段值構(gòu)成的結(jié)構(gòu)化數(shù)據(jù);保存更新消息;以及根據(jù)消息數(shù)據(jù)版本解析更新消息, 根據(jù)數(shù)據(jù)字符串對(duì)索引庫(kù)中的原始索引文件進(jìn)行與消息類型相對(duì)應(yīng)的更新操作。
[0006] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新方法中,與消息類型相對(duì)應(yīng)的更新操作包 括:對(duì)索引庫(kù)中原始索引文件的增加、刪除、修改、條件更新操作。
[0007] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新方法中,數(shù)據(jù)字符串是json字符串。
[0008] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新方法中,保存更新消息的步驟包括:按照消 息時(shí)間保存更新消息。
[0009] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新方法中,還包括步驟:當(dāng)接收到回放信號(hào) 時(shí),根據(jù)消息時(shí)間定位到對(duì)應(yīng)的更新消息。
[0010] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新方法中,解析更新消息的步驟之前,還包括 步驟:通過調(diào)用預(yù)置的Hook函數(shù),對(duì)索引庫(kù)中的更新消息進(jìn)行適配處理。
[0011] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新方法中,適配處理包括:對(duì)屬于論壇索引庫(kù) 的更新消息進(jìn)行檢驗(yàn);以及實(shí)時(shí)計(jì)算文章索引庫(kù)中索引文件的重要性。
[0012] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新方法中,當(dāng)與消息類型相對(duì)應(yīng)的更新操作 為條件更新操作時(shí),數(shù)據(jù)字符串中還包括更新條件,解析更新消息還包括:通過數(shù)據(jù)字符串 獲取更新條件。
[0013] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新方法中,條件更新包括批量更新操作。
[0014] 根據(jù)本發(fā)明的另一方面,提供一種索引數(shù)據(jù)更新系統(tǒng),系統(tǒng)包括:輸入接口,適于 接收由第三方推送中心推送的索引數(shù)據(jù)更新消息,更新消息按"數(shù)據(jù)ID+數(shù)據(jù)字符串+消息 類型+消息數(shù)據(jù)版本"的格式封裝;緩存裝置,適于保存接收到的更新消息;索引庫(kù),適于存 儲(chǔ)原始索引文件;更新控制裝置,適于解析更新消息,根據(jù)數(shù)據(jù)字符串對(duì)索引庫(kù)中的原始索 引文件進(jìn)行與消息類型相對(duì)應(yīng)的更新操作;其中,數(shù)據(jù)ID唯一地標(biāo)識(shí)更新消息,數(shù)據(jù)字符串 是由待更新數(shù)據(jù)的字段名稱和字段值構(gòu)成的結(jié)構(gòu)化數(shù)據(jù)。
[0015] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新系統(tǒng)中,更新控制裝置適于根據(jù)消息類型 對(duì)原始索引文件進(jìn)行包括增加、刪除、修改、條件更新的操作。
[0016] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新系統(tǒng)中,數(shù)據(jù)字符串是json字符串。
[0017] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新系統(tǒng)中,緩存裝置還適于按照消息時(shí)間保 存更新消息。
[0018] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新系統(tǒng)中,緩存裝置還適于在接收到回放信 號(hào)后,根據(jù)消息時(shí)間定位到對(duì)應(yīng)的更新消息。
[0019] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新系統(tǒng)中,還包括:預(yù)處理裝置,適于在解析 更新消息之前,調(diào)用預(yù)置的Hook函數(shù),對(duì)索引庫(kù)中的更新消息進(jìn)行適配處理。
[0020] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新系統(tǒng)中,預(yù)處理裝置適于對(duì)屬于論壇索引 庫(kù)的更新消息進(jìn)行檢驗(yàn),還適于實(shí)時(shí)計(jì)算文章索引庫(kù)中索引文件的重要性。
[0021 ]可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新系統(tǒng)中,更新控制裝置還適于在解析得到 消息類型對(duì)應(yīng)的更新操作是條件更新時(shí),通過數(shù)據(jù)字符串獲取更新條件。
[0022] 可選地,在根據(jù)本發(fā)明的索引數(shù)據(jù)更新系統(tǒng)中,條件更新包括批量更新操作。
[0023] 根據(jù)本發(fā)明的又一方面,提供了一種搜索引擎,具有如上所述的索引數(shù)據(jù)更新系 統(tǒng)。
[0024] 由上述技術(shù)方案可見,在本發(fā)明中,以統(tǒng)一的消息格式封裝更新數(shù)據(jù),不僅保證了 各種異構(gòu)數(shù)據(jù)的兼容處理,還可確保更新消息自推送進(jìn)來至呈現(xiàn)給用戶僅存在秒級(jí)的延 遲,實(shí)現(xiàn)了在搜索引擎中實(shí)時(shí)更新索引數(shù)據(jù)的需求。
[0025] 進(jìn)一步地,通過增加的適配處理、回放定位、批量條件更新等處理邏輯,大大提高 更新的時(shí)效性和兼容性,在一些數(shù)據(jù)要求很高的場(chǎng)景下也能保證用戶搜索的良好體驗(yàn)。
【附圖說明】
[0026] 為了實(shí)現(xiàn)上述以及相關(guān)目的,本文結(jié)合下面的描述和附圖來描述某些說明性方 面,這些方面指示了可以實(shí)踐本文所公開的原理的各種方式,并且所有方面及其等效方面 旨在落入所要求保護(hù)的主題的范圍內(nèi)。通過結(jié)合附圖閱讀下面的詳細(xì)描述,本公開的上述 以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯。遍及本公開,相同的附圖標(biāo)記通常指代相同的 部件或元素。
[0027] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的搜索引擎100在進(jìn)行信息搜索時(shí)的工作原理 框圖;
[0028]圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的索引數(shù)據(jù)更新方法200的流程圖;以及
[0029] 圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的索引數(shù)據(jù)更新系統(tǒng)300的示意圖。
【具體實(shí)施方式】
[0030] 下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0031] 圖1為根據(jù)本發(fā)明的一個(gè)實(shí)施方式的搜索引擎100在進(jìn)行信息搜索時(shí)的工作原理 框圖。參照?qǐng)D1,第三方推送中心20將結(jié)構(gòu)化數(shù)據(jù)以預(yù)定的形式主動(dòng)提交給搜索引擎100,從 而搜索引擎100可響應(yīng)客戶端30的瀏覽器32請(qǐng)求而提供數(shù)據(jù)搜索的服務(wù)。這里,推送索引消 息的第三方推送中心20可以是數(shù)據(jù)庫(kù)、推送作業(yè),由它們向搜索引擎100提供結(jié)構(gòu)化數(shù)據(jù); 當(dāng)然,也可以包含爬蟲系統(tǒng),由其提供網(wǎng)頁(yè)數(shù)據(jù)給搜索引擎100。根據(jù)一種實(shí)現(xiàn)方式,搜索引 擎100可以包括一個(gè)或多個(gè)用來存儲(chǔ)和管理數(shù)據(jù)、并響應(yīng)搜索請(qǐng)求的網(wǎng)絡(luò)服務(wù)器實(shí)體??蛻?端30可以包括一個(gè)或多個(gè)用戶終端設(shè)備,如個(gè)人計(jì)算機(jī)、筆記本電腦、無(wú)線電話、個(gè)人數(shù)字 處理(PDA)、或其它計(jì)算機(jī)裝置和通信裝置。
[0032]這些服務(wù)器和終端設(shè)備在架構(gòu)上都包含一些基本組件,如總線、處理裝置、存儲(chǔ)裝 置、一個(gè)或多個(gè)輸入/輸出裝置、和通信接口等。總線可以包括一個(gè)或多個(gè)導(dǎo)線,用來實(shí)現(xiàn)服 務(wù)器或終端設(shè)備各組件之間的通信。處理裝置包括各類型的用來執(zhí)行指令、處理進(jìn)程或線 程的處理器或微處理器。存儲(chǔ)裝置可以包括存儲(chǔ)動(dòng)態(tài)信息的隨機(jī)訪問存儲(chǔ)器(RAM)等動(dòng)態(tài) 存儲(chǔ)器,和存儲(chǔ)靜態(tài)信息的只讀存儲(chǔ)器(ROM)等靜態(tài)存儲(chǔ)器,以及包括磁或光學(xué)記錄介質(zhì)與 相應(yīng)驅(qū)動(dòng)的大容量存儲(chǔ)器。輸入裝置供用戶輸入信息到服務(wù)器或終端設(shè)備,如鍵盤、鼠標(biāo)、 手寫筆、聲音識(shí)別裝置、或生物測(cè)定裝置等。輸出裝置包括用來輸出信息的顯示器、打印機(jī)、 揚(yáng)聲器等。通信接口用來使服務(wù)器或終端設(shè)備與其它系統(tǒng)或裝置進(jìn)行通信。通信接口之間 可通過有線連接、無(wú)線連接、或光連接連接到網(wǎng)絡(luò)中,使搜索引擎100、客戶端10能夠通過網(wǎng) 絡(luò)實(shí)現(xiàn)相互間的通信。網(wǎng)絡(luò)可以包
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1