一種優(yōu)化分詞庫(kù)的方法和裝置的制造方法
【專利摘要】本文公布一種優(yōu)化分詞庫(kù)的方法和裝置,該方法包括:獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞;將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù);根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。本發(fā)明實(shí)施例避免了無(wú)法識(shí)別網(wǎng)絡(luò)熱詞的弊端,從而提升了應(yīng)用商店的搜索、使用性能,增強(qiáng)了用戶體驗(yàn)。
【專利說(shuō)明】
一種優(yōu)化分詞庫(kù)的方法和裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明實(shí)施例涉及但不限于大數(shù)據(jù)技術(shù),尤指一種優(yōu)化分詞庫(kù)的方法和裝置。
【背景技術(shù)】
[0002]對(duì)于應(yīng)用商店這類型的產(chǎn)品而言,具有搜索功能的搜索引擎是必不可少的重要組成部分之一。搜索功能的好壞,是評(píng)估一個(gè)應(yīng)用商店易用性高低的核心指標(biāo),例如,用戶在應(yīng)用商店搜索框內(nèi)連續(xù)輸入若干個(gè)關(guān)鍵詞均無(wú)法定位到目標(biāo)應(yīng)用,這樣會(huì)導(dǎo)致用戶體驗(yàn)極差。
[0003]目前,大部分的應(yīng)用商店的搜索功能是基于全文搜索引擎(Lucene)或Lucene的衍生產(chǎn)品開發(fā)而成的。其中,Lucene中的原生分詞庫(kù)存儲(chǔ)在分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)(MongoDB)中的MongoDB文件中,Lucene中有原生分詞庫(kù),其中,Lucene中的原生分詞庫(kù)與應(yīng)用商店的應(yīng)用資源之間對(duì)應(yīng)于一個(gè)索引,且應(yīng)用商店的服務(wù)器會(huì)對(duì)Lucene中的原生分詞庫(kù)會(huì)進(jìn)行更新,當(dāng)Lucene中的原生分詞庫(kù)更新后,應(yīng)用商店的服務(wù)器需要對(duì)更新后的Lucene中的原生分詞庫(kù)對(duì)應(yīng)的索引進(jìn)行索引重構(gòu)。
[0004]由于Lucene是Apache(Web服務(wù)器軟件)上的一款開源搜索引擎,所以對(duì)中文的分詞處理不好,盡管相關(guān)技術(shù)已對(duì)分詞庫(kù)進(jìn)行了補(bǔ)充優(yōu)化的補(bǔ)救措施,如IKAnalyze(—個(gè)開源的,基于java語(yǔ)言開發(fā)的輕量級(jí)的中文分詞工具包),但是其更新緩慢,且由于不同語(yǔ)言之間的差異導(dǎo)致了對(duì)當(dāng)前的很多網(wǎng)絡(luò)熱詞無(wú)法識(shí)別,所以對(duì)于搜索、使用性能的提升并不明顯,用戶體驗(yàn)也有待提升。
【發(fā)明內(nèi)容】
[0005]本申請(qǐng)?zhí)峁┝艘环N優(yōu)化分詞庫(kù)的方法和裝置,能夠避免無(wú)法識(shí)別網(wǎng)絡(luò)熱詞的弊端,從而提升應(yīng)用商店的搜索、使用性能,增強(qiáng)用戶體驗(yàn)。
[0006]為了達(dá)到本申請(qǐng)目的,本申請(qǐng)?zhí)峁┝艘环N優(yōu)化分詞庫(kù)的方法,包括:
[0007]獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞;
[0008]將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù);
[0009]根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0010]可選地,所述熱詞包括:網(wǎng)頁(yè)熱詞,和/或用戶搜索熱詞,和/或手動(dòng)錄入熱詞。
[0011]可選地,當(dāng)所述熱詞包括網(wǎng)頁(yè)熱詞時(shí),所述獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0012]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源;
[0013]獲取所述預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;
[0014]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為所述熱
Τ.κ| ο
[0015]可選地,當(dāng)所述熱詞包括用戶搜索熱詞時(shí),所述獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0016]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡;
[0017]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;
[0018]在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為所述熱詞。
[0019]可選地,該方法還包括:將獲得的所述熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)。
[0020]可選地,所述將獲得的所述熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)具體包括:在所述分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)中創(chuàng)建一個(gè)分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)類型的文件;
[0021 ]將獲得的所述分詞寫入創(chuàng)建的分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)類型的文件中。
[0022]可選地,所述根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)包括:
[0023]獲取所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引;
[0024]根據(jù)所述搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
[0025]本申請(qǐng)還提供了一種優(yōu)化分詞庫(kù)的裝置,包括:獲取模塊、處理模塊和重構(gòu)模塊;其中,
[0026]獲取模塊,用于獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞;
[0027]處理模塊,用于將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù);
[0028]重構(gòu)模塊,用于根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0029]可選地,所述熱詞包括:網(wǎng)頁(yè)熱詞,和/或用戶搜索熱詞,和/或手動(dòng)錄入熱詞。
[0030]可選地,當(dāng)所述熱詞包括網(wǎng)頁(yè)熱詞時(shí),所述獲取模塊具體用于:
[0031]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源;
[0032]獲取所述預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;
[0033]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為所述熱
Τ.κ| ο
[0034]可選地,當(dāng)所述熱詞包括用戶搜索熱詞時(shí),所述獲取模塊具體用于:
[0035]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡;
[0036]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;
[0037]在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為所述熱詞。
[0038]可選地,該裝置還包括更新模塊,用于將獲得的所述熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)。
[0039]可選地,所述更新模塊,具體用于在所述分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)中創(chuàng)建一個(gè)分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)類型的文件;
[0040]將獲得的所述分詞寫入創(chuàng)建的分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)類型的文件中。
[0041]可選地,所述重構(gòu)模塊,具體用于:
[0042]獲取所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引;
[0043]根據(jù)所述搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
[0044]本發(fā)明實(shí)施例包括:獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞;將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù);根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。本發(fā)明實(shí)施例避免了無(wú)法識(shí)別網(wǎng)絡(luò)熱詞的弊端,從而提升了應(yīng)用商店的搜索、使用性能,增強(qiáng)了用戶體驗(yàn)。
【附圖說(shuō)明】
[0045]此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0046]圖1為本發(fā)明優(yōu)化分詞庫(kù)的方法的流程圖;
[0047]圖2為本發(fā)明分詞庫(kù)來(lái)源的示意圖;
[0048]圖3為本發(fā)明整合搜索引擎中的第二分詞庫(kù)的示意圖;
[0049]圖4為本發(fā)明優(yōu)化分詞庫(kù)的方法的實(shí)施例的流程圖;
[0050]圖5為本發(fā)明優(yōu)化分詞庫(kù)的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0051]下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行更詳細(xì)的說(shuō)明。
[0052]圖1為本發(fā)明優(yōu)化分詞庫(kù)的方法的流程圖,如圖1所示,周期性的執(zhí)行以下步驟:
[0053]步驟101:獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞。
[0054]其中,熱詞包括:網(wǎng)頁(yè)熱詞,和/或用戶搜索熱詞,和/或手動(dòng)錄入熱詞。
[0055]其中,預(yù)設(shè)個(gè)數(shù)可以是一個(gè)由系統(tǒng)設(shè)定的默認(rèn)值,如500,1000;也可以由應(yīng)用商店的服務(wù)器的管理員(或運(yùn)營(yíng)人員)進(jìn)行設(shè)定。
[0056]其中,當(dāng)熱詞包括網(wǎng)頁(yè)熱詞時(shí),獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0057]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源;
[0058]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;
[0059]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為熱詞。其中,預(yù)設(shè)網(wǎng)頁(yè)包括如新浪微博熱詞頁(yè)面、百度搜索熱詞頁(yè)面等等。
[0060]可選地,該方法還包括:將獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源存儲(chǔ)在分布式文件系統(tǒng)(HDFS)中。
[0061]其中,通過(guò)分布式系統(tǒng)基礎(chǔ)架構(gòu)(Hadoop)獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;包括:
[0062]Hadoop采用大數(shù)據(jù)統(tǒng)計(jì)功能確定HDFS中存儲(chǔ)的一個(gè)或一個(gè)以上的預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的多個(gè)網(wǎng)頁(yè)熱詞以及每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù);
[0063]Hadoop根據(jù)確定出的每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù)確定各個(gè)網(wǎng)頁(yè)熱詞的排序。需要說(shuō)明的是,關(guān)于如何通過(guò)Hadoop確定多個(gè)網(wǎng)頁(yè)熱詞以及每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù),屬于本領(lǐng)域技術(shù)人員所熟知的慣用技術(shù)手段,此處不再贅述,并不用來(lái)限制本發(fā)明。例如,Hadoop對(duì)HDFS上的網(wǎng)頁(yè)資源進(jìn)行增量大數(shù)據(jù)統(tǒng)計(jì)分析,根據(jù)網(wǎng)頁(yè)中已有的網(wǎng)絡(luò)熱詞排行和詞語(yǔ)出現(xiàn)的頻率,結(jié)合一定的計(jì)算權(quán)重(此處的權(quán)重可以由管理人員進(jìn)行設(shè)定,屬于本領(lǐng)域的慣用技術(shù)手段,此處不再贅述),重新整合成一份得分從高到低的網(wǎng)絡(luò)熱詞的排行榜(排序)。
[0064]其中,當(dāng)熱詞包括用戶搜索熱詞時(shí),獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0065]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡;
[0066]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;
[0067]在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為熱詞。
[0068]其中,當(dāng)熱詞包括網(wǎng)頁(yè)熱詞和用戶搜索熱詞時(shí),獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0069]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源;
[0070]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;以及,
[0071]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡;
[0072]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;
[0073]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞以及在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為熱詞。
[0074]可選地,該方法還包括:將獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡存儲(chǔ)至關(guān)系型數(shù)據(jù)庫(kù)(Mysql)中。
[0075]其中,Hadoop根據(jù)存儲(chǔ)在Mysql中的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;包括:
[0076]Hadoop采用大數(shù)據(jù)統(tǒng)計(jì)功能對(duì)各個(gè)用戶在應(yīng)用商店的操作軌跡進(jìn)行檢索并統(tǒng)計(jì)用戶搜索的各個(gè)關(guān)鍵詞及其搜索次數(shù);
[0077]Hadoop在統(tǒng)計(jì)出的各個(gè)關(guān)鍵詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)關(guān)鍵詞作為預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞。
[0078]其中,手動(dòng)錄入熱詞是應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的熱詞,且其手動(dòng)錄入熱詞的個(gè)數(shù)也由其自身決定。
[0079]需要說(shuō)明的是,手動(dòng)錄入熱詞更好的保證了應(yīng)用商店的搜索性能。
[0080]其中,當(dāng)熱詞包括網(wǎng)頁(yè)熱詞和手動(dòng)錄入熱詞時(shí),獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0081]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源;
[0082]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;
[0083]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞以及將應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的手動(dòng)錄入熱詞作為熱詞。
[0084]其中,當(dāng)熱詞包括用戶搜索熱詞和手動(dòng)錄入熱詞時(shí),獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0085]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡;
[0086]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;
[0087]在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞以及將應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的手動(dòng)錄入熱詞作為熱詞。
[0088]其中,當(dāng)熱詞包括網(wǎng)頁(yè)熱詞、用戶搜索熱詞和手動(dòng)錄入熱詞時(shí),獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0089]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源;
[0090]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;以及,
[0091]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡;
[0092]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;
[0093]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞、在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞以及將應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的手動(dòng)錄入熱詞作為熱詞。
[0094]可選地,熱詞還包括除通過(guò)以上獲取方式之外的其它方式獲取的熱詞,此處不再贅述,并不用來(lái)限制本申請(qǐng)。
[0095]如圖2所示,為本發(fā)明分詞庫(kù)來(lái)源的示意圖。
[0096]步驟102:將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)。
[0097]其中,搜索引擎是全文搜索引擎(Lucene);搜索引擎中的第一分詞庫(kù)是Lucene中的原生分詞庫(kù)。
[0098]可選地,在步驟101之后,在步驟102之前,該方法還包括:將獲得的上述熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)(MongoDB)中。
[0099]需要說(shuō)明的是,因?yàn)樯鲜霾襟E是周期性的業(yè)務(wù),所以在下一周期執(zhí)行到步驟102時(shí),本周期生成的第二分詞庫(kù)則被當(dāng)做下一周期搜索引擎的原生分詞庫(kù)。
[0100]其中,將獲得的上述熱詞存儲(chǔ)至MongoDB中包括:在MongoDB中創(chuàng)建一個(gè)MongoDB類型的文件;
[0101 ]將獲得的上述熱詞寫入創(chuàng)建的MongoDB類型的文件中。
[0102]步驟103:根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0103]其中,步驟103具體包括:
[0104]獲取搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引;
[0105]根據(jù)搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
[0106]需要說(shuō)明的是,此處的覆蓋增量模式是指建立與第二分詞庫(kù)中新增加的分詞對(duì)應(yīng)的索引并將新建立的索引添加至第一索引中。增量覆蓋模式可保障在更新的過(guò)程中,確保應(yīng)用商店的搜索功能的可用性。
[0107]本發(fā)明實(shí)施方式中,通過(guò)將獲得的預(yù)設(shè)個(gè)數(shù)個(gè)熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)以及根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu),避免了無(wú)法識(shí)別網(wǎng)絡(luò)熱詞的弊端,從而提升了應(yīng)用商店的搜索、使用性能,增強(qiáng)了用戶體驗(yàn)。
[0108]圖3為本發(fā)明實(shí)施例整合搜索引擎中的第二分詞庫(kù)的示意圖,如圖3所示,包括:
[0109]步驟301:開始。
[0110]步驟302:存儲(chǔ)在Mysql中的各個(gè)用戶在應(yīng)用商店的操作軌跡。
[0111]本步驟具體包括:通過(guò)應(yīng)用商店的服務(wù)器獲取各個(gè)用戶在應(yīng)用商店的操作軌跡;
[0112]將獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡存儲(chǔ)在Mysql中。
[0113]步驟303= Hadoop根據(jù)操作軌跡確定出排序前500的用戶搜索熱詞。
[0114]本步驟具體包括:Hadoop采用大數(shù)據(jù)統(tǒng)計(jì)功能對(duì)各個(gè)用戶在應(yīng)用商店的操作軌跡進(jìn)行檢索并統(tǒng)計(jì)用戶搜索的各個(gè)關(guān)鍵詞及其搜索次數(shù);
[0115]Hadoop在統(tǒng)計(jì)出的各個(gè)關(guān)鍵詞中獲取搜索次數(shù)由大到小的500個(gè)關(guān)鍵詞作為排序前500的用戶搜索熱詞。
[0116]步驟304:應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)手動(dòng)錄入熱詞。
[0117]步驟305:采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源。
[0118]步驟306:將獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源存儲(chǔ)在HDFS中。
[0119]步驟307 = Hadoop確定出排序前500的網(wǎng)絡(luò)熱詞。
[0120]本步驟具體包括:獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;
[0121]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的500個(gè)網(wǎng)頁(yè)熱詞作為排序前500的網(wǎng)絡(luò)熱詞。
[0122]步驟308:將分詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)(MongoDB)中。
[0123]本步驟具體包括:
[0124]在MongoDB中創(chuàng)建一MongoDB類型的文件;
[0125]將手動(dòng)錄入熱詞、排序前500的網(wǎng)絡(luò)熱詞、排序前500的網(wǎng)絡(luò)熱詞存儲(chǔ)至創(chuàng)建的MongoDB類型的文件中。
[0126]步驟309:對(duì)MongoDB中的分詞和Lucene中的原生分詞庫(kù)進(jìn)行排重。
[0127]需要說(shuō)明的是,本申請(qǐng)中的排重即去重。
[0128]步驟310:根據(jù)排重后的分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0129]需要說(shuō)明的是,如何根據(jù)排重后的分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)屬于本領(lǐng)域技術(shù)人員所熟知的慣用技術(shù)手段,此處不再贅述。
[0130]步驟311:結(jié)束。
[0131]圖4為本發(fā)明優(yōu)化分詞庫(kù)的方法的實(shí)施例的流程圖,如圖4所示,周期性執(zhí)行以下步驟,包括:
[0132]步驟401:采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源。
[0133]步驟402:將獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源存儲(chǔ)在分布式文件系統(tǒng)(HDFS)中。
[0134]步驟403:根據(jù)獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源獲取預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞。
[0135]其中,預(yù)設(shè)個(gè)數(shù)可以是一個(gè)由系統(tǒng)設(shè)定的默認(rèn)值,如500,1000;也可以由應(yīng)用商店的服務(wù)器的管理員(或運(yùn)營(yíng)人員)進(jìn)行設(shè)定。
[0136]步驟403具體包括:
[0137]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;
[0138]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為熱詞。其中,預(yù)設(shè)網(wǎng)頁(yè)包括如新浪微博熱詞頁(yè)面、百度搜索熱詞頁(yè)面等等。
[0139]其中,通過(guò)分布式系統(tǒng)基礎(chǔ)架構(gòu)(Hadoop)獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;包括:
[0140]Hadoop采用大數(shù)據(jù)統(tǒng)計(jì)功能確定HDFS中存儲(chǔ)的一個(gè)或一個(gè)以上的預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的多個(gè)網(wǎng)頁(yè)熱詞以及每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù);
[0141]Hadoop根據(jù)確定出的每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù)確定各個(gè)網(wǎng)頁(yè)熱詞的排序。需要說(shuō)明的是,關(guān)于如何通過(guò)Hadoop確定多個(gè)網(wǎng)頁(yè)熱詞以及每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù),屬于本領(lǐng)域技術(shù)人員所熟知的慣用技術(shù)手段,此處不再贅述,并不用來(lái)限制本發(fā)明。例如,Hadoop對(duì)HDFS上的網(wǎng)頁(yè)資源進(jìn)行增量大數(shù)據(jù)統(tǒng)計(jì)分析,根據(jù)網(wǎng)頁(yè)中已有的網(wǎng)絡(luò)熱詞排行和詞語(yǔ)出現(xiàn)的頻率,結(jié)合一定的計(jì)算權(quán)重(此處的權(quán)重可以由管理人員進(jìn)行設(shè)定,屬于本領(lǐng)域的慣用技術(shù)手段,此處不再贅述),重新整合成一份得分從高到低的網(wǎng)絡(luò)熱詞的排行榜(排序)。
[0142]步驟404:獲取各個(gè)用戶在應(yīng)用商店的操作軌跡。
[0143]步驟405:將獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡存儲(chǔ)至關(guān)系型數(shù)據(jù)庫(kù)(Mysql)中。
[0144]步驟406:根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡獲取預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞。
[0145]步驟406具體包括:根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;
[0146]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞以及在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為熱詞。
[0147]其中,Hadoop根據(jù)存儲(chǔ)在Mysql中的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;包括:
[0148]Hadoop采用大數(shù)據(jù)統(tǒng)計(jì)功能對(duì)各個(gè)用戶在應(yīng)用商店的操作軌跡進(jìn)行檢索并統(tǒng)計(jì)用戶搜索的各個(gè)關(guān)鍵詞及其搜索次數(shù);
[0149]Hadoop在統(tǒng)計(jì)出的各個(gè)關(guān)鍵詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)關(guān)鍵詞作為預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞。
[0150]步驟407:獲取手動(dòng)錄入熱詞。
[0151]其中,手動(dòng)錄入熱詞是應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的熱詞,且其手動(dòng)錄入熱詞的個(gè)數(shù)也由其自身決定。
[0152]需要說(shuō)明的是,手動(dòng)錄入熱詞更好的保證了應(yīng)用商店的搜索性能。
[0153]步驟408:將獲得的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞、預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞和手動(dòng)錄入熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)(MongoDB)中。
[0154]本步驟具體包括:
[0155]在MongoDB中創(chuàng)建一MongoDB類型的文件;
[0156]將獲得的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞、預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞和手動(dòng)錄入熱詞存儲(chǔ)至創(chuàng)建的MongoDB類型的文件中。
[0157]步驟409:將預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞、預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞和手動(dòng)錄入熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)。
[0158]其中,搜索引擎是全文搜索引擎(Lucene);搜索引擎中的第一分詞庫(kù)是Lucene中的原生分詞庫(kù)。
[0159]需要說(shuō)明的是,因?yàn)樯鲜霾襟E是周期性的業(yè)務(wù),所以在下一周期執(zhí)行到步驟409時(shí),本周期生成的第二分詞庫(kù)則被當(dāng)做下一周期搜索引擎的原生分詞庫(kù)。
[0160]步驟410:根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0161]其中,步驟410具體包括:
[0162]獲取搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引;
[0163]根據(jù)搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
[0164]需要說(shuō)明的是,此處的覆蓋增量模式是指建立與第二分詞庫(kù)中新增加的分詞對(duì)應(yīng)的索引并將新建立的索引添加至第一索引中。增量覆蓋模式可保障在更新的過(guò)程中,確保應(yīng)用商店的搜索功能的可用性。
[0165]圖5為本發(fā)明優(yōu)化分詞庫(kù)的裝置的結(jié)構(gòu)示意圖,如圖5所示,包括:獲取模塊50、處理模塊51和重構(gòu)模塊52。其中,
[0166]獲取模塊50,用于獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞。
[0167]其中,熱詞包括:網(wǎng)頁(yè)熱詞,和/或用戶搜索熱詞,和/或手動(dòng)錄入熱詞。
[0168]其中,當(dāng)熱詞包括網(wǎng)頁(yè)熱詞時(shí),獲取模塊50具體用于:
[0169]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源;
[0170]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;
[0171]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為熱詞。
[0172]可選地,獲取模塊50,還用于將獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源存儲(chǔ)在分布式文件系統(tǒng)(HDFS)中。
[0173]其中,獲取模塊50通過(guò)分布式系統(tǒng)基礎(chǔ)架構(gòu)(Hadoop)對(duì)獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源進(jìn)行大數(shù)據(jù)分析以獲取各個(gè)網(wǎng)頁(yè)熱詞的排序;包括:
[0174]Hadoop確定HDFS中存儲(chǔ)的一個(gè)或一個(gè)以上的預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的多個(gè)網(wǎng)頁(yè)熱詞以及每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù);
[0175]Hadoop根據(jù)確定出的每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù)確定各個(gè)網(wǎng)頁(yè)熱詞的排序。
[0176]其中,當(dāng)熱詞包括用戶搜索熱詞時(shí),獲取模塊50具體用于:
[0177]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡;
[0178]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;
[0179]在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為熱詞。
[0180]可選地,獲取模塊50,還用于將獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡存儲(chǔ)至關(guān)系型數(shù)據(jù)庫(kù)(Mysql)中。
[0181]其中,當(dāng)熱詞包括網(wǎng)頁(yè)熱詞和用戶搜索熱詞時(shí),獲取模塊50具體用于:
[0182]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源;
[0183]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;以及,
[0184]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡;
[0185]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;
[0186]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞以及在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為熱詞。
[0187]其中,當(dāng)熱詞包括網(wǎng)頁(yè)熱詞、用戶搜索熱詞和手動(dòng)錄入熱詞時(shí),獲取模塊50具體用于:
[0188]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源;
[0189]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;以及,
[0190]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡;
[0191]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;
[0192]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞、在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞以及將應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的手動(dòng)錄入熱詞作為熱詞。
[0193]處理模塊51,用于將獲得的上述熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)。
[0194]其中,搜索引擎中的第一分詞庫(kù)是搜索引擎中的原生分詞庫(kù)。
[0195]重構(gòu)模塊52,用于根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0196]其中,重構(gòu)模塊52,具體用于:
[0197]獲取搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引;
[0198]根據(jù)搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
[0199]可選地,該裝置還包括更新模塊53,用于將獲得的上述熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)(MongoDB)中。
[0200]其中,更新模塊53,具體用于
[0201 ] 用于在MongoDB中創(chuàng)建一個(gè)MongoDB文件;
[0202]將搜索引擎中的第二分詞庫(kù)寫入創(chuàng)建的MongoDB文件中。
[0203]可選地,上述裝置可以設(shè)置在應(yīng)用商店的服務(wù)器中。
[0204]需要說(shuō)明的是,在本文中,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括該要素的過(guò)程、方法、物品或者裝置中還存在另外的相同要素。
[0205]上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0206]本領(lǐng)域普通技術(shù)人員可以理解上述方法中的全部或部分步驟可通過(guò)程序來(lái)指令相關(guān)硬件(例如處理器)完成,所述程序可以存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,如只讀存儲(chǔ)器、磁盤或光盤等??蛇x地,上述實(shí)施例的全部或部分步驟也可以使用一個(gè)或多個(gè)集成電路來(lái)實(shí)現(xiàn)。相應(yīng)地,上述實(shí)施例中的各模塊/單元可以采用硬件的形式實(shí)現(xiàn),例如通過(guò)集成電路來(lái)實(shí)現(xiàn)其相應(yīng)功能,也可以采用軟件功能模塊的形式實(shí)現(xiàn),例如通過(guò)處理器執(zhí)行存儲(chǔ)于存儲(chǔ)器中的程序/指令來(lái)實(shí)現(xiàn)其相應(yīng)功能。本發(fā)明不限制于任何特定形式的硬件和軟件的結(jié)入口 ο
[0207]以上僅為本申請(qǐng)的優(yōu)選實(shí)施例,并非因此限制本申請(qǐng)的專利范圍,凡是利用本申請(qǐng)說(shuō)明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本申請(qǐng)的專利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種優(yōu)化分詞庫(kù)的方法,其特征在于,包括: 獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞; 將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù); 根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述熱詞包括:網(wǎng)頁(yè)熱詞,和/或用戶搜索熱詞,和/或手動(dòng)錄入熱詞。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)所述熱詞包括網(wǎng)頁(yè)熱詞時(shí),所述獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括: 采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源; 獲取所述預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序; 在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為所述熱詞。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,當(dāng)所述熱詞包括用戶搜索熱詞時(shí),所述獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括: 獲取各個(gè)用戶在應(yīng)用商店的操作軌跡; 根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序; 在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為所述熱詞。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)包括: 獲取所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引; 根據(jù)所述搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。6.一種優(yōu)化分詞庫(kù)的裝置,其特征在于,包括:獲取模塊、處理模塊和重構(gòu)模塊;其中, 獲取模塊,用于獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞; 處理模塊,用于將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù);重構(gòu)模塊,用于根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述熱詞包括:網(wǎng)頁(yè)熱詞,和/或用戶搜索熱詞,和/或手動(dòng)錄入熱詞。8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,當(dāng)所述熱詞包括網(wǎng)頁(yè)熱詞時(shí),所述獲取模塊具體用于: 采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源; 獲取所述預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為所述熱詞。9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,當(dāng)所述熱詞包括用戶搜索熱詞時(shí),所述獲取模塊具體用于: 獲取各個(gè)用戶在應(yīng)用商店的操作軌跡; 根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序; 在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為所述熱詞。10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述重構(gòu)模塊,具體用于: 獲取所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引; 根據(jù)所述搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
【文檔編號(hào)】G06F17/30GK105824976SQ201610251202
【公開日】2016年8月3日
【申請(qǐng)日】2016年4月20日
【發(fā)明人】鄒煒
【申請(qǐng)人】努比亞技術(shù)有限公司