一種優(yōu)化分詞庫(kù)的方法和裝置的制造方法

文檔序號(hào)：10471265閱讀：189來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種優(yōu)化分詞庫(kù)的方法和裝置的制造方法
【專利摘要】本文公布一種優(yōu)化分詞庫(kù)的方法和裝置，該方法包括：獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞；將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)；根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。本發(fā)明實(shí)施例避免了無(wú)法識(shí)別網(wǎng)絡(luò)熱詞的弊端，從而提升了應(yīng)用商店的搜索、使用性能，增強(qiáng)了用戶體驗(yàn)。
【專利說(shuō)明】
一種優(yōu)化分詞庫(kù)的方法和裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明實(shí)施例涉及但不限于大數(shù)據(jù)技術(shù)，尤指一種優(yōu)化分詞庫(kù)的方法和裝置。
【背景技術(shù)】
[0002]對(duì)于應(yīng)用商店這類型的產(chǎn)品而言，具有搜索功能的搜索引擎是必不可少的重要組成部分之一。搜索功能的好壞，是評(píng)估一個(gè)應(yīng)用商店易用性高低的核心指標(biāo)，例如，用戶在應(yīng)用商店搜索框內(nèi)連續(xù)輸入若干個(gè)關(guān)鍵詞均無(wú)法定位到目標(biāo)應(yīng)用，這樣會(huì)導(dǎo)致用戶體驗(yàn)極差。
[0003]目前，大部分的應(yīng)用商店的搜索功能是基于全文搜索引擎(Lucene)或Lucene的衍生產(chǎn)品開發(fā)而成的。其中，Lucene中的原生分詞庫(kù)存儲(chǔ)在分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)(MongoDB)中的MongoDB文件中，Lucene中有原生分詞庫(kù)，其中，Lucene中的原生分詞庫(kù)與應(yīng)用商店的應(yīng)用資源之間對(duì)應(yīng)于一個(gè)索引，且應(yīng)用商店的服務(wù)器會(huì)對(duì)Lucene中的原生分詞庫(kù)會(huì)進(jìn)行更新，當(dāng)Lucene中的原生分詞庫(kù)更新后，應(yīng)用商店的服務(wù)器需要對(duì)更新后的Lucene中的原生分詞庫(kù)對(duì)應(yīng)的索引進(jìn)行索引重構(gòu)。
[0004]由于Lucene是Apache(Web服務(wù)器軟件)上的一款開源搜索引擎，所以對(duì)中文的分詞處理不好，盡管相關(guān)技術(shù)已對(duì)分詞庫(kù)進(jìn)行了補(bǔ)充優(yōu)化的補(bǔ)救措施，如IKAnalyze(—個(gè)開源的，基于java語(yǔ)言開發(fā)的輕量級(jí)的中文分詞工具包)，但是其更新緩慢，且由于不同語(yǔ)言之間的差異導(dǎo)致了對(duì)當(dāng)前的很多網(wǎng)絡(luò)熱詞無(wú)法識(shí)別，所以對(duì)于搜索、使用性能的提升并不明顯，用戶體驗(yàn)也有待提升。

【發(fā)明內(nèi)容】

[0005]本申請(qǐng)?zhí)峁┝艘环N優(yōu)化分詞庫(kù)的方法和裝置，能夠避免無(wú)法識(shí)別網(wǎng)絡(luò)熱詞的弊端，從而提升應(yīng)用商店的搜索、使用性能，增強(qiáng)用戶體驗(yàn)。
[0006]為了達(dá)到本申請(qǐng)目的，本申請(qǐng)?zhí)峁┝艘环N優(yōu)化分詞庫(kù)的方法，包括:
[0007]獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞；
[0008]將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)；
[0009]根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0010]可選地，所述熱詞包括:網(wǎng)頁(yè)熱詞，和/或用戶搜索熱詞，和/或手動(dòng)錄入熱詞。
[0011]可選地，當(dāng)所述熱詞包括網(wǎng)頁(yè)熱詞時(shí)，所述獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0012]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源；
[0013]獲取所述預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；
[0014]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為所述熱
Τ.κ| ο
[0015]可選地，當(dāng)所述熱詞包括用戶搜索熱詞時(shí)，所述獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0016]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；
[0017]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序；
[0018]在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為所述熱詞。
[0019]可選地，該方法還包括:將獲得的所述熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)。
[0020]可選地，所述將獲得的所述熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)具體包括:在所述分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)中創(chuàng)建一個(gè)分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)類型的文件；
[0021 ]將獲得的所述分詞寫入創(chuàng)建的分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)類型的文件中。
[0022]可選地，所述根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)包括:
[0023]獲取所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引；
[0024]根據(jù)所述搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
[0025]本申請(qǐng)還提供了一種優(yōu)化分詞庫(kù)的裝置，包括:獲取模塊、處理模塊和重構(gòu)模塊；其中，
[0026]獲取模塊，用于獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞；
[0027]處理模塊，用于將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)；
[0028]重構(gòu)模塊，用于根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0029]可選地，所述熱詞包括:網(wǎng)頁(yè)熱詞，和/或用戶搜索熱詞，和/或手動(dòng)錄入熱詞。
[0030]可選地，當(dāng)所述熱詞包括網(wǎng)頁(yè)熱詞時(shí)，所述獲取模塊具體用于:
[0031]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源；
[0032]獲取所述預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；
[0033]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為所述熱
Τ.κ| ο
[0034]可選地，當(dāng)所述熱詞包括用戶搜索熱詞時(shí)，所述獲取模塊具體用于:
[0035]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；
[0036]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序；
[0037]在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為所述熱詞。
[0038]可選地，該裝置還包括更新模塊，用于將獲得的所述熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)。
[0039]可選地，所述更新模塊，具體用于在所述分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)中創(chuàng)建一個(gè)分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)類型的文件；
[0040]將獲得的所述分詞寫入創(chuàng)建的分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)類型的文件中。
[0041]可選地，所述重構(gòu)模塊，具體用于:
[0042]獲取所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引；
[0043]根據(jù)所述搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
[0044]本發(fā)明實(shí)施例包括:獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞;將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù);根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。本發(fā)明實(shí)施例避免了無(wú)法識(shí)別網(wǎng)絡(luò)熱詞的弊端，從而提升了應(yīng)用商店的搜索、使用性能，增強(qiáng)了用戶體驗(yàn)。
【附圖說(shuō)明】
[0045]此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解，構(gòu)成本申請(qǐng)的一部分，本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0046]圖1為本發(fā)明優(yōu)化分詞庫(kù)的方法的流程圖；
[0047]圖2為本發(fā)明分詞庫(kù)來(lái)源的示意圖；
[0048]圖3為本發(fā)明整合搜索引擎中的第二分詞庫(kù)的示意圖；
[0049]圖4為本發(fā)明優(yōu)化分詞庫(kù)的方法的實(shí)施例的流程圖；
[0050]圖5為本發(fā)明優(yōu)化分詞庫(kù)的裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0051]下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行更詳細(xì)的說(shuō)明。
[0052]圖1為本發(fā)明優(yōu)化分詞庫(kù)的方法的流程圖，如圖1所示，周期性的執(zhí)行以下步驟:
[0053]步驟101:獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞。
[0054]其中，熱詞包括:網(wǎng)頁(yè)熱詞，和/或用戶搜索熱詞，和/或手動(dòng)錄入熱詞。
[0055]其中，預(yù)設(shè)個(gè)數(shù)可以是一個(gè)由系統(tǒng)設(shè)定的默認(rèn)值，如500，1000;也可以由應(yīng)用商店的服務(wù)器的管理員(或運(yùn)營(yíng)人員)進(jìn)行設(shè)定。
[0056]其中，當(dāng)熱詞包括網(wǎng)頁(yè)熱詞時(shí)，獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0057]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源；
[0058]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；
[0059]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為熱詞。其中，預(yù)設(shè)網(wǎng)頁(yè)包括如新浪微博熱詞頁(yè)面、百度搜索熱詞頁(yè)面等等。
[0060]可選地，該方法還包括:將獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源存儲(chǔ)在分布式文件系統(tǒng)(HDFS)中。
[0061]其中，通過(guò)分布式系統(tǒng)基礎(chǔ)架構(gòu)(Hadoop)獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;包括:
[0062]Hadoop采用大數(shù)據(jù)統(tǒng)計(jì)功能確定HDFS中存儲(chǔ)的一個(gè)或一個(gè)以上的預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的多個(gè)網(wǎng)頁(yè)熱詞以及每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù)；
[0063]Hadoop根據(jù)確定出的每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù)確定各個(gè)網(wǎng)頁(yè)熱詞的排序。需要說(shuō)明的是，關(guān)于如何通過(guò)Hadoop確定多個(gè)網(wǎng)頁(yè)熱詞以及每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù)，屬于本領(lǐng)域技術(shù)人員所熟知的慣用技術(shù)手段，此處不再贅述，并不用來(lái)限制本發(fā)明。例如，Hadoop對(duì)HDFS上的網(wǎng)頁(yè)資源進(jìn)行增量大數(shù)據(jù)統(tǒng)計(jì)分析，根據(jù)網(wǎng)頁(yè)中已有的網(wǎng)絡(luò)熱詞排行和詞語(yǔ)出現(xiàn)的頻率，結(jié)合一定的計(jì)算權(quán)重(此處的權(quán)重可以由管理人員進(jìn)行設(shè)定，屬于本領(lǐng)域的慣用技術(shù)手段，此處不再贅述)，重新整合成一份得分從高到低的網(wǎng)絡(luò)熱詞的排行榜(排序)。
[0064]其中，當(dāng)熱詞包括用戶搜索熱詞時(shí)，獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0065]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；
[0066]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序；
[0067]在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為熱詞。
[0068]其中，當(dāng)熱詞包括網(wǎng)頁(yè)熱詞和用戶搜索熱詞時(shí)，獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0069]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源；
[0070]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；以及，
[0071]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；
[0072]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序；
[0073]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞以及在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為熱詞。
[0074]可選地，該方法還包括:將獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡存儲(chǔ)至關(guān)系型數(shù)據(jù)庫(kù)(Mysql)中。
[0075]其中，Hadoop根據(jù)存儲(chǔ)在Mysql中的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;包括:
[0076]Hadoop采用大數(shù)據(jù)統(tǒng)計(jì)功能對(duì)各個(gè)用戶在應(yīng)用商店的操作軌跡進(jìn)行檢索并統(tǒng)計(jì)用戶搜索的各個(gè)關(guān)鍵詞及其搜索次數(shù)；
[0077]Hadoop在統(tǒng)計(jì)出的各個(gè)關(guān)鍵詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)關(guān)鍵詞作為預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞。
[0078]其中，手動(dòng)錄入熱詞是應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的熱詞，且其手動(dòng)錄入熱詞的個(gè)數(shù)也由其自身決定。
[0079]需要說(shuō)明的是，手動(dòng)錄入熱詞更好的保證了應(yīng)用商店的搜索性能。
[0080]其中，當(dāng)熱詞包括網(wǎng)頁(yè)熱詞和手動(dòng)錄入熱詞時(shí)，獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0081]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源；
[0082]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；
[0083]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞以及將應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的手動(dòng)錄入熱詞作為熱詞。
[0084]其中，當(dāng)熱詞包括用戶搜索熱詞和手動(dòng)錄入熱詞時(shí)，獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0085]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；
[0086]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序；
[0087]在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞以及將應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的手動(dòng)錄入熱詞作為熱詞。
[0088]其中，當(dāng)熱詞包括網(wǎng)頁(yè)熱詞、用戶搜索熱詞和手動(dòng)錄入熱詞時(shí)，獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括:
[0089]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源；
[0090]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；以及，
[0091]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；
[0092]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序；
[0093]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞、在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞以及將應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的手動(dòng)錄入熱詞作為熱詞。
[0094]可選地，熱詞還包括除通過(guò)以上獲取方式之外的其它方式獲取的熱詞，此處不再贅述，并不用來(lái)限制本申請(qǐng)。
[0095]如圖2所示，為本發(fā)明分詞庫(kù)來(lái)源的示意圖。
[0096]步驟102:將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)。
[0097]其中，搜索引擎是全文搜索引擎(Lucene);搜索引擎中的第一分詞庫(kù)是Lucene中的原生分詞庫(kù)。
[0098]可選地，在步驟101之后，在步驟102之前，該方法還包括:將獲得的上述熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)(MongoDB)中。
[0099]需要說(shuō)明的是，因?yàn)樯鲜霾襟E是周期性的業(yè)務(wù)，所以在下一周期執(zhí)行到步驟102時(shí)，本周期生成的第二分詞庫(kù)則被當(dāng)做下一周期搜索引擎的原生分詞庫(kù)。
[0100]其中，將獲得的上述熱詞存儲(chǔ)至MongoDB中包括:在MongoDB中創(chuàng)建一個(gè)MongoDB類型的文件；
[0101 ]將獲得的上述熱詞寫入創(chuàng)建的MongoDB類型的文件中。
[0102]步驟103:根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0103]其中，步驟103具體包括:
[0104]獲取搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引；
[0105]根據(jù)搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
[0106]需要說(shuō)明的是，此處的覆蓋增量模式是指建立與第二分詞庫(kù)中新增加的分詞對(duì)應(yīng)的索引并將新建立的索引添加至第一索引中。增量覆蓋模式可保障在更新的過(guò)程中，確保應(yīng)用商店的搜索功能的可用性。
[0107]本發(fā)明實(shí)施方式中，通過(guò)將獲得的預(yù)設(shè)個(gè)數(shù)個(gè)熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)以及根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)，避免了無(wú)法識(shí)別網(wǎng)絡(luò)熱詞的弊端，從而提升了應(yīng)用商店的搜索、使用性能，增強(qiáng)了用戶體驗(yàn)。
[0108]圖3為本發(fā)明實(shí)施例整合搜索引擎中的第二分詞庫(kù)的示意圖，如圖3所示，包括:
[0109]步驟301:開始。
[0110]步驟302:存儲(chǔ)在Mysql中的各個(gè)用戶在應(yīng)用商店的操作軌跡。
[0111]本步驟具體包括:通過(guò)應(yīng)用商店的服務(wù)器獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；
[0112]將獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡存儲(chǔ)在Mysql中。
[0113]步驟303= Hadoop根據(jù)操作軌跡確定出排序前500的用戶搜索熱詞。
[0114]本步驟具體包括:Hadoop采用大數(shù)據(jù)統(tǒng)計(jì)功能對(duì)各個(gè)用戶在應(yīng)用商店的操作軌跡進(jìn)行檢索并統(tǒng)計(jì)用戶搜索的各個(gè)關(guān)鍵詞及其搜索次數(shù)；
[0115]Hadoop在統(tǒng)計(jì)出的各個(gè)關(guān)鍵詞中獲取搜索次數(shù)由大到小的500個(gè)關(guān)鍵詞作為排序前500的用戶搜索熱詞。
[0116]步驟304:應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)手動(dòng)錄入熱詞。
[0117]步驟305:采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源。
[0118]步驟306:將獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源存儲(chǔ)在HDFS中。
[0119]步驟307 = Hadoop確定出排序前500的網(wǎng)絡(luò)熱詞。
[0120]本步驟具體包括:獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;
[0121]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的500個(gè)網(wǎng)頁(yè)熱詞作為排序前500的網(wǎng)絡(luò)熱詞。
[0122]步驟308:將分詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)(MongoDB)中。
[0123]本步驟具體包括:
[0124]在MongoDB中創(chuàng)建一MongoDB類型的文件；
[0125]將手動(dòng)錄入熱詞、排序前500的網(wǎng)絡(luò)熱詞、排序前500的網(wǎng)絡(luò)熱詞存儲(chǔ)至創(chuàng)建的MongoDB類型的文件中。
[0126]步驟309:對(duì)MongoDB中的分詞和Lucene中的原生分詞庫(kù)進(jìn)行排重。
[0127]需要說(shuō)明的是，本申請(qǐng)中的排重即去重。
[0128]步驟310:根據(jù)排重后的分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0129]需要說(shuō)明的是，如何根據(jù)排重后的分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)屬于本領(lǐng)域技術(shù)人員所熟知的慣用技術(shù)手段，此處不再贅述。
[0130]步驟311:結(jié)束。
[0131]圖4為本發(fā)明優(yōu)化分詞庫(kù)的方法的實(shí)施例的流程圖，如圖4所示，周期性執(zhí)行以下步驟，包括:
[0132]步驟401:采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源。
[0133]步驟402:將獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源存儲(chǔ)在分布式文件系統(tǒng)(HDFS)中。
[0134]步驟403:根據(jù)獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源獲取預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞。
[0135]其中，預(yù)設(shè)個(gè)數(shù)可以是一個(gè)由系統(tǒng)設(shè)定的默認(rèn)值，如500，1000;也可以由應(yīng)用商店的服務(wù)器的管理員(或運(yùn)營(yíng)人員)進(jìn)行設(shè)定。
[0136]步驟403具體包括:
[0137]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；
[0138]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為熱詞。其中，預(yù)設(shè)網(wǎng)頁(yè)包括如新浪微博熱詞頁(yè)面、百度搜索熱詞頁(yè)面等等。
[0139]其中，通過(guò)分布式系統(tǒng)基礎(chǔ)架構(gòu)(Hadoop)獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序;包括:
[0140]Hadoop采用大數(shù)據(jù)統(tǒng)計(jì)功能確定HDFS中存儲(chǔ)的一個(gè)或一個(gè)以上的預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的多個(gè)網(wǎng)頁(yè)熱詞以及每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù)；
[0141]Hadoop根據(jù)確定出的每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù)確定各個(gè)網(wǎng)頁(yè)熱詞的排序。需要說(shuō)明的是，關(guān)于如何通過(guò)Hadoop確定多個(gè)網(wǎng)頁(yè)熱詞以及每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù)，屬于本領(lǐng)域技術(shù)人員所熟知的慣用技術(shù)手段，此處不再贅述，并不用來(lái)限制本發(fā)明。例如，Hadoop對(duì)HDFS上的網(wǎng)頁(yè)資源進(jìn)行增量大數(shù)據(jù)統(tǒng)計(jì)分析，根據(jù)網(wǎng)頁(yè)中已有的網(wǎng)絡(luò)熱詞排行和詞語(yǔ)出現(xiàn)的頻率，結(jié)合一定的計(jì)算權(quán)重(此處的權(quán)重可以由管理人員進(jìn)行設(shè)定，屬于本領(lǐng)域的慣用技術(shù)手段，此處不再贅述)，重新整合成一份得分從高到低的網(wǎng)絡(luò)熱詞的排行榜(排序)。
[0142]步驟404:獲取各個(gè)用戶在應(yīng)用商店的操作軌跡。
[0143]步驟405:將獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡存儲(chǔ)至關(guān)系型數(shù)據(jù)庫(kù)(Mysql)中。
[0144]步驟406:根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡獲取預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞。
[0145]步驟406具體包括:根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序；
[0146]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞以及在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為熱詞。
[0147]其中，Hadoop根據(jù)存儲(chǔ)在Mysql中的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序;包括:
[0148]Hadoop采用大數(shù)據(jù)統(tǒng)計(jì)功能對(duì)各個(gè)用戶在應(yīng)用商店的操作軌跡進(jìn)行檢索并統(tǒng)計(jì)用戶搜索的各個(gè)關(guān)鍵詞及其搜索次數(shù)；
[0149]Hadoop在統(tǒng)計(jì)出的各個(gè)關(guān)鍵詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)關(guān)鍵詞作為預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞。
[0150]步驟407:獲取手動(dòng)錄入熱詞。
[0151]其中，手動(dòng)錄入熱詞是應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的熱詞，且其手動(dòng)錄入熱詞的個(gè)數(shù)也由其自身決定。
[0152]需要說(shuō)明的是，手動(dòng)錄入熱詞更好的保證了應(yīng)用商店的搜索性能。
[0153]步驟408:將獲得的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞、預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞和手動(dòng)錄入熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)(MongoDB)中。
[0154]本步驟具體包括:
[0155]在MongoDB中創(chuàng)建一MongoDB類型的文件；
[0156]將獲得的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞、預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞和手動(dòng)錄入熱詞存儲(chǔ)至創(chuàng)建的MongoDB類型的文件中。
[0157]步驟409:將預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞、預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞和手動(dòng)錄入熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)。
[0158]其中，搜索引擎是全文搜索引擎(Lucene);搜索引擎中的第一分詞庫(kù)是Lucene中的原生分詞庫(kù)。
[0159]需要說(shuō)明的是，因?yàn)樯鲜霾襟E是周期性的業(yè)務(wù)，所以在下一周期執(zhí)行到步驟409時(shí)，本周期生成的第二分詞庫(kù)則被當(dāng)做下一周期搜索引擎的原生分詞庫(kù)。
[0160]步驟410:根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0161]其中，步驟410具體包括:
[0162]獲取搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引；
[0163]根據(jù)搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
[0164]需要說(shuō)明的是，此處的覆蓋增量模式是指建立與第二分詞庫(kù)中新增加的分詞對(duì)應(yīng)的索引并將新建立的索引添加至第一索引中。增量覆蓋模式可保障在更新的過(guò)程中，確保應(yīng)用商店的搜索功能的可用性。
[0165]圖5為本發(fā)明優(yōu)化分詞庫(kù)的裝置的結(jié)構(gòu)示意圖，如圖5所示，包括:獲取模塊50、處理模塊51和重構(gòu)模塊52。其中，
[0166]獲取模塊50，用于獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞。
[0167]其中，熱詞包括:網(wǎng)頁(yè)熱詞，和/或用戶搜索熱詞，和/或手動(dòng)錄入熱詞。
[0168]其中，當(dāng)熱詞包括網(wǎng)頁(yè)熱詞時(shí)，獲取模塊50具體用于:
[0169]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源；
[0170]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；
[0171]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為熱詞。
[0172]可選地，獲取模塊50，還用于將獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源存儲(chǔ)在分布式文件系統(tǒng)(HDFS)中。
[0173]其中，獲取模塊50通過(guò)分布式系統(tǒng)基礎(chǔ)架構(gòu)(Hadoop)對(duì)獲得的預(yù)設(shè)網(wǎng)頁(yè)的資源進(jìn)行大數(shù)據(jù)分析以獲取各個(gè)網(wǎng)頁(yè)熱詞的排序;包括:
[0174]Hadoop確定HDFS中存儲(chǔ)的一個(gè)或一個(gè)以上的預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的多個(gè)網(wǎng)頁(yè)熱詞以及每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù)；
[0175]Hadoop根據(jù)確定出的每個(gè)網(wǎng)絡(luò)熱詞的使用次數(shù)確定各個(gè)網(wǎng)頁(yè)熱詞的排序。
[0176]其中，當(dāng)熱詞包括用戶搜索熱詞時(shí)，獲取模塊50具體用于:
[0177]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；
[0178]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序；
[0179]在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為熱詞。
[0180]可選地，獲取模塊50，還用于將獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡存儲(chǔ)至關(guān)系型數(shù)據(jù)庫(kù)(Mysql)中。
[0181]其中，當(dāng)熱詞包括網(wǎng)頁(yè)熱詞和用戶搜索熱詞時(shí)，獲取模塊50具體用于:
[0182]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源；
[0183]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；以及，
[0184]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；
[0185]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序；
[0186]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞以及在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為熱詞。
[0187]其中，當(dāng)熱詞包括網(wǎng)頁(yè)熱詞、用戶搜索熱詞和手動(dòng)錄入熱詞時(shí)，獲取模塊50具體用于:
[0188]采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源；
[0189]獲取預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；以及，
[0190]獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；
[0191]根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序；
[0192]在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞、在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞以及將應(yīng)用商店的服務(wù)器的管理員根據(jù)自身的經(jīng)驗(yàn)輸入的手動(dòng)錄入熱詞作為熱詞。
[0193]處理模塊51，用于將獲得的上述熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)。
[0194]其中，搜索引擎中的第一分詞庫(kù)是搜索引擎中的原生分詞庫(kù)。
[0195]重構(gòu)模塊52，用于根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。
[0196]其中，重構(gòu)模塊52，具體用于:
[0197]獲取搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引；
[0198]根據(jù)搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
[0199]可選地，該裝置還包括更新模塊53，用于將獲得的上述熱詞存儲(chǔ)至分布式文檔存儲(chǔ)數(shù)據(jù)庫(kù)(MongoDB)中。
[0200]其中，更新模塊53，具體用于
[0201 ] 用于在MongoDB中創(chuàng)建一個(gè)MongoDB文件；
[0202]將搜索引擎中的第二分詞庫(kù)寫入創(chuàng)建的MongoDB文件中。
[0203]可選地，上述裝置可以設(shè)置在應(yīng)用商店的服務(wù)器中。
[0204]需要說(shuō)明的是，在本文中，術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過(guò)程、方法、物品或者裝置不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過(guò)程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下，由語(yǔ)句“包括一個(gè)……”限定的要素，并不排除在包括該要素的過(guò)程、方法、物品或者裝置中還存在另外的相同要素。
[0205]上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述，不代表實(shí)施例的優(yōu)劣。
[0206]本領(lǐng)域普通技術(shù)人員可以理解上述方法中的全部或部分步驟可通過(guò)程序來(lái)指令相關(guān)硬件(例如處理器)完成，所述程序可以存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中，如只讀存儲(chǔ)器、磁盤或光盤等?？蛇x地，上述實(shí)施例的全部或部分步驟也可以使用一個(gè)或多個(gè)集成電路來(lái)實(shí)現(xiàn)。相應(yīng)地，上述實(shí)施例中的各模塊/單元可以采用硬件的形式實(shí)現(xiàn)，例如通過(guò)集成電路來(lái)實(shí)現(xiàn)其相應(yīng)功能，也可以采用軟件功能模塊的形式實(shí)現(xiàn)，例如通過(guò)處理器執(zhí)行存儲(chǔ)于存儲(chǔ)器中的程序/指令來(lái)實(shí)現(xiàn)其相應(yīng)功能。本發(fā)明不限制于任何特定形式的硬件和軟件的結(jié)入口 ο
[0207]以上僅為本申請(qǐng)的優(yōu)選實(shí)施例，并非因此限制本申請(qǐng)的專利范圍，凡是利用本申請(qǐng)說(shuō)明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域，均同理包括在本申請(qǐng)的專利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種優(yōu)化分詞庫(kù)的方法，其特征在于，包括: 獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞；將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)；根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述熱詞包括:網(wǎng)頁(yè)熱詞，和/或用戶搜索熱詞，和/或手動(dòng)錄入熱詞。3.根據(jù)權(quán)利要求2所述的方法，其特征在于，當(dāng)所述熱詞包括網(wǎng)頁(yè)熱詞時(shí)，所述獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括: 采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源；獲取所述預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為所述熱詞。4.根據(jù)權(quán)利要求2所述的方法，其特征在于，當(dāng)所述熱詞包括用戶搜索熱詞時(shí)，所述獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞包括: 獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序; 在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為所述熱詞。5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)包括: 獲取所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引；根據(jù)所述搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。6.一種優(yōu)化分詞庫(kù)的裝置，其特征在于，包括:獲取模塊、處理模塊和重構(gòu)模塊;其中，獲取模塊，用于獲取預(yù)設(shè)個(gè)數(shù)個(gè)熱詞；處理模塊，用于將獲得的熱詞與搜索引擎中的第一分詞庫(kù)進(jìn)行排重處理以生成該搜索引擎中的第二分詞庫(kù)；重構(gòu)模塊，用于根據(jù)生成的該搜索引擎中的第二分詞庫(kù)對(duì)應(yīng)用資源進(jìn)行索引重構(gòu)。7.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述熱詞包括:網(wǎng)頁(yè)熱詞，和/或用戶搜索熱詞，和/或手動(dòng)錄入熱詞。8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，當(dāng)所述熱詞包括網(wǎng)頁(yè)熱詞時(shí)，所述獲取模塊具體用于: 采用網(wǎng)絡(luò)爬蟲程序獲取預(yù)設(shè)網(wǎng)頁(yè)的資源；獲取所述預(yù)設(shè)網(wǎng)頁(yè)的資源中所包含的各個(gè)網(wǎng)頁(yè)熱詞及其自身的排序；在獲得的各個(gè)網(wǎng)頁(yè)熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)網(wǎng)頁(yè)熱詞作為所述熱詞。9.根據(jù)權(quán)利要求7所述的裝置，其特征在于，當(dāng)所述熱詞包括用戶搜索熱詞時(shí)，所述獲取模塊具體用于: 獲取各個(gè)用戶在應(yīng)用商店的操作軌跡；根據(jù)獲得的各個(gè)用戶在應(yīng)用商店的操作軌跡確定各個(gè)用戶搜索熱詞以及其自身的排序; 在確定出的各個(gè)用戶搜索熱詞中獲取由大到小的所述預(yù)設(shè)個(gè)數(shù)個(gè)用戶搜索熱詞作為所述熱詞。10.根據(jù)權(quán)利要求6所述的裝置，其特征在于，所述重構(gòu)模塊，具體用于: 獲取所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引；根據(jù)所述搜索引擎中的第二分詞庫(kù)采用覆蓋增量模式對(duì)獲得的所述搜索引擎中的第一分詞庫(kù)對(duì)應(yīng)的第一索引進(jìn)行更新。
【文檔編號(hào)】G06F17/30GK105824976SQ201610251202
【公開日】2016年8月3日
【申請(qǐng)日】2016年4月20日
【發(fā)明人】鄒煒
【申請(qǐng)人】努比亞技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄒煒;
技術(shù)所有人：努比亞技術(shù)有限公司;
我是此專利的發(fā)明人

上一篇：基于gps和標(biāo)簽信息的水利工程照片管理系統(tǒng)及方法
上一篇：搜索推薦方法和裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

電能質(zhì)量綜合優(yōu)化裝置相關(guān)技術(shù)

電能優(yōu)化裝置相關(guān)技術(shù)

原電池裝置的優(yōu)化探究相關(guān)技術(shù)

新型用電質(zhì)量?jī)?yōu)化裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種優(yōu)化分詞庫(kù)的方法和裝置的制造方法