亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

停用詞的挖掘方法和裝置、搜索方法和裝置、評(píng)測(cè)方法和裝置制造方法

文檔序號(hào):6493653閱讀:211來源:國知局
停用詞的挖掘方法和裝置、搜索方法和裝置、評(píng)測(cè)方法和裝置制造方法
【專利摘要】一種停用詞的挖掘方法,包括以下步驟:獲取查詢?nèi)罩荆猾@取查詢?nèi)罩局杏涗浀牟樵兇胁樵冊(cè)~的逆向文檔頻率、查詢?cè)~的相對(duì)詞權(quán)重、因修改查詢串行為產(chǎn)生的查詢?cè)~集合、因觸發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集中至少一種屬性信息,并根據(jù)所述屬性信息生成停用詞集。此外,還提供了停用詞的挖掘裝置、搜索方法和搜索裝置、停用詞的挖掘算法的評(píng)測(cè)方法和裝置。上述停用詞的挖掘方法和裝置,提高了停用詞的準(zhǔn)確率;上述搜索方法和裝置通過去掉停用詞把原始的查詢串簡化,可搜索到更多相關(guān)的網(wǎng)頁,提高了搜索的準(zhǔn)確率;上述停用詞的挖掘算法的評(píng)測(cè)方法和裝置采用交叉驗(yàn)證的方式進(jìn)行評(píng)測(cè),比較得出最優(yōu)的算法。
【專利說明】停用詞的挖掘方法和裝置、搜索方法和裝置、評(píng)測(cè)方法和裝
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),特別是涉及一種停用詞的挖掘方法和裝置、搜索方法和裝置、停用詞挖掘算法的評(píng)測(cè)方法和裝置。
【背景技術(shù)】
[0002]停用詞是搜索引擎在索引網(wǎng)頁或處理查詢請(qǐng)求時(shí)自動(dòng)忽略掉的查詢?cè)~,停用詞通常出現(xiàn)的過于頻繁且沒有實(shí)際意義,如“the”、“a”、“的”、“了”,去除這類詞有利于減少網(wǎng)頁搜索的規(guī)模,提高搜索結(jié)果的準(zhǔn)確性。
[0003]傳統(tǒng)的停用詞的挖掘方式主要有兩種,一種是人工按某個(gè)標(biāo)準(zhǔn)挑選;一種是從網(wǎng)頁文檔和搜索引擎的日志中自動(dòng)挖掘。人工挑選方式需要耗費(fèi)大量的人力,且效率低。從網(wǎng)頁文檔和搜索引擎的日志中自動(dòng)挖掘停用詞的方式分為兩種,一種是利用隨機(jī)采樣生成樣本集,對(duì)樣本集中的單詞依次計(jì)算權(quán)重,然后選取詞權(quán)重最小的若干單詞,生成停用詞集,該方法得到的停用詞集準(zhǔn)確率低;一種是將查詢串中處于左邊位置的詞看作停用詞,此種挖掘方式對(duì)于較短查詢串中的停用詞挖掘的準(zhǔn)確率低。

【發(fā)明內(nèi)容】

[0004]基于此,有必要針對(duì)傳統(tǒng)的停用詞挖掘的準(zhǔn)確率低的問題,提供一種能提高準(zhǔn)確率的停用詞的挖掘方法。
[0005]此外,還有必要針對(duì)傳統(tǒng)的停用詞挖掘的準(zhǔn)確率低的問題,提供一種能提高準(zhǔn)確率的停用詞的挖掘裝置。
[0006]此外,還有必要提供一種能提高準(zhǔn)確率的搜索方法。
[0007]此外,還有必要提供一種能提高準(zhǔn)確率的搜索裝置。
[0008]此外,還有必要提供一種能提高準(zhǔn)確率的停用詞的挖掘算法的評(píng)測(cè)方法。
[0009]此外,還有必要提供一種能提高準(zhǔn)確率的停用詞的挖掘算法的評(píng)測(cè)裝置。
[0010]一種停用詞的挖掘方法,包括以下步驟:
[0011]獲取查詢?nèi)罩荆?br> [0012]獲取查詢?nèi)罩局杏涗浀牟樵兇胁樵冊(cè)~的逆向文檔頻率、查詢?cè)~的相對(duì)詞權(quán)重、因修改查詢串行為產(chǎn)生的查詢?cè)~集合、因觸發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集中至少一種屬性信息,并根據(jù)所述屬性信息生成停用詞集。
[0013]一種停用詞的挖掘裝置,包括:
[0014]獲取模塊,用于獲取查詢?nèi)罩荆?br> [0015]生成模塊,用于獲取查詢?nèi)罩局杏涗浀牟樵兇胁樵冊(cè)~的逆向文檔頻率、查詢?cè)~的相對(duì)詞權(quán)重、因修改查詢串行為產(chǎn)生的查詢?cè)~集合、因觸發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集中至少一種屬性信息,并根據(jù)所述屬性信息生成停用詞集。
[0016]一種搜索方法,包括以下步驟:[0017]獲取查詢串;
[0018]對(duì)所述查詢串采用上述的停用詞的挖掘方法生成的停用詞集進(jìn)行處理;
[0019]根據(jù)所述處理后的查詢串進(jìn)行搜索。
[0020]一種搜索裝置,包括:
[0021]查詢串獲取模塊,用于獲取查詢串;
[0022]處理模塊,用于對(duì)所述查詢串采用上述的停用詞的挖掘裝置生成的停用詞集進(jìn)行處理;
[0023]搜索模塊,用于根據(jù)所述處理后的查詢串進(jìn)行搜索。
[0024]一種停用詞的挖掘算法的評(píng)測(cè)方法,包括以下步驟:
[0025]獲取多種挖掘算法各自的停用詞集;
[0026]統(tǒng)計(jì)各停用詞集中的停用詞在其余所有停用詞集中也出現(xiàn)的停用詞的個(gè)數(shù),在其余數(shù)量減I個(gè)停用詞集中也出現(xiàn)的停用詞的個(gè)數(shù),依次遞歸統(tǒng)計(jì)得到僅在停用詞集自身出現(xiàn)的停用詞的個(gè)數(shù);
[0027]將統(tǒng)計(jì)得到的在其余停用詞集中出現(xiàn)的停用詞的個(gè)數(shù)與預(yù)先設(shè)置的相應(yīng)的權(quán)值進(jìn)行加權(quán)求和,得到各挖掘算法的加權(quán)估算值。
[0028]一種停用詞的挖掘算法的評(píng)測(cè)裝置,包括:
[0029]提取模塊,用于獲取多種挖掘算法各自的停用詞集;
[0030]統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)各停用詞集中的停用詞在其余所有停用詞集中也出現(xiàn)的停用詞的個(gè)數(shù),在其余數(shù)量減I個(gè)停用詞集中也出現(xiàn)的停用詞的個(gè)數(shù),依次遞歸統(tǒng)計(jì)得到僅在停用詞集自身出現(xiàn)的停用詞的個(gè)數(shù);
[0031]加權(quán)模塊,用于將統(tǒng)計(jì)得到的在其余停用詞集中出現(xiàn)的停用詞的個(gè)數(shù)與預(yù)先設(shè)置的相應(yīng)的權(quán)值進(jìn)行加權(quán)求和,得到各挖掘算法的加權(quán)估算值。
[0032]上述停用詞的挖掘方法和裝置,根據(jù)查詢?cè)~的逆向文檔頻率、查詢?cè)~的相對(duì)詞權(quán)重、修改查詢串行為產(chǎn)生的查詢?cè)~集合或查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系生成的停用詞集,由于綜合了用戶的查詢行為和觸發(fā)行為,查詢?cè)~的特征等多種真實(shí)數(shù)據(jù)而生成的停用詞集,提高了停用詞的準(zhǔn)確率。
[0033]上述搜索方法和裝置,對(duì)查詢串去掉了停用詞,節(jié)省了生成停用詞索引所占用的大量的存儲(chǔ)空間,且通過去掉停用詞把原始的查詢串簡化,可搜索到更多相關(guān)的網(wǎng)頁,提高了搜索的準(zhǔn)確率。此外,對(duì)搜索結(jié)果進(jìn)行排序時(shí),對(duì)查詢串中的停用詞降低權(quán)重可將具有實(shí)際語義的網(wǎng)頁排在前面,節(jié)省用戶瀏覽時(shí)間。
[0034]上述停用詞的挖掘算法的評(píng)測(cè)方法和裝置采用交叉驗(yàn)證的方式進(jìn)行評(píng)測(cè),比較得出最優(yōu)的算法,該評(píng)測(cè)方法和裝置還可應(yīng)用于類似的同一任務(wù)的多種算法的場(chǎng)景。
【專利附圖】

【附圖說明】
[0035]圖1為一個(gè)實(shí)施例中停用詞的挖掘方法的流程示意圖;
[0036]圖2為一個(gè)實(shí)施例中獲取查詢?nèi)罩局杏涗浀牟樵兇胁樵冊(cè)~的逆向文檔頻率的屬性信息,并根據(jù)所述屬性信息生成停用詞集的流程示意圖;
[0037]圖3為一個(gè)實(shí)施例中獲取查詢?nèi)罩局杏涗浀牟樵冊(cè)~的相對(duì)詞權(quán)重的屬性信息,并根據(jù)所述屬性信息生成停用詞集的流程示意圖;[0038]圖4為一個(gè)實(shí)施例中獲取訓(xùn)練數(shù)據(jù)的流程示意圖;
[0039]圖5為一個(gè)實(shí)施例中獲取查詢?nèi)罩局杏涗浀囊蛐薷牟樵兇袨楫a(chǎn)生的查詢?cè)~集合的屬性信息,并根據(jù)該屬性信息生成停用詞集的流程示意圖;
[0040]圖6為一個(gè)實(shí)施例中查詢?nèi)罩局杏涗浀膕ession的示意圖;
[0041]圖7為一個(gè)實(shí)施例中冗余搭配詞集中記錄的部分?jǐn)?shù)據(jù)示意圖;
[0042]圖8為一個(gè)實(shí)施例中獲取查詢?nèi)罩局杏涗浀囊蛴|發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集的屬性信息,并根據(jù)所述屬性信息生成停用詞集的流程示意圖;
[0043]圖9為查詢串及對(duì)應(yīng)被觸發(fā)的網(wǎng)頁的關(guān)系不意圖;
[0044]圖10為四種挖掘方法得到的部分停用詞集示意圖;
[0045]圖11為一個(gè)實(shí)施例中搜索方法的流程示意圖;
[0046]圖12為一個(gè)實(shí)施例中停用詞的挖掘裝置的結(jié)構(gòu)示意圖;
[0047]圖13為一個(gè)實(shí)施例中生成模塊的內(nèi)部結(jié)構(gòu)示意圖;
[0048]圖14為另一個(gè)實(shí)施例中生成模塊的內(nèi)部結(jié)構(gòu)示意圖;
[0049]圖15為圖14中訓(xùn)練數(shù)據(jù)獲取單元的內(nèi)部結(jié)構(gòu)示意圖;
[0050]圖16為另一個(gè)實(shí)施例中生成模塊的內(nèi)部結(jié)構(gòu)示意圖;
[0051]圖17為另一個(gè)實(shí)施例中生成模塊的內(nèi)部結(jié)構(gòu)示意圖;
[0052]圖18為一個(gè)實(shí)施例中搜索裝置的結(jié)構(gòu)示意圖;
[0053]圖19為一個(gè)實(shí)施例中停用詞的挖掘算法的評(píng)測(cè)方法的流程示意圖;
[0054]圖20為一個(gè)實(shí)施例中停用詞的挖掘算法的評(píng)測(cè)裝置的內(nèi)部結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0055]下面結(jié)合具體的實(shí)施例及附圖對(duì)停用詞的挖掘方法和裝置,以及停用詞的挖掘算法的評(píng)測(cè)方法和裝置的技術(shù)方案進(jìn)行詳細(xì)的描述,以使其更加清楚。
[0056]如圖1所示,在一個(gè)實(shí)施例中,一種停用詞的挖掘方法,包括以下步驟:
[0057]步驟S102,獲取查詢?nèi)罩尽?br> [0058]具體的,查詢?nèi)罩居糜谟涗浻脩糨斎氩樵兇M(jìn)行查詢行為以及觸發(fā)查詢結(jié)果行為產(chǎn)生的信息。查詢?nèi)罩局邪ú樵兇?、查詢得到的網(wǎng)頁地址、修改查詢串的行為、觸發(fā)網(wǎng)頁地址行為以及查詢串與網(wǎng)頁地址之間的對(duì)應(yīng)關(guān)系等。
[0059]步驟SIO4,獲取查詢?nèi)罩局杏涗浀牟樵兇胁樵冊(cè)~的逆向文檔頻率、查詢?cè)~的相對(duì)詞權(quán)重、因修改查詢串行為產(chǎn)生的查詢?cè)~集合、因觸發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集中至少一種屬性信息,并根據(jù)所述屬性信息生成停用詞集。
[0060]上述停用詞的挖掘方法,根據(jù)查詢?cè)~的逆向文檔頻率、查詢?cè)~的相對(duì)詞權(quán)重、修改查詢串行為產(chǎn)生的查詢?cè)~集合或查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系生成的停用詞集,由于綜合了用戶的查詢行為和觸發(fā)行為,查詢?cè)~的特征等多種真實(shí)數(shù)據(jù)而生成的停用詞集,提高了停用詞的準(zhǔn)確率。
[0061]如圖2所示,在一個(gè)實(shí)施例中,獲取查詢?nèi)罩局杏涗浀牟樵兇胁樵冊(cè)~的逆向文檔頻率的屬性信息,并根據(jù)所述屬性信息生成停用詞集的步驟包括:
[0062]步驟S202,獲取文檔集中所有查詢?cè)~的逆向文檔頻率。
[0063]具體的,IDF (Inverse Document Frequency,逆向文檔頻率)是指文檔集合所有文檔的總數(shù)目除以包含某特定單詞的文檔的數(shù)目,再對(duì)得到的商取對(duì)數(shù)得到的。IDF通常被用來描述一個(gè)單詞的重要程度,大的IDF值意味著這個(gè)單詞只出現(xiàn)在少數(shù)文檔中,且該單詞的出現(xiàn)往往能提供重要的信息量;小的IDF值意味著這個(gè)單詞出現(xiàn)在大量文檔中,該單詞往往也沒有明顯的語義,不能提供重要的信息量。IDF的具體計(jì)算公式有很多種,本實(shí)施例中采用如下公式:
[0064]
【權(quán)利要求】
1.一種停用詞的挖掘方法,包括以下步驟: 獲取查詢?nèi)罩荆? 獲取查詢?nèi)罩局杏涗浀牟樵兇胁樵冊(cè)~的逆向文檔頻率、查詢?cè)~的相對(duì)詞權(quán)重、因修改查詢串行為產(chǎn)生的查詢?cè)~集合、因觸發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集中至少一種屬性信息,并根據(jù)所述屬性信息生成停用詞集。
2.根據(jù)權(quán)利要求1所述的停用詞的挖掘方法,其特征在于,所述屬性信息包括查詢?nèi)罩局杏涗浀牟樵兇胁樵冊(cè)~的逆向文檔頻率; 根據(jù)所述屬性信息生成停用詞集的步驟包括: 獲取文檔集中所有查詢?cè)~的逆向文檔頻率; 將所述逆向文檔頻率進(jìn)行排序; 從排序結(jié)果中選取預(yù)定個(gè)數(shù)逆向文檔頻率最小的查詢?cè)~,生成停用詞集。
3.根據(jù)權(quán)利要求1所述的停用詞的挖掘方法,其特征在于,所述屬性信息包括查詢?nèi)罩局杏涗浀牟樵冊(cè)~的相對(duì)詞權(quán)重; 根據(jù)所述屬性信息生成停用詞集的步驟包括: 獲取訓(xùn)練數(shù)據(jù),并抽取 訓(xùn)練數(shù)據(jù)中查詢?cè)~的特征; 根據(jù)所述查詢?cè)~的特征進(jìn)行訓(xùn)練,構(gòu)建查詢?cè)~的相對(duì)詞權(quán)重估算模型; 根據(jù)所述相對(duì)詞權(quán)重估算模型對(duì)獲取的第一預(yù)定時(shí)間內(nèi)的查詢串中的查詢?cè)~進(jìn)行分析,得到低權(quán)重詞集; 統(tǒng)計(jì)所述低權(quán)重詞集中各查詢?cè)~的詞頻; 按所述詞頻對(duì)查詢?cè)~進(jìn)行排序; 選取預(yù)定個(gè)數(shù)詞頻最高的查詢?cè)~,生成停用詞集。
4.根據(jù)權(quán)利要求3所述的停用詞的挖掘方法,其特征在于,所述獲取訓(xùn)練數(shù)據(jù)的步驟包括: 根據(jù)所述查詢?nèi)罩局杏涗浀牟樵兇c網(wǎng)頁地址的對(duì)應(yīng)關(guān)系,分別獲取網(wǎng)頁內(nèi)容及查詢串中的查詢?cè)~; 判斷所述查詢串中查詢?cè)~是否出現(xiàn)在所述網(wǎng)頁內(nèi)容中,若是,則所述查詢?cè)~為高權(quán)重詞,若否,則所述查詢?cè)~為低權(quán)重詞,將所述高權(quán)重詞和低權(quán)重詞作為訓(xùn)練數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的停用詞的挖掘方法,其特征在于,所述屬性信息包括查詢?nèi)罩局杏涗浀囊蛐薷牟樵兇袨楫a(chǎn)生的查詢?cè)~集合; 根據(jù)所述屬性信息生成停用詞集的步驟包括: 采集第二預(yù)定時(shí)間內(nèi)的查詢?nèi)罩局杏涗浀牟樵冃袨?,根?jù)所述查詢行為中查詢串的變化生成查詢?cè)~集; 對(duì)查詢?cè)~集合求并集,選取并集中出現(xiàn)頻率最高的預(yù)定個(gè)數(shù)的查詢?cè)~,生成停用詞集。
6.根據(jù)權(quán)利要求5所述的停用詞的挖掘方法,其特征在于,還包括步驟: 根據(jù)所述查詢行為中查詢串的變化生成查詢?cè)~關(guān)聯(lián)集合; 對(duì)查詢?cè)~關(guān)聯(lián)集合求并集,選取并集中出現(xiàn)頻率最高的預(yù)定個(gè)數(shù)的查詢?cè)~對(duì),生成冗余搭配詞表。
7.根據(jù)權(quán)利要求1所述的停用詞的挖掘方法,其特征在于,所述屬性信息包括查詢?nèi)罩局杏涗浀囊蛴|發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集;根據(jù)所述屬性信息生成停用詞集的步驟包括: 獲取查詢?nèi)罩局杏涗浀挠|發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集; 從所述對(duì)應(yīng)關(guān)系集中查找得到同一網(wǎng)頁地址對(duì)應(yīng)的所有查詢串; 獲取所有同一網(wǎng)頁地址對(duì)應(yīng)的所有查詢串的每個(gè)查詢?cè)~的冗余度; 按冗余度大小對(duì)查詢?cè)~進(jìn)行排序; 選取冗余度最大的預(yù)定個(gè)數(shù)的查詢?cè)~,生成停用詞集。
8.一種停用詞的挖掘裝置,其特征在于,包括: 獲取模塊,用于獲取查詢?nèi)罩荆? 生成模塊,用于獲取查詢?nèi)罩局杏涗浀牟樵兇胁樵冊(cè)~的逆向文檔頻率、查詢?cè)~的相對(duì)詞權(quán)重、因修改查詢串行為產(chǎn)生的查詢?cè)~集合、因觸發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集中至少一種屬性信息,并根據(jù)所述屬性信息生成停用詞集。
9.根據(jù)權(quán)利要求8所述的停用詞的挖掘裝置,其特征在于,所述生成模塊包括: 逆向文檔頻率獲 取單元,用于獲取文檔集中所有查詢?cè)~的逆向文檔頻率; 第一排序單元,用于將所述逆向文檔頻率進(jìn)行排序; 第一生成單元,用于從排序結(jié)果中選取預(yù)定個(gè)數(shù)逆向文檔頻率最小的查詢?cè)~,生成停用詞集。
10.根據(jù)權(quán)利要求8所述的停用詞的挖掘裝置,其特征在于,所述生成模塊包括: 訓(xùn)練數(shù)據(jù)獲取單元,用于獲取訓(xùn)練數(shù)據(jù),并抽取訓(xùn)練數(shù)據(jù)中查詢?cè)~的特征; 估算模型構(gòu)建單元,用于根據(jù)所述查詢?cè)~的特征進(jìn)行訓(xùn)練,構(gòu)建查詢?cè)~的相對(duì)詞權(quán)重估算模型; 詞權(quán)重分析單元,用于根據(jù)所述相對(duì)詞權(quán)重估算模型對(duì)獲取的第一預(yù)定時(shí)間內(nèi)的查詢串中的查詢?cè)~進(jìn)行分析,得到低權(quán)重詞集; 統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述低權(quán)重詞集中各查詢?cè)~的詞頻; 第二排序單元,用于按所述詞頻對(duì)查詢?cè)~進(jìn)行排序; 第二生成單元,用于選取預(yù)定個(gè)數(shù)詞頻最高的查詢?cè)~,生成停用詞集。
11.根據(jù)權(quán)利要求10所述的停用詞的挖掘裝置,其特征在于,所述訓(xùn)練數(shù)據(jù)獲取單元包括: 源數(shù)據(jù)獲取子單元,用于根據(jù)所述查詢?nèi)罩局杏涗浀牟樵兇c網(wǎng)頁地址的對(duì)應(yīng)關(guān)系,分別獲取網(wǎng)頁內(nèi)容及查詢串中的查詢?cè)~; 判斷子單元,用于判斷所述查詢串中查詢?cè)~是否出現(xiàn)在所述網(wǎng)頁內(nèi)容中,若是,則所述查詢?cè)~為高權(quán)重詞,若否,則所述查詢?cè)~為低權(quán)重詞; 訓(xùn)練數(shù)據(jù)獲取子單元,用于將所述高權(quán)重詞和低權(quán)重詞作為訓(xùn)練數(shù)據(jù)。
12.根據(jù)權(quán)利要求8所述的停用詞的挖掘裝置,其特征在于,所述生成模塊包括: 采集單元,用于采集第二預(yù)定時(shí)間內(nèi)的查詢?nèi)罩局杏涗浀牟樵冃袨?,根?jù)所述查詢行為中查詢串的變化生成查詢?cè)~集合; 第三生成單元,用于對(duì)查詢?cè)~集合求并集,選取并集中出現(xiàn)頻率最高的預(yù)定個(gè)數(shù)的查詢?cè)~,生成停用詞集。
13.根據(jù)權(quán)利要求12所述的停用詞的挖掘裝置,其特征在于,所述采集單元還用于根據(jù)所述查詢行為中查詢串的變化生成查詢?cè)~關(guān)聯(lián)集合;所述第三生成單元還用于對(duì)查詢?cè)~關(guān)聯(lián)集合求并集,選取并集中出現(xiàn)頻率最高的預(yù)定個(gè)數(shù)的查詢?cè)~對(duì),生成冗余搭配詞表。
14.根據(jù)權(quán)利要求8所述的停用詞的挖掘裝置,其特征在于,所述生成模塊包括: 關(guān)系集獲取單元,用于獲取查詢?nèi)罩局杏涗浀挠|發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集; 查找單元,用于從所述對(duì)應(yīng)關(guān)系集中查找得到同一網(wǎng)頁地址對(duì)應(yīng)的所有查詢串; 冗余度獲取單元,用于獲取所有同一網(wǎng)頁地址對(duì)應(yīng)的所有查詢串的每個(gè)查詢?cè)~的冗余度; 第三排序單元,用于按冗余度大小對(duì)查詢?cè)~進(jìn)行排序; 第四生成單元,用于選取冗余度最大的預(yù)定個(gè)數(shù)的查詢?cè)~,生成停用詞集。
15.一種搜索方法,包括以下步驟: 獲取查詢串; 對(duì)所述查詢串采用如權(quán)利要求1至7中任一項(xiàng)所述的停用詞的挖掘方法生成的停用詞集進(jìn)行處理; 根據(jù)所述處理后的查詢串進(jìn)行搜索。
16.一種搜索裝置,其特征在于,包括: 查詢串獲取模塊,用于獲取查詢串; 處理模塊,用于對(duì)所述查詢串采用如權(quán)利要求8至14中任一項(xiàng)所述的停用詞的挖掘裝置生成的停用詞集進(jìn)行處理; 搜索模塊,用于根據(jù)所述處理后的查詢串進(jìn)行搜索。
17.一種停用詞的挖掘算法的評(píng)測(cè)方法,包括以下步驟: 獲取多種挖掘算法各自的停用詞集; 統(tǒng)計(jì)各停用詞集中的停用詞在其余所有停用詞集中也出現(xiàn)的停用詞的個(gè)數(shù),在其余數(shù)量減I個(gè)停用詞集中也出現(xiàn)的停用詞的個(gè)數(shù),依次遞歸統(tǒng)計(jì)得到僅在停用詞集自身出現(xiàn)的停用詞的個(gè)數(shù); 將統(tǒng)計(jì)得到的在其余停用詞集中出現(xiàn)的停用詞的個(gè)數(shù)與預(yù)先設(shè)置的相應(yīng)的權(quán)值進(jìn)行加權(quán)求和,得到各挖掘算法的加權(quán)估算值。
18.根據(jù)權(quán)利要求17所述的停用詞的挖掘算法的評(píng)測(cè)方法,其特征在于,所述獲取多種挖掘算法各自的停用詞集的步驟包括: 獲取根據(jù)查詢?nèi)罩局杏涗浀牟樵兇胁樵冊(cè)~的逆向文檔頻率生成的停用詞集; 獲取根據(jù)查詢?nèi)罩局杏涗浀牟樵冊(cè)~的相對(duì)詞權(quán)重生成的停用詞集; 獲取根據(jù)因修改查詢串行為產(chǎn)生的查詢?cè)~集合生成的停用詞集; 獲取根據(jù)因觸發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集生成的停用詞集。
19.一種停用詞的挖掘算法的評(píng)測(cè)裝置,其特征在于,包括: 提取模塊,用于獲取多種挖掘算法各自的停用詞集; 統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)各停用詞集中的停用詞在其余所有停用詞集中也出現(xiàn)的停用詞的個(gè)數(shù),在其余數(shù)量減I個(gè)停用詞集中也出現(xiàn)的停用詞的個(gè)數(shù),依次遞歸統(tǒng)計(jì)得到僅在停用詞集自身出現(xiàn)的停用詞的個(gè)數(shù); 加權(quán)模塊,用于將統(tǒng)計(jì)得到的在其余停用詞集中出現(xiàn)的停用詞的個(gè)數(shù)與預(yù)先設(shè)置的相應(yīng)的權(quán)值進(jìn)行加權(quán)求和,得到各挖掘算法的加權(quán)估算值。
20.根據(jù)權(quán)利要求19所述的停用詞的挖掘算法的評(píng)測(cè)裝置,其特征在于,所述提取模塊還用于獲取根據(jù)查詢?nèi)罩局杏涗浀牟樵兇胁樵冊(cè)~的逆向文檔頻率生成的停用詞集;及獲取根據(jù)查詢?nèi)罩局杏涗浀牟樵冊(cè)~的相對(duì)詞權(quán)重生成的停用詞集; 及獲取根據(jù)因修改查詢串行為產(chǎn)生的查詢?cè)~集合生成的停用詞集; 及獲取根據(jù)因觸發(fā)行為產(chǎn)生的查詢串與網(wǎng)頁地址的對(duì)應(yīng)關(guān)系集生成的停用詞集。
【文檔編號(hào)】G06F17/30GK103902552SQ201210572702
【公開日】2014年7月2日 申請(qǐng)日期:2012年12月25日 優(yōu)先權(quán)日:2012年12月25日
【發(fā)明者】趙耀, 胡熠, 劉磊, 程佳 申請(qǐng)人:深圳市世紀(jì)光速信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1