網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法及裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法及裝置。該網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法包括:獲取網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜索關(guān)鍵詞;分別計(jì)算多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度;將多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類,得到至少一個(gè)關(guān)鍵詞類,在至少一個(gè)關(guān)鍵詞類中包括至少兩個(gè)不同的搜索關(guān)鍵詞;統(tǒng)計(jì)關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù)。通過(guò)本發(fā)明,提高了網(wǎng)頁(yè)搜索關(guān)鍵詞的統(tǒng)計(jì)準(zhǔn)確性。
【專利說(shuō)明】網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)統(tǒng)計(jì)領(lǐng)域,具體而言,涉及一種網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法及裝置。
【背景技術(shù)】
[0002] 用戶通常會(huì)抱有一定的目的和意圖瀏覽網(wǎng)站。對(duì)于網(wǎng)站而言,了解用戶訪問(wèn)的真 實(shí)意圖非常重要。用戶輸入的站內(nèi)搜索關(guān)鍵詞是用戶需求的集中表現(xiàn),對(duì)用戶輸入的站內(nèi) 搜索關(guān)鍵詞熱度的統(tǒng)計(jì)是網(wǎng)站了解用戶需求分布情況的主要手段。傳統(tǒng)網(wǎng)站統(tǒng)計(jì)用戶輸入 的站內(nèi)搜索關(guān)鍵詞的熱度的方法是對(duì)站內(nèi)每一個(gè)搜索關(guān)鍵詞出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),然后進(jìn) 行降序排列,取出被搜索次數(shù)最高的若干個(gè)搜索關(guān)鍵詞進(jìn)行展示,用于網(wǎng)站了解用戶需求。
[0003] 現(xiàn)有統(tǒng)計(jì)方式是假定一個(gè)站內(nèi)搜索關(guān)鍵詞即表達(dá)一種用戶需求。例如,"國(guó)足"、 "中國(guó)男足"、"烤鴨"3個(gè)站內(nèi)搜索關(guān)鍵詞均可以表達(dá)用戶所需表達(dá)的需求。但是,現(xiàn)有技術(shù) 忽略了"國(guó)足"和"中國(guó)男足"所表達(dá)的用戶需求相同,將"國(guó)足"和"中國(guó)男足"分別進(jìn)行統(tǒng) 計(jì)和排序?qū)?dǎo)致網(wǎng)站不能獲得真實(shí)的用戶需求統(tǒng)計(jì)。忽略了不同站內(nèi)搜索關(guān)鍵詞所代表的 用戶需求之間的相關(guān)性,往往導(dǎo)致統(tǒng)計(jì)出的結(jié)果不能真實(shí)的反映用戶搜索行為所體現(xiàn)的用 戶需求。例如:站內(nèi)搜索關(guān)鍵詞"快樂(lè)男聲"的統(tǒng)計(jì)次數(shù)為50000,站內(nèi)搜索關(guān)鍵詞"快男" 的統(tǒng)計(jì)次數(shù)是40000,站內(nèi)搜索關(guān)鍵詞"中國(guó)好聲音"的統(tǒng)計(jì)次數(shù)是80000,在采用現(xiàn)有統(tǒng)計(jì) 方式進(jìn)行排序后,站內(nèi)搜索關(guān)鍵詞"中國(guó)好聲音"的排名最靠前。但事實(shí)上,站內(nèi)搜索關(guān)鍵 詞"快樂(lè)男聲"和"快男"指代的是同一電視節(jié)目(即相同的用戶需求),但因?yàn)?快男"是 "快樂(lè)男聲"簡(jiǎn)稱的緣故使得二者被分開(kāi)統(tǒng)計(jì),而導(dǎo)致這一電視節(jié)目的排名落后。
[0004] 針對(duì)相關(guān)技術(shù)中網(wǎng)頁(yè)搜索關(guān)鍵詞的統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題,目前尚未提出有效的解決 方案。
【發(fā)明內(nèi)容】
[0005] 針對(duì)現(xiàn)有的網(wǎng)頁(yè)搜索關(guān)鍵詞的統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題而提出本發(fā)明,為此,本發(fā)明的 主要目的在于提供一種網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法及裝置,以解決上述問(wèn)題。
[0006] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方 法。該方法包括:獲取網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜索關(guān)鍵詞;分別計(jì)算多個(gè)搜索關(guān)鍵詞 中各個(gè)搜索關(guān)鍵詞之間的相似度;將多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞 作為一個(gè)關(guān)鍵詞類,得到至少一個(gè)關(guān)鍵詞類,在至少一個(gè)關(guān)鍵詞類中包括至少兩個(gè)不同的 搜索關(guān)鍵詞;統(tǒng)計(jì)關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù)。
[0007] 進(jìn)一步地,獲取網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜索關(guān)鍵詞包括:在網(wǎng)頁(yè)加載腳本文 件代碼;通過(guò)腳本文件代碼監(jiān)測(cè)網(wǎng)頁(yè)搜索行為以獲取多個(gè)搜索關(guān)鍵詞。
[0008] 進(jìn)一步地,在分別計(jì)算多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度之前,該 方法還包括:對(duì)多個(gè)搜索關(guān)鍵詞進(jìn)行篩選,篩選出多個(gè)搜索關(guān)鍵詞中不重復(fù)的網(wǎng)頁(yè)搜索關(guān) 鍵詞;分別計(jì)算多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度包括:分別計(jì)算篩選出的 多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度;將多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾 值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類,得到至少一個(gè)關(guān)鍵詞類,在至少一個(gè)關(guān)鍵詞類中包括 至少兩個(gè)不同的搜索關(guān)鍵詞包括:將篩選出的多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜 索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類;統(tǒng)計(jì)關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù)包括:統(tǒng)計(jì)多個(gè)搜索 關(guān)鍵詞中屬于關(guān)鍵詞類的搜索關(guān)鍵詞的搜索次數(shù)。
[0009] 進(jìn)一步地,多個(gè)搜索關(guān)鍵詞包括第一搜索關(guān)鍵詞和第二搜索關(guān)鍵詞,其中,分別計(jì) 算多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度包括:將第一搜索關(guān)鍵詞和第二搜索關(guān) 鍵詞分別分離成單獨(dú)的字符,將第一搜索關(guān)鍵詞分離得到的所有字符作為第一搜索關(guān)鍵詞 序列,將第二搜索關(guān)鍵詞分離得到的所有字符作為第二搜索關(guān)鍵詞序列;統(tǒng)計(jì)第一字符數(shù) 量,其中,第一字符數(shù)量為第一搜索關(guān)鍵詞序列和第二搜索關(guān)鍵詞序列均包含的字符的數(shù) 量;統(tǒng)計(jì)第二字符數(shù)量,其中,第二字符數(shù)量為第一搜索關(guān)鍵詞序列和第二搜索關(guān)鍵詞序列 包含的不重復(fù)的字符的總數(shù)量;將第一字符數(shù)量和第二字符數(shù)量的比值作為第一搜索關(guān)鍵 詞和第二搜索關(guān)鍵詞之間的相似度。
[0010] 進(jìn)一步地,至少一個(gè)關(guān)鍵詞類包括多個(gè)關(guān)鍵詞類,統(tǒng)計(jì)關(guān)鍵詞類中搜索關(guān)鍵詞的 搜索次數(shù)包括分別統(tǒng)計(jì)多個(gè)關(guān)鍵詞類的搜索次數(shù),在分別統(tǒng)計(jì)多個(gè)關(guān)鍵詞類的搜索次數(shù)之 后,該方法還包括:對(duì)多個(gè)關(guān)鍵詞類中的每一個(gè)關(guān)鍵詞類分別進(jìn)行命名;按照統(tǒng)計(jì)得到的 多個(gè)關(guān)鍵詞類的搜索次數(shù)對(duì)命名之后的所有關(guān)鍵詞類進(jìn)行排序。
[0011] 為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)裝 置,該裝置包括:第一獲取單元,用于獲取網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜索關(guān)鍵詞;計(jì)算單 元,用于分別計(jì)算多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度;第二獲取單元,用于將 多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類,得到至少一個(gè)關(guān) 鍵詞類,在至少一個(gè)關(guān)鍵詞類中包括至少兩個(gè)不同的搜索關(guān)鍵詞;統(tǒng)計(jì)單元,用于統(tǒng)計(jì)關(guān)鍵 詞類中搜索關(guān)鍵詞的搜索次數(shù)。
[0012] 進(jìn)一步地,第一獲取單元包括:加載模塊,用于在網(wǎng)頁(yè)加載腳本文件代碼;獲取模 塊,用于通過(guò)腳本文件代碼監(jiān)測(cè)網(wǎng)頁(yè)搜索行為以獲取多個(gè)搜索關(guān)鍵詞。
[0013] 進(jìn)一步地,該裝置還包括:篩選單元,用于對(duì)多個(gè)搜索關(guān)鍵詞進(jìn)行篩選,篩選出多 個(gè)搜索關(guān)鍵詞中不重復(fù)的網(wǎng)頁(yè)搜索關(guān)鍵詞,其中,計(jì)算單元用于分別計(jì)算篩選出的多個(gè)搜 索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度,第二獲取單元用于將篩選出的多個(gè)搜索關(guān)鍵詞 中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類,統(tǒng)計(jì)單元用于統(tǒng)計(jì)多個(gè)搜索關(guān)鍵 詞中屬于關(guān)鍵詞類的搜索關(guān)鍵詞的搜索次數(shù)。
[0014] 進(jìn)一步地,第一獲取單元用于獲取多個(gè)搜索關(guān)鍵詞,其中,多個(gè)搜索關(guān)鍵詞包括第 一搜索關(guān)鍵詞和第二搜索關(guān)鍵詞,計(jì)算單元包括:分離模塊,用于將第一搜索關(guān)鍵詞和第二 搜索關(guān)鍵詞分別分離成單獨(dú)的字符,將第一搜索關(guān)鍵詞分離得到的所有字符作為第一搜索 關(guān)鍵詞序列,將第二搜索關(guān)鍵詞分離得到的所有字符作為第二搜索關(guān)鍵詞序列;第一統(tǒng)計(jì) 模塊,用于統(tǒng)計(jì)第一字符數(shù)量,其中,第一字符數(shù)量為第一搜索關(guān)鍵詞序列和第二搜索關(guān)鍵 詞序列均包含的字符的數(shù)量;第二統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)第二字符數(shù)量,其中,第二字符數(shù)量 為第一搜索關(guān)鍵詞序列和第二搜索關(guān)鍵詞序列包含的不重復(fù)的字符的總數(shù)量;計(jì)算模塊, 用于將第一字符數(shù)量和第二字符數(shù)量的比值作為第一搜索關(guān)鍵詞和第二搜索關(guān)鍵詞之間 的相似度。
[0015] 進(jìn)一步地,第二獲取單元用于將多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān) 鍵詞作為一個(gè)關(guān)鍵詞類,得到多個(gè)關(guān)鍵詞類,在多個(gè)關(guān)鍵詞類中至少一個(gè)關(guān)鍵詞類包括至 少兩個(gè)不同的搜索關(guān)鍵詞,統(tǒng)計(jì)單元用于分別統(tǒng)計(jì)多個(gè)關(guān)鍵詞類的搜索次數(shù),該裝置還包 括:命名單元,用于對(duì)多個(gè)關(guān)鍵詞類中的每一個(gè)關(guān)鍵詞類分別進(jìn)行命名;排序單元,用于按 照統(tǒng)計(jì)得到的多個(gè)關(guān)鍵詞類的搜索次數(shù)對(duì)命名之后的所有關(guān)鍵詞類進(jìn)行排序。
[0016] 通過(guò)本發(fā)明,采用包括以下步驟的方法:獲取網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜索關(guān) 鍵詞;分別計(jì)算多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度;將多個(gè)搜索關(guān)鍵詞中相 似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類,得到至少一個(gè)關(guān)鍵詞類,在至少一個(gè) 關(guān)鍵詞類中包括至少兩個(gè)不同的搜索關(guān)鍵詞;統(tǒng)計(jì)關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù),解 決了網(wǎng)頁(yè)搜索關(guān)鍵詞的統(tǒng)計(jì)不準(zhǔn)確的問(wèn)題,進(jìn)而達(dá)到了通過(guò)統(tǒng)計(jì)相似度滿足預(yù)設(shè)閾值的關(guān) 鍵詞類中關(guān)鍵詞的搜索次數(shù)來(lái)提高搜索關(guān)鍵詞統(tǒng)計(jì)準(zhǔn)確性的效果。
【專利附圖】
【附圖說(shuō)明】
[0017] 構(gòu)成本申請(qǐng)的一部分的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí) 施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0018] 圖1是根據(jù)本發(fā)明的網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法的第一實(shí)施例的流程圖;
[0019] 圖2是根據(jù)本發(fā)明的網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法的第二實(shí)施例的流程圖;
[0020] 圖3是根據(jù)本發(fā)明的網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法的第三實(shí)施例的流程圖;
[0021] 圖4是根據(jù)本發(fā)明的網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)裝置的第一實(shí)施例的結(jié)構(gòu)框圖;
[0022] 圖5是根據(jù)本發(fā)明的網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)裝置的第二實(shí)施例的結(jié)構(gòu)框圖;以及
[0023] 圖6是根據(jù)本發(fā)明的網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)裝置的第三實(shí)施例的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0024] 需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相 互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0025] 圖1是根據(jù)本發(fā)明的網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法的第一實(shí)施例的流程圖。如圖1所 示,該方法包括如下步驟:
[0026] 步驟S102,獲取網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜索關(guān)鍵詞。
[0027] 用戶在網(wǎng)頁(yè)上輸入的網(wǎng)頁(yè)搜索關(guān)鍵詞往往代表了用戶瀏覽網(wǎng)站的真實(shí)意圖,對(duì)大 量的搜索關(guān)鍵詞的獲取和統(tǒng)計(jì),可以用于展示用戶在該網(wǎng)站的需求分布,從而有助于網(wǎng)站 主更新網(wǎng)站設(shè)置,提高網(wǎng)站訪問(wèn)量。
[0028] 需要注意的是,用戶在一次會(huì)話中進(jìn)行的多次站內(nèi)搜索行為,應(yīng)記錄為多條搜索 關(guān)鍵詞;在一次會(huì)話中重復(fù)多次搜索相同的關(guān)鍵詞,也應(yīng)記錄為多條??蛇x地,網(wǎng)頁(yè)搜索過(guò) 程中輸入的多個(gè)搜索關(guān)鍵詞最終以List〈〉的方式進(jìn)行存儲(chǔ)。
[0029] 例如,用戶在一次會(huì)話中輸入的搜索關(guān)鍵詞,按照先后順序分別為:"達(dá)沃斯論 壇","達(dá)沃斯論壇","天津","世界經(jīng)濟(jì)論壇"。該會(huì)話中,雖然"達(dá)沃斯論壇"重復(fù)出現(xiàn)兩次, 但在記錄時(shí)應(yīng)分別記錄為2個(gè)搜索關(guān)鍵詞。
[0030] 步驟S104,分別計(jì)算多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度。
[0031] 搜索關(guān)鍵詞之間的相似度的計(jì)算可以通過(guò)編寫(xiě)程序?qū)崿F(xiàn)。例如,計(jì)算搜索關(guān)鍵詞i 和搜索關(guān)鍵詞j之間的相似度,在程序中二者分別用Queryi和Queryj表示,獲取返回值, 即這兩個(gè)搜索關(guān)鍵詞的相似度。該程序可以但不僅限于表示如下:
[0032] For (i=0; j < uniqueQuery.count; i++) { For (j=i; j < uniqueQuery.count; j++) { string Queryi = uniqueQuery[?]; string Query] = uniqueQuery〇]; GetSimilar(Queryi, Query]); ?
[0033] }
[0034] 具體的,計(jì)算搜索關(guān)鍵詞之間相似度的方法(即GetSimilarO的實(shí)現(xiàn)方式)較 多,下面舉例進(jìn)行說(shuō)明。需要注意的是,計(jì)算搜索關(guān)鍵詞之間相似度的方法包括但不僅限于 以下方法。
[0035] 第一種計(jì)算搜索關(guān)鍵詞之間相似度的方法是杰卡德(Jaccard)系數(shù)法。
[0036] 假設(shè)多個(gè)搜索關(guān)鍵詞包括第一搜索關(guān)鍵詞和第二搜索關(guān)鍵詞,計(jì)算第一搜索關(guān)鍵 詞和第二搜索關(guān)鍵詞之間的相似度包括:將第一搜索關(guān)鍵詞和第二搜索關(guān)鍵詞分別分離成 單獨(dú)的字符,將第一搜索關(guān)鍵詞分離得到的所有字符作為第一搜索關(guān)鍵詞序列,將第二搜 索關(guān)鍵詞分離得到的所有字符作為第二搜索關(guān)鍵詞序列;統(tǒng)計(jì)第一字符數(shù)量,其中,第一字 符數(shù)量為第一搜索關(guān)鍵詞序列和第二搜索關(guān)鍵詞序列均包含的字符的數(shù)量;統(tǒng)計(jì)第二字符 數(shù)量,其中,第二字符數(shù)量為第一搜索關(guān)鍵詞序列和第二搜索關(guān)鍵詞序列包含的不重復(fù)的 字符的總數(shù)量;將第一字符數(shù)量和第二字符數(shù)量的比值作為第一搜索關(guān)鍵詞和第二搜索關(guān) 鍵詞之間的相似度。
[0037] 例如,將搜索關(guān)鍵詞"快樂(lè)男聲"分離成單獨(dú)的字符為"快"、"樂(lè)"、"男"、"聲","快"、 "樂(lè)"、"男"、"聲"即作為第一搜索關(guān)鍵詞序列;將搜索關(guān)鍵詞"快男"分離成單獨(dú)的字符為 "快"、"男","快"、"男"即作為第二搜索關(guān)鍵詞序列。第一字符數(shù)量為第一搜索關(guān)鍵詞序列 和第二搜索關(guān)鍵詞序列中均包含的字符的數(shù)量,該數(shù)量為2。第二字符數(shù)量為第一搜索關(guān)鍵 詞序列和第二搜索關(guān)鍵詞序列包含的不重復(fù)的字符的總數(shù)量,該數(shù)量為4。這樣,可以得到 第一搜索關(guān)鍵詞和第二搜索關(guān)鍵詞之間的相似度為2/4。
[0038] 第二種計(jì)算搜索關(guān)鍵詞之間相似度的方法是編輯距離(Edit Distance或者 Levenshtein)法。
[0039] 同樣地,假設(shè)多個(gè)搜索關(guān)鍵詞包括第一搜索關(guān)鍵詞和第二搜索關(guān)鍵詞。根據(jù)編輯 距離計(jì)算的搜索關(guān)鍵詞之間的相似度可以定義為:第一搜索關(guān)鍵詞與第二搜索關(guān)鍵詞之間 編輯距離的倒數(shù)。編輯距離,指兩個(gè)字符串之間,由一個(gè)字符串轉(zhuǎn)變成另一個(gè)字符串所需的 最少編輯操作次數(shù)。這里,許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字 符或者刪除一個(gè)字符。
[0040] 例如,計(jì)算搜索關(guān)鍵詞"kitten"和"sitting"之間的相似度。將"kitten"轉(zhuǎn)換成 "sitting"過(guò)程包括:"kitten"變換為"sitten"(k 變?yōu)?s),"sitten"變換為"sittin"(e 變?yōu)閕),"sittin"變換為"sitting"(插入g)。因此,搜索關(guān)鍵詞"kitten"和"sitting" 之間的編輯距離和相似度分別為3和1/3。
[0041] 利用編輯距離法計(jì)算搜索關(guān)鍵詞間相似度的主程序可以但不僅限于表示如下:
[0042] public static int Levenshtein Distaiice(string si, string s2)
[0043] { - if (si -- s2) return 0; else if (String.lsNul!OrEmpty(sI)) return s2.Length, else if (Siring JeNy I !OrRmpfy(s2)) return si .Length; var in ^ si,Length + lt var n - s2.Lengih + I; var d ^ new intfm, ?]; // Step I for (var i - 0; i < m; i++)尋,0]-k // Step2 for (var j - 0; j < n; j++) d[0, jj - j; // Step3 for (var i - I; i < m; i++) { for (var j = I; j < n, j十十) { var cosi - si [卜 11 -- s2[j - i ] 9 〇 : 1: var deiefbn = dfi - 1 _J] + I; var insertion ^ dfi, j - i] ι I; var substitution - dp - - i] + cost; d[i, j] ~~ Math.Mi?(M€ilh.Miii(deletioti, insertiotiK substitution); } } return d[in - ls it - 1]; }
[0044] 步驟S106,將多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵 詞類,得到至少一個(gè)關(guān)鍵詞類,在至少一個(gè)關(guān)鍵詞類中包括至少兩個(gè)不同的搜索關(guān)鍵詞。
[0045] 該步驟的目的在于合并相似性較高的搜索關(guān)鍵詞到一個(gè)關(guān)鍵詞類中。預(yù)設(shè)閾值是 兩個(gè)不同的搜索關(guān)鍵詞可以被歸為一個(gè)關(guān)鍵詞類的最小值??梢愿鶕?jù)用戶的統(tǒng)計(jì)需求進(jìn)行 設(shè)置。
[0046] 步驟S108,統(tǒng)計(jì)關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù)。
[0047] 關(guān)鍵詞類中關(guān)鍵詞的搜索次數(shù)可以代表用戶某一需求的熱度,關(guān)鍵詞的搜索次數(shù) 越多,則代表用戶這一需求熱度越高。
[0048] 該實(shí)施例由于包含以下步驟:獲取網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜索關(guān)鍵詞;分別 計(jì)算多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度;將多個(gè)搜索關(guān)鍵詞中相似度達(dá)到 預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類,得到至少一個(gè)關(guān)鍵詞類,在至少一個(gè)關(guān)鍵詞類 中包括至少兩個(gè)不同的搜索關(guān)鍵詞;統(tǒng)計(jì)關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù),使得搜索關(guān) 鍵詞之間建立了相關(guān)關(guān)系,通過(guò)這種相關(guān)關(guān)系將指向相同用戶需求的搜索關(guān)鍵詞進(jìn)行了合 并,從而用多個(gè)搜索關(guān)鍵詞表達(dá)一個(gè)用戶需求,從而提高了網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)的準(zhǔn)確性。
[0049] 圖2是根據(jù)本發(fā)明的網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法的第二實(shí)施例的流程圖。該實(shí)施例 可以作為圖1所示實(shí)施例的一種優(yōu)選實(shí)施方式,如圖2所示,該網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法包 括:
[0050] 步驟S201,在網(wǎng)頁(yè)加載腳本文件代碼。
[0051] 腳本文件類似于DOS操作系統(tǒng)中的批處理文件,它可以將不同的命令組合起來(lái), 并按確定的順序自動(dòng)連續(xù)地執(zhí)行。腳本程序相對(duì)一般程序開(kāi)發(fā)來(lái)說(shuō)比較接近自然語(yǔ)言,可 以不經(jīng)編譯而是解釋執(zhí)行。
[0052] 腳本語(yǔ)言種類較多,一般的腳本語(yǔ)言的執(zhí)行只同具體的解釋執(zhí)行器有關(guān),所以只 要系統(tǒng)上有相應(yīng)語(yǔ)言的解釋程序就可以做到跨平臺(tái)。
[0053] 步驟S202,通過(guò)腳本文件代碼監(jiān)測(cè)網(wǎng)頁(yè)搜索行為以獲取多個(gè)搜索關(guān)鍵詞。
[0054] 優(yōu)選地,在該方法中可使用javascript,通過(guò)在網(wǎng)頁(yè)中添加 javascript代碼來(lái)監(jiān) 測(cè)用戶的網(wǎng)頁(yè)搜索行為,獲取用戶輸入的多個(gè)搜索關(guān)鍵詞。
[0055] 步驟S203,分別計(jì)算多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度。
[0056] 該步驟等同于步驟S104,這里不再贅述。
[0057] 步驟S204,將多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵 詞類,得到至少一個(gè)關(guān)鍵詞類,在至少一個(gè)關(guān)鍵詞類中包括至少兩個(gè)不同的搜索關(guān)鍵詞。
[0058] 該步驟等同于步驟S106,這里不再贅述。
[0059] 步驟S205,統(tǒng)計(jì)關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù)。
[0060] 該步驟等同于步驟S108,這里不再贅述。
[0061] 該實(shí)施例由于包含以下步驟:獲取網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜索關(guān)鍵詞包括: 在網(wǎng)頁(yè)加載腳本文件代碼;通過(guò)腳本文件代碼監(jiān)測(cè)網(wǎng)頁(yè)搜索行為以獲取多個(gè)搜索關(guān)鍵詞; 分別計(jì)算多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度;將多個(gè)搜索關(guān)鍵詞中相似度達(dá) 到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類,得到至少一個(gè)關(guān)鍵詞類,在至少一個(gè)關(guān)鍵詞 類中包括至少兩個(gè)不同的搜索關(guān)鍵詞;統(tǒng)計(jì)關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù),實(shí)現(xiàn)了動(dòng) 態(tài)獲取網(wǎng)頁(yè)搜索關(guān)鍵詞,提高了網(wǎng)頁(yè)搜索關(guān)鍵詞的獲取效率,從而使得搜索關(guān)鍵詞的統(tǒng)計(jì) 更加商效地進(jìn)行。
[0062] 圖3是根據(jù)本發(fā)明的網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法的第三實(shí)施例的流程圖。該實(shí)施例 可以作為圖1所示實(shí)施例的一種優(yōu)選實(shí)施方式,如圖3所示,該網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法包 括:
[0063] 步驟S301,獲取網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜索關(guān)鍵詞。
[0064] 該步驟等同于步驟S102,這里不再贅述。
[0065] 步驟S302,對(duì)多個(gè)搜索關(guān)鍵詞進(jìn)行篩選,篩選出多個(gè)搜索關(guān)鍵詞中不重復(fù)的網(wǎng)頁(yè) 搜索關(guān)鍵詞。
[0066] 由于搜索關(guān)鍵詞之間相關(guān)關(guān)系是基于搜索關(guān)鍵詞本身的,與搜索關(guān)鍵詞出現(xiàn)的頻 次無(wú)關(guān),因此在計(jì)算搜索關(guān)鍵詞之間的相似度之前,可以先排除搜索關(guān)鍵詞序列中重復(fù)出 現(xiàn)的關(guān)鍵詞。經(jīng)過(guò)該排重步驟之后,計(jì)算搜索關(guān)鍵詞之間的相似度的效率將大大提高。 [0067] 步驟S303,分別計(jì)算篩選出的多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度。
[0068] 計(jì)算篩選出的多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度的方法和步驟 S104中所述相同,這里不再贅述。
[0069] 步驟S304,將篩選出的多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為 一個(gè)關(guān)鍵詞類。
[0070] 優(yōu)選地,可以通過(guò)以下步驟將相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞聚為一類。首先, 假定篩選出的搜索關(guān)鍵詞各自屬于一個(gè)關(guān)鍵詞類。然后,取篩選出的第一個(gè)搜索關(guān)鍵詞記 為q〇,搜索關(guān)鍵詞列表,并逐一比較q〇與篩選出的其他搜索關(guān)鍵詞間相似度與預(yù)設(shè)閾值的 大小關(guān)系。當(dāng)發(fā)現(xiàn)與q〇的相似度大于預(yù)設(shè)閾值的搜索關(guān)鍵詞時(shí),合并q〇與該搜索關(guān)鍵詞 到一個(gè)關(guān)鍵詞類中,并更新該聚類的信息,將原有的兩個(gè)搜索關(guān)鍵詞刪除。若搜索整個(gè)搜索 關(guān)鍵詞列表后發(fā)現(xiàn)無(wú)任何搜索關(guān)鍵詞與q〇的相似性大于預(yù)設(shè)閾值,則認(rèn)為q〇是一個(gè)獨(dú)立 的類,并將其從搜索列表中刪除。
[0071] 將搜索關(guān)鍵詞聚為關(guān)鍵詞類的實(shí)現(xiàn)程序可以但不僅限于表示如下:
[0072] 計(jì)算部分:
[0073] int i; double sim - 0; for (i ^ 1; i < uniqueQuery.Count; I++) sim ? GetSimilar ( unique〇uery[0], uniqueQuery[i3 ); if (situ > alpha) { break; ) if ((i + 1)^ uniqueQuery.Count) i DeleteList(uniqueQuery5 0); } ) CombineCIusters(uniqueQuery, 0, i); 輸丨IU?分: public List<Closter> Output = new List<Cluster>(); //輸出集 public List<Ckster> Tf(List<Cluster> input, double alpha, int beta) // beta 類rtfi人容||__值 { int i, double sim = 0,
[0074] for (i = 1; i < input.Count; i^) { sim ^ this.Similar(input[0], inputfi]); if (sim > alpha) { break; } } if (sim > alpha) // alpha表4關(guān)鍵詞之間相似度的_值 { return this.CombineClusters(input, 0, i); } if (input[0J.Count >= beta) // 如果 input[0]3$的容m大f _值 beta,則向輸出集 Output 中添加 input[0]類 { this.Output.Add{mput[0]); return this,DeleteList(input5 input[0],CoreKeyworci,ToString());
[0075] 步驟S305,統(tǒng)計(jì)多個(gè)搜索關(guān)鍵詞中屬于關(guān)鍵詞類的搜索關(guān)鍵詞的搜索次數(shù)。
[0076] 統(tǒng)計(jì)各關(guān)鍵詞類中每一個(gè)搜索關(guān)鍵詞在實(shí)際中被搜索的頻次和。
[0077] 可選地,可以使用計(jì)數(shù)器方式統(tǒng)計(jì)各個(gè)關(guān)鍵詞類被搜索的頻數(shù)。遍歷最初獲取的 多個(gè)搜索關(guān)鍵詞列表中的每一個(gè)搜索關(guān)鍵詞,當(dāng)某搜索關(guān)鍵詞出現(xiàn)時(shí),對(duì)其所屬于的關(guān)鍵 詞類進(jìn)行計(jì)數(shù)。
[0078] 例如,遍歷結(jié)果可以存儲(chǔ)在如下形式的表格中:
[0079]
【權(quán)利要求】
1. 一種網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)方法,其特征在于,包括: 獲取網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜索關(guān)鍵詞; 分別計(jì)算所述多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度; 將所述多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類,得到 至少一個(gè)關(guān)鍵詞類,在所述至少一個(gè)關(guān)鍵詞類中包括至少兩個(gè)不同的搜索關(guān)鍵詞;以及 統(tǒng)計(jì)所述關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取所述網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜 索關(guān)鍵詞包括: 在所述網(wǎng)頁(yè)加載腳本文件代碼;以及 通過(guò)所述腳本文件代碼監(jiān)測(cè)網(wǎng)頁(yè)搜索行為以獲取所述多個(gè)搜索關(guān)鍵詞。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 在分別計(jì)算所述多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度之前,所述方法還包 括:對(duì)所述多個(gè)搜索關(guān)鍵詞進(jìn)行篩選,篩選出所述多個(gè)搜索關(guān)鍵詞中不重復(fù)的網(wǎng)頁(yè)搜索關(guān) 鍵詞, 分別計(jì)算所述多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度包括:分別計(jì)算篩選出 的多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度, 將所述多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類,得到 至少一個(gè)關(guān)鍵詞類,在所述至少一個(gè)關(guān)鍵詞類中包括至少兩個(gè)不同的搜索關(guān)鍵詞包括:將 所述篩選出的多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類, 統(tǒng)計(jì)所述關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù)包括:統(tǒng)計(jì)所述多個(gè)搜索關(guān)鍵詞中屬于所 述關(guān)鍵詞類的搜索關(guān)鍵詞的搜索次數(shù)。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多個(gè)搜索關(guān)鍵詞包括第一搜索關(guān)鍵 詞和第二搜索關(guān)鍵詞,其中,分別計(jì)算所述多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似 度包括: 將所述第一搜索關(guān)鍵詞和所述第二搜索關(guān)鍵詞分別分離成單獨(dú)的字符,將第一搜索關(guān) 鍵詞分離得到的所有字符作為第一搜索關(guān)鍵詞序列,將第二搜索關(guān)鍵詞分離得到的所有字 符作為第二搜索關(guān)鍵詞序列; 統(tǒng)計(jì)第一字符數(shù)量,其中,所述第一字符數(shù)量為所述第一搜索關(guān)鍵詞序列和所述第二 搜索關(guān)鍵詞序列均包含的字符的數(shù)量; 統(tǒng)計(jì)第二字符數(shù)量,其中,所述第二字符數(shù)量為所述第一搜索關(guān)鍵詞序列和所述第二 搜索關(guān)鍵詞序列包含的不重復(fù)的字符的總數(shù)量;以及 將所述第一字符數(shù)量和所述第二字符數(shù)量的比值作為所述第一搜索關(guān)鍵詞和所述第 二搜索關(guān)鍵詞之間的相似度。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述至少一個(gè)關(guān)鍵詞類包括多個(gè)關(guān)鍵詞 類,統(tǒng)計(jì)所述關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù)包括分別統(tǒng)計(jì)所述多個(gè)關(guān)鍵詞類的搜索次 數(shù),在分別統(tǒng)計(jì)所述多個(gè)關(guān)鍵詞類的搜索次數(shù)之后,所述方法還包括: 對(duì)所述多個(gè)關(guān)鍵詞類中的每一個(gè)關(guān)鍵詞類分別進(jìn)行命名;以及 按照統(tǒng)計(jì)得到的所述多個(gè)關(guān)鍵詞類的搜索次數(shù)對(duì)命名之后的所有關(guān)鍵詞類進(jìn)行排序。
6. -種網(wǎng)頁(yè)搜索關(guān)鍵詞統(tǒng)計(jì)裝置,其特征在于,包括: 第一獲取單元,用于獲取網(wǎng)頁(yè)搜索過(guò)程中輸入的多個(gè)搜索關(guān)鍵詞; 計(jì)算單元,用于分別計(jì)算所述多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的相似度; 第二獲取單元,用于將所述多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為 一個(gè)關(guān)鍵詞類,得到至少一個(gè)關(guān)鍵詞類,在所述至少一個(gè)關(guān)鍵詞類中包括至少兩個(gè)不同的 搜索關(guān)鍵詞;以及 統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述關(guān)鍵詞類中搜索關(guān)鍵詞的搜索次數(shù)。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一獲取單元包括: 加載模塊,用于在所述網(wǎng)頁(yè)加載腳本文件代碼;以及 獲取模塊,用于通過(guò)所述腳本文件代碼監(jiān)測(cè)網(wǎng)頁(yè)搜索行為以獲取所述多個(gè)搜索關(guān)鍵 。
8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述裝置還包括:篩選單元,用于對(duì)所述多個(gè)搜索關(guān)鍵詞進(jìn)行篩選,篩選出所述多個(gè)搜 索關(guān)鍵詞中不重復(fù)的網(wǎng)頁(yè)搜索關(guān)鍵詞, 其中,所述計(jì)算單元用于分別計(jì)算篩選出的多個(gè)搜索關(guān)鍵詞中各個(gè)搜索關(guān)鍵詞之間的 相似度, 所述第二獲取單元用于將所述篩選出的多個(gè)搜索關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜 索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類, 所述統(tǒng)計(jì)單元用于統(tǒng)計(jì)所述多個(gè)搜索關(guān)鍵詞中屬于所述關(guān)鍵詞類的搜索關(guān)鍵詞的搜 索次數(shù)。
9. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一獲取單元用于獲取所述多個(gè)搜 索關(guān)鍵詞,其中,所述多個(gè)搜索關(guān)鍵詞包括第一搜索關(guān)鍵詞和第二搜索關(guān)鍵詞,所述計(jì)算單 元包括: 分離模塊,用于將所述第一搜索關(guān)鍵詞和所述第二搜索關(guān)鍵詞分別分離成單獨(dú)的字 符,將第一搜索關(guān)鍵詞分離得到的所有字符作為第一搜索關(guān)鍵詞序列,將第二搜索關(guān)鍵詞 分離得到的所有字符作為第二搜索關(guān)鍵詞序列; 第一統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)第一字符數(shù)量,其中,所述第一字符數(shù)量為所述第一搜索關(guān)鍵 詞序列和所述第二搜索關(guān)鍵詞序列均包含的字符的數(shù)量; 第二統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)第二字符數(shù)量,其中,所述第二字符數(shù)量為所述第一搜索關(guān)鍵 詞序列和所述第二搜索關(guān)鍵詞序列包含的不重復(fù)的字符的總數(shù)量;以及 計(jì)算模塊,用于將所述第一字符數(shù)量和所述第二字符數(shù)量的比值作為所述第一搜索關(guān) 鍵詞和所述第二搜索關(guān)鍵詞之間的相似度。
10. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第二獲取單元用于將所述多個(gè)搜索 關(guān)鍵詞中相似度達(dá)到預(yù)設(shè)閾值的搜索關(guān)鍵詞作為一個(gè)關(guān)鍵詞類,得到多個(gè)關(guān)鍵詞類,在所 述多個(gè)關(guān)鍵詞類中至少一個(gè)關(guān)鍵詞類包括至少兩個(gè)不同的搜索關(guān)鍵詞,所述統(tǒng)計(jì)單元用于 分別統(tǒng)計(jì)所述多個(gè)關(guān)鍵詞類的搜索次數(shù),所述裝置還包括: 命名單元,用于對(duì)所述多個(gè)關(guān)鍵詞類中的每一個(gè)關(guān)鍵詞類分別進(jìn)行命名;以及 排序單元,用于按照統(tǒng)計(jì)得到的所述多個(gè)關(guān)鍵詞類的搜索次數(shù)對(duì)命名之后的所有關(guān)鍵 詞類進(jìn)行排序。
【文檔編號(hào)】G06F17/30GK104217016SQ201410488461
【公開(kāi)日】2014年12月17日 申請(qǐng)日期:2014年9月22日 優(yōu)先權(quán)日:2014年9月22日
【發(fā)明者】何鑫 申請(qǐng)人:北京國(guó)雙科技有限公司