亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

行業(yè)詞典的建立方法和裝置及行業(yè)識(shí)別方法和裝置的制造方法

文檔序號(hào):8943042閱讀:211來源:國知局
行業(yè)詞典的建立方法和裝置及行業(yè)識(shí)別方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及信息識(shí)別技術(shù)領(lǐng)域,尤其涉及一種行業(yè)詞典的建立方法和裝置及行業(yè)識(shí)別方法和裝置。
【背景技術(shù)】
[0002]現(xiàn)有對(duì)于搜索行為的行業(yè)識(shí)別主要基于人工生成的詞表,只有當(dāng)搜索詞命中詞表時(shí),才能進(jìn)行行業(yè)的識(shí)別。
[0003]存在的缺陷在于:人工生成的詞表對(duì)于搜索詞的覆蓋率低;對(duì)于某些對(duì)應(yīng)多個(gè)行業(yè)的特殊的搜索詞,利用人工生成的詞表,每一個(gè)搜索詞只對(duì)應(yīng)一個(gè)行業(yè),導(dǎo)致行業(yè)識(shí)別準(zhǔn)確率較低。

【發(fā)明內(nèi)容】

[0004]本發(fā)明實(shí)施例提供一種行業(yè)詞典的建立方法和裝置,以實(shí)現(xiàn)行業(yè)詞典的自動(dòng)化建立。
[0005]本發(fā)明實(shí)施例還提供一種行業(yè)識(shí)別方法和裝置,以提高對(duì)查詢串的覆蓋率,并提高查詢串的行業(yè)識(shí)別的準(zhǔn)確率。
[0006]第一方面,本發(fā)明實(shí)施例提供了一種行業(yè)詞典的建立方法,包括:
[0007]獲取用戶搜索行為日志;
[0008]從所述用戶搜索行為日志中提取各搜索詞,以及對(duì)應(yīng)的被點(diǎn)擊的搜索結(jié)果;
[0009]根據(jù)所述被點(diǎn)擊的搜索結(jié)果確定搜索詞所屬行業(yè),將所述搜索詞作為精確索引詞,建立并保存所述精確索引詞和對(duì)應(yīng)的行業(yè)的詞條對(duì),形成精確詞典。
[0010]第二方面,本發(fā)明實(shí)施例提供了一種行業(yè)詞典的建立裝置,包括:
[0011]日志獲取模塊,用于獲取用戶搜索行為日志;
[0012]提取模塊,用于從所述用戶搜索行為日志中提取各搜索詞,以及對(duì)應(yīng)的被點(diǎn)擊的搜索結(jié)果;
[0013]精確詞典形成模塊,用于根據(jù)所述被點(diǎn)擊的搜索結(jié)果確定搜索詞所屬行業(yè),將所述搜索詞作為精確索引詞,建立并保存所述精確索引詞和對(duì)應(yīng)的行業(yè)的詞條對(duì),形成精確詞典。
[0014]第三方面,本發(fā)明實(shí)施例提供了一種行業(yè)識(shí)別方法,基于本發(fā)明任意實(shí)施例提供的行業(yè)詞典的建立方法所建立的詞典實(shí)現(xiàn),包括:
[0015]獲取用戶輸入的查詢串;
[0016]在預(yù)先建立的精確詞典中精確匹配所述查詢串,將匹配成功的精確索引詞所對(duì)應(yīng)的行業(yè)作為所述查詢串對(duì)應(yīng)的行業(yè),并返回所述查詢串對(duì)應(yīng)的行業(yè)。
[0017]第四方面,本發(fā)明實(shí)施例提供了一種行業(yè)識(shí)別裝置,基于本發(fā)明任意實(shí)施例提供的行業(yè)詞典的建立裝置所建立的詞典實(shí)現(xiàn),包括:
[0018]查詢串獲取模塊,用于獲取用戶輸入的查詢串;
[0019]行業(yè)識(shí)別模塊,用于在預(yù)先建立的精確詞典中精確匹配所述查詢串,將匹配成功的精確索引詞所對(duì)應(yīng)的行業(yè)作為所述查詢串對(duì)應(yīng)的行業(yè),并返回所述查詢串對(duì)應(yīng)的行業(yè)。
[0020]本發(fā)明實(shí)施例提供的行業(yè)詞典的建立方法和裝置,基于用戶搜索行為日志的分析,可以自動(dòng)地建立精確詞典,隨著用戶搜索行為日志的更新,可以不斷更新精確詞典中的詞條對(duì),提高了精確詞典對(duì)搜索詞的覆蓋率;由于被點(diǎn)擊的搜索結(jié)果通常反映的是用戶的搜索需求,因此根據(jù)被點(diǎn)擊的搜索結(jié)果確定搜索詞所屬行業(yè),得到的詞條對(duì)的準(zhǔn)確率高;同時(shí),對(duì)于精確詞典中的每個(gè)精確索引詞,由于對(duì)精確索引詞的對(duì)應(yīng)的所有被點(diǎn)擊的搜索結(jié)果均進(jìn)行了分析,避免了某些精確索引詞與行業(yè)的一對(duì)多對(duì)應(yīng)關(guān)系的遺漏,提高了精確詞典的詞條對(duì)的準(zhǔn)確率。
[0021]本發(fā)明實(shí)施例提供的行業(yè)識(shí)別方法和裝置,由于精確詞典是基于用戶搜索行為日志的分析自動(dòng)地建立的,隨著用戶搜索行為日志的更新,可以不斷更新精確詞典中的詞條對(duì),提高了精確詞典對(duì)查詢串的覆蓋率;利用精確詞典,可以實(shí)現(xiàn)對(duì)查詢串的行業(yè)識(shí)別,尤其是對(duì)搜索頻率較高的查詢串的行業(yè)識(shí)別,既可以是一對(duì)一關(guān)系的精確識(shí)別,也可以是一對(duì)多關(guān)系的精確識(shí)別,提尚了對(duì)查詢串的彳丁業(yè)識(shí)別的準(zhǔn)確率。
【附圖說明】
[0022]為了更清楚地說明本發(fā)明,下面將對(duì)本發(fā)明中所需要使用的附圖做一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0023]圖1a為本發(fā)明實(shí)施例一提供的一種行業(yè)詞典的建立方法的流程示意圖;
[0024]圖1b為本發(fā)明實(shí)施例一提供的行業(yè)詞典的建立方法中一種根據(jù)被點(diǎn)擊的搜索結(jié)果形成精確詞典的方法流程示意圖;
[0025]圖2為本發(fā)明實(shí)施例四提供的一種行業(yè)詞典的建立裝置的結(jié)構(gòu)示意圖;
[0026]圖3為本發(fā)明實(shí)施例五提供的一種行業(yè)識(shí)別方法的流程示意圖;
[0027]圖4為本發(fā)明實(shí)施例六提供的一種行業(yè)識(shí)別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0028]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施例中的技術(shù)方案作進(jìn)一步詳細(xì)描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。可以理解的是,此處所描述的具體實(shí)施例僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。
[0029]在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作(或步驟)描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
[0030]還應(yīng)當(dāng)提到的是,在一些替換實(shí)現(xiàn)方式中,所提到的功能/動(dòng)作可以按照不同于附圖中標(biāo)示的順序發(fā)生。舉例來說,取決于所涉及的功能/動(dòng)作,相繼示出的各幅圖實(shí)際上可以基本上同時(shí)執(zhí)行或者有時(shí)可以按照相反的順序來執(zhí)行。
[0031]實(shí)施例一
[0032]請(qǐng)參閱圖la,為本發(fā)明實(shí)施例一提供的一種行業(yè)詞典的建立方法的流程示意圖。本發(fā)明實(shí)施例的方法可以由配置以硬件和/或軟件實(shí)現(xiàn)的行業(yè)詞典的建立裝置來執(zhí)行,該實(shí)現(xiàn)裝置典型的是配置于能夠提供信息搜索服務(wù)的服務(wù)器中。
[0033]該方法包括:操作110?操作130。
[0034]110、獲取用戶搜索行為日志。
[0035]用戶通過各種搜索引擎進(jìn)行搜索是一種常見的獲取信息的方式。用戶的每一次搜索操作,搜索引擎都會(huì)形成相應(yīng)的用戶搜索行為日志,不僅包括用戶輸入的搜索詞,還包括相應(yīng)的搜索結(jié)果,以及用戶對(duì)某些具體的搜索結(jié)果的點(diǎn)擊等信息。
[0036]本操作中對(duì)用戶搜索行為日志的來源不進(jìn)行限制,既可以是移動(dòng)終端的用戶搜索行為日志,也可以是PC端的用戶搜索行為日志。進(jìn)一步地,對(duì)于移動(dòng)終端和/或PC端而言,既可以是某一垂直頻道分類搜索(例如,百度搜索引擎中“網(wǎng)頁”這一垂直分類搜索)對(duì)應(yīng)的用戶搜索行為日志,還可以是多個(gè)垂直頻道分類搜索(例如,百度搜索引擎中“網(wǎng)頁”和“地圖”兩個(gè)垂直分類搜索)對(duì)應(yīng)的用戶搜索行為日志,還可以擴(kuò)大到全平臺(tái)的用戶搜索行為日志。
[0037]本操作中,通常是獲取設(shè)定時(shí)間內(nèi)(例如3個(gè)月)的用戶搜索行為日志。
[0038]120、從所述用戶搜索行為日志中提取各搜索詞,以及對(duì)應(yīng)的被點(diǎn)擊的搜索結(jié)果。
[0039]130、根據(jù)所述被點(diǎn)擊的搜索結(jié)果確定搜索詞所屬行業(yè),將所述搜索詞作為精確索引詞,建立并保存所述精確索引詞和對(duì)應(yīng)的行業(yè)的詞條對(duì),形成精確詞典。
[0040]在對(duì)于同一搜索詞的多次搜索過程中,由于不同用戶的搜索需求不同,導(dǎo)致有的搜索結(jié)果的被點(diǎn)擊,有的搜索結(jié)果不被點(diǎn)擊,由于被點(diǎn)擊的搜索結(jié)果通常反映的是用戶的搜索需求,因此根據(jù)被點(diǎn)擊的搜索結(jié)果確定搜索詞所屬行業(yè),基于此,得到的詞條對(duì)的準(zhǔn)確率高。
[0041]對(duì)于有些搜索詞,根據(jù)被點(diǎn)擊的搜索結(jié)果只能確定這些搜索詞只對(duì)應(yīng)一個(gè)行業(yè);而對(duì)于另外一些搜索詞,根據(jù)被點(diǎn)擊的搜索結(jié)果可以確定這些搜索詞同時(shí)對(duì)應(yīng)多個(gè)行業(yè),因此,精確詞典中的詞條對(duì)有兩種形式,一種是一對(duì)一的詞條對(duì),一種是一對(duì)多的詞條對(duì)。
[0042]例如,假設(shè)搜索詞為“肯德基”,被點(diǎn)擊的搜索結(jié)果有:包含有肯德基門店信息的搜索結(jié)果,包含有肯德基網(wǎng)上訂餐的搜索結(jié)果,以及包含有肯德基團(tuán)購信息的搜索結(jié)果,根據(jù)這些被點(diǎn)擊的搜索結(jié)果,可
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1