亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種智能數(shù)據(jù)搜索系統(tǒng)及方法

文檔序號(hào):6619724閱讀:206來源:國知局
一種智能數(shù)據(jù)搜索系統(tǒng)及方法
【專利摘要】本發(fā)明涉及計(jì)算機(jī)信息系統(tǒng)中的數(shù)據(jù)處理領(lǐng)域,特別涉及一種智能數(shù)據(jù)搜索系統(tǒng)及方法。其中方法包括,獲取搜索輸入信息;根據(jù)所述搜索輸入信息識(shí)別出搜索意圖;根據(jù)所述搜索輸入信息和搜索意圖在數(shù)據(jù)庫中進(jìn)行搜索。通過上述實(shí)施例中的方法及系統(tǒng),將使搜索引擎通過查詢關(guān)鍵字等搜索輸入的意圖領(lǐng)域,針對(duì)性的搜索和展現(xiàn);并通過用戶的偏好識(shí)別,理解用戶潛在的、個(gè)性化的搜索需求,通過排序的方式優(yōu)先返回最符合用戶需要的搜索結(jié)果。以此提高查詢效率、準(zhǔn)確度,提升用戶在使用搜索引擎進(jìn)行搜索時(shí)的用戶體驗(yàn)。
【專利說明】一種智能數(shù)據(jù)搜索系統(tǒng)及方法

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)信息系統(tǒng)中的數(shù)據(jù)處理領(lǐng)域,特別涉及一種智能數(shù)據(jù)搜索系統(tǒng)及方法。

【背景技術(shù)】
[0002]搜索引擎為用戶提供了一個(gè)快速查找信息系統(tǒng)中海量資源的渠道。然而傳統(tǒng)的通用搜索引擎中,由于其要適用廣泛的要求,其智能性往往不高。因?yàn)樘岣咂渲悄苄员囟ù蠓档退阉鞯男?,讓搜索引擎不堪重?fù)。因此,通用的搜索引擎在信息查找時(shí)往往存在很多的缺陷,大多數(shù)用戶并不能十分準(zhǔn)確地用查詢詞表達(dá)自己的搜索意圖,而使得搜索引擎無法提供精準(zhǔn)、高效、個(gè)性化的搜索服務(wù),甚至根本就搜索不到用戶真正需要查找的信息。
[0003]本發(fā)明的發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少包括以下兩方面的問題:
[0004]無法理解用戶輸入的查詢詞所涉及的領(lǐng)域并進(jìn)行針對(duì)性的搜索和展現(xiàn)。如搜索引擎應(yīng)理解用戶輸入的是一個(gè)人名,還是產(chǎn)品名稱,還是客戶名稱。雖然可用高級(jí)搜索方式代替,但通過填寫一張表格的方式來完成搜索過于繁瑣,不被大多數(shù)用戶所接受。
[0005]無法理解用戶潛在的個(gè)性化需求。不同用戶即使輸入相同的查詢詞,需求往往也是不同的,過于通用的搜索結(jié)果將導(dǎo)致用戶難以在大量的搜索結(jié)果中找到自己確切要找的信息。


【發(fā)明內(nèi)容】

[0006]為了解決現(xiàn)有技術(shù)中搜索不夠智能的問題,本發(fā)明的目的是采用更智能的搜索方法,識(shí)別用戶的搜索意圖,識(shí)別用戶輸入的查詢詞所屬領(lǐng)域,進(jìn)行針對(duì)性的搜索和展現(xiàn);并且識(shí)別用戶的個(gè)性化偏好,通過排序的方式優(yōu)先返回最滿足用戶潛在意圖的搜索結(jié)果。
[0007]本發(fā)明實(shí)施例提供了一種智能數(shù)據(jù)搜索方法,包括,
[0008]獲取搜索輸入信息;
[0009]根據(jù)所述搜索輸入信息識(shí)別出搜索意圖;
[0010]根據(jù)所述搜索輸入信息和搜索意圖在數(shù)據(jù)庫中進(jìn)行搜索。
[0011]根據(jù)本發(fā)明實(shí)施例所述一種智能數(shù)據(jù)搜索方法的一個(gè)進(jìn)一步的方面,所述根據(jù)所述搜索輸入信息識(shí)別出搜索意圖進(jìn)一步包括,計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率,所述概率最高的一個(gè)或者幾個(gè)意圖領(lǐng)域?yàn)樗鏊阉饕鈭D。
[0012]根據(jù)本發(fā)明實(shí)施例所述一種智能數(shù)據(jù)搜索方法的再一個(gè)進(jìn)一步的方面,所述計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率進(jìn)一步包括,通過以下公式識(shí)別搜索輸入信息在某個(gè)意圖領(lǐng)域的概率:
[0013]P (S) = # (W1)/#*# (W1, W2)/# (W1) *# (w2, W3)/# (W2) *...*# (Wh, Wi)/# (Wp1)
[0014]其中,P⑶為所述搜索輸入信息在某個(gè)意圖領(lǐng)域的概率,S為所述搜索輸入信息,由W1, W2, WfWn字符組成,#為某個(gè)意圖領(lǐng)域語料總大小,# (Wi^1)表示W(wǎng)p1在某個(gè)意圖領(lǐng)域中出現(xiàn)的次數(shù),S(Wi^wi)則表示W(wǎng)g,Wi前后相鄰的出現(xiàn)次數(shù)。
[0015]根據(jù)本發(fā)明實(shí)施例所述一種智能數(shù)據(jù)搜索方法的另一個(gè)進(jìn)一步的方面,在根據(jù)所述搜索輸入信息識(shí)別出搜索意圖之前還包括,在空閑時(shí)間段統(tǒng)計(jì)字符在所有意圖領(lǐng)域的出現(xiàn)次數(shù)。
[0016]根據(jù)本發(fā)明實(shí)施例所述一種智能數(shù)據(jù)搜索方法的另一個(gè)進(jìn)一步的方面,在根據(jù)所述搜索輸入信息和搜索意圖在數(shù)據(jù)庫中進(jìn)行搜索之后還包括,獲取用戶對(duì)各個(gè)維度的偏好值和每個(gè)維度的權(quán)重值,根據(jù)所述偏好值和每個(gè)維度的權(quán)重值計(jì)算每條檢索結(jié)果的綜合偏好數(shù)值,并根據(jù)該綜合偏好值對(duì)搜索結(jié)果進(jìn)行排序;
[0017]其中,z= a1x1+a2x2+a3x3...anxn
[0018]其中,z為每條檢索結(jié)果的綜合偏好數(shù)值,X1, X2,…Xn為用戶對(duì)η個(gè)維度取值的偏好值叫,a2,…,an為每個(gè)維度的權(quán)重值。
[0019]根據(jù)本發(fā)明實(shí)施例所述一種智能數(shù)據(jù)搜索方法的另一個(gè)進(jìn)一步的方面,獲取用戶對(duì)各個(gè)維度的偏好值和每個(gè)維度的權(quán)重值之前還包括,記錄用戶日常操作的偏好,統(tǒng)計(jì)記錄結(jié)果得到該用戶對(duì)各個(gè)維度的偏好值。
[0020]本發(fā)明實(shí)施例還提供了一種智能數(shù)據(jù)搜索系統(tǒng),
[0021]包括輸入單元,搜索意圖識(shí)別單元,搜索單元;
[0022]所述輸入單元,用于獲取搜索輸入信息;
[0023]所述搜索意圖識(shí)別單元,用于根據(jù)所述搜索輸入信息識(shí)別出搜索意圖;
[0024]所述搜索單元,用于根據(jù)所述搜索輸入信息和搜索意圖在數(shù)據(jù)存儲(chǔ)單元中進(jìn)行搜索。
[0025]根據(jù)本發(fā)明實(shí)施例所述一種智能數(shù)據(jù)搜索系統(tǒng)的一個(gè)進(jìn)一步的方面,所述搜索意圖識(shí)別單元進(jìn)一步用于,計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率,所述概率最高的一個(gè)或者幾個(gè)意圖領(lǐng)域?yàn)樗鏊阉饕鈭D。
[0026]根據(jù)本發(fā)明實(shí)施例所述一種智能數(shù)據(jù)搜索系統(tǒng)的再一個(gè)進(jìn)一步的方面,所述計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率進(jìn)一步包括,通過以下公式識(shí)別搜索輸入信息在某個(gè)意圖領(lǐng)域的概率:
[0027]P (S) = # (W1)/#*# (W1, W2)/# (W1) *# (w2, W3)/# (W2) *...*# (Wh, Wi)/# (Wp1)
[0028]其中,P⑶為所述搜索輸入信息在某個(gè)意圖領(lǐng)域的概率,S為所述搜索輸入信息,由W1, W2, WfWn字符組成,#為某個(gè)意圖領(lǐng)域語料總大小,# (Wi^1)表示W(wǎng)p1在某個(gè)意圖領(lǐng)域中出現(xiàn)的次數(shù),S(Wi^wi)則表示W(wǎng)g,Wi前后相鄰的出現(xiàn)次數(shù)。
[0029]根據(jù)本發(fā)明實(shí)施例所述一種智能數(shù)據(jù)搜索系統(tǒng)的另一個(gè)進(jìn)一步的方面,還包括預(yù)分析單元,與所述數(shù)據(jù)存儲(chǔ)單元相連接,用于在空閑時(shí)間段統(tǒng)計(jì)字符在所有意圖領(lǐng)域的出現(xiàn)次數(shù)。
[0030]根據(jù)本發(fā)明實(shí)施例所述一種智能數(shù)據(jù)搜索系統(tǒng)的另一個(gè)進(jìn)一步的方面,還包括用戶偏好計(jì)算單元,分別與搜索單元和數(shù)據(jù)存儲(chǔ)單元相連接,獲取用戶對(duì)各個(gè)維度的偏好值和每個(gè)維度的權(quán)重值,根據(jù)所述偏好值和每個(gè)維度的權(quán)重值計(jì)算每條檢索結(jié)果的綜合偏好數(shù)值,并根據(jù)該綜合偏好值對(duì)搜索結(jié)果進(jìn)行排序。
[0031]根據(jù)本發(fā)明實(shí)施例所述一種智能數(shù)據(jù)搜索系統(tǒng)的另一個(gè)進(jìn)一步的方面,還包括用戶日志采集單元和用戶偏好分析單元,所述用戶日志采集單元與所述數(shù)據(jù)存儲(chǔ)單元相連接,記錄用戶日常操作的偏好并存儲(chǔ)于所述數(shù)據(jù)存儲(chǔ)單元中,所述用戶偏好分析單元與所述數(shù)據(jù)存儲(chǔ)單元相連接,統(tǒng)計(jì)所述數(shù)據(jù)存儲(chǔ)單元中的記錄結(jié)果得到該用戶對(duì)各個(gè)維度的偏好值。
[0032]通過上述實(shí)施例中的方法及系統(tǒng),將使搜索引擎通過查詢關(guān)鍵字等搜索輸入的意圖領(lǐng)域,針對(duì)性的搜索和展現(xiàn);并通過用戶的偏好識(shí)別,理解用戶潛在的、個(gè)性化的搜索需求,通過排序的方式優(yōu)先返回最符合用戶需要的搜索結(jié)果。以此提高查詢效率、準(zhǔn)確度,提升用戶在使用搜索引擎進(jìn)行搜索時(shí)的用戶體驗(yàn)。

【專利附圖】

【附圖說明】
[0033]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。在附圖中:
[0034]圖1所示為本發(fā)明實(shí)施例一種智能數(shù)據(jù)搜索方法的流程圖;
[0035]圖2所示為本發(fā)明實(shí)施例一種智能數(shù)據(jù)搜索系統(tǒng)的結(jié)構(gòu)圖;
[0036]圖3所示為本發(fā)明實(shí)施例一種智能數(shù)據(jù)搜索方法的具體流程圖;
[0037]圖4所示為上述步驟302的具體流程圖;
[0038]圖5所示為本發(fā)明實(shí)施例二元模型訓(xùn)練流程圖;
[0039]圖6所示為本發(fā)明實(shí)施例關(guān)于偏好計(jì)算和處理的流程圖。

【具體實(shí)施方式】
[0040]為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例做進(jìn)一步詳細(xì)說明。在此,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,但并不作為對(duì)本發(fā)明的限定。
[0041]如圖1所示為本發(fā)明實(shí)施例一種智能數(shù)據(jù)搜索方法的流程圖。
[0042]包括步驟101,獲取搜索輸入信息。例如可以為包括至少一個(gè)字符的搜索關(guān)鍵字。
[0043]步驟102,根據(jù)所述搜索輸入信息識(shí)別出搜索意圖。
[0044]步驟103,根據(jù)所述搜索輸入信息和搜索意圖在數(shù)據(jù)庫中進(jìn)行搜索。
[0045]作為本發(fā)明的一個(gè)實(shí)施例,所述根據(jù)所述搜索輸入信息識(shí)別出搜索意圖進(jìn)一步包括,計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率,所述概率最高的一個(gè)或者幾個(gè)意圖領(lǐng)域?yàn)樗鏊阉饕鈭D。
[0046]作為本發(fā)明的一個(gè)實(shí)施例,所述計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率進(jìn)一步包括,通過以下公式識(shí)別搜索輸入信息在某個(gè)意圖領(lǐng)域的概率:
[0047]P (S) = # (W1)/#*# (W1, W2)/# (W1) *# (w2, W3)/# (W2) *...*# (Wh, Wi)/# (Wp1)
[0048]其中,P(S)為所述搜索輸入信息在某個(gè)意圖領(lǐng)域的概率,S為所述搜索輸入信息,由W1, W2, WfWn字符組成,#為某個(gè)意圖領(lǐng)域語料總大小,# (Wi^1)表示W(wǎng)p1在某個(gè)意圖領(lǐng)域中出現(xiàn)的次數(shù),S(Wi^wi)則表示W(wǎng)g,Wi前后相鄰的出現(xiàn)次數(shù)。
[0049]作為本發(fā)明的一個(gè)實(shí)施例,在根據(jù)所述搜索輸入信息識(shí)別出搜索意圖之前還包括,在空閑時(shí)間段統(tǒng)計(jì)字符在所有意圖領(lǐng)域的出現(xiàn)次數(shù)。
[0050]作為本發(fā)明的一個(gè)實(shí)施例,在根據(jù)所述搜索輸入信息和搜索意圖在數(shù)據(jù)庫中進(jìn)行搜索之后還包括,獲取用戶對(duì)各個(gè)維度的偏好值和每個(gè)維度的權(quán)重值,根據(jù)所述偏好值和每個(gè)維度的權(quán)重值計(jì)算每條檢索結(jié)果的綜合偏好數(shù)值,并根據(jù)該綜合偏好值對(duì)搜索結(jié)果進(jìn)行排序;
[0051]其中,z= a1x1+a2x2+a3x3...anxn
[0052]其中,z為每條檢索結(jié)果的綜合偏好數(shù)值,X1, X2,…Xn為用戶對(duì)η個(gè)維度取值的偏好值叫,a2,…,an為每個(gè)維度的權(quán)重值。
[0053]作為本發(fā)明的一個(gè)實(shí)施例,獲取用戶對(duì)各個(gè)維度的偏好值和每個(gè)維度的權(quán)重值之前還包括,記錄用戶日常操作的偏好,統(tǒng)計(jì)記錄結(jié)果得到該用戶對(duì)各個(gè)維度的偏好值。其中,日常操作包括對(duì)搜索結(jié)果的選擇、點(diǎn)擊、收藏等操作。
[0054]通過上述本發(fā)明實(shí)施例的智能數(shù)據(jù)搜索方法,將使搜索引擎通過查詢關(guān)鍵字等搜索輸入的意圖領(lǐng)域,針對(duì)性的搜索和展現(xiàn);并通過用戶的偏好識(shí)別,理解用戶潛在的、個(gè)性化的搜索需求,通過排序的方式優(yōu)先返回最符合用戶需要的搜索結(jié)果。以此提高查詢效率、準(zhǔn)確度,提升用戶在使用搜索引擎進(jìn)行搜索時(shí)的用戶體驗(yàn)。
[0055]如圖2所示為本發(fā)明實(shí)施例一種智能數(shù)據(jù)搜索系統(tǒng)的結(jié)構(gòu)圖。
[0056]包括輸入單元201,搜索意圖識(shí)別單元202,搜索單元203。
[0057]所述輸入單元201,用于獲取搜索輸入信息。
[0058]所述搜索意圖識(shí)別單元202,用于根據(jù)所述搜索輸入信息識(shí)別出搜索意圖。
[0059]所述搜索單元203,用于根據(jù)所述搜索輸入信息和搜索意圖在數(shù)據(jù)存儲(chǔ)單元204中進(jìn)行搜索。
[0060]作為本發(fā)明的一個(gè)實(shí)施例,所述搜索意圖識(shí)別單元202進(jìn)一步用于,計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率,所述概率最高的一個(gè)或者幾個(gè)意圖領(lǐng)域?yàn)樗鏊阉饕鈭D。
[0061]作為本發(fā)明的一個(gè)實(shí)施例,所述計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率進(jìn)一步包括,通過以下公式識(shí)別搜索輸入信息在某個(gè)意圖領(lǐng)域的概率:
[0062]P (S) = # (W1)/#*# (W1, W2)/# (W1) *# (w2, W3)/# (W2) *...*# (Wh, Wi)/# (Wh)
[0063]其中,P⑶為所述搜索輸入信息在某個(gè)意圖領(lǐng)域的概率,S為所述搜索輸入信息,由W1, W2, WfWn字符組成,#為某個(gè)意圖領(lǐng)域語料總大小,# (Wi^1)表示W(wǎng)p1在某個(gè)意圖領(lǐng)域中出現(xiàn)的次數(shù),S(Wi^wi)則表示W(wǎng)g,Wi前后相鄰的出現(xiàn)次數(shù)。
[0064]作為本發(fā)明的一個(gè)實(shí)施例,還包括預(yù)分析單元205,與所述數(shù)據(jù)存儲(chǔ)單元204相連接,用于在空閑時(shí)間段統(tǒng)計(jì)字符在所有意圖領(lǐng)域的出現(xiàn)次數(shù)。
[0065]作為本發(fā)明的一個(gè)實(shí)施例,還包括用戶偏好計(jì)算單元206,分別與搜索單元203和數(shù)據(jù)存儲(chǔ)單元204相連接,獲取用戶對(duì)各個(gè)維度的偏好值和每個(gè)維度的權(quán)重值,根據(jù)所述偏好值和每個(gè)維度的權(quán)重值計(jì)算每條檢索結(jié)果的綜合偏好數(shù)值,并根據(jù)該綜合偏好值對(duì)搜索結(jié)果進(jìn)行排序。
[0066]作為本發(fā)明的一個(gè)實(shí)施例,還包括用戶日志采集單元207和用戶偏好分析單元208,所述用戶日志采集單元207與所述數(shù)據(jù)存儲(chǔ)單元204相連接,記錄用戶日常操作的偏好并存儲(chǔ)于所述數(shù)據(jù)存儲(chǔ)單元204中,所述用戶偏好分析單元208與所述數(shù)據(jù)存儲(chǔ)單元204相連接,統(tǒng)計(jì)所述數(shù)據(jù)存儲(chǔ)單元204中的記錄結(jié)果得到該用戶對(duì)各個(gè)維度的偏好值。
[0067]所述用戶日志采集單元207通過日志的形式記錄用戶所點(diǎn)擊的搜索結(jié)果中所包含的文檔編號(hào)及各維度數(shù)據(jù)并傳遞至數(shù)據(jù)存儲(chǔ)單元204。
[0068]所述數(shù)據(jù)存儲(chǔ)單元204存儲(chǔ)的搜索引擎索引信息供搜索單元203進(jìn)行索引檢索;接收用戶日志采集單元207傳遞的收集到的日志數(shù)據(jù)并進(jìn)行存儲(chǔ);傳遞語料數(shù)據(jù)及用戶日志數(shù)據(jù)至預(yù)分析單元205和用戶偏好分析單元208供特征分析,并將統(tǒng)計(jì)分析得的數(shù)據(jù)保存到數(shù)據(jù)存儲(chǔ)單元204 ;將所述預(yù)分析單元205分析得到的數(shù)據(jù)傳遞給搜索意圖識(shí)別單元202以進(jìn)行搜索意圖識(shí)別。
[0069]所述搜索單元203還進(jìn)一步將搜索結(jié)果呈獻(xiàn)給用戶,在具有用戶偏好計(jì)算單元的實(shí)施例中,還可以將經(jīng)過偏好排序后的搜索結(jié)果發(fā)送給用戶端計(jì)算機(jī)瀏覽器或者相關(guān)用戶界面進(jìn)行呈現(xiàn)。
[0070]所述搜索意圖識(shí)別單元202,負(fù)責(zé)確定用戶輸入的查詢詞屬于哪個(gè)意圖領(lǐng)域,如在企業(yè)級(jí)信息系統(tǒng)中,往往有“人物”、“產(chǎn)品”、“客戶”、“規(guī)章制度”等領(lǐng)域,確定領(lǐng)域后,即可采用具有針對(duì)性的搜索及展現(xiàn)方式。該搜索意圖識(shí)別單元202通過二元模型計(jì)算用戶輸入的查詢詞屬于各個(gè)意圖領(lǐng)域的概率,并確定概率最大的意圖類別。處理過程如下:
[0071]假設(shè)S表不用戶輸入的查詢詞,由一串字符W1, W2, WfWn組成,η為查詢詞的長度,S屬于某個(gè)領(lǐng)域的概率,即為S在該領(lǐng)域中出現(xiàn)的概率:
[0072]P (S) =P (W1, W2, W3, *.., Wn)
[0073]假設(shè)查詢詞中任意一個(gè)字符Wi出現(xiàn)的概率只同它前面的字符Wp1有關(guān),于是該式的展開計(jì)算可簡化為:
[0074]P (S) =P (W1) *P (w21W1) *P (w31W2) *...*P (wn | W^1)
[0075]其中P(W2Iw1)表示在已知W1在領(lǐng)域中出現(xiàn)的前提下,W2接連出現(xiàn)的條件概率。
[0076]根據(jù)條件概率的計(jì)算定義可得:
[0077]P (Wi I Wh) = P (Wh, Wi) /P (Wi^1)
[0078]由于根據(jù)大數(shù)定理,只要統(tǒng)計(jì)量足夠,相對(duì)頻度就等于概率,將上式轉(zhuǎn)換為相對(duì)頻率的計(jì)算方式,即:
[0079]P (Wh, Wi) = # (Wh, Wi) /#
[0080]P(Wh) = # (Wh) /#
[0081]其中#代表用于訓(xùn)練某個(gè)領(lǐng)域的二元模型所使用的語料總大小,#(Wi_i)表示W(wǎng)p1在該領(lǐng)域中一共出現(xiàn)了多少次,S(Wi^wi)則表示W(wǎng)i^wi前后相鄰的出現(xiàn)了多少次。
[0082]因此,Pbi|wh) = # (WhJ1)/# (Wh)
[0083]綜上所述,查詢詞S屬于某個(gè)領(lǐng)域的概率可展開為:
[0084]P (S) = # (W1)/#*# (W1, W2)/# (W1) *# (w2, W3)/# (W2) *...*# (Wh, Wi)/# (Wh)
[0085]其中的各項(xiàng)統(tǒng)計(jì)值都由預(yù)分析單元205所事先統(tǒng)計(jì)計(jì)算獲得,并存儲(chǔ)在數(shù)據(jù)存儲(chǔ)單元204,聯(lián)機(jī)查詢時(shí)直接查找即得,減少聯(lián)機(jī)計(jì)算量?;蛘咴摻y(tǒng)計(jì)值可以由搜索意圖識(shí)別單元202實(shí)時(shí)從數(shù)據(jù)存儲(chǔ)單元中統(tǒng)計(jì)計(jì)算獲得。
[0086]舉例:當(dāng)用戶輸入“制度規(guī)范”時(shí),分別對(duì)每個(gè)領(lǐng)域計(jì)算以下概率:
[0087]P (制度規(guī)范)=#制/#*# (制度)/#制*# (度規(guī))/#度*# (規(guī)范)/#規(guī)
[0088]搜索意圖識(shí)別單元202計(jì)算得到“制度規(guī)范”針對(duì)于各個(gè)意圖領(lǐng)域的概率,通過比較最終可得“制度規(guī)范”屬于“規(guī)章制度”領(lǐng)域的概率最大。
[0089]對(duì)于各個(gè)領(lǐng)域分別計(jì)算P(S),并降序排序,概率最大的領(lǐng)域即為S所屬可能性最大的領(lǐng)域。
[0090]在所述數(shù)據(jù)存儲(chǔ)單元204中存儲(chǔ)有各個(gè)意圖領(lǐng)域的特征信息,包括各個(gè)單字、二元組在領(lǐng)域訓(xùn)練語料中出現(xiàn)的次數(shù),以及領(lǐng)域訓(xùn)練語料的總大小等;
[0091]用戶對(duì)每個(gè)搜索結(jié)果的歷史瀏覽、收藏日志,記錄每個(gè)搜索結(jié)果的各維度取值信息,如下表1所示:
[0092]表1:用戶日志表
[0093]

【權(quán)利要求】
1.一種智能數(shù)據(jù)搜索方法,其特征在于包括, 獲取搜索輸入信息; 根據(jù)所述搜索輸入信息識(shí)別出搜索意圖; 根據(jù)所述搜索輸入信息和搜索意圖在數(shù)據(jù)庫中進(jìn)行搜索。
2.根據(jù)權(quán)利要求1所述的一種智能數(shù)據(jù)搜索方法,其特征在于,所述根據(jù)所述搜索輸入信息識(shí)別出搜索意圖進(jìn)一步包括,計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率,所述概率最高的一個(gè)或者幾個(gè)意圖領(lǐng)域?yàn)樗鏊阉饕鈭D。
3.根據(jù)權(quán)利要求2所述的一種智能數(shù)據(jù)搜索方法,其特征在于,所述計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率進(jìn)一步包括,通過以下公式識(shí)別搜索輸入信息在某個(gè)意圖領(lǐng)域的概率:
P (S) = # (W1) /#*# (W1, W2) /# (W1) *# (w2, W3) /# (W2) *...*# (Wh, Wi) /# (Wh) 其中,P(S)為所述搜索輸入信息在某個(gè)意圖領(lǐng)域的概率,S為所述搜索輸入信息,由W1, w2,WfWn字符組成,#為某個(gè)意圖領(lǐng)域語料總大小,# (Wi^1)表示W(wǎng)p1在某個(gè)意圖領(lǐng)域中出現(xiàn)的次數(shù),S(Wi^wi)則表示W(wǎng)i+Wi前后相鄰的出現(xiàn)次數(shù)。
4.根據(jù)權(quán)利要求1所述的一種智能數(shù)據(jù)搜索方法,其特征在于,在根據(jù)所述搜索輸入信息識(shí)別出搜索意圖之前還包括,在空閑時(shí)間段統(tǒng)計(jì)字符在所有意圖領(lǐng)域的出現(xiàn)次數(shù)。
5.根據(jù)權(quán)利要求1所 述的一種智能數(shù)據(jù)搜索方法,其特征在于,在根據(jù)所述搜索輸入信息和搜索意圖在數(shù)據(jù)庫中進(jìn)行搜索之后還包括,獲取用戶對(duì)各個(gè)維度的偏好值和每個(gè)維度的權(quán)重值,根據(jù)所述偏好值和每個(gè)維度的權(quán)重值計(jì)算每條檢索結(jié)果的綜合偏好數(shù)值,并根據(jù)該綜合偏好值對(duì)搜索結(jié)果進(jìn)行排序;
其中,z = a1x1+a2x2+a3x3...anxn 其中,Z為每條檢索結(jié)果的綜合偏好數(shù)值,X1, X2,…Xn為用戶對(duì)η個(gè)維度取值的偏好值;a1; a2,…,an為每個(gè)維度的權(quán)重值。
6.根據(jù)權(quán)利要求1所述的一種智能數(shù)據(jù)搜索方法,其特征在于,獲取用戶對(duì)各個(gè)維度的偏好值和每個(gè)維度的權(quán)重值之前還包括,記錄用戶日常操作的偏好,統(tǒng)計(jì)記錄結(jié)果得到該用戶對(duì)各個(gè)維度的偏好值。
7.一種智能數(shù)據(jù)搜索系統(tǒng),其特征在于, 包括輸入單元,搜索意圖識(shí)別單元,搜索單元; 所述輸入單元,用于獲取搜索輸入信息; 所述搜索意圖識(shí)別單元,用于根據(jù)所述搜索輸入信息識(shí)別出搜索意圖; 所述搜索單元,用于根據(jù)所述搜索輸入信息和搜索意圖在數(shù)據(jù)存儲(chǔ)單元中進(jìn)行搜索。
8.根據(jù)權(quán)利要求7所述的一種智能數(shù)據(jù)搜索系統(tǒng),其特征在于,所述搜索意圖識(shí)別單元進(jìn)一步用于,計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率,所述概率最高的一個(gè)或者幾個(gè)意圖領(lǐng)域?yàn)樗鏊阉饕鈭D。
9.根據(jù)權(quán)利要求8所述的一種智能數(shù)據(jù)搜索系統(tǒng),其特征在于,所述計(jì)算所述搜索輸入信息針對(duì)于各個(gè)意圖領(lǐng)域的概率進(jìn)一步包括,通過以下公式識(shí)別搜索輸入信息在某個(gè)意圖領(lǐng)域的概率:
P (S) = # (W1) /#*# (W1, W2) /# (W1) *# (w2, W3) /# (W2) *...*# (Wh, Wi) /# (Wh) 其中,P(S)為所述搜索輸入信息在某個(gè)意圖領(lǐng)域的概率,S為所述搜索輸入信息,由W1, W2, WfWn字符組成,#為某個(gè)意圖領(lǐng)域語料總大小,# (Wi^1)表示W(wǎng)p1在某個(gè)意圖領(lǐng)域中出現(xiàn)的次數(shù),S(Wi^wi)則表示W(wǎng)g,Wi前后相鄰的出現(xiàn)次數(shù)。
10.根據(jù)權(quán)利要求7所述的一種智能數(shù)據(jù)搜索系統(tǒng),其特征在于,還包括預(yù)分析單元,與所述數(shù)據(jù)存儲(chǔ)單元相連接,用于在空閑時(shí)間段統(tǒng)計(jì)字符在所有意圖領(lǐng)域的出現(xiàn)次數(shù)。
11.根據(jù)權(quán)利要求7所述的一種智能數(shù)據(jù)搜索系統(tǒng),其特征在于,還包括用戶偏好計(jì)算單元,分別與搜索單元和數(shù)據(jù)存儲(chǔ)單元相連接,獲取用戶對(duì)各個(gè)維度的偏好值和每個(gè)維度的權(quán)重值,根據(jù)所述偏好值和每個(gè)維度的權(quán)重值計(jì)算每條檢索結(jié)果的綜合偏好數(shù)值,并根據(jù)該綜合偏好值對(duì)搜索結(jié)果進(jìn)行排序。
12.根據(jù)權(quán)利要求11所述的一種智能數(shù)據(jù)搜索系統(tǒng),其特征在于,還包括用戶日志采集單元和用戶偏好分析 單元,所述用戶日志采集單元與所述數(shù)據(jù)存儲(chǔ)單元相連接,記錄用戶日常操作的偏好并存儲(chǔ)于所述數(shù)據(jù)存儲(chǔ)單元中,所述用戶偏好分析單元與所述數(shù)據(jù)存儲(chǔ)單元相連接,統(tǒng)計(jì)所述數(shù)據(jù)存儲(chǔ)單元中的記錄結(jié)果得到該用戶對(duì)各個(gè)維度的偏好值。
【文檔編號(hào)】G06F17/30GK104077407SQ201410327035
【公開日】2014年10月1日 申請日期:2014年7月10日 優(yōu)先權(quán)日:2014年7月10日
【發(fā)明者】張佶, 范融, 盛麗曄, 于志安 申請人:中國工商銀行股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1