亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種信息檢索的方法和系統(tǒng)與流程

文檔序號:12008857閱讀:243來源:國知局
一種信息檢索的方法和系統(tǒng)與流程
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種信息檢索的方法和系統(tǒng)。

背景技術(shù):
在現(xiàn)有的信息檢索發(fā)布系統(tǒng)中,按照傳統(tǒng)網(wǎng)頁搜索的檢索方法、即按照檢索串(query)中多個核心語素的“與”操作進行檢索,例如:某個檢索串包含A、B、C這三個核心語素,那么按照傳統(tǒng)網(wǎng)頁搜索的檢索方法,即是按照A、B、C的“與”操作進行檢索,也就是能同時匹配到A、B、C這三個核心語素的互聯(lián)網(wǎng)發(fā)布信息才會被檢索出來,作為檢索結(jié)果。上述檢索方法會導(dǎo)致大量的匹配無結(jié)果,因此,目前的做法是擴展匹配端,在離線情況下按照一定的時間窗口從用戶檢索日志(querylog)中篩選出高頻query(即出現(xiàn)頻率高于一定閾值的query);通過語義分析服務(wù)模塊,獲取這些query的網(wǎng)頁搜索結(jié)果并分析其特征;同時對每一個篩選的query,通過整合各query擴展結(jié)果和關(guān)鍵詞擴展,生成最初的關(guān)鍵詞候選列表,該列表中包括用于匹配query的關(guān)鍵詞。然后,query關(guān)鍵詞映射子系統(tǒng)為每一對query和關(guān)鍵詞計算各種用于衡量兩者相關(guān)度的特征,包括各種文本相似度、語義相似度等。最后,對每一對query和關(guān)鍵詞及其各種特征,進行相關(guān)度預(yù)測,按照相關(guān)度得分對候選關(guān)鍵詞篩選和排序,得到query的最終關(guān)鍵詞映射表,即QA(QueryAnalysis,檢索串分析)詞表。其中,QA詞表是指query到關(guān)鍵詞的hash(哈希)詞表,該詞表的左鍵為一定的時間窗口內(nèi)的querylog所統(tǒng)計出來的高頻query,右鍵為高頻query映射到的互聯(lián)網(wǎng)發(fā)布信息的數(shù)據(jù)庫中與該query文本語義相似的關(guān)鍵詞或關(guān)鍵詞系列,即QA詞表維護的是高頻query與關(guān)鍵詞的映射關(guān)系。在檢索端進行query分析并匹配互聯(lián)網(wǎng)發(fā)布信息時,會從QA詞表中查找query所對應(yīng)的關(guān)鍵詞,然后在關(guān)鍵詞-互聯(lián)網(wǎng)發(fā)布信息索引中找到相應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果。然而,在現(xiàn)有的檢索方法和系統(tǒng)中,query只有精確命中QA詞表,才能匹配出相應(yīng)的關(guān)鍵詞,并未充分利用query之間的相關(guān)性,從而導(dǎo)致檢索結(jié)果對互聯(lián)網(wǎng)發(fā)布信息的覆蓋率較低。

技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明的主要目的在于提供一種信息檢索的方法和系統(tǒng),以充分利用query之間的相關(guān)性,提高信息檢索結(jié)果對互聯(lián)網(wǎng)發(fā)布信息的覆蓋率。為達到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:本發(fā)明提供了一種信息檢索的方法,該方法包括:基于檢索串query的擴展對基礎(chǔ)檢索串分析QA詞表進行二次映射過程,生成二級映射的QA詞表;其中,所述基礎(chǔ)QA詞表包括高頻query到關(guān)鍵詞的映射,所述二級映射的QA詞表中的第一級映射為擴展query到高頻query的映射,第二級映射為高頻query到關(guān)鍵詞的映射;根據(jù)獲取的信息檢索請求中的檢索串,進行所述二級映射的QA詞表的查找,得到所述檢索串命中的關(guān)鍵詞,并提取所述關(guān)鍵詞對應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果。較佳的,所述query的擴展具體為:依據(jù)檢索日志,采用基于會話session的query擴展、和/或基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展、和/或基于相關(guān)搜索的query擴展,得到多個query相關(guān)系列。較佳的,所述基于query的擴展對基礎(chǔ)QA詞表進行二次映射過程,生成二級映射的QA詞表,具體為:對于query擴展得到的每一個query相關(guān)系列,在判斷所述query相關(guān)系列中存在與所述基礎(chǔ)QA詞表中相同的高頻query時,將所述query相關(guān)系列中除所述高頻query之外的其他query添加為所述高頻query的擴展query,生成擴展query到高頻query的初始的第一級映射;計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度,并過濾掉相似度小于預(yù)設(shè)閾值的擴展query,保留相似度大于或等于預(yù)設(shè)閾值的擴展query,得到最終的第一級映射;根據(jù)所述最終的第一級映射和所述基礎(chǔ)QA詞表,生成二級映射的QA詞表。較佳的,該方法進一步包括:根據(jù)相關(guān)性邏輯回歸模型計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度,具體為:接收人工標注的標準集,所述標準集中包括人工標注的擴展query到高頻query的映射;計算所述標準集中每一個擴展query到高頻query映射的特征值,并隨機將所述標準集劃分為訓(xùn)練集和校驗集;用所述訓(xùn)練集進行相關(guān)性邏輯回歸模型訓(xùn)練,得到用于評價擴展query和高頻query相關(guān)性的初始邏輯回歸模型,再用所述校驗集對所述初始邏輯回歸模型進行評價,根據(jù)評價結(jié)果優(yōu)化特征選擇,得到最終的相關(guān)性邏輯回歸模型;根據(jù)最終的相關(guān)性邏輯回歸模型,通過下式計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度:其中,q1表示擴展query,q2表示高頻query,n表示特征總數(shù),fi(q1,q2)表示擴展query到高頻query映射的第i個特征值,wi表示第i個特征的權(quán)重。較佳的,所述特征值包括擴展query與對應(yīng)高頻query之間的文本相似度特征值和類別相似度特征值,所述文本相似度特征值包括以下至少之一:擴展query與對應(yīng)高頻query之間的tanimoto系數(shù)、字面相似度、共同短語term率、編輯距離、最長公共子串。較佳的,所述根據(jù)獲取的信息檢索請求中的檢索串,進行所述二級映射的QA詞表的查找,得到所述檢索串命中的關(guān)鍵詞,具體為:根據(jù)所述信息檢索請求中的檢索串查找所述二級映射的QA詞表中的第一級映射,獲取與所述檢索串匹配的擴展query所對應(yīng)的高頻query,再提取第二級映射中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞。較佳的,該方法進一步包括:根據(jù)獲取的信息檢索請求中的檢索串,先查找基礎(chǔ)QA詞表,如果匹配到所述基礎(chǔ)QA詞表中的高頻query,則提取所述基礎(chǔ)QA詞表中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞,不再進行所述二級映射的QA詞表的查找;如果未匹配到所述基礎(chǔ)QA詞表中的高頻query,則進行所述二級映射的QA詞表的查找。本發(fā)明還提供了一種信息檢索的系統(tǒng),該系統(tǒng)包括:二級映射詞表生成模塊,用于基于檢索串query的擴展對基礎(chǔ)檢索串分析QA詞表進行二次映射過程,生成二級映射的QA詞表;其中,所述基礎(chǔ)QA詞表包括高頻query到關(guān)鍵詞的映射,所述二級映射的QA詞表中的第一級映射為擴展query到高頻query的映射,第二級映射為高頻query到關(guān)鍵詞的映射;信息檢索模塊,用于根據(jù)獲取的信息檢索請求中的檢索串,進行所述二級映射的QA詞表的查找,得到所述檢索串命中的關(guān)鍵詞,并提取所述關(guān)鍵詞對應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果。較佳的,所述二級映射詞表生成模塊進一步用于,依據(jù)檢索日志,采用基于會話session的query擴展、和/或基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展、和/或基于相關(guān)搜索的query擴展,得到多個query相關(guān)系列。較佳的,所述二級映射詞表生成模塊進一步用于,對于query擴展得到的每一個query相關(guān)系列,在判斷所述query相關(guān)系列中存在與所述基礎(chǔ)QA詞表中相同的高頻query時,將所述query相關(guān)系列中除所述高頻query之外的其他query添加為所述高頻query的擴展query,生成擴展query到高頻query的初始的第一級映射;計算所述初始的第一級映射中的各擴展query與高頻query的相似度,并過濾掉相似度小于預(yù)設(shè)閾值的擴展query,保留相似度大于或等于預(yù)設(shè)閾值的擴展query,得到最終的第一級映射;根據(jù)所述最終的第一級映射和所述基礎(chǔ)QA詞表,生成二級映射的QA詞表。較佳的,所述二級映射詞表生成模塊進一步用于,根據(jù)相關(guān)性邏輯回歸模型計算所述初始的第一級映射中的各擴展query與高頻query的相似度,具體為:接收人工標注的標準集,所述標準集中包括人工標注的擴展query到高頻query的映射;計算所述標準集中每一個擴展query到高頻query映射的特征值,并隨機將所述標準集劃分為訓(xùn)練集和校驗集;用所述訓(xùn)練集進行相關(guān)性邏輯回歸模型訓(xùn)練,得到用于評價擴展query和高頻query相關(guān)性的初始邏輯回歸模型,再用所述校驗集對所述初始邏輯回歸模型進行評價,根據(jù)評價結(jié)果優(yōu)化特征選擇,得到最終的相關(guān)性邏輯回歸模型;根據(jù)最終的相關(guān)性邏輯回歸模型,通過下式計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度:其中,q1表示擴展query,q2表示高頻query,n表示特征總數(shù),fi(q1,q2)表示擴展query和高頻query對的第i個特征值,wi表示第i個特征的權(quán)重。較佳的,所述特征值包括擴展query與對應(yīng)高頻query之間的文本相似度特征值和類別相似度特征值,所述文本相似度特征值包括以下至少之一:擴展query與對應(yīng)高頻query之間的tanimoto系數(shù)、字面相似度、共同短語term率、編輯距離、最長公共子串。較佳的,所述信息檢索模塊進一步用于,根據(jù)所述信息檢索請求中的檢索串查找所述二級映射的QA詞表中的第一級映射,獲取與所述檢索串匹配的擴展query所對應(yīng)的高頻query,再提取第二級映射中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞。較佳的,所述信息檢索模塊進一步用于,根據(jù)獲取的信息檢索請求中的檢索串,先查找基礎(chǔ)QA詞表,如果匹配到所述基礎(chǔ)QA詞表中的高頻query,則提取所述基礎(chǔ)QA詞表中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞,不再進行所述二級映射的QA詞表的查找;如果未匹配到所述基礎(chǔ)QA詞表中的高頻query,則進行所述二級映射的QA詞表的查找。本發(fā)明所提供的一種信息檢索的方法和系統(tǒng),豐富了QA詞表的左鍵入口,可以更加充分地利用基礎(chǔ)QA詞表,提升信息檢索對互聯(lián)網(wǎng)發(fā)布信息的覆蓋率,提高信息檢索的準確率,提高檢索性能。附圖說明圖1為本發(fā)明實施例的一種信息檢索的方法流程圖;圖2為本發(fā)明實施例中二級映射的QA詞表的結(jié)構(gòu)示意圖;圖3為本發(fā)明實施例中根據(jù)相關(guān)性邏輯回歸模型計算初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度的過程示意圖;圖4為圖1所示的步驟101的具體執(zhí)行過程的示意圖;圖5為圖1所示的步驟102具體執(zhí)行過程的示意圖;圖6為本發(fā)明實施例的一種信息檢索的系統(tǒng)結(jié)構(gòu)示意圖。具體實施方式下面結(jié)合附圖和具體實施例對本發(fā)明的技術(shù)方案進一步詳細闡述。本發(fā)明實施例提供的一種信息檢索的方法如圖1所示,主要包括以下步驟:步驟101,基于query的擴展對基礎(chǔ)QA詞表進行二次映射過程,生成二級映射的QA詞表;其中,基礎(chǔ)QA詞表包括高頻query到關(guān)鍵詞的映射,二級映射的QA詞表中的第一級映射為擴展query到高頻query的映射,第二級映射為高頻query到關(guān)鍵詞的映射。所謂基礎(chǔ)QA詞表,是指query到關(guān)鍵詞的hash詞表,該詞表的左鍵為一定的時間窗口內(nèi)的querylog所統(tǒng)計出來的高頻query,右鍵為高頻query映射到的互聯(lián)網(wǎng)發(fā)布信息的數(shù)據(jù)庫中與該query文本語義相似的關(guān)鍵詞或關(guān)鍵詞系列,即基礎(chǔ)QA詞表維護的是高頻query與關(guān)鍵詞(或關(guān)鍵詞系列)的映射關(guān)系。該基礎(chǔ)QA詞表可以通過專門的QBM(檢索串關(guān)鍵詞合并)模塊離線處理得到。所謂互聯(lián)網(wǎng)發(fā)布信息,是指互聯(lián)網(wǎng)信息發(fā)布方通過信息檢索發(fā)布系統(tǒng)發(fā)布的信息,包括:地理信息、人文信息、商戶信息等等。這些互聯(lián)網(wǎng)發(fā)布信息通過專門的數(shù)據(jù)庫存儲。其中,query的擴展處理后得到多個query相關(guān)系列,query的擴展可以采用以下方式的至少之一:一、依據(jù)一定的時間窗口內(nèi)的querylog,采用基于會話(session)的query擴展;二、依據(jù)一定的時間窗口內(nèi)的querylog,采用基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展;三、依據(jù)一定的時間窗口內(nèi)的querylog,采用基于相關(guān)搜索的query擴展?;趕ession的query擴展,主要包括以下操作:先對檢索日志中的query進行歸一化和噪聲詞匯過濾處理;然后,將同一個用戶在一段連續(xù)時間里檢索過的query歸并為一個query系列,統(tǒng)計每個query在一天的日志里出現(xiàn)的次數(shù),以及每任意兩個query在一天的日志中出現(xiàn)在同一個query系列的次數(shù);在一個大時間區(qū)間里(例如1個月),將上面得到的每一天的query系列以及統(tǒng)計的頻次信息合并起來,利用似然比公式計算query之間的似然比特征值LLR,并利用此特征值對query擴展結(jié)果進行過濾(例如,LLR小于預(yù)設(shè)閾值的query相關(guān)系列被過濾);最后將多天的query擴展結(jié)果排重合并,并按照似然比特征值對query擴展結(jié)果排序,得到query相關(guān)系列。似然比公式如下:LLR=logb(c12;c1,p)+logb(c2-c12;N-c1,p)-logb(c12;c1,p1)-logb(c2-c12;N-c1,p2)其中,c1為query1在大時間區(qū)間里出現(xiàn)的總頻次,c1為query2在大時間區(qū)間里出現(xiàn)的總頻次,c12為query1與query2同時出現(xiàn)在一個query相關(guān)系列的總頻次,N為大時間區(qū)間里所有query的總頻次。基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展,主要包括以下操作:由于在信息檢索發(fā)布系統(tǒng)中觸發(fā)了同一條互聯(lián)網(wǎng)發(fā)布信息展示的不同query之間可能是有聯(lián)系的,如果這樣的互聯(lián)網(wǎng)發(fā)布信息還會被共同點擊,則不同的query間可能蘊含著相同的意圖;因此,基于互聯(lián)網(wǎng)發(fā)布信息的點擊日志,可以將觸發(fā)了同一條互聯(lián)網(wǎng)發(fā)布信息展示的不同query聚合在一起,組成一個query相關(guān)系列。例如:搜索queryA時會有幾條互聯(lián)網(wǎng)發(fā)布信息展示,搜索queryB時也會有幾條互聯(lián)網(wǎng)發(fā)布信息展示,如果搜索queryA和搜索queryB時展示的互聯(lián)網(wǎng)發(fā)布信息中存在相同的互聯(lián)網(wǎng)發(fā)布信息,且此相同的互聯(lián)網(wǎng)發(fā)布信息都被用戶點擊,則認為queryA和queryB是存在相關(guān)性的,從而將queryA和queryB聚合到一個query相關(guān)系列中?;谙嚓P(guān)搜索的query擴展,主要包括以下操作:搜索引擎在響應(yīng)用戶查詢請求時,會“猜測”用戶可能的檢索意圖,針對檢索query自動進行一些擴展;例如:用戶搜索“劉德華”,搜索引擎返回自然結(jié)果的同時,還會將相關(guān)的檢索query呈現(xiàn)給用戶,如“劉德華電影”、“劉德華演唱會”、“劉德華微博”等;用戶搜索“玫瑰花”,搜索引擎返回自然結(jié)果的同時,還會將相關(guān)的檢索query呈現(xiàn)給用戶,如“鮮花”、“白玫瑰”、“藍玫瑰”、“黃玫瑰”等等。利用搜索引擎的這種智能提示,可以對高頻query進行擴展,得到對應(yīng)的query相關(guān)系列?;趒uery的擴展對基礎(chǔ)QA詞表進行二次映射過程,生成二級映射的QA詞表,具體包括:對于上述query擴展得到的每一個query相關(guān)系列,在判斷所述query相關(guān)系列中存在與基礎(chǔ)QA詞表中相同的高頻query時,將所述query相關(guān)系列中除所述高頻query之外的其他query添加為所述高頻query的擴展query,生成擴展query到高頻query的初始的第一級映射;計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度,并過濾掉相似度小于預(yù)設(shè)閾值的擴展query,保留相似度大于或等于預(yù)設(shè)閾值的擴展query,得到最終的第一級映射;根據(jù)最終的第一級映射和基礎(chǔ)QA詞表,生成二級映射的QA詞表。生成的二級映射的QA詞表參見圖2,在圖2所示的QA詞表中,第一級映射為擴展query到高頻query的映射,第一級映射的左鍵為擴展query,右鍵為高頻query;第二級映射為高頻query到關(guān)鍵詞(或關(guān)鍵詞系列)的映射,第二級映射的左鍵為高頻query,右鍵為關(guān)鍵詞(或關(guān)鍵詞系列)。其中,基礎(chǔ)QA詞表即作為第二級映射,二級映射的QA詞表中需保證第一級映射的左鍵在第二級映射的左鍵中未出現(xiàn),第一級映射的右鍵在第二級映射的左鍵中出現(xiàn)。需要說明的是,本發(fā)明的實施例可以根據(jù)相關(guān)性邏輯回歸模型計算初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度,當(dāng)然,本發(fā)明實施例中計算初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度的方法并不僅限于此,實際應(yīng)用中任何能夠用于計算得到以上相似度的方法應(yīng)當(dāng)都屬于本發(fā)明實施例的保護范圍。其中,根據(jù)相關(guān)性邏輯回歸模型計算初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度的具體操作過程,如圖3所示,具體包括:接收人工標注的標準集,所述標準集中包括人工標注的擴展query到高頻query的映射;計算所述標準集中每一個擴展query到高頻query映射的特征值,并隨機將所述標準集劃分為訓(xùn)練集和校驗集;用所述訓(xùn)練集進行相關(guān)性邏輯回歸模型訓(xùn)練,得到用于評價擴展query和高頻query相關(guān)性的初始邏輯回歸模型,再用所述校驗集對所述初始邏輯回歸模型進行評價,根據(jù)評價結(jié)果優(yōu)化特征選擇(如增加特征、刪除特征、進行特征組合等等),得到最終的相關(guān)性邏輯回歸模型;根據(jù)最終的相關(guān)性邏輯回歸模型,通過下式(將初始的第一級映射中的各擴展query到高頻query映射的特征值代入下式)計算初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度:其中,q1表示擴展query,q2表示高頻query,n表示特征總數(shù),fi(q1,q2)表示擴展query到高頻query映射的第i個特征值,wi表示第i個特征的權(quán)重。所述特征值包括擴展query與對應(yīng)高頻query之間的文本相似度特征值和類別相似度特征值,所述文本相似度特征值包括以下至少之一:擴展query與對應(yīng)高頻query之間的tanimoto系數(shù)、字面相似度、共同短語(term)率、編輯距離、最長公共子串。其中,tanimoto系數(shù)A、B表示任意兩個query;字面相似度A、B表示任意兩個query;共同term率=切詞后A與B共有的短語個數(shù)×2/切詞后A與B的短語個數(shù)總和,A、B表示任意兩個query;編輯距離,又稱Levenshtein距離,是指兩個字串之間由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù);最長公共子串:一個序列S,如果分別是兩個已知字符序列(如A、B)的子序列,且是所有符合此條件序列中最長的,則S稱為兩個已知字符序列的最長公共子序列,可以用于描述兩個字符系列之間的相似度。步驟101的詳細操作可參見圖4所示的示意圖,依據(jù)一定的時間窗口內(nèi)的querylog,采用基于session的query擴展、基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展和基于相關(guān)搜索的query擴展,并將擴展query的結(jié)果合并得到多個query相關(guān)系列;然后,對于每一個query相關(guān)系列,基于基礎(chǔ)QA詞表進行二次映射過程,生成二級映射的QA詞表。在進行二次映射過程中需要用到相關(guān)性邏輯回歸模型,具體執(zhí)行過程參見前述說明。步驟102,根據(jù)獲取的信息檢索請求中的檢索串,進行所述二級映射的QA詞表的查找,得到所述檢索串命中的關(guān)鍵詞,并提取所述關(guān)鍵詞對應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果。二級映射的QA詞表查找的具體操作為:根據(jù)信息檢索請求中的檢索串查找二級映射的QA詞表中的第一級映射,獲取與檢索串匹配的擴展query所對應(yīng)的高頻query,再提取第二級映射中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞。作為本發(fā)明的一種優(yōu)選實施例,還可以根據(jù)獲取的信息檢索請求中的檢索串,先查找基礎(chǔ)QA詞表,如果匹配到所述基礎(chǔ)QA詞表中的高頻query,則提取所述基礎(chǔ)QA詞表中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞,不再進行所述二級映射的QA詞表的查找;如果未匹配到所述基礎(chǔ)QA詞表中的高頻query,則再進行所述二級映射的QA詞表的查找。如果信息檢索請求中的檢索串在基礎(chǔ)QA詞表和二級映射的QA詞表中都未命中到相應(yīng)的關(guān)鍵詞,則可以選擇其他可行的命中關(guān)鍵詞的方法繼續(xù)進行。具體操作過程參見圖5。對應(yīng)上述信息檢索的方法,本發(fā)明實施例還提供了一種信息檢索的系統(tǒng),如圖6所示,主要包括:二級映射詞表生成模塊10和信息檢索模塊20;其中,二級映射詞表生成模塊10,用于基于query的擴展對基礎(chǔ)QA詞表進行二次映射過程,生成二級映射的QA詞表;其中,所述基礎(chǔ)QA詞表包括高頻query到關(guān)鍵詞的映射,所述二級映射的QA詞表中的第一級映射為擴展query到高頻query的映射,第二級映射為高頻query到關(guān)鍵詞的映射;信息檢索模塊20,用于根據(jù)獲取的信息檢索請求中的檢索串,進行二級映射的QA詞表的查找,得到該檢索串命中的關(guān)鍵詞,并提取該關(guān)鍵詞對應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果。較佳的,二級映射詞表生成模塊10可進一步用于,依據(jù)檢索日志,采用基于session的query擴展、和/或基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展、和/或基于相關(guān)搜索的query擴展,得到多個query相關(guān)系列。較佳的,二級映射詞表生成模塊10還可進一步用于,對于query擴展得到的每一個query相關(guān)系列,在判斷所述query相關(guān)系列中存在與基礎(chǔ)QA詞表中相同的高頻query時,將所述query相關(guān)系列中除所述高頻query之外的其他query添加為所述高頻query的擴展query,生成擴展query到高頻query的初始的第一級映射;計算初始的第一級映射中的各擴展query與高頻query的相似度,并過濾掉相似度小于預(yù)設(shè)閾值的擴展query,保留相似度大于或等于預(yù)設(shè)閾值的擴展query,得到最終的第一級映射;根據(jù)最終的第一級映射和基礎(chǔ)QA詞表,生成二級映射的QA詞表。較佳的,二級映射詞表生成模塊10還可進一步用于,根據(jù)相關(guān)性邏輯回歸模型計算初始的第一級映射中的各擴展query與高頻query的相似度,具體為:接收人工標注的標準集,所述標準集中包括人工標注的擴展query到高頻query的映射;計算所述標準集中每一個擴展query到高頻query映射的特征值,并隨機將所述標準集劃分為訓(xùn)練集和校驗集;用所述訓(xùn)練集進行相關(guān)性邏輯回歸模型訓(xùn)練,得到用于評價擴展query和高頻query相關(guān)性的初始邏輯回歸模型,再用所述校驗集對所述初始邏輯回歸模型進行評價,根據(jù)評價結(jié)果優(yōu)化特征選擇,得到最終的相關(guān)性邏輯回歸模型;根據(jù)最終的相關(guān)性邏輯回歸模型,通過下式計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度:其中,q1表示擴展query,q2表示高頻query,n表示特征總數(shù),fi(q1,q2)表示擴展query和高頻query對的第i個特征值,wi表示第i個特征的權(quán)重。所述特征值包括擴展query與對應(yīng)高頻query之間的文本相似度特征值和類別相似度特征值,所述文本相似度特征值包括以下至少之一:擴展query與對應(yīng)高頻query之間的tanimoto系數(shù)、字面相似度、共同term率、編輯距離、最長公共子串。較佳的,信息檢索模塊20可進一步用于,根據(jù)信息檢索請求中的檢索串查找二級映射的QA詞表中的第一級映射,獲取與所述檢索串匹配的擴展query所對應(yīng)的高頻query,再提取第二級映射中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞。較佳的,信息檢索模塊20還可進一步用于,根據(jù)獲取的信息檢索請求中的檢索串,先查找基礎(chǔ)QA詞表,如果匹配到基礎(chǔ)QA詞表中的高頻query,則提取基礎(chǔ)QA詞表中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞,不再進行二級映射的QA詞表的查找;如果未匹配到基礎(chǔ)QA詞表中的高頻query,則進行二級映射的QA詞表的查找。另外,作為本發(fā)明的一種優(yōu)選實施方式,信息檢索的系統(tǒng)還可以添加一個實時的檢索串重寫模塊(圖6中未示出),連接信息檢索模塊20,用于對通過上述方法未能命中到關(guān)鍵詞的檢索串進行適當(dāng)?shù)淖冃?例如刪除檢索串中的若干核心元素)后,重新送入信息檢索模塊20執(zhí)行新一輪的檢索流程;依此類推,直到命中到關(guān)鍵詞。綜上所述,本發(fā)明實施例利用基于session的query擴展、基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展、基于相關(guān)搜索的query擴展等方法,在query集合中建立一個關(guān)聯(lián)的query網(wǎng)絡(luò);然后對query之間的相關(guān)性進行校驗,提取出高質(zhì)量的關(guān)聯(lián)query。在具體實現(xiàn)中采用hashmap數(shù)據(jù)結(jié)構(gòu)來表示這種關(guān)聯(lián)關(guān)系,該map的右鍵(mapvalue)為一定的時間窗口中從用戶檢索日志中篩選出的高頻query,該map的左鍵(mapkey)為高頻query相關(guān)的擴展query。而高頻query與關(guān)鍵詞的映射關(guān)系可以通過QBM模塊離線處理得到。這樣就形成了一個二級映射的QA詞表,相當(dāng)于對原有基礎(chǔ)QA詞表的左鍵進行了擴充;該二級映射的QA詞表中的第一級映射為擴展query到高頻query的映射,第二級映射為高頻query到關(guān)鍵詞的映射。本發(fā)明的實施例豐富了QA詞表的左鍵入口,可以更加充分地利用基礎(chǔ)QA詞表,提升互聯(lián)網(wǎng)發(fā)布信息的覆蓋率。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1