一種信息檢索的方法和系統(tǒng)與流程

文檔序號：12008857閱讀：243來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，尤其涉及一種信息檢索的方法和系統(tǒng)。

背景技術(shù)：
在現(xiàn)有的信息檢索發(fā)布系統(tǒng)中，按照傳統(tǒng)網(wǎng)頁搜索的檢索方法、即按照檢索串(query)中多個核心語素的“與”操作進行檢索，例如：某個檢索串包含A、B、C這三個核心語素，那么按照傳統(tǒng)網(wǎng)頁搜索的檢索方法，即是按照A、B、C的“與”操作進行檢索，也就是能同時匹配到A、B、C這三個核心語素的互聯(lián)網(wǎng)發(fā)布信息才會被檢索出來，作為檢索結(jié)果。上述檢索方法會導(dǎo)致大量的匹配無結(jié)果，因此，目前的做法是擴展匹配端，在離線情況下按照一定的時間窗口從用戶檢索日志(querylog)中篩選出高頻query(即出現(xiàn)頻率高于一定閾值的query)；通過語義分析服務(wù)模塊，獲取這些query的網(wǎng)頁搜索結(jié)果并分析其特征；同時對每一個篩選的query，通過整合各query擴展結(jié)果和關(guān)鍵詞擴展，生成最初的關(guān)鍵詞候選列表，該列表中包括用于匹配query的關(guān)鍵詞。然后，query關(guān)鍵詞映射子系統(tǒng)為每一對query和關(guān)鍵詞計算各種用于衡量兩者相關(guān)度的特征，包括各種文本相似度、語義相似度等。最后，對每一對query和關(guān)鍵詞及其各種特征，進行相關(guān)度預(yù)測，按照相關(guān)度得分對候選關(guān)鍵詞篩選和排序，得到query的最終關(guān)鍵詞映射表，即QA(QueryAnalysis，檢索串分析)詞表。其中，QA詞表是指query到關(guān)鍵詞的hash(哈希)詞表，該詞表的左鍵為一定的時間窗口內(nèi)的querylog所統(tǒng)計出來的高頻query，右鍵為高頻query映射到的互聯(lián)網(wǎng)發(fā)布信息的數(shù)據(jù)庫中與該query文本語義相似的關(guān)鍵詞或關(guān)鍵詞系列，即QA詞表維護的是高頻query與關(guān)鍵詞的映射關(guān)系。在檢索端進行query分析并匹配互聯(lián)網(wǎng)發(fā)布信息時，會從QA詞表中查找query所對應(yīng)的關(guān)鍵詞，然后在關(guān)鍵詞-互聯(lián)網(wǎng)發(fā)布信息索引中找到相應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果。然而，在現(xiàn)有的檢索方法和系統(tǒng)中，query只有精確命中QA詞表，才能匹配出相應(yīng)的關(guān)鍵詞，并未充分利用query之間的相關(guān)性，從而導(dǎo)致檢索結(jié)果對互聯(lián)網(wǎng)發(fā)布信息的覆蓋率較低。

技術(shù)實現(xiàn)要素：
有鑒于此，本發(fā)明的主要目的在于提供一種信息檢索的方法和系統(tǒng)，以充分利用query之間的相關(guān)性，提高信息檢索結(jié)果對互聯(lián)網(wǎng)發(fā)布信息的覆蓋率。為達到上述目的，本發(fā)明的技術(shù)方案是這樣實現(xiàn)的：本發(fā)明提供了一種信息檢索的方法，該方法包括：基于檢索串query的擴展對基礎(chǔ)檢索串分析QA詞表進行二次映射過程，生成二級映射的QA詞表；其中，所述基礎(chǔ)QA詞表包括高頻query到關(guān)鍵詞的映射，所述二級映射的QA詞表中的第一級映射為擴展query到高頻query的映射，第二級映射為高頻query到關(guān)鍵詞的映射；根據(jù)獲取的信息檢索請求中的檢索串，進行所述二級映射的QA詞表的查找，得到所述檢索串命中的關(guān)鍵詞，并提取所述關(guān)鍵詞對應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果。較佳的，所述query的擴展具體為：依據(jù)檢索日志，采用基于會話session的query擴展、和/或基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展、和/或基于相關(guān)搜索的query擴展，得到多個query相關(guān)系列。較佳的，所述基于query的擴展對基礎(chǔ)QA詞表進行二次映射過程，生成二級映射的QA詞表，具體為：對于query擴展得到的每一個query相關(guān)系列，在判斷所述query相關(guān)系列中存在與所述基礎(chǔ)QA詞表中相同的高頻query時，將所述query相關(guān)系列中除所述高頻query之外的其他query添加為所述高頻query的擴展query，生成擴展query到高頻query的初始的第一級映射；計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度，并過濾掉相似度小于預(yù)設(shè)閾值的擴展query，保留相似度大于或等于預(yù)設(shè)閾值的擴展query，得到最終的第一級映射；根據(jù)所述最終的第一級映射和所述基礎(chǔ)QA詞表，生成二級映射的QA詞表。較佳的，該方法進一步包括：根據(jù)相關(guān)性邏輯回歸模型計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度，具體為：接收人工標注的標準集，所述標準集中包括人工標注的擴展query到高頻query的映射；計算所述標準集中每一個擴展query到高頻query映射的特征值，并隨機將所述標準集劃分為訓(xùn)練集和校驗集；用所述訓(xùn)練集進行相關(guān)性邏輯回歸模型訓(xùn)練，得到用于評價擴展query和高頻query相關(guān)性的初始邏輯回歸模型，再用所述校驗集對所述初始邏輯回歸模型進行評價，根據(jù)評價結(jié)果優(yōu)化特征選擇，得到最終的相關(guān)性邏輯回歸模型；根據(jù)最終的相關(guān)性邏輯回歸模型，通過下式計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度：其中，q1表示擴展query，q2表示高頻query，n表示特征總數(shù)，fi(q1，q2)表示擴展query到高頻query映射的第i個特征值，wi表示第i個特征的權(quán)重。較佳的，所述特征值包括擴展query與對應(yīng)高頻query之間的文本相似度特征值和類別相似度特征值，所述文本相似度特征值包括以下至少之一：擴展query與對應(yīng)高頻query之間的tanimoto系數(shù)、字面相似度、共同短語term率、編輯距離、最長公共子串。較佳的，所述根據(jù)獲取的信息檢索請求中的檢索串，進行所述二級映射的QA詞表的查找，得到所述檢索串命中的關(guān)鍵詞，具體為：根據(jù)所述信息檢索請求中的檢索串查找所述二級映射的QA詞表中的第一級映射，獲取與所述檢索串匹配的擴展query所對應(yīng)的高頻query，再提取第二級映射中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞。較佳的，該方法進一步包括：根據(jù)獲取的信息檢索請求中的檢索串，先查找基礎(chǔ)QA詞表，如果匹配到所述基礎(chǔ)QA詞表中的高頻query，則提取所述基礎(chǔ)QA詞表中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞，不再進行所述二級映射的QA詞表的查找；如果未匹配到所述基礎(chǔ)QA詞表中的高頻query，則進行所述二級映射的QA詞表的查找。本發(fā)明還提供了一種信息檢索的系統(tǒng)，該系統(tǒng)包括：二級映射詞表生成模塊，用于基于檢索串query的擴展對基礎(chǔ)檢索串分析QA詞表進行二次映射過程，生成二級映射的QA詞表；其中，所述基礎(chǔ)QA詞表包括高頻query到關(guān)鍵詞的映射，所述二級映射的QA詞表中的第一級映射為擴展query到高頻query的映射，第二級映射為高頻query到關(guān)鍵詞的映射；信息檢索模塊，用于根據(jù)獲取的信息檢索請求中的檢索串，進行所述二級映射的QA詞表的查找，得到所述檢索串命中的關(guān)鍵詞，并提取所述關(guān)鍵詞對應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果。較佳的，所述二級映射詞表生成模塊進一步用于，依據(jù)檢索日志，采用基于會話session的query擴展、和/或基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展、和/或基于相關(guān)搜索的query擴展，得到多個query相關(guān)系列。較佳的，所述二級映射詞表生成模塊進一步用于，對于query擴展得到的每一個query相關(guān)系列，在判斷所述query相關(guān)系列中存在與所述基礎(chǔ)QA詞表中相同的高頻query時，將所述query相關(guān)系列中除所述高頻query之外的其他query添加為所述高頻query的擴展query，生成擴展query到高頻query的初始的第一級映射；計算所述初始的第一級映射中的各擴展query與高頻query的相似度，并過濾掉相似度小于預(yù)設(shè)閾值的擴展query，保留相似度大于或等于預(yù)設(shè)閾值的擴展query，得到最終的第一級映射；根據(jù)所述最終的第一級映射和所述基礎(chǔ)QA詞表，生成二級映射的QA詞表。較佳的，所述二級映射詞表生成模塊進一步用于，根據(jù)相關(guān)性邏輯回歸模型計算所述初始的第一級映射中的各擴展query與高頻query的相似度，具體為：接收人工標注的標準集，所述標準集中包括人工標注的擴展query到高頻query的映射；計算所述標準集中每一個擴展query到高頻query映射的特征值，并隨機將所述標準集劃分為訓(xùn)練集和校驗集；用所述訓(xùn)練集進行相關(guān)性邏輯回歸模型訓(xùn)練，得到用于評價擴展query和高頻query相關(guān)性的初始邏輯回歸模型，再用所述校驗集對所述初始邏輯回歸模型進行評價，根據(jù)評價結(jié)果優(yōu)化特征選擇，得到最終的相關(guān)性邏輯回歸模型；根據(jù)最終的相關(guān)性邏輯回歸模型，通過下式計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度：其中，q1表示擴展query，q2表示高頻query，n表示特征總數(shù)，fi(q1，q2)表示擴展query和高頻query對的第i個特征值，wi表示第i個特征的權(quán)重。較佳的，所述特征值包括擴展query與對應(yīng)高頻query之間的文本相似度特征值和類別相似度特征值，所述文本相似度特征值包括以下至少之一：擴展query與對應(yīng)高頻query之間的tanimoto系數(shù)、字面相似度、共同短語term率、編輯距離、最長公共子串。較佳的，所述信息檢索模塊進一步用于，根據(jù)所述信息檢索請求中的檢索串查找所述二級映射的QA詞表中的第一級映射，獲取與所述檢索串匹配的擴展query所對應(yīng)的高頻query，再提取第二級映射中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞。較佳的，所述信息檢索模塊進一步用于，根據(jù)獲取的信息檢索請求中的檢索串，先查找基礎(chǔ)QA詞表，如果匹配到所述基礎(chǔ)QA詞表中的高頻query，則提取所述基礎(chǔ)QA詞表中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞，不再進行所述二級映射的QA詞表的查找；如果未匹配到所述基礎(chǔ)QA詞表中的高頻query，則進行所述二級映射的QA詞表的查找。本發(fā)明所提供的一種信息檢索的方法和系統(tǒng)，豐富了QA詞表的左鍵入口，可以更加充分地利用基礎(chǔ)QA詞表，提升信息檢索對互聯(lián)網(wǎng)發(fā)布信息的覆蓋率，提高信息檢索的準確率，提高檢索性能。附圖說明圖1為本發(fā)明實施例的一種信息檢索的方法流程圖；圖2為本發(fā)明實施例中二級映射的QA詞表的結(jié)構(gòu)示意圖；圖3為本發(fā)明實施例中根據(jù)相關(guān)性邏輯回歸模型計算初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度的過程示意圖；圖4為圖1所示的步驟101的具體執(zhí)行過程的示意圖；圖5為圖1所示的步驟102具體執(zhí)行過程的示意圖；圖6為本發(fā)明實施例的一種信息檢索的系統(tǒng)結(jié)構(gòu)示意圖。具體實施方式下面結(jié)合附圖和具體實施例對本發(fā)明的技術(shù)方案進一步詳細闡述。本發(fā)明實施例提供的一種信息檢索的方法如圖1所示，主要包括以下步驟：步驟101，基于query的擴展對基礎(chǔ)QA詞表進行二次映射過程，生成二級映射的QA詞表；其中，基礎(chǔ)QA詞表包括高頻query到關(guān)鍵詞的映射，二級映射的QA詞表中的第一級映射為擴展query到高頻query的映射，第二級映射為高頻query到關(guān)鍵詞的映射。所謂基礎(chǔ)QA詞表，是指query到關(guān)鍵詞的hash詞表，該詞表的左鍵為一定的時間窗口內(nèi)的querylog所統(tǒng)計出來的高頻query，右鍵為高頻query映射到的互聯(lián)網(wǎng)發(fā)布信息的數(shù)據(jù)庫中與該query文本語義相似的關(guān)鍵詞或關(guān)鍵詞系列，即基礎(chǔ)QA詞表維護的是高頻query與關(guān)鍵詞(或關(guān)鍵詞系列)的映射關(guān)系。該基礎(chǔ)QA詞表可以通過專門的QBM(檢索串關(guān)鍵詞合并)模塊離線處理得到。所謂互聯(lián)網(wǎng)發(fā)布信息，是指互聯(lián)網(wǎng)信息發(fā)布方通過信息檢索發(fā)布系統(tǒng)發(fā)布的信息，包括：地理信息、人文信息、商戶信息等等。這些互聯(lián)網(wǎng)發(fā)布信息通過專門的數(shù)據(jù)庫存儲。其中，query的擴展處理后得到多個query相關(guān)系列，query的擴展可以采用以下方式的至少之一：一、依據(jù)一定的時間窗口內(nèi)的querylog，采用基于會話(session)的query擴展；二、依據(jù)一定的時間窗口內(nèi)的querylog，采用基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展；三、依據(jù)一定的時間窗口內(nèi)的querylog，采用基于相關(guān)搜索的query擴展?；趕ession的query擴展，主要包括以下操作：先對檢索日志中的query進行歸一化和噪聲詞匯過濾處理；然后，將同一個用戶在一段連續(xù)時間里檢索過的query歸并為一個query系列，統(tǒng)計每個query在一天的日志里出現(xiàn)的次數(shù)，以及每任意兩個query在一天的日志中出現(xiàn)在同一個query系列的次數(shù)；在一個大時間區(qū)間里(例如1個月)，將上面得到的每一天的query系列以及統(tǒng)計的頻次信息合并起來，利用似然比公式計算query之間的似然比特征值LLR，并利用此特征值對query擴展結(jié)果進行過濾(例如，LLR小于預(yù)設(shè)閾值的query相關(guān)系列被過濾)；最后將多天的query擴展結(jié)果排重合并，并按照似然比特征值對query擴展結(jié)果排序，得到query相關(guān)系列。似然比公式如下：LLR＝logb(c12；c1，p)+logb(c2-c12；N-c1，p)-logb(c12；c1，p1)-logb(c2-c12；N-c1，p2)其中，c1為query1在大時間區(qū)間里出現(xiàn)的總頻次，c1為query2在大時間區(qū)間里出現(xiàn)的總頻次，c12為query1與query2同時出現(xiàn)在一個query相關(guān)系列的總頻次，N為大時間區(qū)間里所有query的總頻次。基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展，主要包括以下操作：由于在信息檢索發(fā)布系統(tǒng)中觸發(fā)了同一條互聯(lián)網(wǎng)發(fā)布信息展示的不同query之間可能是有聯(lián)系的，如果這樣的互聯(lián)網(wǎng)發(fā)布信息還會被共同點擊，則不同的query間可能蘊含著相同的意圖；因此，基于互聯(lián)網(wǎng)發(fā)布信息的點擊日志，可以將觸發(fā)了同一條互聯(lián)網(wǎng)發(fā)布信息展示的不同query聚合在一起，組成一個query相關(guān)系列。例如：搜索queryA時會有幾條互聯(lián)網(wǎng)發(fā)布信息展示，搜索queryB時也會有幾條互聯(lián)網(wǎng)發(fā)布信息展示，如果搜索queryA和搜索queryB時展示的互聯(lián)網(wǎng)發(fā)布信息中存在相同的互聯(lián)網(wǎng)發(fā)布信息，且此相同的互聯(lián)網(wǎng)發(fā)布信息都被用戶點擊，則認為queryA和queryB是存在相關(guān)性的，從而將queryA和queryB聚合到一個query相關(guān)系列中?；谙嚓P(guān)搜索的query擴展，主要包括以下操作：搜索引擎在響應(yīng)用戶查詢請求時，會“猜測”用戶可能的檢索意圖，針對檢索query自動進行一些擴展；例如：用戶搜索“劉德華”，搜索引擎返回自然結(jié)果的同時，還會將相關(guān)的檢索query呈現(xiàn)給用戶，如“劉德華電影”、“劉德華演唱會”、“劉德華微博”等；用戶搜索“玫瑰花”，搜索引擎返回自然結(jié)果的同時，還會將相關(guān)的檢索query呈現(xiàn)給用戶，如“鮮花”、“白玫瑰”、“藍玫瑰”、“黃玫瑰”等等。利用搜索引擎的這種智能提示，可以對高頻query進行擴展，得到對應(yīng)的query相關(guān)系列?；趒uery的擴展對基礎(chǔ)QA詞表進行二次映射過程，生成二級映射的QA詞表，具體包括：對于上述query擴展得到的每一個query相關(guān)系列，在判斷所述query相關(guān)系列中存在與基礎(chǔ)QA詞表中相同的高頻query時，將所述query相關(guān)系列中除所述高頻query之外的其他query添加為所述高頻query的擴展query，生成擴展query到高頻query的初始的第一級映射；計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度，并過濾掉相似度小于預(yù)設(shè)閾值的擴展query，保留相似度大于或等于預(yù)設(shè)閾值的擴展query，得到最終的第一級映射；根據(jù)最終的第一級映射和基礎(chǔ)QA詞表，生成二級映射的QA詞表。生成的二級映射的QA詞表參見圖2，在圖2所示的QA詞表中，第一級映射為擴展query到高頻query的映射，第一級映射的左鍵為擴展query，右鍵為高頻query；第二級映射為高頻query到關(guān)鍵詞(或關(guān)鍵詞系列)的映射，第二級映射的左鍵為高頻query，右鍵為關(guān)鍵詞(或關(guān)鍵詞系列)。其中，基礎(chǔ)QA詞表即作為第二級映射，二級映射的QA詞表中需保證第一級映射的左鍵在第二級映射的左鍵中未出現(xiàn)，第一級映射的右鍵在第二級映射的左鍵中出現(xiàn)。需要說明的是，本發(fā)明的實施例可以根據(jù)相關(guān)性邏輯回歸模型計算初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度，當(dāng)然，本發(fā)明實施例中計算初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度的方法并不僅限于此，實際應(yīng)用中任何能夠用于計算得到以上相似度的方法應(yīng)當(dāng)都屬于本發(fā)明實施例的保護范圍。其中，根據(jù)相關(guān)性邏輯回歸模型計算初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度的具體操作過程，如圖3所示，具體包括：接收人工標注的標準集，所述標準集中包括人工標注的擴展query到高頻query的映射；計算所述標準集中每一個擴展query到高頻query映射的特征值，并隨機將所述標準集劃分為訓(xùn)練集和校驗集；用所述訓(xùn)練集進行相關(guān)性邏輯回歸模型訓(xùn)練，得到用于評價擴展query和高頻query相關(guān)性的初始邏輯回歸模型，再用所述校驗集對所述初始邏輯回歸模型進行評價，根據(jù)評價結(jié)果優(yōu)化特征選擇(如增加特征、刪除特征、進行特征組合等等)，得到最終的相關(guān)性邏輯回歸模型；根據(jù)最終的相關(guān)性邏輯回歸模型，通過下式(將初始的第一級映射中的各擴展query到高頻query映射的特征值代入下式)計算初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度：其中，q1表示擴展query，q2表示高頻query，n表示特征總數(shù)，fi(q1，q2)表示擴展query到高頻query映射的第i個特征值，wi表示第i個特征的權(quán)重。所述特征值包括擴展query與對應(yīng)高頻query之間的文本相似度特征值和類別相似度特征值，所述文本相似度特征值包括以下至少之一：擴展query與對應(yīng)高頻query之間的tanimoto系數(shù)、字面相似度、共同短語(term)率、編輯距離、最長公共子串。其中，tanimoto系數(shù)A、B表示任意兩個query；字面相似度A、B表示任意兩個query；共同term率＝切詞后A與B共有的短語個數(shù)×2/切詞后A與B的短語個數(shù)總和，A、B表示任意兩個query；編輯距離，又稱Levenshtein距離，是指兩個字串之間由一個轉(zhuǎn)成另一個所需的最少編輯操作次數(shù)；最長公共子串：一個序列S，如果分別是兩個已知字符序列(如A、B)的子序列，且是所有符合此條件序列中最長的，則S稱為兩個已知字符序列的最長公共子序列，可以用于描述兩個字符系列之間的相似度。步驟101的詳細操作可參見圖4所示的示意圖，依據(jù)一定的時間窗口內(nèi)的querylog，采用基于session的query擴展、基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展和基于相關(guān)搜索的query擴展，并將擴展query的結(jié)果合并得到多個query相關(guān)系列；然后，對于每一個query相關(guān)系列，基于基礎(chǔ)QA詞表進行二次映射過程，生成二級映射的QA詞表。在進行二次映射過程中需要用到相關(guān)性邏輯回歸模型，具體執(zhí)行過程參見前述說明。步驟102，根據(jù)獲取的信息檢索請求中的檢索串，進行所述二級映射的QA詞表的查找，得到所述檢索串命中的關(guān)鍵詞，并提取所述關(guān)鍵詞對應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果。二級映射的QA詞表查找的具體操作為：根據(jù)信息檢索請求中的檢索串查找二級映射的QA詞表中的第一級映射，獲取與檢索串匹配的擴展query所對應(yīng)的高頻query，再提取第二級映射中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞。作為本發(fā)明的一種優(yōu)選實施例，還可以根據(jù)獲取的信息檢索請求中的檢索串，先查找基礎(chǔ)QA詞表，如果匹配到所述基礎(chǔ)QA詞表中的高頻query，則提取所述基礎(chǔ)QA詞表中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞，不再進行所述二級映射的QA詞表的查找；如果未匹配到所述基礎(chǔ)QA詞表中的高頻query，則再進行所述二級映射的QA詞表的查找。如果信息檢索請求中的檢索串在基礎(chǔ)QA詞表和二級映射的QA詞表中都未命中到相應(yīng)的關(guān)鍵詞，則可以選擇其他可行的命中關(guān)鍵詞的方法繼續(xù)進行。具體操作過程參見圖5。對應(yīng)上述信息檢索的方法，本發(fā)明實施例還提供了一種信息檢索的系統(tǒng)，如圖6所示，主要包括：二級映射詞表生成模塊10和信息檢索模塊20；其中，二級映射詞表生成模塊10，用于基于query的擴展對基礎(chǔ)QA詞表進行二次映射過程，生成二級映射的QA詞表；其中，所述基礎(chǔ)QA詞表包括高頻query到關(guān)鍵詞的映射，所述二級映射的QA詞表中的第一級映射為擴展query到高頻query的映射，第二級映射為高頻query到關(guān)鍵詞的映射；信息檢索模塊20，用于根據(jù)獲取的信息檢索請求中的檢索串，進行二級映射的QA詞表的查找，得到該檢索串命中的關(guān)鍵詞，并提取該關(guān)鍵詞對應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果。較佳的，二級映射詞表生成模塊10可進一步用于，依據(jù)檢索日志，采用基于session的query擴展、和/或基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展、和/或基于相關(guān)搜索的query擴展，得到多個query相關(guān)系列。較佳的，二級映射詞表生成模塊10還可進一步用于，對于query擴展得到的每一個query相關(guān)系列，在判斷所述query相關(guān)系列中存在與基礎(chǔ)QA詞表中相同的高頻query時，將所述query相關(guān)系列中除所述高頻query之外的其他query添加為所述高頻query的擴展query，生成擴展query到高頻query的初始的第一級映射；計算初始的第一級映射中的各擴展query與高頻query的相似度，并過濾掉相似度小于預(yù)設(shè)閾值的擴展query，保留相似度大于或等于預(yù)設(shè)閾值的擴展query，得到最終的第一級映射；根據(jù)最終的第一級映射和基礎(chǔ)QA詞表，生成二級映射的QA詞表。較佳的，二級映射詞表生成模塊10還可進一步用于，根據(jù)相關(guān)性邏輯回歸模型計算初始的第一級映射中的各擴展query與高頻query的相似度，具體為：接收人工標注的標準集，所述標準集中包括人工標注的擴展query到高頻query的映射；計算所述標準集中每一個擴展query到高頻query映射的特征值，并隨機將所述標準集劃分為訓(xùn)練集和校驗集；用所述訓(xùn)練集進行相關(guān)性邏輯回歸模型訓(xùn)練，得到用于評價擴展query和高頻query相關(guān)性的初始邏輯回歸模型，再用所述校驗集對所述初始邏輯回歸模型進行評價，根據(jù)評價結(jié)果優(yōu)化特征選擇，得到最終的相關(guān)性邏輯回歸模型；根據(jù)最終的相關(guān)性邏輯回歸模型，通過下式計算所述初始的第一級映射中的各擴展query與相應(yīng)高頻query的相似度：其中，q1表示擴展query，q2表示高頻query，n表示特征總數(shù)，fi(q1，q2)表示擴展query和高頻query對的第i個特征值，wi表示第i個特征的權(quán)重。所述特征值包括擴展query與對應(yīng)高頻query之間的文本相似度特征值和類別相似度特征值，所述文本相似度特征值包括以下至少之一：擴展query與對應(yīng)高頻query之間的tanimoto系數(shù)、字面相似度、共同term率、編輯距離、最長公共子串。較佳的，信息檢索模塊20可進一步用于，根據(jù)信息檢索請求中的檢索串查找二級映射的QA詞表中的第一級映射，獲取與所述檢索串匹配的擴展query所對應(yīng)的高頻query，再提取第二級映射中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞。較佳的，信息檢索模塊20還可進一步用于，根據(jù)獲取的信息檢索請求中的檢索串，先查找基礎(chǔ)QA詞表，如果匹配到基礎(chǔ)QA詞表中的高頻query，則提取基礎(chǔ)QA詞表中與所述高頻query對應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞，不再進行二級映射的QA詞表的查找；如果未匹配到基礎(chǔ)QA詞表中的高頻query，則進行二級映射的QA詞表的查找。另外，作為本發(fā)明的一種優(yōu)選實施方式，信息檢索的系統(tǒng)還可以添加一個實時的檢索串重寫模塊(圖6中未示出)，連接信息檢索模塊20，用于對通過上述方法未能命中到關(guān)鍵詞的檢索串進行適當(dāng)?shù)淖冃?例如刪除檢索串中的若干核心元素)后，重新送入信息檢索模塊20執(zhí)行新一輪的檢索流程；依此類推，直到命中到關(guān)鍵詞。綜上所述，本發(fā)明實施例利用基于session的query擴展、基于互聯(lián)網(wǎng)發(fā)布信息互點擊的query擴展、基于相關(guān)搜索的query擴展等方法，在query集合中建立一個關(guān)聯(lián)的query網(wǎng)絡(luò)；然后對query之間的相關(guān)性進行校驗，提取出高質(zhì)量的關(guān)聯(lián)query。在具體實現(xiàn)中采用hashmap數(shù)據(jù)結(jié)構(gòu)來表示這種關(guān)聯(lián)關(guān)系，該map的右鍵(mapvalue)為一定的時間窗口中從用戶檢索日志中篩選出的高頻query，該map的左鍵(mapkey)為高頻query相關(guān)的擴展query。而高頻query與關(guān)鍵詞的映射關(guān)系可以通過QBM模塊離線處理得到。這樣就形成了一個二級映射的QA詞表，相當(dāng)于對原有基礎(chǔ)QA詞表的左鍵進行了擴充；該二級映射的QA詞表中的第一級映射為擴展query到高頻query的映射，第二級映射為高頻query到關(guān)鍵詞的映射。本發(fā)明的實施例豐富了QA詞表的左鍵入口，可以更加充分地利用基礎(chǔ)QA詞表，提升互聯(lián)網(wǎng)發(fā)布信息的覆蓋率。以上所述，僅為本發(fā)明的較佳實施例而已，并非用于限定本發(fā)明的保護范圍。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：姚伶伶;赫南;王迪
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

信息檢索相關(guān)技術(shù)

信息檢索與利用相關(guān)技術(shù)

信息檢索系統(tǒng)相關(guān)技術(shù)

萬維網(wǎng)的信息檢索系統(tǒng)相關(guān)技術(shù)

信息檢索系統(tǒng)的功能為相關(guān)技術(shù)

計算機信息檢索系統(tǒng)相關(guān)技術(shù)

信息檢索系統(tǒng)評價相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種信息檢索的方法和系統(tǒng)與流程