亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種信息檢索的方法和系統(tǒng)與流程

文檔序號(hào):12008857閱讀:來源:國知局
一種信息檢索的方法和系統(tǒng)與流程

技術(shù)特征:
1.一種信息檢索的方法,其特征在于,該方法包括:基于檢索串query的擴(kuò)展對(duì)基礎(chǔ)檢索串分析QA詞表進(jìn)行二次映射過程,生成二級(jí)映射的QA詞表;其中,所述基礎(chǔ)QA詞表包括高頻query到關(guān)鍵詞的映射,所述二級(jí)映射的QA詞表中的第一級(jí)映射為擴(kuò)展query到高頻query的映射,第二級(jí)映射為高頻query到關(guān)鍵詞的映射;根據(jù)獲取的信息檢索請(qǐng)求中的檢索串,進(jìn)行所述二級(jí)映射的QA詞表的查找,得到所述檢索串命中的關(guān)鍵詞,并提取所述關(guān)鍵詞對(duì)應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果;所述基于query的擴(kuò)展對(duì)基礎(chǔ)QA詞表進(jìn)行二次映射過程,生成二級(jí)映射的QA詞表,具體為:對(duì)于query擴(kuò)展得到的每一個(gè)query相關(guān)系列,在判斷所述query相關(guān)系列中存在與所述基礎(chǔ)QA詞表中相同的高頻query時(shí),將所述query相關(guān)系列中除所述高頻query之外的其他query添加為所述高頻query的擴(kuò)展query,生成擴(kuò)展query到高頻query的初始的第一級(jí)映射;計(jì)算所述初始的第一級(jí)映射中的各擴(kuò)展query與相應(yīng)高頻query的相似度,并過濾掉相似度小于預(yù)設(shè)閾值的擴(kuò)展query,保留相似度大于或等于預(yù)設(shè)閾值的擴(kuò)展query,得到最終的第一級(jí)映射;根據(jù)所述最終的第一級(jí)映射和所述基礎(chǔ)QA詞表,生成二級(jí)映射的QA詞表。2.根據(jù)權(quán)利要求1所述信息檢索的方法,其特征在于,所述query的擴(kuò)展具體為:依據(jù)檢索日志,采用基于會(huì)話session的query擴(kuò)展、和/或基于互聯(lián)網(wǎng)發(fā)布信息互點(diǎn)擊的query擴(kuò)展、和/或基于相關(guān)搜索的query擴(kuò)展,得到多個(gè)query相關(guān)系列。3.根據(jù)權(quán)利要求1所述信息檢索的方法,其特征在于,該方法進(jìn)一步包括:根據(jù)相關(guān)性邏輯回歸模型計(jì)算所述初始的第一級(jí)映射中的各擴(kuò)展query與相應(yīng)高頻query的相似度,具體為:接收人工標(biāo)注的標(biāo)準(zhǔn)集,所述標(biāo)準(zhǔn)集中包括人工標(biāo)注的擴(kuò)展query到高頻query的映射;計(jì)算所述標(biāo)準(zhǔn)集中每一個(gè)擴(kuò)展query到高頻query映射的特征值,并隨機(jī)將所述標(biāo)準(zhǔn)集劃分為訓(xùn)練集和校驗(yàn)集;用所述訓(xùn)練集進(jìn)行相關(guān)性邏輯回歸模型訓(xùn)練,得到用于評(píng)價(jià)擴(kuò)展query和高頻query相關(guān)性的初始邏輯回歸模型,再用所述校驗(yàn)集對(duì)所述初始邏輯回歸模型進(jìn)行評(píng)價(jià),根據(jù)評(píng)價(jià)結(jié)果優(yōu)化特征選擇,得到最終的相關(guān)性邏輯回歸模型;根據(jù)最終的相關(guān)性邏輯回歸模型,通過下式計(jì)算所述初始的第一級(jí)映射中的各擴(kuò)展query與相應(yīng)高頻query的相似度:其中,q1表示擴(kuò)展query,q2表示高頻query,n表示特征總數(shù),fi(q1,q2)表示擴(kuò)展query到高頻query映射的第i個(gè)特征值,wi表示第i個(gè)特征的權(quán)重。4.根據(jù)權(quán)利要求3所述信息檢索的方法,其特征在于,所述特征值包括擴(kuò)展query與對(duì)應(yīng)高頻query之間的文本相似度特征值和類別相似度特征值,所述文本相似度特征值包括以下至少之一:擴(kuò)展query與對(duì)應(yīng)高頻query之間的tanimoto系數(shù)、字面相似度、共同短語term率、編輯距離、最長公共子串。5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述信息檢索的方法,其特征在于,所述根據(jù)獲取的信息檢索請(qǐng)求中的檢索串,進(jìn)行所述二級(jí)映射的QA詞表的查找,得到所述檢索串命中的關(guān)鍵詞,具體為:根據(jù)所述信息檢索請(qǐng)求中的檢索串查找所述二級(jí)映射的QA詞表中的第一級(jí)映射,獲取與所述檢索串匹配的擴(kuò)展query所對(duì)應(yīng)的高頻query,再提取第二級(jí)映射中與所述高頻query對(duì)應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞。6.根據(jù)權(quán)利要求5所述信息檢索的方法,其特征在于,該方法進(jìn)一步包括:根據(jù)獲取的信息檢索請(qǐng)求中的檢索串,先查找基礎(chǔ)QA詞表,如果匹配到所述基礎(chǔ)QA詞表中的高頻query,則提取所述基礎(chǔ)QA詞表中與所述高頻query對(duì)應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞,不再進(jìn)行所述二級(jí)映射的QA詞表的查找;如果未匹配到所述基礎(chǔ)QA詞表中的高頻query,則進(jìn)行所述二級(jí)映射的QA詞表的查找。7.一種信息檢索的系統(tǒng),其特征在于,該系統(tǒng)包括:二級(jí)映射詞表生成模塊,用于基于檢索串query的擴(kuò)展對(duì)基礎(chǔ)檢索串分析QA詞表進(jìn)行二次映射過程,生成二級(jí)映射的QA詞表;其中,所述基礎(chǔ)QA詞表包括高頻query到關(guān)鍵詞的映射,所述二級(jí)映射的QA詞表中的第一級(jí)映射為擴(kuò)展query到高頻query的映射,第二級(jí)映射為高頻query到關(guān)鍵詞的映射;信息檢索模塊,用于根據(jù)獲取的信息檢索請(qǐng)求中的檢索串,進(jìn)行所述二級(jí)映射的QA詞表的查找,得到所述檢索串命中的關(guān)鍵詞,并提取所述關(guān)鍵詞對(duì)應(yīng)的互聯(lián)網(wǎng)發(fā)布信息作為檢索結(jié)果;所述二級(jí)映射詞表生成模塊進(jìn)一步用于,對(duì)于query擴(kuò)展得到的每一個(gè)query相關(guān)系列,在判斷所述query相關(guān)系列中存在與所述基礎(chǔ)QA詞表中相同的高頻query時(shí),將所述query相關(guān)系列中除所述高頻query之外的其他query添加為所述高頻query的擴(kuò)展query,生成擴(kuò)展query到高頻query的初始的第一級(jí)映射;計(jì)算所述初始的第一級(jí)映射中的各擴(kuò)展query與高頻query的相似度,并過濾掉相似度小于預(yù)設(shè)閾值的擴(kuò)展query,保留相似度大于或等于預(yù)設(shè)閾值的擴(kuò)展query,得到最終的第一級(jí)映射;根據(jù)所述最終的第一級(jí)映射和所述基礎(chǔ)QA詞表,生成二級(jí)映射的QA詞表。8.根據(jù)權(quán)利要求7所述信息檢索的系統(tǒng),其特征在于,所述二級(jí)映射詞表生成模塊進(jìn)一步用于,依據(jù)檢索日志,采用基于會(huì)話session的query擴(kuò)展、和/或基于互聯(lián)網(wǎng)發(fā)布信息互點(diǎn)擊的query擴(kuò)展、和/或基于相關(guān)搜索的query擴(kuò)展,得到多個(gè)query相關(guān)系列。9.根據(jù)權(quán)利要求7所述信息檢索的系統(tǒng),其特征在于,所述二級(jí)映射詞表生成模塊進(jìn)一步用于,根據(jù)相關(guān)性邏輯回歸模型計(jì)算所述初始的第一級(jí)映射中的各擴(kuò)展query與高頻query的相似度,具體為:接收人工標(biāo)注的標(biāo)準(zhǔn)集,所述標(biāo)準(zhǔn)集中包括人工標(biāo)注的擴(kuò)展query到高頻query的映射;計(jì)算所述標(biāo)準(zhǔn)集中每一個(gè)擴(kuò)展query到高頻query映射的特征值,并隨機(jī)將所述標(biāo)準(zhǔn)集劃分為訓(xùn)練集和校驗(yàn)集;用所述訓(xùn)練集進(jìn)行相關(guān)性邏輯回歸模型訓(xùn)練,得到用于評(píng)價(jià)擴(kuò)展query和高頻query相關(guān)性的初始邏輯回歸模型,再用所述校驗(yàn)集對(duì)所述初始邏輯回歸模型進(jìn)行評(píng)價(jià),根據(jù)評(píng)價(jià)結(jié)果優(yōu)化特征選擇,得到最終的相關(guān)性邏輯回歸模型;根據(jù)最終的相關(guān)性邏輯回歸模型,通過下式計(jì)算所述初始的第一級(jí)映射中的各擴(kuò)展query與相應(yīng)高頻query的相似度:其中,q1表示擴(kuò)展query,q2表示高頻query,n表示特征總數(shù),fi(q1,q2)表示擴(kuò)展query和高頻query對(duì)的第i個(gè)特征值,wi表示第i個(gè)特征的權(quán)重。10.根據(jù)權(quán)利要求9所述信息檢索的系統(tǒng),其特征在于,所述特征值包括擴(kuò)展query與對(duì)應(yīng)高頻query之間的文本相似度特征值和類別相似度特征值,所述文本相似度特征值包括以下至少之一:擴(kuò)展query與對(duì)應(yīng)高頻query之間的tanimoto系數(shù)、字面相似度、共同短語term率、編輯距離、最長公共子串。11.根據(jù)權(quán)利要求7至10任一項(xiàng)所述信息檢索的系統(tǒng),其特征在于,所述信息檢索模塊進(jìn)一步用于,根據(jù)所述信息檢索請(qǐng)求中的檢索串查找所述二級(jí)映射的QA詞表中的第一級(jí)映射,獲取與所述檢索串匹配的擴(kuò)展query所對(duì)應(yīng)的高頻query,再提取第二級(jí)映射中與所述高頻query對(duì)應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞。12.根據(jù)權(quán)利要求11所述信息檢索的系統(tǒng),其特征在于,所述信息檢索模塊進(jìn)一步用于,根據(jù)獲取的信息檢索請(qǐng)求中的檢索串,先查找基礎(chǔ)QA詞表,如果匹配到所述基礎(chǔ)QA詞表中的高頻query,則提取所述基礎(chǔ)QA詞表中與所述高頻query對(duì)應(yīng)的關(guān)鍵詞作為命中的關(guān)鍵詞,不再進(jìn)行所述二級(jí)映射的QA詞表的查找;如果未匹配到所述基礎(chǔ)QA詞表中的高頻query,則進(jìn)行所述二級(jí)映射的QA詞表的查找。
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1