基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法

文檔序號(hào)：9288454閱讀：225來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息處理技術(shù)領(lǐng)域，尤其涉及信息檢索領(lǐng)域中的查詢擴(kuò)展以及局部上下文分析方法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)可以視為一個(gè)不斷增長的文本語料庫，不同領(lǐng)域的專家學(xué)者建議將互聯(lián)網(wǎng) 上的資源作為語料的獲取來源。對(duì)語言學(xué)家而言，Web是重要的語言數(shù)據(jù)來源；自然語言處理領(lǐng)域（NLP)，很多研究使用互聯(lián)網(wǎng)上的文本數(shù)據(jù)并獲得成功，研究包括機(jī)器翻譯、術(shù)語抽取、拼音檢查和語法檢查等?？梢哉f，Web相當(dāng)于一個(gè)巨型的免費(fèi)語料庫，收錄不同類型資源的搜索引擎、在線數(shù)據(jù)庫便是開啟這個(gè)語料庫的"鑰匙"，可以視作存儲(chǔ)特定類型資源的數(shù)據(jù)源。許多研究通過搜索引擎這類數(shù)據(jù)源獲取語料數(shù)據(jù)建設(shè)新的語料庫或優(yōu)化現(xiàn)有語料庫，通過獲取新聞文本數(shù)據(jù)用于輿情系統(tǒng)建設(shè)和新聞熱點(diǎn)發(fā)現(xiàn)。然而這類數(shù)據(jù)源具有許多限制，首先他們只存儲(chǔ)采集自因特網(wǎng)的有限信息，其次這些數(shù)據(jù)源只向用戶提供查詢的接口，用戶只能通過查詢從中獲取與查詢相關(guān)的數(shù)據(jù)，最后數(shù)據(jù)源對(duì)返回?cái)?shù)據(jù)的數(shù)目也有較大限制。在本文中，定義具有上述三點(diǎn)性質(zhì)的互聯(lián)網(wǎng)數(shù)據(jù)源為有限數(shù)據(jù)源。常見的有限數(shù) 據(jù)源包括搜索引擎、數(shù)字圖書館、視頻網(wǎng)站等包含大量數(shù)據(jù)資源的信息服務(wù)系統(tǒng)。
[0003] 雖然有限數(shù)據(jù)源可以為研究者提供大量語料數(shù)據(jù)，但是其有限的檢索結(jié)果數(shù)限制了研究者對(duì)數(shù)據(jù)的獲取，根據(jù)2014年對(duì)通用搜索引擎的統(tǒng)計(jì)數(shù)據(jù)，谷歌網(wǎng)頁搜索一次檢索最多返回400條記錄，百度網(wǎng)頁搜索一次檢索最多返回760條記錄，雅虎網(wǎng)頁搜索一次檢索最多返回1000條記錄。
[0004] 針對(duì)上述問題，一種可行的方法就是通過多次拓展查詢來窮盡相關(guān)數(shù)據(jù)，但是每次拓展查詢可能會(huì)有大量重復(fù)的檢索結(jié)果，導(dǎo)致查詢次數(shù)過多，數(shù)據(jù)獲取效率低，無法獲取所有相關(guān)的數(shù)據(jù)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明針對(duì)上述現(xiàn)有技術(shù)所存在的問題，提供一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù) 據(jù)獲取方法。
[0006] 本發(fā)明的技術(shù)方案為一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法，包含以下步驟：
[0007] 步驟1，用初始查詢表達(dá)式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索，獲取前n篇文檔S，構(gòu)成初始查詢的結(jié)果集R，對(duì)前n篇文檔S進(jìn)行正文提取、分詞和詞性標(biāo)注，對(duì)所有詞進(jìn)行詞性過濾，從所有詞中選取概念詞集C，按公式（1)計(jì)算概念詞集C中每個(gè)概念詞(^與查詢詞Wl之間的共現(xiàn)度，根據(jù)概念詞ci與查詢詞wi之間的共現(xiàn)度f(c，Q)，對(duì)所有概念詞進(jìn) 行逆向排序，選取前k個(gè)概念詞作為擴(kuò)展詞集；
[0008]
[0009] 其中，共現(xiàn)度計(jì)算公式中idf(wj為查詢詞^的逆文檔頻率，A為常量；c〇_ degree(c，Wl)為每個(gè)查詢詞Wl與概念C之間的貢獻(xiàn)數(shù)，概念C與初始查詢表達(dá)式Q之間的共現(xiàn)度為概念C與初始查詢表達(dá)式Q所有的查詢詞Wl的共現(xiàn)數(shù)的成積和；idf(wJ為查詢詞&逆文檔頻率，idf(Wi) = Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù)，dwl為有限數(shù) 據(jù)源中包含詞Wl的文檔總數(shù)，idf(Wl)詞語普遍重要性的度量；
[0010] 步驟2,根據(jù)擴(kuò)展詞集構(gòu)造查詢表達(dá)式，查詢表達(dá)式為S+ti，然后進(jìn)行k次查詢得到k個(gè)查詢結(jié)果集；
[0011] 步驟3,判斷k次查詢累積返回的不重復(fù)文檔總數(shù)是否超過總文檔數(shù)N，如果未達(dá) 至IJ，則按照步驟1從每個(gè)初始查詢的結(jié)果集R中選取m個(gè)擴(kuò)展詞，進(jìn)行第二層查詢擴(kuò)展，此時(shí)總共查詢kXm次，此時(shí)的查詢表達(dá)式為S+t11;其間，如果累積返回的文檔總數(shù)超過總數(shù) N，則停止；
[0012] 步驟4,按照步驟2和步驟3迭代進(jìn)行查詢擴(kuò)展，直到累計(jì)返回的文檔總數(shù)等于總數(shù)N;此累計(jì)返回的文檔總數(shù)N指不重復(fù)的文檔數(shù)；
[0013] 優(yōu)選的，所述的步驟2中，共現(xiàn)度計(jì)算公式中A默認(rèn)為1。
[0014] 本發(fā)明的有益效果是：一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法，本發(fā)明通過查詢擴(kuò)展技術(shù)執(zhí)行多次查詢以獲取盡可能多的記錄，可以有效地避開返回記錄數(shù)的限制；以最少的查詢次數(shù)窮盡此類數(shù)據(jù)源中的相關(guān)文檔，本發(fā)明能以較少的查詢擴(kuò)展次數(shù)從有限數(shù)據(jù)源中獲取所有相關(guān)的數(shù)據(jù)。
【附圖說明】
[0015] 圖1是本發(fā)明的方法流程圖。
【具體實(shí)施方式】
[0016] 如圖1，本發(fā)明提供一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法，包含以下步驟：
[0017] 步驟1，用初始查詢表達(dá)式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索，獲取前n篇文檔S，構(gòu)成初始查詢的結(jié)果集R，對(duì)前n篇文檔S進(jìn)行正文提取、分詞和詞性標(biāo)注，對(duì)所有詞進(jìn)行詞性過濾，從所有詞中選取概念詞集C，按公式（1)計(jì)算概念詞集C中每個(gè)概念詞(^與查詢詞Wl之間的共現(xiàn)度，根據(jù)概念詞ci與查詢詞wi之間的共現(xiàn)度f(c，Q)，對(duì)所有概念詞進(jìn) 行逆向排序，詵取前k個(gè)概念詞作為擴(kuò)展詞集：
[0018]
[0019] 其中，共現(xiàn)度計(jì)算公式中idf(wj為查詢詞&的逆文檔頻率，A為常量；c〇_ degree(c，Wl)為每個(gè)查詢詞Wl與概念C之間的貢獻(xiàn)數(shù)，概念C與初始查詢表達(dá)式Q之間的共現(xiàn)度為概念C與初始查詢表達(dá)式Q所有的查詢詞Wl的共現(xiàn)數(shù)的成積和；idf(wJ為查詢詞&逆文檔頻率，idf(Wi)=log(^^)，Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù)，dwl為有限數(shù) 據(jù)源中包含詞Wl的文檔總數(shù)，idf(Wl)詞語普遍重要性的度量；
[0020] 步驟2,根據(jù)擴(kuò)展詞集構(gòu)造查詢表達(dá)式，查詢表達(dá)式為S+ti，然后進(jìn)行k次查詢得到k個(gè)查詢結(jié)果集；
[0021] 步驟3,判斷k次查詢累積返回的不重復(fù)文檔總數(shù)是否超過總文檔數(shù)N，如果未達(dá) 至IJ，則按照步驟1從每個(gè)初始查詢的結(jié)果集R中選取m個(gè)擴(kuò)展詞，進(jìn)行第二層查詢擴(kuò)展，此時(shí)總共查詢kXm次，此時(shí)的查詢表達(dá)式為S+t11;其間，如果累積返回的文檔總數(shù)超過總數(shù) N，則停止；
[0022] 步驟4,按照步驟2和步驟3迭代進(jìn)行查詢擴(kuò)展，直到累計(jì)返回的文檔總數(shù)等于總數(shù)N;此累計(jì)返回的文檔總數(shù)N指不重復(fù)的文檔數(shù)；
[0023] 在步驟2中，共現(xiàn)度計(jì)算公式中A默認(rèn)為1。
【主權(quán)項(xiàng)】
1. 一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法，其特征在于，包含w下步驟：步驟1，用初始查詢表達(dá)式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索，獲取前n篇文檔S，構(gòu)成初始查詢的結(jié)果集R，對(duì)前n篇文檔S進(jìn)行正文提取、分詞和詞性標(biāo)注，對(duì)所有詞進(jìn)行詞性過濾，從所有詞中選取概念詞集C，按公式（1)計(jì)算概念詞集C中每個(gè)概念詞Ci與查詢詞之間的共現(xiàn)度，根據(jù)概念詞C1與查詢詞W1之間的共現(xiàn)度f(C，Q)，對(duì)所有概念詞進(jìn)行逆向排序，選取前k個(gè)概念詞作為擴(kuò)展詞集；其中，共現(xiàn)度計(jì)算公式中i壯(Wi)為查詢詞Wi的逆文檔頻率，A為常量；co_degree(c，Wi)為每個(gè)查詢詞與概念C之間的貢獻(xiàn)數(shù)，概念C與初始查詢表達(dá)式Q之間的共現(xiàn)度為概念C與初始查詢表達(dá)式Q所有的查詢詞的共現(xiàn)數(shù)的成積和；i壯(W1)為查詢詞逆文檔頻率，:MT(Wi)=log護(hù)^)，Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù)，cU為有限數(shù)據(jù)源中包含詞的文檔總數(shù)，i壯(W1)詞語普遍重要性的度量；步驟2,根據(jù)擴(kuò)展詞集構(gòu)造查詢表達(dá)式，查詢表達(dá)式為S+ti，然后進(jìn)行k次查詢得到k個(gè) 查詢結(jié)果集；步驟3,判斷k次查詢累積返回的不重復(fù)文檔總數(shù)是否超過總文檔數(shù)N，如果未達(dá)到，貝U按照步驟1從每個(gè)初始查詢的結(jié)果集R中選取m個(gè)擴(kuò)展詞，進(jìn)行第二層查詢擴(kuò)展，此時(shí)總共查詢kXm次，此時(shí)的查詢表達(dá)式為S+tii;其間，如果累積返回的文檔總數(shù)超過總數(shù)N，則停止；步驟4,按照步驟2和步驟3迭代進(jìn)行查詢擴(kuò)展，直到累計(jì)返回的文檔總數(shù)等于總數(shù)N; 此累計(jì)返回的文檔總數(shù)N指不重復(fù)的文檔數(shù)。2. 根據(jù)權(quán)利要求書1所述基于查詢擴(kuò)展的捜索引擎數(shù)據(jù)獲取方法，其特征在于：在步驟2中，共現(xiàn)度計(jì)算公式中A默認(rèn)為1。
【專利摘要】本發(fā)明公開了一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法，本發(fā)明通過查詢擴(kuò)展技術(shù)執(zhí)行多次查詢以獲取盡可能多的記錄，可以有效地避開返回記錄數(shù)的限制；以最少的查詢次數(shù)窮盡此類數(shù)據(jù)源中的相關(guān)文檔，本發(fā)明通過多次查詢直至窮盡有限數(shù)據(jù)源中所有相關(guān)文檔；本發(fā)明將該方法應(yīng)用與實(shí)際的信息檢索中，能以較少的查詢擴(kuò)展次數(shù)從有限數(shù)據(jù)源中獲取所有相關(guān)的數(shù)據(jù)。
【IPC分類】G06F17/30
【公開號(hào)】CN105005620
【申請?zhí)枴緾N201510437403
【發(fā)明人】陸偉, 樂興虎, 程齊凱
【申請人】武漢大學(xué)
【公開日】2015年10月28日
【申請日】2015年7月23日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陸偉;樂興虎;程齊凱;
技術(shù)所有人：武漢大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法