亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法

文檔序號(hào):9288454閱讀:225來源:國知局
基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息處理技術(shù)領(lǐng)域,尤其涉及信息檢索領(lǐng)域中的查詢擴(kuò)展以及局部上 下文分析方法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)可以視為一個(gè)不斷增長的文本語料庫,不同領(lǐng)域的專家學(xué)者建議將互聯(lián)網(wǎng) 上的資源作為語料的獲取來源。對(duì)語言學(xué)家而言,Web是重要的語言數(shù)據(jù)來源;自然語言處 理領(lǐng)域(NLP),很多研究使用互聯(lián)網(wǎng)上的文本數(shù)據(jù)并獲得成功,研究包括機(jī)器翻譯、術(shù)語抽 取、拼音檢查和語法檢查等??梢哉f,Web相當(dāng)于一個(gè)巨型的免費(fèi)語料庫,收錄不同類型資 源的搜索引擎、在線數(shù)據(jù)庫便是開啟這個(gè)語料庫的"鑰匙",可以視作存儲(chǔ)特定類型資源的 數(shù)據(jù)源。許多研究通過搜索引擎這類數(shù)據(jù)源獲取語料數(shù)據(jù)建設(shè)新的語料庫或優(yōu)化現(xiàn)有語料 庫,通過獲取新聞文本數(shù)據(jù)用于輿情系統(tǒng)建設(shè)和新聞熱點(diǎn)發(fā)現(xiàn)。然而這類數(shù)據(jù)源具有許多 限制,首先他們只存儲(chǔ)采集自因特網(wǎng)的有限信息,其次這些數(shù)據(jù)源只向用戶提供查詢的接 口,用戶只能通過查詢從中獲取與查詢相關(guān)的數(shù)據(jù),最后數(shù)據(jù)源對(duì)返回?cái)?shù)據(jù)的數(shù)目也有較 大限制。在本文中,定義具有上述三點(diǎn)性質(zhì)的互聯(lián)網(wǎng)數(shù)據(jù)源為有限數(shù)據(jù)源。常見的有限數(shù) 據(jù)源包括搜索引擎、數(shù)字圖書館、視頻網(wǎng)站等包含大量數(shù)據(jù)資源的信息服務(wù)系統(tǒng)。
[0003] 雖然有限數(shù)據(jù)源可以為研究者提供大量語料數(shù)據(jù),但是其有限的檢索結(jié)果數(shù)限制 了研究者對(duì)數(shù)據(jù)的獲取,根據(jù)2014年對(duì)通用搜索引擎的統(tǒng)計(jì)數(shù)據(jù),谷歌網(wǎng)頁搜索一次檢索 最多返回400條記錄,百度網(wǎng)頁搜索一次檢索最多返回760條記錄,雅虎網(wǎng)頁搜索一次檢索 最多返回1000條記錄。
[0004] 針對(duì)上述問題,一種可行的方法就是通過多次拓展查詢來窮盡相關(guān)數(shù)據(jù),但是每 次拓展查詢可能會(huì)有大量重復(fù)的檢索結(jié)果,導(dǎo)致查詢次數(shù)過多,數(shù)據(jù)獲取效率低,無法獲取 所有相關(guān)的數(shù)據(jù)。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明針對(duì)上述現(xiàn)有技術(shù)所存在的問題,提供一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù) 據(jù)獲取方法。
[0006] 本發(fā)明的技術(shù)方案為一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,包含以下步 驟:
[0007] 步驟1,用初始查詢表達(dá)式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索,獲取前n篇文 檔S,構(gòu)成初始查詢的結(jié)果集R,對(duì)前n篇文檔S進(jìn)行正文提取、分詞和詞性標(biāo)注,對(duì)所有詞 進(jìn)行詞性過濾,從所有詞中選取概念詞集C,按公式(1)計(jì)算概念詞集C中每個(gè)概念詞(^與 查詢詞Wl之間的共現(xiàn)度,根據(jù)概念詞ci與查詢詞wi之間的共現(xiàn)度f(c,Q),對(duì)所有概念詞進(jìn) 行逆向排序,選取前k個(gè)概念詞作為擴(kuò)展詞集;
[0008]
[0009] 其中,共現(xiàn)度計(jì)算公式中idf(wj為查詢詞^的逆文檔頻率,A為常量;c〇_ degree(c,Wl)為每個(gè)查詢詞Wl與概念C之間的貢獻(xiàn)數(shù),概念C與初始查詢表達(dá)式Q之間的 共現(xiàn)度為概念C與初始查詢表達(dá)式Q所有的查詢詞Wl的共現(xiàn)數(shù)的成積和;idf(wJ為查詢 詞&逆文檔頻率,idf(Wi) = Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù),dwl為有限數(shù) 據(jù)源中包含詞Wl的文檔總數(shù),idf(Wl)詞語普遍重要性的度量;
[0010] 步驟2,根據(jù)擴(kuò)展詞集構(gòu)造查詢表達(dá)式,查詢表達(dá)式為S+ti,然后進(jìn)行k次查詢得 到k個(gè)查詢結(jié)果集;
[0011] 步驟3,判斷k次查詢累積返回的不重復(fù)文檔總數(shù)是否超過總文檔數(shù)N,如果未達(dá) 至IJ,則按照步驟1從每個(gè)初始查詢的結(jié)果集R中選取m個(gè)擴(kuò)展詞,進(jìn)行第二層查詢擴(kuò)展,此 時(shí)總共查詢kXm次,此時(shí)的查詢表達(dá)式為S+t11;其間,如果累積返回的文檔總數(shù)超過總數(shù) N,則停止;
[0012] 步驟4,按照步驟2和步驟3迭代進(jìn)行查詢擴(kuò)展,直到累計(jì)返回的文檔總數(shù)等于總 數(shù)N;此累計(jì)返回的文檔總數(shù)N指不重復(fù)的文檔數(shù);
[0013] 優(yōu)選的,所述的步驟2中,共現(xiàn)度計(jì)算公式中A默認(rèn)為1。
[0014] 本發(fā)明的有益效果是:一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,本發(fā)明通 過查詢擴(kuò)展技術(shù)執(zhí)行多次查詢以獲取盡可能多的記錄,可以有效地避開返回記錄數(shù)的限 制;以最少的查詢次數(shù)窮盡此類數(shù)據(jù)源中的相關(guān)文檔,本發(fā)明能以較少的查詢擴(kuò)展次數(shù)從 有限數(shù)據(jù)源中獲取所有相關(guān)的數(shù)據(jù)。
【附圖說明】
[0015] 圖1是本發(fā)明的方法流程圖。
【具體實(shí)施方式】
[0016] 如圖1,本發(fā)明提供一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,包含以下步 驟:
[0017] 步驟1,用初始查詢表達(dá)式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索,獲取前n篇文 檔S,構(gòu)成初始查詢的結(jié)果集R,對(duì)前n篇文檔S進(jìn)行正文提取、分詞和詞性標(biāo)注,對(duì)所有詞 進(jìn)行詞性過濾,從所有詞中選取概念詞集C,按公式(1)計(jì)算概念詞集C中每個(gè)概念詞(^與 查詢詞Wl之間的共現(xiàn)度,根據(jù)概念詞ci與查詢詞wi之間的共現(xiàn)度f(c,Q),對(duì)所有概念詞進(jìn) 行逆向排序,詵取前k個(gè)概念詞作為擴(kuò)展詞集:
[0018]
[0019] 其中,共現(xiàn)度計(jì)算公式中idf(wj為查詢詞&的逆文檔頻率,A為常量;c〇_ degree(c,Wl)為每個(gè)查詢詞Wl與概念C之間的貢獻(xiàn)數(shù),概念C與初始查詢表達(dá)式Q之間的 共現(xiàn)度為概念C與初始查詢表達(dá)式Q所有的查詢詞Wl的共現(xiàn)數(shù)的成積和;idf(wJ為查詢 詞&逆文檔頻率,idf(Wi)=log(^^),Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù),dwl為有限數(shù) 據(jù)源中包含詞Wl的文檔總數(shù),idf(Wl)詞語普遍重要性的度量;
[0020] 步驟2,根據(jù)擴(kuò)展詞集構(gòu)造查詢表達(dá)式,查詢表達(dá)式為S+ti,然后進(jìn)行k次查詢得 到k個(gè)查詢結(jié)果集;
[0021] 步驟3,判斷k次查詢累積返回的不重復(fù)文檔總數(shù)是否超過總文檔數(shù)N,如果未達(dá) 至IJ,則按照步驟1從每個(gè)初始查詢的結(jié)果集R中選取m個(gè)擴(kuò)展詞,進(jìn)行第二層查詢擴(kuò)展,此 時(shí)總共查詢kXm次,此時(shí)的查詢表達(dá)式為S+t11;其間,如果累積返回的文檔總數(shù)超過總數(shù) N,則停止;
[0022] 步驟4,按照步驟2和步驟3迭代進(jìn)行查詢擴(kuò)展,直到累計(jì)返回的文檔總數(shù)等于總 數(shù)N;此累計(jì)返回的文檔總數(shù)N指不重復(fù)的文檔數(shù);
[0023] 在步驟2中,共現(xiàn)度計(jì)算公式中A默認(rèn)為1。
【主權(quán)項(xiàng)】
1. 一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,其特征在于,包含w下步驟: 步驟1,用初始查詢表達(dá)式Q在總文檔數(shù)為N的有限數(shù)據(jù)源中檢索,獲取前n篇文檔S, 構(gòu)成初始查詢的結(jié)果集R,對(duì)前n篇文檔S進(jìn)行正文提取、分詞和詞性標(biāo)注,對(duì)所有詞進(jìn)行詞 性過濾,從所有詞中選取概念詞集C,按公式(1)計(jì)算概念詞集C中每個(gè)概念詞Ci與查詢詞 之間的共現(xiàn)度,根據(jù)概念詞C1與查詢詞W1之間的共現(xiàn)度f(C,Q),對(duì)所有概念詞進(jìn)行逆向 排序,選取前k個(gè)概念詞作為擴(kuò)展詞集;其中,共現(xiàn)度計(jì)算公式中i壯(Wi)為查詢詞Wi的逆文檔頻率,A為常量;co_degree(c,Wi)為每個(gè)查詢詞與概念C之間的貢獻(xiàn)數(shù),概念C與初始查詢表達(dá)式Q之間的共現(xiàn)度為 概念C與初始查詢表達(dá)式Q所有的查詢詞的共現(xiàn)數(shù)的成積和;i壯(W1)為查詢詞逆文 檔頻率,:MT(Wi)=log護(hù)^),Sum(d)為有限數(shù)據(jù)源中的文檔中數(shù),cU為有限數(shù)據(jù)源中包 含詞的文檔總數(shù),i壯(W1)詞語普遍重要性的度量; 步驟2,根據(jù)擴(kuò)展詞集構(gòu)造查詢表達(dá)式,查詢表達(dá)式為S+ti,然后進(jìn)行k次查詢得到k個(gè) 查詢結(jié)果集; 步驟3,判斷k次查詢累積返回的不重復(fù)文檔總數(shù)是否超過總文檔數(shù)N,如果未達(dá)到,貝U按照步驟1從每個(gè)初始查詢的結(jié)果集R中選取m個(gè)擴(kuò)展詞,進(jìn)行第二層查詢擴(kuò)展,此時(shí)總共 查詢kXm次,此時(shí)的查詢表達(dá)式為S+tii;其間,如果累積返回的文檔總數(shù)超過總數(shù)N,則停 止; 步驟4,按照步驟2和步驟3迭代進(jìn)行查詢擴(kuò)展,直到累計(jì)返回的文檔總數(shù)等于總數(shù)N; 此累計(jì)返回的文檔總數(shù)N指不重復(fù)的文檔數(shù)。2. 根據(jù)權(quán)利要求書1所述基于查詢擴(kuò)展的捜索引擎數(shù)據(jù)獲取方法,其特征在于:在步 驟2中,共現(xiàn)度計(jì)算公式中A默認(rèn)為1。
【專利摘要】本發(fā)明公開了一種基于查詢擴(kuò)展的有限數(shù)據(jù)源數(shù)據(jù)獲取方法,本發(fā)明通過查詢擴(kuò)展技術(shù)執(zhí)行多次查詢以獲取盡可能多的記錄,可以有效地避開返回記錄數(shù)的限制;以最少的查詢次數(shù)窮盡此類數(shù)據(jù)源中的相關(guān)文檔,本發(fā)明通過多次查詢直至窮盡有限數(shù)據(jù)源中所有相關(guān)文檔;本發(fā)明將該方法應(yīng)用與實(shí)際的信息檢索中,能以較少的查詢擴(kuò)展次數(shù)從有限數(shù)據(jù)源中獲取所有相關(guān)的數(shù)據(jù)。
【IPC分類】G06F17/30
【公開號(hào)】CN105005620
【申請?zhí)枴緾N201510437403
【發(fā)明人】陸偉, 樂興虎, 程齊凱
【申請人】武漢大學(xué)
【公開日】2015年10月28日
【申請日】2015年7月23日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1