專(zhuān)利名稱(chēng):正確數(shù)據(jù)的獲取方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種正確數(shù)據(jù)的獲取方法和裝置。
背景技術(shù):
數(shù)據(jù)處理包括對(duì)數(shù)據(jù)的采集、存儲(chǔ)、檢索、加工、變換和傳輸?shù)炔僮鳌?shù)據(jù)的形式可以是數(shù)字、文字、圖形或聲音等。數(shù)據(jù)經(jīng)過(guò)解釋并賦予一定的意義之后,便成為信息。數(shù)據(jù)處理的基本目的是從大量的、可能是雜亂無(wú)章的、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)于某些特定的人們來(lái)說(shuō)是有價(jià)值、有意義的數(shù)據(jù),即正確的數(shù)據(jù)。例如,對(duì)于同一個(gè)數(shù)據(jù),由于數(shù)據(jù)傳輸中的差錯(cuò)等原因,用戶所得到的內(nèi)容可能會(huì)有多個(gè)版本,則需要從這多個(gè)版本中確定出一個(gè)正確的版本,得到正確的數(shù)據(jù)。然而,對(duì)如何確定數(shù)據(jù)的正確性,目前還沒(méi)有提出較合適的處理方案。
發(fā)明內(nèi)容
本發(fā)明提供的一種正確數(shù)據(jù)的獲取方法和裝置,以解決現(xiàn)有無(wú)法確定數(shù)據(jù)正確性的問(wèn)題。為達(dá)到上述目的,本發(fā)明實(shí)施例采用了如下技術(shù)方案:本發(fā)明實(shí)施例提供了一種正確數(shù)據(jù)的獲取方法,根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫(kù),該方法包括:接收用戶的搜索請(qǐng)求,所述搜索請(qǐng)求中攜帶至少兩個(gè)關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng);在索引數(shù)據(jù)庫(kù)中分別搜索所述關(guān)鍵詞,并統(tǒng)計(jì)與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目;比較所述搜索結(jié)果數(shù)目,將具有最大搜索結(jié)果數(shù)目的關(guān)鍵字作為獲取到的正確的數(shù)據(jù)。本發(fā)明實(shí)施例還提供了 一種正確數(shù)據(jù)的獲取裝置,該裝置包括數(shù)據(jù)庫(kù)建立單元,用于根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫(kù);搜索請(qǐng)求接收單元,用于接收用戶的搜索請(qǐng)求,所述搜索請(qǐng)求中攜帶至少兩個(gè)關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng);搜索統(tǒng)計(jì)單元,用于在索引數(shù)據(jù)庫(kù)中搜索分別所述關(guān)鍵詞,并統(tǒng)計(jì)與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目;比較確認(rèn)單元,用于比較所述搜索結(jié)果數(shù)目,將具有最大搜索結(jié)果數(shù)目的關(guān)鍵字作為獲取到的正確的數(shù)據(jù)。本發(fā)明實(shí)施例的有益效果是:本發(fā)明實(shí)施例通過(guò)對(duì)數(shù)據(jù)使用和傳輸?shù)脑磉M(jìn)行分析,發(fā)現(xiàn)了一種數(shù)據(jù)處理的規(guī)律,該規(guī)律為數(shù)據(jù)的交互是建立在一套規(guī)范、統(tǒng)一的原則上且絕大部分所使用的數(shù)據(jù)都符合相同原則,從而通過(guò)對(duì)數(shù)據(jù)的搜索和對(duì)搜索結(jié)果的統(tǒng)計(jì)能夠得到正確的數(shù)據(jù)。
進(jìn)一步的,本方案能夠直接利用互聯(lián)網(wǎng)上的網(wǎng)頁(yè)信息生成所需的索引數(shù)據(jù)庫(kù),能夠快速有效地建立起具有一定規(guī)模的索引數(shù)據(jù)庫(kù),保證了正確獲取數(shù)據(jù)的實(shí)現(xiàn)。
圖1為本發(fā)明實(shí)施例一提供的一種正確數(shù)據(jù)的獲取方法流程示意圖;圖2為本發(fā)明實(shí)施例二提供的一種正確數(shù)據(jù)的獲取裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。參見(jiàn)圖1,為本發(fā)明實(shí)施例一提供的一種正確數(shù)據(jù)的獲取方法,具體如下:11:根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫(kù)。進(jìn)一步的,本實(shí)施例中的所述數(shù)據(jù)源是利用互聯(lián)網(wǎng)中的網(wǎng)頁(yè)數(shù)據(jù)得到的。將互聯(lián)網(wǎng)中的各種資源納入索引數(shù)據(jù)庫(kù),保證數(shù)據(jù)庫(kù)的規(guī)模并便于數(shù)據(jù)庫(kù)的建立。具體的,本實(shí)施例采用一種網(wǎng)頁(yè)抓取技術(shù)進(jìn)行網(wǎng)頁(yè)的自動(dòng)收集,從而獲得上述數(shù)據(jù)源。在抓取開(kāi)始時(shí),先選取一個(gè)初始網(wǎng)頁(yè),作為當(dāng)前網(wǎng)頁(yè)。將初始網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中,并檢測(cè)出初始網(wǎng)頁(yè)上的所有統(tǒng)一資源定位符(URL),訪問(wèn)所述URL所對(duì)應(yīng)網(wǎng)頁(yè)(如第一網(wǎng)頁(yè)至第三網(wǎng)頁(yè))并將該網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中。下一次抓取時(shí),將第一網(wǎng)頁(yè)至第三網(wǎng)頁(yè)都作為當(dāng)前網(wǎng)頁(yè),分別檢測(cè)出當(dāng)前網(wǎng)頁(yè)上的所有URL,訪問(wèn)所述URL所對(duì)應(yīng)網(wǎng)頁(yè)并將該網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中。即本實(shí)施例提供的網(wǎng)頁(yè)收集方案能自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著當(dāng)前網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),抓取到這些網(wǎng)頁(yè)并保存這些網(wǎng)頁(yè)的數(shù)據(jù)。重復(fù)上述抓取過(guò)程,把爬過(guò)的所有網(wǎng)頁(yè)的數(shù)據(jù)收集到數(shù)據(jù)源中。在一次網(wǎng)頁(yè)收集操作結(jié)束,獲取到數(shù)據(jù)源之后,本實(shí)施例還能夠在后續(xù)對(duì)所獲取的數(shù)據(jù)源進(jìn)行更新,更新的具體操作包括:獲取當(dāng)前網(wǎng)頁(yè)的更新標(biāo)簽信息,所述更新標(biāo)簽信息指示網(wǎng)頁(yè)的更新時(shí)間。例如,在執(zhí)行網(wǎng)頁(yè)抓取之前,向服務(wù)器發(fā)送超文本傳輸協(xié)議(HTTP)請(qǐng)求,服務(wù)器返回HTTP響應(yīng),該HTTP響應(yīng)中包括網(wǎng)頁(yè)的更新標(biāo)簽信息,從而獲知網(wǎng)頁(yè)的更新時(shí)間。根據(jù)所述更新標(biāo)簽信息判斷當(dāng)前網(wǎng)頁(yè)中的數(shù)據(jù)是否為新數(shù)據(jù),例如:若更新標(biāo)簽信息指示的網(wǎng)頁(yè)的更新時(shí)間為tl,上一次數(shù)據(jù)源獲取或更新過(guò)程的完成時(shí)間為t2,tl在t2之后時(shí),表明當(dāng)前網(wǎng)頁(yè)中的數(shù)據(jù)為新數(shù)據(jù),tl在t2之前時(shí),表明當(dāng)前網(wǎng)頁(yè)中的數(shù)據(jù)已經(jīng)被抓取過(guò)了,無(wú)需重復(fù)抓取。在當(dāng)前網(wǎng)頁(yè)中的數(shù)據(jù)是新數(shù)據(jù)時(shí),抓取當(dāng)前網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中,檢測(cè)所述當(dāng)前網(wǎng)頁(yè)上的所有URL,訪問(wèn)并抓取所述URL所對(duì)應(yīng)網(wǎng)頁(yè)并將該網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中,以及,將所述URL所對(duì)應(yīng)的網(wǎng)頁(yè)設(shè)置為當(dāng)前網(wǎng)頁(yè)。在收集到網(wǎng)頁(yè)數(shù)據(jù)之后,本實(shí)施例還對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行處理,以加快數(shù)據(jù)搜索的速度并提高搜索結(jié)果的準(zhǔn)確度。例如,對(duì)收集到的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析,剔除數(shù)據(jù)中的控制信息以及格式信息等與搜索無(wú)關(guān)的數(shù)據(jù),還可以對(duì)網(wǎng)頁(yè)數(shù)據(jù)中的冗余信息(如停用詞等)進(jìn)行剔除,保留與搜索相關(guān)的網(wǎng)頁(yè)內(nèi)容數(shù)據(jù)和數(shù)據(jù)編碼類(lèi)型等,將這些與搜索相關(guān)的數(shù)據(jù)作為索引數(shù)據(jù),由索引數(shù)據(jù)建立索引數(shù)據(jù)庫(kù)。12:接收用戶的搜索請(qǐng)求,所述搜索請(qǐng)求中攜帶至少兩個(gè)關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng)。上述關(guān)鍵詞可以為一個(gè)詞語(yǔ),或者由多個(gè)詞語(yǔ)組成的一段文本??梢岳斫猓鲫P(guān)鍵詞也可以為用以標(biāo)識(shí)圖像或圖形的信息。本實(shí)施例中采用在多個(gè)候選項(xiàng)(關(guān)鍵詞)中確認(rèn)所需的正確信息的方案。例如,一個(gè)示例中搜索請(qǐng)求中可以攜帶兩個(gè)關(guān)鍵詞,“mathematics”和“mathmatics”,這兩個(gè)關(guān)鍵詞都屬于“數(shù)學(xué)”的正確英文拼寫(xiě)的候選項(xiàng)。13:在索引數(shù)據(jù)庫(kù)中分別搜索所述關(guān)鍵詞,并統(tǒng)計(jì)與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目。對(duì)上述示例,統(tǒng)計(jì)索引數(shù)據(jù)庫(kù)中與關(guān)鍵詞“mathematics”相匹配(或相一致)的搜索結(jié)果的數(shù)目,并統(tǒng)計(jì)索引數(shù)據(jù)庫(kù)中與關(guān)鍵詞“mathmatics”相匹配(或相一致)的搜索結(jié)果的數(shù)目,參見(jiàn)下表1,顯示所得到的一種統(tǒng)計(jì)結(jié)果。表I
權(quán)利要求
1.一種正確數(shù)據(jù)的獲取方法,其特征在于,根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫(kù),所述方法包括: 接收用戶的搜索請(qǐng)求,所述搜索請(qǐng)求中攜帶至少兩個(gè)關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng); 在索引數(shù)據(jù)庫(kù)中分別搜索所述關(guān)鍵詞,并統(tǒng)計(jì)與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目; 比較所述搜索結(jié)果數(shù)目,將具有最大搜索結(jié)果數(shù)目的關(guān)鍵字作為獲取到的正確的數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述數(shù)據(jù)源是利用互聯(lián)網(wǎng)中的網(wǎng)頁(yè)數(shù)據(jù)得到的。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,通過(guò)如下方式獲取所述數(shù)據(jù)源: 抓取互聯(lián)網(wǎng)上的當(dāng)前網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中; 檢測(cè)所述當(dāng)前網(wǎng)頁(yè)上的所有統(tǒng)一資源定位符URL,訪問(wèn)并抓取所述URL所對(duì)應(yīng)網(wǎng)頁(yè)并將該網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中;將所述URL所對(duì)應(yīng)的網(wǎng)頁(yè)設(shè)置為當(dāng)前網(wǎng)頁(yè),繼續(xù)執(zhí)行所述抓取互聯(lián)網(wǎng)上的當(dāng)前網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,通過(guò)如下方式更新所獲取到的數(shù)據(jù)源: 獲取當(dāng)前網(wǎng)頁(yè)的更新標(biāo)簽信息,所述更新標(biāo)簽信息指示網(wǎng)頁(yè)的更新時(shí)間; 根據(jù)所述更新標(biāo)簽信息判斷當(dāng)前網(wǎng)頁(yè)中的數(shù)據(jù)是否為新數(shù)據(jù),若否,不再抓取當(dāng)前網(wǎng)頁(yè)中的數(shù)據(jù),若是,抓取當(dāng)前網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中,檢測(cè)所述當(dāng)前網(wǎng)頁(yè)上的所有URL,訪問(wèn)并抓取所述URL所對(duì)應(yīng)網(wǎng)頁(yè)并將該網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中,以及,將所述URL所對(duì)應(yīng)的網(wǎng)頁(yè)設(shè)置為當(dāng)前網(wǎng)頁(yè)。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫(kù)包括: 對(duì)數(shù)據(jù)源中存儲(chǔ)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析,提取出索引數(shù)據(jù),并利用該索引數(shù)據(jù)建立索引數(shù)據(jù)庫(kù),所述索引數(shù)據(jù)包括網(wǎng)頁(yè)內(nèi)容數(shù)據(jù)和數(shù)據(jù)編碼類(lèi)型。
6.一種正確數(shù)據(jù)的獲取裝置,其特征在于,所述裝置包括 數(shù)據(jù)庫(kù)建立單元,用于根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫(kù); 搜索請(qǐng)求接收單元,用于接收用戶的搜索請(qǐng)求,所述搜索請(qǐng)求中攜帶至少兩個(gè)關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng); 搜索統(tǒng)計(jì)單元,用于在索引數(shù)據(jù)庫(kù)中搜索分別所述關(guān)鍵詞,并統(tǒng)計(jì)與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目; 比較確認(rèn)單元,用于比較所述搜索結(jié)果數(shù)目,將具有最大搜索結(jié)果數(shù)目的關(guān)鍵字作為獲取到的正確的數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于, 所述數(shù)據(jù)庫(kù)建立單元所使用的數(shù)據(jù)源是利用互聯(lián)網(wǎng)中的網(wǎng)頁(yè)數(shù)據(jù)得到的。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述數(shù)據(jù)庫(kù)建立單元包括數(shù)據(jù)存儲(chǔ)模塊和數(shù)據(jù)抓取模塊, 所述數(shù)據(jù)存儲(chǔ)模塊,用于抓取互聯(lián)網(wǎng)上的當(dāng)前網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中; 所述數(shù)據(jù)抓取模塊,用于檢測(cè)所述當(dāng)前網(wǎng)頁(yè)上的所有統(tǒng)一資源定位符URL,訪問(wèn)并抓取所述URL所對(duì)應(yīng)網(wǎng)頁(yè); 所述數(shù)據(jù)存儲(chǔ)模塊,還用于將所述數(shù)據(jù)抓取模塊所訪問(wèn)的網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中,將所述URL所對(duì)應(yīng)的網(wǎng)頁(yè)設(shè)置為當(dāng)前網(wǎng)頁(yè)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述數(shù)據(jù)庫(kù)建立單元還包括數(shù)據(jù)源更新模塊, 所述數(shù)據(jù)源更新模塊,用于獲取當(dāng)前網(wǎng)頁(yè)的更新標(biāo)簽信息,所述更新標(biāo)簽信息指示網(wǎng)頁(yè)的更新時(shí)間;根據(jù)所述更新標(biāo)簽信息判斷當(dāng)前網(wǎng)頁(yè)中的數(shù)據(jù)是否為新數(shù)據(jù),若否,不再抓取當(dāng)前網(wǎng)頁(yè)中的數(shù)據(jù),若是,抓取當(dāng)前網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中,檢測(cè)所述當(dāng)前網(wǎng)頁(yè)上的所有URL,訪問(wèn)并抓取所述URL所對(duì)應(yīng)網(wǎng)頁(yè)并將該網(wǎng)頁(yè)的數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)源中,以及,將所述URL所對(duì)應(yīng)的網(wǎng)頁(yè)設(shè)置為當(dāng)前網(wǎng)頁(yè)。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于, 所述數(shù)據(jù)庫(kù)建立單元,具體用于對(duì)數(shù)據(jù)源中存儲(chǔ)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行解析,提取出索引數(shù)據(jù),并利用該索引數(shù)據(jù)建立 索引數(shù)據(jù)庫(kù),所述索引數(shù)據(jù)包括網(wǎng)頁(yè)內(nèi)容數(shù)據(jù)和數(shù)據(jù)編碼類(lèi)型。
全文摘要
本發(fā)明公開(kāi)了一種正確數(shù)據(jù)的獲取方法和裝置,能夠通過(guò)對(duì)數(shù)據(jù)的搜索和對(duì)搜索結(jié)果的統(tǒng)計(jì)得到正確的數(shù)據(jù)。本發(fā)明實(shí)施例提供的正確數(shù)據(jù)的獲取方法包括根據(jù)獲取到的數(shù)據(jù)源建立索引數(shù)據(jù)庫(kù);接收用戶的搜索請(qǐng)求,所述搜索請(qǐng)求中攜帶至少兩個(gè)關(guān)鍵詞,所述關(guān)鍵詞屬于同一數(shù)據(jù)的候選項(xiàng);在索引數(shù)據(jù)庫(kù)中分別搜索所述關(guān)鍵詞,并統(tǒng)計(jì)與關(guān)鍵詞所匹配的數(shù)據(jù)的搜索結(jié)果數(shù)目;比較所述搜索結(jié)果數(shù)目,將具有最大搜索結(jié)果數(shù)目的關(guān)鍵字作為獲取到的正確的數(shù)據(jù)。
文檔編號(hào)G06F17/30GK103186618SQ20111045741
公開(kāi)日2013年7月3日 申請(qǐng)日期2011年12月30日 優(yōu)先權(quán)日2011年12月30日
發(fā)明者張程 申請(qǐng)人:北京新媒傳信科技有限公司