本發(fā)明涉及圖文知識(shí)庫(kù)構(gòu)建,尤其是一種基于垂直搜索引擎的圖文知識(shí)庫(kù)構(gòu)建方法。
技術(shù)背景
隨著移動(dòng)互聯(lián)網(wǎng)的快速增長(zhǎng),通過(guò)智能終端搜索查詢(xún)百科知識(shí)的需求快速增長(zhǎng)。目前,百科知識(shí)分布于很多相關(guān)的專(zhuān)業(yè)網(wǎng)站,如維基百科,百度百科,互動(dòng)百科??梢允褂猛ㄓ盟阉饕鎭?lái)獲取到相關(guān)的知識(shí)。
這些知識(shí)庫(kù)通常體量龐大,圖文并茂,同一知識(shí)往往分布于不同網(wǎng)站中,很難一次性地獲取到該類(lèi)知識(shí)的全面信息。同時(shí),這些百科知識(shí)網(wǎng)站僅僅提供分類(lèi)查詢(xún)和文本檢索功能。因此,利用垂直搜索引擎來(lái)構(gòu)建可以提供圖文查詢(xún)功能的圖文知識(shí)庫(kù),實(shí)現(xiàn)圖文知識(shí)的快速分享。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)中的不足,本發(fā)明提供一種基于垂直搜索引擎的圖文知識(shí)庫(kù)構(gòu)建的方法。在服務(wù)器中根據(jù)主題的要求定時(shí)定向抓取百科類(lèi)網(wǎng)站的網(wǎng)頁(yè),并根據(jù)主題關(guān)鍵詞來(lái)分析網(wǎng)頁(yè)中的內(nèi)容,實(shí)現(xiàn)圖文分離的關(guān)聯(lián),在此基礎(chǔ)上對(duì)其中的圖像提取其紋理等特征,構(gòu)建按照關(guān)鍵詞名次和圖像特征索引的數(shù)據(jù)庫(kù)。在后續(xù)檢索時(shí)可以提供文本和圖像檢索。該方法提高了知識(shí)庫(kù)的專(zhuān)業(yè)性,解決知識(shí)庫(kù)不能夠提供基于圖像檢索的問(wèn)題。
按照本發(fā)明所提供的設(shè)計(jì)方案,一種基于垂直搜索引擎的圖文知識(shí)庫(kù)構(gòu)建的方法,具體包含以下步驟:
步驟1.在服務(wù)器后臺(tái)定時(shí)定向抓取百科類(lèi)網(wǎng)站的網(wǎng)頁(yè)。
步驟2.分析抓取的網(wǎng)絡(luò)百科知識(shí)內(nèi)容,圖文分離網(wǎng)頁(yè)內(nèi)容。
步驟3.提取圖像的紋理特征、顏色特征、形狀特征等,構(gòu)建圖像加權(quán)特征。
步驟4.按照給定關(guān)鍵詞名稱(chēng)建立索引,將網(wǎng)頁(yè)中的文字描述和圖像及圖像特征進(jìn)行關(guān)聯(lián)存儲(chǔ)。
步驟5,檢索時(shí)提供基于文本的檢索和圖像特征匹配檢索反饋,反饋信息包含圖像和文字描述。
進(jìn)一步,步驟1中,所述服務(wù)器后臺(tái)定時(shí)定向抓取百科類(lèi)網(wǎng)站的網(wǎng)頁(yè),具體為:首先設(shè)置包括維基百科中文網(wǎng)、百度百科、互動(dòng)百科在內(nèi)的多個(gè)百科知識(shí)網(wǎng)站作為知識(shí)庫(kù)的信息源頭,然后對(duì)這些網(wǎng)站的分類(lèi)結(jié)構(gòu)進(jìn)行分析,根據(jù)所設(shè)定的主題,選擇該主題類(lèi)別的網(wǎng)頁(yè)進(jìn)行定時(shí)抓取,以獲得相關(guān)主題網(wǎng)頁(yè)的URL。
進(jìn)一步,步驟2中,所述的分析抓取的網(wǎng)絡(luò)百科知識(shí)內(nèi)容,圖文分離網(wǎng)頁(yè)內(nèi)容,具體是將網(wǎng)頁(yè)中的文本信息提取存儲(chǔ),將網(wǎng)頁(yè)中的圖片/圖像保存。
進(jìn)一步,在步驟3中,所述的提取圖像的紋理特征、顏色特征、形狀特征等,構(gòu)建圖像加權(quán)特征,具體為:將圖像進(jìn)行尺寸歸一化,然后分別提取圖像的紋理特征T,顏色特征C和形狀特征S,并對(duì)這三種特征分別賦予權(quán)重w1,w2,w3,且w1+w2+w3=1,圖像的加權(quán)特征F=w1T+w2C+w3S。
優(yōu)選的,所述的提取紋理特征,采用Gabor濾波器提取圖像的紋理特征;
優(yōu)選的,所述的圖像的顏色特征,采用RGB顏色空間的顏色直方圖特征;
優(yōu)選的,所述的形狀特征,采用Fourier描述子來(lái)提取形狀特征。
進(jìn)一步,在步驟4中,所述的按照給定關(guān)鍵詞名稱(chēng)建立索引,將網(wǎng)頁(yè)中的文字描述和圖像及圖像特征進(jìn)行關(guān)聯(lián)存儲(chǔ),具體為:在數(shù)據(jù)庫(kù)中,將關(guān)鍵詞作為數(shù)據(jù)庫(kù)的主鍵,圖像特征作為輔關(guān)鍵詞,將文本描述和圖像對(duì)象進(jìn)行存儲(chǔ)。
優(yōu)先地,所述的圖像對(duì)象進(jìn)行存儲(chǔ),采用將圖像對(duì)象單獨(dú)存儲(chǔ)到指定分類(lèi)目錄中,在數(shù)據(jù)庫(kù)中存儲(chǔ)圖像對(duì)象的存儲(chǔ)路徑+圖像名稱(chēng)。
進(jìn)一步,在步驟5中,所述檢索時(shí)提供基于文本的檢索和圖像特征匹配檢索反饋,反饋信息包含圖像和文字描述,具體為:根據(jù)查詢(xún)對(duì)象的情況分為三種類(lèi)型。第一種、在數(shù)據(jù)庫(kù)中可以通過(guò)輸入待檢索的文本在數(shù)據(jù)庫(kù)中進(jìn)行查找,反饋檢索到的結(jié)果,以及該文本對(duì)應(yīng)的圖像;第二種、輸入待查詢(xún)的圖像,采用步驟3中的方法計(jì)算查詢(xún)圖像的特征值,然后和數(shù)據(jù)庫(kù)中存儲(chǔ)的圖像特征值使用歐式距離相比較,按照差值從小到大反饋圖像及其對(duì)應(yīng)的文本;第三種、輸入的為已經(jīng)計(jì)算得到的圖像特征值,則直接將查詢(xún)的特征值和數(shù)據(jù)庫(kù)中存儲(chǔ)的圖像特征值使用歐式距離相比較,按照差值從小到大反饋圖像及其對(duì)應(yīng)的文本。
本發(fā)明的有益效果:本發(fā)明針對(duì)現(xiàn)有的百科知識(shí)內(nèi)容分散,缺乏統(tǒng)一的有效管理,利用垂直搜索引擎來(lái)根據(jù)指定的知識(shí)詞庫(kù)來(lái)篩選分析并提取典型百科知識(shí)中的相關(guān)內(nèi)容,將這些內(nèi)容的圖文信息進(jìn)行分析并提取出圖像特征和文本描述,進(jìn)一步來(lái)構(gòu)建圖文知識(shí)庫(kù),構(gòu)建的知識(shí)庫(kù)提供了基于文本檢索、圖像檢索功能, 提供了一種新的圖文知識(shí)庫(kù)的構(gòu)建和應(yīng)用方式。
附圖說(shuō)明
圖1.本發(fā)明的流程示意圖。
圖2.本發(fā)明實(shí)施例提供的流程圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案即優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
實(shí)施例一,參考圖1所示,一種基于垂直搜索引擎的圖文知識(shí)庫(kù)構(gòu)建方法,其特征在于,包括:
步驟101.在服務(wù)器后臺(tái)定時(shí)定向抓取百科類(lèi)網(wǎng)站的網(wǎng)頁(yè)。
步驟102.分析抓取的網(wǎng)絡(luò)百科知識(shí)內(nèi)容,圖文分離網(wǎng)頁(yè)內(nèi)容。
步驟103.提取圖像的紋理特征、顏色特征、形狀特征等,構(gòu)建圖像加權(quán)特征。
步驟104.按照構(gòu)建的知識(shí)庫(kù)名稱(chēng)建立索引,將網(wǎng)頁(yè)中的文字描述和圖像及圖像特征進(jìn)行關(guān)聯(lián)存儲(chǔ)。
步驟105.檢索時(shí)提供基于文本的檢索和圖像特征匹配檢索反饋,反饋信息包含圖像和文字描述。
所述服務(wù)器后臺(tái)定時(shí)定向抓取百科類(lèi)網(wǎng)站的網(wǎng)頁(yè),具體為:首先設(shè)置包括維基百科中文網(wǎng)、百度百科、互動(dòng)百科在內(nèi)的多個(gè)百科知識(shí)網(wǎng)站作為知識(shí)庫(kù)的信息源頭,然后對(duì)這些網(wǎng)站的分類(lèi)結(jié)構(gòu)進(jìn)行分析,根據(jù)所設(shè)定的主題,選擇該主題類(lèi)別的網(wǎng)頁(yè)進(jìn)行定時(shí)抓取,以獲得相關(guān)主題網(wǎng)頁(yè)的URL。
所述的分析抓取的網(wǎng)絡(luò)百科知識(shí)內(nèi)容,圖文分離網(wǎng)頁(yè)內(nèi)容,具體是將網(wǎng)頁(yè)中的文本信息提取存儲(chǔ),將網(wǎng)頁(yè)中的圖片/圖像保存。
所述的提取圖像的紋理特征、顏色特征、形狀特征等,構(gòu)建圖像加權(quán)特征,具體為:將圖像進(jìn)行尺寸歸一化,然后分別提取圖像的紋理特征T,顏色特征C和形狀特征S,并對(duì)這三種特征分別賦予權(quán)重w1,w2,w3,且w1+w2+w3=1,圖像的加權(quán)特征F=w1T+w2C+w3S。
所述的按照給定關(guān)鍵詞名稱(chēng)建立索引,將網(wǎng)頁(yè)中的文字描述和圖像及圖像特征進(jìn)行關(guān)聯(lián)存儲(chǔ),具體為:在數(shù)據(jù)庫(kù)中,將關(guān)鍵詞作為數(shù)據(jù)庫(kù)的主鍵,圖像特征作為輔關(guān)鍵詞,將文本描述和圖像對(duì)象進(jìn)行存儲(chǔ)。
所述檢索時(shí)提供基于文本的檢索和圖像特征匹配檢索反饋,反饋信息包含圖像和文字描述,具體為:根據(jù)查詢(xún)對(duì)象的情況分為三種類(lèi)型。第一種、在數(shù)據(jù)庫(kù)中可以通過(guò)輸入待檢索的文本在數(shù)據(jù)庫(kù)中進(jìn)行查找,反饋檢索到的結(jié)果,以及該文本對(duì)應(yīng)的圖像;第二種、輸入待查詢(xún)的圖像,采用步驟103中的方法計(jì)算查詢(xún)圖像的特征值,然后和數(shù)據(jù)庫(kù)中存儲(chǔ)的圖像特征值使用歐式距離相比較,按照差值從小到大反饋圖像及其對(duì)應(yīng)的文本;第三種、輸入的為已經(jīng)計(jì)算得到的圖像特征值,則直接將查詢(xún)的特征值和數(shù)據(jù)庫(kù)中存儲(chǔ)的圖像特征值使用歐式距離相比較,按照差值從小到大反饋圖像及其對(duì)應(yīng)的文本。
實(shí)施例二:參考圖2所示,一種基于垂直搜索引擎的圖文知識(shí)庫(kù)構(gòu)建的方法,其特征在于,包括:
步驟201中,構(gòu)建植物名稱(chēng)、動(dòng)物名稱(chēng)名詞詞庫(kù),根據(jù)所要構(gòu)建的知識(shí)庫(kù),給出知識(shí)庫(kù)的類(lèi)別及其相應(yīng)名詞詞庫(kù),例如構(gòu)建花卉詞庫(kù),則列出相應(yīng)的花卉名稱(chēng)。
在步驟202中,構(gòu)建定向搜索搜索的網(wǎng)站網(wǎng)址數(shù)據(jù)庫(kù),設(shè)置包括維基百科中文網(wǎng)、百度百科、互動(dòng)百科在內(nèi)的多個(gè)百科知識(shí)網(wǎng)站作為知識(shí)庫(kù)的信息源頭,然后對(duì)這些網(wǎng)站的分類(lèi)結(jié)構(gòu)進(jìn)行分析,根據(jù)所設(shè)定的主題,選擇該主題類(lèi)別的網(wǎng)頁(yè)。
步驟203中,定向信息抓取,通過(guò)垂直搜索引擎將設(shè)定網(wǎng)頁(yè)的信息抓取并保存。
在步驟204中,網(wǎng)頁(yè)分析,將抓取到的網(wǎng)頁(yè),首先判斷其中的內(nèi)容是否已經(jīng)抓取并存儲(chǔ)過(guò),如果沒(méi)有,則將網(wǎng)頁(yè)中文本信息信息提取出來(lái),將圖像提取出來(lái)。
在步驟205中,文本分析及索引建立,將分析文本主題信息,并根據(jù)知識(shí)庫(kù)名詞詞庫(kù)來(lái)建立數(shù)據(jù)庫(kù)的主關(guān)鍵詞。
在步驟206中,圖像特征分析提取,采用提取圖像的紋理特征、顏色特征、形狀特征等,構(gòu)建圖像加權(quán)特征,將圖像進(jìn)行尺寸歸一化,然后分別提取圖像的紋理特征T,顏色特征C和形狀特征S,并對(duì)這三種特征分別賦予權(quán)重w1,w2,w3,且w1+w2+w3=1,圖像的加權(quán)特征F=w1T+w2C+w3S。
在步驟207中,圖文關(guān)聯(lián)存儲(chǔ),將步驟206中計(jì)算得到的圖像特征作為輔關(guān) 鍵詞與步驟205中名詞詞庫(kù)進(jìn)行關(guān)聯(lián),將名詞詞庫(kù)、文本信息和圖像信息、圖像特征等存儲(chǔ)到數(shù)據(jù)庫(kù)中。
在步驟208中,用戶(hù)查詢(xún)、檢索,為用戶(hù)提供基于文本,圖像和圖像特征查詢(xún)的方式,并將對(duì)應(yīng)的文本及圖像信息返回給用戶(hù)。。
最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。