1.一種基于垂直搜索引擎的圖文知識(shí)庫構(gòu)建方法,其特征在于,包括:首先在服務(wù)器后臺(tái)定時(shí)定向抓取百科類網(wǎng)站的網(wǎng)頁,然后分析抓取的網(wǎng)絡(luò)百科知識(shí)內(nèi)容,將網(wǎng)頁中的圖文信息分別提取,接著提取圖像的紋理特征、顏色特征、形狀特征等來構(gòu)成圖像加權(quán)特征,在此基礎(chǔ)上按照給定關(guān)鍵詞名稱建立索引,將網(wǎng)頁中的文字描述和圖像及圖像特征進(jìn)行關(guān)聯(lián)存儲(chǔ);最后用戶檢索時(shí)提供基于文本的檢索和圖像特征匹配檢索反饋,反饋信息包含圖像和文字描述。
2.根據(jù)權(quán)利1要求所述的構(gòu)建方法,所述的服務(wù)器后臺(tái)定時(shí)定向抓取百科類網(wǎng)站的網(wǎng)頁,具體為:首先設(shè)置包括維基百科中文網(wǎng)、百度百科、互動(dòng)百科在內(nèi)的多個(gè)百科知識(shí)網(wǎng)站作為知識(shí)庫的信息源頭,然后對(duì)這些網(wǎng)站的分類結(jié)構(gòu)進(jìn)行分析,根據(jù)所設(shè)定的主題,選擇該主題類別的網(wǎng)頁進(jìn)行定時(shí)抓取,以獲得相關(guān)主題網(wǎng)頁的URL。
3.根據(jù)權(quán)利1要求所述的構(gòu)建方法,所述的分析抓取的網(wǎng)絡(luò)百科知識(shí)內(nèi)容,圖文分離網(wǎng)頁內(nèi)容,具體是將網(wǎng)頁中的文本信息提取存儲(chǔ),將網(wǎng)頁中的圖片/圖像保存。
4.根據(jù)權(quán)利1要求所述的構(gòu)建方法,所述的提取圖像的紋理特征、顏色特征、形狀特征等,構(gòu)建圖像加權(quán)特征,具體為:將圖像進(jìn)行尺寸歸一化,然后分別提取圖像的紋理特征T,顏色特征C和形狀特征S,并對(duì)這三種特征分別賦予權(quán)重w1,w2,w3,且w1+w2+w3=1,圖像的加權(quán)特征F=w1T+w2C+w3S。
5.根據(jù)權(quán)利1要求所述的構(gòu)建方法,所述的按照給定關(guān)鍵詞名稱建立索引,將網(wǎng)頁中的文字描述和圖像及圖像特征進(jìn)行關(guān)聯(lián)存儲(chǔ),具體為:在數(shù)據(jù)庫中,將關(guān)鍵詞作為數(shù)據(jù)庫的主鍵,圖像特征作為輔關(guān)鍵詞,將文本描述和圖像對(duì)象進(jìn)行存儲(chǔ)。
6.根據(jù)權(quán)利1要求所述的構(gòu)建方法,所述檢索時(shí)提供基于文本的檢索和圖像特征匹配檢索反饋,反饋信息包含圖像和文字描述,具體為:根據(jù)查詢對(duì)象的情況分為三種類型。第一種、在數(shù)據(jù)庫中可以通過輸入待檢索的文本在數(shù)據(jù)庫中進(jìn)行查找,反饋檢索到的結(jié)果,以及該文本對(duì)應(yīng)的圖像;第二種、輸入待查詢的圖像,采用圖像特征加權(quán)方法計(jì)算查詢圖像的特征值,然后和數(shù)據(jù)庫中存儲(chǔ)的圖像特征值使用歐式距離相比較,按照差值從小到大反饋圖像及其對(duì)應(yīng)的文本;第三種、輸入的為已經(jīng)計(jì)算得到的圖像特征值,則直接將查詢的特征值和數(shù)據(jù)庫中存儲(chǔ)的圖像特征值使用歐式距離相比較,按照差值從小到大反饋圖像及其對(duì)應(yīng)的文本。
7.根據(jù)權(quán)利要求1所述的構(gòu)建方法,其特征在于,圖文知識(shí)庫的構(gòu)建包含有以下步驟:
步驟101.在服務(wù)器后臺(tái)定時(shí)定向抓取百科類網(wǎng)站的網(wǎng)頁;
步驟102.分析抓取的網(wǎng)絡(luò)百科知識(shí)內(nèi)容,圖文分離網(wǎng)頁內(nèi)容;
步驟103.提取圖像的紋理特征、顏色特征、形狀特征等,構(gòu)建圖像加權(quán)特征;
步驟104.按照給定關(guān)鍵詞名稱建立索引,將網(wǎng)頁中的文字描述和圖像及圖像特征進(jìn)行關(guān)聯(lián)存儲(chǔ);
步驟105,檢索時(shí)提供基于文本的檢索和圖像特征匹配檢索反饋,反饋信息包含圖像和文字描述。