本發(fā)明涉及一種基于軟件定義的網(wǎng)絡(luò)分布式圖片搜索引擎框架
背景技術(shù):
網(wǎng)絡(luò)爬蟲,也稱網(wǎng)絡(luò)蜘蛛、網(wǎng)絡(luò)機器人,是一個自動提取網(wǎng)頁的程序,它從因特網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成部分。網(wǎng)絡(luò)爬蟲利用標(biāo)準(zhǔn)的HTTP協(xié)議,根據(jù)超級鏈接和Web文檔檢索的方法遍歷因特網(wǎng)信息空間。
目前搜索引擎只針對文本進行搜索,還不能對音樂、圖片和視頻等多媒體文件進行搜索,原因主要是多媒體數(shù)據(jù)量太大;如何索引多媒體文件;進而對處理過的多媒體文件檢索?,F(xiàn)在因特網(wǎng)上有大量的多媒體文件,特別是社交網(wǎng)站和多媒體分享的興起,需要對多媒體文件進行精準(zhǔn)檢索。
因特網(wǎng)上有數(shù)千種不同的數(shù)據(jù)類型,HTTP給每種要通過Web傳輸?shù)膶ο蠖即蛏狭嗣麨镸IME類型的數(shù)據(jù)格式標(biāo)簽(常見圖片格式:image/jpeg,image/gif)。統(tǒng)一資源定位符(URL)是資源標(biāo)識符最常見的形式。URL描述了一臺特定服務(wù)器上某資源的特定位置。元素文件(METAFILE)可提供有關(guān)頁面的元信息,如針對搜索引擎和更新頻度的描述和關(guān)鍵詞,可針對元素的關(guān)鍵詞進行索引。
UDP是OSI參考模型中一種無連接的傳輸層協(xié)議,它主要用于不要求分組順序到達的傳輸中,分組傳輸順序的檢查與排序由應(yīng)用層完成,提供面向事務(wù)的簡單不可靠信息傳送服務(wù)。網(wǎng)絡(luò)圖片可通過UDP進行下載,因為UDP具有TCP所望塵莫及的速度優(yōu)勢。
基于關(guān)鍵幀的網(wǎng)絡(luò)視頻格式文件摘要提取,計算量非常大,實時要求很難實現(xiàn)。而針對網(wǎng)絡(luò)視頻縮略圖進行檢索,是基于現(xiàn)有技術(shù),一種可行的路徑。
要對多媒體文件進行精準(zhǔn)檢索,首先要提供高可用的負(fù)載均衡服務(wù)器集群,存儲標(biāo)注的多媒體文件;其次要有一套分布式內(nèi)存對象緩存系統(tǒng),作為代理服務(wù)器,用于在動態(tài)系統(tǒng)中減少數(shù)據(jù)庫負(fù)載,實現(xiàn)對多媒體文件的爬取索引;還可用軟件定義網(wǎng)絡(luò)(Software Defined Network,SDN),其核心技術(shù)OpenFlow通過將網(wǎng)絡(luò)設(shè)備控制面與數(shù)據(jù)面分離開來,從而實現(xiàn)了網(wǎng)絡(luò)流量的靈活控制;最后利用關(guān)鍵詞對圖片格式文件進行檢索,再對檢索結(jié)果進行直方圖的精準(zhǔn)檢索。
本發(fā)明提供了一種基于軟件定義的網(wǎng)絡(luò)分布式圖片搜索引擎用戶界面、檢索排名、緩存爬取以及服務(wù)器集群框架,主干網(wǎng)絡(luò)可運行在OpenFlow上,并且通過網(wǎng)絡(luò)鏈接分布在全球各地的數(shù)據(jù)中心,提高廣域線路的利用率。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于軟件定義的網(wǎng)絡(luò)分布式圖片搜索引擎框架。本發(fā)明包括以下特征:
發(fā)明技術(shù)方案
1.一種基于軟件定義的網(wǎng)絡(luò)分布式圖片搜索引擎框架,其具體步驟如下:
1)構(gòu)建一套分布式內(nèi)存對象緩存系統(tǒng),作為代理服務(wù)器,用于在動態(tài)系統(tǒng)中減少數(shù)據(jù)庫負(fù)載;
2)通過METAFILE的鏈路,實現(xiàn)對URL和直方圖的提取及索引并建立URL與直方圖映射;
3)構(gòu)建高可用的負(fù)載均衡服務(wù)器集群,存儲已索引的URL和直方圖;
4)利用關(guān)鍵詞或上傳圖片格式文件含關(guān)鍵詞,對指向圖片格式文件地址的URL進行檢索;
5)對檢索結(jié)果再進行直方圖的精準(zhǔn)檢索,通過直方圖與URL的映射,確定指向圖片格式文件地址的URL,獲得圖片格式文件。
2.基于權(quán)利要求1的框架,主干網(wǎng)絡(luò)可運行在OpenFlow上,并且通過網(wǎng)絡(luò)鏈接分布在全球各地的數(shù)據(jù)中心,提高廣域線路的利用率。
附圖說明
圖1是基于關(guān)鍵詞和直方圖的二級圖片搜索引擎框架圖;圖2是一致性散列算法的原理圖;圖3是高可用的LVS集群拓?fù)浣Y(jié)構(gòu)圖。
具體實施方式
這種基于軟件定義的網(wǎng)絡(luò)分布式圖片搜索引擎框架,包括如下步驟:
1)構(gòu)建一套分布式內(nèi)存對象緩存系統(tǒng),作為代理服務(wù)器見附圖2,用于在動態(tài)系統(tǒng)中減少數(shù)據(jù)庫負(fù)載;
2)通過METAFILE的鏈路,實現(xiàn)對URL和直方圖的提取及索引并建立URL與直方圖映射;
3)構(gòu)建高可用的負(fù)載均衡服務(wù)器集群見附圖3,存儲已索引的URL和直方圖;
4)利用關(guān)鍵詞或上傳圖片格式文件含關(guān)鍵詞,對指向圖片格式文件地址的URL進行檢索;
5)對檢索結(jié)果再進行直方圖的精準(zhǔn)檢索,通過直方圖與URL的映射,確定指向圖片格式文件地址的URL,獲得圖片格式文件;
6)主干網(wǎng)絡(luò)可運行在OpenFlow上,并且通過網(wǎng)絡(luò)鏈接分布在全球各地的數(shù)據(jù)中心,提高廣域線路的利用率。