本發(fā)明涉及一種圖片爬取方法,尤其是涉及一種基于文本關(guān)鍵字的輸電線路設(shè)備關(guān)聯(lián)圖片爬取方法。
背景技術(shù):
電力是現(xiàn)代工業(yè)發(fā)展的根本,也是我國的重要資源。為確保電力網(wǎng)絡(luò)的安全運行,如何對電力網(wǎng)絡(luò)進(jìn)行安全巡檢,是我們目前研究關(guān)注的重點。電線路巡檢目前主要可分為人工巡檢、機(jī)器人巡檢、載人直升機(jī)巡檢和無人機(jī)巡檢4種方式。傳統(tǒng)的人工巡檢不僅要求巡檢人員具有相關(guān)的專業(yè)知識,而且還極大的依賴于巡檢員的工作態(tài)度,并且惡劣的環(huán)境也對人工巡檢提出了極大的挑戰(zhàn)。相比于人工巡檢,其他3種巡檢方式不僅提高了檢修效率,而且人力成本低、風(fēng)險小。在這類現(xiàn)代的電路巡檢方法過程中,會拍攝大量的電路巡檢圖片,而利用這些巡檢圖片作為資源,可以開發(fā)出一個通過電力圖像來分析電力器件安全性的智能系統(tǒng)。在開發(fā)一個具有智能檢測的系統(tǒng)時,系統(tǒng)的圖像資源集的大小對系統(tǒng)的智能識別準(zhǔn)備率具有決定性的影響。目前,僅僅依靠巡檢過程中現(xiàn)場采集的圖片非常有限,而且單一電力企業(yè)沒有足夠的訓(xùn)練數(shù)據(jù),計算機(jī)的訓(xùn)練集太小,學(xué)習(xí)訓(xùn)練不夠充分,所以導(dǎo)致識別率不高。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于文本關(guān)鍵字的輸電線路設(shè)備關(guān)聯(lián)圖片爬取方。
本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):
一種基于文本關(guān)鍵字的輸電線路設(shè)備關(guān)聯(lián)圖片爬取方法,包括步驟:
s1:獲取文本關(guān)鍵字;
s2:根據(jù)獲取的文本關(guān)鍵字?jǐn)U展得到相關(guān)關(guān)鍵字;
s3:基于文本關(guān)鍵字和相關(guān)關(guān)鍵字利用搜索引擎的圖片搜索服務(wù)器搜索得到關(guān)聯(lián)圖片;
s4:下載關(guān)聯(lián)圖片。
所述步驟s3具體包括步驟:
s31:基于文本關(guān)鍵字和相關(guān)關(guān)鍵字向搜索引擎的圖片搜索服務(wù)器發(fā)送http搜索請求;
s32:接收并獲取由搜索服務(wù)器返回的關(guān)聯(lián)圖片的下載鏈接;
s33:保存獲取的關(guān)聯(lián)圖片的下載鏈接。
所述步驟s32包括步驟:
s321:接收由搜索服務(wù)器返回的每一張關(guān)聯(lián)圖片的下載鏈接屬性;
s322:從反饋的每一張關(guān)聯(lián)圖片的下載鏈接屬性中獲取該關(guān)聯(lián)圖片的下載鏈接。
所述步驟s4中,下載關(guān)聯(lián)圖片時更新并保存下載狀態(tài)和源搜索引擎。
所述步驟s4中,采用異步多線程方式下載關(guān)聯(lián)圖片。
所述步驟s3中,利用多個搜索引擎的圖片搜索服務(wù)器搜索得到關(guān)聯(lián)圖片。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:
1)利用本地的聯(lián)想功能,而不是利用搜索引擎自身的聯(lián)想能力,可以讓聯(lián)想更加符合電力系統(tǒng)特點,從而搜索到更加符合要求的關(guān)聯(lián)圖片,有利于智能檢測系統(tǒng)有效訓(xùn)練。
2)將獲取的關(guān)聯(lián)圖片的下載鏈接進(jìn)行本地保存,從而實現(xiàn)斷點續(xù)傳。
3)從服務(wù)器返回的下載鏈接屬性篩選出下載鏈接,避免了搜索引擎的反爬機(jī)制影響。
附圖說明
圖1為本發(fā)明方法的主要步驟流程示意圖。
具體實施方式
下面結(jié)合附圖和具體實施例對本發(fā)明進(jìn)行詳細(xì)說明。本實施例以本發(fā)明技術(shù)方案為前提進(jìn)行實施,給出了詳細(xì)的實施方式和具體的操作過程,但本發(fā)明的保護(hù)范圍不限于下述的實施例。
一種基于文本關(guān)鍵字的輸電線路設(shè)備關(guān)聯(lián)圖片爬取方法,如圖1所示,包括步驟:
s1:獲取文本關(guān)鍵字;
s2:根據(jù)獲取的文本關(guān)鍵字?jǐn)U展得到相關(guān)關(guān)鍵字;
s3:基于文本關(guān)鍵字和相關(guān)關(guān)鍵字利用多個搜索引擎的圖片搜索服務(wù)器搜索得到關(guān)聯(lián)圖片,具體包括步驟:
s31:基于文本關(guān)鍵字和相關(guān)關(guān)鍵字向搜索引擎的圖片搜索服務(wù)器發(fā)送http搜索請求;
s32:接收并獲取由搜索服務(wù)器返回的關(guān)聯(lián)圖片的下載鏈接,具體包括步驟:
s321:接收由搜索服務(wù)器返回的每一張關(guān)聯(lián)圖片的下載鏈接屬性;
s322:從反饋的每一張關(guān)聯(lián)圖片的下載鏈接屬性中獲取該關(guān)聯(lián)圖片的下載鏈接。
s33:保存獲取的關(guān)聯(lián)圖片的下載鏈接。
s4:采用異步多線程方式下載關(guān)聯(lián)圖片,其中,下載關(guān)聯(lián)圖片時更新并保存下載狀態(tài)和源搜索引擎。
利用此方法得到的關(guān)聯(lián)圖片可以為后續(xù)的圖像識別系統(tǒng)研發(fā)提供結(jié)構(gòu)化的訓(xùn)練集數(shù)據(jù),進(jìn)一步提升電力圖像識別算法的有效性和準(zhǔn)確率,提高系統(tǒng)的魯棒性。自動的從互聯(lián)網(wǎng)上異步多線程爬取關(guān)鍵字關(guān)聯(lián)圖片,對用戶請求內(nèi)容擴(kuò)展關(guān)聯(lián)內(nèi)容,并且全自動操作,操作簡單,提升工作效率。首先客戶端向搜索引擎的圖片搜索服務(wù)器發(fā)送關(guān)鍵字搜索請求,服務(wù)器接受到客戶端的搜索請求后,根據(jù)用戶請求的信息返回相關(guān)圖片下載鏈接,客戶端接收到服務(wù)器返回的圖片下載鏈接,將圖片下載鏈接信息存入到數(shù)據(jù)庫,等待下載,最后客戶端的本地下載器異步多線程下載數(shù)據(jù)庫中未下載的資源。
1)搜索引擎的反爬蟲機(jī)制。各大搜索引擎具有反爬蟲機(jī)制,在搜索引擎的圖片服務(wù)器接收到查詢信息后返回到圖片下載鏈接是不能直接被程序下載的。在申請中,根據(jù)搜索引擎返回的html代碼,利用html解析器與正則表達(dá)式等相關(guān)技術(shù),將html代碼中圖片的原始網(wǎng)站地址提取出來,圖片的原始網(wǎng)站地址是能夠被程序下載器下載的。以百度圖片為例:下載百度圖片中的圖片,百度返回給用戶的圖片信息中包含thumburl、middleurl、objurl、fromurl這四個圖片下載鏈接屬性,其中只有通過objurl屬性得到的圖片原始下載鏈接可以被程序自動下載。通過其他3個屬性得到圖片下載鏈接利用程序自動下載時,都會被百度圖片網(wǎng)站的反爬蟲機(jī)制限制。
2)斷點續(xù)傳;從服務(wù)器得到的待下載圖片url存入數(shù)據(jù)庫,將待下載圖片url存入數(shù)據(jù)庫中的目的是為了便于實現(xiàn)對圖片下載任務(wù)的斷點續(xù)傳。同時這也能夠在數(shù)據(jù)庫中保存圖片的其他相關(guān)信息,例如圖片下載狀態(tài)、源搜索引擎等。
3)相似關(guān)鍵字關(guān)聯(lián)下載;本方法提出對單一關(guān)鍵詞進(jìn)行相似關(guān)鍵詞擴(kuò)展,將對單一關(guān)鍵詞的爬取擴(kuò)展為與這一關(guān)鍵詞相似的多關(guān)鍵詞爬取。以關(guān)鍵字電塔為例,電塔為單一關(guān)鍵詞,對電塔關(guān)鍵字進(jìn)行相似擴(kuò)展,得到電力塔、風(fēng)電塔、高壓電塔、電線塔、高壓線等相似關(guān)鍵詞
利用
本技術(shù):
方法,將從前用戶手動下載圖片轉(zhuǎn)變?yōu)槌绦蜃詣酉螺d關(guān)聯(lián)圖片,減少用戶等待時間,提升用戶體驗感,使用方便,具有g(shù)ui界面,極易上手。使用者可以自定義感興趣的關(guān)鍵字本文,爬蟲就能自動匹配互聯(lián)網(wǎng)上相關(guān)的圖片并保存到本地磁盤中。同時本方法支持并行圖片爬取,對需要下載大量圖片,同時又需要快速獲取數(shù)據(jù)的用戶而言使用其并行功能,可以達(dá)到令人滿意的效果。