本發(fā)明涉及一種數(shù)據(jù)庫維護方法,尤其涉及一種適用于企業(yè)用戶研發(fā)數(shù)據(jù)庫的維護方法。
背景技術(shù):
就現(xiàn)有的企業(yè)研發(fā)數(shù)據(jù)收集來看,往往是采用人工方式,通過關(guān)鍵詞以及邏輯公式進行不同數(shù)據(jù)庫的檢索,以獲得相關(guān)的資源信息。但是,這種搜集方式費時費力,搜集完畢后還需要通過人工進行二次比對,才能過濾出可用的參考信息。對于研發(fā)需求量大的部門或是企業(yè),人力成本投入較大,且因為人員差異化會導致搜集差異。
同時,數(shù)據(jù)庫建立后,往往得不到維護,在初期還不會出現(xiàn)數(shù)據(jù)重復與亂碼。但是,長時間使用后就會出現(xiàn)數(shù)據(jù)陳舊與重復。
有鑒于上述的缺陷,本設計人,積極加以研究創(chuàng)新,以期創(chuàng)設一種適用于企業(yè)用戶研發(fā)數(shù)據(jù)庫的維護方法,使其更具有產(chǎn)業(yè)上的利用價值。
技術(shù)實現(xiàn)要素:
為解決上述技術(shù)問題,本發(fā)明的目的是提供一種適用于企業(yè)用戶研發(fā)數(shù)據(jù)庫的維護方法。
本發(fā)明的適用于企業(yè)用戶研發(fā)數(shù)據(jù)庫的維護方法,其中:存儲服務器劃分有獨立的存儲區(qū)域,將存儲服務器內(nèi)的原始數(shù)據(jù)上傳至云端服務器進行備份,對原始數(shù)據(jù)進行關(guān)鍵詞、詞頻的采集,生成檢索標簽,將原始數(shù)據(jù)依據(jù)檢索標簽的不同,存入對應的存儲區(qū)域內(nèi),通過檢索標簽,從對外接口進行定時數(shù)據(jù)抓取,抓取的數(shù)據(jù)通過解析服務器解析過濾后,重新存入存儲服務器內(nèi)與檢索標簽相匹配的存儲區(qū)域中的,采用去重模塊,對存儲區(qū)域中的內(nèi)容進行去重操作。
進一步地,上述的適用于企業(yè)用戶研發(fā)數(shù)據(jù)庫的維護方法,其中,所述存儲服務器按照設定周期,將原始數(shù)據(jù)上傳至云端服務器,所述的設定周期為間隔四天。
更進一步地,上述的適用于企業(yè)用戶研發(fā)數(shù)據(jù)庫的維護方法,其中,所述關(guān)鍵詞、詞頻的采集為依據(jù)中文語序,進行斷句、斷詞劃分,獲取詞組,將重復率較高的詞組進行詞頻標注,最終生成獨立的檢索標簽,每個獨立的檢索標簽,均對應相關(guān)的數(shù)據(jù)內(nèi)容。
更進一步地,上述的適用于企業(yè)用戶研發(fā)數(shù)據(jù)庫的維護方法,其中,所述對外接口為服務器所處的內(nèi)網(wǎng)接口與外網(wǎng)接口,所述內(nèi)網(wǎng)接口與外網(wǎng)接口上均設置有放侵入模塊。
更進一步地,上述的適用于企業(yè)用戶研發(fā)數(shù)據(jù)庫的維護方法,其中,所述解析過濾為,將外來抓取到的數(shù)據(jù),根據(jù)檢索協(xié)議,進行關(guān)鍵詞匹配,將存有關(guān)鍵詞的詞句進行保留,匹配檢索標簽。
再進一步地,上述的適用于企業(yè)用戶研發(fā)數(shù)據(jù)庫的維護方法,其中,所述去重操作為,排查存儲區(qū)域存在的非正確疊詞、錯別字、亂碼。
借由上述方案,本發(fā)明至少具有以下優(yōu)點:
1、設有獨立的存儲區(qū)域,滿足分配存儲,為后續(xù)檢索提供快速引導。
2、設有檢索標簽,可讓用戶通過標簽點選來快速獲取研發(fā)數(shù)據(jù)。
3、能夠周期性免人工補充數(shù)據(jù)庫內(nèi)容,保證數(shù)據(jù)庫的自主抓取與更新。
4、可實現(xiàn)去重,提升檢索便利。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說明書的內(nèi)容予以實施,以下以本發(fā)明的較佳實施例詳細說明如后。
具體實施方式
下面結(jié)合實施例,對本發(fā)明的具體實施方式作進一步詳細描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
適用于企業(yè)用戶研發(fā)數(shù)據(jù)庫的維護方法,其與眾不同之處在于:為了針對不同的數(shù)據(jù)進行獨立存儲,實現(xiàn)快速引導、檢索與快速數(shù)據(jù)提取,采用的存儲服務器劃分有獨立的存儲區(qū)域。同時,將存儲服務器內(nèi)的原始數(shù)據(jù)上傳至云端服務器進行備份。這樣,保證底層數(shù)據(jù)的存儲安全。為了便于用戶實現(xiàn)便捷化的標簽檢索,無需重復錄入關(guān)鍵詞來找尋研發(fā)數(shù)據(jù)內(nèi)容,實現(xiàn)研發(fā)類數(shù)據(jù)的快速比對,對原始數(shù)據(jù)進行關(guān)鍵詞、詞頻的采集。之后,生成檢索標簽,將原始數(shù)據(jù)依據(jù)檢索標簽的不同,存入對應的存儲區(qū)域內(nèi)。為了對實現(xiàn)外部數(shù)據(jù)的及時補充,有效更新、擴充數(shù)據(jù)庫,可通過檢索標簽,從對外接口進行定時數(shù)據(jù)抓取。并且,抓取的數(shù)據(jù)通過解析服務器解析過濾后,重新存入存儲服務器內(nèi)與檢索標簽相匹配的存儲區(qū)域中的。再者,為了對數(shù)據(jù)進行有效整合,防止出現(xiàn)數(shù)據(jù)的重復錄入或是亂碼,本發(fā)明還采用去重模塊,對存儲區(qū)域中的內(nèi)容進行去重操作。
結(jié)合本發(fā)明一較佳的實施方式來看,存儲服務器按照設定周期,將原始數(shù)據(jù)上傳至云端服務器,設定周期為間隔四天。這樣,滿足常見的服務器更新頻率,不造成服務器運行負擔。
進一步來看,為了適應中文的語序,實現(xiàn)免人工的預處理,為企業(yè)用戶直接點選檢索標簽來獲取信息提供便利,采用的關(guān)鍵詞、詞頻的采集為依據(jù)中文語序,進行斷句、斷詞劃分,獲取詞組。同時,將重復率較高的詞組進行詞頻標注,最終生成獨立的檢索標簽,每個獨立的檢索標簽,均對應相關(guān)的數(shù)據(jù)內(nèi)容。
結(jié)合實際的實施來看,本發(fā)明采用的對外接口為服務器所處的內(nèi)網(wǎng)接口與外網(wǎng)接口,內(nèi)網(wǎng)接口與外網(wǎng)接口上均設置有放侵入模塊。這樣,可以有效防止外部惡意數(shù)據(jù)的清楚,保證使用安全,不出現(xiàn)數(shù)據(jù)丟失或是意外變更。同時,本發(fā)明采用的解析過濾為,將外來抓取到的數(shù)據(jù),根據(jù)檢索協(xié)議,進行關(guān)鍵詞匹配,將存有關(guān)鍵詞的詞句進行保留,匹配檢索標簽。
再進一步來看,為了有效減少檢索的出錯率,滿足標簽檢索的快速匹配,去重操作為,排查存儲區(qū)域存在的非正確疊詞、錯別字、亂碼。
通過上述的文字表述可以看出,采用本發(fā)明后,擁有如下優(yōu)點:
1、設有獨立的存儲區(qū)域,滿足分配存儲,為后續(xù)檢索提供快速引導。
2、設有檢索標簽,可讓用戶通過標簽點選來快速獲取研發(fā)數(shù)據(jù)。
3、能夠周期性免人工補充數(shù)據(jù)庫內(nèi)容,保證數(shù)據(jù)庫的自主抓取與更新。
4、可實現(xiàn)去重,提升檢索便利。
以上所述僅是本發(fā)明的優(yōu)選實施方式,并不用于限制本發(fā)明,應當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進和變型,這些改進和變型也應視為本發(fā)明的保護范圍。