本發(fā)明涉及信息服務系統(tǒng)技術(shù)領(lǐng)域,具體地說,是一種基于用戶行為的云服務垂直搜索充電樁系統(tǒng)。
背景技術(shù):
社會已經(jīng)全面走進了信息時代,隨著自動化機器的廣泛使用,越來越多的用戶行為信息被記錄下來。如果能挖掘這些用戶行為數(shù)據(jù),從中找出行為模式,進而分析用戶的需求或預測用戶要做的事情,對于掌握經(jīng)濟和社會的真實需求規(guī)律,為用戶提供個性化服務,從而提高生產(chǎn)生活效率,減少無效浪費,無疑具有重大的現(xiàn)實意義。
傳統(tǒng)的用戶行為分析在數(shù)據(jù)存儲上主要依賴于數(shù)據(jù)倉庫,并不能適用于用戶的行為大數(shù)據(jù)。用戶行為數(shù)據(jù)重要來源是機器生成的數(shù)據(jù)和社交網(wǎng)站數(shù)據(jù),這些數(shù)據(jù)中有許多半結(jié)構(gòu)化的數(shù)據(jù)或原始數(shù)據(jù),沒有經(jīng)過數(shù)據(jù)挖掘,分析難度較大。傳統(tǒng)的用戶行為分析僅僅依靠單機軟件或數(shù)據(jù)倉庫,不能滿足日益發(fā)展的巨大用戶行為數(shù)據(jù)。
通過查找文獻發(fā)現(xiàn),D.Zhang等人在“Scalable top-k spatial keyword search.”Proceedings of the 16th International Conference on Extending Database Technology,ACM,2013,pp.359-370.中,提出的基于四分樹的空間劃分方法,將空間數(shù)據(jù)和文本數(shù)據(jù)在同一個存儲空間組織起來,并提出了一個高效的查詢剪枝方法得到更好的效率。該方法嚴格按照四分樹劃分,這在實際應用中靈活性較差,比較復雜,有所局限。而且基于關(guān)鍵詞的查詢方式,難以直接匹配,往往不能反映用戶的真實需求。
中國專利文獻CN102043862A,申請日期為2011年5月4日的發(fā)明專利公開了一種網(wǎng)頁數(shù)據(jù)定向抓取方法包括以下步驟:1.根據(jù)待抓取的網(wǎng)頁數(shù)據(jù)在網(wǎng)頁文件中具有的數(shù)據(jù)結(jié)構(gòu)特征以及網(wǎng)頁文件的源代碼語法規(guī)則,編譯由正則表達式構(gòu)建的數(shù)據(jù)匹配模型;2.根據(jù)URL地址獲取包含待抓取網(wǎng)頁數(shù)據(jù)的網(wǎng)頁文件,解析所述網(wǎng)頁文件的源代碼;3.用所述數(shù)據(jù)匹配模型對所述網(wǎng)頁文件的源代碼進行數(shù)據(jù)匹配,依次獲取相匹配的部分源代碼;4.從所述相匹配的部分源代碼中屏蔽數(shù)據(jù)結(jié)構(gòu)特征部分,提取出待抓取的網(wǎng)頁數(shù)據(jù);5.對提取出的網(wǎng)頁數(shù)據(jù)進行存儲處理。該方法中的數(shù)據(jù)匹配模型是由結(jié)構(gòu)匹配字符和捕獲組構(gòu)成,數(shù)據(jù)的抓取具有盲目性和片面性,不能實現(xiàn)對大數(shù)據(jù)的分析,易造成數(shù)據(jù)信息遺漏或分析結(jié)果不準確。
中國專利文獻CN105608918,申請日期為2016年3月31日的發(fā)明專利公開了一種路況信息監(jiān)控方法和系統(tǒng),其方法實施流程如下:計算得到當前預設時間段內(nèi)每個路段上的車輛的平均速度,依據(jù)所述平均速度生成每個路段的當前路況信息;獲取預存的歷史同時期各個路段的車流量模型;將所述平均速度和所述車流量模型代入預設數(shù)據(jù)挖掘算法模型進行計算,得到未來預設時間段內(nèi)各個路段的預測路況信息;向車輛發(fā)送該車輛所處的行駛路段以及與所述行駛路段間隔在預設范圍內(nèi)的路段對應的當前路況信息和預測路況信息。該方法中的數(shù)據(jù)挖掘算法模型是經(jīng)過訓練的預設模型,誤差性較大,模型的修正過程較長且需反復迭代執(zhí)行至模型收斂,操作復雜,可推廣范圍小。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是針對現(xiàn)有技術(shù)中的不足,通過挖掘用戶行為大數(shù)據(jù)獲取用戶消費歷史和用戶搜索符合度選項,并對其進行詞法語義分析獲得用戶行為模型,為此提供一種基于用戶行為的云服務垂直搜索充電樁系統(tǒng)。
為實現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案是:基于用戶行為的云服務垂直搜索充電樁系統(tǒng),包括:信息收集層、信息分析層和匹配層,所述的信息收集層包括:行為數(shù)據(jù)庫群組、信息模塊和物聯(lián)網(wǎng)數(shù)據(jù)模塊;所述的信息分析層包括:行為大數(shù)據(jù)分析模塊和詞法語義分析;所述的匹配層包括:物聯(lián)網(wǎng)數(shù)據(jù)匹配模塊和匹配結(jié)果,所述的信息模塊包括用戶基礎信息和周邊信息,用戶基礎信息收集了所有用戶數(shù)據(jù)與充電樁數(shù)據(jù),周邊信息收集了用戶和充電樁的周邊環(huán)境信息;所述的行為大數(shù)據(jù)分析模塊包括數(shù)據(jù)挖掘和云計算;所述的物聯(lián)網(wǎng)數(shù)據(jù)匹配模塊包括匹配核心模塊和Solr垂直搜索引擎,為系統(tǒng)提供了強大的計算能力;所述的詞法語義分析對信息模塊的實時信息進行分類處理,所述的數(shù)據(jù)挖掘通過對行為數(shù)據(jù)庫群組提供的數(shù)據(jù)進行分類分析,并將分析結(jié)果分成若干數(shù)據(jù)模型,為行為大數(shù)據(jù)分析提供基礎數(shù)據(jù),所述的云計算通過接收各類數(shù)據(jù)模型、關(guān)鍵字或近義詞,進行結(jié)構(gòu)化分析,計算出一個符合用戶需求的結(jié)果作為用戶數(shù)據(jù),并將用戶數(shù)據(jù)提交給匹配層,所述的匹配核心模塊將信息分析層提供的用戶數(shù)據(jù)與物聯(lián)網(wǎng)數(shù)據(jù)模塊提供的物聯(lián)網(wǎng)數(shù)據(jù)相連接進行相關(guān)匹配,匹配之后得出的數(shù)據(jù)模型集提供給Solr垂直搜索引擎,所述的Solr垂直搜索引擎用于對數(shù)據(jù)模型集進行再搜索,獲取匹配度最高的數(shù)據(jù)推薦給用戶。
所述的信息收集層將行為數(shù)據(jù)庫群組和信息模塊提供的信息發(fā)送給信息分析層,并接收信息分析層返回的服務結(jié)果信息。
所述的詞法語義分析是對信息編譯過程的一個邏輯階段,詞法語義的任務是在詞法分析的基礎上將單詞序列組合成各類語法短語。
所述的匹配核心模塊將信息分析層提供的用戶數(shù)據(jù)與物聯(lián)網(wǎng)數(shù)據(jù)模塊提供的物聯(lián)網(wǎng)數(shù)據(jù)相連接進行相關(guān)匹配,當匹配到物聯(lián)網(wǎng)數(shù)據(jù)信息能與用戶需求的結(jié)果為一類時,將這些同類的數(shù)據(jù)通過匹配核心模塊組成數(shù)據(jù)模型集。
所述的Solr垂直搜索引擎包括:充電樁搜索模塊、物聯(lián)網(wǎng)數(shù)據(jù)管理維護模塊、核心層和SOLR,所述的核心層包括SolrQuery和SolrUpdate兩個構(gòu)造器;所述的物聯(lián)網(wǎng)數(shù)據(jù)管理維護模塊位于核心層之上,負責數(shù)據(jù)源的添加、更新、刪除操作;所述的SOLR位于Solr垂直搜索引擎的最底層,是一個獨立的企業(yè)級搜索應用服務器。
本發(fā)明優(yōu)點在于:
1、本發(fā)明使用了云計算,支持大數(shù)據(jù)的存儲與訪問,并提供了遠比單機強大的計算服務,能夠大幅度提高現(xiàn)有系統(tǒng)計算能力的有效使用率。
2、本發(fā)明使用Solr垂直搜索引擎在匹配結(jié)果數(shù)據(jù)模型集中直接搜索,將匹配度最高的幾個數(shù)據(jù)推薦給用戶,從而提高數(shù)據(jù)信息匹配度,提高用戶行為分析結(jié)果的準確性和實用性。
【附圖說明】
附圖1是為本發(fā)明系統(tǒng)框架結(jié)構(gòu)圖。
附圖2是Solr垂直搜索引擎結(jié)構(gòu)圖。
附圖3是用戶行為大數(shù)據(jù)分析流程圖。
【具體實施方式】
下面結(jié)合附圖對本發(fā)明提供的具體實施方式作詳細說明。
如附圖1所示,本發(fā)明基于用戶行為的云服務垂直搜索充電樁系統(tǒng)包括:信息收集層、信息分析層和匹配層。下面對每一層的組成及功能進行詳細說明。
信息收集層:作為本發(fā)明系統(tǒng)的基礎,包括行為數(shù)據(jù)庫群組、信息模塊和物聯(lián)網(wǎng)數(shù)據(jù)模塊。該層可接收通過瀏覽器或桌面程序發(fā)送來的信息服務請求,行為數(shù)據(jù)庫群組和信息模塊向信息分析層發(fā)送信息,其中行為數(shù)據(jù)庫群組接受基于匹配服務的應用系統(tǒng)的請求并返回結(jié)果信息,是匹配模型的應用者。物聯(lián)網(wǎng)數(shù)據(jù)模塊將物聯(lián)網(wǎng)數(shù)據(jù)提供給匹配層進行匹配服務。
信息分析層:作為本發(fā)明系統(tǒng)的上層,包括行為大數(shù)據(jù)分析模塊和詞法語義分析,為信息收集層提供語義云服務,包括語義支持的UDDI以及訪問這些持久化信息的統(tǒng)一接口。行為大數(shù)據(jù)分析模塊由數(shù)據(jù)挖掘和云計算兩部分組成:
數(shù)據(jù)挖掘:通過對行為數(shù)據(jù)庫群組提供的數(shù)據(jù)進行分類分析,并將分析結(jié)果分成若干小數(shù)據(jù)模塊,為行為大數(shù)據(jù)分析提供基礎數(shù)據(jù)。由信息收集層提供用戶基礎信息和周邊信息,通過數(shù)據(jù)挖掘,將原始信息整理為各類數(shù)據(jù)模型。用戶基礎信息如充電樁分布信息、充電樁充電記錄信息、充電樁價格模型信息、用戶充電記錄信息、用戶車輛信息等。周邊信息如天氣信息、路況信息等。各類數(shù)據(jù)模型如充電樁充電次數(shù)數(shù)據(jù)模型、用戶充電次數(shù)的數(shù)據(jù)模型、用戶各地分布數(shù)據(jù)模型等。
云計算:云計算為行為大數(shù)據(jù)分析提供強大的計算能力。系統(tǒng)接受各類數(shù)據(jù)模型、相關(guān)關(guān)鍵字或近義詞,并進行結(jié)構(gòu)化分析,計算出一個符合用戶需求的結(jié)果,提交給匹配系統(tǒng)。結(jié)果如最便宜充電樁充電次數(shù)數(shù)據(jù)模型、充電次數(shù)多少的充電樁數(shù)據(jù)模型、用戶每月充電次數(shù)的數(shù)據(jù)模型、距離遠近的充電樁數(shù)據(jù)模型、各類天氣充電記錄數(shù)據(jù)模型等。
詞法語義分析:服務調(diào)用用戶基礎信息和周邊信息,根據(jù)詞法語義進行分類分析,得出相關(guān)關(guān)鍵字或近義詞,再根據(jù)相關(guān)關(guān)鍵字或近義詞再次分類,保證詞法語義分析準確性,做出更精確的匹配服務。
匹配層:是整個系統(tǒng)架構(gòu)的核心,包括物聯(lián)網(wǎng)數(shù)據(jù)匹配模塊和匹配結(jié)果,其中物聯(lián)網(wǎng)數(shù)據(jù)匹配模塊由匹配核心模塊和Solr垂直搜索引擎組成,主要負責根據(jù)分析模塊結(jié)果與物聯(lián)數(shù)據(jù)管維護,利用Solr垂直搜索引擎獲得最優(yōu)匹配結(jié)果:
匹配核心模塊:匹配核心基于本體搜尋能為需求群組提供服務能力的信息服務,當匹配到的物聯(lián)網(wǎng)信息能與用戶需求的結(jié)果為一類時,將這類的數(shù)據(jù)通過匹配核心模塊組成數(shù)據(jù)模型集,為Solr垂直搜索引擎提供統(tǒng)一服務。數(shù)據(jù)模型集如符合用戶價格需求的充電樁數(shù)據(jù)模型集、符合用戶距離需求的充電樁數(shù)據(jù)模型集等。
Solr垂直搜索引擎:在匹配結(jié)果數(shù)據(jù)模型集中直接搜索,通過Solr垂直搜索引擎將匹配度最高的幾個數(shù)據(jù)推薦給用戶,用戶選擇了推薦數(shù)據(jù),則此次推薦完成,并將用戶行為存入行為數(shù)據(jù)庫群組。
如附圖2所示,Solr垂直搜索引擎的核心在于SolrQuery和SolrUpdate兩個構(gòu)造器,這兩個構(gòu)造器組成了核心層。在核心層上是物聯(lián)數(shù)據(jù)管理維護模塊,負責數(shù)據(jù)源的添加、更新、刪除等操作;同時針對充電樁行業(yè),本發(fā)明系統(tǒng)構(gòu)造了充電樁搜索模塊,對外提供多種調(diào)用方式,如Native、Web和Web Service。行為語義分析模塊使用Native調(diào)用方式。最下一層SOLR是一個獨立的企業(yè)級搜索應用服務器,它基于Lucene,同時對其進行了擴展,提供了比Lucene更為豐富的查詢語言,同時實現(xiàn)了可配置,可擴展并對查詢性能進行了優(yōu)化。
系統(tǒng)各模塊的調(diào)用過程如下:信息收集層將行為數(shù)據(jù)庫群組收集的用戶行為數(shù)據(jù)、信息模塊收集的用戶基礎信息和周邊信息提供給信息分析層進行相關(guān)性分析,同時將物聯(lián)網(wǎng)數(shù)據(jù)模塊收集的物聯(lián)網(wǎng)數(shù)據(jù)提供給匹配層進行匹配服務。信息分析層的行為大數(shù)據(jù)模塊對來自行為數(shù)據(jù)群組進行數(shù)據(jù)挖掘,并將信息模塊中用戶基礎信息和周邊信息進行詞法語義分析。行為大數(shù)據(jù)模塊的云計算將分析后規(guī)范的用戶數(shù)據(jù)再次做分類匹配服務,最終將行為大數(shù)據(jù)分析的結(jié)果提交匹配層。匹配層通過物聯(lián)網(wǎng)數(shù)據(jù)匹配模塊進行相關(guān)匹配,匹配核心模塊通過信息分析層提供的用戶數(shù)據(jù)與物聯(lián)網(wǎng)數(shù)據(jù)模塊提供的物聯(lián)網(wǎng)數(shù)據(jù)進行匹配服務得到數(shù)據(jù)模型集,將匹配結(jié)果集提供給Solr垂直搜索引擎,Solr垂直搜索引擎將將匹配度最高的幾個數(shù)據(jù)推薦給用戶,用戶選擇相應結(jié)果,同時將用戶此次行為保存行為數(shù)據(jù)庫中。
結(jié)合附圖3用戶行為大數(shù)據(jù)分析流程對本系統(tǒng)得到的匹配結(jié)果作為用戶行為模型的實施過程進行說明:系統(tǒng)信息收集層收集原始用戶行為大數(shù)據(jù)和用戶實時信息并提供給信息分析層。信息分析層啟用交互式查詢,對查詢結(jié)果進行實時流處理后分類進行批處理。批處理結(jié)果進入數(shù)據(jù)挖掘模型算法庫進行數(shù)據(jù)匹配,匹配結(jié)果通過詞法語義分析進行編譯形成用戶行為模型。
上述工作的技術(shù)指標與國內(nèi)外同類產(chǎn)品的技術(shù)參數(shù)的比較見表1。
表1技術(shù)特性對比
以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明方法的前提下,還可以做出若干改進和補充,這些改進和補充也應視為本發(fā)明的保護范圍。