本發(fā)明是一種投入驅(qū)動(dòng)的存儲(chǔ)與計(jì)算一體化協(xié)同調(diào)整的面向事務(wù)處理的時(shí)空效率優(yōu)化方法,將以數(shù)據(jù)、信息和知識(shí)等形態(tài)的資源根據(jù)存儲(chǔ)代價(jià)和搜索代價(jià)綜合考慮資源組織方案。主要用于通過(guò)數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜對(duì)以數(shù)據(jù)、信息和知識(shí)形態(tài)出現(xiàn)的資源進(jìn)行合理組織和存儲(chǔ),提高搜索效率,屬于分布式計(jì)算和軟件工程學(xué)技術(shù)交叉領(lǐng)域。
背景技術(shù):
:傳統(tǒng)的搜索引擎技術(shù)根據(jù)用戶的查詢要求快速檢索和排序網(wǎng)頁(yè)資源,對(duì)于搜索引擎反饋的大量資源需要用戶進(jìn)行人工排查和篩選,導(dǎo)致搜索效率低下,難以滿足用戶快速獲取到資源的需求。現(xiàn)有的技術(shù)包括基于機(jī)器學(xué)習(xí)的方法和基于本體的方法為應(yīng)對(duì)這一挑戰(zhàn)做出了許多貢獻(xiàn),然而,基于機(jī)器學(xué)習(xí)的方法缺乏有效的機(jī)制來(lái)明確地將經(jīng)驗(yàn)知識(shí)與訓(xùn)練模型結(jié)合在一起,基于本體的方法受到人類專家方面沉重負(fù)擔(dān)的限制。知識(shí)圖譜容納資源規(guī)模較大,涵蓋的知識(shí)領(lǐng)域廣泛,并且能為用戶提供智能搜索和問(wèn)答服務(wù)?;谥R(shí)圖譜的搜索側(cè)重于圖結(jié)構(gòu)的邏輯推理計(jì)算,基于語(yǔ)義網(wǎng)三元組進(jìn)行推理補(bǔ)充資源信息,實(shí)現(xiàn)web從網(wǎng)頁(yè)鏈接向概念鏈接的轉(zhuǎn)變,支持用戶按照語(yǔ)句進(jìn)行檢索,以圖形化的方式向用戶反饋結(jié)構(gòu)化知識(shí),準(zhǔn)確定位用戶所需資源,使用戶從人工過(guò)濾網(wǎng)頁(yè)尋找答案的模式中解脫出來(lái),提高了搜索效率。本文提出一種投入驅(qū)動(dòng)的存儲(chǔ)與計(jì)算一體化協(xié)同調(diào)整的面向事務(wù)處理的時(shí)空效率優(yōu)化方法關(guān)鍵技術(shù)在于對(duì)不同圖譜上的搜索效率和將以數(shù)據(jù)、信息和知識(shí)等形態(tài)存在的資源根據(jù)在數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜上的綜合代價(jià)進(jìn)行存儲(chǔ),通過(guò)對(duì)資源的合理組織和存儲(chǔ)能夠達(dá)到搜索效率最優(yōu)。技術(shù)實(shí)現(xiàn)要素:技術(shù)問(wèn)題:本發(fā)明的目的是提供一種對(duì)數(shù)據(jù)(datadik)、信息(informationdik)和知識(shí)(knowledgedik)(我們定義數(shù)據(jù)為datadik,信息為informationdik,知識(shí)為knowledgedik)等形態(tài)的資源的原始表述的自然語(yǔ)言的機(jī)器理解、自動(dòng)處理、自動(dòng)綜合和自動(dòng)分析方法,用于解決對(duì)不同類型、不同規(guī)模資源的高效組織和存儲(chǔ),以便提高在圖譜上的搜索效率,降低搜索過(guò)程中所要耗費(fèi)的代價(jià)。技術(shù)方案:本發(fā)明是一種投入驅(qū)動(dòng)的存儲(chǔ)與計(jì)算一體化協(xié)同調(diào)整的面向事務(wù)處理的時(shí)空效率優(yōu)化方法,從應(yīng)對(duì)自動(dòng)增量式結(jié)合經(jīng)驗(yàn)知識(shí)和減少人工專家交互負(fù)擔(dān)等兩個(gè)方面考慮,從資源處理、處理優(yōu)化和資源管理等角度進(jìn)行研究,基于對(duì)現(xiàn)有知識(shí)圖譜(knowledgegraph)概念的拓展提出了一種三層可自動(dòng)抽象調(diào)整的解決架構(gòu)。這個(gè)架構(gòu)包括:數(shù)據(jù)圖譜(datagraphdik)、信息圖譜(informationgraphdik)和知識(shí)圖譜(knowledgegraphdik)(我們定義數(shù)據(jù)圖譜為datagraphdik,信息圖譜為informationgraphdik,知識(shí)圖譜為knowledgegraphdik)等三個(gè)層面?;诓煌瑢哟蔚膱D譜架構(gòu)進(jìn)行存儲(chǔ)資源,提高搜索效率。體系結(jié)構(gòu)圖1給出了在datagraphdik,informationgraphdik和knowledgegraphdik上查找資源的體系結(jié)構(gòu),獲取到用戶的資源查找對(duì)象集合(ipr)后,計(jì)算在資源存儲(chǔ)空間(sor)上搜索的代價(jià)。表1所示為對(duì)datadik、intormationdik和knowledgedik等形態(tài)的資源以及對(duì)應(yīng)圖譜層次的介紹。表2所示為ipr中單位資源類型轉(zhuǎn)換的原子代價(jià),表3所示為sor中單位資源類型轉(zhuǎn)換的原子代價(jià)。下面我們給出datagraphdik,informationgraphdik和knowledgegraphdik的具體說(shuō)明。我們定義datagraphdik為datagraphdik:=collection{array,list,stack,queue,tree,graph}.datagraphdik是各種數(shù)據(jù)結(jié)構(gòu)包括數(shù)組(array)、鏈表(list)、棧(stack)、隊(duì)列(queue)、樹(shù)(tree)和圖(graph)等的集合(collection)。datagraphdik只能對(duì)圖譜上表示的datadik進(jìn)行靜態(tài)分析,無(wú)法分析和預(yù)測(cè)datadik的動(dòng)態(tài)變化。我們定義informationgraphdik為informationgraphdik:=combination{relateddatadik}。informationgraphdik是相互關(guān)聯(lián)的datadik(relateddatadik)的組合(combination),informationdik是通過(guò)datadik和datadik組合之后的上下文傳達(dá)的,經(jīng)過(guò)概念映射和相關(guān)關(guān)系組合之后的適合分析和解釋的信息。在informationgraphdik上進(jìn)行數(shù)據(jù)清洗,消除冗余數(shù)據(jù)。我們定義knowledgegraphdik為knowledgegraphdik:=collection{statisticrules}。knowledgegraphdik實(shí)質(zhì)是語(yǔ)義網(wǎng)絡(luò)和由informationdik總結(jié)出的統(tǒng)計(jì)規(guī)則(statisticrules)的集合(collection)。knowledgegraphdik蘊(yùn)含豐富的語(yǔ)義關(guān)系,在knowledgegraphdik上能通過(guò)信息推理和實(shí)體鏈接提高knowledgegraphdik的邊密度和結(jié)點(diǎn)密度,knowledgegraphdik的無(wú)結(jié)構(gòu)特性使得其自身可以無(wú)縫鏈接。信息推理需要有相關(guān)關(guān)系規(guī)則的支持,這些規(guī)則可以由人手動(dòng)構(gòu)建,但往往耗時(shí)費(fèi)力,得到復(fù)雜關(guān)系中的所有推理規(guī)則更加困難。使用路徑排序算法將每個(gè)不同的關(guān)系路徑作為一維特征,通過(guò)在knowledgegraphdik中構(gòu)建大量的關(guān)系路徑來(lái)構(gòu)建關(guān)系分類的特征向量和關(guān)系分類器來(lái)提取關(guān)系。本發(fā)明將搜索目標(biāo)資源集合定義為ipr:={ipr1,ipr2,ipr3},ipr的類型集合為x={x1,x2,x3},每種資源的規(guī)模為n={n1,n2,n3},資源空間為sor={sor1,sor2,sor3},sor的類型集合為y={y1,y2,y3},每種資源的規(guī)模為m={m1,m2,m3},假定ipr中所有類型資源已在當(dāng)前資源存儲(chǔ)空間(sor)以任意一種存儲(chǔ)方案存儲(chǔ)完畢。類型變量集合為z={datadik,informationdik,knowledgedik},對(duì)不同類型變量進(jìn)行賦值,datadik:=1,informationdik:=2,knowledgedik:=3。表1.資源類型的漸進(jìn)形式表2.ipr中單位資源類型轉(zhuǎn)換的原子代價(jià)標(biāo)注:c11:從x1轉(zhuǎn)移到datadik的代價(jià);c12:從x1轉(zhuǎn)移到informationdik的代價(jià);c13:從x1轉(zhuǎn)移到knowledgedik的代價(jià);c21:從x2轉(zhuǎn)移到datadik的代價(jià);c22:從x2轉(zhuǎn)移到informationdik的代價(jià);c23:從x2轉(zhuǎn)移到knwledgedik的代價(jià);c31:從x3轉(zhuǎn)移到datadik的代價(jià);c32:從x3轉(zhuǎn)移到informationdik的代價(jià);c33:從x3轉(zhuǎn)移到knowledgedik的代價(jià)。表3.sor中單位資源類型轉(zhuǎn)換的原子代價(jià)y1y2y3datadikc’11c’12c’13informationdikc’21c’22c’23knowledgedikc’31c’32c’33標(biāo)注:c’11:從datadik轉(zhuǎn)移到y(tǒng)1的代價(jià);c’12:從informationdik轉(zhuǎn)移到y(tǒng)1的代價(jià);c’13:從knowledgedik轉(zhuǎn)移到y(tǒng)1的代價(jià);c’21:從datadik轉(zhuǎn)移到y(tǒng)2的代價(jià);c’22:從informationdik轉(zhuǎn)移到y(tǒng)2的代價(jià);c’23:從knwledgedik轉(zhuǎn)移到y(tǒng)2的代價(jià);c’31:從datadik轉(zhuǎn)移到y(tǒng)3的代價(jià);c’32:從informationdik轉(zhuǎn)移到y(tǒng)3的代價(jià);c’33:從knowledgedik轉(zhuǎn)移到y(tǒng)3的代價(jià)。有益效果:本發(fā)明提出了一種投入驅(qū)動(dòng)的存儲(chǔ)與計(jì)算一體化協(xié)同調(diào)整的面向事務(wù)處理的時(shí)空效率優(yōu)化方法,主要用于解決對(duì)于以datadik,informaitiondik和knowledgedik形態(tài)存在的資源存儲(chǔ)和資源搜索等問(wèn)題。通過(guò)使用本發(fā)明提出的方法可以實(shí)現(xiàn)對(duì)不同類型資源的合理組織和存儲(chǔ),花費(fèi)最合理的存儲(chǔ)代價(jià)和搜索代價(jià)并實(shí)現(xiàn)最優(yōu)的搜索效率。該方法具有如下優(yōu)點(diǎn):1)對(duì)資源類型的劃分;將資源劃分為datadik、informationdik和knowledgedik,便于挖掘資源之間的聯(lián)系,從datadik經(jīng)過(guò)抽象得到informationdik、knowledgedik,從knowledgedik進(jìn)行推理得到datadik、informationdik;2)允許跨層存儲(chǔ)資源僅僅通過(guò)資源類型無(wú)法判斷出資源應(yīng)存儲(chǔ)在哪一類型圖譜上,本發(fā)明提出假定資源初始存儲(chǔ)在某一類型圖譜上,根據(jù)資源搜索效率的計(jì)算和綜合代價(jià)的計(jì)算確定資源的存儲(chǔ)和搜索位置;3)存儲(chǔ)搜索計(jì)算一體化一種投入驅(qū)動(dòng)的存儲(chǔ)與計(jì)算一體化協(xié)同調(diào)整的面向事務(wù)處理的時(shí)空效率優(yōu)化方法,通過(guò)存儲(chǔ)代價(jià)和搜索代價(jià)綜合考慮,選擇綜合代價(jià)最低的存儲(chǔ)方案,達(dá)到花費(fèi)較小存儲(chǔ)代價(jià)的同時(shí)獲得高效搜索資源的目標(biāo)。附圖說(shuō)明圖1是一種投入驅(qū)動(dòng)的存儲(chǔ)與計(jì)算一體化協(xié)同調(diào)整的面向事務(wù)處理的時(shí)空效率優(yōu)化方法流程圖。具體實(shí)施方式一種投入驅(qū)動(dòng)的存儲(chǔ)與計(jì)算一體化協(xié)同調(diào)整的面向事務(wù)處理的時(shí)空效率優(yōu)化方法,其特征在于以計(jì)算來(lái)決定存儲(chǔ),以存儲(chǔ)來(lái)服務(wù)搜索,綜合考慮資源對(duì)象的搜索方案和資源空間的存儲(chǔ)方案。具體實(shí)施方式為:步驟1)對(duì)應(yīng)于圖1中操作001,對(duì)x中每個(gè)元素依次取z中的值,形成組合情形x={x1i,x2j,x3k},i,j,k∈{1,2,3};步驟2)對(duì)應(yīng)于圖1中操作002,對(duì)每種情形,根據(jù)公式1計(jì)算ipr中資源當(dāng)前情形向每種情形轉(zhuǎn)移的代價(jià)(costmt1):(1)步驟3)對(duì)應(yīng)于圖1中操作003,對(duì)y中每個(gè)元素依次取z中的值,形成組合情形y={y1m,y2n,y3p},m,n,p∈{1,2,3};步驟4)對(duì)應(yīng)于圖1中操作004,根據(jù)公式2計(jì)算在sor中搜索ipr中資源所要花費(fèi)的計(jì)算代價(jià)(cost計(jì)算):(2)其中c(x1i,x2j,x3p->y1m,y2n,y3p)為在sor中查找ipr所要花費(fèi)的代價(jià),α和β分別表示圖譜規(guī)模和資源類型轉(zhuǎn)換代價(jià)占cost計(jì)算的權(quán)重,均可通過(guò)數(shù)據(jù)訓(xùn)練得出,λ表示資源是否需要轉(zhuǎn)換不同類型,若需要轉(zhuǎn)換,則用0表示,否則,用1表示;步驟5)對(duì)應(yīng)于圖1中操作005,對(duì)y中每種情形,根據(jù)公式3計(jì)算y中每種資源形態(tài)向sor中資源當(dāng)前情形轉(zhuǎn)移的代價(jià)(costmt2):(3)步驟6)對(duì)應(yīng)于圖1中操作006,根據(jù)步驟2、4、5得到的costmt1ijk、costmt2mnp和cost計(jì)算,根據(jù)公式4計(jì)算從當(dāng)前ipr向x轉(zhuǎn)移的代價(jià)和y中資源向sor狀態(tài)轉(zhuǎn)移的代價(jià)和計(jì)算代價(jià)的總和(total_cost):(4)步驟7)對(duì)應(yīng)于圖1中操作007,獲取用戶預(yù)期投入(inve0)。本發(fā)明設(shè)定一個(gè)總代價(jià)(total_cost0),對(duì)應(yīng)于圖1中操作008,將不同情形下total_cost的值與total_cost0進(jìn)行比較,并將對(duì)應(yīng)情形所需用戶投入(inve)和inve0作比較,判斷是否滿足條件“total_costi<total_cost0&invei<inve0”。009當(dāng)total_cost小于total_cost0時(shí),令total_cost0等于當(dāng)前total_cost,若total_cost大于total_cost0時(shí),執(zhí)行下一步操作,用戶投入計(jì)算方法如公式5所示:(5)其中γ表示單位代價(jià)所需用戶投入,可通過(guò)數(shù)據(jù)訓(xùn)練得出;步驟8)對(duì)應(yīng)于圖1中操作010,判斷當(dāng)x或y中的組合是否窮舉完畢。若沒(méi)有窮舉完畢,返回步驟1繼續(xù)窮舉。若窮舉完,對(duì)應(yīng)于圖1中操作011,按照當(dāng)前total_cost0對(duì)應(yīng)的的方案調(diào)整ipr和sor中資源的類型。當(dāng)前第1頁(yè)12