亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種投入驅(qū)動的容錯的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜架構(gòu)的智能語義搜索方法與流程

文檔序號:11432339閱讀:343來源:國知局
一種投入驅(qū)動的容錯的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜架構(gòu)的智能語義搜索方法與流程

本發(fā)明是一種投入驅(qū)動的容錯的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜架構(gòu)的智能語義搜索方法,主要用于解決使用搜索引擎過程中面對非確定不保真信息情況下的決策問題。根據(jù)用戶提出的檢索需求,評估用戶投入,對應(yīng)不同投入制訂不同搜索策略,并對搜索出的答案進行主動要素建模,正反傾向雙向遞進搜索,提高搜索的查準率和查全率以及搜索答案的可信度,屬于分布式計算和軟件工程學(xué)技術(shù)交叉領(lǐng)域。



背景技術(shù):

搜索引擎(searchengine)是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費鏈接列表等。隨著互聯(lián)網(wǎng)數(shù)據(jù)的增長,網(wǎng)絡(luò)上資源變得十分龐雜,用戶對搜索結(jié)果的精確性要求大大增加。目前,主流的搜索引擎普遍存在由于對數(shù)據(jù)篩選的低精確度標準等客觀或主觀的因素導(dǎo)致搜索結(jié)果不準確,從而無法解決實際問題的情況。當在搜索引擎輸入問題后通過搜索引擎工作機制獲取到大量的資源,資源中涵蓋了舊的信息、新的信息以及利益相關(guān)者傳播的帶有明顯傾向性的虛假信息,導(dǎo)致搜索出的結(jié)果不能令用戶滿意。網(wǎng)絡(luò)上資源存在時效性,在為特定用戶搜索答案時以前的資源在當下可能失效或者不適用。同時,資源的來源也是衡量資源可信度的一個指標,存在個人或機構(gòu)為了自身利益?zhèn)鞑A向于自身利益的虛假信息,正確的答案便會因為虛假信息的相對高頻度出現(xiàn)而被淹沒。在整合互聯(lián)網(wǎng)上海量資源的基礎(chǔ)上,分別基于顯式和隱式的知識資源中匹配用戶搜索需求,有針對性地找出解決方案,并將可信度高的答案和更加豐富的語義關(guān)聯(lián)資源返回給用戶。



技術(shù)實現(xiàn)要素:

技術(shù)問題:本發(fā)明是一種投入驅(qū)動的容錯的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜架構(gòu)的智能語義搜索方法的整個方法流程,用于解決搜索出的資源失效、可信度低、資源不完整等問題。本發(fā)明可顯著地提高搜索結(jié)果的準確率和完整率,提高用戶滿意度。

技術(shù)方案:本發(fā)明是一種策略性方法,可以應(yīng)用于各種搜索引擎。本發(fā)明通過引入數(shù)據(jù)圖譜、信息圖譜和知識圖譜三層架構(gòu),將網(wǎng)絡(luò)上資源進行組織,對應(yīng)于用戶的投入等級,制訂不同的搜索粒度。對用戶的檢索需求提取關(guān)鍵詞,通過語義理解用戶的查詢意圖,對搜索出的資源通過關(guān)聯(lián)要素建模得出的可信度由高到低進行排序,最終將有序的資源返回給用戶。

方法流程:

一種投入驅(qū)動的容錯的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜架構(gòu)的智能語義搜索方法的整個方法流程具體如下:

步驟1)根據(jù)已有資源,建立處理資源框架;

步驟2)獲取用戶投入的金額(m)和預(yù)等待時間(t),建立用戶投入模型。預(yù)等待時間決定搜索的次數(shù)(s_times)、每次搜索的項數(shù)(s_items)和每項要搜索的時間(pert_item),本發(fā)明設(shè)定每次搜索的項數(shù)和每項要搜索的時間是固定的:

(1)

步驟3)獲取用戶搜索需求。允許用戶以自然語言文本描述的形式輸入其信息需求;

步驟4)提取用戶搜索需求關(guān)鍵詞;

步驟5)遍歷處理資源架構(gòu),搜索相關(guān)資源。根據(jù)步驟4提取出的關(guān)鍵詞,遍歷處理資源架構(gòu),尋找相關(guān)資源;

步驟6)判斷能否找到相關(guān)資源。若不能找到,在知識圖譜上通過關(guān)系推理挖掘新的實體和關(guān)聯(lián)關(guān)系,增強圖譜結(jié)點密度和邊密度,更新處理資源架構(gòu),然后重新遍歷處理資源架構(gòu),尋找資源;

步驟7)構(gòu)建模糊傾向性詞匯表。模糊傾向性詞匯指的是“可能”、“或許”這種傾向性不確定的詞語;

步驟8)對找到的資源根據(jù)傾向性按照正向和反向進行分類,答案中包括模糊傾向詞匯表中詞匯的資源視為無用資源;

步驟9)根據(jù)步驟(8)得到的兩種傾向性資源,統(tǒng)計正向資源和反向資源在資源總數(shù)所占的比重(weight),其中resource正表示正向資源數(shù),resource反表示反向資源數(shù),resource總表示資源總數(shù):

(2)

(3)

步驟10)根據(jù)步驟9得到的正反雙向資源所占權(quán)重分配用戶投入,確定正向和反向搜索分別要花費的時間和金額,進而確定正反雙向搜索分別要遞進搜索的次數(shù):

(4)

(5)

步驟11)根據(jù)步驟8得到的資源按照資源中的關(guān)鍵詞進行關(guān)聯(lián)因素遞進搜索,并計算得到信息的熵值,熵值范圍是0到1,熵值越大,信息傾向越分散,可信度越低。資源是有時效性的,是按照某一關(guān)聯(lián)因素進行遞進搜索時,在tk時間下得到的資源的熵值,pi是每類答案出現(xiàn)的概率,entropy表示按照某一關(guān)聯(lián)因素進行遞進搜索時,在不同時效下得到資源的加權(quán)平均熵值,timeliness是tk時間資源的時效性,ts是資源開始出現(xiàn)的時間,tt是資源終止傳播的時間,tc是當前搜索者搜索資源的時間:

(6)

(7)

(8)

步驟12)根據(jù)步驟9得到的遞進搜索項的熵,計算資源可信度confidence,本發(fā)明設(shè)定在搜索前正反傾向的資源可信度都為1,n是搜索的次數(shù),m是每次搜索的條目總數(shù),itemi表示條目i,是按條目i遞進搜索得到的資源的熵:

(9)

步驟13)根據(jù)步驟10得到的資源的可信度,判斷正向資源可信度和反向資源可信度的比值是否大于閾值t或小于1/t,該閾值可根據(jù)學(xué)習(xí)算法得到。若可信度比值滿足閾值條件,返回可信度大的資源給搜索者;否則步驟11遍歷處理資源架構(gòu)繼續(xù)遞進搜索;

步驟14)獲取用戶反饋,若用戶對答案不滿意,提示用戶是否增加投入重新檢索。若用戶增加了投入,返回步驟10重新分配正向和反向投入比例,繼續(xù)遞進搜索。

體系結(jié)構(gòu):

與傳統(tǒng)的搜索策略相比較,該體系結(jié)構(gòu)具有基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜三層架構(gòu)的優(yōu)勢,數(shù)據(jù)圖譜允許資源出現(xiàn)冗余不一致等情況,對數(shù)據(jù)圖譜上資源進行去冗處理,集成相關(guān)資源得到信息圖譜,信息圖譜允許資源缺失現(xiàn)象存在,在知識圖譜上通過關(guān)系推理可以構(gòu)建出新的實體或關(guān)系,挖掘隱式存在的資源,增加圖譜的點密度和邊密度。經(jīng)過數(shù)據(jù)的采集和清洗、信息的描述和集成、知識的描述和推理,最終構(gòu)建出資源處理架構(gòu)。下面給出數(shù)據(jù)圖譜、信息圖譜和知識圖譜的具體說明。

數(shù)據(jù)圖譜

數(shù)據(jù)是通過觀察獲得的數(shù)字或其他類型信息的基本個體項目,但是在沒有上下文語境的情況下,它們本身沒有意義。數(shù)據(jù)圖譜可以通過數(shù)組、鏈表、隊列、樹、棧、圖等數(shù)據(jù)結(jié)構(gòu)來表達。在數(shù)據(jù)圖譜上,通過計算數(shù)據(jù)的頻度,得出數(shù)據(jù)在數(shù)據(jù)圖譜上的支持度和置信度來刪除錯誤或無用數(shù)據(jù),刪除的條件是必須同時滿足支持度和置信度的閾值要求,閾值過大不利于圖譜表達的準確性,過小會不利于表達的完整性,可以根據(jù)計算圖譜反饋的結(jié)果信息動態(tài)調(diào)整。數(shù)據(jù)圖譜能記錄關(guān)鍵詞出現(xiàn)的頻度,包括結(jié)構(gòu)、時間和空間三個層次的頻度。但數(shù)據(jù)圖譜上未對數(shù)據(jù)的準確性進行分析,可能出現(xiàn)不同名稱的數(shù)據(jù)但表示同一含義,即數(shù)據(jù)冗余。綜上,數(shù)據(jù)圖譜只能對數(shù)據(jù)進行靜態(tài)分析,無法分析和預(yù)測數(shù)據(jù)的動態(tài)變化。結(jié)構(gòu)頻度、空間頻度和時間頻度的定義如下:

結(jié)構(gòu)頻度:表示數(shù)據(jù)出現(xiàn)在不同數(shù)據(jù)結(jié)構(gòu)中的次數(shù)。請注意,數(shù)據(jù)的結(jié)構(gòu)頻度應(yīng)根據(jù)數(shù)據(jù)出現(xiàn)的最大數(shù)據(jù)結(jié)構(gòu)進行計算。例如,如果在圖形結(jié)構(gòu)的分支中以樹結(jié)構(gòu)出現(xiàn)的數(shù)據(jù),將按圖結(jié)構(gòu)來計算數(shù)據(jù)的結(jié)構(gòu)頻度為1,不重復(fù)計算數(shù)據(jù)在樹結(jié)構(gòu)中出現(xiàn)的頻度;

空間頻度:我們將空間頻率定義為在不同空間位置出現(xiàn)的數(shù)據(jù)時間,描述多個對象的相對位置。我們利用空間頻率來識別物體之間的空間關(guān)系,一旦它們被下層識別并用邊界框標記;

時間頻度:我們將時間頻率定義為在不同時間段內(nèi)出現(xiàn)的數(shù)據(jù)時間。初始獲取到的數(shù)據(jù)集合可能不完整,對于具有時間性的流式數(shù)??據(jù),一旦我們觀察到這些數(shù)據(jù),應(yīng)該及時做出響應(yīng),因為過期的數(shù)據(jù)將是無意義的。

信息圖譜

信息是通過數(shù)據(jù)和數(shù)據(jù)經(jīng)過組合之后的上下文傳達的,經(jīng)過概念映射和相關(guān)關(guān)系連接之后的適合分析和解釋的信息。信息圖譜可以通過關(guān)系數(shù)據(jù)庫來表達。信息圖譜上的頻度指的是實體與實體之間的交互的頻度,信息圖譜可以表達實體之間的交互關(guān)系,根據(jù)數(shù)據(jù)圖譜上記錄的數(shù)據(jù)頻度和信息圖譜上記錄的交互頻度計算多個交互實體的綜合頻度,篩選綜合頻度低于閾值的結(jié)點,并把交互頻度高的實體進行集成從而提高模塊的內(nèi)聚性。在信息圖譜上可以進行數(shù)據(jù)清洗,消除冗余數(shù)據(jù),根據(jù)實體之間的交互度進行初步抽象,提高設(shè)計的內(nèi)聚性,降低耦合度。通過圈定特定數(shù)量的實體,計算內(nèi)部交互度和外部交互度,內(nèi)聚性等于內(nèi)部交互度和外部交互度的比值,我們設(shè)定所圈定的實體之間必須是相互連通的。

知識圖譜

知識是從積累的信息中獲得的總體理解和意識,將信息進行進一步的抽象和歸類可以形成知識。知識圖譜可以通過包含結(jié)點和結(jié)點之間關(guān)系的有向圖來表達。知識圖譜可以表達各種語義關(guān)系,在知識圖譜上能通過信息推理和實體鏈接提高知識圖譜的邊密度和結(jié)點密度,知識圖譜的無結(jié)構(gòu)特性使得其自身可以無縫鏈接。信息推理需要有相關(guān)關(guān)系規(guī)則的支持,這些規(guī)則可以由人手動構(gòu)建,但往往耗時費力,得到復(fù)雜關(guān)系中的所有推理規(guī)則更加困難。使用路徑排序算法將每個不同的關(guān)系路徑作為一維特征,通過在知識圖譜中構(gòu)建大量的關(guān)系路徑來構(gòu)建關(guān)系分類的特征向量和關(guān)系分類器來提取關(guān)系,關(guān)系的正確度超過某一閾值后認為新關(guān)系成立。關(guān)系的正確度cr可以通過以下公式衡量,q表示實體e1到實體e2的所有關(guān)系,π表示一類關(guān)系,θ(π)表示關(guān)系的權(quán)重,可由訓(xùn)練得出,最后正確度超過某一閾值后認為該關(guān)系成立。

有益效果:一種投入驅(qū)動的容錯的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜架構(gòu)的智能語義搜索方法,具有如下一些顯著優(yōu)點:

(1)用戶投入驅(qū)動:根據(jù)用戶投入為用戶提供搜索服務(wù),用戶投入的多少決定正反雙向搜索的搜索次數(shù)、時間和內(nèi)容的精度;

(2)提高搜索資源的可抽象性:面對海量結(jié)構(gòu)復(fù)雜的資源,通過數(shù)據(jù)圖譜、信息圖譜和知識圖譜三層架構(gòu)建立資源處理框架,通過關(guān)系抽象規(guī)則和信息推理挖掘出隱式出現(xiàn)的資源,減少無法找到答案的情況;

(3)面對具有高時效性的流式數(shù)據(jù),能有效的衡量出資源的時效性,避免失效信息影響資源的準確度;

(4)通過關(guān)聯(lián)要素遞進搜索,提高搜索答案的準確率和可信度。本發(fā)明通過關(guān)聯(lián)要素計算出資源的可信度,避免用戶收到非確信不保真的答案。

附圖說明

圖1是用戶投入模型示意圖。

圖2是一種投入驅(qū)動的容錯的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜架構(gòu)的智能語義搜索方法的流程示意圖。

具體實施方式

一種投入驅(qū)動的容錯的基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜架構(gòu)的智能語義搜索方法為:

(1)對應(yīng)于圖2步驟001根據(jù)已有資源體系,基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜三層架構(gòu)建立處理資源框架;

(2)002獲取用戶投入,003建立用戶投入模型;

(3)對應(yīng)圖2步驟004獲取用戶搜索需求,假定用戶輸入的問題是“專利變更聯(lián)系人地址要不要付費”;

(4)根據(jù)步驟(3)中用戶的需求,005遍歷處理資源架構(gòu),尋找相關(guān)資源;

(5)006判斷能否找到相關(guān)資源。若不能找到,007在知識圖譜上通過關(guān)系推理挖掘新的實體和關(guān)聯(lián)關(guān)系,增強圖譜結(jié)點密度和邊密度,008更新處理資源架構(gòu),然后重新009遍歷處理資源架構(gòu),尋找資源;

(6)007構(gòu)建模糊傾向性詞匯表。模糊傾向性詞匯指的是“可能”、“或許”這種傾向性不確定的詞語;

(7)008對找到的資源根據(jù)傾向性按照正向和反向進行分類,答案中包括模糊傾向詞匯表中詞匯的資源視為無用資源;

(8)根據(jù)步驟(8)得到的兩種傾向性資源,009統(tǒng)計正向資源和反向資源在資源總數(shù)所占的比重(weight),其中resource正表示正向資源數(shù),resource反表示反向資源數(shù),resource總表示資源總數(shù):

(1)

(2)

(10)根據(jù)步驟9得到的正反雙向資源所占權(quán)重010分配用戶投入,011確定正向和反向搜索分別要花費的時間和金額,進而確定正反雙向搜索分別要遞進搜索的次數(shù):

(4)

(5)

(11)012根據(jù)步驟8得到的資源按照資源中的關(guān)鍵詞進行關(guān)聯(lián)因素遞進搜索,013并計算得到信息的熵值,熵值范圍是0到1,熵值越大,信息傾向越分散,可信度越低。資源是有時效性的,是按照某一關(guān)聯(lián)因素進行遞進搜索時,在tk時間下得到的資源的熵值,pi是每類答案出現(xiàn)的概率,entropy表示按照某一關(guān)聯(lián)因素進行遞進搜索時,在不同時效下得到資源的加權(quán)平均熵值,timeliness是tk時間資源的時效性,ts是資源開始出現(xiàn)的時間,tt是資源終止傳播的時間,tc是當前搜索者搜索資源的時間:

(6)

(7)

(8)

(12)根據(jù)步驟9得到的遞進搜索項的熵,014計算資源可信度confidence,本發(fā)明設(shè)定在搜索前正反傾向的資源可信度都為1,n是搜索的次數(shù),m是每次搜索的條目總數(shù),itemi表示條目i,是按條目i遞進搜索得到的資源的熵:

(9)

(13)根據(jù)步驟10得到的資源的可信度,判斷正向資源可信度和反向資源可信度的比值是否大于閾值t或小于1/t,該閾值可根據(jù)學(xué)習(xí)算法得到。若可信度比值滿足閾值條件,015返回可信度大的資源給搜索者;否則返回步驟11(對應(yīng)圖2步驟012)遍歷處理資源架構(gòu)繼續(xù)遞進搜索;

(14)016獲取用戶反饋,若用戶對答案不滿意,提示用戶是否增加投入重新檢索。若用戶增加了投入,返回步驟10重新分配正向和反向投入比例,繼續(xù)遞進搜索。若用戶不增加投入,020搜索結(jié)束。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1