本發(fā)明是一種面對非確定、不保真、超復(fù)雜資源環(huán)境的正反雙向動(dòng)態(tài)平衡搜索策略,主要用于對搜索者提出的具有正反判定性問題進(jìn)行正反雙向搜索,通過遞進(jìn)搜索逐步提高搜索出的資源的可信度,屬于分布式計(jì)算和軟件工程學(xué)技術(shù)交叉領(lǐng)域。
背景技術(shù):
搜索引擎(searchengine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等。隨著互聯(lián)網(wǎng)數(shù)據(jù)的增長,網(wǎng)絡(luò)上資源變得十分龐雜,用戶對搜索結(jié)果的精確性要求大大增加。目前,主流的搜索引擎普遍存在由于對數(shù)據(jù)篩選的低精確度標(biāo)準(zhǔn)等客觀或主觀的因素導(dǎo)致搜索結(jié)果不準(zhǔn)確,從而無法解決實(shí)際問題的情況。當(dāng)在搜索引擎輸入問題后通過搜索引擎工作機(jī)制獲取到大量的資源,資源中涵蓋了舊的信息、新的信息以及利益相關(guān)者傳播的帶有明顯傾向性的虛假信息,導(dǎo)致搜索出的結(jié)果不能令用戶滿意。網(wǎng)絡(luò)上資源存在時(shí)效性,在為特定用戶搜索答案時(shí)以前的資源在當(dāng)下可能失效或者不適用。同時(shí),資源的來源也是衡量資源可信度的一個(gè)指標(biāo),存在個(gè)人或機(jī)構(gòu)為了自身利益?zhèn)鞑A向于自身利益的虛假信息,正確的答案便會(huì)因?yàn)樘摷傩畔⒌南鄬Ω哳l度出現(xiàn)而被淹沒。在整合互聯(lián)網(wǎng)上海量資源的基礎(chǔ)上,對于具有明顯傾向性問題采用正反遞進(jìn)搜索,有針對性地找出解決方案,并將可信度高的答案和更加豐富的語義關(guān)聯(lián)資源返回給用戶。
技術(shù)實(shí)現(xiàn)要素:
技術(shù)問題:本發(fā)明的目的是提供一種面對非確定、不保真、超復(fù)雜資源環(huán)境的正反雙向動(dòng)態(tài)平衡搜索策略,用于解決搜索者提出的具有明顯判定性或傾向性問題的答案使用搜索引擎過程中面對非確定保真信息情況下的最佳決策問題。本發(fā)明可顯著地提高搜索引擎目標(biāo)檢索結(jié)果的可信度,并提升搜索引擎的準(zhǔn)確檢索效率。
技術(shù)方案:本發(fā)明是一種策略性方法,可以應(yīng)用于各種搜索引擎。本發(fā)明通過引入數(shù)據(jù)圖譜、信息圖譜和知識(shí)圖譜三層架構(gòu),將網(wǎng)絡(luò)上資源進(jìn)行組織,通過語義分析理解搜索者檢索信息的傾向性,按正反傾向?qū)λ阉髡咛岢龅男枨筮M(jìn)行搜索,本發(fā)明認(rèn)定正確答案是具有時(shí)效下的唯一性的,允許根據(jù)資源中關(guān)聯(lián)因素?cái)U(kuò)展細(xì)節(jié)進(jìn)行遞進(jìn)搜索,更新可信度,根據(jù)可信度由高到低進(jìn)行排序,最終將有序的資源返回給用戶。
方法流程:
一種面對非確定、不保真、超復(fù)雜資源環(huán)境的正反雙向動(dòng)態(tài)平衡搜索策略,其方法流程如下:
步驟1)根據(jù)已有資源體系建立處理資源框架;
步驟2)獲取用戶搜索需求。允許用戶以自然語言文本描述的形式輸入其信息需求;
步驟3)對搜索者的搜索需求進(jìn)行主動(dòng)建模。統(tǒng)計(jì)正向資源和反向資源在資源總數(shù)所占的比重(weight),其中resource正表示正向資源數(shù),resource反表示反向資源數(shù),resource總表示資源總數(shù):
根據(jù)問題所占權(quán)重確定投入分配比例,例如遞進(jìn)搜索次數(shù);
步驟4)對于搜索者提出的問題,按照正向和反向傾向進(jìn)行雙向搜索,遍歷處理資源架構(gòu),尋找相關(guān)資源;
步驟5)根據(jù)步驟4得到的資源按照資源中的關(guān)鍵詞進(jìn)行關(guān)聯(lián)因素遞進(jìn)搜索,并計(jì)算得到信息的熵值,熵值范圍是0到1,熵值越大,信息傾向越分散,可信度越低。資源是有時(shí)效性的,是按照某一關(guān)聯(lián)因素進(jìn)行遞進(jìn)搜索時(shí),在tk時(shí)間下得到的資源的熵值,pi是每類答案出現(xiàn)的概率,entropy表示按照某一關(guān)聯(lián)因素進(jìn)行遞進(jìn)搜索時(shí),在不同時(shí)效下得到資源的加權(quán)平均熵值,timeliness是tk時(shí)間資源的時(shí)效性,ts是資源開始出現(xiàn)的時(shí)間,tt是資源終止傳播的時(shí)間,tc是當(dāng)前搜索者搜索資源的時(shí)間:
步驟6)每遞進(jìn)搜索一次,根據(jù)步驟5得到的遞進(jìn)搜索項(xiàng)的熵,計(jì)算資源可信度confidence,其中s_amount表示遞進(jìn)搜索的次數(shù),item_amount表示每次遞進(jìn)搜索的條目總數(shù),itemi表示條目i,是按條目i遞進(jìn)搜索得到的資源的熵:
步驟7)根據(jù)步驟6得到的資源的可信度,判斷正反雙向資源可信度的比值是否大于閾值t或小于1/t,該閾值可根據(jù)學(xué)習(xí)算法得到。若滿足閾值條件,返回可信度高的搜索結(jié)果給搜索者;否則返回步驟4繼續(xù)遞進(jìn)搜索。
有益效果:本發(fā)明提出了一種面對非確定、不保真、超復(fù)雜資源環(huán)境的正反雙向動(dòng)態(tài)平衡搜索策略,在面對搜索引擎檢索出的高時(shí)效性且復(fù)雜的非確定不保真的資源時(shí),具有傳統(tǒng)決策方法不具備的優(yōu)勢,具有如下一些顯著優(yōu)點(diǎn):
(1)建立了模糊詞匯表,過濾掉傾向不明確的無用資源;
(2)對問題進(jìn)行有限次數(shù)的搜索,避免面對無窮盡超復(fù)雜性問題時(shí)搜索陷入死循環(huán)的情況;
(3)提出了遞進(jìn)搜索策略,根據(jù)傾向相關(guān)資源進(jìn)行遞進(jìn)搜索,通過每次搜索的條目數(shù)以及每項(xiàng)條目對應(yīng)資源的熵值計(jì)算該傾向資源的可靠性,虛假信息以及失效信息會(huì)隨著遞進(jìn)搜索的次數(shù)被排除,提高了搜索資源的質(zhì)量。
附圖說明
圖1是一種面對非確定、不保真、超復(fù)雜資源環(huán)境的正反雙向動(dòng)態(tài)平衡搜索策略的流程圖示意。
具體實(shí)施方式
為了方便描述,我們假定有如下應(yīng)用實(shí)例,搜索者搜索的問題是“專利變更聯(lián)系人地址要不要付費(fèi)”,對應(yīng)圖1中的步驟,具體實(shí)施方案如下:
(1)001根據(jù)已有資源體系建立處理資源框架;
(2)002獲取用戶搜索需求。假定用戶輸入“專利變更聯(lián)系人地址要不要付費(fèi)”;
(3)003根據(jù)搜索者的搜索需求進(jìn)行主動(dòng)建模?;诓襟E2獲取到的需求,計(jì)算“需要付費(fèi)”和“不需要付費(fèi)”兩種傾向所占權(quán)重,對應(yīng)于圖1中步驟004分配投入比例,確定分別按“需要付費(fèi)”和“不需要付費(fèi)”的遞進(jìn)搜索次數(shù);
(4)005按照“需要付費(fèi)”和“不需要付費(fèi)”進(jìn)行遍歷資源處理架構(gòu)進(jìn)行雙向搜索,尋找相關(guān)資源;
(5)006根據(jù)步驟4得到的資源按照資源中的關(guān)鍵詞進(jìn)行遞進(jìn)搜索,如根據(jù)“需要付費(fèi)”傾向中關(guān)于“付費(fèi)金額”“付費(fèi)部門”等條目進(jìn)行遞進(jìn)搜索,得到的答案中存在不同金額,并且答案的出現(xiàn)時(shí)間也是不同的,根據(jù)時(shí)間對資源進(jìn)行分類,007按照公式1計(jì)算不同時(shí)間下資源的熵值,熵值范圍是0到1,熵值越大,信息傾向越分散,可信度越低。然后根據(jù)公式2和公式3計(jì)算資源的時(shí)效性以及不同時(shí)效資源的加權(quán)平均熵值:
(6)根據(jù)步驟5得到的遞進(jìn)搜索項(xiàng)的熵,008計(jì)算“需要付費(fèi)”搜索出的資源可信度confidence(正)和按“不需要付費(fèi)”搜索出的資源可信度confidence(反),其中k表示遞進(jìn)搜索的次數(shù),n表示每次遞進(jìn)搜索的條目總數(shù),itemi表示條目i,entropyi是按條目i遞進(jìn)搜索得到的資源的熵:
(7)根據(jù)步驟6得到的資源的可信度,009判斷正反雙向資源可信度的比值是否大于閾值t或小于1/t,該閾值可根據(jù)學(xué)習(xí)算法得到。若滿足閾值條件,010選擇可信度高的搜索結(jié)果,011并輸出給搜索者;否則對應(yīng)于圖1中步驟010返回步驟4繼續(xù)遞進(jìn)搜索。