亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于膜計(jì)算的搜索方法

文檔序號(hào):6536335閱讀:146來(lái)源:國(guó)知局
基于膜計(jì)算的搜索方法
【專利摘要】本發(fā)明涉及網(wǎng)絡(luò)搜索領(lǐng)域,其公開(kāi)了一種基于膜計(jì)算的搜索方法,包括以下步驟:(A)獲取最優(yōu)加權(quán)因子;(B)獲取文檔主題相似度;(C)預(yù)測(cè)排序優(yōu)先值。本發(fā)明的有益效果是:能夠提高預(yù)測(cè)未訪問(wèn)URLs主題相似度的準(zhǔn)確率,進(jìn)一步提高主題爬蟲(chóng)的查全率和準(zhǔn)確率,從而指導(dǎo)主題爬蟲(chóng)從互聯(lián)網(wǎng)中采集的更多數(shù)量、更好質(zhì)量的網(wǎng)頁(yè)集,更有效地收集用戶感興趣的網(wǎng)頁(yè)集。
【專利說(shuō)明】基于膜計(jì)算的搜索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)搜索領(lǐng)域,尤其涉及一種基于膜計(jì)算的搜索方法。
【背景技術(shù)】
[0002]大多數(shù)主題爬行方法都是基于文本內(nèi)容方法,在這些主題爬蟲(chóng)中比較典型的主題爬蟲(chóng)包括VSM主題爬蟲(chóng)和SSRM主題爬蟲(chóng),VSM主題爬蟲(chóng)將未訪問(wèn)URLs的網(wǎng)頁(yè)全文本和鏈接錨文本的兩個(gè)文檔的主題相關(guān)度與相應(yīng)的兩個(gè)加權(quán)因子整合為它們的優(yōu)先值,并利用向量空間模型(Vector Space Model VSM)計(jì)算文檔與主題的相似度;S.Chakrabarti, Μ.V.D.Berg, B.Dom, Focused crawling:a new approach for topic specific resourcediscovery, Computer Networks, 1999, 31:1623-1640.SSRM 主題爬蟲(chóng)也將未訪問(wèn) URLs 的網(wǎng)頁(yè)全文本和鏈接錨文本的兩個(gè)文檔的主題相關(guān)度與相應(yīng)的兩個(gè)加權(quán)因子整合為它們的優(yōu)先值,并利用語(yǔ)義相似度檢索模型(Semantic Similarity Retrieval Model SSRM)計(jì)算文檔與主題的相似度;G.Varelas, E.Voutsakis, et al, Semantic similarity methodsin wordnet and their application to information retrieval on the web, SeventhACM International Workshop on Web Information and Data Management, BremenGermany, 2005.此兩個(gè)主題爬蟲(chóng)的兩個(gè)加權(quán)因子都被指定為0.5。此外,在優(yōu)化參數(shù)或加權(quán)因子中,與遺傳算法相比,CMCOA能獲得更好的最優(yōu)值和具有更快的收斂性。L.Huang, Research on membrane computing optimization methods,ZhejiangUniversity, Hangzhou, 2007.上述兩個(gè)典型主題爬蟲(chóng)能夠檢索用戶感興趣的網(wǎng)頁(yè),但是它們?nèi)匀淮嬖谥T多問(wèn)題:(I)未訪問(wèn)URLs優(yōu)先值計(jì)算考慮因素不完善,此優(yōu)先值可能受鏈接上下文段落、網(wǎng)頁(yè)標(biāo)題等相關(guān)因素影響;(2)文檔和主題的相似度計(jì)算模型存在瑕疵,VSM模型未考慮到語(yǔ)義相似度,而SSRM模型未考慮到余弦相似度;(3)未訪問(wèn)URLs優(yōu)先值算式的加權(quán)因子確定帶有隨意性,這些加權(quán)因子都是通過(guò)任意指定的。

【發(fā)明內(nèi)容】

[0003]為了解決現(xiàn)有技術(shù)中的問(wèn)題,本發(fā)明提供了一種基于膜計(jì)算的搜索方法,解決現(xiàn)有技術(shù)中在網(wǎng)絡(luò)主體爬行中未訪問(wèn)URLs優(yōu)先值計(jì)算考慮因素不完善和文檔和主題的相似度計(jì)算模型存在瑕疵的問(wèn)題。
[0004]本發(fā)明提供了一種基于膜計(jì)算的搜索方法,包括以下步驟:(A)獲取最優(yōu)加權(quán)因子;(B)獲取文檔主題相似度;(C)預(yù)測(cè)排序優(yōu)先值。
[0005]作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟(A)進(jìn)一步包括,獲取訓(xùn)練數(shù)據(jù);表層膜、中間膜和基本膜產(chǎn)生初始對(duì)象并設(shè)置相關(guān)參數(shù);表層膜、中間膜和基本膜應(yīng)用進(jìn)化規(guī)則;表層膜、中間膜和基本膜應(yīng)用交流規(guī)則;表層膜輸出最好對(duì)象。
[0006]作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟(B)進(jìn)一步包括,獲取四個(gè)不同文檔;計(jì)算四個(gè)文檔的主題相似度;四個(gè)不同文檔分別為網(wǎng)頁(yè)全文本、鏈接錨文本、鏈接上下文和網(wǎng)頁(yè)標(biāo)題文檔。
[0007]作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟(C)進(jìn)一步包括:預(yù)測(cè)未訪問(wèn)URLs的排序優(yōu)先值;遍歷未訪問(wèn)URLs并下載相應(yīng)的網(wǎng)頁(yè)集。
[0008]作為本發(fā)明的進(jìn)一步改進(jìn),所述訓(xùn)練數(shù)據(jù)包括與主題相關(guān)的訓(xùn)練URLs,其自身的主題相似度、其父網(wǎng)頁(yè)的全文本、錨文本、標(biāo)題文本、上下文文本的主題相似度;表層膜、中間膜和基本膜的初始對(duì)象都是隨機(jī)產(chǎn)生的;表層膜、中間膜和基本膜中所有的膜都單獨(dú)應(yīng)用進(jìn)化規(guī)則,此進(jìn)化規(guī)則包括選擇規(guī)則、交叉規(guī)則和變異規(guī)則,直到達(dá)到指定的代數(shù);表層膜、中間膜和基本膜中所有膜都應(yīng)用進(jìn)化規(guī)則后,各膜應(yīng)用交流規(guī)則將該膜內(nèi)最好或者較好的對(duì)象送入包含該膜的外層膜,直到達(dá)到指定的交流代數(shù)。
[0009]作為本發(fā)明的進(jìn)一步改進(jìn),所述表層膜、中間膜和基本膜的參數(shù)包括初始對(duì)象個(gè)數(shù)、最大進(jìn)化代數(shù)、最大交流代數(shù)、最大及最小變異概率;所述最好對(duì)象指表層膜中適應(yīng)度值最大的對(duì)象,此對(duì)象對(duì)應(yīng)的訓(xùn)練URLs的主題相似度的訓(xùn)練值與估算值的均方根誤差最小的對(duì)象。
[0010]作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟(B)中,從已下載的網(wǎng)頁(yè)中,抽取未訪問(wèn)的URLs和網(wǎng)頁(yè)全文本,并獲取這些超鏈接的錨文本、上下文文本和標(biāo)題文本;具體包括:抽取上述四個(gè)文檔的詞項(xiàng),去除停用詞并進(jìn)行詞干提?。唤y(tǒng)計(jì)所有詞項(xiàng)的TF-1DF值,并計(jì)算主題詞項(xiàng)與文檔詞項(xiàng)間語(yǔ)義相似度;利用模型計(jì)算四個(gè)文檔與主題的相似度。
[0011]作為本發(fā)明的進(jìn)一步改進(jìn),所述步驟(C)中進(jìn)一步包括:預(yù)測(cè)未訪問(wèn)URLs的排序優(yōu)先值;具體包括:(Cl)將每個(gè)未訪問(wèn)URL的四個(gè)文檔的主題相似度與上述獲得的最優(yōu)四個(gè)加權(quán)因子進(jìn)行線性 組合,將組合值作為此URL的排序優(yōu)先值;(C2)遍歷未訪問(wèn)URLs并下載相應(yīng)的網(wǎng)頁(yè)集;根據(jù)未訪問(wèn)URLs的排序優(yōu)先值,按照降序依次遍歷這些URLs,并下載相應(yīng)的網(wǎng)頁(yè)集;統(tǒng)計(jì)已下載的網(wǎng)頁(yè)數(shù)量,判斷該數(shù)量值是否達(dá)到用戶給定的網(wǎng)頁(yè)數(shù),若滿足要求,則程序結(jié)束,否則程序從(C2)繼續(xù)運(yùn)行。
[0012]本發(fā)明的有益效果是:能夠提高預(yù)測(cè)未訪問(wèn)URLs主題相似度的準(zhǔn)確率,進(jìn)一步提高主題爬蟲(chóng)的查全率和準(zhǔn)確率,從而指導(dǎo)主題爬蟲(chóng)從互聯(lián)網(wǎng)中采集的更多數(shù)量、更好質(zhì)量的網(wǎng)頁(yè)集,更有效地收集用戶感興趣的網(wǎng)頁(yè)集。
[0013]【【專利附圖】

【附圖說(shuō)明】】
圖1是本發(fā)明CMCOA的結(jié)構(gòu)示意圖。
[0014]圖2是本發(fā)明所有主題爬蟲(chóng)的第一組爬行結(jié)果相關(guān)網(wǎng)頁(yè)數(shù)量的對(duì)比圖。
[0015]圖3是本發(fā)明所有主題爬蟲(chóng)的第一組爬行結(jié)果獲取率的對(duì)比圖。
[0016]圖4是本發(fā)明所有主題爬蟲(chóng)的第一組爬行結(jié)果平均相關(guān)度的對(duì)比圖。
[0017]圖5是本發(fā)明所有主題爬蟲(chóng)的第二組爬行結(jié)果相關(guān)網(wǎng)頁(yè)數(shù)量的對(duì)比圖。
[0018]圖6是本發(fā)明所有主題爬蟲(chóng)的第二組爬行結(jié)果獲取率的對(duì)比圖。
[0019]圖7是本發(fā)明所有主題爬蟲(chóng)的第二組爬行結(jié)果平均相關(guān)度的對(duì)比圖。
[0020]圖8是本發(fā)明所有主題爬蟲(chóng)的第三組爬行結(jié)果相關(guān)網(wǎng)頁(yè)數(shù)量的對(duì)比圖。
[0021]圖9是本發(fā)明所有主題爬蟲(chóng)的第三組爬行結(jié)果獲取率的對(duì)比圖。
[0022]圖10是本發(fā)明所有主題爬蟲(chóng)的第三組爬行結(jié)果平均相關(guān)度的對(duì)比圖。
[0023]圖11是本發(fā)明流程示意圖。
[0024]【【具體實(shí)施方式】】 下面結(jié)合【專利附圖】
附圖
【附圖說(shuō)明】及【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)一步說(shuō)明。
[0025]一種基于膜計(jì)算的搜索方法,包括以下步驟:(A)獲取最優(yōu)加權(quán)因子;(B)獲取文檔主題相似度;(O預(yù)測(cè)排序優(yōu)先值。
[0026]所述步驟(A)進(jìn)一步包括,獲取訓(xùn)練數(shù)據(jù);表層膜、中間膜和基本膜產(chǎn)生初始對(duì)象并設(shè)置相關(guān)參數(shù);表層膜、中間膜和基本膜應(yīng)用進(jìn)化規(guī)則;表層膜、中間膜和基本膜應(yīng)用交流規(guī)則;表層膜輸出最好對(duì)象。
[0027]所述步驟(B)進(jìn)一步包括,獲取四個(gè)不同文檔;計(jì)算四個(gè)文檔的主題相似度;四個(gè)不同文檔分別為網(wǎng)頁(yè)全文本、鏈接錨文本、鏈接上下文和網(wǎng)頁(yè)標(biāo)題文檔。
[0028]所述步驟(C)進(jìn)一步包括:預(yù)測(cè)未訪問(wèn)URLs的排序優(yōu)先值;遍歷未訪問(wèn)URLs并下載相應(yīng)的網(wǎng)頁(yè)集。
[0029]所述訓(xùn)練數(shù)據(jù)包括與主題相關(guān)的訓(xùn)練URLs,其自身的主題相似度、其父網(wǎng)頁(yè)的全文本、錨文本、標(biāo)題文本、上下文文本的主題相似度;表層膜、中間膜和基本膜的初始對(duì)象都是隨機(jī)產(chǎn)生的;表層膜、中間膜和基本膜中所有的膜都單獨(dú)應(yīng)用進(jìn)化規(guī)則,此進(jìn)化規(guī)則包括選擇規(guī)則、交叉規(guī)則和變異規(guī)則,直到達(dá)到指定的代數(shù);表層膜、中間膜和基本膜中所有膜都應(yīng)用進(jìn)化規(guī)則后,各膜應(yīng)用交流規(guī)則將該膜內(nèi)最好或者較好的對(duì)象送入包含該膜的外層膜,直到達(dá)到指定的交流代數(shù)。
[0030]所述表層膜、中間膜和基本膜的參數(shù)包括初始對(duì)象個(gè)數(shù)、最大進(jìn)化代數(shù)、最大交流代數(shù)、最大及最小變異概率;所述最好對(duì)象指表層膜中適應(yīng)度值最大的對(duì)象,此對(duì)象對(duì)應(yīng)的訓(xùn)練URLs的主題相似度的訓(xùn)練值與估算值的均方根誤差最小的對(duì)象。
[0031 ] 所述步驟(B)中,從已下載的網(wǎng)頁(yè)中,抽取未訪問(wèn)的URLs和網(wǎng)頁(yè)全文本,并獲取這些超鏈接的錨文本、上下文文本和標(biāo)題文本;具體包括:抽取上述四個(gè)文檔的詞項(xiàng),去除停用詞并進(jìn)行詞干提??;統(tǒng)計(jì)所有詞項(xiàng)的TF-1DF值,并計(jì)算主題詞項(xiàng)與文檔詞項(xiàng)間語(yǔ)義相似度;利用模型計(jì)算四個(gè)文檔與主題的相似度。
[0032]所述步驟(C)中進(jìn)一步包括:預(yù)測(cè)未訪問(wèn)URLs的排序優(yōu)先值;具體包括:(Cl)將每個(gè)未訪問(wèn)URL的四個(gè)文檔的主題相似度與上述獲得的最優(yōu)四個(gè)加權(quán)因子進(jìn)行線性組合,將組合值作為此URL的排序優(yōu)先值;(C2)遍歷未訪問(wèn)URLs并下載相應(yīng)的網(wǎng)頁(yè)集;根據(jù)未訪問(wèn)URLs的排序優(yōu)先值,按照降序依次遍歷這些URLs,并下載相應(yīng)的網(wǎng)頁(yè)集;統(tǒng)計(jì)已下載的網(wǎng)頁(yè)數(shù)量,判斷該數(shù)量值是否達(dá)到用戶給定的網(wǎng)頁(yè)數(shù),若滿足要求,則程序結(jié)束,否則程序從(C2)繼續(xù)運(yùn)行。
[0033]該方法基于膜計(jì)算優(yōu)化算法的主題爬行策略,將未訪問(wèn)URLs的網(wǎng)頁(yè)全文本、鏈接錨文本、鏈接上下文和網(wǎng)頁(yè)標(biāo)題的四個(gè)文檔的主題相關(guān)度與相應(yīng)的四個(gè)加權(quán)因子整合為它們的優(yōu)先值。此四個(gè)文檔的主題相關(guān)度通過(guò)語(yǔ)義相似度向量空間模型(SemanticSimilarity Vector Retrieval Model SSVSM)獲得,而相應(yīng)的四個(gè)加權(quán)因子通過(guò)細(xì)胞型膜計(jì)算優(yōu)化算法(Cell-Like Membrane Computing Optimization Algorithm CMC0A)獲得。
[0034]主題爬蟲(chóng)將網(wǎng)頁(yè)全文本、鏈接錨文本、鏈接上下文和網(wǎng)頁(yè)標(biāo)題作為超鏈接的四個(gè)文檔,該主題爬蟲(chóng)主要包括獲取最優(yōu)加權(quán)因子、獲取文檔主題相似度與預(yù)測(cè)排序優(yōu)先值三個(gè)步驟。這些步驟具體描述如下:
(I)獲取最優(yōu)加權(quán)因子
CMCOA的結(jié)構(gòu)是由8個(gè)不同膜相互嵌套組成,此結(jié)構(gòu)主要包括表層膜、中間膜和基本膜,其中膜I是表層膜、膜2-3是中間膜、膜5-8是基本膜,CMCOA的結(jié)構(gòu)如下圖1所示。在圖1中,表層膜主要與外界環(huán)境接觸,同時(shí)將最優(yōu)的對(duì)象輸出到外部環(huán)境中;基本膜內(nèi)部沒(méi)有任何膜,基本膜之間是相互獨(dú)立的;中間膜在結(jié)構(gòu)上是位于表層膜和基本膜之間,其內(nèi)部可由中間膜本身嵌套或者只有基本膜。各層膜可以包含不同的對(duì)象數(shù)目,同時(shí)不同類(lèi)型膜之間可以通過(guò)交流規(guī)則交換對(duì)象,同類(lèi)型膜可以通過(guò)進(jìn)化規(guī)則選出該膜較優(yōu)的對(duì)象。
[0035]CMCOA的對(duì)象是由四個(gè)加權(quán)因子構(gòu)成的實(shí)數(shù)向量,即每個(gè)對(duì)象對(duì)應(yīng)一個(gè)4維向量,相應(yīng)的向量分值都在[0,1]內(nèi)。每個(gè)對(duì)象都有一個(gè)適應(yīng)度值,該適應(yīng)度值是所有超鏈接的主題相似度的均方根誤差的倒數(shù),適應(yīng)度值越大,則此對(duì)象就越好。CMCOA的對(duì)象以及適應(yīng)度函數(shù)具體表示如下:
【權(quán)利要求】
1.一種基于膜計(jì)算的搜索方法,其特征在于:包括以下步驟:(A)獲取最優(yōu)加權(quán)因子;(B)獲取文檔主題相似度;(C)預(yù)測(cè)排序優(yōu)先值。
2.根據(jù)權(quán)利要求1所述的基于膜計(jì)算的搜索方法,其特征在于:所述步驟(A)進(jìn)一步包括,獲取訓(xùn)練數(shù)據(jù);表層膜、中間膜和基本膜產(chǎn)生初始對(duì)象并設(shè)置相關(guān)參數(shù);表層膜、中間膜和基本膜應(yīng)用進(jìn)化規(guī)則;表層膜、中間膜和基本膜應(yīng)用交流規(guī)則;表層膜輸出最好對(duì)象。
3.根據(jù)權(quán)利要求1所述的基于膜計(jì)算的搜索方法,其特征在于:所述步驟(B)進(jìn)一步包括,獲取四個(gè)不同文檔;計(jì)算四個(gè)文檔的主題相似度;四個(gè)不同文檔分別為網(wǎng)頁(yè)全文本、鏈接錨文本、鏈接上下文和網(wǎng)頁(yè)標(biāo)題文檔。
4.根據(jù)權(quán)利要求1所述的基于膜計(jì)算的搜索方法,其特征在于:所述步驟(C)進(jìn)一步包括:預(yù)測(cè)未訪問(wèn)URLs的排序優(yōu)先值;遍歷未訪問(wèn)URLs并下載相應(yīng)的網(wǎng)頁(yè)集。
5.根據(jù)權(quán)利要求2所述的基于膜計(jì)算的搜索方法,其特征在于:所述訓(xùn)練數(shù)據(jù)包括與主題相關(guān)的訓(xùn)練URLs,其自身的主題相似度、其父網(wǎng)頁(yè)的全文本、錨文本、標(biāo)題文本、上下文文本的主題相似度;表層膜、中間膜和基本膜的初始對(duì)象都是隨機(jī)產(chǎn)生的;表層膜、中間膜和基本膜中所有的膜都單獨(dú)應(yīng)用進(jìn)化規(guī)則,此進(jìn)化規(guī)則包括選擇規(guī)則、交叉規(guī)則和變異規(guī)則,直到達(dá)到指定的代數(shù);表層膜、中間膜和基本膜中所有膜都應(yīng)用進(jìn)化規(guī)則后,各膜應(yīng)用交流規(guī)則將該膜內(nèi)最好或者較好的對(duì)象送入包含該膜的外層膜,直到達(dá)到指定的交流代數(shù)。
6.根據(jù)權(quán)利要求5所述的基于膜計(jì)算的搜索方法,其特征在于:所述表層膜、中間膜和基本膜的參數(shù)包括初始對(duì)象個(gè)數(shù)、最大進(jìn)化代數(shù)、最大交流代數(shù)、最大及最小變異概率;所述最好對(duì)象指表層膜中適應(yīng)度值最大的對(duì)象,此對(duì)象對(duì)應(yīng)的訓(xùn)練URLs的主題相似度的訓(xùn)練值與估算值的均方根誤差最小的對(duì)象。
7.根據(jù)權(quán)利要求3所述的基于膜計(jì)算的搜索方法,其特征在于:所述步驟(B)中,從已下載的網(wǎng)頁(yè)中,抽取未訪問(wèn)的URLs和網(wǎng)頁(yè)全文本,并獲取這些超鏈接的錨文本、上下文文本和標(biāo)題文本;具體包括:抽取上述四個(gè)文檔的詞項(xiàng),去除停用詞并進(jìn)行詞干提?。唤y(tǒng)計(jì)所有詞項(xiàng)的TF-1DF值,并計(jì)算主題詞項(xiàng)與文檔詞項(xiàng)間語(yǔ)義相似度;利用模型計(jì)算四個(gè)文檔與主題的相似度。
8.根據(jù)權(quán)利要求4所述的基于膜計(jì)算的搜索方法,其特征在于:所述步驟(C)中進(jìn)一步包括:預(yù)測(cè)未訪問(wèn)URLs的排序優(yōu)先值;具體包括:(Cl)將每個(gè)未訪問(wèn)URL的四個(gè)文檔的主題相似度與上述獲得的最優(yōu)四個(gè)加權(quán)因子進(jìn)行線性組合,將組合值作為此URL的排序優(yōu)先值;(C2)遍歷未訪問(wèn)URLs并下載相應(yīng)的網(wǎng)頁(yè)集;根據(jù)未訪問(wèn)URLs的排序優(yōu)先值,按照降序依次遍歷這些URLs,并下載相應(yīng)的網(wǎng)頁(yè)集;統(tǒng)計(jì)已下載的網(wǎng)頁(yè)數(shù)量,判斷該數(shù)量值是否達(dá)到用戶給定的網(wǎng)頁(yè)數(shù),若滿足要求,則程序結(jié)束,否則程序從(C2)繼續(xù)運(yùn)行。
【文檔編號(hào)】G06F17/30GK103955460SQ201410026335
【公開(kāi)日】2014年7月30日 申請(qǐng)日期:2014年1月20日 優(yōu)先權(quán)日:2014年1月20日
【發(fā)明者】杜亞軍, 劉文君, 孟慶瑞, 李曦, 王曉明 申請(qǐng)人:西華大學(xué), 西藏飛躍智能科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1