專利名稱::免疫系統(tǒng)在搜索引擎中的應(yīng)用的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及信息處理領(lǐng)域,具體的說,涉及免疫系統(tǒng)在搜索引擎中的應(yīng)用。
背景技術(shù):
:近年來,隨著Internet規(guī)模的迅速增長(zhǎng),網(wǎng)絡(luò)上的信息資源也隨之迅速膨脹。為了快速、有效地獲得網(wǎng)上信息,信息檢索技術(shù)得以迅速發(fā)展,人們開發(fā)了各種不同的搜索引擎。它們能以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù)。傳統(tǒng)搜索引擎按其工作方式主要可分為如下三種1、全文搜索引擎(FullTextSearchEngine)全文搜索引擎的典型代表有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut、百度(Baidu)等。它們都通過從互聯(lián)網(wǎng)上所提取的各個(gè)網(wǎng)站的信息(以網(wǎng)頁(yè)文字為主)而建立的數(shù)據(jù)庫(kù)中,檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)⒔Y(jié)果返回給用戶。該類搜索引擎搜集保存的是互聯(lián)網(wǎng)上各網(wǎng)站的每一個(gè)網(wǎng)頁(yè)的全部?jī)?nèi)容,服務(wù)方式是面向網(wǎng)頁(yè)的全文檢索服務(wù),其優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。2、目錄索引(SearchIndex/Directory)目錄索引雖然有搜索功能,但不是真正的搜索引擎,僅僅是按目錄分類的網(wǎng)站鏈接列表而已。目錄索引中最具代表性的是Yahoo(雅虎)、0penDirectoryProject(DM0Z)、LookSmart、About、搜狐、新浪、網(wǎng)易搜索等。該類搜索引擎只保存互聯(lián)網(wǎng)上各網(wǎng)站的站名、網(wǎng)址和內(nèi)容提要,以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中,其信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄埽孕畔?zhǔn)確、導(dǎo)航質(zhì)量高,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。3、元搜索引擎(METASearchEngine)元搜索引擎在接受用戶查詢請(qǐng)求的同時(shí),也能在其它多個(gè)引擎上進(jìn)行搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo、搜星搜索引擎等。這類搜索引擎沒有自己的數(shù)據(jù),它先將用戶的查詢請(qǐng)求同時(shí)遞交給多個(gè)搜索引擎,再對(duì)返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理,最后作為自己的結(jié)果返回給用戶。其服務(wù)方式為面向網(wǎng)頁(yè)的全文檢索,主要優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更全,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。傳統(tǒng)的全文檢索技術(shù)是基于關(guān)鍵詞匹配的檢索,往往存在查不全、查不準(zhǔn)、檢索質(zhì)量不高的現(xiàn)象,特別是在網(wǎng)絡(luò)信息時(shí)代,利用關(guān)鍵詞匹配很難滿足人們檢索的要求。因此,人們開始研究智能檢索技術(shù),開發(fā)出了一些具有智能能力的搜索引擎。智能型搜索引擎運(yùn)用人工智能技術(shù)把信息檢索從目前基于關(guān)鍵詞檢索的層面提高到基于知識(shí)(或概念)檢索的層面,突破了關(guān)鍵詞檢索限于形式的缺陷,可準(zhǔn)確定位搜索結(jié)果的范圍,從而提高了檢索效率并能對(duì)用戶檢索請(qǐng)求實(shí)現(xiàn)合理的聯(lián)想、擴(kuò)充和檢驗(yàn),這是通過對(duì)搜索內(nèi)容相關(guān)性的自動(dòng)學(xué)習(xí),不斷提高搜索結(jié)果的可用度來實(shí)現(xiàn)的。但是目前的搜索引擎并不能完全滿足人們檢索信息的要求,一方面搜索引擎對(duì)信息的檢準(zhǔn)率、檢全率不能令人滿意,搜索引擎對(duì)搜索結(jié)果的排序也不夠客觀、科學(xué)。往往對(duì)一個(gè)關(guān)鍵詞的搜索,動(dòng)輒就能得到數(shù)以百計(jì)的結(jié)果。另一方面,當(dāng)前的搜索引擎在學(xué)習(xí)、識(shí)別用戶的信息檢索模式等方面能力還比較欠缺,并不能為用戶提供很好的個(gè)性化服務(wù)。信息過載使得用戶對(duì)相關(guān)信息的獲取越來越困難,為了查找有用的信息,用戶不得不逐一查看每一條信息。信息過濾系統(tǒng)根據(jù)用戶的反饋建立用戶模板,通過屏蔽無關(guān)信息提高信息查詢的效率,可有效降低用戶的負(fù)擔(dān)。MaloneT.W.等人提出了信息過濾的3種方式內(nèi)容過濾、協(xié)作過濾和經(jīng)濟(jì)過濾[2]?;趦?nèi)容的過濾方式通過查找文檔中有趣的詞條實(shí)現(xiàn),通過發(fā)現(xiàn)用戶感興趣的詞條歷史記錄查詢新的用戶感興趣的文檔;協(xié)作過濾通過用戶推薦實(shí)現(xiàn),如果一篇文檔被用戶推薦,則該文檔將被賦予更高的權(quán)重;經(jīng)濟(jì)過濾主要是基于代價(jià)估算的思想。WidyantoroD.H.等人提出了一個(gè)動(dòng)態(tài)學(xué)習(xí)用戶興趣的模型。將用戶的興趣分為短期和長(zhǎng)期兩種,短期興趣變化較快,長(zhǎng)期興趣變化較慢。長(zhǎng)期興趣用l個(gè)向量描述,短期興趣用2個(gè)向量描述。綜合模型為短期興趣和長(zhǎng)期興趣按照一定權(quán)重的疊加。但是,人為地將用戶興趣進(jìn)行分割,違反了信息的公平性,是不可取的。deKroonH.C.M.等人利用多模板實(shí)現(xiàn)對(duì)文檔的預(yù)測(cè)。綜合模板通過Rocchio方法學(xué)習(xí)獲得,其它子模板通過手工設(shè)置對(duì)文檔進(jìn)行分類,對(duì)文檔的最終評(píng)價(jià)是各個(gè)模板評(píng)價(jià)的綜合。因而,該模型缺乏靈活性,需要耗費(fèi)大量的人力,不適合普通用戶使用。免疫是機(jī)體針對(duì)外源物質(zhì)的一種反應(yīng),其作用是識(shí)別和排除抗原性異物,從而維持機(jī)體的生理平衡。免疫系統(tǒng)由免疫細(xì)胞、淋巴組織、淋巴器官以及單核吞噬細(xì)胞組成,具有防御、監(jiān)視、消除外來異體物質(zhì)(抗原)和監(jiān)視、清除體內(nèi)衰老細(xì)胞及突變細(xì)胞的生理作用,并可穩(wěn)定和保持機(jī)體內(nèi)環(huán)境的平衡統(tǒng)一,即在體內(nèi)實(shí)現(xiàn)免疫防御、免疫監(jiān)視和免疫穩(wěn)定的三大功能[3]。免疫系統(tǒng)的主要成分是免疫細(xì)胞中的淋巴細(xì)胞,淋巴細(xì)胞不僅經(jīng)血液和淋巴環(huán)流全身引起免疫的分子水平、細(xì)胞水平及器官的功能活動(dòng),而且將免疫系統(tǒng)連成一個(gè)功能整體實(shí)現(xiàn)免疫的作用。當(dāng)機(jī)體受抗原剌激時(shí),由淋巴細(xì)胞識(shí)別抗原,引起淋巴細(xì)胞發(fā)生一系列的反應(yīng)過程,對(duì)抗原進(jìn)行殺傷或產(chǎn)生抗體而出現(xiàn)特異性效應(yīng),稱為免疫應(yīng)答。免疫應(yīng)答是免疫功能的基本形式。淋巴組織又稱免疫組織,是以網(wǎng)狀組織為基礎(chǔ),網(wǎng)孔中充滿大量的淋巴細(xì)胞和一些巨噬細(xì)胞、漿細(xì)胞等。淋巴組織中的淋巴細(xì)胞具有特異性、轉(zhuǎn)化性和記憶性。按其個(gè)體產(chǎn)生、表面分子和功能的不同,可將淋巴細(xì)胞分為B細(xì)胞和T細(xì)胞。T細(xì)胞是在胸腺中成熟的淋巴細(xì)胞,是血液和再循環(huán)中的主要淋巴細(xì)胞。B細(xì)胞是在骨髓中發(fā)育成熟的淋巴細(xì)胞,B細(xì)胞受抗原剌激后,可產(chǎn)生抗體。生物免疫系統(tǒng)具有強(qiáng)大的信息處理機(jī)制,這些機(jī)制對(duì)于解決信息檢索和過濾提供了基本的手段,主要表現(xiàn)在(1)分布性。生物免疫系統(tǒng)沒有中央控制器,它由廣泛分布于全身的免疫細(xì)胞組成,互聯(lián)網(wǎng)中的信息也是分布于世界各地的,我們的信息檢索也需要分布在各地的服務(wù)器來提供快捷的服務(wù)。分布式系統(tǒng)有很多優(yōu)點(diǎn),不但可以容錯(cuò)而且可以并行處理。(2)自適應(yīng)性。自然界中存在的抗原種類遠(yuǎn)遠(yuǎn)多于生物體內(nèi)的抗體種類,并且侵入生物體內(nèi)的抗原具有個(gè)不可預(yù)知性。但是免疫系統(tǒng)能通過免疫細(xì)胞的增殖和分化作用不斷地產(chǎn)生新的抗體,最終生成適合的抗體消滅抗原,從而動(dòng)態(tài)地適應(yīng)外界環(huán)境的變化。網(wǎng)上的信息以及用戶的喜好也在不停的變化,系統(tǒng)應(yīng)該能自動(dòng)地調(diào)整以適應(yīng)用戶的要求。(3)動(dòng)態(tài)平衡性。在免疫應(yīng)答過程中,免疫系統(tǒng)內(nèi)部各免疫細(xì)胞之間、抗原與抗體、抗體與抗體之間形成一個(gè)相互作用的動(dòng)態(tài)平衡網(wǎng)絡(luò)體系,使免疫應(yīng)答維持在合適的強(qiáng)度。我們的信息檢索往往面對(duì)的結(jié)果是大量的,可其中對(duì)用戶有用的可能只有幾條,因此信息免疫系統(tǒng)也應(yīng)該能對(duì)搜索結(jié)果進(jìn)行必要處理,并保持動(dòng)態(tài)平衡。(4)具有學(xué)習(xí)和記憶功能。當(dāng)抗原第一次侵入生物體內(nèi)就會(huì)引發(fā)初次免疫應(yīng)答,使免疫系統(tǒng)產(chǎn)生抗體消滅抗原,在這個(gè)過程中,免疫系統(tǒng)通過學(xué)習(xí)抗原產(chǎn)生記憶細(xì)胞。當(dāng)相同類型的抗原再次入侵時(shí),二次免疫應(yīng)答就被觸發(fā),免疫系統(tǒng)通過喚醒記憶細(xì)胞,在比初次免疫應(yīng)答短的時(shí)間周期內(nèi)產(chǎn)生大量的抗體消滅抗原。一個(gè)成功的信息免疫系統(tǒng)也應(yīng)該能夠?qū)W習(xí)用戶的查詢模式和喜好,并對(duì)用戶的行為進(jìn)行記憶。(5)具有自我識(shí)別功能。生物免疫系統(tǒng)具有辨認(rèn)"自己"和"非已"的特殊識(shí)別能力,對(duì)于"非己"的抗原,免疫系統(tǒng)能啟動(dòng)免疫應(yīng)答予以排除,而對(duì)于"自己"的組織細(xì)胞,免疫系統(tǒng)能保持免疫無應(yīng)答,形成免疫耐受(immunetolerance),維護(hù)生物體內(nèi)環(huán)境的穩(wěn)定。在信息檢索中,需要對(duì)查到的結(jié)果進(jìn)行識(shí)別過濾,只把用戶感興趣、所需要的信息反饋給用戶;同時(shí)也可通過不斷學(xué)習(xí),提取出用戶的檢索模式和感興趣的內(nèi)容。生物免疫系統(tǒng)具有分布性、自適應(yīng)性、動(dòng)態(tài)平衡性、學(xué)習(xí)和記憶能力、自我識(shí)別能力等特性,這為實(shí)現(xiàn)信息的智能化處理提供了有效的途徑。
發(fā)明內(nèi)容本發(fā)明提出一種新的基于免疫算法的信息免疫系統(tǒng)(InformationImmuneSyetem:IIS),根據(jù)免疫細(xì)胞的特異性,利用不同的染色體描述用戶需求,并專注于對(duì)無關(guān)信息的處理,引入了向量空間模型,并通過實(shí)驗(yàn)與其他過濾方法進(jìn)行了對(duì)比。本發(fā)明所述的技術(shù)方案如下所述。本發(fā)明所述的免疫系統(tǒng)在搜索引擎中的應(yīng)用主要采用如下步驟來實(shí)現(xiàn)問題定義,把信息檢索中存在的問題,用免疫系統(tǒng)的免疫思想來解決,本發(fā)明把檢索系統(tǒng)中的概念和操作同免疫系統(tǒng)中的概念和操作對(duì)應(yīng)起來,初步確定免疫系統(tǒng)的變量、常量、函數(shù)和參數(shù);信息預(yù)處理,本發(fā)明的信息免疫系統(tǒng)是基于搜索引擎來實(shí)現(xiàn)的,面向的對(duì)象都是半結(jié)構(gòu)化的網(wǎng)頁(yè),對(duì)這些網(wǎng)頁(yè)信息進(jìn)行免疫處理之前,首先需要對(duì)這些網(wǎng)頁(yè)進(jìn)行預(yù)處理,主要包括特征提取、分詞和網(wǎng)頁(yè)特征化表示。設(shè)計(jì)信息免疫算法,將所描述的問題和要使用的免疫原理結(jié)合起來,設(shè)計(jì)模型、過程和算法,算法中包括親和力計(jì)算、抗原樣本訓(xùn)練、克隆變異和否定選擇。系統(tǒng)設(shè)計(jì),對(duì)預(yù)處理后的網(wǎng)頁(yè)信息進(jìn)行訓(xùn)練,生成免疫規(guī)則,在免疫規(guī)則的指導(dǎo)下,利用信息免疫算法對(duì)搜索結(jié)果進(jìn)行免疫過濾,得到用戶感興趣的搜索結(jié)果。本發(fā)明主要把免疫系統(tǒng)的信息處理機(jī)制引入信息檢索系統(tǒng)中,利用免疫系統(tǒng)的學(xué)習(xí)、記憶和自我識(shí)別機(jī)理來解決信息檢索中存在的搜索結(jié)果過多的問題。通過實(shí)驗(yàn)測(cè)試,取5得了較好的效果'圖l是本發(fā)明圖2是本發(fā)明圖3是本發(fā)明圖4是本發(fā)明圖5是本發(fā)明圖6是本發(fā)明圖7是本發(fā)明實(shí)施例中信實(shí)施例中信實(shí)施例中信實(shí)施例中信實(shí)施例中信實(shí)施例中信實(shí)施例中信息免疫系統(tǒng)的模型結(jié)構(gòu)息免疫系統(tǒng)的類息免疫系統(tǒng)的實(shí)現(xiàn)框架;息免疫系統(tǒng)的特征詞索引圖息免疫系統(tǒng)的免疫搜索界面息免疫系統(tǒng)的百度搜索界面息免疫系統(tǒng)的用戶反饋界面,具體實(shí)施例方式現(xiàn)依據(jù)附圖,對(duì)本發(fā)明做進(jìn)一步的描述。實(shí)施例1問題定義檢索系統(tǒng)檢索到的信息中包含用戶感興趣的信息和用戶不感興趣的信息,往往用戶感興趣的信息只占很小一部分,這必然給用戶尋找自己感興趣的信息增加了難度。免疫系統(tǒng)保護(hù)機(jī)體免受外部細(xì)菌、病毒等的侵襲,能夠識(shí)別外來細(xì)胞或分子,然后從機(jī)體內(nèi)消除這些外部有害物質(zhì),同時(shí)觀察身體內(nèi)異常細(xì)胞的出現(xiàn),并清除已經(jīng)變異的細(xì)胞。如果把免疫系統(tǒng)引入信息檢索中,把用戶不感興趣的信息作為外來有害物質(zhì),系統(tǒng)就可以對(duì)用戶不感興趣的信息進(jìn)行清除,方便用戶查找自己感興趣的信息。和免疫系統(tǒng)一樣,本發(fā)明所面臨的首要問題是如何定義自體/非自體,并進(jìn)行識(shí)別。自體/非自體在不同的領(lǐng)域內(nèi)有著不同的定義對(duì)于問題域D=U),ir,抗原集合AgGD,自體集合SelfGAg,非自體集合NoselfGAg,有SelfUNoself=Ag,SelfnNonself=①。對(duì)于信息免疫系統(tǒng)而言,非自體代表用戶不感興趣的網(wǎng)頁(yè)信息,自體為用戶感興趣的網(wǎng)頁(yè)信息。檢測(cè)過程就是對(duì)一個(gè)模式IGD的分類,判斷它是自體還是非自體。對(duì)一個(gè)IGD,一個(gè)檢測(cè)器集合(免疫細(xì)胞、抗體等)BC:BC二{ai,a2,*",ai},aiG{0,l}k,k《1,iGN,N為自然數(shù)集合。一個(gè)匹配函數(shù)f:f(1,a)-MpGR|p>0Ap《l},其中aGBC,R為實(shí)數(shù)集合,e為匹配閾值,由式(2_1)完成分類。'非自體,/(/,fl)2l-S、自體,o^zerw&e借鑒于生物免疫系統(tǒng)的信息處理機(jī)制,本發(fā)明建立了生物免疫系統(tǒng)與信息免疫系統(tǒng)的概念對(duì)應(yīng)關(guān)系。生物免疫系統(tǒng)和信息免疫系統(tǒng)的映射關(guān)系如表1所示。表1生物免疫系統(tǒng)和信息免疫系統(tǒng)的映射關(guān)系(2-1)生物免疫系統(tǒng)信息免疫系統(tǒng)抗原互聯(lián)網(wǎng)中的網(wǎng)頁(yè)(包括用戶感興趣和不感興趣網(wǎng)頁(yè))6<table>tableseeoriginaldocumentpage7</column></row><table>本發(fā)明對(duì)生物免疫系統(tǒng)中所涉及的定義都可以通過以上映射關(guān)系映射到信息免疫系統(tǒng)。為方便下述的算法設(shè)計(jì),這里先給出免疫系統(tǒng)的一些初始設(shè)定BC-初始為空的B細(xì)胞集〃bc為B細(xì)胞集中的B細(xì)胞,代表用戶不感興趣的信息,主要由網(wǎng)頁(yè)網(wǎng)址、標(biāo)題和關(guān)鍵字組成;B細(xì)胞分泌抗體MC-初始為空的記憶B細(xì)胞集〃mc為記憶B細(xì)胞集中的記憶細(xì)胞,代表被用戶確認(rèn)的不感興趣的信息,主要由網(wǎng)頁(yè)網(wǎng)址和標(biāo)題組成R-抗體二進(jìn)制表示Kt-初始記憶細(xì)胞數(shù)目Ka-親和力閥值e_匹配閾值Kl-克隆常量Km-變異常量Ag-抗原;代表用戶所面對(duì)的網(wǎng)頁(yè)信息自體集合SelfGAg,非自體集合NoselfGAg在信息免疫系統(tǒng)中,抗原即是網(wǎng)頁(yè)特征,其中非自體抗原為用戶不感興趣的網(wǎng)頁(yè),自體抗原為用戶需要的網(wǎng)頁(yè)。因此,設(shè)計(jì)抗原特征結(jié)構(gòu)以及如何表示抗原是構(gòu)建本信息免疫系統(tǒng)的主要挑戰(zhàn)之一。抗原特征集是對(duì)網(wǎng)頁(yè)特征的抽象,特征集的選取直接影響信息免疫模型的性能。特征集的選取必須遵循以下原則(l)特征集必須能夠精確地描述網(wǎng)頁(yè)特征;(2)特征集能夠區(qū)分自體(self,表示用戶需要的網(wǎng)頁(yè))和非自體(nonself,表示用戶不感興趣的網(wǎng)頁(yè))的行為;(3)特征集能夠容易編碼。因?yàn)楸景l(fā)明研究的是基于網(wǎng)絡(luò)信息的信息免疫系統(tǒng),而網(wǎng)絡(luò)信息的基本單元是網(wǎng)頁(yè),所以本發(fā)明所使用的抗原特征集是根據(jù)網(wǎng)頁(yè)的特征來構(gòu)建的。網(wǎng)絡(luò)信息往往表現(xiàn)出以下特性(l)隨機(jī)性由于網(wǎng)絡(luò)業(yè)務(wù)量的復(fù)雜多變以及用戶訪問網(wǎng)絡(luò)的隨意性,使得這些信息呈現(xiàn)很強(qiáng)的隨機(jī)性。(2)相關(guān)性單純的某個(gè)網(wǎng)頁(yè)往往不能完整地反映網(wǎng)絡(luò)信息,在較大的范圍內(nèi)表現(xiàn)出較強(qiáng)的相關(guān)性。因此,對(duì)網(wǎng)絡(luò)數(shù)據(jù)的處理,不能僅僅孤立地對(duì)某個(gè)網(wǎng)頁(yè)信息進(jìn)行處理,而必須綜合考慮某個(gè)范圍內(nèi)的特征,才能真正反映它們的具體屬性。因此,本發(fā)明采用多維向量空間表示抗原。下面給出抗原特征集的一些定義定義2.l可測(cè)度集設(shè)F為一組屬性值集合,包含所有網(wǎng)頁(yè)數(shù)據(jù)中可能出現(xiàn)的屬性值,例如網(wǎng)頁(yè)地址、標(biāo)題、關(guān)鍵字等,稱之為可測(cè)度集。可測(cè)度集表明一個(gè)網(wǎng)頁(yè)數(shù)據(jù)的屬性集合,例如一個(gè)網(wǎng)頁(yè)數(shù)據(jù)的可測(cè)度集為(ur1,ti11e,key),分別表示網(wǎng)頁(yè)的網(wǎng)址、標(biāo)題、關(guān)鍵字等屬性。網(wǎng)頁(yè)信息可以由一個(gè)三元組組成〈url,title,key〉,我們將重要的信息作為記錄屬性。用戶搜索形成網(wǎng)頁(yè)記錄后,網(wǎng)頁(yè)信息主要由網(wǎng)址、標(biāo)題、關(guān)鍵字組成,這些是網(wǎng)頁(yè)數(shù)據(jù)的必要屬性。為了挖掘?qū)傩灾g的關(guān)聯(lián)規(guī)則,并盡可能地減少規(guī)則冗余,本發(fā)明引入?yún)⒖剂考母拍?,用以表示網(wǎng)絡(luò)數(shù)據(jù)中重要的屬性。參考量集一般由網(wǎng)址、標(biāo)題組成。例如對(duì)于某種垃圾網(wǎng)頁(yè),可以設(shè)定網(wǎng)址為參考量,然后計(jì)算其他網(wǎng)頁(yè)與參考量的關(guān)系。如果這種關(guān)系滿足一定的規(guī)則(例如網(wǎng)址相同),則可認(rèn)為是非自體抗原。由此可見,參考量集的選擇十分重要。定義2.2參考量集設(shè)R為可測(cè)度集F的子集,其中包含的元素為可測(cè)度集的重要特征,稱之為參考量集。在本發(fā)明的信息免疫系統(tǒng)中記憶細(xì)胞可以作為抗原的參考量集。根據(jù)上述定義本發(fā)明給出抗原、B細(xì)胞和記憶細(xì)胞的形式化表示抗原文檔Ag二〈url,title,key〉,其中url,title,key即為抗原的基因;B細(xì)胞為用戶收集到的不感興趣的網(wǎng)頁(yè)信息,本發(fā)明表示為BC=〈url,title,key>Url=〈word!,word2,...,wordn>Title=〈word!,word2,...,wordn>key=〈word!,word2,...,wordm>記憶細(xì)胞也即參考量集MC=〈url,title〉。主要記憶一些用戶初始收集以及用戶后來反饋的垃圾網(wǎng)頁(yè)信息或用戶肯定不感興趣的網(wǎng)頁(yè)信息。用戶知識(shí)庫(kù)是提高對(duì)于指定檢索信息查準(zhǔn)率的關(guān)鍵技術(shù),不同的用戶對(duì)于同一個(gè)檢索詞會(huì)有不同的理解和要求。若事先為每個(gè)用戶建立一個(gè)用戶模型,由用戶自己給出他所理解的一些關(guān)鍵詞的相關(guān)詞匯,這樣,在每次檢索時(shí),搜索模塊就能綜合考慮用戶提交的關(guān)鍵詞和已存在于用戶模型中相應(yīng)的拓展開了的檢索詞,前者保證了檢索范圍不會(huì)太小,而后者則能保證檢索結(jié)果的相關(guān)性。用戶模型的獲取包括用戶主動(dòng)定制和系統(tǒng)自動(dòng)提取兩部分。用戶特征包括用戶經(jīng)常性的網(wǎng)絡(luò)行為特征和對(duì)信息需求的特征,用戶特征表中記錄下用戶感興趣的主題和不感興趣的主題,對(duì)每一個(gè)主題會(huì)賦予一個(gè)權(quán)值,表明用戶的關(guān)心程度。用一個(gè)關(guān)聯(lián)詞典存放關(guān)聯(lián)詞,包括與主題詞內(nèi)涵相同的近似性關(guān)聯(lián)詞和對(duì)主題詞外延加以限制的限制性關(guān)聯(lián)詞。用戶知識(shí)庫(kù)存放結(jié)果信息,知識(shí)庫(kù)中有相關(guān)信息資源(KEYWORD,URL),用權(quán)值表征用戶對(duì)它的滿意程度及訪問頻度。8基因庫(kù)中存放著用戶不感興趣的各種網(wǎng)址、標(biāo)題和關(guān)鍵字,這些信息是信息免疫系統(tǒng)的基因,可以生成系統(tǒng)的各類抗體,組成系統(tǒng)的抗體規(guī)則庫(kù)。借鑒于生物免疫系統(tǒng)所具有的辨認(rèn)"自體"和"非自體"的特殊識(shí)別能力,可在信息免疫系統(tǒng)中為用戶提供識(shí)別感興趣和不感興趣信息的能力。用戶感興趣的信息可看作信息免疫系統(tǒng)的"自體",不感興趣的信息則為系統(tǒng)的"非自體"。當(dāng)系統(tǒng)遇到"非自體"的不感興趣信息時(shí),可啟動(dòng)免疫過濾機(jī)制自動(dòng)予以排除。本發(fā)明采用抗原和抗體同時(shí)進(jìn)行親和力比較的方法進(jìn)行識(shí)別"非自體"信息。同時(shí)為使系統(tǒng)能及時(shí)反映出用戶動(dòng)態(tài)變化的信息需求,系統(tǒng)也應(yīng)具有不斷學(xué)習(xí)和記憶不感興趣的信息的能力。為此,在系統(tǒng)設(shè)計(jì)中要解決好如下幾個(gè)問題(l)根據(jù)給定的用戶不感興趣信息作為訓(xùn)練抗原訓(xùn)練生成基本的免疫規(guī)則庫(kù),使系統(tǒng)可對(duì)用戶不感興趣信息進(jìn)行過濾。規(guī)則庫(kù)中一般有兩類規(guī)則一類是用戶規(guī)定一定要起過濾作用的規(guī)則。當(dāng)信息進(jìn)入系統(tǒng)時(shí),首先按照此類過濾規(guī)則排除不感興趣的信息,并將其存入特定保存區(qū)域,然后用戶可以對(duì)該區(qū)域的信息進(jìn)行檢查,反饋的結(jié)果將作為進(jìn)一步更新規(guī)則的基本依據(jù)。另一類是與用戶檢索要求相對(duì)應(yīng)的過濾規(guī)則,這類規(guī)則產(chǎn)生初始抗體并對(duì)"非自體"抗原進(jìn)行過濾。(2)為了識(shí)別出"自體"和"非自體"信息,則需要對(duì)網(wǎng)頁(yè)信息進(jìn)行特異識(shí)別。其基本思想是計(jì)算網(wǎng)頁(yè)信息與由基因庫(kù)中產(chǎn)生的免疫細(xì)胞的親和力,將親和力超過給定閾值的信息作為"非自體"抗原,否則作為"自體"抗原。(3)系統(tǒng)將用戶感興趣的"自體"抗原直接傳給用戶,在此基礎(chǔ)上用戶可對(duì)免疫結(jié)果進(jìn)行反饋。如果用戶對(duì)查詢結(jié)果感到滿意的話,則系統(tǒng)自動(dòng)對(duì)規(guī)則庫(kù)中相應(yīng)規(guī)則進(jìn)行分裂克隆,提升該規(guī)則的作用;反之則更新規(guī)則庫(kù),降低相應(yīng)規(guī)則的作用。本發(fā)明所設(shè)計(jì)的信息免疫系統(tǒng)主要集中在兩個(gè)方面一個(gè)方面是信息免疫算法的設(shè)計(jì),通過采用抗原和抗體同時(shí)進(jìn)行親和力比較的方法來識(shí)別"非自體"信息,可以提高系統(tǒng)的處理速度;另一方面為了使系統(tǒng)能及時(shí)反映出用戶動(dòng)態(tài)變化的信息需求,系統(tǒng)增加了記憶細(xì)胞,使系統(tǒng)具有學(xué)習(xí)和記憶的功能,極大地減少了用戶對(duì)系統(tǒng)的干涉。根據(jù)上述的思想,發(fā)明人已經(jīng)構(gòu)建出了一個(gè)基本的信息免疫系統(tǒng)構(gòu)架,其中主要包括信息預(yù)處理部分、免疫規(guī)則生成、信息免疫應(yīng)答和免疫記憶等功能,經(jīng)過實(shí)際運(yùn)行取得良好的效果。圖1和圖2分別是系統(tǒng)的模型結(jié)構(gòu)和類圖。基于圖1的免疫模型,發(fā)明人對(duì)各個(gè)模塊的功能做了些細(xì)化,畫除了信息免疫系統(tǒng)的類圖。下面簡(jiǎn)述各模塊的主要功能。信息采集模塊信息的自動(dòng)采集是信息免疫系統(tǒng)的數(shù)據(jù)來源,它的功能是負(fù)責(zé)向遠(yuǎn)程服務(wù)器(即目標(biāo)網(wǎng)站)發(fā)送一個(gè)請(qǐng)求,然后取回相應(yīng)的網(wǎng)頁(yè)。讀取網(wǎng)頁(yè)的工作常常是根據(jù)用戶的需求建立目標(biāo)樣本,然后利用搜索引擎選擇待采集的站點(diǎn),最后交由后臺(tái)的網(wǎng)站下載工具(離線瀏覽器)來完成。本發(fā)明采用互聯(lián)網(wǎng)上廣泛應(yīng)用的離線瀏覽器——WebRe即er。通過離線瀏覽器下載下來的Web頁(yè)面被分別存儲(chǔ)在指定的目錄下供預(yù)處理模塊分詞、提取特征信息。學(xué)習(xí)模塊首先由用戶提供用戶不感興趣的網(wǎng)頁(yè)信息,并通過學(xué)習(xí)模塊來進(jìn)行初始化用戶模板(Profile),然后由網(wǎng)絡(luò)信息免疫系統(tǒng)不斷地從用戶那里直接或間接地獲得反饋信息,并對(duì)用戶模板(Profile)進(jìn)行修正。傳統(tǒng)的方法中,一是利用概率模型進(jìn)行Profile中Term的權(quán)值調(diào)整;二是利用向量空間法修正Profile方向。修改后的用戶模板可以對(duì)生成免疫規(guī)則模塊進(jìn)行規(guī)則更新。預(yù)處理模塊預(yù)處理模塊的功能是負(fù)責(zé)把信息采集模塊所讀取的網(wǎng)頁(yè),先進(jìn)行分詞處理,然后進(jìn)行特征提取,最后網(wǎng)頁(yè)特征化表示并存入用戶知識(shí)庫(kù)。免疫規(guī)則生成模塊通過學(xué)習(xí)模塊對(duì)用戶不感興趣的網(wǎng)頁(yè)信息的學(xué)習(xí),生成了免疫規(guī)則模塊。免疫規(guī)則模塊可以生成初始的免疫規(guī)則,隨后隨著用戶反饋對(duì)學(xué)習(xí)模塊的作用,生成免疫規(guī)則模塊可以對(duì)規(guī)則進(jìn)行更新。免疫應(yīng)答模塊免疫應(yīng)答模塊是在生成免疫規(guī)則模塊所生成的規(guī)則控制下對(duì)經(jīng)過預(yù)處理的網(wǎng)頁(yè)信息進(jìn)行特異識(shí)別。對(duì)親和力高的"非自體"網(wǎng)頁(yè)抗原我們調(diào)用免疫規(guī)則進(jìn)行清除,并保存記憶細(xì)胞存入基因庫(kù)中。另外本發(fā)明對(duì)免疫規(guī)則的變異和克隆也是在免疫應(yīng)答模塊的指導(dǎo)下進(jìn)行的。免疫系統(tǒng)運(yùn)作流程用戶首先通過信息采集器收集訓(xùn)練抗原,經(jīng)過預(yù)處理后通過特征提取可以生成B細(xì)胞集組成初始基因庫(kù)。用戶搜索到的網(wǎng)頁(yè)經(jīng)過分詞處理后可以初步表示為抗原網(wǎng)頁(yè),并通過對(duì)不感興趣網(wǎng)頁(yè)進(jìn)行學(xué)習(xí)可以制定免疫規(guī)則,在免疫規(guī)則的指導(dǎo)下,免疫應(yīng)答模塊對(duì)經(jīng)過預(yù)處理的網(wǎng)頁(yè)抗原進(jìn)行特異識(shí)別。根據(jù)本發(fā)明的計(jì)算親和力算法計(jì)算網(wǎng)頁(yè)抗原與B細(xì)胞抗體的親和力從而識(shí)別出"非自體"的抗原。對(duì)親和力高的"非自體"網(wǎng)頁(yè)抗原調(diào)用免疫規(guī)則進(jìn)行清除,并將記憶細(xì)胞保存到基因庫(kù)中。在下次遇到同類網(wǎng)頁(yè)抗原時(shí),可以直接調(diào)用記憶細(xì)胞中記錄的免疫規(guī)則對(duì)網(wǎng)頁(yè)進(jìn)行清除,從而減少應(yīng)答時(shí)間。對(duì)網(wǎng)頁(yè)抗原具有高親和力的抗體可以產(chǎn)生免疫活化和克隆變異,對(duì)免疫規(guī)則進(jìn)行反饋。實(shí)施例2預(yù)處理預(yù)處理步驟可以分為以下幾步(1)通過信息抽取算法從多記錄結(jié)構(gòu)的Web頁(yè)面中抽取各信息記錄。主要是分析網(wǎng)頁(yè)標(biāo)記,提取正文內(nèi)容。(2)對(duì)文本內(nèi)容進(jìn)行分詞處理。這里主要通過選用中科院計(jì)算所耗時(shí)一年研制的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS來實(shí)現(xiàn)分詞處理。(3)構(gòu)造"詞——文本"矩陣。每一文本d都被映像為由一組規(guī)范化正交詞條向量所構(gòu)成的向量空間中的一個(gè)點(diǎn),將文本看作相互獨(dú)立的詞條組(1=(tpt2,...t》,對(duì)于每一詞條ti都根據(jù)其在文本中的重要程度賦以一定的權(quán)值W工。W工這里被定義為ti在文檔中的出現(xiàn)頻率tfi(d)的函數(shù),即Wi(d)二IF(tfi(d))。然后對(duì)所有的特征詞按照其權(quán)值大小進(jìn)行排序,選取前預(yù)定數(shù)目個(gè)最佳特征詞形成特征子集。最后按照每一個(gè)不同的詞對(duì)應(yīng)于矩陣?yán)锏囊恍?,而每一個(gè)文本則對(duì)應(yīng)于矩陣的一列的方法構(gòu)造詞——文本矩陣。(4)在"詞——文本"矩陣建立之后,利用奇異值分解(SingularValueDecomposition:SVD)計(jì)算該矩陣的k_秩近似陣。一方面,消減了原詞——文本矩陣中包含的"噪聲"因素,從而更加凸顯出詞和文本之間的語(yǔ)義關(guān)系另一方面,使得詞、文本向量空間大大縮減,因而可以提高免疫系統(tǒng)的效率。(5)文本信息表示。經(jīng)過奇異值分解后得到詞條組d=(tpt2,...tn),如果將t2....tn看成一個(gè)N維坐標(biāo)中的坐標(biāo)軸,WnW2....Wn就是對(duì)應(yīng)的坐標(biāo)值。這樣由(tpt2,...tn)分解而成的正交詞條矢量就構(gòu)成了一個(gè)文本向量空間,文本則映射為空間中的一個(gè)點(diǎn)。對(duì)于所有文本,都可用此空間中的詞條矢量(、W"t2,W2,...tn,Wn)表示,從而將文本信息的匹配問題轉(zhuǎn)化為向量空間中矢量匹配問題處理。實(shí)施例3算法設(shè)計(jì)和信息反饋基于關(guān)鍵詞匹配的過濾方法建立在關(guān)鍵詞的基礎(chǔ)上,通過加權(quán)、相關(guān)性判斷等控制手段來體現(xiàn)概念因素。它將文本內(nèi)容轉(zhuǎn)換成向量方式,易于數(shù)學(xué)處理,可操作性強(qiáng),執(zhí)行速度快,易于理解。但這種方法受關(guān)鍵詞選取準(zhǔn)確度的限制,并且,它是基于詞間關(guān)系相互獨(dú)立的基本假設(shè)(正交假設(shè)),這在實(shí)際環(huán)境中是很難滿足的。采用潛在語(yǔ)義索引法過濾,過濾精度要高于按關(guān)鍵詞匹配方法進(jìn)行的過濾,可獲得更好的過濾效果。但這種方法采用潛在的語(yǔ)義結(jié)構(gòu),缺乏直觀意義,不便理解,而且潛在語(yǔ)義索引法算法比較復(fù)雜,過濾操作執(zhí)行速度慢,隨著大量新詞語(yǔ)的加入,會(huì)使概念空間上的查詢、過濾性能下降,因而它要求初始的訓(xùn)練集足夠大,也可當(dāng)新詞語(yǔ)太多時(shí)重新進(jìn)行SVD計(jì)算。信息免疫算法依照人們的長(zhǎng)期實(shí)踐經(jīng)驗(yàn),模仿了免疫細(xì)胞對(duì)抗原進(jìn)行免疫的原理,并結(jié)合各種數(shù)學(xué)算法來實(shí)現(xiàn)它的功能。它的最大優(yōu)點(diǎn)是具有很強(qiáng)的自學(xué)習(xí)功能和自適應(yīng)能力,并有一定的容錯(cuò)性和柔韌性,使之在減少人為干預(yù)的情況下,實(shí)現(xiàn)系統(tǒng)的自我更新和完善。信息免疫算法把每個(gè)文檔表示為一個(gè)三維向量,分為網(wǎng)址、標(biāo)題和關(guān)鍵字三部分Vector=〈url,title,key>其中Url=〈wordl,word2,…,wordn〉Title=〈wordl,word2,…,wordn〉Key=〈wordl,word2,…,wordm〉有關(guān)正文文本特征向量表示的數(shù)據(jù)結(jié)構(gòu)如下typedefstructt_term_weight{charterm[MAX_TERM_LEN]:〃特征項(xiàng)floatweight;〃特征項(xiàng)的權(quán)值TF*1DF}t_term_weight;typedefstructt_doc_vsm{t_doc」dcont」d;〃文本在訓(xùn)練集中的唯一標(biāo)識(shí)intterm_num;〃文本向量中所含特征項(xiàng)的數(shù)目t_term_weghtvsm_arr[MAX_VSM_LEN];〃文本的向量數(shù)組}t_doc_vsm;信息免疫算法如下Programmain//主禾呈序{Train(trainingset)〃訓(xùn)練規(guī)則,生成幾類抗體,對(duì)應(yīng)一類抗體就有一系列行為就是一個(gè)規(guī)則Waituntil(atextarrives)Ag〈-converttextintoantigen〃通過分詞,轉(zhuǎn)化為4.3.1中的抗原向量表示K〈-affinity(ag,mc)〃與記憶細(xì)胞進(jìn)行匹配,相符則移除該抗原網(wǎng)頁(yè)IFK=1Agwillberemovedelse11K〈-affinity(ag,be)R=(Con,Par)〃生成二進(jìn)制抗體,見4.3.2C(ag)=(Z畫'*"/(戸W-1),戸2,.)("g))〃抗體的親和力,詳見4.3.2,coni的取值由K決定If(C(ag)>=Ka)MoveagintouseraccessiblestorageStorage〃存入用戶不感興趣緩沖數(shù)據(jù)庫(kù)ElseAllowtexttopassthrough〃網(wǎng)頁(yè)文本直接提交用戶;抗體規(guī)則越多,這里的操作也會(huì)分的越細(xì),這里假設(shè)只有兩個(gè)操作If(userhasgivenfeedbackonag)Update(ag)〃提升與該抗原親和力大于閥值的抗體規(guī)則(規(guī)則clone提升)}在免疫算法中本發(fā)明用到了計(jì)算親和力算法,計(jì)算親和力算法本發(fā)明設(shè)計(jì)如下先計(jì)算網(wǎng)址、標(biāo)題的親和力,即url,title向量,如果親和力大于ka,直接返回;反之進(jìn)一步計(jì)算關(guān)鍵字的親和力;該算法之前把文檔經(jīng)過預(yù)處理,用概念類代表同義詞和近義詞。procedureaffinity(ag,be)〃計(jì)算親禾口力(If(aghasashorterurlfeaturevectorthanbe)Bshort〈_ag.url,Blong〈_bc.urlElseBshort〈_bc.url,Blong〈_ag.urlCo皿t〈—thenumberofwordsinbshortpresentinblongBs_len〈_thelengthofbshort'sfeaturevectorAf〈_coimt/bs_lenIf(Af>=Ka)ReturnAfElseIf(aghasashortertitlefeaturevectorthanbe)Bshort〈_ag.title,Blong〈_bc.titleElseBshort〈_bc.title,Blong〈_ag.titleCo皿t〈—thenumberofwordsinbshortpresentinblongBs_len〈_thelengthofbshort'sfeaturevectorAf〈_coimt/bs_len12If(Af>=Ka)ReturnAfElse〃前面為計(jì)算網(wǎng)址、標(biāo)題的親和力,即url,title向量;后面計(jì)算關(guān)鍵字的親和力如果ag和be含有相同的關(guān)鍵字則按其權(quán)重進(jìn)行比較endifIf(aghasthesamekeyfeaturevectorinbe)J/=J力(Bo-Agim)2〃這里Agim(Be,)表示關(guān)鍵詞tm在文檔Agi(BCj)中的權(quán)重,0《Agim《1ReturnAf}在信息免疫算法中,本發(fā)明在一開始就用到了Train子程序,Train(trainingset)是一個(gè)訓(xùn)練算法,該算法對(duì)樣本免疫庫(kù)中的抗原進(jìn)行訓(xùn)練,生成B細(xì)胞集;抗原已進(jìn)行過分詞處理,在算法中表現(xiàn)為一類訓(xùn)練集合,在這里叫做TE。算法如下ProcedureTrain(trainingset){Foreach(teGTE)AddtitlewordsandkeywordstoappropriatelibraryRemoveKtrandomelementsfromTEandinsertintoMCForeach(mcGMC)If(affinity(mc,te)>Ka)Clones—clone—mutate(mc,te)〃克隆變異生成新抗體Foreach(cloGclones)If(affinity(clo,te)>=affinity(mc,te))BC—BCU{clo}Negachoose(BC)〃否定選擇算法}否定選擇算法否定免疫算法是對(duì)免疫細(xì)胞的成熟過程的模擬,經(jīng)歷耐受的檢測(cè)器模擬成熟的免疫細(xì)胞。ProcedureNegachoose(BC){從BC中隨機(jī)生成大量的侯選檢測(cè)器bc(即免疫細(xì)胞);〃初始化while—個(gè)給定大小的檢測(cè)器集合還沒有被產(chǎn)生do〃耐受Foreach(self)If(affinity(self,bc)>e)〃選擇ThenRemovebefromBC}13克隆變異算法用戶的興趣是會(huì)發(fā)生變化的,有時(shí)用戶對(duì)自己的信息需求模糊不清,或很難選擇準(zhǔn)確的關(guān)鍵詞,以致提交的信息需求不一定準(zhǔn)確,本發(fā)明提供了克隆變異的算法來結(jié)合多個(gè)用戶的信息需求,進(jìn)行交叉變異可以生成新的抗體。Procedureclone—mutate(bcl,bc2){aff—affinity(bcl,bc2)clones—①〃親和力越大克隆的數(shù)目就越多,相應(yīng)變異的就越少;反之則克隆的少變異的多;皿m—clones—aff氺kl皿m—mutate—(1-aff)氺bc,sfeaturevectorlength氺kmFor(I=1;1<=皿m—clones;I++)bcx—acopyofbclFor(j=1;j<=皿m—mutate;j++)〃對(duì)克隆中的隨機(jī)關(guān)鍵詞進(jìn)行替換;p—arandompointinbcx,sfeaturevectorw—arandomwordfromtheappropriategenelibraryreplacewordinbcx,sfeaturevectoratlocationpwithwclones—clonesU{bcx}returnclones}針對(duì)用戶的反饋,要對(duì)規(guī)則進(jìn)行提升,規(guī)則的提升算法系統(tǒng)內(nèi)的規(guī)則克隆變異和系統(tǒng)外的用戶反饋共同決定規(guī)則的變化。ProcedureUpdate(ag){Foreach(bcGBC)If(affinity(ag,be)>Ka)Incrementbe'sstimulationcount〃找出與該抗原親和力最高的抗體,如果該抗體與抗原的親和力高于記憶細(xì)胞與抗原的親和力,則在提升規(guī)則的同時(shí)更新記憶細(xì)胞Bc_best—elementofBCwithhighestaffinitytoag〃系統(tǒng)內(nèi)B細(xì)胞克隆變異BC—BCUclone—mutate(bc_best,ag)Bc_best—elementofBCwithhighestaffinitytoagMc_best—elementofMCwithhighestaffinitytoagIf(affinity(bc_best,ag)>affinity(mc_best,ag))BC—BCU{bc_best}MC—MCU{mc_best}U{bc_best}Foreach(mcGMC)If(affinity(bc_best,mc)>Ka)Decrementmcstimulationcountandaddwordsfromag'sfeaturevectortogenelibraries}通常情況下,通過用戶填寫表單的方式束獲取其信息需求其方法最簡(jiǎn)單、經(jīng)濟(jì),也是現(xiàn)在網(wǎng)絡(luò)信息服務(wù)提供商最常用的一種方式。這種方法的缺點(diǎn)是有時(shí)用戶對(duì)自己的信息需求模糊不清,或很難選擇準(zhǔn)確的關(guān)鍵詞。另外,由于是用戶主動(dòng)填寫需求單,而系統(tǒng)不能主動(dòng)跟蹤用戶的興趣變化,其服務(wù)仍然是被動(dòng)式的。為了解決這些問題,主要有如下方法采用固定文章集了解用戶需求的信息過濾方法;基于示例的用戶信息需求獲取方法;主動(dòng)跟蹤用戶的信息需求;借鑒面向?qū)ο蟪绦蛟O(shè)計(jì)中類樹及生物免疫的思想,先由系統(tǒng)管理員定義類的框架。在本系統(tǒng)中采用的借鑒面向?qū)ο蟪绦蛟O(shè)計(jì)中類樹及生物免疫的思想,用戶可以通過一個(gè)可視化的界面來完成對(duì)自己信息需求內(nèi)容的定義描述。接著系統(tǒng)把用戶的需求描述內(nèi)容轉(zhuǎn)化成為一種內(nèi)部信息需求描述格式,同時(shí)發(fā)給免疫系統(tǒng)完成用戶所需信息的查詢。由于有時(shí)用戶對(duì)自己的信息需求模糊不清,或很難選擇準(zhǔn)確的關(guān)鍵詞,所以提交的信息需求不一定準(zhǔn)確。隨著多個(gè)用戶信息需求的提交,系統(tǒng)對(duì)多個(gè)需求的交叉變異會(huì)生成新的需求。當(dāng)需求與外來信息進(jìn)行匹配后,免疫系統(tǒng)會(huì)對(duì)正確的需求進(jìn)行克隆擴(kuò)增,從而獲取一個(gè)較高質(zhì)量的信息需求文件(Profile)。需求描述格式定義如下UserProfile=0bjectDescrptionl,...,0bjectDescrptionn〃需求整體定義說明,即該需求描述是由若干數(shù)據(jù)對(duì)象的定義描述構(gòu)成ObjectDescriptionj=(ObjiectFieldDefinationj,0bjectDataFilterCondictionj)〃對(duì)各個(gè)數(shù)據(jù)對(duì)象的定義描述細(xì)化,包括數(shù)據(jù)對(duì)象(數(shù)據(jù)表)、數(shù)據(jù)對(duì)象的屬性(所需列)、數(shù)據(jù)對(duì)象包含的數(shù)據(jù)(所需行)的描述說明ObjectFieldDefination=0bjectNamej(fieldjl,...fieldjk)〃具體說明所要求的各數(shù)據(jù)對(duì)象(數(shù)據(jù)表)及其所需的各屬性(字段)0bjectDataFilterCondition=BoolenExpression(fieldjl,…,fieldjk)〃數(shù)據(jù)表中數(shù)據(jù)記錄(行)的過濾條件網(wǎng)絡(luò)中的用戶信息需求是處于動(dòng)態(tài)變化之中,并且潛在需求會(huì)隨著文檔的提供逐漸明確。這就需要網(wǎng)絡(luò)信息過濾系統(tǒng)不斷地從用戶那里直接或間接地獲得反饋信息,并對(duì)用戶模板(Profile)進(jìn)行修改。傳統(tǒng)的方法中,一是利用概率模型進(jìn)行Profle中Term的權(quán)值調(diào)整;二是利用向量空間法修正Profile方向。當(dāng)前,隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)的方法在信息過濾中得到廣泛的應(yīng)用。如Bayes學(xué)習(xí)方法,以及神經(jīng)網(wǎng)絡(luò)方法、決策樹、KNN(KNearestNeighbor),SVM(SupportVectorMachine)方法等,都能提供信息相關(guān)反饋,動(dòng)態(tài)了解用戶的興趣并能跟蹤其興趣的變化,并具有自我學(xué)習(xí)和自我適應(yīng)的機(jī)制。因而,這些技術(shù)在信息過濾理論與實(shí)施中受到廣泛的關(guān)注。在生物免疫系統(tǒng)中也存在反饋的原理。在免疫反饋過程中,T細(xì)胞又細(xì)分為抑制T細(xì)胞(TS)和輔助T細(xì)胞(TH)[8],用于抑制和幫助B細(xì)胞對(duì)某種剌激的反應(yīng)。當(dāng)抗原被抗原提呈細(xì)胞消化后,抗原提呈細(xì)胞將關(guān)于抗原的信息傳遞給輔助T細(xì)胞,分泌IL+(—種白細(xì)胞介素)激活免疫反應(yīng),IL+能剌激B細(xì)胞大量克隆增殖,促進(jìn)反應(yīng)激烈。這個(gè)階段稱為反饋期。當(dāng)B細(xì)胞的數(shù)目大到一定程度時(shí),抑制性T細(xì)胞就會(huì)分泌大量IL-(也是一種白細(xì)胞介素,對(duì)B細(xì)胞的克隆增殖具有抑制作用),進(jìn)而抑制免疫反應(yīng),使之趨于平靜,這個(gè)階段稱為抑制期。免疫反饋的這些機(jī)理,能促進(jìn)免疫系統(tǒng)對(duì)抗原的快速應(yīng)答,并同時(shí)保持免疫系統(tǒng)的相對(duì)穩(wěn)定性。免疫反饋的原理可以幫我們完善信息反饋技術(shù)。進(jìn)化式信息需求定義文件(E-Profile)中每個(gè)E-Profile包含多個(gè)信息需求的描述(B-Profile)。它們從不同角度反映用戶的信息需求,用戶可對(duì)過濾后的文檔集中按照與其信息需求的相關(guān)程度按5個(gè)級(jí)別打分,最低為0,最高為1。系統(tǒng)通過用戶的打分來獲得反饋信息;通過隱式學(xué)習(xí)策略、獎(jiǎng)懲策略、淘汰策略等使每個(gè)B-Profile在每次反饋后都向用戶的實(shí)際信息需求作一次小小的移動(dòng),由此對(duì)它們的信任度不斷更新。當(dāng)用戶提供的反饋次數(shù)達(dá)到一定值后,信任度低的B-Profile即被淘汰,信任度高的可進(jìn)行克隆變異。這樣,通過多個(gè)個(gè)體的競(jìng)爭(zhēng)和合作,經(jīng)過類似于生物界中自然選擇的過程,使系統(tǒng)性能達(dá)到最優(yōu)。系統(tǒng)的反饋主要是通過協(xié)同剌激來實(shí)現(xiàn),主要來自人為的協(xié)同剌激。對(duì)于一個(gè)模型是否準(zhǔn)確地預(yù)測(cè)了數(shù)據(jù)或挖掘了信息,是需要一定的反饋和評(píng)估函數(shù)的,有了反饋數(shù)據(jù)可以對(duì)模型的參數(shù)進(jìn)行動(dòng)態(tài)的調(diào)整,使得模型能夠既不過度擬合數(shù)據(jù),又不模糊處理數(shù)據(jù)。對(duì)于信息免疫系統(tǒng)的反饋數(shù)據(jù)主要是通過對(duì)系統(tǒng)數(shù)據(jù)的監(jiān)測(cè)和人為的反饋。總的來說,系統(tǒng)數(shù)據(jù)的監(jiān)測(cè)主要是對(duì)系統(tǒng)中一些有用參數(shù)的監(jiān)測(cè)來調(diào)整系統(tǒng),使之處在一個(gè)平衡而高效的狀態(tài)。比如,當(dāng)在一個(gè)限定的時(shí)間段中一些類似或者同一個(gè)查詢頻繁發(fā)生,而到達(dá)了一定的濃度時(shí),系統(tǒng)就應(yīng)該使得響應(yīng)的B細(xì)胞進(jìn)行變異、遺傳和克隆,來應(yīng)付這些查詢,使得對(duì)于這些查詢的響應(yīng)更高效,而一旦這些查詢不再頻繁了,系統(tǒng)就會(huì)通知TH細(xì)胞來對(duì)這些活躍B細(xì)胞進(jìn)行抑制,減少這些B細(xì)胞的數(shù)量,同時(shí)使一些到期的B細(xì)胞進(jìn)行代謝和死亡,使另一些激活率高的B細(xì)胞加入免疫記憶細(xì)胞行列。同時(shí),新生成優(yōu)秀的新代B細(xì)胞,以保持系統(tǒng)中B細(xì)胞的一定濃度。而人為的協(xié)同剌激主要是用來對(duì)系統(tǒng)數(shù)據(jù)分類的一種判斷,或是對(duì)于查詢的進(jìn)一步精確化。系統(tǒng)在自動(dòng)分類過程中就需要人為的協(xié)同剌激來進(jìn)行確認(rèn)和對(duì)系統(tǒng)進(jìn)行調(diào)整。用戶可以通過一個(gè)可視化的界面來對(duì)系統(tǒng)數(shù)據(jù)進(jìn)行反饋。實(shí)施例4發(fā)明人在Windows2000Server環(huán)境下實(shí)現(xiàn)該系統(tǒng),采用VB.net作為主要編程工具,通過IIS發(fā)布ASP網(wǎng)頁(yè)文件,DBMS采用SQLServer2000,用于保存詞典、文檔索引庫(kù)、類別詞及基因庫(kù)等信息。由于系統(tǒng)需要使用搜索引擎,為了提高系統(tǒng)的查全率和查準(zhǔn)率,在實(shí)際應(yīng)用中應(yīng)該采用元搜索引擎進(jìn)行搜索,不過由于時(shí)間和精力的原因,發(fā)明人在實(shí)驗(yàn)中采用自己架設(shè)網(wǎng)站借用百度搜索引擎進(jìn)行測(cè)試。測(cè)試文檔取自中國(guó)新聞社網(wǎng)站。該網(wǎng)站每天產(chǎn)生200字以上的各類新聞180條左右,取IOOO條新聞作為學(xué)習(xí)樣本,再取其后IOOO條作為測(cè)試數(shù)據(jù)。網(wǎng)頁(yè)由軟件自動(dòng)獲取,并抽取其中的新聞主體,刪除標(biāo)簽等無關(guān)數(shù)據(jù)后進(jìn)行分詞處理,再進(jìn)行特征選擇,構(gòu)造基因16庫(kù)。在學(xué)習(xí)階段,由用戶提供比較反感的網(wǎng)頁(yè),系統(tǒng)自動(dòng)下載該網(wǎng)頁(yè),抽取其中的文本,分詞后消除停用詞,進(jìn)行特征選擇。經(jīng)過特征選擇后,去除文檔中高達(dá)98%的無效詞條。這里實(shí)驗(yàn)采用改進(jìn)的基于詞頻統(tǒng)計(jì)的方法計(jì)算詞條的權(quán)重,計(jì)算式為<formula>formulaseeoriginaldocumentpage17</formula>(6-1)式中Wt,d為詞條t在文檔d中的權(quán)重;lt是詞條t的字?jǐn)?shù);ft,d是詞條t在文檔d中出現(xiàn)的次數(shù);ld是文檔d的字?jǐn)?shù)。通過對(duì)中國(guó)新聞社大量網(wǎng)頁(yè)的統(tǒng)計(jì)表明,該方法比TF-IDF方法更簡(jiǎn)潔、高效?;谛畔⒚庖咚惴軜?gòu)的搜索引擎主要分為三層架構(gòu),實(shí)現(xiàn)框架見圖3所示。關(guān)于親和力閾值的確定,本系統(tǒng)先在系統(tǒng)初始狀態(tài)給定一個(gè)初始閾值零,在經(jīng)過對(duì)正例(用戶感興趣的網(wǎng)頁(yè)信息)、反例(用戶不感興趣的網(wǎng)頁(yè)信息)與初始用戶不感興趣信息的親和力計(jì)算后,用正例親和力的均值和反例親和力的均值的中點(diǎn)作為新的閾值??梢园凑障旅娴墓接?jì)算反饋閾值<formula>formulaseeoriginaldocumentpage17</formula>其中SimPi、Simrij分別為第i個(gè)正例,第j個(gè)反例與基因庫(kù)中用戶不感興趣的信息的親和力;m、n分別為正例和反例的數(shù)量。在一系列無閾值反饋和有閾值反饋的對(duì)比實(shí)驗(yàn)中,有閾值反饋的正確率和召回率都要優(yōu)于無閾值反饋的結(jié)果。見下表。<table>tableseeoriginaldocumentpage17</column></row><table>從上表可以看出,進(jìn)化方法所提取的規(guī)則數(shù)較多,但準(zhǔn)確率相對(duì)較低;信息免疫算法所提取的規(guī)則數(shù)較少,但準(zhǔn)確率較高。這在一定程度上說明,信息免疫算法相對(duì)于進(jìn)化方法而言較適于求解一些精練的規(guī)則。在進(jìn)化算法和信息免疫算法的對(duì)比方面,二者在求解結(jié)果方面的差異不少,后者的計(jì)算速度較快。這主要是因?yàn)樾畔⒚庖咚惴梢詼p弱進(jìn)化算法在計(jì)算過程中出現(xiàn)的退化現(xiàn)象,有利于群體的相對(duì)穩(wěn)定,從而促進(jìn)演化過程。信息免疫算法比進(jìn)化算法所搜索到的網(wǎng)頁(yè)數(shù)量要少很多,會(huì)不會(huì)造成查全率較低呢?答案是否定的,因?yàn)槲覀兊乃阉魇腔谙嗤乃阉饕?,只不過信息免疫算法有個(gè)基于記憶細(xì)胞的規(guī)則可以很大的降低搜索到的網(wǎng)頁(yè)數(shù)量。我們的記憶細(xì)胞里記憶的是用戶感興趣的網(wǎng)頁(yè)的基本信息,包括網(wǎng)頁(yè)的網(wǎng)址,系統(tǒng)對(duì)該網(wǎng)址的首頁(yè)進(jìn)行免疫過濾,這主要是考慮,首頁(yè)主要存在的是該目的網(wǎng)頁(yè)的簡(jiǎn)介或?qū)Ш叫畔?,不具有?shí)用價(jià)值,系統(tǒng)可以予以過濾。實(shí)驗(yàn)過程中由于要過濾的文本比較多,而在預(yù)處理過程中對(duì)關(guān)鍵詞的權(quán)值是按詞頻統(tǒng)計(jì)的,如何快速統(tǒng)計(jì)特征詞在文檔中的出現(xiàn)次數(shù),成為影響系統(tǒng)過濾器效率的一個(gè)重要因素。為了加快統(tǒng)計(jì)速度,本發(fā)明以每個(gè)特征詞的首字為索引,將特征詞散列在6763個(gè)漢字組成的散列表中,對(duì)于首字相同的特征詞,本發(fā)明用鏈表將它們組織起來。如圖4所示。在圖4中特征詞節(jié)點(diǎn)可以記錄該詞在文檔中出現(xiàn)的次數(shù),這樣極大地提高了統(tǒng)計(jì)速度。圖5是程序運(yùn)行的部分界面。同樣的搜索關(guān)鍵詞"計(jì)算機(jī)免疫"在百度的搜索結(jié)果見圖6。通過比較我們可以看出對(duì)相同關(guān)鍵詞的檢索本發(fā)明的免疫搜索獲得了比百度搜索要少的多的記錄,運(yùn)行時(shí)間也和百度檢索相當(dāng)。下面是程序中的部分代碼。/*------------創(chuàng)建用于保存全站索引的數(shù)據(jù)表-----------*/CREATETABLE—detail—(—ID—INTNOTNULLAUTO_INCREMENTPRIMARYKEY,—title—VARCHAR(100)NOTNULL,—keyword—TEXTNOTNULL,—filename—VARCHAR(250)NOTNULL,—dtime—DATETMENOTNULL—url—varchar(100)NOTNULL,);〃下面是從收集到的網(wǎng)頁(yè)詳細(xì)信息表detail中刪除滿足規(guī)定條件的網(wǎng)站記錄;〈%by=request(〃by")word=request(〃word")pn=request(〃pn〃)ifby=〃url"thensql=〃select*fromdetailwhereurllike'%〃&word&〃%'〃6ls6sql=,endif%>〈%deleteifdelete〈〉"co皿.executeresponse,writeselect*fromdetailwheretitlelike'%〃&word&〃%'delete")andsession(〃lastdeleted"deletefromdetailwhereidthen〈bigXbigXfontcolor為"&delete&〃的網(wǎng)站記錄!〈/font>〈/big>〈/bigsession(〃lastdeleted")=deleteendif%>=〃&deletered'>已刪除一條編號(hào)圖7是用戶反饋的系統(tǒng)界面。用戶反饋的信息會(huì)直接被插入過濾表單中,并且被用戶反饋的關(guān)鍵詞和標(biāo)題信息都會(huì)引起相關(guān)免疫規(guī)則的更新。過濾表單的生成#創(chuàng)建時(shí)間2005年9月13日17:58#最后更新時(shí)間2005年9月13日17:58#DROPTABLEIFEXISTS—banlist—;CREATETABLE—banlist—(—icTint(ll)墜ignedNOTNULLauto_increment,—bankey—varchar(lOO)NOTNULL,—reason—varchar(100)NOT亂L,—title—varchar(100)NOTNULL,—url—varchar(100)NOTNULL,PRIMARYKEY(—icf))TYPE=MyISAMAUTO_INCREMENT=9;##導(dǎo)出表中的數(shù)據(jù)—banlist—#INSERTINTO—banlist—(—idcom','黃色網(wǎng)站');INSERTINTO—banlist—Cidnet','黃色網(wǎng)站');INSERTINTO—banlist—Cicfcom','黃色網(wǎng)站');INSERTINTO—banlist—Cicf測(cè)試');INSERTINTO—banlist—Cicf危險(xiǎn)網(wǎng)站');INSERTINTO—banlist—Cicf危險(xiǎn)網(wǎng)站');INSERTINTO—banlist—icf,—bankey—,—reason—)VALUES(7,'ad.fr.doubleclick.net','危險(xiǎn)網(wǎng)站');INSERTINTO—banlist—(—icf,—bankey—,—reason—)VALUES(8,'ad08.focalink.com','危險(xiǎn)網(wǎng)站');這里是初始化的過濾表單的生成,用戶反饋可以對(duì)該表單進(jìn)行更新。本實(shí)驗(yàn)主要通過把預(yù)先訓(xùn)練好的用戶不感興趣的網(wǎng)頁(yè)特征集建成數(shù)據(jù)庫(kù),然后與搜索到的網(wǎng)頁(yè)特征集進(jìn)行比較,主要是進(jìn)行網(wǎng)址、標(biāo)題和關(guān)鍵字的親和力計(jì)算。實(shí)驗(yàn)中只對(duì)親和力等于1的網(wǎng)頁(yè)進(jìn)行過濾。發(fā)明人在實(shí)驗(yàn)中也針對(duì)當(dāng)前流行的過濾規(guī)則建立過濾數(shù)據(jù)庫(kù)表單,對(duì)網(wǎng)頁(yè)進(jìn)行雙重過濾,成功的提高了搜索效率。bankey,reason)VALUES(1,'www.xxxx.'bankey','reason')VALUES(2,'aisa-girl.bankey,reason)VALUES(3,'www.mmgirls.bankey^,reason)VALUES(4,'sss.com','bankey^,reason)VALUES(5,'qq520.com','bankey^,^reasorT)VALUES(6,'sexhu.com','19用戶反饋系統(tǒng)采用了系統(tǒng)在過濾中通過對(duì)親和力等于1的規(guī)則進(jìn)行克隆更新和用戶通過系統(tǒng)界面進(jìn)行反饋兩種方法進(jìn)行反饋的方式,即使不通過用戶反饋系統(tǒng)也可以進(jìn)行進(jìn)化,減輕了用戶的工作。權(quán)利要求一種免疫系統(tǒng)在搜索引擎中的應(yīng)用。2.如權(quán)利要求1所述的免疫系統(tǒng)在搜索引擎中的應(yīng)用方法,其采用如下步驟來實(shí)現(xiàn)問題定義,把信息檢索中存在的問題,用免疫系統(tǒng)的免疫思想來解決,把檢索系統(tǒng)中的概念和操作同免疫系統(tǒng)中的概念和操作對(duì)應(yīng)起來,確定免疫系統(tǒng)的變量、常量、函數(shù)和參數(shù);信息預(yù)處理,用搜索引擎對(duì)信息進(jìn)行預(yù)處理,因其面向的對(duì)象都是半結(jié)構(gòu)化的網(wǎng)頁(yè),對(duì)這些網(wǎng)頁(yè)信息進(jìn)行免疫處理之前,首先需要對(duì)這些網(wǎng)頁(yè)進(jìn)行預(yù)處理,主要包括特征提取、分詞和網(wǎng)頁(yè)特征化表示;設(shè)計(jì)信息免疫算法,將所描述的問題和要使用的免疫原理結(jié)合起來,設(shè)計(jì)模型、過程和算法,算法中包括親和力計(jì)算、抗原樣本訓(xùn)練、克隆變異和否定選擇;系統(tǒng)設(shè)計(jì),對(duì)預(yù)處理后的網(wǎng)頁(yè)信息進(jìn)行訓(xùn)練,生成免疫規(guī)則,在免疫規(guī)則的指導(dǎo)下,利用信息免疫算法對(duì)搜索結(jié)果進(jìn)行免疫過濾,得到用戶感興趣的搜索結(jié)果。全文摘要本發(fā)明主要把免疫系統(tǒng)的信息處理機(jī)制引入信息檢索系統(tǒng)中,利用免疫系統(tǒng)的學(xué)習(xí)、記憶和自我識(shí)別機(jī)理來解決信息檢索中存在的搜索結(jié)果過多的問題。通過實(shí)驗(yàn)測(cè)試,取得了較好的效果。文檔編號(hào)G06N3/00GK101751409SQ20081020360公開日2010年6月23日申請(qǐng)日期2008年11月28日優(yōu)先權(quán)日2008年11月28日發(fā)明者趙孟德申請(qǐng)人:上海電機(jī)學(xué)院