專利名稱:以使用者知識(shí)為基礎(chǔ)的信息分類系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明提供一計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng),尤指一種網(wǎng)絡(luò)使用者能依據(jù)接收到的信息,更新信息分類及過濾特性的計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)。
背景技術(shù):
在現(xiàn)今的網(wǎng)絡(luò)環(huán)境中,有很多軟件或硬件技術(shù)可用來(lái)分類及過濾信息,尤其對(duì)于電子郵件(電子郵件)的分類及過濾更是受到重視。電子郵件中有時(shí)會(huì)包含有一些惡性的指令,這些惡性的指令我們通常稱的為“蟲”(worm)或是“病毒”(virus)。而用來(lái)檢測(cè)這些蟲、病毒或其他惡性的指令的軟件則被成為“防毒軟件”。我們常用“病毒”這個(gè)名詞來(lái)代表所有種類藏在文件中的惡性指令,以下我們使用“病毒”這個(gè)名詞時(shí)皆以此種解釋為依據(jù)。
在此請(qǐng)參考Chen等人提出的美國(guó)專利第5,832,208號(hào),該專利公開一種現(xiàn)今常用于網(wǎng)絡(luò)中的信息過濾器。Chen等人公開置于信息服務(wù)器上的防毒軟件,該防毒軟件在接到一信息時(shí)會(huì)先對(duì)其進(jìn)行掃瞄,之后才會(huì)處理該信息。假如掃瞄發(fā)現(xiàn)一個(gè)電子郵件附加檔中具有病毒,則有數(shù)種處理方式可能被執(zhí)行,如馬上刪除該被病毒感染的附加檔;或?qū)⒃撐募由弦痪嫫鞓?biāo)后,送至收信人,以使該收信人可在開啟該被病毒感染的附加檔前得到預(yù)先的警告。
請(qǐng)參閱圖1,圖1為公知技術(shù)一使用服務(wù)器端信息過濾器的區(qū)域網(wǎng)絡(luò)10的簡(jiǎn)單方塊圖。一區(qū)域網(wǎng)絡(luò)10包含有一服務(wù)器12及多個(gè)客戶計(jì)算機(jī)14,客戶計(jì)算機(jī)14使用服務(wù)器12以接收及傳送電子郵件。因?yàn)閰^(qū)域網(wǎng)絡(luò)10中所有的電子郵件皆須經(jīng)過服務(wù)器12,因此服務(wù)器12是安裝一防毒掃描器16的合理位置。當(dāng)電子郵件從網(wǎng)際網(wǎng)絡(luò)20送至區(qū)域網(wǎng)絡(luò)10時(shí),它們先被送至服務(wù)器12,由防毒掃描器16進(jìn)行掃瞄。若該電子郵件未被感染,則可被傳送至它們位于區(qū)域網(wǎng)絡(luò)10中的目的地客戶計(jì)算機(jī)14;若該電子郵件被發(fā)現(xiàn)已受感染,則服務(wù)器12則有數(shù)種過濾技術(shù)可以選擇,用來(lái)處理該已受感染的電子郵件。一種較激烈的方式就是直接刪除該已受感染的電子郵件,并通知該電子郵件的目的地客戶計(jì)算機(jī)14“有一個(gè)具病毒的電子郵件已被服務(wù)器刪除”;或者,也可以僅移除受感染的附加檔,電子郵件中其他未受感染的部分則可送至目的地客戶計(jì)算機(jī);還有一種較不積極的方式,就是在被感染的電子郵件插入一首標(biāo),表示該電子郵件中可能具有病毒,客戶計(jì)算機(jī)14的電子郵件程序14a必須能尋找這類的警告性首標(biāo),以提供使用者適當(dāng)?shù)木嫘畔ⅰ?br>
圖1所示的配置方式可有多種不同的變化,在此不多做敘述。然而,有一個(gè)共通點(diǎn)就是,不論防毒掃描器16安裝在哪里,皆需要用到一病毒數(shù)據(jù)庫(kù)16a,病毒數(shù)據(jù)庫(kù)16a包含有多數(shù)個(gè)病毒簽章,其中每一個(gè)病毒簽章皆可識(shí)別單一個(gè)流通的病毒(亦即該病毒在網(wǎng)際網(wǎng)絡(luò)20中流通著)。因此防毒掃描器16可以確認(rèn)電子郵件的附加檔中是否帶有病毒。每一個(gè)病毒簽章必須能夠準(zhǔn)確的識(shí)別出其所對(duì)應(yīng)到的單一病毒,以將錯(cuò)誤的掃瞄減至最少。病毒數(shù)據(jù)庫(kù)16a與防毒掃描器16通常都是緊密的相關(guān)聯(lián)的,是在一個(gè)由防毒掃描器16的制造者所決定的所有權(quán)的形式。換言之,不論是服務(wù)器12的管理者或是客戶計(jì)算機(jī)14的使用者,皆無(wú)法編輯病毒數(shù)據(jù)庫(kù)16a。如計(jì)算機(jī)使用者所熟知,不斷有新病毒出現(xiàn)在計(jì)算機(jī)世界中,因此必須定期的更新該病毒數(shù)據(jù)庫(kù)16a。通常更新的方式都是服務(wù)器12經(jīng)由網(wǎng)際網(wǎng)絡(luò)20與防毒掃描器制造商22連線,并下載最新版本病毒數(shù)據(jù)庫(kù)22a,此最新版本病毒數(shù)據(jù)庫(kù)22a由防毒掃描器制造商22負(fù)責(zé)更新與提供。最新版本病毒數(shù)據(jù)庫(kù)22a被用來(lái)更新(或補(bǔ)強(qiáng))病毒數(shù)據(jù)庫(kù)16a。防毒掃描器制造商22的員工負(fù)責(zé)搜集、分析流通的病毒,并找出可識(shí)別出每個(gè)新的病毒的新的病毒簽章,這些新的病毒簽章就被加到最新版本病毒數(shù)據(jù)庫(kù)22a之中。
上述的方式并不是沒有缺點(diǎn),請(qǐng)考慮以下情形一個(gè)所謂的黑客24持續(xù)研發(fā)新的病毒,并且大量寄送剛研發(fā)出的新病毒24a到該黑客可以知道的所有電子郵件位址。由于新病毒24a剛被制造出來(lái),不論是服務(wù)器12的病毒數(shù)據(jù)庫(kù)16a或是防毒掃描器制造商22的最新版本病毒數(shù)據(jù)庫(kù)22a都還沒有相對(duì)應(yīng)的病毒簽章可以識(shí)別出新病毒24a?;蛟S要經(jīng)過數(shù)天或數(shù)周的時(shí)間,防毒掃描器制造商22的員工才會(huì)收到新病毒24a的樣本,才有辦法更新最新版本病毒數(shù)據(jù)庫(kù)22a,或許還要更多的時(shí)間,服務(wù)器12的管理者才會(huì)下載這更新過的最新版本病毒數(shù)據(jù)庫(kù)22a,并更新自己的病毒數(shù)據(jù)庫(kù)16a。這已經(jīng)提供新病毒24a充裕的時(shí)間去感染服務(wù)器12的客戶計(jì)算機(jī)14。更糟的是,被感染的客戶計(jì)算機(jī)14無(wú)法自動(dòng)通知該防毒掃描器16新的病毒已被發(fā)現(xiàn)。后續(xù)包含新病毒24a的郵件仍舊可以輕易地通過防毒掃描器16a,去感染另一個(gè)客戶計(jì)算機(jī)14,即使已經(jīng)有使用者知道新病毒24a的存在。
另一種需要被過濾電子郵件信息的就是所謂的“濫發(fā)”。濫發(fā)是不請(qǐng)自來(lái)的郵件,通常由一自動(dòng)系統(tǒng)大量的送給數(shù)以千計(jì)的接收者,有些帳號(hào)中,濫發(fā)可以占掉所有電子郵件信息的百分之六十。除了擾人之外,濫發(fā)亦可具有主動(dòng)的破壞性,因?yàn)樗梢允闺娮余]件帳號(hào)的數(shù)據(jù)儲(chǔ)存到達(dá)極限,因?yàn)榭臻g已被濫發(fā)所占據(jù),此時(shí)即可導(dǎo)致有用的信件遺失。雖然理論上是可行的,但是因?yàn)橐粉櫝鰹E發(fā)常是一件繁重的工作,所以防毒掃描器制造商22通常不會(huì)利用最新版本病毒數(shù)據(jù)庫(kù)22a及病毒數(shù)據(jù)庫(kù)16a來(lái)識(shí)別出濫發(fā)。故即使有防毒掃描器16的存在,濫發(fā)依舊可以自由的從網(wǎng)際網(wǎng)絡(luò)20送至客戶計(jì)算機(jī)14。
在此請(qǐng)參考Buskirk等人提出的美國(guó)專利第6,424,997號(hào),該專利公開一以機(jī)器學(xué)習(xí)為基礎(chǔ)的電子郵件系統(tǒng)。該系統(tǒng)使用一分類器,用來(lái)分類接收的信息,并依據(jù)信息被分類成的類別來(lái)對(duì)該信息執(zhí)行不同的操作。請(qǐng)參閱圖2,圖2為公知技術(shù)一分類器的簡(jiǎn)單方塊圖。分類器30藉由對(duì)應(yīng)n種類別中的每一類別產(chǎn)生一信任指數(shù)32,將一信息數(shù)據(jù)31分類為n種類別的其中一種,亦即得到最高信任指數(shù)的類別即為該信息被分類的類別。分類器30內(nèi)的運(yùn)作為熟知技術(shù)者所了解,在此不做贅述。
Buskirk等人提出的美國(guó)專利第6,424,997號(hào),公開了機(jī)器學(xué)習(xí)分類的一些概念;John M.Patger提出的美國(guó)專利第6,003,027號(hào),公開了在分類系統(tǒng)中,決定信任指數(shù)的方式;Ranjit Desai提出的美國(guó)專利第6,027,904號(hào),公開了類似影像分類的影像恢復(fù)方式;John M.Patger提出的美國(guó)專利第5,943,670號(hào),公開一物件的最佳類別為一已存在類別的組合的概念。以上只是眾多現(xiàn)今使用技術(shù)中的幾種??偫▉?lái)說,幾乎所有的技術(shù)都是使用定義類別的樣本欄來(lái)執(zhí)行分類。因此,分類器30包含有一類別數(shù)據(jù)庫(kù)33,類別數(shù)據(jù)庫(kù)33分成n個(gè)子數(shù)據(jù)庫(kù)34a-34n,以定義n個(gè)類別。第一子數(shù)據(jù)庫(kù)34a包含有多個(gè)樣本欄35a,定義了該一第一類別的主要特征;同樣地,第n子數(shù)據(jù)庫(kù)34n包含有多個(gè)樣本欄35n,定義了一第n類別的主要特征。藉由選擇最佳的樣本欄35a-35n來(lái)定義相對(duì)的類別,并依據(jù)樣本欄35a-35n來(lái)建立分類的規(guī)則,以增加樣本欄的方式來(lái)實(shí)現(xiàn)機(jī)器的學(xué)習(xí)的目的。通常,有越多的樣本欄35a-35n,就會(huì)有更好的分類規(guī)則,且分類器30可做出更正確的分類。在此我們必須了解的是樣本欄35a-35n的會(huì)依分類器的不同有而有不同的格式。
使用于先前技術(shù)的分類器30并不是沒有任何的問題。實(shí)際上,類別數(shù)據(jù)庫(kù)33通常會(huì)具有一種所有權(quán)的形式,因此增加或改變樣本欄是無(wú)法實(shí)行的。除非是一個(gè)受過訓(xùn)練的使用者,使用具有所有權(quán)的軟件,且具有特殊的存取權(quán)限,才可更動(dòng)類別數(shù)據(jù)庫(kù)33。沒有一機(jī)制可以使一個(gè)平常的網(wǎng)絡(luò)使用者提供數(shù)據(jù)作為類別數(shù)據(jù)庫(kù)33中的樣本欄35a-35n。因此網(wǎng)絡(luò)上很多可以幫助信息分類的知識(shí)并沒有被利用到。
發(fā)明內(nèi)容
因此本發(fā)明的主要目的在于提供一種以以使用者知識(shí)交流為基礎(chǔ)的信息分類及自我改善信息傳送系統(tǒng),以解決上述公知信息分類系統(tǒng)的問題。
根據(jù)本發(fā)明的權(quán)利要求范圍,公開一種方法及相關(guān)的系統(tǒng),用來(lái)分類及過濾一計(jì)算機(jī)網(wǎng)絡(luò)中的信息。該計(jì)算機(jī)網(wǎng)絡(luò)包含有一第一計(jì)算機(jī);多個(gè)第二計(jì)算機(jī),以網(wǎng)絡(luò)連接的方式與該第一計(jì)算機(jī)相互通信。該方法包含有提供該第一計(jì)算機(jī)一分類器,該分類器可對(duì)一信息指定一分類信任指數(shù),該信息對(duì)應(yīng)于至少一類別;提供該第一計(jì)算機(jī)一類別數(shù)據(jù)庫(kù),該類別數(shù)據(jù)庫(kù)包含有對(duì)應(yīng)于每一類別的類別子數(shù)據(jù)庫(kù),其中該分類器使用該類別數(shù)據(jù)庫(kù)指定該分類信任指數(shù);提供每一個(gè)第二計(jì)算機(jī)一傳送模塊,該傳送模塊可從該第二計(jì)算機(jī)傳送一信息至該第一計(jì)算機(jī),并將該信息關(guān)聯(lián)到該類別數(shù)據(jù)庫(kù)中至少一類別,以及將該信息關(guān)聯(lián)到一使用者信息。開始時(shí),一第一信息被任何一個(gè)第二計(jì)算機(jī)接收到 利用接收到該第一信息的第二計(jì)算機(jī)的傳送模塊傳送一第二信息至該第一計(jì)算機(jī),該第二信息的內(nèi)容根據(jù)該第一信息的內(nèi)容決定,該第二信息被關(guān)聯(lián)到一第一類別及該第二計(jì)算機(jī)的使用者信息以及依據(jù)該第二信息的內(nèi)容及該第二計(jì)算機(jī)的使用者信息變更該類別數(shù)據(jù)庫(kù)中一第一類別子數(shù)據(jù)庫(kù),其中該第一類別子數(shù)據(jù)庫(kù)對(duì)應(yīng)于該第一類別。該第一計(jì)算機(jī)收到一第三信息,利用該分類器,依據(jù)該變更過的第一類別子數(shù)據(jù)庫(kù),取得該第三信息對(duì)應(yīng)于第一類別的第一分類信任指數(shù),最后,依據(jù)該第一分類信任指數(shù),對(duì)該第三信息執(zhí)行一過濾技術(shù)。
本發(fā)明的一個(gè)優(yōu)點(diǎn)在于,它使得一位于任一第二計(jì)算機(jī)的使用者可以傳送一信息至該第一計(jì)算機(jī),并且關(guān)聯(lián)該信息使其成為一特定類別的范例。該第一計(jì)算機(jī)利用該分類器,對(duì)送入的信息指定該信息屬于某一特定類別的信任等級(jí)。藉由使第二計(jì)算機(jī)具有增加該類別數(shù)據(jù)庫(kù)的能力,該第一計(jì)算機(jī)便可以學(xué)習(xí)新的類別,并辨識(shí)送入信息是否包含有新的類別。簡(jiǎn)言之,第二計(jì)算機(jī)使用者的知識(shí)可以用來(lái)辨識(shí)并且濾除送入的信息。
圖1為公知技術(shù)一使用服務(wù)器端信息過濾器的區(qū)域網(wǎng)絡(luò)網(wǎng)絡(luò)10的簡(jiǎn)單方塊圖。
圖2為公知技術(shù)一分類器30的簡(jiǎn)單方塊圖。
圖3為本發(fā)明第一實(shí)施例的區(qū)域網(wǎng)絡(luò)40的簡(jiǎn)單方塊圖。
圖4為本發(fā)明第二實(shí)施例的區(qū)域網(wǎng)絡(luò)80的簡(jiǎn)單方塊圖。
圖5為本發(fā)明第三實(shí)施例的區(qū)域網(wǎng)絡(luò)120的簡(jiǎn)單方塊6為本發(fā)明第四實(shí)施例的區(qū)域網(wǎng)絡(luò)160的簡(jiǎn)單方塊圖。
圖7為本發(fā)明更改一類別子數(shù)據(jù)庫(kù)的方法的流程圖。
附圖符號(hào)說明10、40、80、120、160區(qū)域網(wǎng)絡(luò)12 服務(wù)器14、140a-140j、180a-180j客戶計(jì)算機(jī)14a 電子郵件程序16 防毒掃描器16a 病毒數(shù)據(jù)庫(kù)20、70、110、150、190 網(wǎng)際網(wǎng)絡(luò)22 防毒掃描器制造商22a 最新版本病毒數(shù)據(jù)庫(kù)24 黑客24a 新病毒30、53、93、133、173分類器31 信息數(shù)據(jù)32、56、56a、56b、56c、56d、信任指數(shù)58、58a、58b、96a、96b、96c33、54、94、134、174類別數(shù)據(jù)庫(kù)34a-34n 子數(shù)據(jù)庫(kù)
35a-35n 樣本欄42、82網(wǎng)絡(luò)連接50、90第一計(jì)算機(jī)51、61中央處理單元52、62程序代碼54a、94a 病毒子數(shù)據(jù)庫(kù)55、65、95、130、170 信息服務(wù)器57、97信息過濾器57a、97a、301 閾值57b 通知信息60a-60n、100a、100b 第二計(jì)算機(jī)63、103、142、182 傳送模塊63a、105、142a、182a 更新信息63b 使用者信息64、104 信息讀取程序74、75、111、151、191 送入信息74a、75a、105a、111a、115a主體部74b、74c 影像附加檔74d、75b、105c、111c 可執(zhí)行附加檔94b、134b、174b 濫發(fā)子數(shù)據(jù)庫(kù)95a 暫存的信息96病毒信任指數(shù)98、206a、207a濫發(fā)信任指數(shù)103b 使用者介面105b、111b超文件標(biāo)示語(yǔ)言附加檔105x、105y、105z 首標(biāo)133a、173a測(cè)試欄134a 電子報(bào)子數(shù)據(jù)庫(kù)142b、182b、404 使用者識(shí)別碼200、201、200a、201a 病毒樣本欄202、202a、202b、204、205、 濫發(fā)樣本欄206、207203電子報(bào)樣本欄203a、204a、205a 投票數(shù)203b、204b、205b、403a、403b、 使用者名單403c300a、300b 投票閾值400使用者信任數(shù)據(jù)庫(kù)401a-401c 信任等級(jí)402a-402c 信任值具體實(shí)施方式
請(qǐng)參閱圖3。圖3為本發(fā)明第一實(shí)施例的區(qū)域網(wǎng)絡(luò)40的簡(jiǎn)單方塊圖。區(qū)域網(wǎng)絡(luò)40包含有一第一計(jì)算機(jī)50;多個(gè)第二計(jì)算機(jī)60a-60n,經(jīng)由一網(wǎng)絡(luò)連接42與第一計(jì)算機(jī)50相互通信。在此為了簡(jiǎn)單明了,只有第二計(jì)算機(jī)60a的內(nèi)部構(gòu)造被顯示出來(lái),實(shí)際上所有的第二計(jì)算機(jī)60a-60n皆具有如第二計(jì)算機(jī)60a的內(nèi)部構(gòu)造。計(jì)算機(jī)間的網(wǎng)絡(luò)連接(即網(wǎng)絡(luò)連接42)是公知技術(shù)者所熟知,因此在此不另說明。需要注意的是,配合本發(fā)明,網(wǎng)絡(luò)連接42可以是一無(wú)線連接或一有線連接。第一計(jì)算機(jī)50包含有一中央處理單元51,一可執(zhí)行的程序代碼52。程序代碼52包含有多個(gè)用來(lái)實(shí)行本發(fā)明方法的模塊;相同的,每一第二計(jì)算機(jī)60a-60n皆包含有一中央處理單元61,一可執(zhí)行的程序代碼62。程序代碼62包含有多個(gè)用來(lái)實(shí)行本發(fā)明方法的模塊。閱讀過以下的詳細(xì)說明后,公知技術(shù)者即可了解如何產(chǎn)生及使用程序代碼52及程序代碼62中的多個(gè)模塊。
簡(jiǎn)單地說,第一實(shí)施例的目的是要使第二計(jì)算機(jī)60a-60n有辦法通報(bào)第一計(jì)算機(jī)50關(guān)于病毒攻擊的信息。假設(shè)第一計(jì)算機(jī)50是一信息服務(wù)器,第二計(jì)算機(jī)60a-60n是信息服務(wù)器50的客戶計(jì)算機(jī)。第一計(jì)算機(jī)50使用一分類器53來(lái)分析一送入信息74(可以是一電子郵件信息),并對(duì)送入信息74指定一分類信任指數(shù),該分類信任指數(shù)表示送入信息74帶有病毒的可能性。信息可能是來(lái)網(wǎng)際網(wǎng)絡(luò)70,如送入信息74,亦可能來(lái)是自區(qū)域網(wǎng)絡(luò)40中的其他計(jì)算機(jī)。分類器53使用一類別數(shù)據(jù)庫(kù)54,以對(duì)送入信息74執(zhí)行分類的分析。當(dāng)一第二計(jì)算機(jī)(如第二計(jì)算機(jī)60a)通知第一計(jì)算機(jī)50一病毒攻擊的消息,該第二計(jì)算機(jī)60a傳送一包含該病毒的信息至第一計(jì)算機(jī)50。第一計(jì)算機(jī)50可以將此包含有該病毒的信息加入類別數(shù)據(jù)庫(kù)54,因此所有后續(xù)的包含有該病毒的送入信息皆會(huì)歸類成包含有該病毒,亦即它們會(huì)被指定高的分類信任指數(shù),代表它們是包含有病毒的信息。至于第一計(jì)算機(jī)50是否把第二計(jì)算機(jī)60a送來(lái)的包含有該病毒的信息加入類別數(shù)據(jù)庫(kù)54則取決于第二計(jì)算機(jī)60a所關(guān)聯(lián)到的使者信息。
在第一實(shí)施例中,類別數(shù)據(jù)庫(kù)54包含有一病毒子數(shù)據(jù)庫(kù)54a,包含有多個(gè)病毒樣本欄200,用來(lái)定義及識(shí)別多個(gè)的已知病毒類型。病毒子數(shù)據(jù)庫(kù)54a的格式會(huì)受使用的分類器53所決定,不在本發(fā)明的討論范圍。不論分類器53的運(yùn)作方法為何,其皆會(huì)使用病毒樣本欄200以產(chǎn)生分類信任指數(shù)。藉由增加病毒子數(shù)據(jù)庫(kù)54a中病毒樣本欄200的數(shù)量,即可擴(kuò)大第一計(jì)算機(jī)50的病毒搜捕能力,可達(dá)機(jī)器學(xué)習(xí)的功效。
當(dāng)對(duì)送入信息74執(zhí)行分析時(shí),可以對(duì)整個(gè)信息的范圍進(jìn)行分析。然而,特別考慮到電子郵件時(shí),較常用的作法則是對(duì)于該電子郵件信息74的每個(gè)附加文件進(jìn)行分析,依據(jù)附加文件得到的最高信任指數(shù),指定分類信任指數(shù)給電子郵件信息74。舉例來(lái)說,一個(gè)為電子郵件的送入信息74可能包含有一主體部74a、兩個(gè)影像附加檔74b及74c、一個(gè)可執(zhí)行附加檔74d。分類器54可以先分析主體部74a,依據(jù)病毒子數(shù)據(jù)庫(kù)54a以指定主體部一個(gè)指數(shù),例如0.01;之后分類器可以對(duì)影像附加檔74b及74c進(jìn)行分析,假設(shè)分別產(chǎn)生了指數(shù)0.06、0.08;最后;分類器5 3分析可執(zhí)行附加檔74d,假設(shè)產(chǎn)生了指數(shù)0.88。由于顯示該信息是否包含有病毒的整體的信任指數(shù)是由最高的指數(shù)所決定,因此對(duì)整體信息74就會(huì)產(chǎn)生一信任指數(shù)0.88。以上僅為一種對(duì)送入信息74指定信任指數(shù)的方法的例子,至于該如何設(shè)定分類器53,以指定分類信任指數(shù),則需依信息內(nèi)容及子數(shù)據(jù)庫(kù)所決定,設(shè)計(jì)者可依需考慮的情況所決定設(shè)計(jì)方式。我們可能會(huì)希望讓分類器53依據(jù)送入信息74中各不同的附加檔形式來(lái)決定不同的處理方式。例如,分類器53可以對(duì)可執(zhí)行附加檔使用一種給定信任指數(shù)的系統(tǒng);對(duì)影像附加檔使用另一種給定信任指數(shù)的系統(tǒng);對(duì)純文字附加檔再使用另一種給定信任指數(shù)的系統(tǒng),如此即可增加對(duì)不同形式附加檔進(jìn)行分類的彈性,當(dāng)然我們必須在分類器53中編入可以識(shí)別不同形式附加檔的程序代碼。另外,分類器53可以只對(duì)送入信息74的每一個(gè)附加檔指定個(gè)別的信任指數(shù),而不對(duì)整個(gè)送入信息74指定整體的信任指數(shù),如此可以增加對(duì)送入信息74決定執(zhí)行處理及過濾時(shí)的彈性。
第一計(jì)算機(jī)50包含有一信息服務(wù)器55,信息服務(wù)器55是初始接受送入信息的位置,簡(jiǎn)單郵件轉(zhuǎn)移協(xié)定(Simple Mail Transfer Protocol,SMTP)的常駐程序即是這類信息服務(wù)器55的例子。信息服務(wù)器55可接收一送入信息74,使用分類器53對(duì)送入信息74執(zhí)行分類分析,產(chǎn)生一信任指數(shù)56。如之前所敘述的,分類器53依據(jù)病毒子數(shù)據(jù)庫(kù)53a中的病毒樣本欄200以產(chǎn)生信任指數(shù)56??梢杂尚畔⒎?wù)器55對(duì)分類器53下達(dá)進(jìn)行分類的要求,亦可以由一另外的控制程序來(lái)下達(dá)要求。以第一實(shí)施例而言,我們假設(shè)信任指數(shù)56中包含有信任指數(shù)56b、信任指數(shù)56c、信任指數(shù)56d,分別對(duì)應(yīng)到附加檔74b、74c、74d,以及一對(duì)應(yīng)到主體部74a的信任指數(shù)56a。套用前一段的例子,56a、56b、56c、56d分別是0.01、0.06、0.08、0.88,其中0.88是相對(duì)最大值。整體信任指數(shù)56的值可以簡(jiǎn)單的給定為最大值0.88。當(dāng)然,附加檔的信任指數(shù)56b、56c等的數(shù)目是由送入信息74所帶有的附加檔數(shù)目所決定的,可以是零,也可以是一個(gè)正整數(shù)。
對(duì)于送入信息74得到信任指數(shù)56之后,一信息過濾器57被用來(lái)決定如何處理送入信息74。信息過濾器57依據(jù)信任指數(shù)56,采用數(shù)種過濾技術(shù)的其中一種。這類的的過濾技術(shù)并不在本發(fā)明范圍內(nèi)。比較激烈的過濾技術(shù)就是當(dāng)信任指數(shù)56超過一閾值57a時(shí),相關(guān)的送入信息74就會(huì)被刪除掉。第一計(jì)算機(jī)50的操作者可以設(shè)定閾值57a。舉例來(lái)說,假如閾值57a為0.80,而送入信息74的整體信任指數(shù)56為0.88,則送入信息74就會(huì)被刪除掉??梢詡魉鸵秽]件被刪除的通知給送入信息74的預(yù)定接收者,結(jié)果就是送入信息74被一通知信息57b所取代了,而送給預(yù)定接收者。還有另一種作法就是僅刪除信任指數(shù)超過閾值57a的附加檔,以前述的例子為例,本體74a及影像附加檔74b及74c不會(huì)被刪除;可執(zhí)行附加檔74d則會(huì)被從送入信息74中刪除,因?yàn)槠湎鄬?duì)的信任指數(shù)56d為0.88,已經(jīng)超過閾值57a的值0.80。信息過濾器57可以選擇性的插入一旗標(biāo)在送入信息74的中,表示附加檔74d被刪除了。刪除侵略性的附加檔74d后,送入信息74以及被選擇性插入的通知,才被送給預(yù)計(jì)接收者。另外,信息過濾器57可使用的最不積極的方式,則是對(duì)于任何可疑的附加檔,僅在相對(duì)的送入信息中插入一警告信息,就送至預(yù)計(jì)接收者。該警告信息可以插入于首標(biāo)中、或本體內(nèi),等等不同的地方,主要的目的是要讓預(yù)計(jì)接收者在開啟可疑的附加檔之前,可以先知悉警告含有病毒的信息。
每一個(gè)第二計(jì)算機(jī)60a-60n皆具有一傳送模塊63。傳送模塊63與分類器53緊密相關(guān)聯(lián),且與分類器53具有網(wǎng)絡(luò)相連。詳細(xì)地說,就是傳送模塊63可以傳送一更新信息63a至分類器53,并將更新信息63a與類別數(shù)據(jù)庫(kù)中的一個(gè)類別建立關(guān)聯(lián)。更新信息63a亦關(guān)聯(lián)到產(chǎn)生更新信息63a的使用者。以第一實(shí)施例而言,因?yàn)轭悇e數(shù)據(jù)庫(kù)54中僅具一種類別,即病毒子數(shù)據(jù)庫(kù)54a,因此不用特別的指示,更新信息63a即可被被關(guān)聯(lián)到病毒子數(shù)據(jù)庫(kù)54a。第二計(jì)算機(jī)60的一使用者自一送入信息中發(fā)現(xiàn)了病毒,因而送出了更新信息63a,將更新信息63a關(guān)聯(lián)至哪一個(gè)使用者信息亦可以不用特別的指示,因?yàn)榈诙?jì)算機(jī)60a-60n是服務(wù)器50的客戶,只要有一登入的步驟即可很容易的將更新信息63a關(guān)聯(lián)關(guān)聯(lián)到正確的使用者信息。舉例來(lái)說,要成為服務(wù)器50的客戶,一第二計(jì)算機(jī)60a的使用者必須如公知技術(shù)者所熟知的方式,先登入第一計(jì)算機(jī)50。之后,服務(wù)器50從第二計(jì)算機(jī)60a收到的任一信息63a皆被認(rèn)定為是由第二計(jì)算機(jī)60a登入服務(wù)器50的那位用者所送出。除此之外,信息63a亦可以明確的包含有送出信息63a的那位使用者的者信息63b。使用者信息數(shù)據(jù)63b通常為一使用者識(shí)別碼(user idenfication code,ID)。使用者可以使用傳送模塊63傳送一感染信息至分類器53,除了可以用整個(gè)被感染的信息來(lái)構(gòu)成更新信息63a,亦以可以僅使用被感染的附加檔來(lái)構(gòu)成更新信息63a。由于更新信息63a關(guān)聯(lián)到類別數(shù)據(jù)庫(kù)54中的子數(shù)據(jù)庫(kù)54a是不用特別指示的,因此更新信息63a不必包含相關(guān)的信息。通過網(wǎng)絡(luò)連接42傳送更新信息63a至分類器53。在接到更新信息63a時(shí),在沒有如此的病毒樣本欄200a、且使用者信息信息63b顯示出該使用是一個(gè)一可信賴的使用者的情況下,分類器53將更新信息63a加入到病毒子數(shù)據(jù)庫(kù)54a以作為一新的病毒樣本欄200a。請(qǐng)注意,加入新的病毒樣本欄200a的操作視分類器63所使用的方法而定,舉例來(lái)說,可以是整個(gè)更新信息被加入樣本欄中,亦可以是更新信息中預(yù)設(shè)的一部份被加入樣本欄中,至于明確的加入新樣本欄的方法則是設(shè)計(jì)時(shí)依據(jù)分類器53的類型所做的設(shè)計(jì)選擇。加入新樣本欄的結(jié)果則是可使后續(xù)包含相同病毒的信息被指定高的信任指數(shù),而使用者信息63b如何用于增加新樣本欄的決定則在之后會(huì)有詳細(xì)介紹。
為了加深了解,考慮一假設(shè)的情形。送入信息74,以及相關(guān)的附加檔74b、74c和74d,被信息服務(wù)器55接收,預(yù)計(jì)接收者是第二計(jì)算機(jī)60a。如前述的,假設(shè)閾值57a是0.80,用來(lái)做病毒檢測(cè)及消除;并假設(shè)附加檔74d得到一指數(shù)56d值是0.62,其他的附加檔74b及74c則得到如前述的指數(shù)。附加檔74d得到的信任指數(shù)56d值0.62并不足以驅(qū)動(dòng)信息過濾器57,因此附加檔74d不會(huì)被刪除,信息過濾器57可能僅對(duì)應(yīng)信任指數(shù)56d插入一警告旗標(biāo),將加入該警告旗標(biāo)的信息74送至預(yù)計(jì)接收者的第二計(jì)算機(jī)60(經(jīng)由信息服務(wù)器55)。在第二計(jì)算機(jī)60,一信息服務(wù)器65接收了加入該警告旗標(biāo)的送入信息74,稍后,使用者利用一信息讀取程序64來(lái)讀取送入信息74。在開啟送入信息74的過程中,信息讀取程序64發(fā)現(xiàn)了該警告旗標(biāo),例如“警告,附加檔有62%的可能帶有病毒”。此時(shí)使用者可以選擇刪除或開啟附加檔74d。假設(shè)使用者決定開啟附加檔74d,并且在附加檔74d中發(fā)現(xiàn)了一病毒。為了使用上的便利,信息讀取程序64與傳送模塊63可以具有一個(gè)介面,從使用者的角度而言,此兩種程序可被視為單一的程序。傳送模塊63提供一使用者介面使得使用者可以傳送具有攻擊性的可執(zhí)行附加檔74d給第一計(jì)算機(jī)50?;蛘弋?dāng)使用者知道病毒包含在信息74中,但是不確定是哪一個(gè)附加檔時(shí),使用者可以傳送整個(gè)送入信息74給第一計(jì)算機(jī)50。為了執(zhí)行這個(gè)操作,傳送模塊63產(chǎn)生一更新信息63a(包含有可執(zhí)行附加檔74d,或整個(gè)送入信息74),并經(jīng)由網(wǎng)絡(luò)連接42傳送更新信息63a至分類器53。分類器53關(guān)聯(lián)更新信息63a至病毒子數(shù)據(jù)庫(kù)54a(因?yàn)橹挥胁《具@種類別),發(fā)現(xiàn)使用者信息63b顯示使用者為一病毒數(shù)據(jù)的可靠來(lái)源,因此依據(jù)更新信息63a,產(chǎn)生一適當(dāng)?shù)臉颖緳凇<偃邕@樣的樣本欄,本來(lái)并不存在于病毒子數(shù)據(jù)庫(kù)54a中,(例如“病毒X”樣本欄200a),則在病毒子數(shù)據(jù)庫(kù)54a中加入此一樣本欄。
一段時(shí)間以后,可以是幾秒、分鐘或是幾天,假設(shè)另一個(gè)送入信息75經(jīng)由網(wǎng)際網(wǎng)絡(luò)70送達(dá),目的地是第二計(jì)算機(jī)60n。送入信息75是一個(gè)電子郵件,包含有一本體部分75a以及一可執(zhí)行附加檔75b,其中包含有于送入信息74的可執(zhí)行附加檔74d中發(fā)現(xiàn)的病毒。收到送入信息75以后,送入信息75被送至分類器53,而產(chǎn)生了一信任指數(shù)58。主體部75a所得到的指數(shù)58a假設(shè)是0.10。然而,由于可執(zhí)行附加檔75b很類似可執(zhí)行附加檔74d(已經(jīng)成為病毒子數(shù)據(jù)庫(kù)54a中的病毒樣本欄200),因此可執(zhí)行附加檔75得到一相對(duì)的信任指數(shù)58b,其值是0.95,此一信任指數(shù)58b超過了閾值57a,因此驅(qū)動(dòng)了信息過濾器57,信息過濾器57因而刪除可執(zhí)行附加檔75b,并在送入信息75中插入一警告旗標(biāo),表示一附加文件被刪除了,并將此一變更過的送入信息75傳送給第二計(jì)算機(jī)60n。第二計(jì)算機(jī)60n上的信息服務(wù)器65接收了變更的送入信息75,稍后,當(dāng)一使用者讀取送入信息75時(shí),信息讀取程序64可以通知使用者關(guān)于可執(zhí)行附加檔75b被刪除的消息,第二計(jì)算機(jī)60n的使用者因此免于受感染過第二計(jì)算機(jī)60a的病毒感染。請(qǐng)注意,第一計(jì)算機(jī)50被區(qū)域網(wǎng)絡(luò)40中的任一個(gè)第二計(jì)算機(jī)警告了病毒的感染,之后區(qū)域網(wǎng)絡(luò)40的中所有的第二計(jì)算機(jī)皆可免于該病毒的感染,因此,區(qū)域網(wǎng)絡(luò)40中單一使用者關(guān)于新的病毒的知識(shí)可以用來(lái)幫助保護(hù)區(qū)域網(wǎng)絡(luò)40中的所有使用者。
每一個(gè)第二計(jì)算機(jī)60a-60n使用一傳送模塊63以更新子數(shù)據(jù)庫(kù)54a。因此關(guān)于一使用者受病毒感染的知識(shí)被用來(lái)保護(hù)所有的使用者,這種知識(shí)的利用是藉由分類器53所實(shí)現(xiàn),而非藉由傳統(tǒng)的病毒檢測(cè)模塊。傳統(tǒng)的病毒檢測(cè)模塊較為單純,僅辨別一文件是否包含有病毒,而答案僅能是有或沒有,而分類器則較為模糊,可以提供表示感染機(jī)率的信任指數(shù),然而,此種模糊則帶來(lái)的較大的彈性。依據(jù)更新信息63a中包含的病毒數(shù)據(jù),使用分類器53于病毒子數(shù)據(jù)庫(kù)54a中產(chǎn)生一新的病毒樣本欄200a,可以實(shí)現(xiàn)一種型式的機(jī)器學(xué)習(xí),因此可以快速的加大并彈性化病毒的檢測(cè)。眾所周知,病毒常會(huì)偽裝自己,或是產(chǎn)生一系列變形,然而,這一系列的病毒中可能包含有相同的特性存在,使得設(shè)計(jì)良好的分類器53可以很容易識(shí)別出這一系列的病毒變化。而且數(shù)據(jù)庫(kù)的更新幾乎是及時(shí)地,不需等待防毒軟件制造商更新,系統(tǒng)即可自動(dòng)更新,因而增加了防毒的效率。
使用分類器的另一個(gè)優(yōu)點(diǎn)是分類器可以將一信息分類成一種或多種不同的類別,亦即,分類器并不只限于可以檢測(cè)病毒,分類器亦可以用來(lái)檢測(cè)濫發(fā)、色情圖文、或是任何可以由子數(shù)據(jù)庫(kù)樣本欄所定義的類別。簡(jiǎn)言之,網(wǎng)絡(luò)的使用者認(rèn)定一信息包含有病毒、濫發(fā)或是色情圖文,將此信息送至分類器,后續(xù)相同的信息就會(huì)被分類器識(shí)別出,并由信息過濾器處理。因此使用者的知識(shí)可以被用來(lái)檢測(cè)病毒、濫發(fā),甚至所有不被歡迎的信息,或者是信息中不被歡迎的附加檔。
請(qǐng)參閱圖4。圖4為本發(fā)明第二實(shí)施例的區(qū)域網(wǎng)絡(luò)80的簡(jiǎn)單方塊圖。。為了說明上的方便,第二實(shí)施例的區(qū)域網(wǎng)絡(luò)80設(shè)計(jì)成可以檢測(cè)兩種不受歡迎信息的類別,這兩種類別分別是病毒及濫發(fā),當(dāng)然,依據(jù)同樣的理論可以將設(shè)計(jì)擴(kuò)大成可以檢測(cè)更多種類別。在操作上,第二實(shí)施例的區(qū)域網(wǎng)絡(luò)80幾乎與第一實(shí)施例的區(qū)域網(wǎng)絡(luò)40相同,除了在該第一計(jì)算機(jī)90上類別數(shù)據(jù)庫(kù)94擴(kuò)大成具有兩個(gè)子數(shù)據(jù)庫(kù)一病毒子數(shù)據(jù)庫(kù)94a及一濫發(fā)子數(shù)據(jù)庫(kù)94b。分類器93可以將送入信息111依據(jù)兩種類別作分類,一病毒類別,如病毒子數(shù)據(jù)庫(kù)94a所定義,一濫發(fā)類別,如濫發(fā)子數(shù)據(jù)庫(kù)94b所定義。對(duì)于每一個(gè)送入信息111,分類器93可以提供兩個(gè)分類信任指數(shù)一病毒分類信任指數(shù)96用來(lái)表示送入信息111是病毒類別信息的機(jī)率,另一濫發(fā)分類信任指數(shù)98用來(lái)表示送入信息111是濫發(fā)類別信息的機(jī)率。分類器93的分類程序必須適當(dāng)?shù)貙?duì)應(yīng)到所分類的類別,舉例來(lái)說,決定病毒分類信任指數(shù)96時(shí),分類器可以僅考慮附加檔而忽略郵件主體;決定濫發(fā)分類信任指數(shù)98時(shí),分類器可以僅考慮郵件主體而忽略附加檔,因此,分類器93在對(duì)不同類別執(zhí)行分類時(shí)可有不同的分類程序,以更準(zhǔn)確的進(jìn)行分類。
另一個(gè)不同則在于第二計(jì)算機(jī)100a,100b的傳送模塊103。圖4中只有第二計(jì)算機(jī)100a被詳細(xì)描述,每一個(gè)第二計(jì)算機(jī)皆具有與第二計(jì)算機(jī)100a相同的功能。當(dāng)經(jīng)由網(wǎng)絡(luò)連接82傳送一更新信息105至第一計(jì)算機(jī)90時(shí),傳送模塊103必須將更新信息105明確的關(guān)聯(lián)至一種類別(亦即病毒子數(shù)據(jù)庫(kù)94a或?yàn)E發(fā)子數(shù)據(jù)庫(kù)94b)。如此一來(lái),分類器93可以知道需要以更新信息105在病毒子數(shù)據(jù)庫(kù)94a或?yàn)E發(fā)子數(shù)據(jù)庫(kù)94b中需要建立一新樣本欄201a或202a。傳送模塊103關(guān)聯(lián)更新信息105至特定類別的方法則是設(shè)計(jì)時(shí)的選擇,舉例來(lái)說,更新信息105可以使用一首標(biāo)來(lái)表示關(guān)聯(lián)到的特定類別。
考慮以下的例子,信息服務(wù)器95接收到一送入信息111。送入信息111是一個(gè)電子郵件,包含有一本體111a,一超文件標(biāo)示語(yǔ)言(hypertext markuplanguage,HTML)附加檔111b及一可執(zhí)行附加檔111c。分類器93產(chǎn)生兩個(gè)信任指數(shù)一病毒信任指數(shù)96及一濫發(fā)信任指數(shù)98。病毒信任指數(shù)96包含有屬于本體111a的一信任指數(shù)96a,屬于超文件標(biāo)示語(yǔ)言附加檔111b的一信任指數(shù)96b,屬于可執(zhí)行附加檔111c的一信任指數(shù)96c。信任指數(shù)96a、96b以及96c是依據(jù)第一實(shí)施例中的方法所指定的,依據(jù)病毒子數(shù)據(jù)庫(kù)94a中樣本欄201(包含有任一新的樣本欄201a)作為分類基準(zhǔn)。濫發(fā)信任指數(shù)98在本例中為一單一的數(shù)字,其表示整體送入信息111是否被歸類為濫發(fā)。欲產(chǎn)生濫發(fā)信任指數(shù)98,分類器93使用濫發(fā)子數(shù)據(jù)庫(kù)94b中的樣本欄202(包含有新的樣本欄202a,202b)作為分類基準(zhǔn)。舉例來(lái)說,分類器93可以僅掃瞄本體111a以及超文件標(biāo)示語(yǔ)言附加檔111b以執(zhí)行濫發(fā)分類分析。
信息過濾器97所執(zhí)行的操作可依分類信任指數(shù)96、98的形式所決定。例如,在過濾信息111s中的附加檔111b及111c中的病毒時(shí),是依照病毒信任指數(shù)96中相對(duì)的信任指數(shù)96b及96c,當(dāng)附加檔111b及111c相對(duì)的信任指數(shù)96b及96c超過了閾值97a,信息過濾器97可以將附加檔111b及111c予以刪除。如此的積極操作可以確保區(qū)域網(wǎng)絡(luò)80盡量不受病毒威脅,因?yàn)椴《竟羲斐傻膿p失往往大于刪除不帶有病毒的附加檔所造成的損失。然而,當(dāng)過濾器考慮濫發(fā)時(shí),是依照濫發(fā)分類信任指數(shù)98,若信息111的濫發(fā)分類信任指數(shù)98超過閾值97,則信息過濾器97可以選擇插入一旗標(biāo)至信息111中。如此一來(lái)可以保護(hù)有用的信息,不會(huì)因?yàn)楸徽`認(rèn)為濫發(fā)而被刪除。請(qǐng)注意此處信息過濾器97如何依照分類信任指數(shù)96、98而執(zhí)行過濾操作是設(shè)計(jì)的選擇。
假設(shè)送入信息111原封不動(dòng)的被送至第二計(jì)算機(jī)100a。在第二計(jì)算機(jī)100a,一使用者使用一信息讀取程序104讀取送入信息111,并發(fā)現(xiàn)送入信息111是一個(gè)惱人的濫發(fā)郵件且于可執(zhí)行附加檔111c中帶有病毒。操作傳送模塊103具有使用者介面103b,其中使用者介面103b與信息讀取程序104的使用者介面是相互連接的。使用者通知傳送模塊103說附加檔111c包含有病毒,而且整個(gè)信息111是一個(gè)濫發(fā)。傳送模塊103據(jù)此產(chǎn)生一更新信息105,經(jīng)由網(wǎng)絡(luò)連接82送至分類器93。更新信息105包含有可執(zhí)行附加檔111c,其內(nèi)容即為可執(zhí)行檔105c,并以一首標(biāo)105x關(guān)聯(lián)至病毒子數(shù)據(jù)庫(kù)94a。更新信息105并包含有內(nèi)容為本體105a的本體111a,以及內(nèi)容為超文件標(biāo)示語(yǔ)言附加檔105b的超文件標(biāo)示語(yǔ)言附加檔111b,這兩個(gè)部分皆被以首標(biāo)105z、105y關(guān)聯(lián)到濫發(fā)子數(shù)據(jù)庫(kù)94b。在收到更新信息105時(shí),分類器93更新類別數(shù)據(jù)庫(kù)94??蓤?zhí)行附加檔105c用來(lái)于病毒子數(shù)據(jù)庫(kù)94a中產(chǎn)生一新的病毒樣本欄201a。本體105a用來(lái)于濫發(fā)子數(shù)據(jù)庫(kù)94b中產(chǎn)生新的濫發(fā)樣本欄202a。相同的,超文件標(biāo)示語(yǔ)言附加檔105b用來(lái)于濫發(fā)子數(shù)據(jù)庫(kù)94b中產(chǎn)生新的濫發(fā)樣本欄202b。這些新的樣本欄201a、202a、202b可以被利用來(lái)檢測(cè)后續(xù)相類似的濫發(fā)或病毒。至于新的樣本欄201a,202a,202b如何被用于后續(xù)的分類處理在之后會(huì)有討論。
考慮以下狀況,一個(gè)與前述信息相同的送入信息111自網(wǎng)際網(wǎng)絡(luò)110發(fā)出,經(jīng)由區(qū)域網(wǎng)絡(luò)80欲送至第二計(jì)算機(jī)100b,并且所有新的樣本欄201a,202a,202b已經(jīng)開始被分類器93所使用。此時(shí)第二計(jì)算機(jī)100a的使用者的知識(shí)即可被用來(lái)保護(hù)其他的第二計(jì)算機(jī)100。利用子數(shù)據(jù)庫(kù)94a及94b,送入信息111被指定分類信任指數(shù)96及98,可執(zhí)行附加檔的指數(shù)96c會(huì)變高(由于新的病毒樣本欄201a加入的關(guān)系),同時(shí)濫發(fā)分類信任指數(shù)98亦會(huì)變高(由于新的濫發(fā)樣本欄202a、202b加入的關(guān)系)。因此可執(zhí)行附加檔111c會(huì)被信息過濾器97刪除,一旗標(biāo)會(huì)被插入送入信息111中以表示送入信息111可能是濫發(fā)的機(jī)率(即濫發(fā)分類信任指數(shù)98)。當(dāng)?shù)诙?jì)算機(jī)100b的一使用者要讀取送入信息111(已經(jīng)被信息過濾器97加入了旗標(biāo)),使用者將會(huì)得知到(1)信息111很可能是一濫發(fā)郵件(如送入信息111中加入的旗標(biāo)所顯示),(2)可執(zhí)行附加檔111c經(jīng)過病毒檢測(cè)后已經(jīng)被刪除了。
當(dāng)類別數(shù)據(jù)庫(kù)94已經(jīng)加入新的且使用中的樣本欄之后,所有信息服務(wù)器95中暫存的信息95a必需藉由更新過的類別數(shù)據(jù)庫(kù)94,再經(jīng)過一次分類及過濾的程序,以檢測(cè)所有可能的濫發(fā)或包含病毒的信息(在類別數(shù)據(jù)庫(kù)94更新前有的濫發(fā)及病毒可能可以逃過檢測(cè))。此處需注意的是,送入信息111可以被分類檢測(cè)的類別數(shù)目是不定的,可以視分類器93的能力決定。每一個(gè)類別皆具有相對(duì)的子數(shù)據(jù)庫(kù),各個(gè)子數(shù)據(jù)庫(kù)皆包含有定義用的樣本欄以定義相對(duì)應(yīng)類別的范圍。因此,可以可以對(duì)送入信息111進(jìn)行不同類別及不同標(biāo)準(zhǔn)的檢測(cè),再依照檢測(cè)結(jié)果執(zhí)行過濾。
在一大型的網(wǎng)絡(luò)環(huán)境中,并不是所有的使用者皆會(huì)同意對(duì)一信息的分類標(biāo)準(zhǔn)。舉例來(lái)說,有的使用者認(rèn)為是濫發(fā)的郵件,可能會(huì)被其他使用者認(rèn)為是有用的。如果沒有依據(jù)使用者信息做良好的控制,區(qū)域網(wǎng)絡(luò)40、80中的任何一個(gè)使用者,皆可導(dǎo)致一信息被過濾掉。這不一定的是所有網(wǎng)絡(luò)使用者所樂見的。例如,一單一使用者,可能惡意的將一般電子郵件舉發(fā)為濫發(fā),僅為了破壞區(qū)域網(wǎng)絡(luò)80的秩序,因此,以下是可行的解決方案。
第一種解決方案是,一子數(shù)據(jù)庫(kù)中的一樣本欄,只有在足夠的使用者認(rèn)為該樣本欄的存在是適當(dāng)?shù)?,才?huì)變成分類時(shí)會(huì)利用到的現(xiàn)用樣本欄。實(shí)際上,這就是一種一種投票的過程,一樣本欄只有在得到一特定數(shù)目的使用者同意后,該樣本欄才會(huì)成為分類時(shí)會(huì)利用到的現(xiàn)用樣本欄。舉例來(lái)說,在一個(gè)具有七個(gè)使用者的網(wǎng)絡(luò)中,必須要四個(gè)使用者認(rèn)定一信息是濫發(fā)以后,對(duì)應(yīng)于該信息的樣本欄才可加入濫發(fā)子數(shù)據(jù)庫(kù)。
請(qǐng)參閱圖5。圖5為本發(fā)明第三實(shí)施例的區(qū)域網(wǎng)絡(luò)120的簡(jiǎn)單方塊圖。本發(fā)明第三實(shí)施例中的區(qū)域網(wǎng)絡(luò)120幾乎與區(qū)域網(wǎng)絡(luò)80相同,不同處僅在于區(qū)域網(wǎng)絡(luò)120中多了一投票的過程,而且相對(duì)應(yīng)的類別則有“濫發(fā)”以及“電子報(bào)”。請(qǐng)注意此處只有對(duì)于了解概念有用的部分才被顯現(xiàn)于圖5的中。區(qū)域網(wǎng)絡(luò)120包含有一信息服務(wù)器130,用來(lái)執(zhí)行本發(fā)明的分類及過濾技術(shù),信息服務(wù)器130以網(wǎng)絡(luò)與客戶計(jì)算機(jī)140a-140j相連接。每一個(gè)客戶計(jì)算機(jī)140a-140j皆包含有一本發(fā)明的傳送模塊142。每當(dāng)產(chǎn)生更新信息142a時(shí),傳送模塊142將該使用者的使用者識(shí)別碼(user idenfication code)142b與更新信息142a一同提交給服務(wù)器130。此處將使用者信息明確的表示在更新信息142a中(以使用者識(shí)別碼142b的形式),是為了簡(jiǎn)潔的緣故。不明確將使用者信息顯示在更新信息142a中也是可行的,只要服務(wù)器130可以得知更新信息142a是由哪一位使用者送出的即可。
在類別數(shù)據(jù)庫(kù)134中,每一個(gè)子數(shù)據(jù)庫(kù)134a,134b皆具有一相對(duì)應(yīng)的投票閾值300a,300b。在電子報(bào)子數(shù)據(jù)庫(kù)134a中,每一個(gè)電子報(bào)樣本欄203皆包含有一相對(duì)的投票數(shù)203a以及相對(duì)的使用者名單203b。分類器133只使用電子報(bào)子數(shù)據(jù)庫(kù)134中投票數(shù)欄203a等于或大于閾值300a的樣本欄203。亦即,如此的樣本欄203才是現(xiàn)用樣本欄。相同的,濫發(fā)子數(shù)據(jù)庫(kù)134b中,每一個(gè)濫發(fā)樣本欄204皆包含有一相對(duì)的投票數(shù)204a以及相對(duì)的使用者名單204b。分類器133只使用濫發(fā)子數(shù)據(jù)庫(kù)134b中投票數(shù)欄204a等于或大于閾值300b的樣本欄204,亦即,如此的樣本欄204才是現(xiàn)用樣本欄。
當(dāng)傳送模塊142提交一更新信息142a給分類器133時(shí),分類器133先針對(duì)更新信息142a中每一個(gè)部分產(chǎn)生一測(cè)試欄133a。對(duì)于每一個(gè)測(cè)試欄133a,分類器133會(huì)先檢查測(cè)試欄133a是否已存在于子數(shù)據(jù)庫(kù)134a,134b中的樣本欄203,204中。假設(shè)測(cè)試欄133a并不存在,測(cè)試欄133a即被用來(lái)于子數(shù)據(jù)庫(kù)134a或134b中建立一新的樣本欄203或204。對(duì)于這個(gè)新的樣本欄203或204,投票數(shù)被設(shè)為1,且使用者名單203b或204b被設(shè)為從更新信息142a中得到的使用者識(shí)別碼142b?;蚴牵僭O(shè)測(cè)試欄133a已經(jīng)存在于子數(shù)據(jù)庫(kù)134a或134b中的相對(duì)應(yīng)的樣本欄203或204中,分類器133即檢查樣本欄203或204的使用者名單203b或204b中是否包含有使用者識(shí)別碼142b,假如使用者識(shí)別碼142b并不存在,則將使用者識(shí)別碼142b加入使用者名單203b或204b,并將投票數(shù)203a或204a加1。然而,假如使用者識(shí)別碼142b,已經(jīng)存在使用者名單203b或204b中,則投票數(shù)203a或204a則不用加1。在這種狀況下,可以防止一單一使用者對(duì)于一特定的樣本欄203,204投下太多票。請(qǐng)注意此時(shí)投票數(shù)203a,204a不一定要存在,僅需計(jì)算使用者名單203b,204b中的使用者識(shí)別碼數(shù)目即可。還有很多種投票或記票的方法,以上所述僅為舉例。舉例來(lái)說,投票數(shù)不一定要從0向上算到閾值、亦可以從閾值向下算到0。信息服務(wù)器130可以決定投票及記票的方法。例如,濫發(fā)的投票閾值300b可以設(shè)成是5,在這種狀況下,至少要有五個(gè)客戶計(jì)算機(jī)140a-140j中的使用者對(duì)認(rèn)定一信息是濫發(fā)投下了票,(藉由提交更新信息142a),相對(duì)的樣本欄204才會(huì)成為濫發(fā)子數(shù)據(jù)庫(kù)134b中的現(xiàn)用樣本欄。如此即可防止一單一使用者造成一信息無(wú)法傳遞至其他所有的使用者。實(shí)際上,投票的過程使得必須要有一預(yù)先決定數(shù)目的使用者同意,才會(huì)造成一信息被視為濫發(fā)而被阻擋。另一方面,假設(shè)電子報(bào)類別用來(lái)給服務(wù)器130過濾軟件插入一“電子報(bào)”旗標(biāo)于信息中,以通知使用者說信息是關(guān)于電子報(bào)的。在這種狀況下,因?yàn)殡娮訄?bào)是有益的,電子報(bào)的投票閾值300a可能被設(shè)為1,只要一使用者認(rèn)定一信息是一“電子報(bào)”,則后續(xù)所有相同的信息都會(huì)被服務(wù)器130插入旗標(biāo)。在以上的狀況下,對(duì)于濫發(fā)以及電子報(bào)兩種類別,加入新的樣本欄203,204使得機(jī)器可以學(xué)習(xí)以增進(jìn)分類器133的效能。
考慮一自網(wǎng)際網(wǎng)絡(luò)150中一個(gè)產(chǎn)生大量濫發(fā)郵件的服務(wù)器發(fā)出的送入信息151,目的地是客戶計(jì)算機(jī)140a,假設(shè)送入信息151產(chǎn)生低的電子報(bào)及濫發(fā)信任指數(shù),因此被送至客戶140a。讀取送入信息151之后,客戶140a認(rèn)為信息151是濫發(fā),因此使用傳送模塊142產(chǎn)生一適當(dāng)?shù)母滦畔?42a。更新信息142a包含有以送入信息151為內(nèi)容的本體部151a,客戶計(jì)算機(jī)140a使用者的使用者識(shí)別碼142b,并且關(guān)聯(lián)更新信息142a至濫發(fā)子數(shù)據(jù)庫(kù)134b(可以藉由一首標(biāo))。更新信息142a即被送至分類器133。依照使用更新信息142a的本體151a,分類器133產(chǎn)生一測(cè)試欄133a。分類器133再掃瞄濫發(fā)子數(shù)據(jù)庫(kù)134b看是否有任何樣本欄204相同于測(cè)試欄133a。因?yàn)闆]有發(fā)現(xiàn),分類器133產(chǎn)生一新的樣本欄205,新的樣本欄205包含有定義了本體151a的測(cè)試欄133a,一設(shè)定成1的投票數(shù)205a,以及一使用者名單205b包含有相對(duì)應(yīng)于更新信息142a的使用者識(shí)別碼142b。此時(shí)假設(shè)濫發(fā)投票閾值300b被設(shè)定為4,稍后,一相同的濫發(fā)信息151自網(wǎng)際網(wǎng)絡(luò)150送來(lái),此時(shí)目的地是第二客戶計(jì)算機(jī)140b。分類器133實(shí)際上會(huì)忽略新樣本欄205,除非投票數(shù)205b等于或超過預(yù)設(shè)投票閾值300b。因此新的樣本欄205是非現(xiàn)用的。濫發(fā)信息151因此可以送至第二客戶140b而不被過濾掉,跟第一次時(shí)一樣,因?yàn)榉诸惼?33依據(jù)濫發(fā)子數(shù)據(jù)庫(kù)134的過濾規(guī)則并沒有變更。假設(shè)這個(gè)客戶亦藉由傳送模塊142投票表示送入信息151是濫發(fā)。結(jié)果就是,投票數(shù)205a增加為2,同時(shí)使用者名單205b中加入了第一客戶140a以及該第二客戶140b的使用者識(shí)別碼142b。最后,當(dāng)區(qū)域網(wǎng)絡(luò)120中有足夠的使用者同意后,投票數(shù)205a等于了投票閾值300b。此新樣本欄205及變成一現(xiàn)用樣本欄250,因而改變了分類的規(guī)則。此時(shí),服務(wù)器130中任何等待的信息皆須利用新的分類規(guī)則作新的分類程序。當(dāng)另一個(gè)相同的濫發(fā)送入信息151抵達(dá),目的地是客戶140j,送入信息151將會(huì)因?yàn)樾碌默F(xiàn)用樣本欄205而產(chǎn)生高的指數(shù),因而被過濾掉,簡(jiǎn)言的,本發(fā)明中的任一個(gè)子數(shù)據(jù)庫(kù)皆可視為包含兩個(gè)部分第一部分包含有現(xiàn)用樣本欄,用來(lái)作為分類的規(guī)則以提供信任指數(shù);第二部分包含有非現(xiàn)用樣本欄,不用來(lái)決定信任指數(shù),但是會(huì)等待使用者的投票,投票數(shù)等于或大于閾值以后才成為第一部分中的現(xiàn)用樣本欄。
而第二種解決方案,則是網(wǎng)絡(luò)的每一個(gè)使用者皆被指定信任等級(jí),以決定提交的效力。這可以看成是一種加權(quán)投票,某些使用者(具有高的信任等級(jí)的使用者)的投票較其他使用者(具有低的信任等級(jí)的使用者)的投票更具效力。一隨便提交欄位的使用者可以被指定低的信任等級(jí),可信任的使用者可以被指定高的信任等級(jí)。
請(qǐng)參閱圖6,圖6為本發(fā)明第四實(shí)施例的區(qū)域網(wǎng)絡(luò)160的簡(jiǎn)單方塊圖。一區(qū)域網(wǎng)絡(luò)160相似于前述實(shí)施例。為了描述上的簡(jiǎn)單,此處只顯示一子數(shù)據(jù)庫(kù),即濫發(fā)子數(shù)據(jù)庫(kù)174b。如前述,一客戶/服務(wù)器的關(guān)系如圖所示,即一信息服務(wù)器170以網(wǎng)絡(luò)與多個(gè)客戶計(jì)算機(jī)180a-180j連接。除了一分類器173及一類別數(shù)據(jù)庫(kù)174,信息服務(wù)器170還包含有一使用者信任數(shù)據(jù)庫(kù)400,其中包含有多個(gè)信任等級(jí)401a-401c。信任等級(jí)401a-401c的數(shù)目,以及相對(duì)應(yīng)的特性則可以被設(shè)定,舉例來(lái)說,經(jīng)由信息服務(wù)器170的管理者所設(shè)定。本例中顯示了三種信任等級(jí)401a-401c,每一個(gè)信任等級(jí)401a-401c皆包含有一相對(duì)的信任值402a-402c,及一相對(duì)的使用者名單403a-403c。每一個(gè)使用者名單403a-403c包含有一個(gè)或多個(gè)使用者使用者識(shí)別碼404??蛻粲?jì)算機(jī)180a-180j的一使用者若其使用者識(shí)別碼182b包含在使用者名單403a-403c中即表示該使用者屬于使用者名單403a-403c相對(duì)應(yīng)的信任等級(jí)401a-401c。相關(guān)的信任值402a-402c表示對(duì)該使用者的信任程度。高的信任值402a-402c表示該使用者具有高的可信度。當(dāng)使用者提交更新信息時(shí),分類器173可以找到相對(duì)應(yīng)的使用者名單403a-403c以取得相對(duì)應(yīng)的信任值402a-402c。濫發(fā)子數(shù)據(jù)庫(kù)174b中每一個(gè)樣本欄206皆有一個(gè)信任指數(shù)206a。信任指數(shù)206a的值關(guān)系到樣本欄206是否成為主動(dòng)樣本欄。具有信任指數(shù)206a大于或等于閾值301的樣本欄206即為現(xiàn)用樣本欄,會(huì)被用來(lái)作為分類的規(guī)則。具有信任指數(shù)206a低于閾值301的樣本欄206即為非現(xiàn)用樣本欄,不會(huì)被用來(lái)作為分類的規(guī)則。一般而言,每一個(gè)信任指數(shù)206a可被視為一向量,具有以下形式<(第一等級(jí)人數(shù),第一等級(jí)信任值,第一等級(jí)人數(shù)比例),(第二等級(jí)人數(shù),第二等級(jí)信任值,第二等級(jí)人數(shù)比例),…(第N等級(jí)人數(shù),第N等級(jí)信任值,第N等級(jí)人數(shù)比例)>
其中“第N等級(jí)人數(shù)”表示于該第N等級(jí)中提交該樣本欄的使用者數(shù)目。舉例來(lái)說,對(duì)于一樣本欄206,”第一等級(jí)人數(shù)”表示等級(jí)401a中提交樣本欄206作為一濫發(fā)樣本欄的使用者數(shù)目。而“第N等級(jí)信任值”為表示對(duì)應(yīng)所述級(jí)的使用者的信任值。例如“第一等級(jí)信任值”為等級(jí)401a的信任值402a。至于“第N等級(jí)人數(shù)比例”則表示在所有提交樣本欄206的使用者中,所述級(jí)使用者所占的比例。例如,“第一等級(jí)人數(shù)比例”表示等級(jí)401a中提交樣本欄206的使用者占所有提交樣本欄206的使用者的比例。而假設(shè)在客戶信任數(shù)據(jù)庫(kù)400中具有“i”種使用者等級(jí),整體信任指數(shù)可由下列方程序求出 假如一樣本欄206中信任指數(shù)206a算出的整體信任指數(shù)大于或等于閾值301,則樣本欄206則成為一個(gè)現(xiàn)用樣本欄206,并用來(lái)決定一信息經(jīng)過分類器173時(shí)的分類規(guī)則。反的,樣本欄206則成為一個(gè)非現(xiàn)用樣本欄206,在一信息經(jīng)過分類器173時(shí)并不利用此非現(xiàn)用樣本欄206決定分類規(guī)則。
請(qǐng)參閱圖7并同時(shí)參考圖6。圖7為本發(fā)明更改一類別子數(shù)據(jù)庫(kù)的方法的流程圖。以下將詳述各個(gè)步驟410一客戶180a-180j利用其傳送模塊182產(chǎn)生一更新信息182a,并提交更新信息182a至信息服務(wù)器170。更新信息182a包含了產(chǎn)生該更新信息182a的使用者的使用者識(shí)別碼182b,以及表示更新信息182a需關(guān)聯(lián)到的子數(shù)據(jù)庫(kù)。在這里的情況中,濫發(fā)子數(shù)據(jù)庫(kù)174b是要被關(guān)聯(lián)到的子數(shù)據(jù)庫(kù)。
411信息服務(wù)器170檢視更新信息182a中的使用者識(shí)別碼182b,并且于使用者名單403a-403c中的使用者識(shí)別碼404內(nèi)尋找是否有相同欄位。使用者識(shí)別碼404中有存在使用者識(shí)別碼182b的信任等級(jí)401a-401c即為該使用者所屬的等級(jí),然后即可得到相對(duì)的等級(jí)信任值402a-402c。根據(jù)更新信息182a的內(nèi)容,分類器173產(chǎn)生一相對(duì)的測(cè)試欄173a,并于濫發(fā)子數(shù)據(jù)庫(kù)174b中搜尋是否有相同的欄位,以本實(shí)施例而言,僅需搜尋非現(xiàn)用樣本欄206即可。因此,可以將子數(shù)據(jù)庫(kù)174b分成兩部分一部份包含有現(xiàn)用樣本欄,以及另一部分包含有非現(xiàn)用樣本欄206。僅需搜尋非現(xiàn)用樣本欄206的部分即可。雖然圖6中所有樣本欄206皆有一信任指數(shù)206a,實(shí)際上,在此實(shí)施例中,現(xiàn)用樣本欄206并不需要信任指數(shù)206a,如此可以減少類別數(shù)據(jù)庫(kù)174中記憶體的使用量。假設(shè)沒有發(fā)現(xiàn)相同于測(cè)試欄173a的樣本欄206,即可相對(duì)于測(cè)試欄173a產(chǎn)生一新樣本欄207。新樣本欄207的信任指數(shù)207a被設(shè)定為一預(yù)設(shè)值,如下所示<(0,第一等級(jí)信任值,0),(0,第二等級(jí)信任值,0),…(0,第N等級(jí)信任值,0)>
412依據(jù)步驟411所得到使用者等級(jí)401a-401c以及相關(guān)的信任值402a-402c,計(jì)算由步驟411所得(或建立)的信任指數(shù)206a/207a,此處可依據(jù)設(shè)計(jì)者的決定,使用不同的計(jì)算方法。
413依照上方的方程序計(jì)算步驟412算出的信任向量的整體信任指數(shù)。
414比較步驟413所得到的整體信任指數(shù)與該子數(shù)據(jù)庫(kù)的閾值(亦即,濫發(fā)子數(shù)據(jù)庫(kù)174b的閾值301)。若該整體信任指數(shù)到達(dá)或超過該閾值301時(shí),則執(zhí)行步驟414y,否則則執(zhí)行步驟414n。
414n在步驟411所建立的樣本欄206/207為非現(xiàn)用樣本欄206/207,所以相關(guān)于子數(shù)據(jù)庫(kù)174b的分類規(guī)則則保持不變。依據(jù)步驟412算出的值更新樣本欄206/207的信任向量206a/207a。分類器173持續(xù)執(zhí)行的分類工作,功能上并不受步驟410的更新信息182a所影響。
414y在步驟411所建立的樣本欄206/207為現(xiàn)用樣本欄206/207,并且進(jìn)行更新子數(shù)據(jù)庫(kù)174。舉例來(lái)說,樣本欄206/207即被轉(zhuǎn)移至子數(shù)據(jù)庫(kù)174b中的現(xiàn)用部分,此時(shí)其信任向量206a/207a即可被移除。此時(shí)相關(guān)于子數(shù)據(jù)庫(kù)174b的分類規(guī)則必須進(jìn)行更新的操作。步驟410的更新信息182a造成子數(shù)據(jù)庫(kù)174b中樣本欄206/207變成為現(xiàn)用樣本欄,此時(shí)分類器173持續(xù)執(zhí)行的分類工作則有了變動(dòng)。所有信息服務(wù)器170中暫存的信息皆須對(duì)應(yīng)子數(shù)據(jù)庫(kù)174b重新進(jìn)行分類。
為了要更加的了解以上的步驟412,考慮以下的特殊例子。假設(shè)有十位使用者,它們被歸類為四種等級(jí)第一等級(jí)至第四等級(jí),其等級(jí)值分別為(0.9,0.7,0.4,0.1)。當(dāng)一新的信息來(lái)臨,以下的步驟順序發(fā)生,已決定該信息是否屬于一特定類別,如濫發(fā)類別。此處假設(shè)該特定類別的閾值301是0.7。
步驟0新的信息初始的信任指數(shù)206a/207a是<(0,0.9,0),(0,0.7,0),(0,0.4,0),(0,0.1,0)>。
步驟1第一等級(jí)的一個(gè)使用者投票表示該信息屬于該特定類別,該信息的信任指數(shù)206a/207a變成<(1,0.9,1),(0,0.7,0),(0,0.4,0),(0,0.1,0)>。
步驟2第二等級(jí)者的一個(gè)使用者投票表示該信息屬于該特定類別,該信息的信任指數(shù)206a/207a變成<(1,0.9,1/2),(1,0.7,1/2),(0,0.4,0),(0,0.1,0)>。
步驟3第二等級(jí)的一個(gè)使用者投票表示該信息屬于該特定類別,該信息的信任指數(shù)206a/207a變成<(1,0.9,1/3),(2,0.7,2/3),(0,0.4,0),(0,0.1,0)>。
步驟4第四等級(jí)的一個(gè)使用者投票表示該信息屬于該特定類別,該信息的信任指數(shù)206a/207a變成<(1,0.9,1/4),(2,0.7,2/4),(0,0.4,0),(1,0.1,1/4)>。
步驟5第一等級(jí)的一個(gè)使用者投票表示該信息屬于該特定類別,該信息的信任指數(shù)206a/207a變成<(2,0.9,2/5),(2,0.7,2/5),(0,0.4,0),(1,0.1,1/5)>。
步驟6第二等級(jí)的一個(gè)使用者投票表示該信息屬于該特定類別,該信息的信任指數(shù)206a/207a變成<(2,0.9,2/6),(3,0.7,3/6),(0,0.4,0),(1,0.1,1/6)>。
步驟7第一等級(jí)的一個(gè)使用者投票表示該信息屬于該特定類別,該信息的信任指數(shù)206a/207a變成<(3,0.9,3/7),(3,0.7,3/7),(0,0.4,0),(1,0.1,1/7)>。
步驟8第四等級(jí)的一個(gè)使用者投票表示該信息屬于該特定類別,該信息的信任指數(shù)206a/207a變成<(3,0.9,3/8),(3,0.7,3/8),(0,0.4,0),(2,0.1,2/8)>。
步驟9第一等級(jí)的一個(gè)使用者投票表示該信息屬于該特定類別,該信息的信任指數(shù)206a/207a變成<(4,0.9,4/9),(3,0.7,2/9),(0,0.4,0),(2,0.1,2/9)>。
步驟10第三等級(jí)的一個(gè)使用者投票表示該信息屬于該特定類別,該信息的信任指數(shù)206a/207a變成<(4,0.9,4/10),(3,0.7,3/10),(1,0.4,1/10),(2,0.1,2/10)>。
步驟10中整體信任指數(shù)206a/207a的值計(jì)算如下(0.9×0.4)+(0.7×0.3)+(0.4×0.1)+(0.1×0.2)=0.73。
步驟11比較計(jì)算出的信任指數(shù)值0.73與該類別的閾值310(0.7),系統(tǒng)決定新的信息屬于該特定類別,該新信息關(guān)聯(lián)到的樣本欄成為一現(xiàn)用樣本欄。
如第四實(shí)施例所述的信任分級(jí),以及該第三實(shí)施例所述的普通投票方法,可以被選擇性的實(shí)施在任一個(gè)子數(shù)據(jù)庫(kù)。有的子數(shù)據(jù)庫(kù)可以使用信任分級(jí)的方法,有的子數(shù)據(jù)庫(kù)則可以使用普通投票方法。并且,也可以使用綜合的方法,亦即,一樣本欄必須在投票數(shù)超過一投票閾值,同時(shí)信任向量的整體信任指數(shù)亦超過一相關(guān)的閾值。相同的,信息過濾器亦可以使用多個(gè)閾值,信息過濾器可以對(duì)不同子數(shù)據(jù)庫(kù)使用不同的閾值,而且每一個(gè)子數(shù)據(jù)庫(kù)的閾值不一定限定為一單一值,閾值可以有大于一個(gè)值,每一個(gè)值可以表示一個(gè)分類信任指數(shù)的范圍。每一個(gè)范圍可以用不同的方式處理。舉例來(lái)說,當(dāng)過濾濫發(fā)時(shí),一過濾閾值可以包含有一第一值0.5,表示從0.0到0.50的濫發(fā)分類信任值接受到不嚴(yán)格的過濾(例如,完全不對(duì)其進(jìn)行過濾);一第二值0.9,表示從0.50到0.90的濫發(fā)分類信任值必須更嚴(yán)格的過濾(例如,插入一旗標(biāo)至信息的中以警告接收者)。至于指數(shù)超過0.90的信息即被刪除。
以上所用的方塊圖皆是簡(jiǎn)單的樣式,用來(lái)表示各個(gè)組成元件間的相對(duì)功能關(guān)系,并不限制各元件的組成方式。舉例來(lái)說,該類別數(shù)據(jù)庫(kù)中可以不包含有所有的子數(shù)據(jù)庫(kù)在單一的文件結(jié)構(gòu)的中,相反的,類別數(shù)據(jù)庫(kù)可以分別存在于不同文件的中,甚至存在于一經(jīng)由網(wǎng)絡(luò)相連的不同計(jì)算機(jī)上。
相較于公知技術(shù),本發(fā)明提供一可以由網(wǎng)絡(luò)中使用者更新的分類系統(tǒng),此時(shí),一信息分類器分類的能力可以由網(wǎng)絡(luò)中使用者的知識(shí)加以增加。本發(fā)明提供使用者傳送模塊,用來(lái)傳送一信息至其他計(jì)算機(jī),以及關(guān)聯(lián)該信息至一類別(例如濫發(fā),病毒等等類別)。收到更新信息的計(jì)算機(jī)更新相對(duì)的類別子數(shù)據(jù)庫(kù),因此后續(xù)可以辨識(shí)出相同的信息。并且,本發(fā)明提供一些機(jī)制以防止使用者惡意的亂傳更新信息至服務(wù)器,而影響分類的程序。這些機(jī)制包含有一投票機(jī)制以及使用者信任分級(jí)機(jī)制。在投票機(jī)制中,至少需一特定數(shù)目的使用者同意一特定信息屬于一類別,該信息才會(huì)被承認(rèn)屬于該類別,以用來(lái)過濾后續(xù)類似的信息。至于使用者信任分級(jí)機(jī)制,每一個(gè)使用者皆被指定一信任指數(shù)以表示該使用者的可信度。子數(shù)據(jù)庫(kù)中每一個(gè)樣本欄皆有一信任指數(shù)表示所有提交該樣本欄的使用者的信任指數(shù)。當(dāng)超過一閾值,該樣本欄則成為現(xiàn)用樣本欄以執(zhí)行分類分析。
以上所述僅為本發(fā)明的較佳實(shí)施例,凡依本發(fā)明權(quán)利要求范圍所做的等效變化與修改,皆應(yīng)屬于本發(fā)明的涵蓋范圍。
權(quán)利要求
1.一種利用使用者知識(shí)來(lái)分類計(jì)算機(jī)網(wǎng)絡(luò)上信息的方法,該計(jì)算機(jī)網(wǎng)絡(luò)包含有一第一計(jì)算機(jī);多個(gè)第二計(jì)算機(jī),以網(wǎng)絡(luò)連接的方式與該第一計(jì)算機(jī)相互通信;其中該方法包含有提供該第一計(jì)算機(jī)一分類器,該分類器可對(duì)一信息指定一分類信任指數(shù),該信息對(duì)應(yīng)于至少一類別;提供該第一計(jì)算機(jī)一類別數(shù)據(jù)庫(kù),該類別數(shù)據(jù)庫(kù)包含有對(duì)應(yīng)于每一類別的類別子數(shù)據(jù)庫(kù),其中該分類器使用該類別數(shù)據(jù)庫(kù)指定該分類信任指數(shù);提供每一個(gè)第二計(jì)算機(jī)一傳送模塊,該傳送模塊可從該第二計(jì)算機(jī)傳送一信息至該第一計(jì)算機(jī),并將該信息關(guān)聯(lián)到該類別數(shù)據(jù)庫(kù)中至少一類別,以及將該信息關(guān)聯(lián)到一使用者信息;于任何一個(gè)第二計(jì)算機(jī)接收一第一信息;利用接收到該第一信息的第二計(jì)算機(jī)的傳送模塊產(chǎn)生一第二信息并傳送該第二信息至該第一計(jì)算機(jī),該第二信息的內(nèi)容根據(jù)該第一信息的內(nèi)容決定,該第二信息關(guān)聯(lián)到一第一類別及一第一使用者信息;以及依據(jù)該第二信息的內(nèi)容及該第一使用者信息變更該類別數(shù)據(jù)庫(kù)中一第一類別子數(shù)據(jù)庫(kù),其中該第一類別子數(shù)據(jù)庫(kù)對(duì)應(yīng)于該第一類別。
2.如權(quán)利要求1所述的方法,其中變更該第一類別子數(shù)據(jù)庫(kù)的步驟包含有對(duì)應(yīng)于該第二信息的內(nèi)容,于該第一類別子數(shù)據(jù)庫(kù)產(chǎn)生一信息樣本欄。
3.如權(quán)利要求1所述的方法,其中變更該第一類別子數(shù)據(jù)庫(kù)的步驟包含有依據(jù)該第一使用者信息變更該信息樣本欄中的一記數(shù)欄,其中該記數(shù)欄代表由使用者所提交的內(nèi)容對(duì)應(yīng)于該第二信息的內(nèi)容的使用者數(shù)目。
4.如權(quán)利要求3所述的方法,其還包含有于該第一計(jì)算機(jī)接收一第三信息;以及利用該分類器取得該第三信息的分類信任指數(shù),其中該分類器僅利用一相對(duì)應(yīng)的計(jì)數(shù)值達(dá)到一預(yù)設(shè)閾值的信息樣本欄來(lái)執(zhí)行分類分析。
5.如權(quán)利要求4所述的方法,其還包含有依據(jù)該分類信任指數(shù)對(duì)該第三信息執(zhí)行一過濾操作。
6.如權(quán)利要求1所述的方法,其還包含有取得對(duì)應(yīng)于該第二信息內(nèi)容的信息樣本欄的信任指數(shù);依據(jù)該第一使用者信息變更該信任指數(shù);以及依據(jù)變更過的信任指數(shù)與一閾值使該信息樣本欄成為一現(xiàn)用樣本欄。
7.如權(quán)利要求6所述的方法,其還包含有于該第一計(jì)算機(jī)接收一第三信息;以及利用該分類器取得該第三信息的分類信任指數(shù),其中該分類器僅依據(jù)現(xiàn)用樣本欄給定分類信任指數(shù)。
8.如權(quán)利要求7所述的方法,其還包含有依據(jù)該分類信任指數(shù)對(duì)該第三信息執(zhí)行一過濾操作。
9.如權(quán)利要求1所述的方法,其還包含有于變更該分類數(shù)據(jù)庫(kù)中的第一類別子數(shù)據(jù)庫(kù)后,利用該分類器對(duì)該第一計(jì)算機(jī)內(nèi)所有待傳送的信息分別指定新的分類信任指數(shù);以及依據(jù)各個(gè)新的分類信任指數(shù)對(duì)所有待傳送的信息執(zhí)行一過濾操作。
10.如權(quán)利要求1所述的方法,其中該第一計(jì)算機(jī)為一信息服務(wù)器,該第二計(jì)算機(jī)為該信息服務(wù)器的客戶計(jì)算機(jī)。
11.一種計(jì)算機(jī)可讀媒體,其具有可執(zhí)行權(quán)利要求1所述的方法的程序代碼。
12.一種計(jì)算機(jī)網(wǎng)絡(luò),其包含有一第一計(jì)算機(jī);多個(gè)第二計(jì)算機(jī),以網(wǎng)絡(luò)連接的方式連接于該第一計(jì)算機(jī);該第一計(jì)算機(jī)包含有一分類器,該分類器可對(duì)一信息指定一分類信任指數(shù),該信息對(duì)應(yīng)于至少一類別,而該類別由一類別數(shù)據(jù)庫(kù)所定義,其中該類別數(shù)據(jù)庫(kù)對(duì)應(yīng)于每一類別皆包含一類別子數(shù)據(jù)庫(kù),該分類器可依據(jù)該類別數(shù)據(jù)庫(kù)對(duì)該信息指定該分類信任指數(shù);一種可從任一個(gè)第二計(jì)算機(jī)接收關(guān)聯(lián)至一第一類別的更新信息的方法;以及一種可依據(jù)該更新信息與其所關(guān)聯(lián)到的使用者信息來(lái)變更該類別數(shù)據(jù)庫(kù)中一第一類別子料庫(kù)的方法,其中該第一類別子數(shù)據(jù)庫(kù)對(duì)應(yīng)于該第一類別;以及每一個(gè)第二計(jì)算機(jī)包含有一種可接收一第一信息的方法;以及一種可傳送一第二信息至該第一計(jì)算機(jī),并將該第二信息與該類別數(shù)據(jù)庫(kù)中至少一類別及一使用者信息建立關(guān)聯(lián)的方法,其中該第二信息的內(nèi)容根據(jù)該第一信息決定。
13.如權(quán)利要求12所述的計(jì)算機(jī)網(wǎng)絡(luò),其中改變?cè)摰谝活悇e子數(shù)據(jù)庫(kù)的方法可依據(jù)接收到的更新信息,在該第一類別子數(shù)據(jù)庫(kù)建立一信息樣本欄。
14.如權(quán)利要求12所述的計(jì)算機(jī)網(wǎng)絡(luò),其中改變?cè)摰谝活悇e子數(shù)據(jù)庫(kù)的方法可依據(jù)接收到的更新信息所關(guān)聯(lián)到的使用者信息,變更對(duì)應(yīng)于接收到的更新信息的計(jì)數(shù)欄,其中該計(jì)數(shù)欄代表由使用者所提交的內(nèi)容乃對(duì)應(yīng)于接收到的更新信息的內(nèi)容的使用者數(shù)目。
15.如權(quán)利要求14所述的計(jì)算機(jī)網(wǎng)絡(luò),其中該第一計(jì)算機(jī)還包含有一種可從網(wǎng)絡(luò)接收一第三信息的方法;一種可利用該分類器對(duì)該第三信息指定該分類信任指數(shù)的方法;其中該分類器僅利用具有一計(jì)數(shù)值到達(dá)一預(yù)定閾值的樣本欄來(lái)執(zhí)行分類分析。
16.如權(quán)利要求15所述的計(jì)算機(jī)網(wǎng)絡(luò),其中該第一計(jì)算機(jī)還包含有一種可依據(jù)該分類信任指數(shù)對(duì)該第三信息執(zhí)行一過濾技術(shù)的方法。
17.如權(quán)利要求12所述的計(jì)算機(jī)網(wǎng)絡(luò),其中該第一計(jì)算機(jī)還包含有一種取得一信息樣本欄的信任指數(shù)的方法,該信息樣本欄對(duì)應(yīng)于接收到的更新信息;一種依據(jù)接收到的更新信息所關(guān)聯(lián)到的使用者信息來(lái)變更該信任指數(shù)的方法;以及一種依據(jù)變更后的信任指數(shù)與一閾值使該信息樣本欄成為一現(xiàn)用樣本欄的方法。
18.如權(quán)利要求17所述的計(jì)算機(jī)網(wǎng)絡(luò),其中該第一計(jì)算機(jī)還包含有一種自網(wǎng)絡(luò)接收一第三信息的方法;以及一種利用該分類器取得該第三信息的信任指數(shù)的方法,該分類器僅利用現(xiàn)用樣本欄。
19.如權(quán)利要求18所述的計(jì)算機(jī)網(wǎng)絡(luò),其中該第一計(jì)算機(jī)還包含有一種可依據(jù)該分類信任指數(shù)對(duì)該第三信息執(zhí)行一過濾技術(shù)的方法。
20.如權(quán)利要求12所述的計(jì)算機(jī)網(wǎng)絡(luò),其中該第一計(jì)算機(jī)還包含有一種在依據(jù)接收到的更新信息變更該類別數(shù)據(jù)庫(kù)中的第一類別子數(shù)據(jù)庫(kù)后,利用該分類器對(duì)該第一計(jì)算機(jī)中所有待傳送的信息分別指定新的分類信任指數(shù)的方法;以及一種可依據(jù)新的信任指數(shù)對(duì)所有待傳送的信息執(zhí)行一過濾技術(shù)的方法。
21.如權(quán)利要求12所述的計(jì)算機(jī)網(wǎng)絡(luò),其中該第一計(jì)算機(jī)為一信息服務(wù)器,所述第二計(jì)算機(jī)皆為該信息服務(wù)器的客戶計(jì)算機(jī)。
全文摘要
一服務(wù)器,其具有一可對(duì)包含至少一類別的信息指定一分類信任指數(shù)的分類器。提供該服務(wù)器一類別數(shù)據(jù)庫(kù),其中包含對(duì)應(yīng)于每一類別的類別子數(shù)據(jù)庫(kù)。該分類器使用該類別數(shù)據(jù)庫(kù)指定該分類信任指數(shù)。每一客戶計(jì)算機(jī)皆具有一傳送模塊,該模塊可傳送一更新信息至該服務(wù)器,并將該信息關(guān)聯(lián)到該類別數(shù)據(jù)庫(kù)中至少一種類別及一使用者信息。該服務(wù)器依據(jù)客戶計(jì)算機(jī)傳送的更新信息變更該類別數(shù)據(jù)庫(kù)中各子數(shù)據(jù)庫(kù)的內(nèi)容,再依據(jù)新的子數(shù)據(jù)庫(kù)內(nèi)容,對(duì)信息指定新的分類信任指數(shù)。最后,依據(jù)新的分類信任指數(shù)對(duì)信息執(zhí)行一過濾操作。
文檔編號(hào)G06F13/00GK1510588SQ20031012327
公開日2004年7月7日 申請(qǐng)日期2003年12月22日 優(yōu)先權(quán)日2002年12月25日
發(fā)明者趙國(guó)仁, 蔡篤欣, 蘇耿弘 申請(qǐng)人:龍卷風(fēng)科技股份有限公司