專(zhuān)利名稱(chēng):一種過(guò)濾信息的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)及通信領(lǐng)域,特別是涉及一種過(guò)濾信息的方法及裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)的發(fā)展和用戶(hù)量的迅速增加,網(wǎng)絡(luò)中的信息發(fā)布量也在迅速增 長(zhǎng)。用戶(hù)常常為了提高信息的曝光率,經(jīng)常多次發(fā)布內(nèi)容相似的信息,或同時(shí) 在多處發(fā)布內(nèi)容相似的信息,或者不同的用戶(hù)發(fā)布相似的信息,而這些信息均 在有效期內(nèi),網(wǎng)絡(luò)中則充斥著大量相似的信息,占用大量網(wǎng)絡(luò)資源,并且影響 網(wǎng)絡(luò)中信息的質(zhì)量,為其它用戶(hù)在搜索信息時(shí)帶來(lái)很大的干擾,用戶(hù)很難看到 有用的信息。
目前現(xiàn)有解決上述問(wèn)題的方法有多種, 一種方法是人工排除,即由人工對(duì) 信息進(jìn)行逐條比較,將相似或相等的信息刪除,只保留其中的一條信息。這種 方式的缺點(diǎn)是效率非常低,在信息量非常大的情況下,人員的工作量非常高, 占用大量人力資源,并且可能存在由于人員的失誤導(dǎo)致刪除錯(cuò)誤或遺漏的情 況。
另一種方法是機(jī)器自動(dòng)排除,即由機(jī)器對(duì)當(dāng)前網(wǎng)絡(luò)中的所有信息進(jìn)行完整 比較,將相似或相等的信息刪除,只保留其中的一條信息。這種方式的缺點(diǎn)是 機(jī)器的工作量較大,處理速度較慢,并且占用大量資源,能耗較大。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種過(guò)濾信息的方法及裝置,用于提高過(guò)濾信息的速 度,減輕裝置負(fù)載。
一種過(guò)濾信息的方法,包括以下步驟
將未過(guò)濾的信息與之前過(guò)濾后保留的信息進(jìn)行比較,并在所述未過(guò)濾的信息中的各條信息之間進(jìn)行比較;以及
在確定存在多條信息相似時(shí),僅保留該多條信息中的一條信息。 一種用于過(guò)濾信息的裝置,包括
存儲(chǔ)模塊,用于存儲(chǔ)未過(guò)濾的信息和之前過(guò)濾后保留的信息;
比較模塊,用于將未過(guò)濾的信息與之前過(guò)濾后保留的信息進(jìn)行比較,并在 所述未過(guò)濾的信息中的各條信息之間進(jìn)行比較,以及確定相似的信息;
執(zhí)行模塊,用于在確定存在多條信息相似時(shí),僅保留所述存儲(chǔ)模塊中該多 條信息中的一條信息。
本發(fā)明實(shí)施例在過(guò)濾信息過(guò)程中不對(duì)過(guò)濾后保留的信息之間進(jìn)行重復(fù)比 較,減少了過(guò)濾次數(shù),提高了過(guò)濾信息的速度,同時(shí)減輕的過(guò)濾裝置的負(fù)載。
圖1為本發(fā)明實(shí)施例中過(guò)濾裝置的結(jié)構(gòu)圖2為本發(fā)明實(shí)施例中過(guò)濾信息的主要方法流程圖3為本發(fā)明實(shí)施例中具有信息分類(lèi)功能的裝置結(jié)構(gòu)圖4為本發(fā)明實(shí)施例中過(guò)濾信息時(shí)僅對(duì)同類(lèi)信息比較的方法流程圖5為本發(fā)明實(shí)施例中具有提取部分信息功能的裝置結(jié)構(gòu)圖6為本發(fā)明實(shí)施例中過(guò)濾信息時(shí)只比較部分信息的方法流程圖。
具體實(shí)施例方式
在本發(fā)明實(shí)施例中,本次比較后保留的信息,在下次比較時(shí)不進(jìn)行內(nèi)部比 較,只將本次保留的信息與到下次比較時(shí)新加入的信息進(jìn)行比較,以及將新加 入的信息進(jìn)行內(nèi)部比較,以減少比較次數(shù),提高過(guò)濾信息的速度。在本實(shí)施例 中確定信息為過(guò)濾后保留的信息還是新加入的信息的方式有多種,如一種方式 是通過(guò)接收信息時(shí)的時(shí)間(即用戶(hù)發(fā)布信息的時(shí)間)對(duì)該信息進(jìn)行標(biāo)記,在 本次過(guò)濾操作起始時(shí)刻之前接收到的所有信息中,在本次過(guò)濾操作結(jié)束時(shí)保留 下來(lái)的信息即為下次過(guò)濾操作過(guò)程中所述的過(guò)濾后保留的信息,在本次過(guò)濾操作起始時(shí)刻之后接收到的信息,由于該信息未參與本次的過(guò)濾操作,故作為下 次過(guò)濾操作過(guò)程中所述的新加入的信息。因此根據(jù)信息的接收時(shí)間可判斷該信息是否經(jīng)過(guò)過(guò)濾。如一種方式是將在本次過(guò)濾操作起始時(shí)刻之后接收到的信 息作為下次過(guò)濾操作過(guò)程中所述的新加入的信息,并集中存儲(chǔ),以及將在本次 過(guò)濾操作結(jié)束時(shí)保留下來(lái)的信息作為下次過(guò)濾操作過(guò)程中所述的過(guò)濾后保留 的信息,并集中存儲(chǔ)。根據(jù)存儲(chǔ)地址可判斷該信息是否經(jīng)過(guò)過(guò)濾。該存儲(chǔ)可以 是物理存儲(chǔ)也可以是邏輯存儲(chǔ)。參見(jiàn)圖1,本實(shí)施例中用于過(guò)濾信息的裝置主要包括接收模塊101、存儲(chǔ) 模塊102、比較模塊103和執(zhí)行模塊104。接收模塊101接收用戶(hù)發(fā)布的信息,并將信息存儲(chǔ)到存儲(chǔ)模塊102。存儲(chǔ)模塊102存儲(chǔ)接收模塊101接收到的信息,以及接收?qǐng)?zhí)行模塊104的 刪除指令。存儲(chǔ)模塊102可以將過(guò)濾后保留的信息集中存放,以及將過(guò)濾后新 接收到的信息集中存放,方便其它模塊讀取信息。本實(shí)施例中的存儲(chǔ)模塊包括 緩存、硬盤(pán)、磁帶等存儲(chǔ)介質(zhì)。比較模塊103從存儲(chǔ)模塊102中讀取需要比較的信息,將新接收到的信息 (即未經(jīng)過(guò)過(guò)濾的信息)與之前已過(guò)濾并保留的信息進(jìn)行比較,以及在新接收 到的信息之間進(jìn)行比較,將確定相似的信息或信息標(biāo)識(shí)發(fā)送給執(zhí)行模塊104。 例如,過(guò)濾后保留的信息為A1、 A2、 A3、 A4、 A5,未經(jīng)過(guò)過(guò)濾的信息為B1、 B2、 B3、 B4、 B5,貝'J將B1分別與A1、 A2、 A3、 A4、 A5比較,再將B2分 別與A1、 A2、 A3、 A4、 A5比較,以此類(lèi)推,以及將B1分別與B2、 B3、 B4、 B5比較,B2分別與B3、 B4、 B5比較,同樣以此類(lèi)推的比較。本實(shí)施例中,將需要比較的信息進(jìn)行兩兩比較,確定相等的部分與參與比 較的部分的比值(本實(shí)施例中稱(chēng)該比值為相似度)不小于預(yù)設(shè)閾值的兩條信息 為相似信息。執(zhí)行模塊104從確定相似的信息中選擇一條信息保留,并從存儲(chǔ)模塊102 中刪除其它相似信息。執(zhí)行模塊104可以隨機(jī)選擇,或根據(jù)信息發(fā)布時(shí)間選擇最近發(fā)布的信息或最早發(fā)布的信息保留,或選擇相似信息中長(zhǎng)度最長(zhǎng)的信息保 留。
參見(jiàn)圖2,本實(shí)施例中過(guò)濾信息的主要方法流程如下,該方法適用于搜索 引擎等
步驟201:接收用戶(hù)發(fā)布的信息并保存。
步驟202:當(dāng)需要過(guò)濾信息時(shí),將之前過(guò)濾后保留的信息與未經(jīng)過(guò)過(guò)濾的 信息進(jìn)行比較,以及在未經(jīng)過(guò)過(guò)濾的信息之間進(jìn)行比較,并確定相似的信息。 步驟203:保留多條相似信息中的一條信息,刪除其它相似信息。 在步驟202中,對(duì)信息進(jìn)行比較的方法有多種,如一種具體實(shí)現(xiàn)方式是將 所有需要比較的信息進(jìn)行兩兩比較,在比較結(jié)束時(shí)只保留多條相似信息中的一
條信息,具體步驟如下
步驟202A:從未經(jīng)過(guò)過(guò)濾的信息中提取一條信息與其它未經(jīng)過(guò)過(guò)濾的信 息及之前過(guò)濾后保留的信息進(jìn)行比較。
步驟202B:在確定存在多條相似的信息時(shí),用同一標(biāo)記來(lái)標(biāo)識(shí)所述多條 相似的信息。
步驟202C:判斷未經(jīng)過(guò)過(guò)濾的信息中是否有未提取的信息,若有,則繼 續(xù)步驟202A,否則繼續(xù)步驟202D。
步驟202D:保留帶有同一標(biāo)記的多條相似信息中的一條信息,并刪除帶 有同一標(biāo)記的其它信息。如帶有同一標(biāo)記的信息為Bl、 B3、 B4和A1,則保 留Al,刪除B1、 B3和B4。
如另一種具體實(shí)現(xiàn)方式是如果過(guò)濾后保留的信息數(shù)量比較大,則可以先 在未經(jīng)過(guò)過(guò)濾的信息之間進(jìn)行比較,保留相似信息中的一條信息,再將剩余信 息與過(guò)濾后保留的信息進(jìn)行比較,以減少比較次數(shù)。具體步驟如下
例如未經(jīng)過(guò)過(guò)濾的信息為Bl、 B2、 B3、 B4、 B5,過(guò)濾后保留的信息為 Al、 A2、 A3、 A4、 A5、 A6、 A7、 A8、 A9、 AO。
步驟202H:從未經(jīng)過(guò)過(guò)濾的信息中提取一條信息與其它未經(jīng)過(guò)過(guò)濾的信息進(jìn)行比較。如將B1與B2、 B3、 B4、 B5進(jìn)行比較。步驟202I:在比較過(guò)程中確定兩條信息相似時(shí),刪除其中一條信息,被保 留的信息繼續(xù)參與后續(xù)比較。如B1與B3相似,當(dāng)刪除B3時(shí),Bl繼續(xù)與B4、 B5比較,當(dāng)鄰'J除B1時(shí),由B3代替B1繼續(xù)與B4、 B5比較。步驟202J:判斷未經(jīng)過(guò)過(guò)濾的信息中是否至少有兩條未提取的信息,若有, 則繼續(xù)步驟202H,否則繼續(xù)步驟202K。步驟202K:從經(jīng)過(guò)步驟202H至步驟202J保留的信息中提取一條信息與 之前過(guò)濾后保留的信息進(jìn)行比較。如將B2與Al、 A2、 A3、 A4、 A5、 A6、 A7、 A8、 A9、 AO比較。步驟202L:在確定存在兩條相似的信息時(shí),刪除其中一條信息。步驟202M:判斷步驟202L中是否有未取到的信息,若有,則繼續(xù)步驟 202L,否則結(jié)束流程。通過(guò)舉例可以看出,釆用步驟202A至步驟202D所述的方法,比較次數(shù) 為60次,采用步驟202H至步驟202M所述的方法,比較次數(shù)為35次,過(guò)濾 速度明顯4是高。如再一種具體實(shí)現(xiàn)方式是如果未經(jīng)過(guò)過(guò)濾的信息數(shù)量比較大,則可以先 將過(guò)濾后保留的信息與未經(jīng)過(guò)過(guò)濾的信息進(jìn)行比較,保留相似信息中的一條信 息,再在未經(jīng)過(guò)過(guò)濾的信息中保留下來(lái)的信息之間進(jìn)行比較,以減少比較次數(shù)。例如未經(jīng)過(guò)過(guò)濾的信息為Bl、 B2、 B3、 B4、 B5、 B6、 B7、 B8、 B9、 BO, 過(guò)濾后保留的信息為A1、 A2、 A3、 A4、 A5。步驟202R:從未經(jīng)過(guò)過(guò)濾的信息中提取一條信息與之前過(guò)濾后保留的信 息進(jìn)行比較。如將B1與A1、 A2、 A3、 A4、 A5進(jìn)行比較。步驟202S:在比較過(guò)程中確定兩條信息相似時(shí),刪除其中一條信息,被保 留的信息繼續(xù)參與后續(xù)比較。如B1與A3相似,當(dāng)刪除A3時(shí),Bl繼續(xù)與A4、 A5比較,當(dāng)刪除A3時(shí),由B1代替A3并終止B1與A4、 A5的比較,繼續(xù)步 驟202T。步驟202T:判斷未經(jīng)過(guò)過(guò)濾的信息中是否有未取到的信息,若有,則繼 續(xù)步驟202R,否則繼續(xù)步驟202U。例如,Bl與A3相似,B2與A2相似, B3與Al相似,B4與A4相似,B5與A5相似,則剩余信息有B6、 B7、 B8、 B9、 B0。步驟202U:從未經(jīng)過(guò)過(guò)濾的信息經(jīng)過(guò)步驟202R至202T后保留的信息中 提取一條信息與其它未經(jīng)過(guò)過(guò)濾的信息經(jīng)過(guò)步驟202R至202T后保留的信息進(jìn) 4亍比4交。如將B6與B7、 B8、 B9、 BO比4交。步驟202V:在確定存在兩條相似的信息時(shí),刪除其中一條信息。如B6與 B7、 B8相似,則保留B6。步驟202W:判斷步驟202U中是否至少有兩條未取到的信息,若有,則 繼續(xù)步驟202U,否則結(jié)束流程。通過(guò)舉例可以看出,采用步驟202A至步驟202D所述的方法,比較次數(shù) 為95次;采用步驟202H至步驟202M所述的方法,比較次數(shù)為70次;采用 步驟202R至步驟202W所述的方法,比較次數(shù)為55次,過(guò)濾速度明顯提高。本實(shí)施例還可以在步驟202之后,即在確定相似信息后,通過(guò)人工對(duì)相似 信息做進(jìn)一步判斷,并刪除需要?jiǎng)h除的信息。本實(shí)施例中的裝置還包括分類(lèi)模塊105,參見(jiàn)圖3所示。分類(lèi)模塊105根 據(jù)預(yù)設(shè)的條件對(duì)信息進(jìn)行分類(lèi),比較模塊103在之前所述的比較方式基礎(chǔ)上, 只需對(duì)同類(lèi)信息進(jìn)行比較,進(jìn)一步減少了比較次數(shù)。分類(lèi)條件包括賬戶(hù)名相同、 發(fā)布時(shí)間相同(例如發(fā)布時(shí)間均為1月1日。)、來(lái)自同一地區(qū)、屬于同一領(lǐng)域 (如通信領(lǐng)域)、具有相同的關(guān)鍵詞(如動(dòng)物)等。每次比較時(shí)可以根據(jù)實(shí)際 需要選擇上述條件中的一項(xiàng)或多項(xiàng)條件對(duì)信息進(jìn)行分類(lèi)。例如根據(jù)賬戶(hù)名相同 對(duì)信息進(jìn)行分類(lèi),刪除同一賬戶(hù)發(fā)布的相似信息,此種方法較適用于電子商務(wù) 領(lǐng)域。下面介紹的過(guò)濾信息的方法為對(duì)同類(lèi)信息比較的具體方法流程,參見(jiàn)圖4 所示步驟401:接收用戶(hù)發(fā)布的信息并保存。
步驟402:根據(jù)預(yù)設(shè)的條件對(duì)信息進(jìn)行分類(lèi),該步驟可以在接收信息時(shí)實(shí) 時(shí)的進(jìn)行,或者在需要過(guò)濾信息時(shí)進(jìn)行。例如根據(jù)關(guān)鍵詞對(duì)信息進(jìn)行分類(lèi)。對(duì) 應(yīng)關(guān)鍵詞"動(dòng)物"的信息被分為一類(lèi)。
步驟403:當(dāng)需要過(guò)濾信息時(shí),將之前過(guò)濾后保留的信息與未經(jīng)過(guò)過(guò)濾的 信息并且屬于同一類(lèi)的信息進(jìn)行比較,以及在未經(jīng)過(guò)過(guò)濾的信息之間并且屬于 同一類(lèi)的信息進(jìn)行比較,確定相似的信息。例如,僅對(duì)對(duì)應(yīng)關(guān)鍵詞"動(dòng)物"的 信息進(jìn)行比較,不必將對(duì)應(yīng)關(guān)鍵詞"手機(jī)"的信息與對(duì)應(yīng)關(guān)鍵詞"動(dòng)物"的信 息進(jìn)行比較。因?yàn)樗鼈冎g為相似信息的可能性極小。
步驟404:保留相似信息中的一條信息,刪除其它相似信息。
本實(shí)施例中的裝置還包括提取模塊106,參見(jiàn)圖5所示。提取模塊106確 定需要比較的信息,并從需要進(jìn)行比較的兩條信息中選擇部分信息交由比較模 塊103進(jìn)行比較。提取模塊106先將信息的頭部刪除,從剩余部分選擇參與比 較的部分。頭部包括信息的名稱(chēng)、發(fā)布的時(shí)間、發(fā)布者信息及程序代碼等。頭 部中的內(nèi)容通常會(huì)影響對(duì)信息相似性判斷的準(zhǔn)確性,并且增加了比較的工作 量。如果是以超文本連接標(biāo)識(shí)語(yǔ)言(HTML)展示信息,則程序代碼包括〈head〉 等。提取模塊106從需要進(jìn)行比較的兩條信息中選擇相同位置、相同長(zhǎng)度的信 息參與比較,可以是隨機(jī)選擇,也可以是根據(jù)參數(shù)選擇。例如,位置參數(shù)為100, 長(zhǎng)度參數(shù)為10,則從每100個(gè)字中選擇前10個(gè)字參與比較。如果一條信息的 長(zhǎng)度小于另一條信息,缺少的部分設(shè)為O,顯然相似度也為O。
此時(shí),確定兩條信息是否相似的方法有多種,如一種方法是在從兩條信 息中選擇的多處信息中,如果有一處信息的相似度不小于預(yù)設(shè)的閾值,則確定 兩條信息相似,兩條信息的后續(xù)部分也就不需要參與比較。這種方法較適用于 每處信息的長(zhǎng)度較長(zhǎng)的情況,如IOO。如另一種方法是在從兩條信息中選擇 的多處信息中,各處信息的相似度的平均值不小于預(yù)設(shè)的閾值,則確定兩條信 息相似;或者多處信息的相似度均不小于預(yù)設(shè)的閾值,則確定兩條信息相似,這種方法較適用于每處信息的長(zhǎng)度較短的情況,如10。
下面介紹的過(guò)濾信息的方法為對(duì)信息中部分內(nèi)容比較的具體方法流程,參
見(jiàn)圖6所示
步驟601:接收用戶(hù)發(fā)布的信息并保存。
步驟602:根據(jù)預(yù)設(shè)的條件對(duì)信息進(jìn)行分類(lèi),該步驟可以在接收信息時(shí)實(shí) 時(shí)的進(jìn)行,或者在需要過(guò)濾信息時(shí)進(jìn)行。例如根據(jù)關(guān)鍵詞對(duì)信息進(jìn)行分類(lèi)。對(duì) 應(yīng)關(guān)鍵詞"動(dòng)物"的信息被分為一類(lèi)。
步驟603:當(dāng)需要過(guò)濾信息時(shí),確定之前過(guò)濾后保留的信息與未經(jīng)過(guò)過(guò)濾 的信息并且屬于同一類(lèi)的信息需要進(jìn)行比較,以及在未經(jīng)過(guò)過(guò)濾的信息之間并 且屬于同一類(lèi)的信息需要進(jìn)行比較,并從需要進(jìn)行比較的兩條信息中選擇部分 信息參與比較。
步驟604:對(duì)參與比較的信息進(jìn)行比較,并根據(jù)比較結(jié)果確定相似的信息。 步驟605:保留相似信息中的一條信息,刪除其它相似信息。 上述方法流程是一種較佳的實(shí)施方式,也可以不對(duì)信息進(jìn)行分類(lèi),僅確定 之前過(guò)濾后保留的信息與未經(jīng)過(guò)過(guò)濾的信息需要進(jìn)行比較,以及在未經(jīng)過(guò)過(guò)濾 的信息之間需要進(jìn)行比較,并從需要進(jìn)行比較的兩條信息中選擇部分信息參與 比較。
本發(fā)明實(shí)施例在過(guò)濾信息過(guò)程中不對(duì)過(guò)濾后保留的信息之間進(jìn)行重復(fù)比 較,減少了過(guò)濾次數(shù),提高了過(guò)濾信息的速度,同時(shí)減輕的過(guò)濾裝置的負(fù)載。 本發(fā)明實(shí)施例還通過(guò)改變信息比較的次序,以減少需要比較的信息量。同時(shí), 本發(fā)明實(shí)施例還只對(duì)同類(lèi)信息進(jìn)行比較,減少需要比較的信息量。并且,本發(fā) 明實(shí)施例只對(duì)信息中的部分信息進(jìn)行比較,減少比較信息的長(zhǎng)度,從而提高了 過(guò)濾信息的速度。
明的精神和范圍。這樣,倘若對(duì)本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求 及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1、一種過(guò)濾信息的方法,其特征在于,包括以下步驟將未過(guò)濾的信息與之前過(guò)濾后保留的信息進(jìn)行比較,并在所述未過(guò)濾的信息中的各條信息之間進(jìn)行比較;以及在確定存在多條信息相似時(shí),僅保留該多條信息中的一條信息。
2、 如權(quán)利要求1所述的過(guò)濾信息的方法,其特征在于,根據(jù)預(yù)設(shè)的條件 將信息進(jìn)行分類(lèi),僅對(duì)同類(lèi)信息進(jìn)行比較。
3、 如權(quán)利要求2所述的過(guò)濾信息的方法,其特征在于,所述預(yù)設(shè)的條件 為多個(gè)。
4、 如權(quán)利要求1所述的過(guò)濾信息的方法,其特征在于,各信息的頭部不 參與比較。
5、 如權(quán)利要求1至4中任一項(xiàng)所述的過(guò)濾信息的方法,其特征在于,從 需要進(jìn)行比較的兩條信息中分別選取一處或多處相同位置且相同長(zhǎng)度的部分 信息,并進(jìn)行比較。
6、 如權(quán)利要求5所述的過(guò)濾信息的方法,其特征在于,在確定至少一處 部分信息相似時(shí),確定所述兩條信息相似;或者,在確定所有部分信息整體相 似時(shí),確定所述兩條信息相似。
7、 如權(quán)利要求1所述的過(guò)濾信息的方法,其特征在于,對(duì)信息進(jìn)行兩兩 比較,在發(fā)現(xiàn)兩條信息相似時(shí)刪除其中 一條信息。
8、 如權(quán)利要求7所述的過(guò)濾信息的方法,其特征在于,當(dāng)所述未過(guò)濾的 信息數(shù)量大于所述之前過(guò)濾后保留的信息數(shù)量時(shí),先將未過(guò)濾的信息與之前過(guò) 濾后保留的信息進(jìn)行比較,再在所述未過(guò)濾的信息中的各條信息之間進(jìn)行比 較;當(dāng)所述之前過(guò)濾后保留的信息數(shù)量大于所述未過(guò)濾的信息數(shù)量時(shí),先在所 述未過(guò)濾的信息中的各條信息之間進(jìn)行比較,再將未過(guò)濾的信息與之前過(guò)濾后 保留的信息進(jìn)行比較。
9、 如權(quán)利要求1所述的過(guò)濾信息的方法,其特征在于,在比較過(guò)程中集中標(biāo)識(shí)相似的信息,以及在比較結(jié)束時(shí)從集中標(biāo)識(shí)的相似信息中選擇一條信息 并保留。
10、 如權(quán)利要求1所述的過(guò)濾信息的方法,其特征在于,進(jìn)行比較的兩條信息中相等的部分與進(jìn)行比較的部分的比值不小于預(yù)設(shè)的閾值時(shí)確定所述兩 條信息相似。
11、 一種用于過(guò)濾信息的裝置,其特征在于,包括 存儲(chǔ)模塊,用于存儲(chǔ)未過(guò)濾的信息和之前過(guò)濾后保留的信息; 比較模塊,用于將未過(guò)濾的信息與之前過(guò)濾后保留的信息進(jìn)行比較,并在所述未過(guò)濾的信息中的各條信息之間進(jìn)行比較,以及確定相似的信息;執(zhí)行模塊,用于在確定存在多條信息相似時(shí),僅保留所述存儲(chǔ)模塊中該多 條信息中的一條信息。
12、 如權(quán)利要求11所述的用于過(guò)濾信息的裝置,其特征在于,還包括 分類(lèi)模塊,用于根據(jù)預(yù)設(shè)的條件將信息進(jìn)行分類(lèi); 所述比較模塊僅對(duì)同類(lèi)信息進(jìn)行比較。
13、 如權(quán)利要求11或12所述的用于過(guò)濾信息的裝置,其特征在于,還包括提^^莫塊,用于從需要進(jìn)行比較的兩條信息中分別選取一處或多處相同位 置且相同長(zhǎng)度的部分信息;所述比較模塊對(duì)需要進(jìn)行比較的兩條信息中選取的部分信息進(jìn)行比較。
全文摘要
本發(fā)明公開(kāi)了一種過(guò)濾信息的方法,用于提高過(guò)濾信息的速度,減輕裝置負(fù)載。所述方法為將未過(guò)濾的信息與之前過(guò)濾后保留的信息進(jìn)行比較,并在所述未過(guò)濾的信息中的各條信息之間進(jìn)行比較;以及,在確定存在多條信息相似時(shí),僅保留該多條信息中的一條信息。本發(fā)明還公開(kāi)了一種用于過(guò)濾信息的裝置。
文檔編號(hào)H04L12/58GK101296220SQ200710097408
公開(kāi)日2008年10月29日 申請(qǐng)日期2007年4月29日 優(yōu)先權(quán)日2007年4月29日
發(fā)明者馮凌圣, 陳思儒 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司