專利名稱:識別概念型網(wǎng)頁的方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息處理領(lǐng)域,更具體地,涉及一種識別概念 型網(wǎng)頁的方法和系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)及其它數(shù)據(jù)網(wǎng)和系統(tǒng)中使用的文本和多媒體內(nèi)容的迅速增加,網(wǎng)絡(luò)信息的韻:據(jù)量急劇增加。因此,如何幫助用戶盡量 快速地、盡量準(zhǔn)確地從海量的網(wǎng)絡(luò)信息中獲取所需要的信息,成為 網(wǎng)絡(luò)信息處理領(lǐng)域中的熱點(diǎn)問題。"相克念"通常是指對特征的獨(dú)特組合而形成的知識單元(或一 般的語義單元)。概念型文檔通常以對概念的解釋作為文檔的主題, 圍繞同一沖既念的內(nèi)涵和外延展開描述?,F(xiàn)有技術(shù)提出了對各種各樣的網(wǎng)絡(luò)信息進(jìn)行分析處理的技術(shù)方 案,以滿足用戶的信息需求。其中,在專利《一種概念型文檔的識 別方法和系統(tǒng)》(7>開號CN101004753A,下文簡稱為發(fā)明1)中 分析指出,用戶在搜索行為中,在同樣匹配查詢關(guān)鍵詞的情況下, 概念型文檔通常是最佳的選擇答案。因此有必要從網(wǎng)絡(luò)文檔集合中 分析并識別出這一類型。同時(shí),由于相克念型文檔在傳統(tǒng)搜索排序方 式中通常位于搜索結(jié)果列表中較為落后的位置,所以與概念型文檔 通常為用戶最佳選擇答案相沖突,從而降低了獲取信息的效率。因 此,有必要對此類文檔進(jìn)行專門高效的識別。發(fā)明1中給出了一種獨(dú)立、自動并高效率的識別概念型文檔的手段,但其在實(shí)際應(yīng)用中存在以下問題(l)發(fā)明l的方法有一定 的錯誤機(jī)率。比如在文學(xué)作品中的比喻、擬人等修辭手法的應(yīng)用會 導(dǎo)致該文檔被錯誤的識別為概念性文檔。例如,"人民軍隊(duì)就是我們 的親人,就是我們的鋼鐵長城。"同下一句相比"太陽黑子就是一 種太陽活動現(xiàn)象。"在文本描述方式上,很難由程序自動識別它是否 在描述一個概念。除了作為句子主體的名詞不同之外,其他表述方 式完全一致。從理i侖上來講,4又在發(fā)明1的系統(tǒng)本身上進(jìn)行調(diào)整, 無法達(dá)到區(qū)分這兩者的能力;以及(2)發(fā)明1的方法會有一定程度 的遺漏。即,發(fā)明1雖然保證了識別的相對準(zhǔn)確和高效率,但并不 保證覆蓋識別所有的概念型文檔。尤其是互聯(lián)網(wǎng)中,比如一些概念 型文檔頁面的描述中不會出現(xiàn)概念詞本身,而是將概念詞作為頁面 的標(biāo)題單獨(dú)展現(xiàn);也有一些概念型文檔內(nèi)容非常簡短,不足以作為 用發(fā)明1的方法來進(jìn)行判定的充分依據(jù)。發(fā)明1的方法在概念型文 檔識別的準(zhǔn)確率和召回率上都存在一些固有的缺陷,或是由于方法 的局限,或是由于文檔的多樣性。此外,即使是識別準(zhǔn)確的概念型 文檔,在用戶行為分析中可以發(fā)現(xiàn),用戶對于站點(diǎn)權(quán)威性的理解, 會影響到搜索結(jié)果的選取。對于能提供大量概念型文檔的網(wǎng)站的結(jié) 果,用戶會更傾向于信任和選?。欢鴥H擁有少量概念型文檔的網(wǎng)站, 用戶認(rèn)知度不高,結(jié)果也比較難以取信。因此,發(fā)明1的方法雖然 在技術(shù)上提供了一種快速準(zhǔn)確識別概念型文檔的手段,但還不能完 全滿足用戶搜索的需求。因此,需要一種識別和無念型網(wǎng)頁的解決方案,以解決上述相關(guān) 才支術(shù)中的問題。發(fā)明內(nèi)容本發(fā)明旨在提供一種能夠提高搜索質(zhì)量的識別概念型網(wǎng)頁的方 法和系統(tǒng)。根據(jù)本發(fā)明的一個方面,本發(fā)明提供了 一種識別概念型網(wǎng)頁的方法,包括以下步驟在網(wǎng)頁數(shù)據(jù)庫中獲取多個概念型網(wǎng)頁;將各 站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量與第 一 閾值進(jìn)行比 較,將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的目錄確定為概念 型目錄;將4寺識別網(wǎng)頁的URI與每個相克念型目錄進(jìn)4亍匹配,如果匹 配,則將該待識別網(wǎng)頁確定為概念型網(wǎng)頁。在確定概念型目錄的步驟后還包括對概念型目錄下的所有網(wǎng) 頁進(jìn)行分類;以及將概念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng)頁 的共有類別確定為扭X念型目錄的類別。在將待識別網(wǎng)頁確定為扭克念型網(wǎng)頁的步驟后還包括將4皮確定 為才既念型網(wǎng)頁的網(wǎng)頁添加于類別中。在確定概念型目錄的步驟后還包括統(tǒng)計(jì)概念型目錄下的各級 目錄的非概念型網(wǎng)頁的URI數(shù)量,在非概念型網(wǎng)頁的URI數(shù)量大于 第二閾值的情況下,將非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。^l奪;f寺識別網(wǎng)頁確定為和無念型網(wǎng)頁的步驟還包4舌爿年4寺識別網(wǎng)頁 與各非概念型目錄進(jìn)行匹配,如果與各非概念型目錄均不匹配,則 將待識別網(wǎng)頁確定為概念型網(wǎng)頁,否則將待識別網(wǎng)頁確定為非概念 型網(wǎng)頁。確定4既念型目錄的步驟包括統(tǒng)計(jì)每個網(wǎng)站域名目錄下的相克念 型網(wǎng)頁的URI數(shù)量,并將其與第一閾值進(jìn)行比較,當(dāng)網(wǎng)站域名目錄 下的概念型網(wǎng)頁的URI數(shù)量大于第一閾值時(shí),將站點(diǎn)域名目錄確定 為概念型目錄;以及統(tǒng)計(jì)站點(diǎn)域名下級目錄的概念型網(wǎng)頁的URI數(shù) 量,并將其與第一閾值進(jìn)行比較,當(dāng)站點(diǎn)域名下級目錄的概念型網(wǎng) 頁的URI數(shù)量大于第一閾值,將站點(diǎn)域名下級目錄確定為概念型目錄;以及如此重復(fù)操作,直至所統(tǒng)計(jì)的目錄的概念型網(wǎng)頁的URI數(shù) 量不大于第一閾值或所統(tǒng)計(jì)的目錄沒有下級目錄。
獲取多個概念型網(wǎng)頁步驟包括利用概念型網(wǎng)頁識別算法來獲 耳又多個所述扭克念型網(wǎng)頁。
根據(jù)本發(fā)明的另 一個方面,提供了 一種識別概念型網(wǎng)頁的系統(tǒng), 包括獲取模塊,用于在網(wǎng)頁數(shù)據(jù)庫中獲取多個概念型網(wǎng)頁;概念 型目錄確定模塊,用于將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的 URI數(shù)量與第一閾值進(jìn)行比較,將其下概念型網(wǎng)頁的URI數(shù)量大于 第一閾值的目錄確定為4既念型目錄;以及匹配及確定才莫塊,用于將 待識別網(wǎng)頁的URI與每個概念型目錄進(jìn)行匹配,如果匹配,則將該 4寺識別網(wǎng)頁確定為扭無念型網(wǎng)頁。
該系統(tǒng)還包括類別確定才莫塊,用于對和克念型目錄下的所有網(wǎng) 頁進(jìn)行分類,并將概念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng)頁的 共有類別確定為概念型目錄的類別;以及添加才莫塊,用于將被確定 為沖既念型網(wǎng)頁的網(wǎng)頁添加至該類別中。
該系統(tǒng)還包括非概念型目錄確定模塊,用于統(tǒng)計(jì)概念型目錄 下的各級目錄的非概念型網(wǎng)頁的URI數(shù)量,在非概念型網(wǎng)頁的URI 數(shù)量大于第二閾值的情況下,將非概念型網(wǎng)頁所在的目錄確定為非 概念型目錄。
匹配及確定模塊還用于將待識別網(wǎng)頁與非概念型目錄進(jìn)行匹 配,如果與各非概念型目錄均不匹配,則將待識別網(wǎng)頁確定為概念 型網(wǎng)頁,否則將待識別網(wǎng)頁確定為非概念型網(wǎng)頁。
獲取模塊使用概念型網(wǎng)頁識別算法來獲取多個概念型網(wǎng)頁。概念型目錄確定才莫塊包括第一統(tǒng)計(jì)才莫塊,用于統(tǒng)計(jì)每個網(wǎng)站 域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量;第一比較模塊,用于 將概念型網(wǎng)頁的URI數(shù)量與第 一閾值進(jìn)行比較;以及第 一確定模塊, 用于將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的概念型目錄確定 為概念型目錄。
非概念型目錄確定模塊包括第二統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)概念型 目錄下的各級目錄的非概念型網(wǎng)頁的URI數(shù)量;第二比較模塊,用 于將非概念型網(wǎng)頁的URI數(shù)量和第二閾值進(jìn)行比較;以及第二確定 模塊,用于在非概念型網(wǎng)頁的URI數(shù)量大于第二閾值的情況下,將 非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。
本發(fā)明利用概念型網(wǎng)頁的分布特征,過濾掉一些包含4艮少概念 型頁面的網(wǎng)站,并使分布較為集中、概念型頁面數(shù)量較多的站點(diǎn)相 比于包含較少相克念型網(wǎng)頁的站點(diǎn)更容易#1選取出來作為概念型目 錄。這樣,通過本發(fā)明就不會將可信度較低的頁面識別為概念型頁 面,從而可以展現(xiàn)更好的4叟索結(jié)果。
通過本發(fā)明可以快速全面地識別網(wǎng)頁是否為概念型網(wǎng)頁及其類 別,對于從大規(guī)模網(wǎng)頁數(shù)據(jù)中識別概念型文檔,不僅提高了識別速 度,而且還明顯改善了覆蓋率。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部 分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā) 明的目的和其他優(yōu)點(diǎn)可通過在所寫的i兌明書、權(quán)利要求書、以及附 圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
此處所i兌明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申
請的一部分,本發(fā)明的示意性實(shí)施例及其iJt明用于解釋本發(fā)明,并 不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中
圖1是4艮據(jù)本發(fā)明第一實(shí)施例的識別4既念型網(wǎng)頁方法的流程
圖2是根據(jù)本發(fā)明第二實(shí)施例的識別概念型網(wǎng)頁系統(tǒng)的方框
圖3A、圖3B以及圖3C是根據(jù)本發(fā)明第三實(shí)施例的識別概念 型網(wǎng)頁方法各個步驟的;;克禾呈圖;以及
圖4是才艮據(jù)本發(fā)明實(shí)施例第四實(shí)施例的利用預(yù)分類概念詞獲取 分類概念型網(wǎng)站和同類概念詞的方法流程圖。
具體實(shí)施例方式
下面將參考附圖并結(jié)合實(shí)施例,來詳細(xì)說明本發(fā)明。全文中, 相同參考標(biāo)號表示相同元件。
圖1是根據(jù)本發(fā)明第一實(shí)施例的識別概念型網(wǎng)頁方法的流程圖。
參照圖1,根據(jù)本發(fā)明實(shí)施例的識別概念型網(wǎng)頁方法包括以下 步驟
步驟S102,在網(wǎng)頁H據(jù)庫中獲取多個相克念型網(wǎng)頁;步驟S104,將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的URI 數(shù)量與第一閾值進(jìn)行比較,將其下概念型網(wǎng)頁的URI數(shù)量大于第一 閾值的目錄確定為概念型目錄;以及
步驟S106,將待識別網(wǎng)頁的URI與每個概念型目錄進(jìn)行匹配, 如果匹配,則將該待識別網(wǎng)頁確定為概念型網(wǎng)頁。
在步驟S104后還包括確定概念型目錄下網(wǎng)頁的類別。例如, 對心臟病、冠心病、糖尿病等病癥進(jìn)行解釋的概念型網(wǎng)頁,根據(jù)各 網(wǎng)頁的類別,該概念型目錄的類別應(yīng)為疾病健康類。
在步驟S106后還包括對概念型目錄下的所有網(wǎng)頁進(jìn)行分類, 以及將概念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng)頁的共有類別確 定為概念型目錄的類別。如果通過該方法將關(guān)于肺炎的網(wǎng)頁確定為 概念型網(wǎng)頁,則該網(wǎng)頁應(yīng)歸入上述的疾病健康類的類別中。
在步驟S104后還包括統(tǒng)計(jì)概念型目錄下的各級目錄的非概 念型網(wǎng)頁的URI數(shù)量,在非概念型網(wǎng)頁的URI數(shù)量大于第二閾值的 情況下,將非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。
步驟S106還包括將待識別網(wǎng)頁與各非概念型目錄進(jìn)行匹配, 如果與各非概念型目錄均不匹配,則將待識別網(wǎng)頁確定為概念型網(wǎng) 頁,否則將待識別網(wǎng)頁確定為非概念型網(wǎng)頁。
步驟S104包括統(tǒng)計(jì)每個網(wǎng)站域名目錄下的概念型網(wǎng)頁的URI 數(shù)量,并將其與第一闊值進(jìn)行比較,當(dāng)網(wǎng)站域名目錄下的概念型網(wǎng) 頁的URI數(shù)量大于第一閾值時(shí),將站點(diǎn)域名目錄確定為概念型目錄; 以及統(tǒng)計(jì)站點(diǎn)域名下級目錄的概念型網(wǎng)頁的URI數(shù)量,并將其與第 一閾值進(jìn)行比較,當(dāng)站點(diǎn)域名下級目錄的概念型網(wǎng)頁的URI數(shù)量大 于第一闊值,將站點(diǎn)域名下級目錄確定為概念型目錄;以及如此重復(fù)操作,直至所統(tǒng)計(jì)的目錄的概念型網(wǎng)頁的URI數(shù)量不大于第一閾 ^直或所統(tǒng)計(jì)的目錄沒有下級目錄。
步驟S102包4舌利用相克念型網(wǎng)頁識別算法來獲取多個所述才既 念型網(wǎng)頁。
圖2是根據(jù)本發(fā)明第二實(shí)施例的識別概念型網(wǎng)頁系統(tǒng)的方框圖。
參照圖2,識別概念型網(wǎng)頁的系統(tǒng)200,包括獲取模塊202, 用于在網(wǎng)頁數(shù)據(jù)庫中獲耳又多個概念型網(wǎng)頁;概念型目錄確定沖莫塊 204,用于將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量與 第一閾值進(jìn)行比較,將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的 目錄確定為概念型目錄;以及匹配及確定模塊206,用于將待識別 網(wǎng)頁的URI與每個概念型目錄進(jìn)行匹配,如果匹配,則將該4寺識別 網(wǎng)頁確定為和克念型網(wǎng)頁。
該系統(tǒng)還包括類別確定才莫塊208,用于對概念型目錄下的所 有網(wǎng)頁進(jìn)行分類,并將概念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng) 頁的共有類別確定為4既念型目錄的類別;以及添加才莫塊210,用于 將被確定為概念型網(wǎng)頁的網(wǎng)頁添加至該類別中。
該系統(tǒng)還包括非概念型目錄確定模塊212,用于統(tǒng)計(jì)概念型 目錄下的各級目錄的非概念型網(wǎng)頁的URI數(shù)量,在非概念型網(wǎng)頁的 URI數(shù)量大于第二閾值的情況下,將非概念型網(wǎng)頁所在的目錄確定 為非概念型目錄。
匹配及確定模塊206還用于將待識別網(wǎng)頁與非概念型目錄進(jìn)行 匹配,如果與各非概念型目錄均不匹配,則將待識別網(wǎng)頁確定為概 念型網(wǎng)頁,否則將待識別網(wǎng)頁確定為非概念型網(wǎng)頁。獲取模塊202使用概念型網(wǎng)頁識別算法來獲取多個概念型網(wǎng)頁。概念型目錄確定模塊204包括第一統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)每個 網(wǎng)站域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量;第一比較才莫塊, 用于將概念型網(wǎng)頁的URI數(shù)量與第一閾值進(jìn)行比較;以及第一確定 模塊,用于將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的概念型目 錄確定為相X念型目錄。非概念型目錄確定模塊212包括第二統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)概 念型目錄下的各級目錄的非概念型網(wǎng)頁的URI數(shù)量;第二比較模塊, 用于將非概念型網(wǎng)頁的URI數(shù)量和第二閾值進(jìn)行比較;以及第二確 定模塊,用于在非概念型網(wǎng)頁的URI數(shù)量大于第二閾值的情況下, 將非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。圖3A、圖3B以及圖3C是根據(jù)本發(fā)明第三實(shí)施例的識別概念 型站點(diǎn)分布方法各個步驟的流程圖。參照圖3A,發(fā)現(xiàn)相克念型站點(diǎn)的方法包括以下步艱《步驟S302a,使用發(fā)明1的概念型文檔識別算法對網(wǎng)頁集合進(jìn) 行處理以得到概念型網(wǎng)頁集合;以及步驟S304a,對概念型網(wǎng)頁集合的URI進(jìn)行統(tǒng)計(jì)處理。在步驟302a中,網(wǎng)頁集合的元素是單個網(wǎng)頁文檔,集合與用戶 搜索需要查詢的網(wǎng)頁集合相同或者近似相同,不關(guān)心網(wǎng)頁集合的數(shù) 寺居來源,4旦要求每個網(wǎng)頁4呆留原有的URI作為網(wǎng)頁的p舉一朽:識。其中,步驟S304a包括依次統(tǒng)計(jì)每個網(wǎng)站域名下的概念型網(wǎng) 頁URI總數(shù),記錄URI總數(shù)超過某一預(yù)定閾值N的站點(diǎn)域名(如A.com)和該域名下概念型網(wǎng)頁URI的總數(shù);對選取出的站點(diǎn),做 進(jìn)一步的統(tǒng)計(jì)以統(tǒng)計(jì)在下級目錄下的URI總凄t,如果某一目錄下的 URI總數(shù)仍然超出預(yù)定的閾值N,則用記錄該目錄的URI (如 A.com/Z/),并替換已經(jīng)記錄的上級域名(A.com);如此逐級目錄 分析,直到?jīng)]有超出閾值N的子目錄或者沒有下一級子目錄可以進(jìn) 行分析。發(fā)現(xiàn)概念型站點(diǎn)中的非概念型目錄是通過在發(fā)現(xiàn)概念型站點(diǎn)的 基礎(chǔ)上,繼續(xù)分析概念型目錄集合中非概念型頁面的分布情況實(shí)現(xiàn) 的。參照圖3B,發(fā)現(xiàn)概念型站點(diǎn)中的非概念型目錄的步驟包括步驟S302b,利用站點(diǎn)匹配的方法, -使用步驟S304a中生成的 沖既念型目錄集合與網(wǎng)頁集合中的網(wǎng)頁的URI進(jìn)4亍匹配,匹配成功的 加入"概念型網(wǎng)頁集合*";步驟S304b,在"概念型網(wǎng)頁集合*"中,執(zhí)行發(fā)明1的概念型 文檔識別算法,將識別為非概念型文檔的網(wǎng)頁加入非概念型網(wǎng)頁集 合;以及步驟S306b,以相無念型目錄集合內(nèi)的URI ( A.com/Z )為基礎(chǔ), 統(tǒng)計(jì)非概念型網(wǎng)頁集合里網(wǎng)頁的URI在概念型目錄以下各級的分布 情況,如果在某一級目錄下非概念型網(wǎng)頁的比例超過某一預(yù)定閾值 K,則記錄該級目錄并停止對該目錄做進(jìn)一步的分析。圖3C示出了利用圖3B中的步驟生成的概念型目錄集合和圖 3B中的步驟生成的非概念型目錄集合,使用簡化的概念型文檔分析 算法(以下簡稱方法2),分析識別概念型網(wǎng)頁的方法。步驟S302c,使用概念型站點(diǎn)集合依次匹配輸入網(wǎng)頁的URI。 其中,如果匹配概念型目錄集合失敗,則不識別為概念型網(wǎng)頁;如 果匹配概念型目錄集合成功,繼續(xù)使用非概念型目錄集合進(jìn)行類似匹配;如果匹配非相克念型目錄集合成功,則不i口、別為扭克念型網(wǎng)頁; 如果匹配非概念型目錄集合失敗,則將該頁面識別為概念型頁面, 并才是取和X念詞。步驟S302c的實(shí)例如下由圖3A中的步驟獲得概念型目錄集合(XXX:〃A.com/Z, XXX:〃A.com/Y, XXX://B.com/W}由圖3B中的步驟獲得非概念型目錄集合(XXX:〃A.com/Z/M, XXX:〃A.comA7N/P, XXX:服com/W/Q〉則圖3C中的步驟對于以下URI的判斷結(jié)果分別為XXX:〃A.com/Z/H/l.html概念型(匹配XXX:〃A.com/Z )XXX:〃A.com/Z/M/2.html 非沖既念型(匹配XXX:〃A.com/Z 且匹配XXX:〃A.com/Z/M )XXX:〃A.comA7N/R/3.html相克念型(匹配XXX:〃A.com/Y )XXX:〃B.com/4.html 非扭克念型XXX:〃C.com/5.html 非相克念型在圖3A、圖3B以及圖3C的三個步驟中,圖3A中的步艱《和 圖3B中的步驟是以發(fā)明1的方法作為基礎(chǔ)來分析概念型站點(diǎn)的分 布情況。然而,其也可以不利用發(fā)明1的方法,即,可將"相無念型 識別算法"替換成其他有效的概念型文檔識別算法。圖3C中的步 驟是識別概念型站點(diǎn)分布的應(yīng)用,利用概念型站點(diǎn)分布的統(tǒng)計(jì)結(jié)果, 只識別特定的數(shù)據(jù)作為概念型網(wǎng)頁。在概念型站點(diǎn)分布結(jié)果預(yù)先分 析出來的基礎(chǔ)上,識別效率^艮高。由于相無念型網(wǎng)頁在互耳關(guān)網(wǎng)中具有密集型分布的特點(diǎn),利用概念型站點(diǎn)分布識別概念型文檔能夠有效 的彌補(bǔ)識別算法的缺陷,雖然會損失部分站點(diǎn)的數(shù)據(jù),但識別出的 概念型文檔總數(shù)會有一定規(guī)模的提升,而且由于站點(diǎn)內(nèi)部相克念型數(shù) 據(jù)分布密集,對于用戶而言,搜索結(jié)果的可信度也得到了提升,效 果會優(yōu)于獨(dú)立的概念型文檔識別。圖4是4艮據(jù)本發(fā)明實(shí)施例第四實(shí)施例的利用預(yù)分類概念詞獲取 分類相克念型網(wǎng)站和同類相克念詞的方法流禾呈圖。由于概念型文檔在一些專業(yè)網(wǎng)站中具有集中性質(zhì)的分布,可以 利用一些已知的特定類別概念詞,在圖3C中的步驟分析出才既念型 文檔并4是取相克念詞之后,進(jìn)4亍匹配。匹配成功后,記錄該扭克念型文 檔在識別過程中命中的概念型目錄集合,作為該類別概念詞對應(yīng)的 概念型目錄集合。比如在圖 3C 中實(shí)例中,如果 XXX:〃A.com/Z/H/l.html提取的概念詞與分類曱中的概念詞匹配, 則在分類曱對應(yīng)的相克念型目錄集合中i己錄概念型目錄 XX乂:〃A.com/Z。參照圖4,才艮據(jù)本發(fā)明實(shí)施例第四實(shí)施例的利用預(yù)分類和無念詞 獲耳又分類概念型網(wǎng)站和同類概念詞的方法包括以下步驟步驟S402,在得到若干分類的概念型目錄集合后,統(tǒng)計(jì)每個概 念型目錄對應(yīng)的類別信息,在預(yù)先提供的用于匹配的分類概念詞充 分全面的情況下,如果某個概念型目錄〗又對應(yīng)一種或有限幾種類別, 或者與某一種或者有限幾種類別匹配的詞占該目錄匹配的所有預(yù)先 提供的分類詞的比例超出預(yù)定閾值Q,同時(shí),與某一種或者有限幾 種類別匹配的概念詞總數(shù)超出預(yù)定閾值P,則可以認(rèn)為,該相無念型 目錄下的文檔,老卩屬于》t應(yīng)的這一種或者有限幾種類別,而該相克念 型目錄下的文檔所^是取出來的扭克念詞,也基本屬于這一種或者有限幾種類別,即,利用概念型目錄下的概念詞類別分布,可以分析出 可能的分類概念型目錄,以及進(jìn)一步發(fā)掘同類的相克念詞。本發(fā)明利用概念型網(wǎng)頁的分布特征,過濾掉一些包含4艮少概念 型頁面的網(wǎng)站,并使分布較為集中、概念型頁面數(shù)量較多的站點(diǎn)相 比于包含較少概念型網(wǎng)頁的站點(diǎn)更容易被選取出來作為概念型目 錄。這樣,通過本發(fā)明就不會將可信度較低的頁面識別為概念型頁 面,從而可以展現(xiàn)更好的搜索結(jié)果。通過本發(fā)明可以快速全面地識別網(wǎng)頁是否為扭無念型網(wǎng)頁及其類 別,對于從大規(guī)模網(wǎng)頁數(shù)據(jù)中識別概念型文檔,不僅提高了識別速 度,而且還明顯改善了覆蓋率。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明, 對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在 本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等, 均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種識別概念型網(wǎng)頁的方法,其特征在于,包括以下步驟在網(wǎng)頁數(shù)據(jù)庫中獲取多個概念型網(wǎng)頁;將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量與第一閾值進(jìn)行比較,將其下所述概念型網(wǎng)頁的URI數(shù)量大于所述第一閾值的目錄確定為概念型目錄;以及將待識別網(wǎng)頁的URI與每個所述概念型目錄進(jìn)行匹配,如果匹配,則將該待識別網(wǎng)頁確定為概念型網(wǎng)頁。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述確定概念型 目錄的步驟后還包括對所述相克念型目錄下的所有網(wǎng)頁進(jìn)4亍分類;以及將所述概念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng)頁的 共有類別確定為所述和無念型目錄的類別。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,在將待識別網(wǎng)頁確 定為4既念型網(wǎng)頁的步驟后還包括將4皮確定為所述概念型網(wǎng)頁的網(wǎng)頁添加至所述類別中。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述確定概念型 目錄的步眾《后還包4臺統(tǒng)計(jì)所述相無念型目錄下的各級目錄的非和克念型網(wǎng)頁的 URI數(shù)量,在所述非概念型網(wǎng)頁的URI數(shù)量大于第二閾值的 情況下,將所述非概念型網(wǎng)頁所在的目錄確定為非概念型目 錄。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述將待識別網(wǎng)頁 確定為和克念型網(wǎng)頁的步驟還包4舌將所述待識別網(wǎng)頁與各所述非概念型目錄進(jìn)行匹配,如果 與各所述非概念型目錄均不匹配,則將所述;f寺識別網(wǎng)頁確定為 所述相克念型網(wǎng)頁,否則將所述待識別網(wǎng)頁確定為非相無念型網(wǎng) 頁。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定概念型目 錄的步驟包括統(tǒng)計(jì)每個所述網(wǎng)站i或名目錄下的所述和克念型網(wǎng)頁的URI 數(shù)量,并將其與所述第一闊值進(jìn)行比較,當(dāng)所述網(wǎng)站域名目錄 下的所述概念型網(wǎng)頁的URI數(shù)量大于所述第一閾值時(shí),將所 述站點(diǎn)域名目錄確定為所述概念型目錄;以及統(tǒng)計(jì)所述站點(diǎn)域名下級目錄的概念型網(wǎng)頁的URI數(shù)量, 并將其與所述第一閾值進(jìn)行比較,當(dāng)所述站點(diǎn)域名下級目錄的概念型網(wǎng)頁的URI凄t量大于所述第一閾值,將所述站點(diǎn)域名 下級目錄確定為所述相克念型目錄;以及如此重復(fù)搮:作,直至所 統(tǒng)計(jì)的目錄的所述相克念型網(wǎng)頁的URI凄t量不大于所述第一閾 值或所統(tǒng)計(jì)的目錄沒有下級目錄。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述獲取多個概念 型網(wǎng)頁步驟包4舌利用概念型網(wǎng)頁識別算法來獲取多個所述概念型網(wǎng)頁。
8. —種識別4既念型網(wǎng)頁的系統(tǒng),其特4正在于,包4舌獲取才莫塊,用于在網(wǎng)頁數(shù)據(jù)庫中獲取多個概念型網(wǎng)頁;概念型目錄確定模塊,用于將各站點(diǎn)域名的各級目錄下的 概念型網(wǎng)頁的URI數(shù)量與第一閾值進(jìn)行比較,將其下所述概念型網(wǎng)頁的URI數(shù)量大于所述第一閾值的目錄確定為4既念型 目錄;以及匹配及確定才莫塊,用于將待識別網(wǎng)頁的URI與每個所述 沖既念型目錄進(jìn)4亍匹配,如果匹配,則將該4寺識別網(wǎng)頁確定為才既 念型網(wǎng)頁。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,還包括類別確定 模塊,用于對所述概念型目錄下的所有網(wǎng)頁進(jìn)行分類,并將所 述沖既念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng)頁的共有類別 確定為所述相無念型目錄的類別;以及添加才莫塊,用于將凈皮確定 為所述4既念型網(wǎng)頁的網(wǎng)頁添加至所述類別中。
10. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,還包括非概念型 目錄確定才莫塊,用于統(tǒng)計(jì)所述概念型目錄下的各級目錄的所述 非概念型網(wǎng)頁的URI數(shù)量,在所述非概念型網(wǎng)頁的URI數(shù)量 大于第二閾值的情況下,將所述非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述匹配及確定 模塊還用于將所述待識別網(wǎng)頁與所述非概念型目錄進(jìn)行匹配, 如果與各所述非相無念型目錄均不匹配,則將所述;f寺識別網(wǎng)頁確定為所述概念型網(wǎng)頁,否則將所述待識別網(wǎng)頁確定為所述非概 念型網(wǎng)頁。
12. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述獲取模塊使用 概念型網(wǎng)頁識別算法來獲取多個所述概念型網(wǎng)頁。
13. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述概念型目錄確 定模塊包括第一統(tǒng)計(jì)才莫塊,用于統(tǒng)計(jì)每個所述網(wǎng)站域名的各級目錄下 的所述概念型網(wǎng)頁的URI數(shù)量;第一比較模塊,用于將所述概念型網(wǎng)頁的URI數(shù)量與所 述第一閾值進(jìn)行比較;以及第一確定模塊,用于將其下所述概念型網(wǎng)頁的URI數(shù)量 大于所述第一閾值的概念型目錄確定為所述概念型目錄。
14. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述非概念型目 錄確定模塊包括第二統(tǒng)計(jì)模塊,用于統(tǒng)計(jì)所述概念型目錄下的各級目錄的 非概念型網(wǎng)頁的URI數(shù)量;第二比較模塊,用于將所述非概念型網(wǎng)頁的URI數(shù)量和 所述第二閾值進(jìn)行比較;以及第二確定才莫塊,用于在所述非概念型網(wǎng)頁的URI數(shù)量大 于所述第二閾值的情況下,將所述非相克念型網(wǎng)頁所在的目錄確 定為非概念型目錄。
全文摘要
本發(fā)明公開了識別概念型網(wǎng)頁的方法和系統(tǒng),該方法包括以下步驟在網(wǎng)頁數(shù)據(jù)庫中獲取多個概念型網(wǎng)頁;將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量與第一閾值進(jìn)行比較,將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的目錄確定為概念型目錄;將待識別網(wǎng)頁的URI與每個概念型目錄進(jìn)行匹配,如果匹配,則將該待識別網(wǎng)頁確定為概念型網(wǎng)頁。通過本發(fā)明可以快速全面地識別網(wǎng)頁是否為概念型網(wǎng)頁及其類別,對于從大規(guī)模網(wǎng)頁數(shù)據(jù)中識別概念型文檔,不僅提高了識別速度,而且還明顯改善了覆蓋率。
文檔編號G06F17/30GK101404031SQ20081022576
公開日2009年4月8日 申請日期2008年11月12日 優(yōu)先權(quán)日2008年11月12日
發(fā)明者琳 劉 申請人:北京搜狗科技發(fā)展有限公司