識別概念型網(wǎng)頁的方法與系統(tǒng)的制作方法

文檔序號：6471075閱讀：204來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：識別概念型網(wǎng)頁的方法與系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及網(wǎng)絡(luò)信息處理領(lǐng)域，更具體地，涉及一種識別概念型網(wǎng)頁的方法和系統(tǒng)。
背景技術(shù)：
隨著互聯(lián)網(wǎng)及其它數(shù)據(jù)網(wǎng)和系統(tǒng)中使用的文本和多媒體內(nèi)容的迅速增加，網(wǎng)絡(luò)信息的韻:據(jù)量急劇增加。因此，如何幫助用戶盡量快速地、盡量準(zhǔn)確地從海量的網(wǎng)絡(luò)信息中獲取所需要的信息，成為網(wǎng)絡(luò)信息處理領(lǐng)域中的熱點(diǎn)問題。"相克念"通常是指對特征的獨(dú)特組合而形成的知識單元(或一般的語義單元)。概念型文檔通常以對概念的解釋作為文檔的主題，圍繞同一沖既念的內(nèi)涵和外延展開描述?，F(xiàn)有技術(shù)提出了對各種各樣的網(wǎng)絡(luò)信息進(jìn)行分析處理的技術(shù)方案，以滿足用戶的信息需求。其中，在專利《一種概念型文檔的識別方法和系統(tǒng)》(7>開號CN101004753A,下文簡稱為發(fā)明1)中分析指出，用戶在搜索行為中，在同樣匹配查詢關(guān)鍵詞的情況下，概念型文檔通常是最佳的選擇答案。因此有必要從網(wǎng)絡(luò)文檔集合中分析并識別出這一類型。同時(shí)，由于相克念型文檔在傳統(tǒng)搜索排序方式中通常位于搜索結(jié)果列表中較為落后的位置，所以與概念型文檔通常為用戶最佳選擇答案相沖突，從而降低了獲取信息的效率。因此，有必要對此類文檔進(jìn)行專門高效的識別。發(fā)明1中給出了一種獨(dú)立、自動并高效率的識別概念型文檔的手段，但其在實(shí)際應(yīng)用中存在以下問題(l)發(fā)明l的方法有一定的錯誤機(jī)率。比如在文學(xué)作品中的比喻、擬人等修辭手法的應(yīng)用會導(dǎo)致該文檔被錯誤的識別為概念性文檔。例如，"人民軍隊(duì)就是我們的親人，就是我們的鋼鐵長城。"同下一句相比"太陽黑子就是一種太陽活動現(xiàn)象。"在文本描述方式上，很難由程序自動識別它是否在描述一個概念。除了作為句子主體的名詞不同之外，其他表述方式完全一致。從理i侖上來講，4又在發(fā)明1的系統(tǒng)本身上進(jìn)行調(diào)整，無法達(dá)到區(qū)分這兩者的能力；以及(2)發(fā)明1的方法會有一定程度的遺漏。即，發(fā)明1雖然保證了識別的相對準(zhǔn)確和高效率，但并不保證覆蓋識別所有的概念型文檔。尤其是互聯(lián)網(wǎng)中，比如一些概念型文檔頁面的描述中不會出現(xiàn)概念詞本身，而是將概念詞作為頁面的標(biāo)題單獨(dú)展現(xiàn)；也有一些概念型文檔內(nèi)容非常簡短，不足以作為用發(fā)明1的方法來進(jìn)行判定的充分依據(jù)。發(fā)明1的方法在概念型文檔識別的準(zhǔn)確率和召回率上都存在一些固有的缺陷，或是由于方法的局限，或是由于文檔的多樣性。此外，即使是識別準(zhǔn)確的概念型文檔，在用戶行為分析中可以發(fā)現(xiàn)，用戶對于站點(diǎn)權(quán)威性的理解，會影響到搜索結(jié)果的選取。對于能提供大量概念型文檔的網(wǎng)站的結(jié) 果，用戶會更傾向于信任和選?。欢鴥H擁有少量概念型文檔的網(wǎng)站，用戶認(rèn)知度不高，結(jié)果也比較難以取信。因此，發(fā)明1的方法雖然在技術(shù)上提供了一種快速準(zhǔn)確識別概念型文檔的手段，但還不能完全滿足用戶搜索的需求。因此，需要一種識別和無念型網(wǎng)頁的解決方案，以解決上述相關(guān) 才支術(shù)中的問題。發(fā)明內(nèi)容本發(fā)明旨在提供一種能夠提高搜索質(zhì)量的識別概念型網(wǎng)頁的方法和系統(tǒng)。根據(jù)本發(fā)明的一個方面，本發(fā)明提供了一種識別概念型網(wǎng)頁的方法，包括以下步驟在網(wǎng)頁數(shù)據(jù)庫中獲取多個概念型網(wǎng)頁；將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量與第一閾值進(jìn)行比較，將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的目錄確定為概念型目錄；將4寺識別網(wǎng)頁的URI與每個相克念型目錄進(jìn)4亍匹配，如果匹配，則將該待識別網(wǎng)頁確定為概念型網(wǎng)頁。在確定概念型目錄的步驟后還包括對概念型目錄下的所有網(wǎng) 頁進(jìn)行分類；以及將概念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng)頁的共有類別確定為扭X念型目錄的類別。在將待識別網(wǎng)頁確定為扭克念型網(wǎng)頁的步驟后還包括將4皮確定為才既念型網(wǎng)頁的網(wǎng)頁添加于類別中。在確定概念型目錄的步驟后還包括統(tǒng)計(jì)概念型目錄下的各級目錄的非概念型網(wǎng)頁的URI數(shù)量，在非概念型網(wǎng)頁的URI數(shù)量大于第二閾值的情況下，將非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。^l奪;f寺識別網(wǎng)頁確定為和無念型網(wǎng)頁的步驟還包4舌爿年4寺識別網(wǎng)頁與各非概念型目錄進(jìn)行匹配，如果與各非概念型目錄均不匹配，則將待識別網(wǎng)頁確定為概念型網(wǎng)頁，否則將待識別網(wǎng)頁確定為非概念型網(wǎng)頁。確定4既念型目錄的步驟包括統(tǒng)計(jì)每個網(wǎng)站域名目錄下的相克念型網(wǎng)頁的URI數(shù)量，并將其與第一閾值進(jìn)行比較，當(dāng)網(wǎng)站域名目錄下的概念型網(wǎng)頁的URI數(shù)量大于第一閾值時(shí)，將站點(diǎn)域名目錄確定為概念型目錄；以及統(tǒng)計(jì)站點(diǎn)域名下級目錄的概念型網(wǎng)頁的URI數(shù) 量，并將其與第一閾值進(jìn)行比較，當(dāng)站點(diǎn)域名下級目錄的概念型網(wǎng) 頁的URI數(shù)量大于第一閾值，將站點(diǎn)域名下級目錄確定為概念型目錄；以及如此重復(fù)操作，直至所統(tǒng)計(jì)的目錄的概念型網(wǎng)頁的URI數(shù) 量不大于第一閾值或所統(tǒng)計(jì)的目錄沒有下級目錄。
獲取多個概念型網(wǎng)頁步驟包括利用概念型網(wǎng)頁識別算法來獲耳又多個所述扭克念型網(wǎng)頁。
根據(jù)本發(fā)明的另一個方面，提供了一種識別概念型網(wǎng)頁的系統(tǒng)，包括獲取模塊，用于在網(wǎng)頁數(shù)據(jù)庫中獲取多個概念型網(wǎng)頁；概念型目錄確定模塊，用于將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的 URI數(shù)量與第一閾值進(jìn)行比較，將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的目錄確定為4既念型目錄；以及匹配及確定才莫塊，用于將待識別網(wǎng)頁的URI與每個概念型目錄進(jìn)行匹配，如果匹配，則將該 4寺識別網(wǎng)頁確定為扭無念型網(wǎng)頁。
該系統(tǒng)還包括類別確定才莫塊，用于對和克念型目錄下的所有網(wǎng) 頁進(jìn)行分類，并將概念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng)頁的共有類別確定為概念型目錄的類別；以及添加才莫塊，用于將被確定為沖既念型網(wǎng)頁的網(wǎng)頁添加至該類別中。
該系統(tǒng)還包括非概念型目錄確定模塊，用于統(tǒng)計(jì)概念型目錄下的各級目錄的非概念型網(wǎng)頁的URI數(shù)量，在非概念型網(wǎng)頁的URI 數(shù)量大于第二閾值的情況下，將非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。
匹配及確定模塊還用于將待識別網(wǎng)頁與非概念型目錄進(jìn)行匹配，如果與各非概念型目錄均不匹配，則將待識別網(wǎng)頁確定為概念型網(wǎng)頁，否則將待識別網(wǎng)頁確定為非概念型網(wǎng)頁。
獲取模塊使用概念型網(wǎng)頁識別算法來獲取多個概念型網(wǎng)頁。概念型目錄確定才莫塊包括第一統(tǒng)計(jì)才莫塊，用于統(tǒng)計(jì)每個網(wǎng)站域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量；第一比較模塊，用于將概念型網(wǎng)頁的URI數(shù)量與第一閾值進(jìn)行比較；以及第一確定模塊，用于將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的概念型目錄確定為概念型目錄。
非概念型目錄確定模塊包括第二統(tǒng)計(jì)模塊，用于統(tǒng)計(jì)概念型目錄下的各級目錄的非概念型網(wǎng)頁的URI數(shù)量；第二比較模塊，用于將非概念型網(wǎng)頁的URI數(shù)量和第二閾值進(jìn)行比較；以及第二確定模塊，用于在非概念型網(wǎng)頁的URI數(shù)量大于第二閾值的情況下，將非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。
本發(fā)明利用概念型網(wǎng)頁的分布特征，過濾掉一些包含4艮少概念型頁面的網(wǎng)站，并使分布較為集中、概念型頁面數(shù)量較多的站點(diǎn)相比于包含較少相克念型網(wǎng)頁的站點(diǎn)更容易#1選取出來作為概念型目錄。這樣，通過本發(fā)明就不會將可信度較低的頁面識別為概念型頁面，從而可以展現(xiàn)更好的4叟索結(jié)果。
通過本發(fā)明可以快速全面地識別網(wǎng)頁是否為概念型網(wǎng)頁及其類別，對于從大規(guī)模網(wǎng)頁數(shù)據(jù)中識別概念型文檔，不僅提高了識別速度，而且還明顯改善了覆蓋率。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述，并且，部分地從說明書中變得顯而易見，或者通過實(shí)施本發(fā)明而了解。本發(fā) 明的目的和其他優(yōu)點(diǎn)可通過在所寫的i兌明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。

此處所i兌明的附圖用來提供對本發(fā)明的進(jìn)一步理解，構(gòu)成本申
請的一部分，本發(fā)明的示意性實(shí)施例及其iJt明用于解釋本發(fā)明，并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中
圖1是4艮據(jù)本發(fā)明第一實(shí)施例的識別4既念型網(wǎng)頁方法的流程
圖2是根據(jù)本發(fā)明第二實(shí)施例的識別概念型網(wǎng)頁系統(tǒng)的方框
圖3A、圖3B以及圖3C是根據(jù)本發(fā)明第三實(shí)施例的識別概念型網(wǎng)頁方法各個步驟的;;克禾呈圖；以及
圖4是才艮據(jù)本發(fā)明實(shí)施例第四實(shí)施例的利用預(yù)分類概念詞獲取分類概念型網(wǎng)站和同類概念詞的方法流程圖。
具體實(shí)施例方式
下面將參考附圖并結(jié)合實(shí)施例，來詳細(xì)說明本發(fā)明。全文中，相同參考標(biāo)號表示相同元件。
圖1是根據(jù)本發(fā)明第一實(shí)施例的識別概念型網(wǎng)頁方法的流程圖。
參照圖1，根據(jù)本發(fā)明實(shí)施例的識別概念型網(wǎng)頁方法包括以下步驟
步驟S102，在網(wǎng)頁H據(jù)庫中獲取多個相克念型網(wǎng)頁；步驟S104,將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的URI 數(shù)量與第一閾值進(jìn)行比較，將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的目錄確定為概念型目錄；以及
步驟S106，將待識別網(wǎng)頁的URI與每個概念型目錄進(jìn)行匹配，如果匹配，則將該待識別網(wǎng)頁確定為概念型網(wǎng)頁。
在步驟S104后還包括確定概念型目錄下網(wǎng)頁的類別。例如，對心臟病、冠心病、糖尿病等病癥進(jìn)行解釋的概念型網(wǎng)頁，根據(jù)各網(wǎng)頁的類別，該概念型目錄的類別應(yīng)為疾病健康類。
在步驟S106后還包括對概念型目錄下的所有網(wǎng)頁進(jìn)行分類，以及將概念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng)頁的共有類別確定為概念型目錄的類別。如果通過該方法將關(guān)于肺炎的網(wǎng)頁確定為概念型網(wǎng)頁，則該網(wǎng)頁應(yīng)歸入上述的疾病健康類的類別中。
在步驟S104后還包括統(tǒng)計(jì)概念型目錄下的各級目錄的非概念型網(wǎng)頁的URI數(shù)量，在非概念型網(wǎng)頁的URI數(shù)量大于第二閾值的情況下，將非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。
步驟S106還包括將待識別網(wǎng)頁與各非概念型目錄進(jìn)行匹配，如果與各非概念型目錄均不匹配，則將待識別網(wǎng)頁確定為概念型網(wǎng) 頁，否則將待識別網(wǎng)頁確定為非概念型網(wǎng)頁。
步驟S104包括統(tǒng)計(jì)每個網(wǎng)站域名目錄下的概念型網(wǎng)頁的URI 數(shù)量，并將其與第一闊值進(jìn)行比較，當(dāng)網(wǎng)站域名目錄下的概念型網(wǎng) 頁的URI數(shù)量大于第一閾值時(shí)，將站點(diǎn)域名目錄確定為概念型目錄；以及統(tǒng)計(jì)站點(diǎn)域名下級目錄的概念型網(wǎng)頁的URI數(shù)量，并將其與第一閾值進(jìn)行比較，當(dāng)站點(diǎn)域名下級目錄的概念型網(wǎng)頁的URI數(shù)量大于第一闊值，將站點(diǎn)域名下級目錄確定為概念型目錄；以及如此重復(fù)操作，直至所統(tǒng)計(jì)的目錄的概念型網(wǎng)頁的URI數(shù)量不大于第一閾 ^直或所統(tǒng)計(jì)的目錄沒有下級目錄。
步驟S102包4舌利用相克念型網(wǎng)頁識別算法來獲取多個所述才既念型網(wǎng)頁。
圖2是根據(jù)本發(fā)明第二實(shí)施例的識別概念型網(wǎng)頁系統(tǒng)的方框圖。
參照圖2，識別概念型網(wǎng)頁的系統(tǒng)200，包括獲取模塊202，用于在網(wǎng)頁數(shù)據(jù)庫中獲耳又多個概念型網(wǎng)頁；概念型目錄確定沖莫塊 204，用于將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量與第一閾值進(jìn)行比較，將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的目錄確定為概念型目錄；以及匹配及確定模塊206，用于將待識別網(wǎng)頁的URI與每個概念型目錄進(jìn)行匹配，如果匹配，則將該4寺識別網(wǎng)頁確定為和克念型網(wǎng)頁。
該系統(tǒng)還包括類別確定才莫塊208，用于對概念型目錄下的所有網(wǎng)頁進(jìn)行分類，并將概念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng) 頁的共有類別確定為4既念型目錄的類別；以及添加才莫塊210，用于將被確定為概念型網(wǎng)頁的網(wǎng)頁添加至該類別中。
該系統(tǒng)還包括非概念型目錄確定模塊212,用于統(tǒng)計(jì)概念型目錄下的各級目錄的非概念型網(wǎng)頁的URI數(shù)量，在非概念型網(wǎng)頁的 URI數(shù)量大于第二閾值的情況下，將非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。
匹配及確定模塊206還用于將待識別網(wǎng)頁與非概念型目錄進(jìn)行匹配，如果與各非概念型目錄均不匹配，則將待識別網(wǎng)頁確定為概念型網(wǎng)頁，否則將待識別網(wǎng)頁確定為非概念型網(wǎng)頁。獲取模塊202使用概念型網(wǎng)頁識別算法來獲取多個概念型網(wǎng)頁。概念型目錄確定模塊204包括第一統(tǒng)計(jì)模塊，用于統(tǒng)計(jì)每個網(wǎng)站域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量；第一比較才莫塊，用于將概念型網(wǎng)頁的URI數(shù)量與第一閾值進(jìn)行比較；以及第一確定模塊，用于將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的概念型目錄確定為相X念型目錄。非概念型目錄確定模塊212包括第二統(tǒng)計(jì)模塊，用于統(tǒng)計(jì)概念型目錄下的各級目錄的非概念型網(wǎng)頁的URI數(shù)量；第二比較模塊，用于將非概念型網(wǎng)頁的URI數(shù)量和第二閾值進(jìn)行比較；以及第二確定模塊，用于在非概念型網(wǎng)頁的URI數(shù)量大于第二閾值的情況下，將非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。圖3A、圖3B以及圖3C是根據(jù)本發(fā)明第三實(shí)施例的識別概念型站點(diǎn)分布方法各個步驟的流程圖。參照圖3A,發(fā)現(xiàn)相克念型站點(diǎn)的方法包括以下步艱《步驟S302a，使用發(fā)明1的概念型文檔識別算法對網(wǎng)頁集合進(jìn) 行處理以得到概念型網(wǎng)頁集合；以及步驟S304a,對概念型網(wǎng)頁集合的URI進(jìn)行統(tǒng)計(jì)處理。在步驟302a中，網(wǎng)頁集合的元素是單個網(wǎng)頁文檔，集合與用戶搜索需要查詢的網(wǎng)頁集合相同或者近似相同，不關(guān)心網(wǎng)頁集合的數(shù) 寺居來源，4旦要求每個網(wǎng)頁4呆留原有的URI作為網(wǎng)頁的p舉一朽:識。其中，步驟S304a包括依次統(tǒng)計(jì)每個網(wǎng)站域名下的概念型網(wǎng) 頁URI總數(shù)，記錄URI總數(shù)超過某一預(yù)定閾值N的站點(diǎn)域名(如A.com)和該域名下概念型網(wǎng)頁URI的總數(shù)；對選取出的站點(diǎn)，做進(jìn)一步的統(tǒng)計(jì)以統(tǒng)計(jì)在下級目錄下的URI總凄t，如果某一目錄下的 URI總數(shù)仍然超出預(yù)定的閾值N，則用記錄該目錄的URI (如 A.com/Z/)，并替換已經(jīng)記錄的上級域名(A.com);如此逐級目錄分析，直到?jīng)]有超出閾值N的子目錄或者沒有下一級子目錄可以進(jìn) 行分析。發(fā)現(xiàn)概念型站點(diǎn)中的非概念型目錄是通過在發(fā)現(xiàn)概念型站點(diǎn)的基礎(chǔ)上，繼續(xù)分析概念型目錄集合中非概念型頁面的分布情況實(shí)現(xiàn) 的。參照圖3B,發(fā)現(xiàn)概念型站點(diǎn)中的非概念型目錄的步驟包括步驟S302b，利用站點(diǎn)匹配的方法， -使用步驟S304a中生成的沖既念型目錄集合與網(wǎng)頁集合中的網(wǎng)頁的URI進(jìn)4亍匹配，匹配成功的加入"概念型網(wǎng)頁集合*";步驟S304b,在"概念型網(wǎng)頁集合*"中，執(zhí)行發(fā)明1的概念型文檔識別算法，將識別為非概念型文檔的網(wǎng)頁加入非概念型網(wǎng)頁集合；以及步驟S306b，以相無念型目錄集合內(nèi)的URI ( A.com/Z )為基礎(chǔ)，統(tǒng)計(jì)非概念型網(wǎng)頁集合里網(wǎng)頁的URI在概念型目錄以下各級的分布情況，如果在某一級目錄下非概念型網(wǎng)頁的比例超過某一預(yù)定閾值 K，則記錄該級目錄并停止對該目錄做進(jìn)一步的分析。圖3C示出了利用圖3B中的步驟生成的概念型目錄集合和圖 3B中的步驟生成的非概念型目錄集合，使用簡化的概念型文檔分析算法(以下簡稱方法2),分析識別概念型網(wǎng)頁的方法。步驟S302c,使用概念型站點(diǎn)集合依次匹配輸入網(wǎng)頁的URI。其中，如果匹配概念型目錄集合失敗，則不識別為概念型網(wǎng)頁；如果匹配概念型目錄集合成功，繼續(xù)使用非概念型目錄集合進(jìn)行類似匹配；如果匹配非相克念型目錄集合成功，則不i口、別為扭克念型網(wǎng)頁；如果匹配非概念型目錄集合失敗，則將該頁面識別為概念型頁面，并才是取和X念詞。步驟S302c的實(shí)例如下由圖3A中的步驟獲得概念型目錄集合(XXX:〃A.com/Z, XXX:〃A.com/Y, XXX://B.com/W}由圖3B中的步驟獲得非概念型目錄集合(XXX:〃A.com/Z/M, XXX:〃A.comA7N/P， XXX:服com/W/Q〉則圖3C中的步驟對于以下URI的判斷結(jié)果分別為XXX:〃A.com/Z/H/l.html概念型(匹配XXX:〃A.com/Z )XXX:〃A.com/Z/M/2.html 非沖既念型(匹配XXX:〃A.com/Z 且匹配XXX:〃A.com/Z/M )XXX:〃A.comA7N/R/3.html相克念型(匹配XXX:〃A.com/Y )XXX:〃B.com/4.html 非扭克念型XXX:〃C.com/5.html 非相克念型在圖3A、圖3B以及圖3C的三個步驟中，圖3A中的步艱《和圖3B中的步驟是以發(fā)明1的方法作為基礎(chǔ)來分析概念型站點(diǎn)的分布情況。然而，其也可以不利用發(fā)明1的方法，即，可將"相無念型識別算法"替換成其他有效的概念型文檔識別算法。圖3C中的步驟是識別概念型站點(diǎn)分布的應(yīng)用，利用概念型站點(diǎn)分布的統(tǒng)計(jì)結(jié)果，只識別特定的數(shù)據(jù)作為概念型網(wǎng)頁。在概念型站點(diǎn)分布結(jié)果預(yù)先分析出來的基礎(chǔ)上，識別效率^艮高。由于相無念型網(wǎng)頁在互耳關(guān)網(wǎng)中具有密集型分布的特點(diǎn)，利用概念型站點(diǎn)分布識別概念型文檔能夠有效的彌補(bǔ)識別算法的缺陷，雖然會損失部分站點(diǎn)的數(shù)據(jù)，但識別出的概念型文檔總數(shù)會有一定規(guī)模的提升，而且由于站點(diǎn)內(nèi)部相克念型數(shù) 據(jù)分布密集，對于用戶而言，搜索結(jié)果的可信度也得到了提升，效果會優(yōu)于獨(dú)立的概念型文檔識別。圖4是4艮據(jù)本發(fā)明實(shí)施例第四實(shí)施例的利用預(yù)分類概念詞獲取分類相克念型網(wǎng)站和同類相克念詞的方法流禾呈圖。由于概念型文檔在一些專業(yè)網(wǎng)站中具有集中性質(zhì)的分布，可以利用一些已知的特定類別概念詞，在圖3C中的步驟分析出才既念型文檔并4是取相克念詞之后，進(jìn)4亍匹配。匹配成功后，記錄該扭克念型文檔在識別過程中命中的概念型目錄集合，作為該類別概念詞對應(yīng)的概念型目錄集合。比如在圖 3C 中實(shí)例中，如果 XXX:〃A.com/Z/H/l.html提取的概念詞與分類曱中的概念詞匹配，則在分類曱對應(yīng)的相克念型目錄集合中i己錄概念型目錄 XX乂:〃A.com/Z。參照圖4，才艮據(jù)本發(fā)明實(shí)施例第四實(shí)施例的利用預(yù)分類和無念詞獲耳又分類概念型網(wǎng)站和同類概念詞的方法包括以下步驟步驟S402，在得到若干分類的概念型目錄集合后，統(tǒng)計(jì)每個概念型目錄對應(yīng)的類別信息，在預(yù)先提供的用于匹配的分類概念詞充分全面的情況下，如果某個概念型目錄〗又對應(yīng)一種或有限幾種類別，或者與某一種或者有限幾種類別匹配的詞占該目錄匹配的所有預(yù)先提供的分類詞的比例超出預(yù)定閾值Q，同時(shí)，與某一種或者有限幾種類別匹配的概念詞總數(shù)超出預(yù)定閾值P，則可以認(rèn)為，該相無念型目錄下的文檔，老卩屬于》t應(yīng)的這一種或者有限幾種類別，而該相克念型目錄下的文檔所^是取出來的扭克念詞，也基本屬于這一種或者有限幾種類別，即，利用概念型目錄下的概念詞類別分布，可以分析出可能的分類概念型目錄，以及進(jìn)一步發(fā)掘同類的相克念詞。本發(fā)明利用概念型網(wǎng)頁的分布特征，過濾掉一些包含4艮少概念型頁面的網(wǎng)站，并使分布較為集中、概念型頁面數(shù)量較多的站點(diǎn)相比于包含較少概念型網(wǎng)頁的站點(diǎn)更容易被選取出來作為概念型目錄。這樣，通過本發(fā)明就不會將可信度較低的頁面識別為概念型頁面，從而可以展現(xiàn)更好的搜索結(jié)果。通過本發(fā)明可以快速全面地識別網(wǎng)頁是否為扭無念型網(wǎng)頁及其類別，對于從大規(guī)模網(wǎng)頁數(shù)據(jù)中識別概念型文檔，不僅提高了識別速度，而且還明顯改善了覆蓋率。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種識別概念型網(wǎng)頁的方法，其特征在于，包括以下步驟在網(wǎng)頁數(shù)據(jù)庫中獲取多個概念型網(wǎng)頁；將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量與第一閾值進(jìn)行比較，將其下所述概念型網(wǎng)頁的URI數(shù)量大于所述第一閾值的目錄確定為概念型目錄；以及將待識別網(wǎng)頁的URI與每個所述概念型目錄進(jìn)行匹配，如果匹配，則將該待識別網(wǎng)頁確定為概念型網(wǎng)頁。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述確定概念型目錄的步驟后還包括對所述相克念型目錄下的所有網(wǎng)頁進(jìn)4亍分類；以及將所述概念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng)頁的共有類別確定為所述和無念型目錄的類別。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，在將待識別網(wǎng)頁確定為4既念型網(wǎng)頁的步驟后還包括將4皮確定為所述概念型網(wǎng)頁的網(wǎng)頁添加至所述類別中。
4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述確定概念型目錄的步眾《后還包4臺統(tǒng)計(jì)所述相無念型目錄下的各級目錄的非和克念型網(wǎng)頁的 URI數(shù)量，在所述非概念型網(wǎng)頁的URI數(shù)量大于第二閾值的情況下，將所述非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。
5. 根據(jù)權(quán)利要求4所述的方法，其特征在于，所述將待識別網(wǎng)頁確定為和克念型網(wǎng)頁的步驟還包4舌將所述待識別網(wǎng)頁與各所述非概念型目錄進(jìn)行匹配，如果與各所述非概念型目錄均不匹配，則將所述;f寺識別網(wǎng)頁確定為所述相克念型網(wǎng)頁，否則將所述待識別網(wǎng)頁確定為非相無念型網(wǎng) 頁。
6. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述確定概念型目錄的步驟包括統(tǒng)計(jì)每個所述網(wǎng)站i或名目錄下的所述和克念型網(wǎng)頁的URI 數(shù)量，并將其與所述第一闊值進(jìn)行比較，當(dāng)所述網(wǎng)站域名目錄下的所述概念型網(wǎng)頁的URI數(shù)量大于所述第一閾值時(shí)，將所述站點(diǎn)域名目錄確定為所述概念型目錄；以及統(tǒng)計(jì)所述站點(diǎn)域名下級目錄的概念型網(wǎng)頁的URI數(shù)量，并將其與所述第一閾值進(jìn)行比較，當(dāng)所述站點(diǎn)域名下級目錄的概念型網(wǎng)頁的URI凄t量大于所述第一閾值，將所述站點(diǎn)域名下級目錄確定為所述相克念型目錄；以及如此重復(fù)搮:作，直至所統(tǒng)計(jì)的目錄的所述相克念型網(wǎng)頁的URI凄t量不大于所述第一閾值或所統(tǒng)計(jì)的目錄沒有下級目錄。
7. 根據(jù)權(quán)利要求6所述的方法，其特征在于，所述獲取多個概念型網(wǎng)頁步驟包4舌利用概念型網(wǎng)頁識別算法來獲取多個所述概念型網(wǎng)頁。
8. —種識別4既念型網(wǎng)頁的系統(tǒng)，其特4正在于，包4舌獲取才莫塊，用于在網(wǎng)頁數(shù)據(jù)庫中獲取多個概念型網(wǎng)頁；概念型目錄確定模塊，用于將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量與第一閾值進(jìn)行比較，將其下所述概念型網(wǎng)頁的URI數(shù)量大于所述第一閾值的目錄確定為4既念型目錄；以及匹配及確定才莫塊，用于將待識別網(wǎng)頁的URI與每個所述沖既念型目錄進(jìn)4亍匹配，如果匹配，則將該4寺識別網(wǎng)頁確定為才既念型網(wǎng)頁。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，還包括類別確定模塊，用于對所述概念型目錄下的所有網(wǎng)頁進(jìn)行分類，并將所述沖既念型目錄下類別相同且達(dá)到預(yù)定比例的網(wǎng)頁的共有類別確定為所述相無念型目錄的類別；以及添加才莫塊，用于將凈皮確定為所述4既念型網(wǎng)頁的網(wǎng)頁添加至所述類別中。
10. 根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，還包括非概念型目錄確定才莫塊，用于統(tǒng)計(jì)所述概念型目錄下的各級目錄的所述非概念型網(wǎng)頁的URI數(shù)量，在所述非概念型網(wǎng)頁的URI數(shù)量大于第二閾值的情況下，將所述非概念型網(wǎng)頁所在的目錄確定為非概念型目錄。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng)，其特征在于，所述匹配及確定模塊還用于將所述待識別網(wǎng)頁與所述非概念型目錄進(jìn)行匹配，如果與各所述非相無念型目錄均不匹配，則將所述;f寺識別網(wǎng)頁確定為所述概念型網(wǎng)頁，否則將所述待識別網(wǎng)頁確定為所述非概念型網(wǎng)頁。
12. 根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，所述獲取模塊使用概念型網(wǎng)頁識別算法來獲取多個所述概念型網(wǎng)頁。
13. 根據(jù)權(quán)利要求8所述的系統(tǒng)，其特征在于，所述概念型目錄確定模塊包括第一統(tǒng)計(jì)才莫塊，用于統(tǒng)計(jì)每個所述網(wǎng)站域名的各級目錄下的所述概念型網(wǎng)頁的URI數(shù)量；第一比較模塊，用于將所述概念型網(wǎng)頁的URI數(shù)量與所述第一閾值進(jìn)行比較；以及第一確定模塊，用于將其下所述概念型網(wǎng)頁的URI數(shù)量大于所述第一閾值的概念型目錄確定為所述概念型目錄。
14. 根據(jù)權(quán)利要求10所述的系統(tǒng)，其特征在于，所述非概念型目錄確定模塊包括第二統(tǒng)計(jì)模塊，用于統(tǒng)計(jì)所述概念型目錄下的各級目錄的非概念型網(wǎng)頁的URI數(shù)量；第二比較模塊，用于將所述非概念型網(wǎng)頁的URI數(shù)量和所述第二閾值進(jìn)行比較；以及第二確定才莫塊，用于在所述非概念型網(wǎng)頁的URI數(shù)量大于所述第二閾值的情況下，將所述非相克念型網(wǎng)頁所在的目錄確定為非概念型目錄。
全文摘要
本發(fā)明公開了識別概念型網(wǎng)頁的方法和系統(tǒng)，該方法包括以下步驟在網(wǎng)頁數(shù)據(jù)庫中獲取多個概念型網(wǎng)頁；將各站點(diǎn)域名的各級目錄下的概念型網(wǎng)頁的URI數(shù)量與第一閾值進(jìn)行比較，將其下概念型網(wǎng)頁的URI數(shù)量大于第一閾值的目錄確定為概念型目錄；將待識別網(wǎng)頁的URI與每個概念型目錄進(jìn)行匹配，如果匹配，則將該待識別網(wǎng)頁確定為概念型網(wǎng)頁。通過本發(fā)明可以快速全面地識別網(wǎng)頁是否為概念型網(wǎng)頁及其類別，對于從大規(guī)模網(wǎng)頁數(shù)據(jù)中識別概念型文檔，不僅提高了識別速度，而且還明顯改善了覆蓋率。
文檔編號G06F17/30GK101404031SQ20081022576
公開日2009年4月8日申請日期2008年11月12日優(yōu)先權(quán)日2008年11月12日
發(fā)明者琳劉申請人:北京搜狗科技發(fā)展有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉琳
技術(shù)所有人：北京搜狗科技發(fā)展有限公司
我是此專利的發(fā)明人

上一篇：一種觸摸設(shè)備及其工作方法
上一篇：一種準(zhǔn)確查詢gds航班緩存數(shù)據(jù)的方法和系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

數(shù)據(jù)庫系統(tǒng)概念相關(guān)技術(shù)

分布式系統(tǒng)概念與設(shè)計(jì)相關(guān)技術(shù)

技術(shù)交易系統(tǒng)的新概念相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

識別概念型網(wǎng)頁的方法與系統(tǒng)的制作方法