專利名稱:一種用于確定超鏈接的錨文本可信度的分析設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及用于確定超鏈接的錨文本可信度的鏈接分析技術(shù)。
背景技術(shù):
在當(dāng)今的互聯(lián)網(wǎng)中,網(wǎng)頁數(shù)量日趨龐大,為了建立網(wǎng)頁與網(wǎng)頁、網(wǎng)頁與網(wǎng)站之間的鏈接關(guān)系,經(jīng)常使用基于超鏈接和/或錨文本的鏈接技術(shù)。一般來說,超鏈接是一種對(duì)象, 它以特殊編碼的文本或圖形的形式來實(shí)現(xiàn)鏈接,當(dāng)點(diǎn)擊該鏈接時(shí),相當(dāng)于指令瀏覽器移至同一網(wǎng)頁內(nèi)的某個(gè)位置、或打開一個(gè)新的網(wǎng)頁、或打開一個(gè)新的Wffff網(wǎng)站中的網(wǎng)頁。例如, 網(wǎng)頁中的超鏈接大致分為絕對(duì)URL的超鏈接、相對(duì)URL的超鏈接和書簽超鏈接。另外,超鏈接中的錨文本通常是對(duì)一個(gè)網(wǎng)頁內(nèi)容的高度概括描述,與該網(wǎng)頁有著高度的內(nèi)容相關(guān)性。將超鏈接的錨文本應(yīng)用于搜索引擎,還可以基于所述錨文本進(jìn)行內(nèi)容相關(guān)度計(jì)算,以獲取用戶查詢序列與網(wǎng)頁的相關(guān)度,從而對(duì)搜索結(jié)果中的網(wǎng)頁進(jìn)行精確排名。由上述可知,在正常情形下,錨文本均可以對(duì)超鏈接指向的頁面內(nèi)容進(jìn)行高度概括,并相當(dāng)程度上反映出該頁面的內(nèi)容。但是,互聯(lián)網(wǎng)上存在大量的超鏈作弊行為,錨文本與超鏈接指向頁面之間不再總是內(nèi)容高度相關(guān),當(dāng)搜索引擎基于錨文本來獲取搜索結(jié)果時(shí),甚至還有可能出現(xiàn)與查詢序列內(nèi)容不相關(guān)而排名卻很高的網(wǎng)頁。有鑒于此,如何確定超鏈接的錨文本可信度,以評(píng)估和分析超鏈接的錨文本與超鏈接指向頁面之間內(nèi)容相關(guān)性,是相關(guān)領(lǐng)域的技術(shù)人員亟待解決的一項(xiàng)課題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于確定超鏈接的錨文本可信度的分析設(shè)備和方法。根據(jù)本發(fā)明的一個(gè)方面,提供一種計(jì)算機(jī)實(shí)現(xiàn)的用于確定超鏈接的錨文本可信度的方法,其中,該方法包括以下步驟a獲取與所述超鏈接相對(duì)應(yīng)的錨文本;b根據(jù)所述錨文本,獲取與所述錨文本對(duì)應(yīng)的錨文本相關(guān)信息;c根據(jù)所述錨文本相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度。根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種用于確定超鏈接的錨文本可信度的分析設(shè)備,其中,該分析設(shè)備包括第一獲取裝置,用于獲取與所述超鏈接相對(duì)應(yīng)的錨文本;第二獲取裝置,用于根據(jù)所述錨文本,獲取與所述錨文本對(duì)應(yīng)的錨文本相關(guān)信息;錨文本可信度確定裝置,用于根據(jù)所述錨文本相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度。根據(jù)本發(fā)明的再一個(gè)方面,還提供了一種搜索引擎,其中,該搜索引擎包括本發(fā)明的一個(gè)方面所述的用于確定超鏈接的錨文本可信度的分析設(shè)備。與現(xiàn)有技術(shù)相比,本發(fā)明基于錨文本相關(guān)信息來加權(quán)確定超鏈接的錨文本可信度,使超鏈接的錨文本與超鏈接指向頁面之間的內(nèi)容相關(guān)性更加合理。此外,將本發(fā)明應(yīng)用到搜索引擎領(lǐng)域,還可精確地檢測作弊超鏈的虛假錨文本、過期超鏈的失效錨文本,調(diào)整基于所述錨文本可信度對(duì)包含所述虛假錨文本和失效錨文本的超鏈接指向頁面的權(quán)威度和排名,進(jìn)而提升搜索引擎搜索結(jié)果的排序質(zhì)量。
通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯圖1示出依據(jù)本發(fā)明一個(gè)方面的用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖;圖2示出依據(jù)本發(fā)明一優(yōu)選實(shí)施例的用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖;圖3示出依據(jù)本發(fā)明另一方面的用于確定超鏈接的錨文本可信度的流程圖;圖4示出依據(jù)本發(fā)明一優(yōu)選實(shí)施例的用于確定超鏈接的錨文本可信度的流程圖。附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。圖1示出依據(jù)本發(fā)明一個(gè)方面的用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖。其中,所述分析設(shè)備1包括但不限于,單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集、基于云計(jì)算的計(jì)算機(jī)集合等,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。參照?qǐng)D1,所述分析設(shè)備1包括第一獲取裝置11、第二獲取裝置12和錨文本可信度確定裝置13。具體地,分析設(shè)備1的第一獲取裝置11獲取與所述超鏈接相對(duì)應(yīng)的錨文本;接著,第二獲取裝置12根據(jù)所述錨文本,獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息;最后,錨文本可信度確定裝置13根據(jù)所述錨文本相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度。第一獲取裝置11用于獲取與所述超鏈接相對(duì)應(yīng)的錨文本。具體地,第一獲取裝置 11例如通過頁面技術(shù),如HTML、DHTML等頁面技術(shù),解析所述超鏈接的鏈接信息或者切分和提取所述超鏈接中的鏈接文字從而獲取與所述超鏈接相對(duì)應(yīng)的錨文本。在浩瀚的互聯(lián)網(wǎng)海洋中,所有的網(wǎng)站都是可以互通的,而把它們鏈接在一起的紐帶就是超鏈接,在所述超鏈接中的錨文本既可以包括一個(gè)關(guān)鍵詞,也可以包括一句話,此時(shí)錨文本在所述超鏈接所在頁面的作用是告知瀏覽者在點(diǎn)擊該錨文本后會(huì)從當(dāng)前所在頁面跳轉(zhuǎn)到哪里。例如,某大學(xué)的官方網(wǎng)站做了一個(gè)百度主頁的友情鏈接,其具體代碼為<a href = “ http://www. baidu. com" >百度</a>,那么超鏈接■· baidu. com的錨文本即為“百度”,當(dāng)點(diǎn)擊“百度”時(shí)就可以跳轉(zhuǎn)顯示百度的主頁。又例如,某網(wǎng)頁利用一句話“最好的中文搜索引擎是什么”做了一個(gè)相關(guān)鏈接,其具體代碼為<a href = “ http://www. baidu. com" >最好的中文搜索引擎是什么</a>,那么超鏈接www. baidu. com的錨文本即為“最好的中文搜索引擎是什么”,當(dāng)點(diǎn)擊網(wǎng)頁中的“最好的中文搜索引擎是什么”后,當(dāng)前網(wǎng)頁就可以跳轉(zhuǎn)顯示百度的主頁。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取與所述超鏈接相對(duì)應(yīng)的錨文本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取與所述超鏈接相對(duì)應(yīng)的錨文本的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。第二獲取裝置12用于根據(jù)所述錨文本,獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息。具體地,通過第一獲取裝置11得到與所述超鏈接相對(duì)應(yīng)的錨文本后,第二獲取裝置 12通過諸如計(jì)算所述錨文本與所述超鏈接指向頁面之間的關(guān)聯(lián)度來獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息。優(yōu)選地,所述錨文本相關(guān)信息包括以下至少任一項(xiàng)-所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例;-所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例;-所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度。以所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例來舉例說明,假定所述超鏈接指向的頁面為專門經(jīng)營嬰兒用品的網(wǎng)站主頁,在該網(wǎng)站主頁的所有入鏈的錨文本中絕大多數(shù)錨文本都是類似于“奶粉”、“奶瓶”、“嬰兒用品”等鏈接文字,而當(dāng)前待確定超鏈接的錨文本可信度的錨文本為“科研”時(shí),計(jì)算當(dāng)前超鏈接的錨文本在所有入鏈的錨文本統(tǒng)計(jì)分析結(jié)果中所占比例,例如,當(dāng)前超鏈接的錨文本在所有入鏈的錨文本統(tǒng)計(jì)分析結(jié)果中所占比例非常低,那么所述超鏈接的錨文本可信度也相對(duì)較低。類似地,當(dāng)所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例時(shí),假定所述超鏈接所在頁面為某大學(xué)的官方網(wǎng)站主頁,在該大學(xué)官方網(wǎng)站主頁的所有出鏈的錨文本中絕大多數(shù)錨文本都是類似于“高?!?、“大學(xué)”、“就業(yè)率”、“招生說明”等鏈接文字,將所有出鏈的錨文本進(jìn)行統(tǒng)計(jì)分析,計(jì)算所述超鏈接的錨文本在所述統(tǒng)計(jì)分析結(jié)果中所占比例。例如,若所述超鏈接的錨文本為嬰兒用品,則該錨文本在所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例較低。再以所述錨文本相關(guān)信息包括所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度為例,當(dāng)所述錨文本與所述超鏈接指向頁面的標(biāo)題之間的關(guān)聯(lián)度較高時(shí),所述超鏈接的錨文本可信度相對(duì)較高;當(dāng)所述錨文本與所述超鏈接指向頁面的標(biāo)題之間的關(guān)聯(lián)度較低時(shí),所述超鏈接的錨文本可信度相對(duì)較低。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。錨文本可信度確定裝置13用于根據(jù)所述錨文本相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度。具體地,通過第二獲取裝置12得到與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息后,錨文本可信度確定裝置13根據(jù)所述錨文本相關(guān)信息,結(jié)合所述錨文本相關(guān)信息中每一項(xiàng)的權(quán)重,來加權(quán)確定所述超鏈接的錨文本可信度。接上例,當(dāng)所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例、所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例以及所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度時(shí),可以結(jié)合所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例的第一權(quán)重、所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例的第二權(quán)重以及所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度的第三權(quán)重,來加權(quán)確定所述超鏈接的錨文本可信度。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定所述超鏈接的錨文本可信度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定所述超鏈接的錨文本可信度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。此外,上述用于確定超鏈接的錨文本可信度的分析設(shè)備可以與現(xiàn)有的搜索引擎相結(jié)合,構(gòu)成一種新的搜索引擎,現(xiàn)有的搜索引擎可以是采用已知的如百度、G00gle、Yah00等搜索引擎。優(yōu)選地,該新的搜索引擎在提供搜索結(jié)果時(shí),還提供與所述搜索結(jié)果相對(duì)應(yīng)的權(quán)威值。具體地,與現(xiàn)有搜索引擎相結(jié)合且用于確定超鏈接的錨文本可信度的搜索引擎,在為用戶提供搜索結(jié)果時(shí),還通過諸如特別字體、浮動(dòng)窗口等方式,提供這些搜索結(jié)果相應(yīng)的頁面權(quán)威值。例如,與現(xiàn)有搜索引擎相結(jié)合,且用于確定超鏈接的錨文本可信度的搜索引擎, 在根據(jù)用戶的查詢序列提供相應(yīng)的搜索結(jié)果時(shí),在這些搜索結(jié)果的頁面說明中添加相應(yīng)頁面的頁面權(quán)威值;進(jìn)一步地,這些頁面的頁面權(quán)威值還可以通過特別字體或浮動(dòng)窗口等方式顯示,如在用戶的鼠標(biāo)停留在搜索結(jié)果的頁面鏈接、或者頁面說明時(shí),以懸浮窗口顯示該停留搜索結(jié)果相應(yīng)的頁面權(quán)威值。本領(lǐng)域技術(shù)人員應(yīng)能理解上述頁面權(quán)威值的提供方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的頁面權(quán)威值的提供方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。優(yōu)選地,所述分析設(shè)備1還包括第一調(diào)整裝置(圖1未示出),用于根據(jù)所述超鏈接指向頁面,例如通過分析所述頁面的網(wǎng)址或頁面內(nèi)容,當(dāng)確定所述超鏈接指向頁面為所述頁面黑名單中的頁面,或所述超鏈接指向頁面的頁面內(nèi)容與頁面黑名單中的頁面的頁面內(nèi)容一致或近似一致時(shí),調(diào)整所述超鏈接的錨文本可信度。更優(yōu)選地,所述分析設(shè)備1還包括更新裝置(圖1未示出),用于獲取作弊頁面或不良頁面,根據(jù)所述作弊頁面或不良頁面來建立或更新所述頁面黑名單。優(yōu)選地,所述分析設(shè)備1還包括第四獲取裝置(圖1未示出),用于獲取所述超鏈接指向頁面更新前與更新后的相關(guān)度,并且所述錨文本可信度確定裝置13根據(jù)所述錨文本相關(guān)信息結(jié)合所述相關(guān)度,確定所述超鏈接的錨文本可信度。具體地,當(dāng)所述超鏈接指向頁面進(jìn)行了改版操作或者調(diào)整了頁面內(nèi)容后,可以計(jì)算改版前后或內(nèi)容調(diào)整前后所述超鏈接指向頁面自身的相關(guān)度,并根據(jù)所述錨文本相關(guān)信息與所述相關(guān)度的結(jié)合,確定所述超鏈接的錨文本可信度。例如,在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),通過所述超鏈接指向頁面更新前與更新后的較高相關(guān)度,來增加所述超鏈接的錨文本可信度?;蛘?,在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),通過所述超鏈接指向頁面更新前與更新后的較低相關(guān)度,來降低所述超鏈接的錨文本可信度。優(yōu)選地,所述分析設(shè)備1還包括第五獲取裝置(圖1未示出),用于根據(jù)用戶通過用戶設(shè)備輸入的查詢序列,獲取與所述查詢序列相對(duì)應(yīng)的超鏈接,并且所述第一獲取裝置 11還用于根據(jù)所述超鏈接,獲取與所述超鏈接相對(duì)應(yīng)的錨文本,以及所述分析設(shè)備1還包括排序裝置(圖1未示出),用于根據(jù)所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度, 并結(jié)合所述錨文本可信度,對(duì)與所述超鏈接對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序。具體地,首先獲取所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,再根據(jù)所述錨文本可信度來調(diào)整所述查詢序列與所述超鏈接指向頁面之間的相關(guān)度,最后使用基于所述錨文本可信度修正后的相關(guān)度結(jié)合所述超鏈接指向頁面的標(biāo)題和/或正文等其他內(nèi)容信息得出綜合的相關(guān)性權(quán)值, 并根據(jù)所述相關(guān)性權(quán)值對(duì)與所述超鏈接相對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序。在一優(yōu)選實(shí)施例中, 搜索引擎在計(jì)算所述查詢序列與所述超鏈接指向頁面的基礎(chǔ)相關(guān)性權(quán)值時(shí),首先利用本發(fā)明的錨文本可信度來調(diào)整所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,并結(jié)合所述超鏈接指向頁面的標(biāo)題和正文的內(nèi)容信息得出綜合的相關(guān)性權(quán)值。由此可知,將本發(fā)明中用于確定超鏈接的錨文本可信度的分析設(shè)備應(yīng)用到搜索引擎領(lǐng)域,可以精確地檢測諸如作弊超鏈的虛假錨文本、過期超鏈的失效錨文本,從而調(diào)整基于所述虛假錨文本和失效錨文本的頁面權(quán)威度和排名,進(jìn)而提升搜索引擎搜索結(jié)果的排序質(zhì)量。優(yōu)選地,所述分析設(shè)備1還包括分配裝置(圖1未示出),用于根據(jù)所述錨文本可信度,將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。具體地,所述超鏈接所在頁面包括一個(gè)或多個(gè)錨文本,而這些錨文本分別對(duì)應(yīng)于所述超鏈接所在頁面的出鏈,根據(jù)本發(fā)明的超鏈接的錨文本可信度,可以將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。優(yōu)選地,所述分析設(shè)備1還包括第二調(diào)整裝置(圖1未示出),用于根據(jù)下述關(guān)系式,調(diào)整所述超鏈接的錨文本可信度Ci Ci = λ XCh+ (1- λ ) XCu其中,Cu為第i時(shí)刻未經(jīng)調(diào)整的錨文本可信度,Ch為第i-Ι時(shí)刻所述超鏈接的錨文本可信度,λ為0至1之間的修正因子。具體地,由于所述超鏈接指向頁面的內(nèi)容在短時(shí)間內(nèi)可能會(huì)有不可預(yù)期的變化,例如所述超鏈接指向頁面突然改版或進(jìn)行常規(guī)維護(hù)而無法訪問,為修正所述不可預(yù)期的變化,以減少錨文本可信度的波動(dòng),從而提高搜索結(jié)果排序的計(jì)算效率與穩(wěn)定性。例如,第二調(diào)整裝置根據(jù)錨文本可信度確定裝置13所確定的第 i時(shí)刻的錨文本可信度Cu,第i-Ι時(shí)刻所述超鏈接的錨文本可信度Ch,并根據(jù)公式Ci = λ XCH+α-λ ) XCu進(jìn)行調(diào)整,以獲得所述超鏈接的錨文本可信度Ci,其中,λ為0至1之間的修正因子。例如,假設(shè)錨文本可信度確定裝置13所確定的第i時(shí)刻的錨文本可信度Cu 為0.8,第i-Ι時(shí)刻所述超鏈接的錨文本可信度C^1為0.6,假設(shè)λ取0. 25,則通過計(jì)算,所述超鏈接的錨文本可信度Ci為0. 75。上述數(shù)值僅為優(yōu)選地描述本發(fā)明的方案,本領(lǐng)域技術(shù)人員應(yīng)能根據(jù)實(shí)際情況和需求確定上述數(shù)值。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述調(diào)整所述超鏈接的錨文本可信度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的調(diào)整所述超鏈接的錨文本可信度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。圖2示出依據(jù)本發(fā)明一優(yōu)選實(shí)施例的用于確定超鏈接的錨文本可信度的分析設(shè)備的結(jié)構(gòu)示意圖。其中,所述分析設(shè)備1’包括但不限于,單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集、基于云計(jì)算的計(jì)算機(jī)集合等,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。參照?qǐng)D2,所述分析設(shè)備1’包括第一獲取裝置11’、第二獲取裝置12’、第三獲取裝置14’、錨文本可信度確定裝置13’。具體地,分析設(shè)備1’的第一獲取裝置11’獲取與所述超鏈接相對(duì)應(yīng)的錨文本;接著,第二獲取裝置12’根據(jù)所述錨文本,獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息;與此同時(shí),第三獲取裝置14’獲取與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息;最后,錨文本可信度確定裝置13’根據(jù)所述錨文本相關(guān)信息,結(jié)合所述超鏈接相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度。也就是說,第二獲取裝置12’和第三獲取裝置14’可以并行地分別獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息以及與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息。為便于更好地描述本發(fā)明,第一獲取裝置 11’、第二獲取裝置12’和錨文本可信度確定裝置13’分別與圖1所示的第一獲取裝置11、 第二獲取裝置12和錨文本可信度確定裝置13’對(duì)應(yīng),故此處不再贅述,僅通過引用的方式包含于圖2所描述的優(yōu)選實(shí)施例。第三獲取裝置14’用于獲取與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息,并且所述錨文本可信度確定裝置13’還用于根據(jù)所述錨文本相關(guān)信息,結(jié)合所述超鏈接相關(guān)信息,確定所述超鏈接的錨文本可信度。優(yōu)選地,所述超鏈接相關(guān)信息包括以下至少任一項(xiàng)-所述超鏈接的產(chǎn)生時(shí)間;-所述超鏈接的位置;-所述超鏈接在所述超鏈接指向頁面的所有入鏈的統(tǒng)計(jì)分析結(jié)果中所占比例;-所述超鏈接在所述超鏈接所在頁面的所有出鏈的統(tǒng)計(jì)分析結(jié)果中所占比例。以所述超鏈接相關(guān)信息包括所述超鏈接的產(chǎn)生時(shí)間為例,當(dāng)所述超鏈接與所述超鏈接指向頁面之間的鏈接期限為10年,而超鏈接的產(chǎn)生時(shí)間為距離現(xiàn)在的時(shí)間間隔為10 年以上時(shí),根據(jù)超鏈接的產(chǎn)生時(shí)間可以確定所述超鏈接為過期超鏈接。類似地,當(dāng)所述超鏈接位于反映所述超鏈接指向頁面的主要內(nèi)容的定語部分時(shí),根據(jù)超鏈接的位置可以確定所述超鏈接與所述超鏈接指向頁面的關(guān)聯(lián)度。再例如,所述超鏈接指向的頁面為專門經(jīng)營嬰兒用品的網(wǎng)站主頁,在該網(wǎng)站主頁的所有入鏈中絕大多數(shù)超鏈接都是類似于“奶粉”、“奶瓶”、“嬰兒用品”等鏈接信息,而當(dāng)前待確定超鏈接的錨文本可信度的超鏈接為“科研”時(shí), 計(jì)算當(dāng)前超鏈接在所有入鏈統(tǒng)計(jì)分析結(jié)果中所占比例,例如,當(dāng)前超鏈接在所有入鏈統(tǒng)計(jì)分析結(jié)果中所占比例非常低,然后與第二獲取裝置12’獲取的錨文本相關(guān)信息相結(jié)合,以通過錨文本可信度確定裝置13’來確定超鏈接的錨文本可信度。類似地,當(dāng)所述超鏈接相關(guān)信息包括所述超鏈接在所述超鏈接所在頁面的所有出鏈的統(tǒng)計(jì)分析結(jié)果中所占比例時(shí),假定所述超鏈接所在的頁面為應(yīng)屆大學(xué)畢業(yè)生的就業(yè)信息公共平臺(tái)主頁,在該就業(yè)信息公共平臺(tái)主頁的所有出鏈中絕大多數(shù)超鏈接都是包含“electronicWomputeW'research”、 "company"等字符的超鏈接,將所有出鏈進(jìn)行統(tǒng)計(jì)分析,計(jì)算所述超鏈接在所述統(tǒng)計(jì)分析結(jié)果中所占比例,根據(jù)比例數(shù)值來獲取所述超鏈接相關(guān)信息。例如,若所述超鏈接指向的頁面旨在提供嬰兒用品相關(guān)服務(wù),則該超鏈接在所述超鏈接所在頁面的所有出鏈的統(tǒng)計(jì)分析結(jié)果中所占比例較低,相應(yīng)地,將所述超鏈接相關(guān)信息與第二獲取裝置12獲取的錨文本相關(guān)信息相結(jié)合,例如,將與所述超鏈接相關(guān)信息對(duì)應(yīng)的超鏈接比例數(shù)值結(jié)合與所述錨文本相關(guān)信息對(duì)應(yīng)的錨文本比例數(shù)值,通過錨文本可信度確定裝置13’來確定基于所述超鏈接相關(guān)信息和所述錨文本相關(guān)信息的超鏈接的錨文本可信度。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。優(yōu)選地,在結(jié)合上述圖2所描述的實(shí)施例的基礎(chǔ)上,所述分析設(shè)備1’還包括第四獲取裝置(圖2未示出),用于獲取所述超鏈接指向頁面更新前與更新后的相關(guān)度,并且所述錨文本可信度確定裝置13’根據(jù)所述錨文本相關(guān)信息結(jié)合所述相關(guān)度,確定所述超鏈接的錨文本可信度。具體地,當(dāng)所述超鏈接指向頁面進(jìn)行了改版操作或者調(diào)整了頁面內(nèi)容后, 可以計(jì)算改版前后或內(nèi)容調(diào)整前后所述超鏈接指向頁面自身的相關(guān)度,并根據(jù)所述錨文本相關(guān)信息與所述相關(guān)度的結(jié)合,確定所述超鏈接的錨文本可信度。例如,在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),通過所述超鏈接指向頁面更新前與更新后的較高相關(guān)度, 來增加所述超鏈接的錨文本可信度?;蛘撸趯⑺鲥^文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),通過所述超鏈接指向頁面更新前與更新后的較低相關(guān)度,來降低所述超鏈接的錨文本可信度。優(yōu)選地,所述分析設(shè)備1’還包括第五獲取裝置(圖2未示出),用于根據(jù)用戶通過用戶設(shè)備輸入的查詢序列,獲取與所述查詢序列相對(duì)應(yīng)的超鏈接,并且所述第一獲取裝置 11’還用于根據(jù)所述超鏈接,獲取與所述超鏈接相對(duì)應(yīng)的錨文本,以及所述分析設(shè)備1’還包括排序裝置(圖2未示出),用于根據(jù)所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度, 并結(jié)合所述錨文本可信度,對(duì)與所述超鏈接對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序。具體地,首先獲取所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,再根據(jù)所述錨文本可信度來調(diào)整所述查詢序列與所述超鏈接指向頁面之間的相關(guān)度,最后使用基于所述錨文本可信度修正后的相關(guān)度結(jié)合所述超鏈接指向頁面的標(biāo)題和/或正文等其他內(nèi)容信息得出綜合的相關(guān)性權(quán)值, 并根據(jù)所述相關(guān)性權(quán)值對(duì)與所述超鏈接相對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序。在一優(yōu)選實(shí)施例中, 搜索引擎在計(jì)算所述查詢序列與所述超鏈接指向頁面的基礎(chǔ)相關(guān)性權(quán)值時(shí),首先利用本發(fā)明的錨文本可信度來調(diào)整所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,并結(jié)合所述超鏈接指向頁面的標(biāo)題和正文的內(nèi)容信息得出綜合的相關(guān)性權(quán)值。由此可知,將本發(fā)明中用于確定超鏈接的錨文本可信度的分析設(shè)備應(yīng)用到搜索引擎領(lǐng)域,可以精確地檢測諸如作弊超鏈的虛假錨文本、過期超鏈的失效錨文本,從而調(diào)整基于所述虛假錨文本和失效錨文本的頁面權(quán)威度和排名,進(jìn)而提升搜索引擎搜索結(jié)果的排序質(zhì)量。優(yōu)選地,所述分析設(shè)備1’還包括分配裝置(圖2未示出),用于根據(jù)所述錨文本可信度,將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。具體地,所述超鏈接所在頁面包括一個(gè)或多個(gè)錨文本,而這些錨文本分別對(duì)應(yīng)于所述超鏈接所在頁面的出鏈,根據(jù)本發(fā)明的超鏈接的錨文本可信度,可以將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。優(yōu)選地,所述分析設(shè)備1’還包括第二調(diào)整裝置(圖2未示出),用于根據(jù)下述關(guān)系式,調(diào)整所述超鏈接的錨文本可信度Ci Ci = λ XCh+ (1- λ ) XCu其中,Cu為第i時(shí)刻未經(jīng)調(diào)整的錨文本可信度,Ch為第i-Ι時(shí)刻所述超鏈接的錨文本可信度,λ為0至1之間的修正因子。具體地,由于所述超鏈接指向頁面的內(nèi)容在短時(shí)間內(nèi)可能會(huì)有不可預(yù)期的變化,例如所述超鏈接指向頁面突然改版或進(jìn)行常規(guī)維護(hù)而無法訪問,為修正所述不可預(yù)期的變化,以減少錨文本可信度的波動(dòng),從而提高搜索結(jié)果排序的計(jì)算效率與穩(wěn)定性。例如,第二調(diào)整裝置根據(jù)錨文本可信度確定裝置13所確定的第 i時(shí)刻的錨文本可信度Cu,第i-Ι時(shí)刻所述超鏈接的錨文本可信度Ch,并根據(jù)公式Ci = λ XCH+α-λ ) XCu進(jìn)行調(diào)整,以獲得所述超鏈接的錨文本可信度Ci,其中,λ為0至1之間的修正因子。例如,假設(shè)錨文本可信度確定裝置13所確定的第i時(shí)刻的錨文本可信度Cu為0.8,第i-Ι時(shí)刻所述超鏈接的錨文本可信度C^1為0.6,假設(shè)λ取0. 25,則通過計(jì)算,所述超鏈接的錨文本可信度Ci為0. 75。上述數(shù)值僅為優(yōu)選地描述本發(fā)明的方案,本領(lǐng)域技術(shù)人員應(yīng)能根據(jù)實(shí)際情況和需求確定上述數(shù)值。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述調(diào)整所述超鏈接的錨文本可信度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的調(diào)整所述超鏈接的錨文本可信度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。圖3示出依據(jù)本發(fā)明另一方面的用于確定超鏈接的錨文本可信度的流程圖。其中,用于確定所述超鏈接的錨文本可信度的分析設(shè)備包括但不限于,單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集、基于云計(jì)算的計(jì)算機(jī)集合等,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。在步驟Sl中,所述分析設(shè)備用于獲取與所述超鏈接相對(duì)應(yīng)的錨文本。具體地,所述分析設(shè)備例如通過頁面技術(shù),如HTML、DHTML等頁面技術(shù),解析所述超鏈接的鏈接信息或者切分和提取所述超鏈接中的鏈接文字來獲取與所述超鏈接相對(duì)應(yīng)的錨文本。在浩瀚的互聯(lián)網(wǎng)海洋中,所有的網(wǎng)站都是可以互通的,而把他們鏈接在一起的紐帶就是超鏈接,在所述超鏈接中的錨文本既可以包括一個(gè)關(guān)鍵詞,也可以包括一句話,此時(shí)錨文本在所述超鏈接所在頁面的作用是告知瀏覽者在點(diǎn)擊該錨文本后會(huì)從當(dāng)前所在頁面跳轉(zhuǎn)到哪里。例如,某大學(xué)的官方網(wǎng)站做了一個(gè)百度主頁的友情鏈接,其具體代碼為<a href = “ http://www. baidu. com" >百度</a>,那么超鏈接www. baidu. com的錨文本即為“百度”,當(dāng)點(diǎn)擊“百度” 時(shí)就可以跳轉(zhuǎn)顯示百度的主頁。又例如,某網(wǎng)頁利用一句話“最好的中文搜索引擎是什么” 做了一個(gè)相關(guān)鏈接,其具體代碼為<a href = “ http://www. baidu. com" >最好的中文搜索引擎是什么</a>,那么超鏈接■· baidu. com的錨文本即為“最好的中文搜索引擎是什么”,當(dāng)點(diǎn)擊網(wǎng)頁中的“最好的中文搜索引擎是什么”后,當(dāng)前網(wǎng)頁可以跳轉(zhuǎn)顯示百度的主頁。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取與所述超鏈接相對(duì)應(yīng)的錨文本的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取與所述超鏈接相對(duì)應(yīng)的錨文本的方式如可適用于本發(fā)明, 也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。在步驟S2中,所述分析設(shè)備用于根據(jù)所述錨文本,獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息。具體地,所述分析設(shè)備通過步驟Si得到與所述超鏈接相對(duì)應(yīng)的錨文本后, 還通過諸如計(jì)算所述錨文本與所述超鏈接指向頁面之間的關(guān)聯(lián)度來獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息。優(yōu)選地,所述錨文本相關(guān)信息包括以下至少任一項(xiàng)-所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例;-所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例;-所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度。以所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例來舉例說明,假定所述超鏈接指向的頁面為專門經(jīng)營嬰兒用品的網(wǎng)站主頁,在該網(wǎng)站主頁的所有入鏈的錨文本中絕大多數(shù)錨文本都是類似于“奶粉”、“奶瓶”、“嬰兒用品”等鏈接文字,而當(dāng)前待確定超鏈接的錨文本可信度的錨文本為“科研”時(shí),計(jì)算當(dāng)前超鏈接的錨文本在所有入鏈的錨文本統(tǒng)計(jì)分析結(jié)果中所占比例,例如,當(dāng)前超鏈接的錨文本在所有入鏈的錨文本統(tǒng)計(jì)分析結(jié)果中所占比例非常低,那么所述超鏈接的錨文本可信度也相對(duì)較低。類似地,當(dāng)所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例時(shí),假定所述超鏈接所在頁面為某大學(xué)的官方網(wǎng)站主頁,在該大學(xué)官方網(wǎng)站主頁的所有出鏈的錨文本中絕大多數(shù)錨文本都是類似于“高校”、“大學(xué)”、“就業(yè)率”、“招生說明”等鏈接文字,將所有出鏈的錨文本進(jìn)行統(tǒng)計(jì)分析,計(jì)算所述超鏈接的錨文本在所述統(tǒng)計(jì)分析結(jié)果中所占比例。例如,若所述超鏈接的錨文本為嬰兒用品,則該錨文本在所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例較低。再以所述錨文本相關(guān)信息包括所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度為例,當(dāng)所述錨文本與所述超鏈接指向頁面的標(biāo)題之間的關(guān)聯(lián)度較高時(shí),所述超鏈接的錨文本可信度相對(duì)較高;當(dāng)所述錨文本與所述超鏈接指向頁面的標(biāo)題之間的關(guān)聯(lián)度較低時(shí),所述超鏈接的錨文本可信度相對(duì)較低。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取與所述錨文本相對(duì)應(yīng)的錨文本相關(guān)信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。在步驟S3中,所述分析設(shè)備用于根據(jù)所述錨文本相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度。接上例,當(dāng)所述錨文本相關(guān)信息包括所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例、所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例以及所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度時(shí),可以結(jié)合所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例的第一權(quán)重、所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例的第二權(quán)重以及所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度的第三權(quán)重,來加權(quán)確定所述超鏈接的錨文本可信度。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定所述超鏈接的錨文本可信度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定所述超鏈接的錨文本可信度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。優(yōu)選地,該方法還包括步驟S5(圖3未示出),用于根據(jù)所述超鏈接指向頁面,例如通過分析所述頁面的網(wǎng)址或頁面內(nèi)容,當(dāng)確定所述超鏈接指向頁面為所述頁面黑名單中的頁面,或所述超鏈接指向頁面的頁面內(nèi)容與頁面黑名單中的頁面的頁面內(nèi)容一致或近似一致時(shí),調(diào)整所述超鏈接的錨文本可信度。更優(yōu)選地,所述方法還包括更新步驟(圖3未示出),用于獲取作弊頁面或不良頁面,根據(jù)所述作弊頁面或不良頁面來建立或更新所述頁面黑名單。優(yōu)選地,該方法還包括步驟S6(圖3未示出),用于獲取所述超鏈接指向頁面更新前與更新后的相關(guān)度,并且所述步驟S3根據(jù)所述錨文本相關(guān)信息結(jié)合所述相關(guān)度,確定所述超鏈接的錨文本可信度。具體地,當(dāng)所述超鏈接指向頁面進(jìn)行了改版操作或者調(diào)整了頁面內(nèi)容后,可以計(jì)算改版前后或內(nèi)容調(diào)整前后所述超鏈接指向頁面自身的相關(guān)度,并根據(jù)所述錨文本相關(guān)信息與所述相關(guān)度的結(jié)合,確定所述超鏈接的錨文本可信度。例如,在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),通過所述超鏈接指向頁面更新前與更新后的較高相關(guān)度,來增加所述超鏈接的錨文本可信度。或者,在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),通過所述超鏈接指向頁面更新前與更新后的較低相關(guān)度,來降低所述超鏈接的錨文本可信度。優(yōu)選地,該方法還包括步驟S7(圖3未示出),用于根據(jù)用戶通過用戶設(shè)備輸入的查詢序列,獲取與所述查詢序列相對(duì)應(yīng)的超鏈接,并且所述步驟Si根據(jù)所述超鏈接,獲取與所述超鏈接相對(duì)應(yīng)的錨文本,以及所述方法還包括排序步驟(圖3未示出),用于根據(jù)所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,并結(jié)合所述錨文本可信度,對(duì)與所述超鏈接對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序。具體地,首先獲取所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,再根據(jù)所述錨文本可信度來調(diào)整所述查詢序列與所述超鏈接指向頁面之間的相關(guān)度,最后使用基于所述錨文本可信度修正后的相關(guān)度結(jié)合所述超鏈接指向頁面的標(biāo)題和/或正文等其他內(nèi)容信息得出綜合的相關(guān)性權(quán)值,并根據(jù)所述相關(guān)性權(quán)值對(duì)與所述超鏈接相對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序。在一優(yōu)選實(shí)施例中,搜索引擎在計(jì)算所述查詢序列與所述超鏈接指向頁面的基礎(chǔ)相關(guān)性權(quán)值時(shí),首先利用本發(fā)明的錨文本可信度來調(diào)整所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,并結(jié)合所述超鏈接指向頁面的標(biāo)題和正文的內(nèi)容信息得出綜合的相關(guān)性權(quán)值。由此可知,將本發(fā)明中用于確定超鏈接的錨文本可信度的分析設(shè)備應(yīng)用到搜索引擎領(lǐng)域,可以精確地檢測諸如作弊超鏈的虛假錨文本、過期超鏈的失效錨文本,從而調(diào)整基于所述虛假錨文本和失效錨文本的頁面權(quán)威度和排名,進(jìn)而提升搜索引擎搜索結(jié)果的排序質(zhì)量。優(yōu)選地,該方法還包括分配步驟(圖3未示出),用于根據(jù)所述錨文本可信度,將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。具體地,所述超鏈接所在頁面包括一個(gè)或多個(gè)錨文本,而這些錨文本分別對(duì)應(yīng)于所述超鏈接所在頁面的出鏈,根據(jù)本發(fā)明的超鏈接的錨文本可信度,可以將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。優(yōu)選地,該方法還包括步驟S8 (圖3未示出),用于根據(jù)下述關(guān)系式,調(diào)整所述超鏈接的錨文本可信度Ci:Ci = λ XCh+ (1- λ ) XCu其中,Cu為第i時(shí)刻未經(jīng)調(diào)整的錨文本可信度,Ci^1為第i-Ι時(shí)刻所述超鏈接的錨文本可信度,λ為0至1之間的修正因子。具體地,由于所述超鏈接指向頁面的內(nèi)容在短時(shí)間內(nèi)可能會(huì)有不可預(yù)期的變化,例如所述超鏈接指向頁面突然改版或進(jìn)行常規(guī)維護(hù)而無法訪問,為修正所述不可預(yù)期的變化,以減少錨文本可信度的波動(dòng),從而提高搜索結(jié)果排序的計(jì)算效率與穩(wěn)定性。例如,所述步驟S8根據(jù)所述步驟S3所確定的第i時(shí)刻的錨文本可信度Cu,第i-Ι時(shí)刻所述超鏈接的錨文本可信度C^1,并根據(jù)公式Ci = λ XCi^(I-A)XCu 進(jìn)行調(diào)整,以獲得所述超鏈接的錨文本可信度Ci,其中,λ為0至1之間的修正因子。例如,假設(shè)所述步驟S3所確定的第i時(shí)刻的錨文本可信度Cu為0. 8,第i-Ι時(shí)刻所述超鏈接的錨文本可信度C^1為0.6,假設(shè)λ取0. 25,則通過計(jì)算,所述超鏈接的錨文本可信度Ci為 0. 75。上述數(shù)值僅為優(yōu)選地描述本發(fā)明的方案,本領(lǐng)域技術(shù)人員應(yīng)能根據(jù)實(shí)際情況和需求確定上述數(shù)值。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述調(diào)整所述超鏈接的錨文本可信度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的調(diào)整所述超鏈接的錨文本可信度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。圖4示出依據(jù)本發(fā)明一優(yōu)選實(shí)施例的用于確定超鏈接的錨文本可信度的流程圖。 其中,用于確定所述超鏈接的錨文本可信度的分析設(shè)備包括但不限于,單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器集、基于云計(jì)算的計(jì)算機(jī)集合等,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。為便于更好地描述本發(fā)明,步驟S1’_S3’ 分別與圖3所示的步驟S1-S3對(duì)應(yīng),故此處不再贅述,僅通過引用的方式包含于圖3所描述的優(yōu)選實(shí)施例。步驟S4’與上述步驟S2’可由分析設(shè)備并行地加以執(zhí)行。在步驟S4’,該方法用于獲取與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息,并且所述步驟S3’還用于根據(jù)所述錨文本相關(guān)信息,結(jié)合所述超鏈接相關(guān)信息,確定所述超鏈接的錨文本可信度。優(yōu)選地,所述超鏈接相關(guān)信息包括以下至少任一項(xiàng)-所述超鏈接的產(chǎn)生時(shí)間;-所述超鏈接的位置;-所述超鏈接在所述超鏈接指向頁面的所有入鏈的統(tǒng)計(jì)分析結(jié)果中所占比例;-所述超鏈接在所述超鏈接所在頁面的所有出鏈的統(tǒng)計(jì)分析結(jié)果中所占比例。以所述超鏈接相關(guān)信息包括所述超鏈接的產(chǎn)生時(shí)間為例,當(dāng)所述超鏈接與所述超鏈接指向頁面之間的鏈接期限為10年,而超鏈接的產(chǎn)生時(shí)間為距離現(xiàn)在的時(shí)間間隔為10 年以上時(shí),根據(jù)超鏈接的產(chǎn)生時(shí)間可以確定所述超鏈接為過期超鏈接。類似地,當(dāng)所述超鏈接位于反映所述超鏈接指向頁面的主要內(nèi)容的定語部分時(shí),根據(jù)超鏈接的位置可以確定所述超鏈接與所述超鏈接指向頁面的關(guān)聯(lián)度。再例如,所述超鏈接指向的頁面為專門經(jīng)營嬰兒用品的網(wǎng)站主頁,在該網(wǎng)站主頁的所有入鏈中絕大多數(shù)超鏈接都是類似于“奶粉”、“奶瓶”、“嬰兒用品”等鏈接信息,而當(dāng)前待確定超鏈接的錨文本可信度的超鏈接為“科研”時(shí), 計(jì)算當(dāng)前超鏈接在所有入鏈統(tǒng)計(jì)分析結(jié)果中所占比例,例如,當(dāng)前超鏈接在所有入鏈統(tǒng)計(jì)分析結(jié)果中所占比例非常低,然后與通過上述步驟S2’獲取的錨文本相關(guān)信息相結(jié)合,以通過上述步驟S3’來確定超鏈接的錨文本可信度。類似地,當(dāng)所述超鏈接相關(guān)信息包括所述超鏈接在所述超鏈接所在頁面的所有出鏈的統(tǒng)計(jì)分析結(jié)果中所占比例時(shí),假定所述超鏈接所在的頁面為應(yīng)屆大學(xué)畢業(yè)生的就業(yè)信息公共平臺(tái)主頁,在該就業(yè)信息公共平臺(tái)主頁的所有出鏈中絕大多數(shù)超鏈接都是包含“electronic”、“computer”、“research”、“company”等字符的超鏈接,將所有出鏈進(jìn)行統(tǒng)計(jì)分析,計(jì)算所述超鏈接在所述統(tǒng)計(jì)分析結(jié)果中所占比例, 根據(jù)比例數(shù)值來獲取所述超鏈接相關(guān)信息。例如,若所述超鏈接指向的頁面旨在提供嬰兒用品相關(guān)服務(wù),則該超鏈接在所述超鏈接所在頁面的所有出鏈的統(tǒng)計(jì)分析結(jié)果中所占比例較低,相應(yīng)地,將所述超鏈接相關(guān)信息與錨文本相關(guān)信息相結(jié)合,例如,將與所述超鏈接相關(guān)信息對(duì)應(yīng)的超鏈接比例數(shù)值結(jié)合與所述錨文本相關(guān)信息對(duì)應(yīng)的錨文本比例數(shù)值,通過上述步驟S3’來確定基于所述超鏈接相關(guān)信息和所述錨文本相關(guān)信息的超鏈接的錨文本可信度。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。優(yōu)選地,在結(jié)合上述圖4所描述的實(shí)施例的基礎(chǔ)上,該方法還包括步驟S6’(圖4 未示出),用于獲取所述超鏈接指向頁面更新前與更新后的相關(guān)度,并且所述步驟S3’還用于根據(jù)所述錨文本相關(guān)信息結(jié)合所述相關(guān)度,確定所述超鏈接的錨文本可信度。具體地,當(dāng)所述超鏈接指向頁面進(jìn)行了改版操作或者調(diào)整了頁面內(nèi)容后,可以計(jì)算改版前后或內(nèi)容調(diào)整前后所述超鏈接指向頁面自身的相關(guān)度,并根據(jù)所述錨文本相關(guān)信息與所述相關(guān)度的結(jié)合,確定所述超鏈接的錨文本可信度。例如,在將所述錨文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),通過所述超鏈接指向頁面更新前與更新后的較高相關(guān)度,來增加所述超鏈接的錨文本可信度?;蛘撸趯⑺鲥^文本相關(guān)信息與所述相關(guān)度相結(jié)合時(shí),通過所述超鏈接指向頁面更新前與更新后的較低相關(guān)度,來降低所述超鏈接的錨文本可信度。優(yōu)選地,在結(jié)合上述圖4所描述的實(shí)施例的基礎(chǔ)上,該方法還包括步驟S7’(圖4 未示出),用于根據(jù)用戶通過用戶設(shè)備輸入的查詢序列,獲取與所述查詢序列相對(duì)應(yīng)的超鏈接,并且所述步驟Si,還用于根據(jù)所述超鏈接,獲取與所述超鏈接相對(duì)應(yīng)的錨文本,以及該方法還包括排序步驟(圖4未示出),用于根據(jù)所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,并結(jié)合所述錨文本可信度,對(duì)與所述超鏈接對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序。具體地,首先獲取所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,再根據(jù)所述錨文本可信度來調(diào)整所述查詢序列與所述超鏈接指向頁面之間的相關(guān)度,最后使用基于所述錨文本可信度修正后的相關(guān)度結(jié)合所述超鏈接指向頁面的標(biāo)題和/或正文等其他內(nèi)容信息得出綜合的相關(guān)性權(quán)值,并根據(jù)所述相關(guān)性權(quán)值對(duì)與所述超鏈接相對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序。在一優(yōu)選實(shí)施例中,搜索引擎在計(jì)算所述查詢序列與所述超鏈接指向頁面的基礎(chǔ)相關(guān)性權(quán)值時(shí),首先利用本發(fā)明的錨文本可信度來調(diào)整所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度, 并結(jié)合所述超鏈接指向頁面的標(biāo)題和正文的內(nèi)容信息得出綜合的相關(guān)性權(quán)值。由此可知, 將本發(fā)明中用于確定超鏈接的錨文本可信度的分析設(shè)備應(yīng)用到搜索引擎領(lǐng)域,可以精確地檢測諸如作弊超鏈的虛假錨文本、過期超鏈的失效錨文本,從而調(diào)整基于所述虛假錨文本和失效錨文本的頁面權(quán)威度和排名,進(jìn)而提升搜索引擎搜索結(jié)果的排序質(zhì)量。優(yōu)選地,在結(jié)合上述圖4所描述的實(shí)施例的基礎(chǔ)上,該方法還包括分配步驟(圖4 未示出),用于根據(jù)所述錨文本可信度,將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。具體地,所述超鏈接所在頁面包括一個(gè)或多個(gè)錨文本,而這些錨文本分別對(duì)應(yīng)于所述超鏈接所在頁面的出鏈,根據(jù)本發(fā)明的超鏈接的錨文本可信度,可以將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。優(yōu)選地,在結(jié)合上述圖4所描述的實(shí)施例的基礎(chǔ)上,該方法還包括步驟S8’(圖4 未示出),用于根據(jù)下述關(guān)系式,調(diào)整所述超鏈接的錨文本可信度Ci Ci = λ XCh+ (1- λ ) XCu其中,Cu為第i時(shí)刻未經(jīng)調(diào)整的錨文本可信度,Ci^1為第i-Ι時(shí)刻所述超鏈接的錨文本可信度,λ為0至1之間的修正因子。具體地,由于所述超鏈接指向頁面的內(nèi)容在短時(shí)間內(nèi)可能會(huì)有不可預(yù)期的變化,例如所述超鏈接指向頁面突然改版或進(jìn)行常規(guī)維護(hù)而無法訪問,為修正所述不可預(yù)期的變化,以減少錨文本可信度的波動(dòng),從而提高搜索結(jié)果排序的計(jì)算效率與穩(wěn)定性。例如,所述步驟S8’根據(jù)所述步驟S3’所確定的第i時(shí)刻的錨文本可信度Cu,第i-Ι時(shí)刻所述超鏈接的錨文本可信度C^1,并根據(jù)公式Ci = λ XCi^(I-A)XCu 進(jìn)行調(diào)整,以獲得所述超鏈接的錨文本可信度Ci,其中,λ為0至1之間的修正因子。例如, 假設(shè)所述步驟S3’所確定的第i時(shí)刻的錨文本可信度Cu為0. 8,第i-Ι時(shí)刻所述超鏈接的錨文本可信度C^1為0. 6,假設(shè)λ取0. 25,則通過計(jì)算,所述超鏈接的錨文本可信度Ci為 0. 75。上述數(shù)值僅為優(yōu)選地描述本發(fā)明的方案,本領(lǐng)域技術(shù)人員應(yīng)能根據(jù)實(shí)際情況和需求確定上述數(shù)值。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述調(diào)整所述超鏈接的錨文本可信度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的調(diào)整所述超鏈接的錨文本可信度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此外,顯然“包括” 一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。系統(tǒng)權(quán)利要求中陳述的多個(gè)單元或裝置也可以由一個(gè)單元或裝置通過軟件或者硬件來實(shí)現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
權(quán)利要求
1.一種計(jì)算機(jī)實(shí)現(xiàn)的用于確定超鏈接的錨文本可信度的方法,其中,該方法包括以下步驟a獲取與所述超鏈接相對(duì)應(yīng)的錨文本; b根據(jù)所述錨文本,獲取與所述錨文本對(duì)應(yīng)的錨文本相關(guān)信息; c根據(jù)所述錨文本相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述錨文本相關(guān)信息包括以下至少任一項(xiàng) -所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例;-所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例;-所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,該方法還包括-根據(jù)所述超鏈接指向頁面,并結(jié)合頁面黑名單,調(diào)整所述超鏈接的錨文本可信度。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述方法還包括 -獲取作弊頁面或不良頁面;-根據(jù)所述作弊頁面或不良頁面,建立或更新所述頁面黑名單。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其中,所述方法還包括步驟 -獲取與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息;其中,所述步驟c還包括-根據(jù)所述錨文本相關(guān)信息,結(jié)合所述超鏈接相關(guān)信息,確定所述超鏈接的錨文本可信度。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述超鏈接相關(guān)信息包括以下至少任一項(xiàng) -所述超鏈接的產(chǎn)生時(shí)間;-所述超鏈接的位置;-所述超鏈接在所述超鏈接指向頁面的所有入鏈的統(tǒng)計(jì)分析結(jié)果中所占比例; -所述超鏈接在所述超鏈接所在頁面的所有出鏈的統(tǒng)計(jì)分析結(jié)果中所占比例。
7.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其中,所述方法還包括步驟 -獲取所述超鏈接指向頁面更新前與更新后的相關(guān)度;其中,所述步驟c還包括-根據(jù)所述錨文本相關(guān)信息,結(jié)合所述相關(guān)度,確定所述超鏈接的錨文本可信度。
8.根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法,其中,該方法還包括-根據(jù)用戶通過用戶設(shè)備輸入的查詢序列,獲取與所述查詢序列相對(duì)應(yīng)的超鏈接; 其中,所述步驟a還包括-根據(jù)所述超鏈接,獲取與所述超鏈接相對(duì)應(yīng)的錨文本; 其中,所述方法還包括步驟-根據(jù)所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,并結(jié)合所述錨文本可信度, 對(duì)與所述超鏈接對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序。
9.根據(jù)權(quán)利要求1至8中任一項(xiàng)所述的方法,其中,所述方法還包括-根據(jù)所述錨文本可信度,將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。
10.根據(jù)權(quán)利要求1至9中任一項(xiàng)所述的方法,其中,所述方法還包括 -根據(jù)下述關(guān)系式,調(diào)整所述超鏈接的錨文本可信度Ci Ci = λ χ Cjd-入)xcu其中,Cu為第i時(shí)刻未經(jīng)調(diào)整的錨文本可信度,Cp1為第i-Ι時(shí)刻所述超鏈接的錨文本可信度,λ為0至1之間的修正因子。
11.一種用于確定超鏈接的錨文本可信度的分析設(shè)備,其中,該分析設(shè)備包括 第一獲取裝置,用于獲取與所述超鏈接相對(duì)應(yīng)的錨文本;第二獲取裝置,用于根據(jù)所述錨文本,獲取與所述錨文本對(duì)應(yīng)的錨文本相關(guān)信息; 錨文本可信度確定裝置,用于根據(jù)所述錨文本相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度。
12.根據(jù)權(quán)利要求11所述的分析設(shè)備,其中,所述錨文本相關(guān)信息包括以下至少任一項(xiàng)-所述錨文本在所述超鏈接指向頁面的所有入鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例;-所述錨文本在所述超鏈接所在頁面的所有出鏈的錨文本的統(tǒng)計(jì)分析結(jié)果中所占比例;-所述錨文本與所述超鏈接指向頁面的關(guān)聯(lián)度。
13.根據(jù)權(quán)利要求11或12所述的分析設(shè)備,其中,所述分析設(shè)備還包括第一調(diào)整裝置,用于根據(jù)所述超鏈接指向頁面,并結(jié)合頁面黑名單,調(diào)整所述超鏈接的錨文本可信度。
14.根據(jù)權(quán)利要求13所述的分析設(shè)備,其中,該分析設(shè)備還包括更新裝置,用于 -獲取作弊頁面或不良頁面;-根據(jù)所述作弊頁面或不良頁面,建立或更新所述頁面黑名單。
15.根據(jù)權(quán)利要求11至14中任一項(xiàng)所述的分析設(shè)備,其中,所述分析設(shè)備還包括 第三獲取裝置,用于獲取與所述超鏈接相對(duì)應(yīng)的超鏈接相關(guān)信息;其中,所述錨文本可信度確定裝置還用于-根據(jù)所述錨文本相關(guān)信息,結(jié)合所述超鏈接相關(guān)信息,確定所述超鏈接的錨文本可信度。
16.根據(jù)權(quán)利要求15所述的分析設(shè)備,其中,所述超鏈接相關(guān)信息包括以下至少任一項(xiàng)-所述超鏈接的產(chǎn)生時(shí)間; -所述超鏈接的位置;-所述超鏈接在所述超鏈接指向頁面的所有入鏈的統(tǒng)計(jì)分析結(jié)果中所占比例; -所述超鏈接在所述超鏈接所在頁面的所有出鏈的統(tǒng)計(jì)分析結(jié)果中所占比例。
17.根據(jù)權(quán)利要求11至14中任一項(xiàng)所述的分析設(shè)備,其中,所述分析設(shè)備還包括 第四獲取裝置,用于獲取所述超鏈接指向頁面更新前與更新后的相關(guān)度;其中,所述錨文本可信度確定裝置還用于-根據(jù)所述錨文本相關(guān)信息,結(jié)合所述相關(guān)度,確定所述超鏈接的錨文本可信度。
18.根據(jù)權(quán)利要求11至17中任一項(xiàng)所述的分析設(shè)備,其中,所述分析設(shè)備還包括第五獲取裝置,用于根據(jù)用戶通過用戶設(shè)備輸入的查詢序列,獲取與所述查詢序列相對(duì)應(yīng)的超鏈接;其中,所述第一獲取裝置還用于-根據(jù)所述超鏈接,獲取與所述超鏈接相對(duì)應(yīng)的錨文本;其中,所述分析設(shè)備還包括排序裝置,用于-根據(jù)所述超鏈接的錨文本與所述查詢序列的內(nèi)容相關(guān)度,并結(jié)合所述錨文本可信度, 對(duì)與所述超鏈接對(duì)應(yīng)的搜索結(jié)果進(jìn)行排序。
19.根據(jù)權(quán)利要求11至18中任一項(xiàng)所述的分析設(shè)備,其中,所述分析設(shè)備還包括分配裝置,用于根據(jù)所述錨文本可信度,將所述超鏈接所在頁面的權(quán)威值分配給所述超鏈接所在頁面的出鏈。
20.根據(jù)權(quán)利要求11至19中任一項(xiàng)所述的分析設(shè)備,其中,所述分析設(shè)備還包括第二調(diào)整裝置,用于根據(jù)下述關(guān)系式,調(diào)整所述超鏈接的錨文本可信度Ci Ci = λ χ Cjd-入)xcu其中,Cu為第i時(shí)刻未經(jīng)調(diào)整的錨文本可信度,Cp1為第i-Ι時(shí)刻所述超鏈接的錨文本可信度,λ為0至1之間的修正因子。
21.一種搜索引擎,其中,該搜索引擎包括如權(quán)利要求11至20中任一項(xiàng)所述的用于確定超鏈接的錨文本可信度的分析設(shè)備。
22.根據(jù)權(quán)利要求21所述的搜索引擎,其中,該搜索引擎在提供搜索結(jié)果時(shí),還提供與所述搜索結(jié)果相對(duì)應(yīng)的權(quán)威值。
全文摘要
本發(fā)明提供一種用于確定超鏈接的錨文本可信度的分析設(shè)備和方法,包括獲取與所述超鏈接相對(duì)應(yīng)的錨文本;根據(jù)所述錨文本,獲取與所述錨文本對(duì)應(yīng)的錨文本相關(guān)信息;根據(jù)所述錨文本相關(guān)信息,加權(quán)確定所述超鏈接的錨文本可信度。與現(xiàn)有技術(shù)相比,本發(fā)明基于錨文本相關(guān)信息來加權(quán)確定超鏈接的錨文本可信度,使超鏈接的錨文本與超鏈接指向頁面之間的內(nèi)容相關(guān)性更加合理。此外,將本發(fā)明應(yīng)用到搜索引擎領(lǐng)域,還可精確地檢測作弊超鏈的虛假錨文本、過期超鏈的失效錨文本,調(diào)整基于所述虛假錨文本和失效錨文本的頁面權(quán)威度和排名,進(jìn)而提升搜索引擎搜索結(jié)果的排序質(zhì)量。
文檔編號(hào)G06F17/30GK102567417SQ20101062005
公開日2012年7月11日 申請(qǐng)日期2010年12月31日 優(yōu)先權(quán)日2010年12月31日
發(fā)明者姚旭, 楊宣 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司