專(zhuān)利名稱(chēng):用于改進(jìn)對(duì)新聞文章分級(jí)的系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及通信系統(tǒng),更具體地說(shuō),涉及用于改進(jìn)通信系統(tǒng)中的對(duì)新聞文章分級(jí)的系統(tǒng)和方法。
背景技術(shù):
諸如因特網(wǎng)之類(lèi)的網(wǎng)絡(luò)已成為日常生活的日益重要的部分?,F(xiàn)在,數(shù)以百萬(wàn)的人天天訪問(wèn)因特網(wǎng)購(gòu)買(mǎi)商品和服務(wù),獲得感興趣的信息(例如,電影列表、新聞等),與朋友、家人和同事通信(例如,經(jīng)由電子郵件和即時(shí)消息)。
現(xiàn)在,當(dāng)希望在因特網(wǎng)上購(gòu)買(mǎi)產(chǎn)品或僅僅尋找信息時(shí),會(huì)在他/她的web瀏覽器輸入關(guān)于感興趣的web站點(diǎn)的統(tǒng)一資源定位符,以便訪問(wèn)特定的web站點(diǎn)。然后確定在該特定站點(diǎn)感興趣的信息是否可用。
例如,假設(shè)有人希望經(jīng)由因特網(wǎng)獲得關(guān)于特定主題的最新新聞。它就訪問(wèn)包括傳統(tǒng)的搜索引擎的web站點(diǎn)。將一個(gè)或多個(gè)與感興趣的主題相關(guān)的項(xiàng)(例如“Iraq”)輸入到搜索引擎中,試圖定位已發(fā)布了關(guān)于該主題的文章的新聞源。這樣,使用搜索引擎定位提供了與期望主題相關(guān)的新聞文章的各個(gè)網(wǎng)站,從而產(chǎn)生數(shù)百甚至數(shù)千個(gè)“點(diǎn)擊”的經(jīng)分級(jí)列表,其中每個(gè)點(diǎn)擊可能與涉及這(一個(gè)或多個(gè))搜索項(xiàng)的web頁(yè)面相對(duì)應(yīng)。
盡管該經(jīng)分級(jí)列表中的每個(gè)點(diǎn)擊可能涉及期望主題,但是與這些點(diǎn)擊相關(guān)聯(lián)的新聞源可能具有不同的質(zhì)量。例如,大多認(rèn)為CNN和BBC是報(bào)道準(zhǔn)確、撰寫(xiě)專(zhuān)業(yè)等等的高質(zhì)量源,而本地新聞源(例如,家鄉(xiāng)的新聞源)可能是低質(zhì)量的。
因此,需要系統(tǒng)和方法來(lái)基于與新聞文章相關(guān)聯(lián)的的新聞源的質(zhì)量來(lái)改進(jìn)對(duì)新聞文章的分級(jí)。
發(fā)明內(nèi)容
符合本發(fā)明原理的實(shí)現(xiàn)方式至少部分基于與新聞文章相關(guān)聯(lián)的多個(gè)新聞源的質(zhì)量來(lái)調(diào)整文章的分級(jí)。
根據(jù)符合本發(fā)明原理的一種實(shí)現(xiàn)方式,提供了一種用于分級(jí)結(jié)果的方法,該方法包括接收鏈接的列表;針對(duì)每個(gè)鏈接識(shí)別出與該鏈接相關(guān)聯(lián)的源;至少部分基于所識(shí)別出的源的質(zhì)量對(duì)鏈接的列表分級(jí)。
在符合本發(fā)明原理的另一種實(shí)現(xiàn)方式中,一種服務(wù)器包括處理器和配置為存儲(chǔ)一組源的質(zhì)量指示符的存儲(chǔ)器。處理器可以接收對(duì)象的列表,識(shí)別出與這些對(duì)象中的每個(gè)對(duì)象相關(guān)聯(lián)的源,并且至少部分基于與對(duì)象的列表中的至少一個(gè)對(duì)象被關(guān)聯(lián)到的源相關(guān)聯(lián)的質(zhì)量指示符來(lái)對(duì)所述對(duì)象分級(jí)。
在符合本發(fā)明原理的另一種實(shí)現(xiàn)方式中,提供了一種用于確定新聞源的質(zhì)量的方法。該方法可以包括至少部分基于下述中的至少一個(gè)來(lái)確定該新聞源的一個(gè)或多種度量值在第一時(shí)間段中新聞源產(chǎn)生的文章數(shù)目;新聞源產(chǎn)生的文章的平均長(zhǎng)度;在第二時(shí)間段中新聞源產(chǎn)生的重要報(bào)道的量;爆炸性新聞分?jǐn)?shù);到新聞源的網(wǎng)絡(luò)流量;人們對(duì)新聞源的評(píng)價(jià);新聞源的發(fā)行統(tǒng)計(jì);與新聞源相關(guān)聯(lián)的職員多少;與新聞源相關(guān)聯(lián)的辦事處的數(shù)目;在與新聞源相關(guān)聯(lián)的一組文章中原始指名實(shí)體的數(shù)目;新聞源的覆蓋幅度;到新聞源的流量源自的不同國(guó)家的數(shù)目;以及新聞源使用的寫(xiě)作風(fēng)格。該方法還包括至少部分基于所確定的一個(gè)或多種度量值來(lái)計(jì)算新聞源的質(zhì)量值。
在符合本發(fā)明原理的另一種實(shí)施方式中,提供了一種用于提供搜索結(jié)果的方法。該方法可以包括接收對(duì)象的列表;識(shí)別出與該組對(duì)象中的每個(gè)對(duì)象相關(guān)聯(lián)的源;確定所識(shí)別出的源中的每個(gè)源的質(zhì)量;以及至少部分基于所確定的與該組對(duì)象中的每個(gè)對(duì)象相關(guān)聯(lián)到的源的質(zhì)量來(lái)對(duì)該對(duì)象分級(jí)。
結(jié)合于此并組成本說(shuō)明書(shū)一部分的附示了本發(fā)明的實(shí)施例,并且與詳細(xì)描述一起解釋本發(fā)明。在附圖中,圖1是符合本發(fā)明原理的系統(tǒng)和方法可以在其中實(shí)現(xiàn)的系統(tǒng)的示例圖;圖2是在符合本發(fā)明原理的實(shí)現(xiàn)方式中的圖1的服務(wù)器的示例圖;圖3是在符合本發(fā)明原理的實(shí)現(xiàn)方式中可以與圖2的服務(wù)器相關(guān)聯(lián)的數(shù)據(jù)庫(kù)的示意圖;圖4是在符合本發(fā)明原理的實(shí)現(xiàn)方式中用于確定新聞源的源等級(jí)的示例過(guò)程的流程圖;圖5是在符合本發(fā)明原理的實(shí)現(xiàn)方式中用于調(diào)節(jié)對(duì)象分級(jí)的示例過(guò)程的流程圖;具體實(shí)施方式
下面符合本發(fā)明原理的實(shí)現(xiàn)方式的詳細(xì)描述參考附圖。在不同的圖示中相同的標(biāo)號(hào)可以識(shí)別相同的或相似的元素。另外,下面的詳細(xì)描述不限制本發(fā)明。
符合本發(fā)明原理的實(shí)現(xiàn)方式至少部分基于與新聞文章相關(guān)聯(lián)的源的質(zhì)量來(lái)改進(jìn)對(duì)搜索結(jié)果中的新聞文章的分級(jí)。盡管前述描述集中于對(duì)來(lái)自新聞源的新聞文章分級(jí),但是應(yīng)當(dāng)理解,這里所述的技術(shù)同樣適用于改進(jìn)對(duì)除了新聞文章之外的其他項(xiàng)目分級(jí)。
示例性系統(tǒng)圖1是系統(tǒng)100的示例圖,在系統(tǒng)100中,可以實(shí)現(xiàn)符合本發(fā)明原理的系統(tǒng)和方法。系統(tǒng)100可以包括多個(gè)客戶機(jī)110,客戶機(jī)110經(jīng)由網(wǎng)絡(luò)140連接到服務(wù)器120和130。網(wǎng)絡(luò)140可以包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、電話網(wǎng)(例如,公共交換電話網(wǎng),PSTN)、內(nèi)聯(lián)網(wǎng)、因特網(wǎng)、相似的或不同的網(wǎng)絡(luò)、或者這些網(wǎng)絡(luò)的組合。出于簡(jiǎn)化,在圖1中兩個(gè)客戶機(jī)110和三個(gè)服務(wù)器120/130被示作連接到網(wǎng)絡(luò)140。實(shí)際上,可以有更多或更少的客戶機(jī)110和/或服務(wù)器120/130。另外,在某些實(shí)例中,客戶機(jī)110可以執(zhí)行服務(wù)器120/130的功能,并且服務(wù)器120/130可以執(zhí)行客戶機(jī)110的功能。
客戶機(jī)110可以包括設(shè)備,例如,無(wú)線電話、個(gè)人計(jì)算機(jī)、個(gè)人數(shù)字助理(PDA)、膝上型電腦等,以及在這些設(shè)備上運(yùn)行的線程或進(jìn)程,以及/或者可由這些設(shè)備執(zhí)行的對(duì)象。服務(wù)器120/130可以包括服務(wù)器設(shè)備,線程,以及/或者以符合本發(fā)明的原理的方式操作、搜索或者維護(hù)文檔的對(duì)象。客戶機(jī)110和服務(wù)器120/130可以經(jīng)由有線、無(wú)線或光連接而連接到網(wǎng)絡(luò)140。
在符合本發(fā)明原理的實(shí)現(xiàn)方式中,服務(wù)器120可以包括由客戶機(jī)110使用的搜索引擎125。服務(wù)器130可以存儲(chǔ)可由客戶機(jī)110訪問(wèn)的對(duì)象(或者web文檔)。
示例性服務(wù)器配置圖2是符合本發(fā)明原理的實(shí)現(xiàn)方式中的服務(wù)器120的示例圖??蛻魴C(jī)110和服務(wù)器130可以類(lèi)似地配置。服務(wù)器120可以包括總線210、處理器220、主存230、只讀存儲(chǔ)器(ROM)240、存儲(chǔ)設(shè)備250、一個(gè)或多個(gè)輸入設(shè)備260、一個(gè)或多個(gè)輸出設(shè)備270、以及通信接口280??偩€210可以包括允許在服務(wù)器120的組件之間通信的一個(gè)或多個(gè)導(dǎo)線。
處理器220可以包括可以解釋并執(zhí)行指令的任意類(lèi)型的傳統(tǒng)處理器或微處理器。主存230可以包括隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)或其他類(lèi)型的動(dòng)態(tài)存儲(chǔ)器件,存儲(chǔ)用于處理器220執(zhí)行的信息和指令。ROM 240可以包括傳統(tǒng)的ROM器件或其他類(lèi)型的靜態(tài)存儲(chǔ)器件,存儲(chǔ)用于由處理器220使用的靜態(tài)信息和指令。存儲(chǔ)設(shè)備250可以包括磁和/或光記錄介質(zhì)及其相應(yīng)的驅(qū)動(dòng)器。
輸入設(shè)備260可以包括允許用戶將信息輸入到服務(wù)器120的一種或多種傳統(tǒng)機(jī)制,例如,鍵盤(pán)、鼠標(biāo)、筆、一種或多種生物測(cè)定學(xué)(biometric)機(jī)制(例如語(yǔ)音識(shí)別設(shè)備),等等。輸出設(shè)備270可以筆將信息輸出到用戶的一種或多種傳統(tǒng)機(jī)制,包括顯示器、打印機(jī)、揚(yáng)聲器等。通信接口280可以包括任何類(lèi)似收發(fā)器的機(jī)制,其使服務(wù)器120能夠與其他設(shè)備和/或系統(tǒng)通信。例如,通信接口280可以包括用于經(jīng)由網(wǎng)絡(luò)(例如,網(wǎng)絡(luò)140)與另一個(gè)設(shè)備或系統(tǒng)通信的機(jī)制。
如下面將詳細(xì)描述的,符合本發(fā)明原理的服務(wù)器120可以響應(yīng)于來(lái)自客戶機(jī)110的查詢改進(jìn)搜索結(jié)果。在一種實(shí)現(xiàn)方式中,服務(wù)器120基于提供新聞文章的源的質(zhì)量對(duì)新聞文章搜索結(jié)果進(jìn)行修改。服務(wù)器120可以響應(yīng)于處理器220執(zhí)行計(jì)算機(jī)可讀介質(zhì)(例如,存儲(chǔ)器230)中包含的軟件指令來(lái)執(zhí)行這些操作。計(jì)算機(jī)可讀介質(zhì)可以被限定為一種或多種存儲(chǔ)器器件和/或載波。軟件指令可以從另一種計(jì)算機(jī)可讀介質(zhì)(例如,存儲(chǔ)設(shè)備250)被讀入到存儲(chǔ)器230中,或者經(jīng)由通信接口280從另一個(gè)設(shè)備讀入到存儲(chǔ)器230中。存儲(chǔ)器230中包含的軟件指令可以致使處理器220執(zhí)行稍后將描述的過(guò)程?;蛘?,硬連線的電路可以用來(lái)替換軟件指令或者與軟件指令組合使用來(lái)實(shí)現(xiàn)符合本發(fā)明原理的過(guò)程。因此,本發(fā)明不受限于硬件電路和軟件的任意特定組合。
符合本發(fā)明原理的服務(wù)器120可以基于來(lái)自一個(gè)或多個(gè)關(guān)聯(lián)數(shù)據(jù)庫(kù)的信息來(lái)對(duì)搜索結(jié)果的分級(jí)進(jìn)行分級(jí)或修改。這些數(shù)據(jù)庫(kù)可以被存儲(chǔ)在服務(wù)器120處(例如,在存儲(chǔ)器230中)或者存儲(chǔ)在服務(wù)器120外。
圖3是數(shù)據(jù)庫(kù)300的示例圖,在符合本發(fā)明原理的實(shí)現(xiàn)方式中,數(shù)據(jù)庫(kù)300可以與服務(wù)器120相關(guān)聯(lián)。經(jīng)管下面只描述一個(gè)數(shù)據(jù)庫(kù),但是應(yīng)當(dāng)意識(shí)到服務(wù)器120可以與一個(gè)或多個(gè)額外的數(shù)據(jù)庫(kù)(未示出)相關(guān)聯(lián),這些額外的數(shù)據(jù)庫(kù)本地地存儲(chǔ)在服務(wù)器120處,或者分布在網(wǎng)絡(luò)140上。
如上所述,數(shù)據(jù)庫(kù)300可以包括源字段310和源等級(jí)字段320。數(shù)據(jù)庫(kù)300可以包括額外的字段(未示出),這些額外的字段幫助搜索和分類(lèi)數(shù)據(jù)庫(kù)300中的信息和/或自網(wǎng)絡(luò)140接收到的信息。
在系統(tǒng)100中,源字段310可以識(shí)別新聞源。標(biāo)記為1到N(其中N是大于等于1的數(shù)字)的新聞源可以包括本地新聞源(例如,本地在線報(bào)紙或本地電視臺(tái)網(wǎng)站),全國(guó)新聞源、國(guó)際新聞源、專(zhuān)業(yè)新聞源(例如,技術(shù)、體育或娛樂(lè)雜志或報(bào)紙)和/或來(lái)自網(wǎng)絡(luò)(例如,因特網(wǎng))的任何其他類(lèi)型的新聞源。例如,新聞源可以包括WashingtonPost、CNN、MSNBC、BCC、the New York Post、USA Today、the Pittsburgh Post-Gazette、ESPN、Sports Illustrated等的在線版。
源等級(jí)字段320可以存儲(chǔ)這樣的值,該值可用于對(duì)從在源字段310中識(shí)別出的源提取的文章(或者文檔)的等級(jí)進(jìn)行調(diào)整。這樣,可以將來(lái)自較高質(zhì)量新聞源的文章的等級(jí)調(diào)整為比來(lái)自較低質(zhì)量的新聞源的同樣主題的文章的高。下面將詳細(xì)描述,給定新聞源的值可以至少部分基于該新聞源的可信性、報(bào)告準(zhǔn)確度、寫(xiě)作專(zhuān)業(yè)性等。
示例性處理圖4是在符合本發(fā)明原理的實(shí)現(xiàn)方式中用于確定新聞源的源等級(jí)的示例過(guò)程的流程圖。下面所述的過(guò)程可以由例如服務(wù)器120自動(dòng)執(zhí)行,或者由人員操作員手動(dòng)執(zhí)行。在替換實(shí)現(xiàn)方式中,下面所述過(guò)程的多個(gè)部分可以被自動(dòng)執(zhí)行,而其他部分可以被手動(dòng)執(zhí)行。
處理可以開(kāi)始于考慮每個(gè)新聞源的一組度量(動(dòng)作405)。每種度量可以測(cè)量新聞源的特定屬性,該特定屬性可以充當(dāng)新聞源的質(zhì)量的部分指示符。在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,每種度量可以作為數(shù)值計(jì)算,其中例如計(jì)算出的較高的值可能指示較高質(zhì)量的新聞源。
在下面將詳細(xì)解釋?zhuān)摻M度量可以包括在給定時(shí)間段中由新聞源產(chǎn)生的文章的數(shù)目、來(lái)自該新聞源的文章的平均長(zhǎng)度、來(lái)自該新聞源的報(bào)道的重要性、爆炸性新聞分?jǐn)?shù)、使用模式、人群評(píng)價(jià)、發(fā)行統(tǒng)計(jì)、與該新聞源相關(guān)聯(lián)的職員多少、與該新聞源相關(guān)的新聞辦事處數(shù)目、在文章簇(cluster)中該新聞源產(chǎn)生指名實(shí)體的數(shù)目、覆蓋幅度、國(guó)際多樣性、寫(xiě)作風(fēng)格等。確定新聞源的質(zhì)量的第一度量可以包括在給定時(shí)間段中由該新聞源產(chǎn)生的文章的數(shù)目。該時(shí)間段可以是一周、雙周、月等。在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,第一度量可以通過(guò)對(duì)在一時(shí)間段上該新聞源產(chǎn)生的非重復(fù)文章的數(shù)據(jù)進(jìn)行計(jì)數(shù)來(lái)確定。在替換實(shí)現(xiàn)方式中,第一度量可以通過(guò)對(duì)由該新聞源產(chǎn)生的原始句子的數(shù)目進(jìn)行計(jì)數(shù)來(lái)確定。
第二度量可以包括來(lái)自該新聞源的文章的平均長(zhǎng)度。該平均產(chǎn)度可以例如按詞或句子測(cè)量。在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,第二度量可以通過(guò)確定由該新聞源產(chǎn)生的非重復(fù)文章的平均長(zhǎng)度來(lái)確定。例如,可以確定來(lái)自CNN的文章的平均長(zhǎng)度為300個(gè)詞,而來(lái)自Amateur News Network的文章的平均長(zhǎng)度為150個(gè)詞。因此,CNN的第二度量的值可以為300,而Amateur News Network的可以為150。
第三度量可以包括該新聞源的報(bào)道的重要性。該度量可以至少部分基于可以確定給定文章的背后新聞?dòng)浭碌摹按笮 ?下文中稱(chēng)作“記事大小”)這樣的假設(shè)。該度量可以為代表在固定時(shí)間段內(nèi)所考慮的新聞源產(chǎn)生的所有非重復(fù)文章的記事大小分?jǐn)?shù)的總值。該時(shí)間段可以是一周、雙周、月等。作為示例,如果D為文章,則D的記事大小可以作為該系統(tǒng)(例如,服務(wù)器120)已知的關(guān)于相同主題的不同的其他文章的數(shù)目而被測(cè)量出。例如,如果D是關(guān)于哥倫比亞航天飛機(jī)墜毀的文章,并且存在500篇關(guān)于該主題的不同文章,則該記事大小應(yīng)為500。存在許多用于檢測(cè)關(guān)于該記事的其他文章的技術(shù)。例如,在下述共同未決、共同轉(zhuǎn)讓的專(zhuān)利申請(qǐng)中描述了兩類(lèi)這種技術(shù),所述專(zhuān)利申請(qǐng)是2003年6月30日提交的題為“Methods and Apparatus for RankingDocuments”的美國(guó)專(zhuān)利申請(qǐng)No.10/611,267,以及2003年6月30日提交的題為“Methods and Apparatus for Clustered Aggregation ofNews Content,”的美國(guó)專(zhuān)利申請(qǐng)No.10/611,269,這二者都通過(guò)引用明確整體結(jié)合于此。一組相關(guān)的文章在下文中稱(chēng)作“簇”。在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,度量值可以被限制為在規(guī)定的時(shí)間段上由給定的源覆蓋的最大的N個(gè)記事的記事大小,其中N是大于等于1的正整數(shù)(例如,在1周中服務(wù)器120測(cè)量的由CNN覆蓋的最大100個(gè)記事)。
第四度量可以包括代表爆炸性新聞分?jǐn)?shù)的值。該度量可以測(cè)量新聞源在重要事件發(fā)生后立即發(fā)表記事的能力。該度量可以對(duì)來(lái)自新聞源的每篇非重復(fù)文章的“爆炸性分?jǐn)?shù)”進(jìn)行平均,其中爆炸性分?jǐn)?shù)例如是這樣的數(shù)字,如果在新聞事件發(fā)生后立即發(fā)表文章則該數(shù)字為較高的值,如果在從新聞?dòng)浭掳l(fā)生起已經(jīng)過(guò)很多時(shí)間后才發(fā)表文章則該數(shù)字為較低的值。
在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,以遞增順序按照發(fā)表時(shí)間對(duì)簇中的所有文章進(jìn)行分類(lèi),并且第一篇文章的時(shí)間作為事件的時(shí)間。例如,假設(shè)T是當(dāng)前文章和第一篇文章之間的時(shí)間差。閾值N1可用于標(biāo)注這樣的間隔,在該間隔之后不再考慮記事的爆炸性。因此,爆炸新聞分?jǐn)?shù)度量可以如下確定(breaking_source爆炸性分?jǐn)?shù))如果T>N1,則breaking_score=0;如果0<T≤N1,則breaking_score=log(Nl/T);并且如果T=0,則breaking_score=log(Nl)。
N1可以以小時(shí)表示,例如3小時(shí)。
在符合本發(fā)明原理的另一種實(shí)現(xiàn)方式中,以遞增順序按照時(shí)間對(duì)簇中的所有文章進(jìn)行分類(lèi),并且每篇文章的等級(jí)作為上述值T。相應(yīng)地,可以使用閾值N2。因此,爆炸新聞分?jǐn)?shù)度量可以如下確定如果T>N2,則breaking_score=0;并且如果1<T≤N2,則breaking_score=log(N2/T)。
在一種示例性實(shí)現(xiàn)方式中,N2可以為10。
在又一種符合本發(fā)明原理的實(shí)現(xiàn)方式中,如上確定的爆炸性新聞分?jǐn)?shù)可以被乘以這樣的量,該量與給定文章所屬的相關(guān)文章簇的大小成正比。例如,爆炸性新聞分?jǐn)?shù)可以被乘以因子=(1+log(簇大小))。這在記事重要并且看來(lái)要形成大簇時(shí)突出爆炸性新聞的值。
在又一種實(shí)現(xiàn)方式中,不是對(duì)爆炸性分?jǐn)?shù)值求平均,而是如果簇大小大于遇到值(例如,30),則對(duì)這些值求和。因此,在這種情形中,爆炸性新聞分?jǐn)?shù)可以如下確定對(duì)于每篇文章A(size大??;Breaking_new爆炸性新聞;cluster簇;Score分?jǐn)?shù);rank_within_cluster簇內(nèi)等級(jí))如果(Size(cluster(A)))>30)
Breaking_news[score(A)]+=30-rank_within_Cluster(A)。
第五度量可以包括代表使用模式的值。可以針對(duì)使用(例如,點(diǎn)擊)來(lái)監(jiān)控從新聞搜索引擎的網(wǎng)頁(yè)到各個(gè)文章的鏈接。常常被選擇的新聞源被檢測(cè)出,并且被分配與所觀察到的使用成正比的值。公知的站點(diǎn)例如CNN傾向于優(yōu)于不流行的站點(diǎn),例如不知名的小鎮(zhèn)新聞,用戶可能避開(kāi)這種新聞。所測(cè)量出的流量可以用讀者可能訪問(wèn)該鏈接的機(jī)會(huì)的數(shù)目歸一化,以避免由于新聞搜索引擎的分級(jí)偏好導(dǎo)致的測(cè)量偏離。
第六度量包括代表人群對(duì)新聞源的評(píng)價(jià)的值。在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,一般可以對(duì)用戶進(jìn)行民意測(cè)驗(yàn)來(lái)識(shí)別用戶喜歡閱讀(或者已訪問(wèn)過(guò))的報(bào)紙(或者雜志)。作為替換或者附加地,可以對(duì)新聞搜索引擎的用戶進(jìn)行民意測(cè)驗(yàn)來(lái)確定用戶喜歡訪問(wèn)的新聞網(wǎng)站。也可以使用其他機(jī)構(gòu)對(duì)新聞?wù)军c(diǎn)的評(píng)估(例如,可以至少部分基于報(bào)紙已獲得的Pulitzer獎(jiǎng)的次數(shù)等對(duì)報(bào)紙進(jìn)行比較)。此外,新聞源的年齡也可以作為公眾信任的測(cè)量,并且可用作一種度量。在另一種實(shí)現(xiàn)方式中,可以向評(píng)估者出示來(lái)自各個(gè)新聞源選出的文章,并且要求給每個(gè)源分配一個(gè)分?jǐn)?shù)。該分配的分?jǐn)?shù)可以作為一種度量。
第七度量可以包括代表新聞源的發(fā)行統(tǒng)計(jì)的值。諸如MediaMetrix和Nielsen Netratings等機(jī)構(gòu)發(fā)布在線站點(diǎn)(例如,新聞?wù)军c(diǎn))的使用統(tǒng)計(jì)。這些發(fā)布的流量數(shù)字可以用作對(duì)新聞源的質(zhì)量的測(cè)量。在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,與新聞?wù)军c(diǎn)相關(guān)聯(lián)的印刷報(bào)紙的發(fā)現(xiàn)統(tǒng)計(jì)可作為一種度量。
第八度量可以包括代表與新聞源關(guān)聯(lián)的職員數(shù)目的值。在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,可以至少部分基于在來(lái)自新聞源的文章中提到的不同記者的數(shù)目確定。
第九度量可以包括代表與新聞源關(guān)聯(lián)的新聞辦事處的數(shù)目的值。
第十度量可以包括代表下述原始指名實(shí)體的數(shù)目的值,所述原始指名實(shí)體的數(shù)目是在例如具有至少N篇相關(guān)文章(例如,N=3)的所有文章上平均的、新聞源在相關(guān)文章的簇內(nèi)產(chǎn)生的原始指名實(shí)體的數(shù)目。指名實(shí)體可以對(duì)應(yīng)于個(gè)人、位置或組織。如果新聞源生成包含同一簇內(nèi)的其他文章(從而關(guān)于同一話題)不包含的指名實(shí)體的新聞?dòng)浭拢瑒t這可能指示出該新聞源能夠發(fā)出原始報(bào)道。在這種分析中,由在閾值大小為N的簇中給定的新聞源添加的平均值被評(píng)估。在符合本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式中,如果簇中沒(méi)有較早的文章具有相同的指名實(shí)體,則可以考慮該指名實(shí)體??梢允褂媒谱址ヅ鋪?lái)對(duì)指名實(shí)體進(jìn)行比較,以補(bǔ)償拼寫(xiě)和縮寫(xiě)的變體。與其他文章中的指名實(shí)體顯著不同的指名實(shí)體可以認(rèn)為是原始的。
第十一度量可以包括代表新聞源的幅度的值(例如,新聞源產(chǎn)生的內(nèi)容涉及的話題的數(shù)目)。在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,來(lái)自新聞源的文章可以分類(lèi)到一組話題(例如,藝術(shù)、音樂(lè)、體育、商業(yè)等)中,并且話題的范圍可以用作幅度的測(cè)量。可以使用任何傳統(tǒng)分類(lèi)技術(shù)來(lái)獎(jiǎng)文章分類(lèi)到多種話題中。例如,根據(jù)機(jī)器學(xué)習(xí)文獻(xiàn)的分類(lèi)系統(tǒng)可以用來(lái)將新聞文章分類(lèi)到選出的一組話題中。在另一種實(shí)現(xiàn)方式中,由新聞源發(fā)表的章節(jié)數(shù)可以作為幅度的測(cè)量。
第十二度量可以包括代表新聞源的國(guó)際多樣性的值。該度量可以測(cè)量新聞?wù)军c(diǎn)從其接收網(wǎng)絡(luò)流量的國(guó)家的數(shù)目。在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,通過(guò)考慮到新聞?wù)军c(diǎn)的已知訪問(wèn)者所來(lái)自的國(guó)家,可以測(cè)量出該度量(例如,至少部分基于點(diǎn)擊從搜索站點(diǎn)到正被測(cè)量的新聞源的文章的鏈接的那些用戶的因特網(wǎng)協(xié)議(IP)地址)。基于已知IP塊到國(guó)家的映射的表,可以將相應(yīng)IP地址映射到起源國(guó)家。在另一種實(shí)現(xiàn)方式中,可以監(jiān)控鏈接到給定新聞web站點(diǎn)的那些web站點(diǎn)的IP地址,該新聞?wù)军c(diǎn)從其被鏈接的不同國(guó)家的數(shù)目可以作為該度量。
第十三度量可以包括代表新聞源使用的寫(xiě)作風(fēng)格的值??梢允褂糜糜跍y(cè)量拼寫(xiě)正確性、語(yǔ)法和閱讀水平的自動(dòng)測(cè)試來(lái)生成反應(yīng)寫(xiě)作風(fēng)格的度量值。然后可以分配與測(cè)量出的寫(xiě)作風(fēng)格成正比的分?jǐn)?shù)。
應(yīng)當(dāng)意識(shí)到,除了上述度量組或者作為對(duì)上述度量組的替換,可以考慮其他度量。例如,另一種度量可以包括代表到新聞web站點(diǎn)的超鏈接的數(shù)目的值。
一旦已考慮了一組度量,就可以至少部分基于該組度量來(lái)確定每個(gè)新聞源的源等級(jí)(動(dòng)作410)。為了確定每個(gè)新聞源的源等級(jí),上述該組度量的一些或全部可以被組合來(lái)產(chǎn)生新聞源的最終分?jǐn)?shù)(即,源等級(jí))??梢允褂迷S多技術(shù)來(lái)確定新聞源的源等級(jí)。例如,在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,每種度量可以被乘以相應(yīng)的因子,并且所產(chǎn)生的值可以被總計(jì),以給出新聞源的源等級(jí)?;蛘?,每種度量可以被歸一化到0到1的范圍內(nèi),并且所產(chǎn)生的值可以被總計(jì)來(lái)給出最終度量值(即,源等級(jí))。例如,可以通過(guò)將每種度量值除以該度量分配的最大可能值,從而實(shí)現(xiàn)歸一化。
在另一種實(shí)現(xiàn)方式中,可以計(jì)算出新聞源的各種度量的平均等級(jí)。例如,如果CNN具有發(fā)行統(tǒng)計(jì)等級(jí)1,國(guó)際流行度等級(jí)2,以及國(guó)際辦事處數(shù)目等級(jí)9,則僅考慮這些度量CNN具有平均分級(jí)(1+2+9)/3=4。
在又一種實(shí)現(xiàn)方式中,對(duì)于每個(gè)新聞源,相對(duì)于每種度量的最佳新聞源的該種度量的百分比分?jǐn)?shù)可以用于確定該新聞源的分?jǐn)?shù)分級(jí)。例如,如果CNN具有國(guó)際流行度等級(jí)2,并且BBC具有該度量的最高等級(jí)10,則CNN的該度量的百分比分?jǐn)?shù)可以為0.2。
作為對(duì)上述的替換,上述技術(shù)之一可以僅與正被考慮的給定新聞源的最好的N種度量一起使用。N可以是大于等于一的正整數(shù)。在一種實(shí)現(xiàn)方式中,N可以為5。通過(guò)對(duì)給定新聞源僅考慮最好的N種度量,這允許結(jié)合某些度量還未被計(jì)算出的新聞源。
一旦已確定出新聞源的源等級(jí),則服務(wù)器120可以存儲(chǔ)該源等級(jí)(動(dòng)作415)。在一種實(shí)現(xiàn)方式中,服務(wù)器120可以將新聞源的識(shí)別與相應(yīng)的源等級(jí)值存儲(chǔ)到數(shù)據(jù)庫(kù)中,例如數(shù)據(jù)庫(kù)300。
圖5是在符合本發(fā)明原理的實(shí)現(xiàn)方式中用于調(diào)節(jié)對(duì)象(例如,新聞文章)的等級(jí)的示例過(guò)程的流程圖。盡管下面的描述集中于作為搜索查詢結(jié)果提取出的分級(jí)對(duì)象,但是符合本發(fā)明原理的實(shí)現(xiàn)方式不受限于此。實(shí)際上,符合本發(fā)明原理的實(shí)現(xiàn)方式同樣適用于根據(jù)打分標(biāo)準(zhǔn)對(duì)新聞文章分級(jí)的系統(tǒng)和方法。該標(biāo)準(zhǔn)例如可以包括查詢(例如,將在下面的示例性場(chǎng)景中描述的搜索引擎查詢)、話題(例如,體育)、關(guān)鍵字列表(例如,來(lái)自搜索結(jié)果文檔的初始集合的關(guān)鍵字)、地理區(qū)域(例如,紐約)、文章簇中的文章列表、或者示例性文檔集合。
處理可以開(kāi)始于用戶使用例如客戶機(jī)(例如,客戶機(jī)110)上的web瀏覽器軟件訪問(wèn)服務(wù)器120(圖1)。然后用戶可以項(xiàng)由服務(wù)器120維護(hù)的搜索引擎125提供包括一個(gè)或多個(gè)搜索項(xiàng)的查詢(動(dòng)作505)。在一種實(shí)現(xiàn)方式中,搜索查詢包括與新聞話題有關(guān)的一個(gè)或多個(gè)項(xiàng)。例如,如果用戶想閱覽關(guān)于George Bush的新聞文章,則用戶可以使客戶機(jī)110向服務(wù)器120發(fā)送具有搜索項(xiàng)“George Bush”的搜索查詢。
響應(yīng)于接收到搜索項(xiàng),服務(wù)器120可以以傳統(tǒng)方式生成分級(jí)后的結(jié)果列表(動(dòng)作510)。這些結(jié)果可以包括對(duì)新聞文章的引用(例如,鏈接),并且可能包括對(duì)鏈接的文本描述。服務(wù)器120可以針對(duì)分級(jí)的列表中的每個(gè)鏈接確定鏈接是否與已針對(duì)其確定了源等級(jí)的新聞源相對(duì)應(yīng)。為了確定對(duì)于鏈接是否存在源等級(jí),服務(wù)器120可以首先識(shí)別出鏈接對(duì)應(yīng)的新聞源(動(dòng)作515)。在一種實(shí)現(xiàn)方式中,服務(wù)器120可以至少部分基于與鏈接相關(guān)聯(lián)的統(tǒng)一資源定位符(URL)識(shí)別新聞源。例如,服務(wù)器120可以確定出鏈接“www.cnn.com/2003/abc/index.html”對(duì)應(yīng)于新聞源“CNN”??梢蕴鎿Q地使用用于識(shí)別鏈接的對(duì)應(yīng)的新聞源的其它技術(shù)。
一旦已識(shí)別出新聞源,服務(wù)器120就可以通過(guò)例如訪問(wèn)數(shù)據(jù)庫(kù)300并且確定與鏈接相對(duì)應(yīng)的新聞源是否被存儲(chǔ)在源字段310中,從而確定對(duì)于該鏈接是否存在源等級(jí)(動(dòng)作520)。如果新聞源在源字段310中不存在,則服務(wù)器120不能調(diào)整該鏈接的分級(jí)。另一方面,如果該新聞源在源字段310中存在,則服務(wù)器120可以從源等級(jí)字段320提取出該新聞源的源等級(jí)。然后服務(wù)器120可以至少部分基于提取出的源等級(jí)來(lái)調(diào)整與該新聞源相對(duì)應(yīng)的鏈接的分級(jí)(動(dòng)作520)。
給定鏈接的初始分級(jí)R1,服務(wù)器120可以通過(guò)針對(duì)每個(gè)鏈接計(jì)算改進(jìn)后的分?jǐn)?shù),從而產(chǎn)生調(diào)整后的分級(jí)R2。服務(wù)器120可以通過(guò)將與R1中的分級(jí)相對(duì)應(yīng)的分?jǐn)?shù)和與鏈接相關(guān)聯(lián)的新聞源的源等級(jí)組合,從而確定出新分?jǐn)?shù)。在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,服務(wù)器120可以將新分?jǐn)?shù)確定為加權(quán)的和。例如,服務(wù)器120可以如下確定鏈接的新分?jǐn)?shù)(NEWSCORE新分?jǐn)?shù);OLDSCORE舊分?jǐn)?shù);SOURCERANK源等級(jí))NEWSCORE(D)=α*OLDSCORE(D)+β*SOURCERANK(SOURCE(D))其中SOURCE(D)是鏈接D的新聞源,并且α和β是適當(dāng)?shù)某?shù)。例如,在符合本發(fā)明原理的一種實(shí)現(xiàn)方式中,α可以被設(shè)置為0.8,β可以被設(shè)置為0.2。應(yīng)當(dāng)意識(shí)到,可以替換使用其他α和β值。也可以替換使用用于調(diào)整鏈接的分級(jí)的其他技術(shù),例如,對(duì)R1分?jǐn)?shù)和源等級(jí)求平均。這樣,可以產(chǎn)生新鏈接的改進(jìn)的分級(jí)。
一旦已調(diào)整了分級(jí)后列表,服務(wù)器120就可以向客戶機(jī)110提供調(diào)整后的鏈接分級(jí)列表(動(dòng)作525)。服務(wù)器120可以經(jīng)由網(wǎng)絡(luò)140將調(diào)整后的鏈接列表發(fā)送到客戶機(jī)110。
在符合本發(fā)明原理的其他實(shí)現(xiàn)方式中,在動(dòng)作510中,服務(wù)器120可以響應(yīng)于接收到搜索查詢,提取出未分級(jí)的結(jié)果列表。在這種情形中,服務(wù)器120可以基于與結(jié)果列表所關(guān)聯(lián)到的新聞源相關(guān)聯(lián)的源等級(jí)來(lái)對(duì)結(jié)果列表分級(jí)。
結(jié)論符合本發(fā)明原理的實(shí)現(xiàn)方式可以至少部分基于與新聞文章相關(guān)聯(lián)的新聞源的質(zhì)量來(lái)改進(jìn)對(duì)新聞文章的分級(jí)。
前面對(duì)本發(fā)明的示例性實(shí)施例的描述提供了說(shuō)明和描述,但是不是要窮盡本發(fā)明或者將本發(fā)明限制于所公開(kāi)的精確形式。根據(jù)上述教導(dǎo),可以做出修改和改變,并且實(shí)施本發(fā)明可能要求修改和改變。例如,不需要由服務(wù)器120執(zhí)行上述功能。在其他實(shí)現(xiàn)方式中,可以由客戶機(jī)110執(zhí)行圖5中描述的一個(gè)或多個(gè)動(dòng)作。例如,瀏覽器助手(即,與傳統(tǒng)web瀏覽器一起工作的軟件)可以執(zhí)行參考圖5的過(guò)程描述的一個(gè)或多個(gè)動(dòng)作。
此外,如上所述,符合本發(fā)明原理的實(shí)現(xiàn)方式不受限于分級(jí)新聞文章。例如,符合本發(fā)明原理的實(shí)現(xiàn)方式可以用于對(duì)可以通過(guò)網(wǎng)絡(luò)提取出或從一個(gè)或多個(gè)數(shù)據(jù)庫(kù)提取出的其他類(lèi)型的項(xiàng)目進(jìn)行分級(jí)。
盡管已參考圖4和圖5描述了動(dòng)作序列,但是在符合本發(fā)明的其他實(shí)現(xiàn)方式中這些動(dòng)作的順序可以改變。此外,可以并行實(shí)現(xiàn)無(wú)依賴(lài)關(guān)系的動(dòng)作。
在本申請(qǐng)的描述中使用的元素、動(dòng)作或指令不應(yīng)當(dāng)被解釋為對(duì)本發(fā)明關(guān)鍵或必須的,除非明確描述我如此。另外,這里所使用的名詞是要包括一個(gè)或多個(gè)項(xiàng)目。在僅要一個(gè)項(xiàng)目的地方,明確使用“一個(gè)”或類(lèi)似的語(yǔ)言。
權(quán)利要求
1.一種用于分級(jí)結(jié)果的方法,包括接收鏈接的列表;針對(duì)每個(gè)鏈接識(shí)別與該鏈接相關(guān)聯(lián)的源;以及至少部分基于所識(shí)別出的源的質(zhì)量對(duì)所述鏈接的列表分級(jí)。
2.如權(quán)利要求1所述的方法,其中,所述識(shí)別源的步驟包括至少部分基于與所述鏈接相關(guān)聯(lián)的統(tǒng)一資源定位符(URL)來(lái)識(shí)別所述源。
3.如權(quán)利要求1所述的方法,其中,所識(shí)別出的源中的至少一些是新聞源。
4.如權(quán)利要求1所述的方法,其中,所述分級(jí)的步驟包括提取每個(gè)識(shí)別出的源的源等級(jí)值,所述源等級(jí)值至少部分基于下述的一個(gè)或多個(gè)在第一時(shí)間段中所識(shí)別出的源產(chǎn)生的文章數(shù)目;所識(shí)別出的源產(chǎn)生的文章的平均長(zhǎng)度;在第二時(shí)間段中所識(shí)別出的源產(chǎn)生的重要報(bào)道的量;爆炸性新聞分?jǐn)?shù);到所識(shí)別出的源的網(wǎng)絡(luò)流量;人們對(duì)所識(shí)別出的源的評(píng)價(jià);所識(shí)別出的源的發(fā)行統(tǒng)計(jì);與所識(shí)別出的源相關(guān)聯(lián)的職員多少;與所識(shí)別出的源相關(guān)聯(lián)的辦事處的數(shù)目;在與所識(shí)別出的源相關(guān)聯(lián)的一組文章中原始的指名實(shí)體的數(shù)目;所識(shí)別出的源的覆蓋幅度;到所識(shí)別出的源的流量源自的不同國(guó)家的數(shù)目;以及所識(shí)別出的源使用的寫(xiě)作風(fēng)格。
5.如權(quán)利要求1所述的方法,其中,所述鏈接的列表是分級(jí)后的鏈接的列表,并且其中,所述分級(jí)的步驟包括至少部分基于所識(shí)別出的源的質(zhì)量來(lái)調(diào)整所述分級(jí)后的鏈接的列表。
6.如權(quán)利要求1所述的方法,其中,所述鏈接包括到在線新聞文章的鏈接。
7.如權(quán)利要求1所述的方法,還包括至少部分基于下述的一個(gè)或多個(gè)確定所述鏈接的列表搜索查詢;話題;一個(gè)或多個(gè)關(guān)鍵字的列表;地理區(qū)域;以及一組文檔。
8.一種用于調(diào)整搜索結(jié)果的分級(jí)的系統(tǒng),包括用于接收對(duì)象的列表的裝置;用于針對(duì)所述列表中的每個(gè)對(duì)象識(shí)別出所述對(duì)象被關(guān)聯(lián)到的源的裝置;以及用于至少部分基于所述對(duì)象被關(guān)聯(lián)到的源來(lái)對(duì)所述對(duì)象的列表分級(jí)的裝置。
9.一種服務(wù)器,包括配置為存儲(chǔ)多個(gè)源的質(zhì)量指示符的存儲(chǔ)器;以及處理器,配置為接收對(duì)象的列表,識(shí)別出與所述對(duì)象中的每個(gè)相關(guān)聯(lián)的源,并且至少部分基于與所述對(duì)象的列表中的至少一個(gè)對(duì)象被關(guān)聯(lián)到的源相關(guān)聯(lián)的質(zhì)量指示符,來(lái)對(duì)所述一個(gè)對(duì)象分級(jí)。
10.一種計(jì)算機(jī)可讀介質(zhì),包含用于控制至少一個(gè)處理器來(lái)執(zhí)行對(duì)響應(yīng)搜索查詢而提取出的對(duì)象的列表進(jìn)行分級(jí)的方法,所述方法包括識(shí)別出所述對(duì)象的列表中每個(gè)提取出的對(duì)象被關(guān)聯(lián)到的源;以及至少部分基于與所述對(duì)象的列表中的至少一個(gè)對(duì)象被關(guān)聯(lián)到的源相關(guān)聯(lián)的質(zhì)量指示符,來(lái)對(duì)所述對(duì)象分級(jí)。
11.一種用于確定新聞源的質(zhì)量的方法,所述方法包括至少部分基于下述的至少一個(gè)來(lái)確定所述新聞源的一個(gè)或多個(gè)度量值在第一時(shí)間段中所述新聞源產(chǎn)生的文章數(shù)目;所述新聞源產(chǎn)生的文章的平均長(zhǎng)度;在第二時(shí)間段中所述新聞源產(chǎn)生的重要報(bào)道的量;爆炸性新聞分?jǐn)?shù);到所述新聞源的網(wǎng)絡(luò)流量;人們對(duì)所述新聞源的評(píng)價(jià);所述新聞源的發(fā)行統(tǒng)計(jì);與所述新聞源相關(guān)聯(lián)的職員多少;與所述新聞源相關(guān)聯(lián)的辦事處的數(shù)目;在與所述新聞源相關(guān)聯(lián)的一組文章中原始指名實(shí)體的數(shù)目;所述新聞源的覆蓋幅度;到所述新聞源的流量源自的不同國(guó)家的數(shù)目;以及所述新聞源使用的寫(xiě)作風(fēng)格;以及至少部分基于所確定的一個(gè)或多個(gè)度量值,生成所述新聞源的質(zhì)量值。
12.如權(quán)利要求11所述的方法,其中,所述確定步驟包括確定所述新聞源的多個(gè)度量值。
13.如權(quán)利要求12所述的方法,其中,所述生成步驟包括將所述多個(gè)度量值中的每種度量值乘以一個(gè)因子來(lái)創(chuàng)建多個(gè)調(diào)整后的度量值,并且將所述多個(gè)調(diào)整后的度量值相加來(lái)獲得所述質(zhì)量值。
14.如權(quán)利要求13所述的方法,其中,所述多個(gè)度量值包括所述新聞源的預(yù)定數(shù)目的最高度量值。
15.如權(quán)利要求12所述的方法,其中,所述生成步驟包括將所述多個(gè)度量值中的每個(gè)度量值歸一化,并且將所述多個(gè)歸一化后的度量值相加來(lái)獲得所述質(zhì)量值。
16.如權(quán)利要求15所述的方法,其中,所述多個(gè)度量值包括所述新聞源的預(yù)定數(shù)目的最高度量值。
17.如權(quán)利要求12所述的方法,其中,所述生成步驟包括將所述新聞源的多個(gè)度量值相加來(lái)產(chǎn)生總值,通過(guò)將所述總值除以所述多個(gè)度量值中的度量值的數(shù)量從而獲得所述質(zhì)量值。
18.如權(quán)利要求17所述的方法,其中,所述多個(gè)度量值包括所述新聞源的預(yù)定數(shù)目的最高度量值。
19.如權(quán)利要求12所述的方法,其中,所述生成包括針對(duì)所述多個(gè)度量值中的每種度量值確定相對(duì)于該度量的最高值的百分比分?jǐn)?shù),將所述百分比分?jǐn)?shù)相加來(lái)獲得所述質(zhì)量值。
20.如權(quán)利要求19所述的方法,其中,所述多個(gè)度量值包括所述新聞源的預(yù)定數(shù)目的最高度量值。
21.如權(quán)利要求11所述的方法,還包括對(duì)多個(gè)其他源重復(fù)所述確定和生成步驟,所述多個(gè)其他源中的至少一個(gè)包括不同的新聞源;以及存儲(chǔ)所述新聞源和所述多個(gè)其他源的所述質(zhì)量值。
22.如權(quán)利要求11所述的方法,還包括使用所述質(zhì)量值來(lái)對(duì)與所述新聞源相關(guān)聯(lián)的對(duì)象分級(jí)。
23.如權(quán)利要求11所述的方法,其中,所述確定步驟包括確定重要性度量值,所述重要性度量值代表在第二時(shí)間段中所述新聞源產(chǎn)生的重要報(bào)道的量,并且其中,確定重要性度量值的步驟包括針對(duì)在所述第二時(shí)間段中所述新聞源產(chǎn)生的每篇文章來(lái)確定由其他新聞源產(chǎn)生的關(guān)于同一主題的其他非重復(fù)文章的數(shù)目,以產(chǎn)生所述文章的重要性值,并且將所述重要性值相加來(lái)獲得所述重要性度量值。
24.如權(quán)利要求11所述的方法,其中,所述確定步驟包括確定代表所述爆炸性新聞分?jǐn)?shù)的爆炸性新聞度量值,并且其中,所述確定爆炸性新聞度量值的步驟包括針對(duì)所述新聞源產(chǎn)生的至少一篇文章,來(lái)識(shí)別出所述新聞源發(fā)表所述至少一篇文章的第一時(shí)間值,識(shí)別出發(fā)表關(guān)于與所述至少一篇文章的主題相同主題的最初文章的第二時(shí)間值,從所述第一時(shí)間值減去所述第二時(shí)間值來(lái)確定時(shí)間差值,將所述時(shí)間差值與閾值相比較,并且至少部分基于所述比較來(lái)向所述爆炸性新聞度量值分配值。
25.如權(quán)利要求24所述的方法,其中,所述確定爆炸性新聞度量值的步驟還包括識(shí)別出來(lái)自其他新聞源的關(guān)于與所述至少一篇文章的主題相同主題的一組文章,在向所述爆炸性新聞度量值分配所述值之前,將所述值乘以與所述來(lái)自其他新聞源的一組文章的多少成正比的數(shù)量。
26.如權(quán)利要求11所述的方法,其中,在確定所述一個(gè)或多個(gè)度量值時(shí),非重復(fù)文章被與重復(fù)文章不同地加權(quán)。
27.一種服務(wù)器,包括存儲(chǔ)器;以及處理器,其配置為至少部分基于下述中的至少一個(gè)來(lái)確定新聞源的一個(gè)或多個(gè)度量值在第一時(shí)間段中所述新聞源產(chǎn)生的文章數(shù)目;所述新聞源產(chǎn)生的文章的平均長(zhǎng)度;在第二時(shí)間段中所述新聞源產(chǎn)生的重要報(bào)道的量;爆炸性新聞分?jǐn)?shù);到所述新聞源的網(wǎng)絡(luò)流量;人們對(duì)所述新聞源的評(píng)價(jià);所述新聞源的發(fā)行統(tǒng)計(jì);與所述新聞源相關(guān)聯(lián)的職員的多少;與所述新聞源相關(guān)聯(lián)的辦事處的數(shù)目;在與所述新聞源相關(guān)聯(lián)的一組文章中原始指名實(shí)體的數(shù)目;所述新聞源的覆蓋幅度;到所述新聞源的流量源自的不同國(guó)家的數(shù)目;以及所述新聞源使用的寫(xiě)作風(fēng)格,至少部分基于所確定的一個(gè)或多個(gè)度量值,確定所述新聞源的質(zhì)量值,并且將所述質(zhì)量值存儲(chǔ)到存儲(chǔ)器中。
28.一種計(jì)算機(jī)可讀介質(zhì),包含用于控制至少一個(gè)處理器來(lái)執(zhí)行用于確定源的質(zhì)量的方法的指令,所述方法包括針對(duì)多個(gè)源中的每個(gè)源,至少部分基于下述中的至少一個(gè)來(lái)確定一個(gè)或多個(gè)度量值在第一時(shí)間段中所述源產(chǎn)生的文章數(shù)目;所述源產(chǎn)生的文章的平均長(zhǎng)度;在第二時(shí)間段中所述源產(chǎn)生的重要報(bào)道的量;爆炸性新聞分?jǐn)?shù);到所述源的網(wǎng)絡(luò)流量;人們對(duì)所述源的評(píng)價(jià);所述源的發(fā)行統(tǒng)計(jì);與所述源相關(guān)聯(lián)的職員的多少;與所述源相關(guān)聯(lián)的辦事處的數(shù)目;在與所述源相關(guān)聯(lián)的一組文章中原始指名實(shí)體的數(shù)目;所述源的覆蓋幅度;到所述源的流量源自的不同國(guó)家的數(shù)目;以及所述源使用的寫(xiě)作風(fēng)格,以及至少部分基于所確定的所述多個(gè)源中的每個(gè)源的一個(gè)或多個(gè)度量值,確定所述源的質(zhì)量值。
29.一種用于提供搜索結(jié)果的方法,所述方法包括接收對(duì)象的列表;識(shí)別出與所述多個(gè)對(duì)象中的每個(gè)對(duì)象相關(guān)聯(lián)的源;確定所識(shí)別出的源中的每個(gè)源的質(zhì)量;以及至少部分基于所確定的與所述多個(gè)對(duì)象中的每個(gè)對(duì)象相關(guān)聯(lián)的源的質(zhì)量來(lái)對(duì)所述對(duì)象分級(jí)。
30.如權(quán)利要求29所述的方法,其中,所述確定所識(shí)別出的源中的每個(gè)源的質(zhì)量的步驟包括針對(duì)所識(shí)別出的源中的每個(gè)源,至少部分基于下述中的至少一個(gè)來(lái)確定一個(gè)或多個(gè)度量值在第一時(shí)間段中所述源產(chǎn)生的文章數(shù)目;所述源產(chǎn)生的文章的平均長(zhǎng)度;在第二時(shí)間段中所述源產(chǎn)生的重要報(bào)道的量;爆炸性新聞分?jǐn)?shù);到所述源的網(wǎng)絡(luò)流量;人們對(duì)所述源的評(píng)價(jià);所述源的發(fā)行統(tǒng)計(jì);與所述源相關(guān)聯(lián)的職員的多少;與所述源相關(guān)聯(lián)的辦事處的數(shù)目;在與所述源相關(guān)聯(lián)的一組文章中的原始指名實(shí)體的數(shù)目;所述源的覆蓋幅度;到所述源的流量源自的不同國(guó)家的數(shù)目;以及所述源使用的寫(xiě)作風(fēng)格,以及至少部分基于所確定的所述識(shí)別出的源中的每個(gè)源的一個(gè)或多個(gè)度量值,生成所述源的質(zhì)量。
31.如權(quán)利要求29所述的方法,其中,所述多個(gè)對(duì)象包括在線新聞文章。
全文摘要
一種用于分級(jí)結(jié)果的系統(tǒng)。該系統(tǒng)可以接收鏈接的列表。該系統(tǒng)可以識(shí)別出與每個(gè)鏈接相關(guān)聯(lián)的源,并且至少部分基于所識(shí)別出的源的質(zhì)量對(duì)該鏈接的列表分級(jí)。
文檔編號(hào)G06F17/30GK1853183SQ200480026722
公開(kāi)日2006年10月25日 申請(qǐng)日期2004年9月14日 優(yōu)先權(quán)日2003年9月16日
發(fā)明者邁克爾·科蒂斯, 科里什納·伯哈雷特, 邁克爾·施米特 申請(qǐng)人:Google公司