專利名稱:基于排序?qū)W習(xí)技術(shù)的熱門事件排名方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種基于排序?qū)W習(xí)(learningtorank)技術(shù)的熱門事件排名方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,新聞已經(jīng)不再局限于電視、報(bào)紙這類傳統(tǒng)傳播方式,網(wǎng)絡(luò)平臺(tái)已經(jīng)成為新聞傳播的新途徑。新聞網(wǎng)站、論壇、社交網(wǎng)絡(luò)等都是發(fā)布新聞或發(fā)表言論的新型媒介。海量信息帶來資訊價(jià)值的同時(shí),也給用戶閱讀帶來了不便,不利于用戶關(guān)注熱點(diǎn)事件,如何從海量信息中挖掘出熱門新聞事件,使得用戶不遺漏值得關(guān)注的新聞事件成為當(dāng)下熱門的研究點(diǎn)。目前大部分的網(wǎng)站都在顯著位置對(duì)新聞事件進(jìn)行排名或推薦,有些網(wǎng)站只給出最新的新聞事件,有的則根據(jù)新聞的點(diǎn)擊量給出簡(jiǎn)單的新聞事件排名,部分網(wǎng)站的熱點(diǎn)新聞是由編輯提供的,新聞搜索則只能根據(jù)特定關(guān)鍵詞給出相關(guān)新聞。由此可見,自動(dòng)有效的熱點(diǎn)新聞事件排名對(duì)于新聞的展示非常有必要。排序?qū)W習(xí)(Learning to Rank),作為一種基于監(jiān)督學(xué)習(xí)的排序方法,最早用于搜索引擎檢索結(jié)果的排序。傳統(tǒng)的排序方法一般是通過構(gòu)造一個(gè)排序函數(shù)(ScoringFunction)來實(shí)現(xiàn),但由于影響排序的因素很多,對(duì)于傳統(tǒng)的排序模型,參數(shù)增加會(huì)使傳統(tǒng)的經(jīng)驗(yàn)方法調(diào)整參數(shù)變得困難。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于排序?qū)W習(xí)(learning to rank)技術(shù)的熱門事件排名方法,其利用機(jī)器學(xué)習(xí)技術(shù),對(duì)互聯(lián)網(wǎng)上的新聞數(shù)據(jù)進(jìn)行處理,并根據(jù)事件的相關(guān)特征,獲得對(duì)有新聞價(jià)值的新聞事件的排名,增強(qiáng)新聞的分類性。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的一種基于排序?qū)W習(xí)技術(shù)的熱門事件排名方法,該方法包括A、在線上抓取新聞網(wǎng)頁(yè),通過聚類處理將新聞網(wǎng)頁(yè)映射為事件的步驟;B、為每個(gè)事件提取排名所需的各種特征項(xiàng)的步驟;通過特征提取,獲得與新聞事件相關(guān)的各項(xiàng)特征,為計(jì)算模型做輸入準(zhǔn)備;C、收集訓(xùn)練數(shù)據(jù),并標(biāo)注事件熱度的步驟;D、利用排序?qū)W習(xí)中的Pairwise方法訓(xùn)練出事件熱度排名模型,利用該模型計(jì)算新聞事件的熱度得分并存入事件索引,從而得到熱門事件的排名信息。其中步驟B所述的特征項(xiàng),主要包括事件中熱詞的比例、事件新聞數(shù)比例、知名媒體新聞比例、知名媒體評(píng)論比例、相關(guān)微博數(shù)量比例以及事件熱度得分。所述事件熱度得分hot (d)具體為
權(quán)利要求
1.一種基于排序?qū)W習(xí)技術(shù)的熱門事件排名方法,其特征在于,該方法包括: A、在線上抓取新聞網(wǎng)頁(yè),通過聚類處理將新聞網(wǎng)頁(yè)映射為事件的步驟; B、為每個(gè)事件提取排名所需的各種特征項(xiàng)的步驟;通過特征提取,獲得與新聞事件相關(guān)的各項(xiàng)特征,為計(jì)算模型做輸入準(zhǔn)備; C、收集訓(xùn)練數(shù)據(jù),并標(biāo)注事件熱度的步驟; D、利用排序?qū)W習(xí)中的Pairwise方法訓(xùn)練出事件熱度排名模型,利用該模型計(jì)算新聞事件的熱度得分并存入事件索引,從而得到熱門事件的排名信息。
2.根據(jù)權(quán)利要求1所述的基于排序?qū)W習(xí)技術(shù)的熱門事件排名方法,其特征在于,步驟B所述的特征項(xiàng),主要包括事件中熱詞的比例、事件新聞數(shù)比例、知名媒體新聞比例、知名媒體評(píng)論比例、相關(guān)微博數(shù)量比例以及事件熱度得分。
3.根據(jù)權(quán)利要求2所述的基于排序?qū)W習(xí)技術(shù)的熱門事件排名方法,其特征在于,所述事件熱度得分hot (d)具體為:
全文摘要
本發(fā)明公開了一種基于排序?qū)W習(xí)技術(shù)的熱門事件排名方法,該方法包括A、在線上抓取新聞網(wǎng)頁(yè),通過聚類處理將新聞網(wǎng)頁(yè)映射為事件的步驟;B、為每個(gè)事件提取排名所需的各種特征項(xiàng)的步驟;通過特征提取,獲得與新聞事件相關(guān)的各項(xiàng)特征,為計(jì)算模型做輸入準(zhǔn)備;C、收集訓(xùn)練數(shù)據(jù),并標(biāo)注事件熱度的步驟;D、利用排序?qū)W習(xí)中的Pairwise方法訓(xùn)練出事件熱度排名模型,利用該模型計(jì)算新聞事件的熱度得分并存入事件索引,從而得到熱門事件的排名信息。利用本發(fā)明方法,能夠?qū)ヂ?lián)網(wǎng)上的新聞數(shù)據(jù)進(jìn)行處理,并根據(jù)事件的相關(guān)特征,獲得對(duì)有新聞價(jià)值的新聞事件的排名,增強(qiáng)新聞的分類性。
文檔編號(hào)G06F17/30GK103077190SQ20121056021
公開日2013年5月1日 申請(qǐng)日期2012年12月20日 優(yōu)先權(quán)日2012年12月20日
發(fā)明者黃叢蕊, 薛飛, 付萬宇, 楊之光, 楊青 申請(qǐng)人:人民搜索網(wǎng)絡(luò)股份公司