亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種新聞搜索方法及裝置與流程

文檔序號(hào):12819033閱讀:264來源:國知局
一種新聞搜索方法及裝置與流程

本申請涉及電子信息領(lǐng)域,尤其涉及一種新聞搜索方法及裝置。



背景技術(shù):

與傳統(tǒng)的網(wǎng)頁檢索不同,新聞搜索目前還沒有完整通用的算法和模型。目前,對于新聞的搜索,主要基于pagerank算法,該算法的基本思想是:頁面的重要程度用pagerank值來衡量。pagerank值主要體現(xiàn)在兩個(gè)方面:引用該頁面的頁面?zhèn)€數(shù)和引用該頁面的頁面重要程度。一個(gè)頁面p(a)被另一個(gè)頁面p(b)引用,可看成p(b)推薦p(a),p(b)將其重要程度(pagerank值)平均的分配p(b)所引用的所有頁面,所以越多頁面引用p(a),則越多的頁面分配pagerank值給p(a),pagerank值也就越高,p(a)越重要。另外,p(b)越重要,它所引用的頁面能分配到的pagerank值就越多,p(a)的pagerank值也就越高,也就越重要。

然而,基于pagerank算法的新聞搜索方法,僅依靠被引用的次數(shù)和與引用頁面的重要程度篩選,而忽略了新聞的相關(guān)程度,以至于一些主題不相關(guān)的網(wǎng)頁(如廣告頁面)獲得較大的pagerank值,從而影響了搜索結(jié)果的準(zhǔn)確性。



技術(shù)實(shí)現(xiàn)要素:

本申請?zhí)峁┝艘环N新聞搜索方法及裝置,目的在于解決如何提高新聞的搜索準(zhǔn)確性的問題。

為了實(shí)現(xiàn)上述目的,本申請?zhí)峁┝艘韵录夹g(shù)方案:

一種新聞搜索方法,包括:

依據(jù)搜索關(guān)鍵詞,得到與所述搜索關(guān)鍵詞相關(guān)的候選項(xiàng);

依據(jù)新聞的屬性,確定所述候選項(xiàng)的屬性分,并依據(jù)所述屬性分對所述候選項(xiàng)排序,所述新聞的屬性包括新聞的點(diǎn)擊曝光率和新聞的實(shí)效周期;

按照排序結(jié)果,展示搜索結(jié)果。

可選的,所述新聞的屬性還包括:

新聞的媒體分?jǐn)?shù)、被操作的次數(shù)以及被閱讀的時(shí)長中的至少一項(xiàng)。

可選的,所述依據(jù)新聞的屬性,確定所述候選項(xiàng)的屬性分包括:

確定新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊曝光率;

確定新聞的時(shí)間衰減分?jǐn)?shù),所述時(shí)間衰減分?jǐn)?shù)用于表示所述新聞的實(shí)效周期;

獲取所述新聞的媒體分?jǐn)?shù)、被操作的次數(shù)以及被閱讀的時(shí)長;

依據(jù)所述新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊曝光率、所述新聞的時(shí)間衰減分?jǐn)?shù)、所述新聞的媒體分?jǐn)?shù)、被操作的次數(shù)以及被閱讀的時(shí)長,計(jì)算所述候選項(xiàng)的分?jǐn)?shù)。

可選的,所述確定新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊曝光率包括:

新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊率為其中,d為衰減系數(shù),start為該新聞生成的起始時(shí)間,t表示當(dāng)前時(shí)刻,dt-start-1為衰減幅度,clickt為t時(shí)刻的點(diǎn)擊次數(shù);

新聞經(jīng)過平滑和時(shí)間衰減后的曝光率為其中,impt為t時(shí)刻的曝光次數(shù)。

可選的,所述依據(jù)所述新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊曝光率、所述新聞的時(shí)間衰減分?jǐn)?shù)、所述新聞的媒體分?jǐn)?shù)、被操作的次數(shù)以及被閱讀的時(shí)長,計(jì)算所述候選項(xiàng)的分?jǐn)?shù)包括:

使用score=smoothscore*rulescore*div+log2(1+share)+log2(1+comment)+log2(1+collection)+log2(1+praise)+readtime計(jì)算所述候選項(xiàng)中的任意一項(xiàng)的分?jǐn)?shù),其中,smoothscore表示所述該新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊曝光率,div為該新聞的時(shí)間衰減分?jǐn)?shù),readtime為平滑后的該新聞的被閱讀時(shí)長,share為該新聞的分享數(shù),comment該新聞的評(píng)論數(shù),collection為該新聞的收藏?cái)?shù),praise為該新聞的點(diǎn)贊數(shù)。

可選的,所述平滑后的該新聞的被閱讀時(shí)長的確定方法包括:

其中,allreadtime為該新聞被所有用戶所閱讀的總時(shí)長,allclick為該新聞所有的點(diǎn)擊次數(shù),preadtime為該新聞虛擬的閱讀時(shí)長,pclick為該新聞虛擬的點(diǎn)擊次數(shù)。

可選的,在所述按照排序結(jié)果,展示搜索結(jié)果之前,還包括:

依據(jù)質(zhì)量參數(shù),確定所述排序結(jié)果中的各個(gè)候選項(xiàng)的質(zhì)量分,所述質(zhì)量參數(shù)包括新聞的長度、段落數(shù)、包括的圖片以及標(biāo)題的長度;

將所述候選項(xiàng)中的任意一項(xiàng)的質(zhì)量分與該項(xiàng)的屬性分相乘,得到總分;

依據(jù)所述候選項(xiàng)中每一項(xiàng)的總分,對所述候選項(xiàng)進(jìn)行重排序,得到更新的排序結(jié)果。

一種新聞的搜索裝置,包括:

候選項(xiàng)確定模塊,用于依據(jù)搜索關(guān)鍵詞,得到與所述搜索關(guān)鍵詞相關(guān)的候選項(xiàng);

打分模塊,用于依據(jù)新聞的屬性,確定所述候選項(xiàng)的屬性分,并依據(jù)所述屬性分對所述候選項(xiàng)排序,所述新聞的屬性包括新聞的點(diǎn)擊曝光率和新聞的實(shí)效周期;

展示模塊,用于按照排序結(jié)果,展示搜索結(jié)果。

可選的,所述新聞的屬性還包括:

新聞的媒體分?jǐn)?shù)、被操作的次數(shù)以及被閱讀的時(shí)長中的至少一項(xiàng)。

可選的,所述打分模塊用于依據(jù)新聞的屬性,確定所述候選項(xiàng)的屬性分包括:

所述打分模塊具體用于,確定新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊曝光率;確定新聞的時(shí)間衰減分?jǐn)?shù),所述時(shí)間衰減分?jǐn)?shù)用于表示所述新聞的實(shí)效周期;獲取所述新聞的媒體分?jǐn)?shù)、被操作的次數(shù)以及被閱讀的時(shí)長;依據(jù)所述新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊曝光率、所述新聞的時(shí)間衰減分?jǐn)?shù)、所述新聞的媒體分?jǐn)?shù)、被操作的次數(shù)以及被閱讀的時(shí)長,計(jì)算所述候選項(xiàng)的分?jǐn)?shù)。

可選的,所述打分模塊用于確定新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊曝光率包括:

所述打分模塊具體用于,計(jì)算新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊率為其中,d為衰減系數(shù),start為該新聞生成的起始時(shí)間,t表示當(dāng)前時(shí)刻,dt-start-1為衰減幅度,clickt為t時(shí)刻的點(diǎn)擊次數(shù);計(jì)算新聞經(jīng)過平滑和時(shí)間衰減后的曝光率為其中,impt為t時(shí)刻的曝光次數(shù)。

可選的,所述打分模塊用于依據(jù)所述新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊曝光率、所述新聞的時(shí)間衰減分?jǐn)?shù)、所述新聞的媒體分?jǐn)?shù)、被操作的次數(shù)以及被閱讀的時(shí)長,計(jì)算所述候選項(xiàng)的分?jǐn)?shù)包括:

所述打分模塊具體用于,使用score=smoothscore*rulescore*div+log2(1+share)+log2(1+comment)+log2(1+collection)+log2(1+praise)+readtime計(jì)算所述候選項(xiàng)中的任意一項(xiàng)的分?jǐn)?shù),其中,smoothscore表示所述該新聞經(jīng)過平滑和時(shí)間衰減后的點(diǎn)擊曝光率,div為該新聞的時(shí)間衰減分?jǐn)?shù),readtime為平滑后的該新聞的被閱讀時(shí)長,share為該新聞的分享數(shù),comment該新聞的評(píng)論數(shù),collection為該新聞的收藏?cái)?shù),praise為該新聞的點(diǎn)贊數(shù)。

可選的,所述打分模塊還用于:

按照確定所述平滑后的該新聞的被閱讀時(shí)長,其中,allreadtime為該新聞被所有用戶所閱讀的總時(shí)長,allclick為該新聞所有的點(diǎn)擊次數(shù),preadtime為該新聞虛擬的閱讀時(shí)長,pclick為該新聞虛擬的點(diǎn)擊次數(shù)。

可選的,還包括:

重排序模塊,用于在所述展示模塊按照排序結(jié)果,展示搜索結(jié)果之前,依據(jù)質(zhì)量參數(shù),確定所述排序結(jié)果中的各個(gè)候選項(xiàng)的質(zhì)量分,所述質(zhì)量參數(shù)包括新聞的長度、段落數(shù)、包括的圖片以及標(biāo)題的長度;將所述候選項(xiàng)中的任意一項(xiàng)的質(zhì)量分與該項(xiàng)的屬性分相乘,得到總分;依據(jù)所述候選項(xiàng)中每一項(xiàng)的總分,對所述候選項(xiàng)進(jìn)行重排序,得到更新的排序結(jié)果。

本申請所述的新聞搜索方法及裝置,依據(jù)新聞的屬性,對與搜索關(guān)鍵詞相關(guān)的候選項(xiàng)進(jìn)行打分排序后展示,因?yàn)榭紤]到了新聞的屬性,所以,能夠提高新聞搜索的準(zhǔn)確性。

附圖說明

為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本申請實(shí)施例公開的一種新聞搜索方法的流程圖;

圖2為decay和scale影響高斯衰減函數(shù)的衰減斜率的示意圖;

圖3為本申請實(shí)施例公開的又一種新聞搜索方法的流程圖;

圖4為本申請實(shí)施例公開的一種新聞搜索裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

本申請實(shí)施例公開的新聞搜索方法及裝置,以新聞本身的特有屬性為依據(jù),對與搜索關(guān)鍵詞相關(guān)的新聞進(jìn)行打分,按照分?jǐn)?shù)得到搜索結(jié)果,進(jìn)一步的,還基于新聞的內(nèi)容對搜索結(jié)果進(jìn)行進(jìn)一步排序,得到最終的搜索結(jié)果。

下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請保護(hù)的范圍。

圖1為本申請實(shí)施例公開的一種新聞搜索方法,包括以下步驟:

s101:依據(jù)搜索關(guān)鍵詞,得到與搜索關(guān)鍵詞相關(guān)的候選項(xiàng)。

依據(jù)搜索關(guān)鍵詞得到相關(guān)的候選項(xiàng)的具體實(shí)現(xiàn)方式將在以下實(shí)施例中詳細(xì)說明。

s102:依據(jù)新聞的屬性,確定所述候選項(xiàng)的屬性分,并依據(jù)屬性分對候選項(xiàng)排序。

本實(shí)施例中,新聞的屬性包括新聞的點(diǎn)擊曝光率和新聞的實(shí)效周期。可選的,新聞的屬性還可以包括新聞被操作(操作包括但不限于分享、評(píng)論、收藏和點(diǎn)贊)的次數(shù)以及被閱讀的時(shí)長中的至少一項(xiàng)。

下面以上述所列的全部屬性為例,對s102進(jìn)行詳細(xì)說明。

新聞搜索項(xiàng)的屬性分的計(jì)算公式如式(1):

score=smoothscore*rulescore*div+log2(1+share)+log2(1+comment)+log2(1+collection)+log2(1+praise)+readtime(1)

式(1)中,score表示屬性分。

smoothscore表示經(jīng)過平滑和時(shí)間衰減之后的點(diǎn)擊曝光率。通過式(2)得到smoothscore:

式(2)中,dclick表示時(shí)間衰減后的新聞點(diǎn)擊率。dimp表示時(shí)間衰減后的新聞曝光率。具體的,

其中,d為衰減系數(shù),start為該新聞生成的起始時(shí)間,t表示當(dāng)前時(shí)刻,單位為天,當(dāng)t-start<1時(shí),即當(dāng)天的新聞被點(diǎn)擊不發(fā)生任何衰減,此時(shí)不做時(shí)間衰減,此后按照天數(shù)進(jìn)行衰減,衰減幅度為dt-start-1,impt為t時(shí)刻的曝光次數(shù),clickt為t時(shí)刻的點(diǎn)擊次數(shù)。

式(2)中,alpha和beta是貝葉斯平滑算法計(jì)算求得的平滑參數(shù)。平滑的意義在于:

新聞的點(diǎn)擊率在檢索中有著重要的作用,對于有限的流量,通常要選擇出最優(yōu)質(zhì)的新聞進(jìn)行推送,此時(shí),新聞點(diǎn)擊率(ctr)可以作為新聞的一項(xiàng)打分,選擇和確定新聞的順序。ctr可以定義為:對于一個(gè)新聞的被點(diǎn)擊(click)的次數(shù)與被展示(impression)的次數(shù)的比值。即:

但是在計(jì)算ctr時(shí),由于數(shù)據(jù)的稀疏性,直接計(jì)算得到的ctr通常具有較大的偏差,主要是由對分子dimp和分母dclick的估計(jì)不準(zhǔn)確引起的,比如impression的次數(shù)很小,如1次,點(diǎn)擊的次數(shù)也很小,如1,按照上述的ctr的計(jì)算方法,其ctr為1,此時(shí)的點(diǎn)擊率就被估計(jì)高了,又或者展示的次數(shù)很大,但是點(diǎn)擊的次數(shù)很小,此時(shí),利用上述的方法求得的ctr就會(huì)比實(shí)際的ctr要小得多。為了解決這樣的問題,本實(shí)施例中,對ctr的公式進(jìn)行平滑處理。

本實(shí)施例選擇了貝葉斯平滑算法,該算法實(shí)現(xiàn)簡單,只需要求解兩個(gè)參數(shù)alpha和beta,所有新聞平滑均用一個(gè)平滑計(jì)算公式(smoothscore的計(jì)算公式),因此十分適合大規(guī)模分布式計(jì)算,同時(shí)由于用戶的檢索興趣不會(huì)在短短幾天發(fā)生十分劇烈的變化,所以支持離線更新模型,例如,每三天使用貝葉斯平滑模型離線更新參數(shù)alpha和beta,并按照公式(2)計(jì)算新聞的平滑點(diǎn)擊率。

式(1)中,rulescore為人工規(guī)則分?jǐn)?shù),一般用來過濾或者增加一些臨時(shí)規(guī)則。即人為設(shè)置一些規(guī)則,使用這些規(guī)則得到的分?jǐn)?shù)。

式(1)中,div為時(shí)間衰減分?jǐn)?shù),用來表示新聞的時(shí)效性??梢灾苯诱{(diào)用搜索服務(wù)器elasticsearch上的時(shí)間衰減函數(shù)得到div。具體的,選擇衰減類型為高斯衰減(gauss)。時(shí)間衰減函數(shù)涉及到的參數(shù)共有四個(gè),分別是:

origin,表示當(dāng)前時(shí)刻。

offset,表示平緩區(qū)間。在距離origin前后offset的時(shí)間區(qū)間內(nèi),新聞不做衰減,本實(shí)施例設(shè)定的offset為6h,表示在距離當(dāng)前時(shí)刻前后六個(gè)小時(shí)內(nèi)所產(chǎn)生的新聞,不做時(shí)間衰減。

scale和decay是一對參數(shù),scale代表新聞衰減到指定decay值的時(shí)間范圍,decay表示時(shí)間因子在scale范圍內(nèi)衰減到的數(shù)值。舉例說明,當(dāng)scale=15天,decay=0.3時(shí),表示在15天內(nèi),該新聞必須衰減到0.3。圖2為decay和scale直接影響著高斯衰減函數(shù)的衰減斜率的示意圖,scale和decay越小,就代表新聞的衰減得越快,新聞的生命周期越短,圖2中,exp是指以e為底的指數(shù)函數(shù),lin是指以e為底的對數(shù)函數(shù),gauss指高斯分布。

式(1)中,也可以加入媒體分?jǐn)?shù)mediascore作為一項(xiàng)因素(即求和中加上mediascore),mediascore采用式(3)計(jì)算:

其中,mt為運(yùn)營媒體分?jǐn)?shù),運(yùn)營部門對常見的新聞媒體來源質(zhì)量進(jìn)行了評(píng)級(jí),a級(jí)最好,d級(jí)最差,分別對應(yīng)a級(jí)(4分),b級(jí)(3分),c級(jí)(2分),d級(jí)(0分)。

式(1)中,readtime為平滑后的新聞的被閱讀時(shí)長:

allreadtime為新聞被所有用戶所閱讀的總時(shí)長,allclick為新聞所有的點(diǎn)擊次數(shù),preadtime為新聞虛擬的閱讀時(shí)長,本實(shí)施例中,依據(jù)專家經(jīng)驗(yàn)設(shè)定了preadtime的固定值,pclick為新聞虛擬的點(diǎn)擊次數(shù),即公式(2)中通過貝葉斯平滑所計(jì)算出的參數(shù)alpha。

式(1)中share,comment,collection,praise依次為新聞的分享數(shù),評(píng)論數(shù),收藏?cái)?shù)和點(diǎn)贊數(shù)。

s103:按照排序結(jié)果,向用戶展示搜索結(jié)果。

具體的,可以按照分?jǐn)?shù)從高到低的順序,向用戶展示各個(gè)候選項(xiàng)。

從圖1所示的過程可以看出,依據(jù)新聞獨(dú)特的屬性對與搜索關(guān)鍵詞相關(guān)的候選項(xiàng)進(jìn)行打分,并按照分?jǐn)?shù)向用戶展示搜索結(jié)果。與現(xiàn)有的新聞搜索方法相比,能夠基于新聞的屬性提高搜索結(jié)果的準(zhǔn)確性。

圖3為本申請實(shí)施例公開的又一種新聞搜索方法,與圖1所示的方法相比,主要區(qū)別在于,增加了對打分后的候選項(xiàng)進(jìn)行進(jìn)一步的質(zhì)量評(píng)判的步驟,以進(jìn)一步提高搜索結(jié)果的準(zhǔn)確性。

圖3所示的方法包括以下步驟:

s301:依據(jù)搜索關(guān)鍵詞,得到與關(guān)鍵詞相關(guān)的候選項(xiàng)。

本實(shí)施例中,使用相似性算法,計(jì)算關(guān)鍵詞與各個(gè)新聞的相似性分?jǐn)?shù),將相似性分?jǐn)?shù)滿足閾值的新聞作為候選項(xiàng)。

具體的,使用式(5)計(jì)算關(guān)鍵詞與任意一個(gè)新聞的相似性分?jǐn)?shù):

score(q,d)=

querynorm(q)*coord(q,d)*∑t∈q(tf(t∈q)*idf(t))*norm(t,d))(5)

式(5)中,q為搜索關(guān)鍵詞,d為新聞,t為搜索關(guān)鍵詞經(jīng)過分詞后的詞集合。

querynorm(q)表示搜索關(guān)鍵詞的標(biāo)準(zhǔn)化因素。

coord表示共現(xiàn)因子,是對出現(xiàn)多個(gè)搜索詞的衡量。coord(q,d)表示搜索關(guān)鍵詞和新聞中共同出現(xiàn)的詞的個(gè)數(shù)與搜索關(guān)鍵詞中的詞的個(gè)數(shù)之比。例如,query由三個(gè)詞組成,新聞中出現(xiàn)的詞有兩個(gè),那么該新聞的共現(xiàn)因子=2/3。

tf為詞頻,表示一個(gè)詞出現(xiàn)的頻率。idf為逆文檔頻率,表示一個(gè)詞是否不常見。在本實(shí)施例中,用新聞的關(guān)鍵詞衡量新聞是否與用戶的搜索關(guān)鍵詞相關(guān),因此,需要一個(gè)重要性調(diào)整系數(shù)來衡量一個(gè)詞是不是關(guān)鍵詞,一般來說,如果某個(gè)詞比較少見(idf較大),但是它在這篇文章中多次出現(xiàn)(tf較大),那么它很可能就反映了這篇文章的特性,正是所需要的關(guān)鍵詞。知道了"詞頻"(tf)和"逆文檔頻率"(idf)以后,將這兩個(gè)值相乘,就得到了一個(gè)詞的tf-idf值。某個(gè)詞對文章的重要性越高,它的tf-idf值就越大。所以,在計(jì)算出新聞中的全部詞語的tf-idf值后,排在最前面的幾個(gè)詞,就是這篇新聞的關(guān)鍵詞。

式(5)將用戶搜索關(guān)鍵詞q進(jìn)行分詞,利用∑t∈q(tf(t∈q)*idf(t))計(jì)算q里的詞在新聞中的tf-idf值,該值越大,表明這篇新聞在內(nèi)容上與q越相關(guān)。

norm由兩部分組成,分別是長度標(biāo)準(zhǔn)化(lengthnorm)和搜索關(guān)鍵詞標(biāo)準(zhǔn)化(querynorm),即norm=lengthnorm+querynorm,lengthnorm會(huì)衡量短field的匹配,給出更高的權(quán)重。比如,如果搜索詞在題目title中,那它比在內(nèi)容content中更相關(guān),得分更高。querynorm雖然不直接與文檔相關(guān)度相關(guān),但在對query類型的組合時(shí),可以對query進(jìn)行衡量。norm(t,d)的具體計(jì)算方式可以參見現(xiàn)有技術(shù),這里不再贅述。

s302:依據(jù)新聞的屬性,對候選項(xiàng)打分(屬性分),并按照分?jǐn)?shù)排列候選項(xiàng),得到第一次排序結(jié)果。具體實(shí)現(xiàn)方式可以參見s102,這里不再贅述。

s303:按照各個(gè)候選項(xiàng)的質(zhì)量,對第一排序結(jié)果進(jìn)行重排序,得到第二次排序結(jié)果。

本實(shí)施例中,質(zhì)量評(píng)分規(guī)則如下:

(1)是否為長文?是為1,不是為0。

(2)是否分段?是為1,不是為0。

(3)分段的段數(shù)是否小于等于5段?是為1,不是為0。

(4)是否有圖片?是為1,不是為0。

(5)圖片的張數(shù)是否小于等于5張?是為1,不是為0。

(6)標(biāo)題長度是否在10到20個(gè)字符之間?是為1,不是為0。

基于上述規(guī)則,新聞重排序的打分公式為:

申請人在研究的過程中發(fā)現(xiàn),一篇優(yōu)質(zhì)的新聞,應(yīng)該滿足六個(gè)方面,首先是長文,并且有著較好的分段,一般不會(huì)超過五段,也會(huì)有合適的配圖,但是配圖不宜過多,最多不超過五張,同時(shí)新聞標(biāo)題不會(huì)太長,一般在10到20個(gè)字符之間,因此,本發(fā)明將這六個(gè)方面進(jìn)行量化,對新聞固有的質(zhì)量進(jìn)行打分,最高為1分,最低為0分,并將該質(zhì)量因子與s302得到的分?jǐn)?shù)相乘,調(diào)整排序結(jié)果,進(jìn)一步提取出高質(zhì)量的新聞,將其推送至搜索結(jié)果的前列,最終的得分公式為:

scorefinal=score*scorererank(7)

按照式(7)對第一次排序結(jié)果進(jìn)行重排序,得到第二次排序結(jié)果。

s304:按照第二次排序結(jié)果展示各個(gè)候選項(xiàng)。

圖3所示的方法,除了依據(jù)新聞的屬性對新聞進(jìn)行打分之外,還基于新聞的內(nèi)容,對新聞的質(zhì)量進(jìn)行打分,最后依據(jù)兩次打分對新聞進(jìn)行排序展示,因此能夠進(jìn)一步提高搜索結(jié)果的準(zhǔn)確性。

圖4為本申請實(shí)施例公開的一種新聞搜索裝置,包括:候選項(xiàng)確定模塊、打分模塊和展示模塊,可選的,還包括重排序模塊。

其中,候選項(xiàng)確定模塊用于依據(jù)搜索關(guān)鍵詞,得到與所述搜索關(guān)鍵詞相關(guān)的候選項(xiàng)。打分模塊用于依據(jù)新聞的屬性,確定所述候選項(xiàng)的屬性分,并依據(jù)所述屬性分對所述候選項(xiàng)排序,所述新聞的屬性包括新聞的點(diǎn)擊曝光率和新聞的實(shí)效周期。展示模塊用于按照排序結(jié)果,展示搜索結(jié)果。重排序模塊用于在所述展示模塊按照排序結(jié)果,展示搜索結(jié)果之前,依據(jù)質(zhì)量參數(shù),確定所述排序結(jié)果中的各個(gè)候選項(xiàng)的質(zhì)量分,所述質(zhì)量參數(shù)包括新聞的長度、段落數(shù)、包括的圖片以及標(biāo)題的長度;將所述候選項(xiàng)中的任意一項(xiàng)的質(zhì)量分與該項(xiàng)的屬性分相乘,得到總分;依據(jù)所述候選項(xiàng)中每一項(xiàng)的總分,對所述候選項(xiàng)進(jìn)行重排序,得到更新的排序結(jié)果。

以上各個(gè)模塊的功能的具體實(shí)現(xiàn)方式可以參見上述方法實(shí)施例,這里不再贅述。

圖4所示的裝置,能夠提高新聞搜索結(jié)果的準(zhǔn)確性。

本申請實(shí)施例方法所述的功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算設(shè)備可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本申請實(shí)施例對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,移動(dòng)計(jì)算設(shè)備或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其它實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同或相似部分互相參見即可。

對所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本申請。對這些實(shí)施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本申請的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本申請將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1