亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于人工智能的文章價(jià)值評估方法、裝置及存儲介質(zhì)與流程

文檔序號:11286278閱讀:265來源:國知局
基于人工智能的文章價(jià)值評估方法、裝置及存儲介質(zhì)與流程

技術(shù)領(lǐng)域
】本發(fā)明涉及人工智能技術(shù),特別涉及基于人工智能的文章價(jià)值評估方法、裝置及存儲介質(zhì)。
背景技術(shù)
:人工智能(artificialintelligence),英文縮寫為ai。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。移動互聯(lián)網(wǎng)的信息分發(fā)平臺為了更好地滿足用戶碎片化時(shí)間上的使用,會盡量給用戶推薦一些符合其口味的新的、短的文章。內(nèi)容生產(chǎn)方為了得到更多的展現(xiàn)機(jī)會,也會迎合這種需求,更多地生產(chǎn)一些可以吸引點(diǎn)擊、但是內(nèi)容偏少的文章。這樣就會使得一些真正有價(jià)值、有信息量的優(yōu)質(zhì)文章得不到充分的展現(xiàn),內(nèi)容生產(chǎn)方也就沒有動力再去生產(chǎn)這樣的文章,從而形成一個(gè)惡性循環(huán),使得優(yōu)質(zhì)文章越來越少,而沒多大營養(yǎng)的劣質(zhì)文章越來越多。劣質(zhì)文章的增多,對用戶是否信任互聯(lián)網(wǎng)的信息資源是一個(gè)極大的威脅。因此,在進(jìn)行信息分發(fā)時(shí),需要盡可能地減少劣質(zhì)文章的分發(fā)量并增加優(yōu)質(zhì)文章的分發(fā)量,從而使得用戶能夠獲取到更多的優(yōu)質(zhì)資源,在提升用戶體驗(yàn)的同時(shí)也鼓勵(lì)了優(yōu)質(zhì)文章的創(chuàng)作,進(jìn)而營造出一個(gè)健康的互聯(lián)網(wǎng)內(nèi)容生態(tài)。相應(yīng)地,則需要對文章的價(jià)值進(jìn)行評估,從而將價(jià)值較高的文章作為優(yōu)質(zhì)文章推薦給用戶,但現(xiàn)有技術(shù)中還沒有一種有效的價(jià)值評估方法。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明提供了基于人工智能的文章價(jià)值評估方法、裝置及存儲介質(zhì)。具體技術(shù)方案如下:一種基于人工智能的文章價(jià)值評估方法,包括:挖掘作為訓(xùn)練數(shù)據(jù)的優(yōu)質(zhì)文章及劣質(zhì)文章,根據(jù)所述訓(xùn)練數(shù)據(jù)訓(xùn)練得到價(jià)值評分模型;對待評估的文章進(jìn)行特征提??;根據(jù)提取出的特征以及所述價(jià)值評分模型,確定出所述待評估的文章的評分。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,挖掘所述訓(xùn)練數(shù)據(jù)包括:根據(jù)人工標(biāo)注的信息、用戶的反饋行為以及預(yù)先設(shè)定的挖掘規(guī)則,挖掘出所述訓(xùn)練數(shù)據(jù)。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述根據(jù)人工標(biāo)注的信息、用戶的反饋行為以及預(yù)先設(shè)定的挖掘規(guī)則,挖掘出所述訓(xùn)練數(shù)據(jù)包括:將人工標(biāo)注為優(yōu)質(zhì)的內(nèi)容源對應(yīng)的文章作為優(yōu)質(zhì)文章,加入到所述訓(xùn)練數(shù)據(jù)中;將根據(jù)用戶的反饋行為確定出的優(yōu)質(zhì)文章及劣質(zhì)文章加入到所述訓(xùn)練數(shù)據(jù)中;將具備預(yù)先設(shè)定的劣質(zhì)文章特征的文章作為劣質(zhì)文章,加入到所述訓(xùn)練數(shù)據(jù)中。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述對待評估的文章進(jìn)行特征提取包括:針對所述待評估的文章中的每個(gè)段落,分別提取以下特征之一或任意組合:所述段落與所述待評估的文章的標(biāo)題之間的相關(guān)性;所述段落與所述段落的相鄰前一段落之間的相關(guān)性;所述段落中的新增詞數(shù);所述段落中的總詞數(shù);所述段落是否以小標(biāo)題開頭;所述段落中的圖片數(shù)量;所述段落中的句子數(shù);所述段落中的句子平均長度;所述段落中的代詞個(gè)數(shù)。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該方法進(jìn)一步包括:通過將所述評分與預(yù)先設(shè)定的閾值進(jìn)行比較,確定出所述待評估的文章為優(yōu)質(zhì)文章還是劣質(zhì)文章。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該方法進(jìn)一步包括:獲取設(shè)定的m個(gè)劣質(zhì)文章特征,m為正整數(shù);若所述待評估的文章具備任一劣質(zhì)文章特征,則將所述待評估的文章確定為劣質(zhì)文章。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述劣質(zhì)文章特征包括以下之一或任意組合:文章中重復(fù)內(nèi)容數(shù)超過預(yù)定閾值;文章中的字?jǐn)?shù)小于預(yù)定閾值,且文章中沒有圖片;文章中存在字?jǐn)?shù)超過預(yù)定閾值的段落;文章中存在表述不完整的情況;文章中存在錯(cuò)別字。一種基于人工智能的文章價(jià)值評估裝置,包括:挖掘單元、訓(xùn)練單元以及評估單元;所述挖掘單元,用于挖掘作為訓(xùn)練數(shù)據(jù)的優(yōu)質(zhì)文章及劣質(zhì)文章,并將所述訓(xùn)練數(shù)據(jù)發(fā)送給所述訓(xùn)練單元;所述訓(xùn)練單元,用于根據(jù)所述訓(xùn)練數(shù)據(jù)訓(xùn)練得到價(jià)值評分模型,并將所述價(jià)值評分模型發(fā)送給所述評估單元;所述評估單元,用于對待評估的文章進(jìn)行特征提取,根據(jù)提取出的特征以及所述價(jià)值評分模型,確定出所述待評估的文章的評分。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述挖掘單元根據(jù)人工標(biāo)注的信息、用戶的反饋行為以及預(yù)先設(shè)定的挖掘規(guī)則,挖掘出所述訓(xùn)練數(shù)據(jù)。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述挖掘單元將人工標(biāo)注為優(yōu)質(zhì)的內(nèi)容源對應(yīng)的文章作為優(yōu)質(zhì)文章,加入到所述訓(xùn)練數(shù)據(jù)中;所述挖掘單元將根據(jù)用戶的反饋行為確定出的優(yōu)質(zhì)文章及劣質(zhì)文章加入到所述訓(xùn)練數(shù)據(jù)中;所述挖掘單元將具備預(yù)先設(shè)定的劣質(zhì)文章特征的文章作為劣質(zhì)文章,加入到所述訓(xùn)練數(shù)據(jù)中。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述評估單元針對所述待評估的文章中的每個(gè)段落,分別提取以下特征之一或任意組合:所述段落與所述待評估的文章的標(biāo)題之間的相關(guān)性;所述段落與所述段落的相鄰前一段落之間的相關(guān)性;所述段落中的新增詞數(shù);所述段落中的總詞數(shù);所述段落是否以小標(biāo)題開頭;所述段落中的圖片數(shù)量;所述段落中的句子數(shù);所述段落中的句子平均長度;所述段落中的代詞個(gè)數(shù)。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述評估單元進(jìn)一步用于,通過將所述評分與預(yù)先設(shè)定的閾值進(jìn)行比較,確定出所述待評估的文章為優(yōu)質(zhì)文章還是劣質(zhì)文章。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述評估單元進(jìn)一步用于,獲取設(shè)定的m個(gè)劣質(zhì)文章特征,m為正整數(shù);若所述待評估的文章具備任一劣質(zhì)文章特征,則將所述待評估的文章確定為劣質(zhì)文章。根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述劣質(zhì)文章特征包括以下之一或任意組合:文章中重復(fù)內(nèi)容數(shù)超過預(yù)定閾值;文章中的字?jǐn)?shù)小于預(yù)定閾值,且文章中沒有圖片;文章中存在字?jǐn)?shù)超過預(yù)定閾值的段落;文章中存在表述不完整的情況;文章中存在錯(cuò)別字。一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如以上所述的方法。一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如以上所述的方法?;谏鲜鼋榻B可以看出,采用本發(fā)明所述方案,可預(yù)先挖掘出作為訓(xùn)練數(shù)據(jù)的優(yōu)質(zhì)文章及劣質(zhì)文章,并根據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練得到價(jià)值評分模型,這樣,當(dāng)需要對待評估的文章進(jìn)行價(jià)值評估時(shí),可首先對待評估的文章進(jìn)行特征提取,進(jìn)而根據(jù)提取出的特征以及價(jià)值評分模型,確定出待評估的文章的評分,從而實(shí)現(xiàn)了對于文章價(jià)值的有效評估?!靖綀D說明】圖1為本發(fā)明所述基于人工智能的文章價(jià)值評估方法實(shí)施例的流程圖。圖2為本發(fā)明所述rnn模型的結(jié)構(gòu)示意圖。圖3為本發(fā)明所述基于人工智能的文章價(jià)值評估方法的實(shí)現(xiàn)過程示意圖。圖4為本發(fā)明所述基于人工智能的文章價(jià)值評估裝置實(shí)施例的組成結(jié)構(gòu)示意圖。圖5示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖?!揪唧w實(shí)施方式】為了使本發(fā)明的技術(shù)方案更加清楚、明白,以下參照附圖并舉實(shí)施例,對本發(fā)明所述方案進(jìn)行進(jìn)一步說明。顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。圖1為本發(fā)明所述基于人工智能的文章價(jià)值評估方法實(shí)施例的流程圖,如圖1所示,包括以下具體實(shí)現(xiàn)方式。在101中,挖掘作為訓(xùn)練數(shù)據(jù)的優(yōu)質(zhì)文章及劣質(zhì)文章,根據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練得到價(jià)值評分模型。訓(xùn)練價(jià)值評分模型需要挖掘大量的訓(xùn)練數(shù)據(jù),通過挖掘到的包括優(yōu)質(zhì)文章及劣質(zhì)文章的訓(xùn)練數(shù)據(jù),訓(xùn)練出價(jià)值評分模型。本實(shí)施例中,可根據(jù)人工標(biāo)注的信息、用戶的反饋行為以及預(yù)先設(shè)定的挖掘規(guī)則等,挖掘出訓(xùn)練數(shù)據(jù),分別介紹如下。1)人工標(biāo)注比如可將人工標(biāo)注為優(yōu)質(zhì)的內(nèi)容源對應(yīng)的文章作為優(yōu)質(zhì)文章,加入到訓(xùn)練數(shù)據(jù)中。具體地,可首先根據(jù)作者站點(diǎn)等內(nèi)容源的發(fā)文數(shù)據(jù)量及活躍度等篩選出一批候選的內(nèi)容源,之后由人工根據(jù)各候選的內(nèi)容源所發(fā)文章的綜合質(zhì)量進(jìn)行打分,并將分?jǐn)?shù)超過預(yù)定閾值的內(nèi)容源確定為優(yōu)質(zhì)的內(nèi)容源,進(jìn)而可將優(yōu)質(zhì)的內(nèi)容源對應(yīng)的文章作為優(yōu)質(zhì)文章,加入到訓(xùn)練數(shù)據(jù)中??梢钥闯?,上述方式主要用于挖掘優(yōu)質(zhì)文章。2)用戶的反饋行為比如可以將根據(jù)用戶的反饋行為確定出的優(yōu)質(zhì)文章及劣質(zhì)文章加入到訓(xùn)練數(shù)據(jù)中。在實(shí)際應(yīng)用中,用戶在看到一篇文章后會產(chǎn)生收藏、評論、分享等一系列反饋行為,因此可根據(jù)用戶的反饋行為來挖掘訓(xùn)練數(shù)據(jù)。比如,某篇文章被很多用戶吐槽質(zhì)量很差,那么則可認(rèn)為這篇文章為劣質(zhì)文章,并將其加入到訓(xùn)練數(shù)據(jù)中。再比如,某篇文章被很多用戶收藏且人均閱讀時(shí)長較長,那么則可認(rèn)為這篇文章為優(yōu)質(zhì)文章,并將其加入到訓(xùn)練數(shù)據(jù)中??梢钥闯?,上述方式既能夠用于挖掘優(yōu)質(zhì)文章,也能夠用于挖掘劣質(zhì)文章。3)挖掘規(guī)則比如可以將具備預(yù)先設(shè)定的劣質(zhì)文章特征的文章作為劣質(zhì)文章,加入到訓(xùn)練數(shù)據(jù)中??深A(yù)先設(shè)定劣質(zhì)文章特征,這樣,在對某篇文章進(jìn)行分析后,如果發(fā)現(xiàn)其具備劣質(zhì)文章特征,則可認(rèn)為該文章為劣質(zhì)文章,并將其加入到訓(xùn)練數(shù)據(jù)中??梢钥闯?,上述方式主要通過設(shè)定的規(guī)則/策略來挖掘劣質(zhì)文章。在獲取到足夠數(shù)量的訓(xùn)練數(shù)據(jù)之后,即可根據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練得到價(jià)值評分模型。其中,在進(jìn)行訓(xùn)練時(shí),可分別按照后續(xù)102中所述方式對作為訓(xùn)練數(shù)據(jù)的優(yōu)質(zhì)文章和劣質(zhì)文章進(jìn)行特征提取,并可將優(yōu)質(zhì)文章的評分設(shè)置為1,將劣質(zhì)文章的評分設(shè)置為0,進(jìn)而訓(xùn)練得到價(jià)值評分模型,如何進(jìn)行訓(xùn)練為現(xiàn)有技術(shù)。所述價(jià)值評分模型可為深度學(xué)習(xí)模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn,recurrentneuralnetworks)模型等。在102中,對待評估的文章進(jìn)行特征提取。優(yōu)質(zhì)文章通常具有如下特點(diǎn):排版良好、論據(jù)充分、邏輯清楚、觀點(diǎn)明確、用詞專業(yè)等?;谏鲜鎏攸c(diǎn),可預(yù)先人工設(shè)定多個(gè)要提取的特征,進(jìn)而針對待評估的文章,進(jìn)行這些特征的提取。比如,可針對待評估的文章中的每個(gè)段落,分別提取以下特征之一或任意組合:特征1:該段落與待評估的文章的標(biāo)題之間的相關(guān)性;特征2:該段落與該段落的相鄰前一段落之間的相關(guān)性;特征3:該段落中的新增詞數(shù);特征4:該段落中的總詞數(shù);特征5:該段落是否以小標(biāo)題開頭;特征6:該段落中的圖片數(shù)量;特征7:該段落中的句子數(shù);特征8:該段落中的句子平均長度;特征9:該段落中的代詞個(gè)數(shù)。表一給出了上述各特征在衡量文章價(jià)值時(shí)所起到的作用。特征作用特征1觀點(diǎn)是否明確特征2邏輯是否清晰特征3論據(jù)是否充分特征4排版是否良好特征5排版是否良好特征6排版是否良好特征7排版是否良好特征8排版是否良好特征9用詞是否專業(yè)表一各特征在衡量文章價(jià)值時(shí)所起到的作用對于待評估的文章中的每個(gè)段落,可分別提取上述9個(gè)特征。其中,對于待評估的文章中的第一個(gè)段落來說,由于不存在該段落的相鄰前一段落,因此可將該段落與標(biāo)題之間的相關(guān)性作為該段落與該段落的相鄰前一段落之間的相關(guān)性,即特征1=特征2。對于非第一個(gè)段落來說,比如,第二個(gè)段落,特征1是指第二個(gè)段落與標(biāo)題之間的相關(guān)性,而特征2則是指第二個(gè)段落與第一個(gè)段落之間的相關(guān)性。另外,特征3通常是指相比于該段落內(nèi)容之前的所有內(nèi)容,該段落中的新增詞數(shù),比如,對于第二個(gè)段落來說,特征3可以是指相比于第一個(gè)段落以及標(biāo)題所組成的內(nèi)容,第二個(gè)段落中的新增詞數(shù)。本實(shí)施例中,可利用預(yù)先訓(xùn)練得到的基于卷積神經(jīng)網(wǎng)絡(luò)(cnn,convolutionalneuralnetwork)的深度學(xué)習(xí)語義相似度模型,來確定出特征1和特征2,即特征1和特征2可共用一個(gè)模型,將標(biāo)題作為一個(gè)段落來看待。如何訓(xùn)練基于cnn的深度學(xué)習(xí)語義相似度模型為現(xiàn)有技術(shù),比如,可以人工構(gòu)造足夠數(shù)量的訓(xùn)練數(shù)據(jù),從而根據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練得到基于cnn的深度學(xué)習(xí)語義相似度模型,如可利用一個(gè)標(biāo)題及一個(gè)段落組成一個(gè)pair對,即構(gòu)成一個(gè)訓(xùn)練樣本,或者,利用兩個(gè)段落組成一個(gè)pair對,如果pair對中的兩個(gè)組成部分來自同一文章,則可將pair對對應(yīng)的相關(guān)性為1,否則,可設(shè)置為0。在103中,根據(jù)提取出的特征以及價(jià)值評分模型,確定出待評估的文章的評分。在提取出102中所述的特征之后,即可將提取出的特征輸入給價(jià)值評分模型,從而得到價(jià)值評分模型輸出的待評估的文章的評分。由于文章的段落之間是一個(gè)序列的關(guān)系,因此如前所述,可采用rnn模型作為價(jià)值評分模型。圖2為本發(fā)明所述rnn模型的結(jié)構(gòu)示意圖,如圖2所示,該模型最終將輸出一個(gè)評分,取值可在0到1之間,評分越高,說明文章的價(jià)值越大。對于待評估的文章,在得到其評分之后,可將該評分進(jìn)一步與預(yù)先設(shè)定的閾值進(jìn)行比較,根據(jù)比較結(jié)果確定出待評估的文章為優(yōu)質(zhì)文章還是劣質(zhì)文章。比如,若評分大于閾值,則可確定待評估的文章為優(yōu)質(zhì)文章,否則,為劣質(zhì)文章。可以看出,通過上述實(shí)施例所述方式,可實(shí)現(xiàn)對于文章價(jià)值的有效評估。價(jià)值評分模型的優(yōu)點(diǎn)是泛化能力強(qiáng),但也可能存在未能識別一些具有明顯劣質(zhì)文章特征的文章的情況,為了克服該問題,從而進(jìn)一步提高評估結(jié)果的準(zhǔn)確性,可采用以下處理方式。獲取預(yù)先設(shè)定的m個(gè)劣質(zhì)文章特征,m為正整數(shù),若待評估的文章具備任一劣質(zhì)文章特征,則將待評估的文章確定為劣質(zhì)文章。具體將哪些特征作為劣質(zhì)文章特征可根據(jù)實(shí)際情況而定,比如,可包括以下之一或任意組合:特征a:文章中重復(fù)內(nèi)容數(shù)超過預(yù)定閾值;特征b:文章中的字?jǐn)?shù)小于預(yù)定閾值,且文章中沒有圖片;特征c:文章中存在字?jǐn)?shù)超過預(yù)定閾值的段落;特征d:文章中存在表述不完整的情況;特征e:文章中存在錯(cuò)別字。對于特征a來說,如果文章中存在大量的重復(fù)內(nèi)容,比如標(biāo)題的內(nèi)容在很多段落均被重復(fù)提及,當(dāng)重復(fù)數(shù)量達(dá)到一定程度時(shí),則可認(rèn)為文章為劣質(zhì)文章。對于特征b來說,如果文章中的字?jǐn)?shù)過少,且沒有圖片,則可認(rèn)為文章為劣質(zhì)文章。對于特征c來說,如果文章中存在某一段落的字?jǐn)?shù)過多的情況,則可認(rèn)為文章為劣質(zhì)文章。對于特征d來說,如果文章的標(biāo)題或正文中存在表述不完整的情況,如“**明星今日現(xiàn)身……”,則可認(rèn)為文章為劣質(zhì)文章。對于特征e來說,如果文章的標(biāo)題或正文中出現(xiàn)了錯(cuò)別字,則可認(rèn)為文章為劣質(zhì)文章。對于待評估的文章來說,如果其具備a~e中的任一特征,則可認(rèn)為其為劣質(zhì)文章。為便于表述,將上述根據(jù)評分來確定待評估的文章為優(yōu)質(zhì)文章還是劣質(zhì)文章的方式稱為第一評估方式,將上述根據(jù)劣質(zhì)文章特征來確定待評估的文章為優(yōu)質(zhì)文章還是劣質(zhì)文章的方式稱為第二評估方式。在實(shí)際應(yīng)用中,可以將第一評估方式和第二評估方式相結(jié)合使用,即可基于文章的內(nèi)容表述和內(nèi)容深度兩個(gè)維度的特征來評估文章的價(jià)值,具體結(jié)合方式不限,比如,針對待評估的文章,如果按照第一評估方式和第二評估方式均確定其為劣質(zhì)文章,那么則認(rèn)為待評估的文章為劣質(zhì)文章,或者,在按照第一評估方式確定出待評估的文章為優(yōu)質(zhì)文章之后,進(jìn)一步利用第二評估方式確定待評估的文章為優(yōu)質(zhì)文章還是劣質(zhì)文章,如果是劣質(zhì)文章,則認(rèn)為待評估的文章為劣質(zhì)文章,否則,為優(yōu)質(zhì)文章。上述介紹中涉及到的各閾值的具體取值均可根據(jù)實(shí)際需要而定。綜合上述介紹,圖3為本發(fā)明所述基于人工智能的文章價(jià)值評估方法的實(shí)現(xiàn)過程示意圖,如圖3所示,主要由訓(xùn)練數(shù)據(jù)離線挖掘以及在線價(jià)值評估兩部分組成。相比于現(xiàn)有技術(shù),上述實(shí)施例中提供了一種對于文章價(jià)值的有效評估方式,而且,提取出的特征能夠準(zhǔn)確、直觀地反應(yīng)文章的優(yōu)劣情況,從而提高了評估結(jié)果的準(zhǔn)確性,并且,利用較少的訓(xùn)練數(shù)據(jù)即可取得較好的訓(xùn)練效果,另外,兩種評估方式可靈活結(jié)合,便于根據(jù)實(shí)際需求靈活調(diào)整。相應(yīng)地,后續(xù)在進(jìn)行信息分發(fā)時(shí),可減少劣質(zhì)文章的分發(fā)量并增加優(yōu)質(zhì)文章的分發(fā)量,從而使得用戶能夠獲取到更多的優(yōu)質(zhì)資源,在提升用戶體驗(yàn)的同時(shí)也鼓勵(lì)了優(yōu)質(zhì)文章的創(chuàng)作,進(jìn)而營造出一個(gè)健康的互聯(lián)網(wǎng)內(nèi)容生態(tài)。以上是關(guān)于方法實(shí)施例的介紹,以下通過裝置實(shí)施例,對本發(fā)明所述方案進(jìn)行進(jìn)一步說明。圖4為本發(fā)明所述基于人工智能的文章價(jià)值評估裝置實(shí)施例的組成結(jié)構(gòu)示意圖,如圖4所示,包括:挖掘單元401、訓(xùn)練單元402以及評估單元403。挖掘單元401,用于挖掘作為訓(xùn)練數(shù)據(jù)的優(yōu)質(zhì)文章及劣質(zhì)文章,并將訓(xùn)練數(shù)據(jù)發(fā)送給訓(xùn)練單元402。訓(xùn)練單元402,用于根據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練得到價(jià)值評分模型,并將價(jià)值評分模型發(fā)送給評估單元403。評估單元403,用于對待評估的文章進(jìn)行特征提取,根據(jù)提取出的特征以及價(jià)值評分模型,確定出待評估的文章的評分。訓(xùn)練價(jià)值評分模型需要挖掘大量的訓(xùn)練數(shù)據(jù),通過挖掘到的包括優(yōu)質(zhì)文章及劣質(zhì)文章的訓(xùn)練數(shù)據(jù),訓(xùn)練出價(jià)值評分模型。挖掘單元401可根據(jù)人工標(biāo)注的信息、用戶的反饋行為以及預(yù)先設(shè)定的挖掘規(guī)則等,挖掘出訓(xùn)練數(shù)據(jù)。比如,挖掘單元401可將人工標(biāo)注為優(yōu)質(zhì)的內(nèi)容源對應(yīng)的文章作為優(yōu)質(zhì)文章,加入到訓(xùn)練數(shù)據(jù)中。具體地,可首先根據(jù)作者站點(diǎn)等內(nèi)容源的發(fā)文數(shù)據(jù)量及活躍度等篩選出一批候選的內(nèi)容源,之后由人工根據(jù)各候選的內(nèi)容源所發(fā)文章的綜合質(zhì)量進(jìn)行打分,并將分?jǐn)?shù)超過預(yù)定閾值的內(nèi)容源確定為優(yōu)質(zhì)的內(nèi)容源,進(jìn)而可將優(yōu)質(zhì)的內(nèi)容源對應(yīng)的文章作為優(yōu)質(zhì)文章,加入到訓(xùn)練數(shù)據(jù)中。挖掘單元401還可將根據(jù)用戶的反饋行為確定出的優(yōu)質(zhì)文章及劣質(zhì)文章加入到訓(xùn)練數(shù)據(jù)中。在實(shí)際應(yīng)用中,用戶在看到一篇文章后會產(chǎn)生收藏、評論、分享等一系列反饋行為,因此可根據(jù)用戶的反饋行為來挖掘訓(xùn)練數(shù)據(jù)。比如,某篇文章被很多用戶吐槽質(zhì)量很差,那么則可認(rèn)為這篇文章為劣質(zhì)文章,并將其加入到訓(xùn)練數(shù)據(jù)中。再比如,某篇文章被很多用戶收藏且人均閱讀時(shí)長較長,那么則可認(rèn)為這篇文章為優(yōu)質(zhì)文章,并將其加入到訓(xùn)練數(shù)據(jù)中。挖掘單元401還可將具備預(yù)先設(shè)定的劣質(zhì)文章特征的文章作為劣質(zhì)文章,加入到訓(xùn)練數(shù)據(jù)中??深A(yù)先設(shè)定劣質(zhì)文章特征,這樣,在對某篇文章進(jìn)行分析后,如果發(fā)現(xiàn)其具備劣質(zhì)文章特征,則可認(rèn)為該文章為劣質(zhì)文章,并將其加入到訓(xùn)練數(shù)據(jù)中。在獲取到足夠數(shù)量的訓(xùn)練數(shù)據(jù)之后,可由訓(xùn)練單元402根據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練得到價(jià)值評分模型。價(jià)值評分模型可為深度學(xué)習(xí)模型,如rnn模型等。經(jīng)過上述處理后,當(dāng)需要對待評估的文章進(jìn)行價(jià)值評估時(shí),評估單元403可首先對待評估的文章進(jìn)行特征提取,之后根據(jù)提取出的特征以及價(jià)值評分模型,確定出待評估的文章的評分。優(yōu)質(zhì)文章通常具有如下特點(diǎn):排版良好、論據(jù)充分、邏輯清楚、觀點(diǎn)明確、用詞專業(yè)等?;谏鲜鎏攸c(diǎn),可預(yù)先人工設(shè)定多個(gè)要提取的特征,進(jìn)而由評估單元403針對待評估的文章,進(jìn)行這些特征的提取。具體地,針對待評估的文章中的每個(gè)段落,評估單元403可分別提取以下特征之一或任意組合:該段落與待評估的文章的標(biāo)題之間的相關(guān)性;該段落與該段落的相鄰前一段落之間的相關(guān)性;該段落中的新增詞數(shù);該段落中的總詞數(shù);該段落是否以小標(biāo)題開頭;該段落中的圖片數(shù)量;該段落中的句子數(shù);該段落中的句子平均長度;該段落中的代詞個(gè)數(shù)。對于待評估的文章中的每個(gè)段落,可分別提取上述9個(gè)特征。上述各特征在衡量文章價(jià)值時(shí)所起到的作用如表一所示。評估單元403可將提取出的特征輸入給價(jià)值評分模型,從而得到價(jià)值評分模型輸出的待評估的文章的評分,評分越高,說明文章的價(jià)值越大。之后,評估單元403還可通過將評分與預(yù)先設(shè)定的閾值進(jìn)行比較,確定出待評估的文章為優(yōu)質(zhì)文章還是劣質(zhì)文章。比如,若評分大于閾值,則可確定待評估的文章為優(yōu)質(zhì)文章,否則,為劣質(zhì)文章。另外,評估單元403還可獲取設(shè)定的m個(gè)劣質(zhì)文章特征,m為正整數(shù),若待評估的文章具備任一劣質(zhì)文章特征,則將待評估的文章確定為劣質(zhì)文章。具體將哪些特征作為劣質(zhì)文章特征可根據(jù)實(shí)際情況而定,比如,可包括以下之一或任意組合:特征a:文章中重復(fù)內(nèi)容數(shù)超過預(yù)定閾值;特征b:文章中的字?jǐn)?shù)小于預(yù)定閾值,且文章中沒有圖片;特征c:文章中存在字?jǐn)?shù)超過預(yù)定閾值的段落;特征d:文章中存在表述不完整的情況;特征e:文章中存在錯(cuò)別字。對于特征a來說,如果文章中存在大量的重復(fù)內(nèi)容,比如標(biāo)題的內(nèi)容在很多段落均被重復(fù)提及,當(dāng)重復(fù)數(shù)量達(dá)到一定程度時(shí),則可認(rèn)為文章為劣質(zhì)文章。對于特征b來說,如果文章中的字?jǐn)?shù)過少,且沒有圖片,則可認(rèn)為文章為劣質(zhì)文章。對于特征c來說,如果文章中存在某一段落的字?jǐn)?shù)過多的情況,則可認(rèn)為文章為劣質(zhì)文章。對于特征d來說,如果文章的標(biāo)題或正文中存在表述不完整的情況,如“**明星今日現(xiàn)身……”,則可認(rèn)為文章為劣質(zhì)文章。對于特征e來說,如果文章的標(biāo)題或正文中出現(xiàn)了錯(cuò)別字,則可認(rèn)為文章為劣質(zhì)文章。對于待評估的文章來說,如果其具備a~e中的任一特征,則可認(rèn)為其為劣質(zhì)文章。為便于表述,將上述根據(jù)評分來確定待評估的文章為優(yōu)質(zhì)文章還是劣質(zhì)文章的方式稱為第一評估方式,將上述根據(jù)劣質(zhì)文章特征來確定待評估的文章為優(yōu)質(zhì)文章還是劣質(zhì)文章的方式稱為第二評估方式。在實(shí)際應(yīng)用中,可以將第一評估方式和第二評估方式相結(jié)合使用,即可基于文章的內(nèi)容表述和內(nèi)容深度兩個(gè)維度的特征來評估文章的價(jià)值,具體結(jié)合方式不限,比如,針對待評估的文章,如果按照第一評估方式和第二評估方式均確定其為劣質(zhì)文章,那么則認(rèn)為待評估的文章為劣質(zhì)文章,或者,在按照第一評估方式確定出待評估的文章為優(yōu)質(zhì)文章之后,進(jìn)一步利用第二評估方式確定待評估的文章為優(yōu)質(zhì)文章還是劣質(zhì)文章,如果是劣質(zhì)文章,則認(rèn)為待評估的文章為劣質(zhì)文章,否則,為優(yōu)質(zhì)文章。圖4所示裝置實(shí)施例的具體工作流程等請參照前述方法實(shí)施例中的相應(yīng)說明,不再贅述。相比于現(xiàn)有技術(shù),上述實(shí)施例中提供了一種對于文章價(jià)值的有效評估方式,而且,提取出的特征能夠準(zhǔn)確、直觀地反應(yīng)文章的優(yōu)劣情況,從而提高了評估結(jié)果的準(zhǔn)確性,并且,利用較少的訓(xùn)練數(shù)據(jù)即可取得較好的訓(xùn)練效果,另外,兩種評估方式可靈活結(jié)合,便于根據(jù)實(shí)際需求靈活調(diào)整。后續(xù)在進(jìn)行信息分發(fā)時(shí),可減少劣質(zhì)文章的分發(fā)量并增加優(yōu)質(zhì)文章的分發(fā)量,從而使得用戶能夠獲取到更多的優(yōu)質(zhì)資源,在提升用戶體驗(yàn)的同時(shí)也鼓勵(lì)了優(yōu)質(zhì)文章的創(chuàng)作,進(jìn)而營造出一個(gè)健康的互聯(lián)網(wǎng)內(nèi)容生態(tài)。圖5示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。圖5顯示的計(jì)算機(jī)系統(tǒng)/服務(wù)器12僅僅是一個(gè)示例,不應(yīng)對本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。如圖5所示,計(jì)算機(jī)系統(tǒng)/服務(wù)器12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器(處理單元)16,存儲器28,連接不同系統(tǒng)組件(包括存儲器28和處理器16)的總線18??偩€18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(vesa)局域總線以及外圍組件互連(pci)總線。計(jì)算機(jī)系統(tǒng)/服務(wù)器12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。存儲器28可以包括易失性存儲器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲器(ram)30和/或高速緩存存儲器32。計(jì)算機(jī)系統(tǒng)/服務(wù)器12可以進(jìn)一步包括其它可移動/不可移動的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖5未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖5中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個(gè)驅(qū)動器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。計(jì)算機(jī)系統(tǒng)/服務(wù)器12也可以與一個(gè)或多個(gè)外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)系統(tǒng)/服務(wù)器12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進(jìn)行。并且,計(jì)算機(jī)系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖5所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。處理器16通過運(yùn)行存儲在存儲器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)圖1所示實(shí)施例中的方法,即挖掘作為訓(xùn)練數(shù)據(jù)的優(yōu)質(zhì)文章及劣質(zhì)文章,根據(jù)訓(xùn)練數(shù)據(jù)訓(xùn)練得到價(jià)值評分模型,對待評估的文章進(jìn)行特征提取,根據(jù)提取出的特征以及價(jià)值評分模型,確定出待評估的文章的評分等。具體實(shí)現(xiàn)請參照前述各實(shí)施例中的相關(guān)說明,不再贅述。本發(fā)明同時(shí)公開了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)將實(shí)現(xiàn)如圖1所示實(shí)施例中的方法??梢圆捎靡粋€(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號介質(zhì)或者計(jì)算機(jī)可讀存儲介質(zhì)。計(jì)算機(jī)可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。計(jì)算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計(jì)算機(jī)可讀的信號介質(zhì)還可以是計(jì)算機(jī)可讀存儲介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于——無線、電線、光纜、rf等等,或者上述的任意合適的組合??梢砸砸环N或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如”c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法等,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲在一個(gè)計(jì)算機(jī)可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個(gè)存儲介質(zhì)中,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機(jī)存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1