亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文檔評(píng)估方法及裝置與流程

文檔序號(hào):11654251閱讀:258來源:國知局
一種文檔評(píng)估方法及裝置與流程

本發(fā)明涉及文檔信息管理及處理技術(shù)領(lǐng)域,具體涉及一種文檔評(píng)估方法及裝置。



背景技術(shù):

隨著服務(wù)器存儲(chǔ)容量的海量增長以及云計(jì)算的快速普及,組織機(jī)構(gòu)積累了越來越多的電子文檔。但實(shí)際上,在這些電子文檔中,真正重要的電子文檔只占其中的一小部分。而當(dāng)電子文檔的數(shù)量過多時(shí),人工的對(duì)電子文檔進(jìn)行查看并篩選出其中重要的電子文檔顯然是很困難的。為了篩選出其中真正重要的電子文檔的信息及內(nèi)容,出現(xiàn)了各種對(duì)電子文檔的評(píng)估方法。但是,現(xiàn)有的這些電子文檔的評(píng)估方法多為從單一角度對(duì)電子文檔進(jìn)行評(píng)估,容易導(dǎo)致最終的評(píng)估結(jié)果不全面或不準(zhǔn)確,用戶可能因過于依賴評(píng)估結(jié)果而錯(cuò)過某些電子文檔中的重要信息,給企業(yè)帶來損失。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明實(shí)施例提供了一種文檔評(píng)估方法及裝置,旨在為用戶提供一種更可靠的文檔評(píng)估方法,避免用戶遺漏文檔中的重要信息。

本發(fā)明實(shí)施例的第一方面提供了一種文檔評(píng)估方法,所述文檔評(píng)估方法包括:

獲取目標(biāo)文檔的抽取信息,所述抽取信息包括:命名實(shí)體、長名詞短語及長動(dòng)詞短語;

基于所述抽取信息,計(jì)算所述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo),其中,所述技術(shù)原創(chuàng)性指標(biāo)用來表達(dá)所述目標(biāo)文檔在所述目標(biāo)文檔所在的文檔集合中的創(chuàng)新程度,所述寫作質(zhì)量特征度指標(biāo)用來表達(dá)所述目標(biāo)文檔在所述文檔集合中的復(fù)雜程度,所述技術(shù)分布度指標(biāo)用來表達(dá)所述目標(biāo)文檔的抽取信息在所述文檔集合的其它文檔中的分布程度;

對(duì)所述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)進(jìn)行加權(quán)求和,得到所述目標(biāo)文檔的綜合重要度評(píng)分;

輸出所述目標(biāo)文檔的綜合重要度評(píng)分。

本發(fā)明實(shí)施例的第二方面提供了一種文檔評(píng)估裝置,所述文檔評(píng)估裝置包括:

抽取信息獲取單元,用于獲取目標(biāo)文檔的抽取信息,所述抽取信息包括:命名實(shí)體、長名詞短語及長動(dòng)詞短語;

多維度指標(biāo)計(jì)算單元,用于基于所述抽取信息獲取單元獲取到的抽取信息,計(jì)算所述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo),其中,所述技術(shù)原創(chuàng)性指標(biāo)用來表達(dá)所述目標(biāo)文檔在所述目標(biāo)文檔所在的文檔集合中的創(chuàng)新程度,所述寫作質(zhì)量特征度指標(biāo)用來表達(dá)所述目標(biāo)文檔在所述文檔集合中的復(fù)雜程度,所述技術(shù)分布度指標(biāo)用來表達(dá)所述目標(biāo)文檔的抽取信息在所述文檔集合的其它文檔中的分布程度;

綜合重要度評(píng)分計(jì)算單元,對(duì)所述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)進(jìn)行加權(quán)求和,得到所述目標(biāo)文檔的綜合重要度評(píng)分;

綜合重要度評(píng)分輸出單元,輸出所述目標(biāo)文檔的綜合重要度評(píng)分。

由上可見,在本發(fā)明實(shí)施例中,首先獲取目標(biāo)文檔的抽取信息,所述抽取信息包括:命名實(shí)體、長名詞短語及長動(dòng)詞短語,然后基于所述抽取信息,計(jì)算所述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo),其中,所述技術(shù)原創(chuàng)性指標(biāo)用來表達(dá)所述目標(biāo)文檔在所述目標(biāo)文檔所在的文檔集合中的創(chuàng)新程度,所述寫作質(zhì)量特征度指標(biāo)用來表達(dá)所述目標(biāo)文檔在所述文檔集合中的復(fù)雜程度,所述技術(shù)分布度指標(biāo)用來表達(dá)所述目標(biāo)文檔的抽取信息在所述文檔集合的其它文檔中的分布程度,接著對(duì)所述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)進(jìn)行加權(quán)求和,得到所述目標(biāo)文檔的綜合重要度評(píng)分,最后輸出所述目標(biāo)文檔的綜合重要度評(píng)分。由于本發(fā)明實(shí)施例中的抽取信息覆蓋了命名實(shí)體、長名詞短語及長動(dòng)詞短語三個(gè)方面,因而能夠很好地涵蓋目標(biāo)文檔中的有用信息,避免目標(biāo)文檔中的有用信息被遺漏。同時(shí),從技術(shù)原創(chuàng)度、寫作質(zhì)量特征度及技術(shù)分布度三個(gè)維度對(duì)目標(biāo)文檔進(jìn)行評(píng)估,能夠讓用戶直觀且全面的了解到目標(biāo)文檔在文檔集合中的綜合重要程度,幫助企業(yè)更好的做出決策。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其它的附圖。

圖1是本發(fā)明實(shí)施例提供的文檔評(píng)估方法的實(shí)現(xiàn)流程圖;

圖2是本發(fā)明實(shí)施例提供的文檔評(píng)估方法步驟s102計(jì)算技技術(shù)原創(chuàng)度指標(biāo)的具體實(shí)現(xiàn)流程圖;

圖3是本發(fā)明實(shí)施例提供的文檔評(píng)估方法步驟s102計(jì)算寫作質(zhì)量特征度指標(biāo)的具體實(shí)現(xiàn)流程圖;

圖4是本發(fā)明實(shí)施例提供的文檔評(píng)估方法步驟s102計(jì)算技術(shù)分布度指標(biāo)的具體實(shí)現(xiàn)流程圖;

圖5是本發(fā)明實(shí)施例提供的文檔評(píng)估方法步驟s103的具體實(shí)現(xiàn)流程圖;

圖6是本發(fā)明實(shí)施例提供的文檔評(píng)估裝置的結(jié)構(gòu)框圖;

圖7是本發(fā)明實(shí)施例提供的智能終端的結(jié)構(gòu)示意圖。

具體實(shí)施方式

以下描述中,為了說明而不是為了限定,提出了諸如特定系統(tǒng)結(jié)構(gòu)、技術(shù)之類的具體細(xì)節(jié),以便透徹理解本發(fā)明實(shí)施例。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)清楚,在沒有這些具體細(xì)節(jié)的其它實(shí)施例中也可以實(shí)現(xiàn)本發(fā)明。在其它情況中,省略對(duì)眾所周知的系統(tǒng)、裝置、電路以及方法的詳細(xì)說明,以免不必要的細(xì)節(jié)妨礙本發(fā)明的描述。

為了說明本發(fā)明所述的技術(shù)方案,下面通過具體實(shí)施例來進(jìn)行說明。

實(shí)施例一

圖1示出了本發(fā)明實(shí)施例一提供的文檔評(píng)估方法的實(shí)現(xiàn)流程,詳述如下:

在步驟s101中,獲取目標(biāo)文檔的抽取信息,上述抽取信息包括:命名實(shí)體、長名詞短語及長動(dòng)詞短語。

在本發(fā)明實(shí)施例中,首先獲取目標(biāo)文檔的抽取信息,上述抽取信息包括:命名實(shí)體、長名詞短語及長動(dòng)詞短語。其中,可以采用基于層次隱馬爾科夫模型(hiddenmarkovmodel,hmm)的漢語詞法分析系統(tǒng)(freeinstituteofcomputingtechnologychineselexicalanalysissystem,freeictclas)對(duì)目標(biāo)文檔進(jìn)行分詞處理、詞形標(biāo)注處理及命名實(shí)體識(shí)別處理,以獲得上述目標(biāo)文檔包含的命名實(shí)體;再采用中文句法語義分析系統(tǒng)(niuparser)對(duì)上述目標(biāo)文檔進(jìn)行成分句法分析處理,以獲得上述目標(biāo)文檔包含的長名詞短語及長動(dòng)詞短語,上述漢語詞法分析系統(tǒng)及中文句法語義分析系統(tǒng)均為開源處理工具。具體地,下表示出了上述命名實(shí)體包括的類別及對(duì)應(yīng)描述:

需要說明的是,限于篇幅,上表僅僅示出了基礎(chǔ)的十八類命名實(shí)體,在實(shí)際應(yīng)用中,根據(jù)用戶所處的行業(yè)領(lǐng)域,除了上述十八種命名實(shí)體類別之外,還可以有其它的類別,例如,從事金融業(yè)的用戶可以自行定義金融領(lǐng)域的專業(yè)術(shù)語作為一個(gè)新類別;當(dāng)然,用戶也可以根據(jù)自身需求對(duì)上述命名實(shí)體包含的十八種類別進(jìn)行刪減,此處不作限定。為了更好的對(duì)本方案進(jìn)行說明,以上述命名實(shí)體包含上述十八種類別對(duì)本發(fā)明實(shí)施例進(jìn)行描述。因而,在本發(fā)明實(shí)施例中,上述抽取信息共包含上述十八類命名實(shí)體、長名詞短語及長動(dòng)詞短語,一共二十種類別。

在步驟s102中,基于上述抽取信息,計(jì)算上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)。

在本發(fā)明實(shí)施例中,基于上述步驟s101獲取到的抽取信息,計(jì)算上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)。以下為對(duì)上述三種指標(biāo)的具體解釋:

對(duì)于技術(shù)原創(chuàng)性指標(biāo)來說,在技術(shù)性文檔中,若一種技術(shù)概念被越早提出,并且隨后越來越多的在其它的技術(shù)性文檔中所提及,則表明該技術(shù)概念具備技術(shù)方面的原創(chuàng)性。基于此,本發(fā)明實(shí)施例提出了一種技術(shù)原創(chuàng)性指標(biāo),用來表達(dá)目標(biāo)文檔在上述目標(biāo)文檔所處的文檔集合中在技術(shù)概念方面的創(chuàng)新程度;

對(duì)于寫作質(zhì)量特征度指標(biāo)來說,在技術(shù)性文檔中,若出現(xiàn)的不重復(fù)的字、詞、命名實(shí)體、長名詞短語及長動(dòng)詞短語的個(gè)數(shù)越多,則表明這篇技術(shù)性文檔所涉及的寫作質(zhì)量特征越復(fù)雜?;诖?,本發(fā)明實(shí)施例提出了一種寫作質(zhì)量特征度指標(biāo),用來表達(dá)目標(biāo)文檔在上述目標(biāo)文檔所處的文檔集合中在寫作質(zhì)量特征方面的復(fù)雜程度;

對(duì)于技術(shù)分布度指標(biāo)來說,在技術(shù)性文檔中,若從文檔中獲得的抽取信息在文檔集合的其它文檔中出現(xiàn)的次數(shù)越多,則表明該技術(shù)性文檔所代表的技術(shù)在文檔集合中分布的越廣泛,即,該文檔的抽取信息受到了其它技術(shù)性文檔的廣泛支持?;诖?,本發(fā)明實(shí)施例提出了一種技術(shù)分布度指標(biāo),用來表達(dá)目標(biāo)文檔在上述目標(biāo)文檔所處的文檔集合中在技術(shù)內(nèi)容方面的分布程度。

在步驟s103中,對(duì)上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)進(jìn)行加權(quán)求和,得到上述目標(biāo)文檔的綜合重要度評(píng)分。

在本發(fā)明實(shí)施例中,將步驟s102中獲得的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)進(jìn)行加權(quán)求和,得到上述目標(biāo)文檔的綜合重要度評(píng)分。用戶可根據(jù)需求,對(duì)上述三種指標(biāo)的權(quán)重進(jìn)行分配及增減。若目標(biāo)文檔獲得的綜合重要度評(píng)分越高,則表明該文檔以上述三種指標(biāo)的綜合角度來看越為重要;若目標(biāo)文檔的綜合重要度評(píng)分越低,則表明該文檔以上述三種指標(biāo)的綜合角度來看越為不重要。

在步驟s104中,輸出上述目標(biāo)文檔的綜合重要度評(píng)分。

在本發(fā)明實(shí)施例中,將步驟s103中得到的上述目標(biāo)文檔的綜合重要度評(píng)分輸出,以便用戶能夠通過查閱文檔的綜合重要度評(píng)分獲知文檔的重要程度。用戶可以根據(jù)各文檔的綜合重要度評(píng)分,重點(diǎn)查閱評(píng)分較高的文檔,而酌情忽略評(píng)分較低的文檔,方便用戶在文檔集合中的文檔較多時(shí),依據(jù)文檔的重要程度對(duì)文檔進(jìn)行有序的處理。

可選地,為了使用戶更為全面的獲知目標(biāo)文檔所要表達(dá)的內(nèi)容,在上述步驟s101之后,上述文檔評(píng)估方法還包括:

根據(jù)各個(gè)目標(biāo)摘要句在上述目標(biāo)文檔中的先后順序,依次提取各個(gè)目標(biāo)摘要句及各個(gè)目標(biāo)摘要句的上下文,生成上述目標(biāo)文檔的全文摘要,其中,上述目標(biāo)摘要句為包含上述抽取信息的句子;

輸出上述目標(biāo)文檔的全文摘要。

其中,與常見的基于詞語重要度的全文摘要不同,本發(fā)明實(shí)施例提供了一種基于抽取信息鄰近位置的全文摘要。其過程為,首先遍歷目標(biāo)文檔中的各個(gè)句子的子句,找到其中包含上述抽取信息的子句作為目標(biāo)摘要句,并根據(jù)各個(gè)目標(biāo)摘要句在上述目標(biāo)文檔中的先后順序,依次提取各個(gè)目標(biāo)摘要句及各個(gè)目標(biāo)摘要句的上下文,生成上述目標(biāo)文檔的全文摘要。其中,上述各個(gè)目標(biāo)摘要句的上下文具體為與上述各個(gè)目標(biāo)摘要句前后相鄰的子句。當(dāng)生成了上述基于抽取信息鄰近位置的全文摘要后,將上述目標(biāo)文檔的全文摘要輸出,供用戶查閱。上述基于抽取信息鄰近位置的全文摘要使得用戶不會(huì)遺漏文檔中的任何有用信息,為用戶提供了一種基于抽取信息的視圖,相比于基于詞語重要度的全文摘要更為全面。

可選地,為了獲得上述文檔集合的知識(shí)聚集,使用戶能夠直觀的獲得文檔集合的抽取級(jí)別(extraction-level)的信息,上述文檔評(píng)估方法還包括:

獲取上述文檔集合中的各個(gè)文檔的抽取信息,并依次將文檔集合中的各個(gè)文檔確定為目標(biāo)文檔;

基于上述目標(biāo)文檔的抽取信息與其它各個(gè)文檔的抽取信息,獲取上述目標(biāo)文檔與其它各個(gè)文檔的相似度;

基于上述文檔集合中文檔間的相似度,對(duì)上述文檔集合的文檔進(jìn)行聚類處理。

其中,針對(duì)任一文檔,在獲取了該文檔的抽取信息之后,均可以用該文檔的抽取信息表示該文檔。具體的,任一文檔都可由二十個(gè)二維向量表示。該二維向量的第一維表示抽取信息的類別,第二維表示該文檔包含的所有該類別抽取信息的詞語片段。在計(jì)算目標(biāo)文檔與其它文檔的相似度時(shí),其計(jì)算公式(1)具體可以為:

上式中,u為代表目標(biāo)文檔的二維數(shù)組,v為代表其它任一文檔的二維數(shù)組;s為文檔u與文檔v之間相似度;i的取值范圍為1,2,……,20,代表二十類不同的抽取信息;j為文檔u中第i類抽取信息下的第j個(gè)詞語片段;k為文檔v中第i類抽取信息下的第k個(gè)詞語片段;約束條件s.t.給出了s'(uij,vik)的計(jì)算方法,q代表量詞,c代表幣種,t代表時(shí)間,當(dāng)抽取信息的類別為數(shù)量時(shí),則在文檔u中獲得的抽取信息qj的量詞與文檔v中獲得的抽取信息qk的量詞相等時(shí),取二者的相似度為1;當(dāng)抽取信息的類別為貨幣值時(shí),則在文檔u中的獲得的抽取信息cj的幣種與文檔v中獲得的抽取信息ck的幣種相等時(shí),取二者的相似度為1;當(dāng)抽取信息的類別為時(shí)間或日期時(shí),則在文檔u中獲得的抽取信息tj的時(shí)間與文檔v中獲得的抽取信息tk的時(shí)間相近似時(shí),取二者的相似度為1;當(dāng)抽取信息的類別為百分比、序數(shù)詞或不屬于序數(shù)詞的數(shù)詞時(shí),則只有在文檔u中獲得的抽取信息uij與文檔v中獲得的抽取信息vik完全相等時(shí),才取二者的相似度為1;當(dāng)抽取信息的類別為除了上述七種類別的其它類別時(shí),則利用n減去ed(uij,vik)計(jì)算得到文檔u中抽取信息uij與文檔v中抽取信息vik的相似度,其中,n為預(yù)設(shè)的常量,ed為萊溫斯坦編輯距離(levenshteindistance)函數(shù)。上式中s(u,v)的計(jì)算方法為,在一種抽取信息類別下,分別將目標(biāo)文檔u中的各個(gè)抽取信息依次與另一文檔v中的各個(gè)抽取信息進(jìn)行相似度計(jì)算,保留獲得的最大相似度后,進(jìn)行累加,作為該抽取信息下目標(biāo)文檔u與另一文檔v的相似度。以此類推,在分別獲得二十種抽取信息類別下目標(biāo)文檔u與另一文檔v的相似度后,進(jìn)行求和運(yùn)算,得到基于抽取信息的目標(biāo)文檔u與另一文檔v的相似度。為了更好的說明上式,以下以具體的例子對(duì)上式進(jìn)行說明:

在文檔u中,僅以其獲得的兩類抽取信息作為運(yùn)用上式的例子,分別為日期類抽取信息及貨幣值類抽取信息;其中,上述日期類抽取信息包括:2017年3月24日,2013年4月26日及2015年8月30日;上述貨幣值類抽取信息包括:236英鎊,35人民幣及89歐元。而在文檔v中,也獲得了上述兩類抽取信息,其中,上述日期類抽取信息包括:1993年4月24日,2000年8月26日及2016年12月25日;上述貨幣值類抽取信息包括:400法郎,562人民幣及76日元。在本例中,對(duì)日期類抽取信息相近似的范圍設(shè)定為在半年內(nèi)。

首先基于日期類抽取信息,計(jì)算文檔u與文檔v的相似度。在這里,先對(duì)文檔u中的日期類抽取信息“2017年3月24日”進(jìn)行相似度計(jì)算,根據(jù)上式的約束條件,可以得到其與“1993年4月24日”的相似度為0,與“2000年8月26日”的相似度為0,與“2016年12月25日”的相似度為1,其中相似度最大值為與“2016年12月25日”的相似度,則對(duì)抽取信息“2017年3月24日”僅保留該相似度最大值1,即,對(duì)于文檔u中的“2017年3月24日”這一抽取信息來說,其與文檔v的相似度為1。相應(yīng)的,可以得到文檔u中,抽取信息“2013年4月26日”與文檔v的相似度為0,抽取信息“2015年8月30日”與文檔v的相似度為1。則對(duì)于文檔u的日期類抽取信息來說,其與文檔v的日期類抽取信息的相似度為1+0+1=2。

然后基于貨幣值類抽取信息,計(jì)算文檔u與文檔v的相似度。在這里,先對(duì)文檔u中的貨幣值類抽取信息“236英鎊”進(jìn)行相似度計(jì)算,根據(jù)上式的約束條件,可以得到其與“400法郎”的相似度為0,與“562人民幣”的相似度為0,與“76日元”的相似度也為0,其中相似度最大值為0,則對(duì)抽取信息“236英鎊”僅保留該相似度最大值0,即,對(duì)于文檔u中的“236英鎊”這一抽取信息來說,其與文檔v的相似度為0。相應(yīng)的,可以得到文檔u中,抽取信息“35人民幣”與文檔v的相似度為1,抽取信息“89歐元”與文檔v的相似度為0。則對(duì)于文檔u的貨幣值類抽取信息來說,其與文檔v的貨幣值類抽取信息的相似度為0+1+0=1。

對(duì)于文檔u,假設(shè)通過上式獲得的基于其它十八類抽取信息的與文檔v的相似度分別為x1,x2,x3,……,x18。則最終,獲得基于抽取信息的文檔u與文檔v的相似度為2+1+x1+x2+x3+……+x18。

需要注意的是,雖然本例子中,將與日期類抽取信息相近似的范圍設(shè)定為在半年內(nèi),但在實(shí)際應(yīng)用中,該范圍可以根據(jù)用戶的需求進(jìn)行調(diào)整,此處不作限定。同樣的,與時(shí)間類抽取信息相近似的范圍也可以根據(jù)用戶的需求進(jìn)行調(diào)整,此處亦不作限定。通過上式,可以得到文檔集合中任意兩個(gè)文檔之間的相似度,并隨后根據(jù)文檔間相似度,利用k-均值(kmeans)聚類算法對(duì)該文檔集合中的文檔進(jìn)行聚類處理。上述聚類過程,使得用戶不僅僅獲得了普通聚類處理的話題級(jí)別(topic-level)的信息,還能夠直觀地從中獲得抽取級(jí)別的信息,能夠?yàn)橛脩籼峁┤碌囊暯?,充分展示文檔集合的知識(shí)視圖,具有特別的應(yīng)用價(jià)值。

由上可見,通過本發(fā)明實(shí)施例,在獲得了文檔的抽取信息后,不僅從技術(shù)原創(chuàng)性指標(biāo)、寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)三個(gè)方面對(duì)文檔進(jìn)行了全面的綜合評(píng)估,獲得了文檔綜合重要度評(píng)分,保證了文檔評(píng)估的可靠性及準(zhǔn)確性,直觀地告知了用戶文檔的評(píng)估結(jié)果;并且,還基于抽取信息提取出了全文摘要,使得用戶通過瀏覽基于抽取信息的全文摘要就能夠掌握文檔的大致信息;進(jìn)一步地,還為文檔集合提供了基于抽取信息的文檔聚類方法,使得用戶能夠獲得抽取級(jí)別的信息,并幫助用戶獲得充分展示了文檔集合的知識(shí)視圖。

圖2示出了步驟s102計(jì)算技技術(shù)原創(chuàng)度指標(biāo)的一種具體實(shí)現(xiàn)流程,詳述如下:

在步驟s201中,獲取上述目標(biāo)文檔的長名詞短語支持度、長動(dòng)詞短語支持度及上述目標(biāo)文檔歸入上述文檔集合中的時(shí)間。

在本發(fā)明實(shí)施例中,根據(jù)上述步驟s101中獲取到的目標(biāo)文檔的抽取信息,獲取上述目標(biāo)文檔的長名詞短語支持度、長動(dòng)詞短語支持度及上述目標(biāo)文檔歸入上述文檔集合中的時(shí)間。其中,上述長名詞短語支持度具體為長名詞短語在目標(biāo)文檔中的支持度,長動(dòng)詞短語支持度具體為長動(dòng)詞短語在目標(biāo)文檔中的支持度,上述目標(biāo)文檔歸入上述文檔集合中的時(shí)間可以從文檔屬性存儲(chǔ)的信息中獲得。

在步驟s202中,根據(jù)預(yù)設(shè)的技術(shù)原創(chuàng)度評(píng)分公式,利用上述目標(biāo)文檔的長名詞短語支持度、長動(dòng)詞短語支持度及上述目標(biāo)文檔歸入文檔集合中的時(shí)間,計(jì)算得到上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo)。

在本發(fā)明實(shí)施例中,可以根據(jù)預(yù)設(shè)的技術(shù)原創(chuàng)度評(píng)分公式,計(jì)算上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),上述預(yù)設(shè)的技術(shù)原創(chuàng)度評(píng)分公式(2)具體可以為:

上述公式中,s.t.為約束條件,ti為該目標(biāo)文檔中的第i個(gè)長名詞短語或長動(dòng)詞短語,sup(ti)為第i個(gè)長名詞短語或長動(dòng)詞短語ti的支持度,age-in-days(ti)為第i個(gè)長名詞短語或長動(dòng)詞短語ti出現(xiàn)的時(shí)間,以天為單位計(jì)數(shù),即目標(biāo)文檔歸入文檔集合中的時(shí)間,o(ti)為第i個(gè)長名詞短語或長動(dòng)詞短語ti的技術(shù)原創(chuàng)度,o1為將目標(biāo)文檔中所有的長名詞短語及長動(dòng)詞短語的技術(shù)原創(chuàng)度相加后,得到的目標(biāo)文檔的技術(shù)原創(chuàng)度。上述計(jì)算得到的值越大,表明該目標(biāo)文檔在技術(shù)原創(chuàng)度指標(biāo)角度越重要。當(dāng)然,也可以以其它方式獲得目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),此處不作限定。

由上可見,通過本發(fā)明實(shí)施例,利用目標(biāo)文檔的長名詞短語支持度、長動(dòng)詞短語支持度及上述目標(biāo)文檔歸入文檔集合中的時(shí)間對(duì)技術(shù)原創(chuàng)度指標(biāo)進(jìn)行計(jì)算,能夠提高獲得的目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo)的準(zhǔn)確度,使得獲得的目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo)能正確反映目標(biāo)文檔在文檔集合中的創(chuàng)新程度。

圖3示出了步驟s102計(jì)算寫作質(zhì)量特征度指標(biāo)的一種具體實(shí)現(xiàn)流程,詳述如下:

在步驟s301中,統(tǒng)計(jì)出剔除重復(fù)之后上述目標(biāo)文檔中的字?jǐn)?shù)、詞數(shù)及上述目標(biāo)文檔中各個(gè)類別的抽取信息出現(xiàn)的次數(shù)。

在本發(fā)明實(shí)施例中,統(tǒng)計(jì)出剔除了重復(fù)之后,上述目標(biāo)文檔中的字?jǐn)?shù)、詞數(shù)及上述目標(biāo)文檔中各個(gè)類別的抽取信息出現(xiàn)的次數(shù)。上述剔除了重復(fù)之后的字?jǐn)?shù)及詞數(shù),即為目標(biāo)文檔中不同的字的數(shù)量及不同的詞的數(shù)量;上述剔除了重復(fù)之后的各個(gè)類別的抽取信息出現(xiàn)的次數(shù),即為各個(gè)類別的抽取信息下不同詞語片段的數(shù)量。例如,在目標(biāo)文檔u中,對(duì)于gpe類抽取信息來說,一共出現(xiàn)了五次北京、三次深圳、三次上海及兩次廣州,則在統(tǒng)計(jì)gpe類抽取信息出現(xiàn)的次數(shù)時(shí),剔除掉重復(fù)出現(xiàn)的部分,最終獲得的gpe類抽取信息出現(xiàn)的次數(shù)為四次。

在步驟s302中,利用誘導(dǎo)有序加權(quán)平均算子,對(duì)統(tǒng)計(jì)出的上述目標(biāo)文檔的字?jǐn)?shù)、詞數(shù)及上述目標(biāo)文檔中各個(gè)類別的抽取信息出現(xiàn)的次數(shù)進(jìn)行加權(quán)求和計(jì)算。

在本發(fā)明實(shí)施例中,可以利用誘導(dǎo)有序加權(quán)平均算子(inducedorderedweightedaveraging,iowa)對(duì)統(tǒng)計(jì)出的上述目標(biāo)文檔中各個(gè)類別的抽取信息出現(xiàn)的次數(shù)進(jìn)行加權(quán)求和計(jì)算,其計(jì)算公式(3)具體可以為:

其中,c為寫作質(zhì)量特征度指標(biāo);iowa為誘導(dǎo)有序加權(quán)平均算子;由于在這里,不僅是對(duì)二十類抽取信息進(jìn)行計(jì)算,還加入了目標(biāo)文檔的字、詞,因而此處i的取值范圍為1,2,……,22;v1,v2,……,v22分別為字?jǐn)?shù)、詞數(shù)及二十種抽取信息類別,其僅僅指代名字,并不作實(shí)際運(yùn)算;a1,a2,……,a22為步驟s301獲取到的與v1,v2,……,v22對(duì)應(yīng)的不重復(fù)的字的數(shù)量、不重復(fù)的詞的數(shù)量及不重復(fù)的一類抽取信息出現(xiàn)的次數(shù),wi為預(yù)設(shè)的權(quán)重。

在步驟s303中,將上述加權(quán)求和計(jì)算的結(jié)果作為上述目標(biāo)文檔的寫作質(zhì)量特征度指標(biāo)。

在本發(fā)明實(shí)施例中,將步驟s302加權(quán)求和計(jì)算的結(jié)果作為上述目標(biāo)文檔的寫作質(zhì)量特征度指標(biāo)。上述計(jì)算得到的值越大,表明該目標(biāo)文檔在寫作質(zhì)量特征度指標(biāo)角度越重要。當(dāng)然,也可以以其它方式獲得目標(biāo)文檔的寫作質(zhì)量特征度指標(biāo),此處不作限定。

由上可見,通過本發(fā)明實(shí)施例,利用剔除了重復(fù)之后的目標(biāo)文檔中的字?jǐn)?shù)、詞數(shù)及各個(gè)類別的抽取信息出現(xiàn)的次數(shù)對(duì)目標(biāo)文檔的寫作質(zhì)量特征度指標(biāo)進(jìn)行計(jì)算,能夠提高獲得的目標(biāo)文檔的寫作質(zhì)量特征度指標(biāo)的準(zhǔn)確度,使得獲得的目標(biāo)文檔的寫作質(zhì)量特征度指標(biāo)能正確反映目標(biāo)文檔在文檔集合中的復(fù)雜程度。

圖4示出了步驟s102計(jì)算技術(shù)分布度指標(biāo)的一種具體實(shí)現(xiàn)流程,詳述如下:

在步驟s401中,將上述文檔集合中除上述目標(biāo)文檔之外的其它各個(gè)文檔的抽取信息與上述目標(biāo)文檔的抽取信息進(jìn)行相似度計(jì)算。

在步驟s402中,將上述其它各個(gè)文檔的抽取信息與上述目標(biāo)文檔的抽取信息進(jìn)行相似度計(jì)算得到的值作累加。

在本發(fā)明實(shí)施例中,利用預(yù)設(shè)的技術(shù)分布度指標(biāo)計(jì)算公式對(duì)上述文檔集合中除上述目標(biāo)文檔之外的其它各個(gè)文檔的抽取信息與上述目標(biāo)文檔的抽取信息進(jìn)行相似度計(jì)算,并隨后將相似度計(jì)算的結(jié)果進(jìn)行累加,其計(jì)算公式(4)具體可以為:

上式中,u為文檔的二維向量表示;ua為目標(biāo)文檔;ub為文檔集合中除了ua之外的其它文檔;da為進(jìn)行了累加計(jì)算后得到的結(jié)果,s(ua,ub)的計(jì)算方式可參照本實(shí)施例中進(jìn)行文檔聚類時(shí)所提出的相似度計(jì)算公式(1)進(jìn)行計(jì)算,在此不作贅述。由于b的取值范圍是不等于a的其它正整數(shù),因而上式的運(yùn)算過程為,在獲得了目標(biāo)文檔ua與其它各個(gè)文檔ub的相似度之后,將所得相似度的值進(jìn)行累加。

在步驟s403中,將上述累加的結(jié)果作為上述目標(biāo)文檔的技術(shù)分布度指標(biāo)。

在本發(fā)明實(shí)施例中,將上述步驟s402中累加的結(jié)果da作為上述目標(biāo)文檔的技術(shù)分布度指標(biāo)。上述計(jì)算得到的值越大,表明該目標(biāo)文檔在技術(shù)分布度指標(biāo)角度越重要。當(dāng)然,也可以以其它方式獲得目標(biāo)文檔的技術(shù)分布度指標(biāo),此處不作限定。

由上可見,通過本發(fā)明實(shí)施例,利用文檔集合中除目標(biāo)文檔之外的其它各個(gè)文檔的抽取信息與目標(biāo)文檔的抽取信息的相似度對(duì)目標(biāo)文檔的技術(shù)分布度指標(biāo)進(jìn)行計(jì)算,能夠提高獲得的目標(biāo)文檔的技術(shù)分布度指標(biāo)的準(zhǔn)確度,使得獲得的目標(biāo)文檔的技術(shù)分布度指標(biāo)能正確反映目標(biāo)文檔在文檔集合的其它文檔中的分布程度。

圖5示出了步驟s103的一種具體實(shí)現(xiàn)流程,詳述如下:

在步驟s501中,分別對(duì)上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)進(jìn)行歸一化處理,得到上述目標(biāo)文檔的歸一化技術(shù)原創(chuàng)度指標(biāo),歸一化寫作質(zhì)量特征度指標(biāo)及歸一化技術(shù)分布度指標(biāo)。

在本發(fā)明實(shí)施例中,將步驟s102中獲得的三種指標(biāo)按照相應(yīng)指標(biāo)在文檔集合的所有文檔中所獲得的最大值及最小值進(jìn)行歸一化處理,得到上述目標(biāo)文檔的歸一化技術(shù)原創(chuàng)度指標(biāo),歸一化寫作質(zhì)量特征度指標(biāo)及歸一化技術(shù)分布度指標(biāo)。

在步驟s502中,利用誘導(dǎo)有序加權(quán)平均算子,對(duì)上述目標(biāo)文檔的歸一化技術(shù)原創(chuàng)度指標(biāo),歸一化寫作質(zhì)量特征度指標(biāo)及歸一化技術(shù)分布度指標(biāo)進(jìn)行加權(quán)求和計(jì)算。

在本發(fā)明實(shí)施例中,利用誘導(dǎo)有序加權(quán)平均算子,對(duì)上述目標(biāo)文檔的歸一化技術(shù)原創(chuàng)度指標(biāo),歸一化寫作質(zhì)量特征度指標(biāo)及歸一化技術(shù)分布度指標(biāo)進(jìn)行加權(quán)求和計(jì)算,其計(jì)算公式(5)具體可以為:

其中,i為對(duì)上述目標(biāo)文檔的三種指標(biāo)進(jìn)行加權(quán)求和計(jì)算的結(jié)果;iowa為誘導(dǎo)有序加權(quán)平均算子;v1,v2,v3分別代表上述三種指標(biāo),在此處并沒有實(shí)際計(jì)算含義;n1,n2,n3分別為與v1,v2,v3對(duì)應(yīng)的對(duì)上述三種指標(biāo)進(jìn)行了歸一化處理后的值,wi為預(yù)設(shè)的權(quán)重。

在步驟s503中,將上述加權(quán)求和計(jì)算的結(jié)果轉(zhuǎn)換為百分制,得到上述目標(biāo)文檔的綜合重要度評(píng)分。

在本發(fā)明實(shí)施例中,為了符合普通用戶的評(píng)分習(xí)慣,將上述步驟s502中獲得的加權(quán)求和計(jì)算的結(jié)果轉(zhuǎn)換為百分制,得到上述目標(biāo)文檔的綜合重要度評(píng)分。

由上可見,通過本發(fā)明實(shí)施例,將三種角度的指標(biāo)糅合為了綜合重要度評(píng)分,使得用戶能快速獲知目標(biāo)文檔的綜合重要程度,幫助用戶有效利用文檔。且最后的結(jié)果為百分制,更加符合普通用戶的使用習(xí)慣。

應(yīng)理解,上述實(shí)施例中各步驟的序號(hào)的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對(duì)本發(fā)明實(shí)施例的實(shí)施過程構(gòu)成任何限定。

實(shí)施例二

對(duì)應(yīng)于上文實(shí)施例所述的文檔評(píng)估方法,圖6示出了本發(fā)明實(shí)施例提供的文檔評(píng)估裝置的結(jié)構(gòu)框圖,為了便于說明,僅示出了與本發(fā)明實(shí)施例相關(guān)的部分。

參照?qǐng)D6,該文檔評(píng)估裝置6包括:抽取信息獲取單元61,多維度指標(biāo)計(jì)算單元62,綜合重要度評(píng)分計(jì)算單元63,綜合重要度評(píng)分輸出單元64。

其中,抽取信息獲取單元61,用于獲取目標(biāo)文檔的抽取信息,上述抽取信息包括:命名實(shí)體、長名詞短語及長動(dòng)詞短語;

多維度指標(biāo)計(jì)算單元62,用于基于上述抽取信息獲取單元61獲取到的抽取信息,計(jì)算上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo),其中,上述技術(shù)原創(chuàng)性指標(biāo)用來表達(dá)上述目標(biāo)文檔在上述目標(biāo)文檔所在的文檔集合中的創(chuàng)新程度,上述寫作質(zhì)量特征度指標(biāo)用來表達(dá)上述目標(biāo)文檔在上述文檔集合中的復(fù)雜程度,上述技術(shù)分布度指標(biāo)用來表達(dá)上述目標(biāo)文檔的抽取信息在上述文檔集合的其它文檔中的分布程度;

綜合重要度評(píng)分計(jì)算單元63,用于對(duì)上述多維度指標(biāo)計(jì)算單元62獲得的上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)進(jìn)行加權(quán)求和,得到上述目標(biāo)文檔的綜合重要度評(píng)分;

綜合重要度評(píng)分輸出單元64,用于輸出上述綜合重要度評(píng)分計(jì)算單元63計(jì)算得到的上述目標(biāo)文檔的綜合重要度評(píng)分。

可選地,上述文檔評(píng)估裝置6還包括:

摘要生成單元,用于根據(jù)各個(gè)目標(biāo)摘要句在上述目標(biāo)文檔中的先后順序,依次提取各個(gè)目標(biāo)摘要句及各個(gè)目標(biāo)摘要句的上下文,生成上述目標(biāo)文檔的全文摘要,其中,上述目標(biāo)摘要句為包含上述抽取信息的子句;

摘要輸出單元,用于輸出上述摘要生成單元生成的上述目標(biāo)文檔的全文摘要。

可選地,上述文檔評(píng)估裝置6還包括:

目標(biāo)文檔確定單元,用于獲取上述文檔集合中的各個(gè)文檔的抽取信息,并依次將文檔集合中的各個(gè)文檔確定為目標(biāo)文檔;

聚類相似度計(jì)算單元,用于基于上述目標(biāo)文檔的抽取信息與其它各個(gè)文檔的抽取信息,獲取上述目標(biāo)文檔與其它各個(gè)文檔的相似度;

聚類處理單元,用于基于上述文檔集合中文檔間的相似度,對(duì)上述文檔集合的文檔進(jìn)行聚類處理。

可選地,上述抽取信息獲取單元61,具體包括:

命名實(shí)體獲取子單元,用于基于漢語詞法分析系統(tǒng)對(duì)上述目標(biāo)文檔進(jìn)行分詞處理、詞性標(biāo)注處理及命名實(shí)體識(shí)別處理,獲得上述目標(biāo)文檔包含的命名實(shí)體;

長短語獲取子單元,用于基于中文句法語義分析系統(tǒng)對(duì)上述目標(biāo)文檔進(jìn)行成分句法分析處理,獲得上述目標(biāo)文檔包含的長名詞短語及長動(dòng)詞短語。

可選地,上述多維度指標(biāo)計(jì)算單元62,具體包括:

支持度獲取子單元,用于獲取上述目標(biāo)文檔的長名詞短語支持度、長動(dòng)詞短語支持度及上述目標(biāo)文檔歸入上述文檔集合中的時(shí)間;

技術(shù)原創(chuàng)度指標(biāo)計(jì)算子單元,用于根據(jù)預(yù)設(shè)的技術(shù)原創(chuàng)度評(píng)分公式,利用上述支持度獲取子單元獲取到的上述目標(biāo)文檔的長名詞短語支持度、長動(dòng)詞短語支持度及上述目標(biāo)文檔歸入文檔集合中的時(shí)間,計(jì)算得到上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo)。

可選地,上述多維度指標(biāo)計(jì)算單元62,具體包括:

次數(shù)統(tǒng)計(jì)子單元,用于統(tǒng)計(jì)出剔除重復(fù)之后上述目標(biāo)文檔的字?jǐn)?shù)、詞數(shù)及上述目標(biāo)文檔中各個(gè)類別的抽取信息出現(xiàn)的次數(shù);

次數(shù)加權(quán)求和計(jì)算子單元,用于利用誘導(dǎo)有序加權(quán)平均算子,對(duì)上述次數(shù)統(tǒng)計(jì)子單元統(tǒng)計(jì)出的上述目標(biāo)文檔的字?jǐn)?shù)、詞數(shù)及上述目標(biāo)文檔中各個(gè)類別的抽取信息出現(xiàn)的次數(shù)進(jìn)行加權(quán)求和計(jì)算;

寫作質(zhì)量特征度指標(biāo)確定子單元,用于將上述次數(shù)加權(quán)求和計(jì)算子單元獲得的計(jì)算結(jié)果作為上述目標(biāo)文檔的寫作質(zhì)量特征度指標(biāo)。

可選地,上述多維度指標(biāo)計(jì)算單元62,具體包括:

相似度計(jì)算子單元,用于將上述文檔集合中除上述目標(biāo)文檔之外的其它各個(gè)文檔的抽取信息與上述目標(biāo)文檔的抽取信息進(jìn)行相似度計(jì)算;

相似度累加子單元,用于將上述其它各個(gè)文檔的抽取信息與上述目標(biāo)文檔的抽取信息進(jìn)行相似度計(jì)算得到的值作累加;

技術(shù)分布度指標(biāo)確定子單元,用于將上述累加的結(jié)果作為上述目標(biāo)文檔的技術(shù)分布度指標(biāo)。

可選地,上述綜合重要度評(píng)分計(jì)算單元63,具體包括:

歸一化處理子單元,用于分別對(duì)上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)進(jìn)行歸一化處理,得到上述目標(biāo)文檔的歸一化技術(shù)原創(chuàng)度指標(biāo),歸一化寫作質(zhì)量特征度指標(biāo)及歸一化技術(shù)分布度指標(biāo);

指標(biāo)加權(quán)求和計(jì)算子單元,用于利用誘導(dǎo)有序加權(quán)平均算子,對(duì)上述歸一化處理子單元得到的上述目標(biāo)文檔的歸一化技術(shù)原創(chuàng)度指標(biāo),歸一化寫作質(zhì)量特征度指標(biāo)及歸一化技術(shù)分布度指標(biāo)進(jìn)行加權(quán)求和計(jì)算;

百分制轉(zhuǎn)換子單元,用于將上述指標(biāo)加權(quán)求和計(jì)算子單元的計(jì)算結(jié)果轉(zhuǎn)換為百分制,得到上述目標(biāo)文檔的綜合重要度評(píng)分。

應(yīng)理解,本發(fā)明實(shí)施例中的文檔評(píng)估裝置可以用于實(shí)現(xiàn)上述方法實(shí)施例中的全部技術(shù)方案,其各個(gè)單元的功能可以根據(jù)上述方法實(shí)施例中的方法具體實(shí)現(xiàn),其具體實(shí)現(xiàn)過程可參照上述實(shí)施例中的相關(guān)描述,此處不再贅述。

由上可見,通過本發(fā)明實(shí)施例,文檔評(píng)估裝置在在獲得了文檔的抽取信息后,不僅從技術(shù)原創(chuàng)性指標(biāo)、寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)三個(gè)方面對(duì)文檔進(jìn)行了全面且準(zhǔn)確的綜合評(píng)估,獲得了文檔綜合重要度評(píng)分,保證了文檔評(píng)估的可靠性及準(zhǔn)確性,直觀地告知了用戶文檔的評(píng)估結(jié)果;并且,還基于抽取信息提取出了全文摘要,使得用戶通過瀏覽基于抽取信息的全文摘要就能夠掌握文檔的大致信息;進(jìn)一步地,還為文檔集合提供了基于抽取信息的文檔聚類方法,使得用戶能夠獲得抽取級(jí)別的信息,并幫助用戶獲得充分展示了文檔集合的知識(shí)視圖。

實(shí)施例三

本發(fā)明實(shí)施例提供了一種智能終端,下面對(duì)本發(fā)明實(shí)施例中的智能終端進(jìn)行描述,請(qǐng)參閱圖7,本發(fā)明實(shí)施例中的智能終端700包括:一個(gè)或一個(gè)以上計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的存儲(chǔ)器701、輸入單元702、顯示單元703、一個(gè)或者一個(gè)以上處理核心的處理器704、以及電源705等部件。本領(lǐng)域技術(shù)人員可以理解,圖7中示出的智能終端結(jié)構(gòu)并不構(gòu)成對(duì)智能終端的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:

存儲(chǔ)器701可用于存儲(chǔ)軟件程序以及模塊,處理器704通過運(yùn)行存儲(chǔ)在存儲(chǔ)器701的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理。存儲(chǔ)器701可主要包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)智能終端700的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲(chǔ)器701可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其它易失性固態(tài)存儲(chǔ)器件。相應(yīng)地,存儲(chǔ)器701還可以包括存儲(chǔ)器控制器,以提供處理器704和輸入單元702對(duì)存儲(chǔ)器701的訪問。

輸入單元702可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與用戶設(shè)置以及功能控制有關(guān)的鍵盤、鼠標(biāo)、操作桿、光學(xué)或者軌跡球信號(hào)輸入。具體地,輸入單元702包括觸敏表面7021以及其它輸入設(shè)備7022。觸敏表面7021,也稱為觸摸顯示屏或者觸控板,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面7021上或在觸敏表面7021附近的操作),并根據(jù)預(yù)先設(shè)定的程式驅(qū)動(dòng)相應(yīng)的連接裝置??蛇x的,觸敏表面7021可包括觸摸檢測(cè)裝置和觸摸控制器兩個(gè)部分。其中,觸摸檢測(cè)裝置檢測(cè)用戶的觸摸方位,并檢測(cè)觸摸操作帶來的信號(hào),將信號(hào)傳送給觸摸控制器;觸摸控制器從觸摸檢測(cè)裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點(diǎn)坐標(biāo),再送給處理器704,并能接收處理器704發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實(shí)現(xiàn)觸敏表面7021。除了觸敏表面7021,輸入單元702還可以包括其它輸入設(shè)備7022。具體地,其它輸入設(shè)備7022可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標(biāo)、操作桿等中的一種或多種。

顯示單元703可用于顯示由用戶輸入的信息或提供給用戶的信息以及智能終端700的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標(biāo)、視頻和其任意組合來構(gòu)成。顯示單元703可包括顯示面板7031,可選的,可以采用液晶顯示器(lcd,liquidcrystaldisplay)、有機(jī)發(fā)光二極管(oled,organiclight-emittingdiode)等形式來配置顯示面板7031。進(jìn)一步的,觸敏表面7021可覆蓋顯示面板7031,當(dāng)觸敏表面7021檢測(cè)到在其上或附近的觸摸操作后,傳送給處理器704以確定觸摸事件的類型,隨后處理器704根據(jù)觸摸事件的類型在顯示面板7031上提供相應(yīng)的視覺輸出。雖然在圖7中,觸敏表面7021與顯示面板7031是作為兩個(gè)獨(dú)立的部件來實(shí)現(xiàn)輸入和輸入功能,但是在某些實(shí)施例中,可以將觸敏表面7021與顯示面板7031集成而實(shí)現(xiàn)輸入和輸出功能。

處理器704是智能終端700的控制中心,利用各種接口和線路連接整個(gè)手機(jī)的各個(gè)部分,通過運(yùn)行或執(zhí)行存儲(chǔ)在存儲(chǔ)器701內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲(chǔ)在存儲(chǔ)器701內(nèi)的數(shù)據(jù),執(zhí)行智能終端700的各種功能和處理數(shù)據(jù),從而對(duì)智能終端700進(jìn)行整體監(jiān)控??蛇x的,處理器704可包括一個(gè)或多個(gè)處理核心;優(yōu)選的,處理器704可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信。可以理解的是,上述調(diào)制解調(diào)處理器也可以不集成到處理器704中。

智能終端700還包括給各個(gè)部件供電的電源705(比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器704邏輯相連,從而通過電源管理系統(tǒng)實(shí)現(xiàn)管理充電、放電、以及功耗管理等功能。電源705還可以包括一個(gè)或一個(gè)以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測(cè)電路、電源轉(zhuǎn)換器或者逆變器、電源狀態(tài)指示器等任意組件。

盡管未示出,智能終端700還可以包括rf(radiofrequency,射頻)電路、傳感器、音頻電路、無線保真(wifi,wirelessfidelity)模塊、攝像頭、藍(lán)牙模塊等,在此不再贅述。具體在本實(shí)施例中,智能終端700還包括一個(gè)或者一個(gè)以上程序存儲(chǔ)于存儲(chǔ)器701中,且經(jīng)配置以由一個(gè)或者一個(gè)以上處理器704執(zhí)行述一個(gè)或者一個(gè)以上程序,其中包含用于執(zhí)行以下操作的指令:

獲取目標(biāo)文檔的抽取信息,上述抽取信息包括:命名實(shí)體、長名詞短語及長動(dòng)詞短語;

基于上述抽取信息,計(jì)算上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo),其中,上述技術(shù)原創(chuàng)性指標(biāo)用來表達(dá)所述目標(biāo)文檔在所述目標(biāo)文檔所在的文檔集合中的創(chuàng)新程度,所述寫作質(zhì)量特征度指標(biāo)用來表達(dá)上述目標(biāo)文檔在上述文檔集合中的復(fù)雜程度,上述技術(shù)分布度指標(biāo)用來表達(dá)上述目標(biāo)文檔的抽取信息在上述文檔集合的其它文檔中的分布程度;

對(duì)上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)進(jìn)行加權(quán)求和,得到上述目標(biāo)文檔的綜合重要度評(píng)分;

輸出上述目標(biāo)文檔的綜合重要度評(píng)分。

假設(shè)上述為第一種可能的實(shí)施方式,則在第一種可能的實(shí)施方式作為基礎(chǔ)而提供的第二種可能的實(shí)施方式中,在上述獲取目標(biāo)文檔的抽取信息之后,還包括:

根據(jù)各個(gè)目標(biāo)摘要句在上述目標(biāo)文檔中的先后順序,依次提取各個(gè)目標(biāo)摘要句及各個(gè)目標(biāo)摘要句的上下文,生成上述目標(biāo)文檔的全文摘要,其中,上述目標(biāo)摘要句為包含上述抽取信息的子句;

輸出上述目標(biāo)文檔的全文摘要。

在上述第一種可能的實(shí)施方式或者第二種可能的實(shí)施方式作為基礎(chǔ)而提供的第三種可能的實(shí)施方式中,上述獲取目標(biāo)文檔的抽取信息,包括:

基于漢語詞法分析系統(tǒng)對(duì)上述目標(biāo)文檔進(jìn)行分詞處理、詞性標(biāo)注處理及命名實(shí)體識(shí)別處理,獲得上述目標(biāo)文檔包含的命名實(shí)體;

基于中文句法語義分析系統(tǒng)對(duì)上述目標(biāo)文檔進(jìn)行成分句法分析處理,獲得上述目標(biāo)文檔包含的長名詞短語及長動(dòng)詞短語。

在上述第一種可能的實(shí)施方式或者第二種可能的實(shí)施方式作為基礎(chǔ)而提供的第四種可能的實(shí)施方式中,上述基于上述抽取信息,計(jì)算上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo),包括:

獲取上述目標(biāo)文檔的長名詞短語支持度、長動(dòng)詞短語支持度及上述目標(biāo)文檔歸入上述文檔集合中的時(shí)間;

根據(jù)預(yù)設(shè)的技術(shù)原創(chuàng)度評(píng)分公式,利用上述目標(biāo)文檔的長名詞短語支持度、長動(dòng)詞短語支持度及上述目標(biāo)文檔歸入文檔集合中的時(shí)間,計(jì)算得到上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo)。

在上述第一種可能的實(shí)施方式或者第二種可能的實(shí)施方式作為基礎(chǔ)而提供的第五種可能的實(shí)施方式中,上述基于上述抽取信息,計(jì)算上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo),包括:

統(tǒng)計(jì)出剔除重復(fù)之后上述目標(biāo)文檔的字?jǐn)?shù)、詞數(shù)及上述目標(biāo)文檔中各個(gè)類別的抽取信息出現(xiàn)的次數(shù);

利用誘導(dǎo)有序加權(quán)平均算子,對(duì)統(tǒng)計(jì)出的上述目標(biāo)文檔的字?jǐn)?shù)、詞數(shù)及上述目標(biāo)文檔中各個(gè)類別的抽取信息出現(xiàn)的次數(shù)進(jìn)行加權(quán)求和計(jì)算;

將上述加權(quán)求和計(jì)算的結(jié)果作為上述目標(biāo)文檔的寫作質(zhì)量特征度指標(biāo)。

在上述第一種可能的實(shí)施方式或者第二種可能的實(shí)施方式作為基礎(chǔ)而提供的第六種可能的實(shí)施方式中,上述基于上述抽取信息,計(jì)算上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo),包括:

將上述文檔集合中除上述目標(biāo)文檔之外的其它各個(gè)文檔的抽取信息與上述目標(biāo)文檔的抽取信息進(jìn)行相似度計(jì)算;

將上述其它各個(gè)文檔的抽取信息與上述目標(biāo)文檔的抽取信息進(jìn)行相似度計(jì)算得到的值作累加;

將上述累加的結(jié)果作為上述目標(biāo)文檔的技術(shù)分布度指標(biāo)。

在上述第一種可能的實(shí)施方式或者第二種可能的實(shí)施方式作為基礎(chǔ)而提供的第七種可能的實(shí)施方式中,上述基于上述抽取信息,計(jì)算上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo),包括:

分別對(duì)上述目標(biāo)文檔的技術(shù)原創(chuàng)度指標(biāo),寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)進(jìn)行歸一化處理,得到上述目標(biāo)文檔的歸一化技術(shù)原創(chuàng)度指標(biāo),歸一化寫作質(zhì)量特征度指標(biāo)及歸一化技術(shù)分布度指標(biāo);

利用誘導(dǎo)有序加權(quán)平均算子,對(duì)上述目標(biāo)文檔的歸一化技術(shù)原創(chuàng)度指標(biāo),歸一化寫作質(zhì)量特征度指標(biāo)及歸一化技術(shù)分布度指標(biāo)進(jìn)行加權(quán)求和計(jì)算;

將上述加權(quán)求和計(jì)算的結(jié)果轉(zhuǎn)換為百分制,得到上述目標(biāo)文檔的綜合重要度評(píng)分。

需要說明的是,上述智能終端具體可以是智能手機(jī)、平板電腦、pc、pda、筆記本或其它智能終端,此處不作限定。

上述智能終端可以用于實(shí)現(xiàn)上述方法實(shí)施例中的全部技術(shù)方案,其各個(gè)功能模塊的功能可以根據(jù)上述方法實(shí)施例中的方法具體實(shí)現(xiàn),其具體實(shí)現(xiàn)過程可參照上述實(shí)施例中的相關(guān)描述,此處不再贅述。

由上可見,本發(fā)明實(shí)施例的智能終端在獲得了文檔的抽取信息后,不僅從技術(shù)原創(chuàng)性指標(biāo)、寫作質(zhì)量特征度指標(biāo)及技術(shù)分布度指標(biāo)三個(gè)方面對(duì)文檔進(jìn)行了全面且準(zhǔn)確的綜合評(píng)估,獲得了文檔綜合重要度評(píng)分,保證了文檔評(píng)估的可靠性及準(zhǔn)確性,直觀地告知了用戶文檔的評(píng)估結(jié)果;并且,還基于抽取信息提取出了全文摘要,使得用戶通過瀏覽基于抽取信息的全文摘要就能夠掌握文檔的大致信息;進(jìn)一步地,還為文檔集合提供了基于抽取信息的文檔聚類方法,使得用戶能夠獲得抽取級(jí)別的信息,并幫助用戶獲得充分展示了文檔集合的知識(shí)視圖。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡(jiǎn)潔,僅以上述各功能單元、模塊的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能單元、模塊完成,即將上述裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能單元或模塊,以完成以上描述的全部或者部分功能。實(shí)施例中的各功能單元、模塊可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中,上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。另外,各功能單元、模塊的具體名稱也只是為了便于相互區(qū)分,并不用于限制本申請(qǐng)的保護(hù)范圍。上述系統(tǒng)中單元、模塊的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。

在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述或記載的部分,可以參見其它實(shí)施例的相關(guān)描述。

本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。

在本發(fā)明所提供的實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,例如,所述模塊或單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是通過一些接口,裝置或單元的間接耦合或通訊連接,可以是電性,機(jī)械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。

另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。

所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明實(shí)施例的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明實(shí)施例各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

以上所述實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1