以數(shù)據(jù)降維法及非線性算則建構(gòu)中文文本可讀性模型的系統(tǒng)及其方法
【專利摘要】一種以數(shù)據(jù)降維法及非線性算則建構(gòu)中文文本可讀性模型的系統(tǒng)及其方法。其中,此中文文本可讀性模型包含:對中文文本作斷詞及詞性標(biāo)記處理的斷詞單元、根據(jù)斷詞及詞性標(biāo)記作文本可讀性指標(biāo)分析的可讀性指標(biāo)分析單元、及利用數(shù)據(jù)降維法及非線性算則所建構(gòu)中文文本可讀性模型的智能型算則單元。本發(fā)明可利用較少文本預(yù)測出較準(zhǔn)確的中文文本的可讀程度,以提供更合適的中文文本給不同閱讀能力的讀者閱讀。
【專利說明】以數(shù)據(jù)降維法及非線性算則建構(gòu)中文文本可讀性模型的系統(tǒng)及其方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明是關(guān)于中文文本可讀性分析的【技術(shù)領(lǐng)域】,采用數(shù)據(jù)降維法以及非線性算則來建構(gòu)中文文本可讀性模型的系統(tǒng)及其方法。
【背景技術(shù)】
[0002]近年隨著國際情勢的發(fā)展,學(xué)習(xí)中文的人數(shù)不斷增加,加上網(wǎng)絡(luò)信息的快速成長,學(xué)習(xí)范圍并不局限于學(xué)校老師,學(xué)習(xí)者也可以通過網(wǎng)絡(luò)數(shù)據(jù)、書本、文章等自我學(xué)習(xí)。因此,如何為學(xué)習(xí)者選擇適合的華語教材是教育與研究者關(guān)心的重要議題。
[0003]由于成功的理解是讀者與文本良好互動的結(jié)果,讀者閱讀高可讀性的文章時(shí),會產(chǎn)生較好的理解,以及較佳的學(xué)習(xí)與學(xué)后保留效果。適合讀者閱讀的材料,也有助于提升閱讀動機(jī)與閱讀成就。而若以教育角度來看,影響篇章理解的因素里,文本因素相對于讀者因素容易著力,也更具備教育意義。若能提供適合讀者的高可讀性文本,便可大大提高讀者對文本的理解。
[0004]然而,網(wǎng)絡(luò)和電子書的出現(xiàn),文本的取得眾多,如何選擇適合的文本更形重要。進(jìn)行中文文本可讀性的檢索時(shí),若無科學(xué)化的方法,不易找到適合閱讀的材料。此外,針對中文文本建構(gòu)較佳的中文文本可讀性模型,也更有效的評估文本的可讀性。在此,可讀性定義為容易閱讀,能增進(jìn)讀者理解的文本。
[0005]于1920初,西方已由分析文章在詞匯與句法方面的特性建立多種可讀性公式進(jìn)行文本可讀性評估,不過西文的可讀性研究雖然蓬勃發(fā)展,卻仍有指標(biāo)過于表淺,數(shù)量少、以及公式的模型過于簡單的問題。相較于西方可讀性研究的蓬勃發(fā)展,中文的研究較少,且年代久遠(yuǎn)。楊孝溁(1971)曾探討影響中文可讀性的重要因子(如單字以及句子等),也曾建立可讀性公式,但缺乏效度的研究;而荊溪昱(1992)則直接參照拼音文字(如英文字)常用的可讀性指標(biāo)來建立可讀性公式,且建立常用詞表時(shí),僅以教科書數(shù)據(jù)庫作依據(jù)并未參考其他外部語料庫,其作法并不客觀。
[0006]有鑒于拼音文字與中文文字系統(tǒng)的根本差異,有系統(tǒng)地發(fā)展適用中文的可讀指標(biāo)方能真正建立具有效度的中文可讀性公式。然而,中文文本可讀性的研究者多采用:句長、筆劃數(shù)、常用字(難字比率)等指標(biāo)建立公式。其中,筆劃數(shù)看似為中文系統(tǒng)特有,但其實(shí)即是字符復(fù)雜度的表現(xiàn),相當(dāng)于文字的詞長特征。因此,傳統(tǒng)中文文本可讀性研究,在指標(biāo)的選取上與拼音文字系統(tǒng)常見的指標(biāo)并無差異,此外,研究者選用的也多為少數(shù)、表淺的語言特征,因而無法有效的評估中文文本的可讀性。
[0007]傳統(tǒng)的可讀性模型公式(如,F(xiàn)lesch-Kincaid)已經(jīng)廣泛地應(yīng)用在教育領(lǐng)域與各種領(lǐng)域,例如,圖書館學(xué)術(shù)文章分類、電子書以及商業(yè)網(wǎng)站的網(wǎng)頁內(nèi)容。然而,卻存在不少問題。
[0008]整體而言,現(xiàn)有的可讀性公式存在三個(gè)問題:
[0009]第一,公式建立者納入的指標(biāo)較為少數(shù),未考慮文本多層次特征的特性;[0010]其次,雖然有些研究者試圖將多種指標(biāo)納入,但仍然無法克服多種指標(biāo)常彼此相關(guān)的問題;
[0011]第三,現(xiàn)行中文文本可讀性分類模型在技術(shù)上多數(shù)僅采用簡單且易了解的統(tǒng)計(jì)方法,但預(yù)測正確率低,因此如何改善目前中文可讀性分類模型的精確性是一個(gè)重要的議題。
[0012]一般而言,建立文本可讀性模型時(shí)往往需要大量的數(shù)據(jù)才能配適出穩(wěn)定且有效的預(yù)測模型,然而即便是西方的可讀性研究亦有模型不穩(wěn)定,指標(biāo)不周延等相關(guān)問題,尚待研究者進(jìn)一步的研究并解決。
【發(fā)明內(nèi)容】
[0013]本發(fā)明的目的在于提供一種以數(shù)據(jù)降維法及非線性算則建構(gòu)中文文本可讀性模型的系統(tǒng)。
[0014]本發(fā)明的又一目的在于提供一種以數(shù)據(jù)降維法及非線性算則建構(gòu)中文文本可讀性模型的方法。
[0015]為實(shí)現(xiàn)上述目的,本發(fā)明提供的以數(shù)據(jù)降維法及非線性算則建構(gòu)一中文文本可讀性模型的方法,該方法包含下列步驟:
[0016]A)收集適合某一閱讀能力的至少一中文文本,并與一語料庫的中文字詞句特性進(jìn)行比對,以產(chǎn)生每一中文文本的復(fù)數(shù)個(gè)斷詞,且對應(yīng)產(chǎn)生該復(fù)數(shù)個(gè)斷詞的詞性標(biāo)記,其中,每一中文文本皆具有至少一可讀性指標(biāo);
[0017]B)對每一中文文本的該復(fù)數(shù)個(gè)斷詞、及該復(fù)數(shù)個(gè)斷詞的詞性標(biāo)記進(jìn)行分析,以通過計(jì)算產(chǎn)生該至少一可讀性指標(biāo)的指標(biāo)數(shù)值;
[0018]C)將該至少一可讀性指標(biāo),通過該數(shù)據(jù)降維法找出至少一閱讀理解構(gòu)面,而該至少一閱讀理解構(gòu)面系代表該至少一可讀性指標(biāo)的線性組合;以及
[0019]D)將該至少一閱讀理解構(gòu)面通過該非線性算則建構(gòu)該中文文本可讀性模型,以作為判斷一待測中文文本是否適合該某一閱讀能力閱讀的依據(jù)。
[0020]所述的方法,其中,于該步驟C)中,該資料降維法是用來代表降低該至少一可讀性指標(biāo)彼此之間的共線性的方法。
[0021]所述的方法,其中,于該步驟D)中,該非線性算則是用來代表以非線性方式來組合該至少一閱讀理解構(gòu)面的方法。
[0022]所述的方法,其中,于該步驟A)中,該語料庫包含中文詞庫、漢語平衡語料庫及中文句結(jié)構(gòu)樹數(shù)據(jù)庫,以作為中文字詞句特性的比對依據(jù)。
[0023]所述的方法,其中,于該步驟A)中,該至少一可讀性指標(biāo)包含詞匯指標(biāo)、語意指標(biāo)、句法指標(biāo)以及文章凝聚指標(biāo)的指標(biāo)類別,以據(jù)此找出該閱讀理解構(gòu)面。
[0024]所述的方法,其中,于該步驟C)中,該至少一閱讀理解構(gòu)面表示通過該數(shù)據(jù)降維法,而歸納同一指標(biāo)類別的該至少一可讀性指標(biāo),且每個(gè)閱讀理解構(gòu)面被表示成同一指標(biāo)類別的該至少一可讀性指標(biāo)的線性組合。
[0025]本發(fā)明提供的以數(shù)據(jù)降維法以及非線性算則建構(gòu)一中文文本可讀性模型的系統(tǒng),包含:
[0026]一斷詞單元,接收適合某一閱讀能力的至少一中文文本,并與一語料庫的中文字詞句特性進(jìn)行比對,以產(chǎn)生每一中文文本的復(fù)數(shù)個(gè)斷詞,且對應(yīng)產(chǎn)生該復(fù)數(shù)個(gè)斷詞的詞性標(biāo)記,其中,每一中文文本皆具有至少一可讀性指標(biāo);
[0027]—可讀性指標(biāo)分析單元,接收該復(fù)數(shù)個(gè)斷詞及該復(fù)數(shù)個(gè)斷詞對應(yīng)的詞性標(biāo)記,以通過計(jì)算產(chǎn)生該至少一可讀性指標(biāo)的指標(biāo)數(shù)值;
[0028]一智能型算則單元,接收該至少一可讀性指標(biāo),以通過該數(shù)據(jù)降維法找出至少一閱讀理解構(gòu)面,并根據(jù)該至少一閱讀理解構(gòu)面,使用該非線性算則建構(gòu)該中文文本可讀性模型,以作為判斷一待測中文文本是否適合該某一閱讀能力閱讀的依據(jù),其中,該至少一閱讀理解構(gòu)面代表該至少一可讀性指標(biāo)的線性組合。
[0029]所述的系統(tǒng),其中,該數(shù)據(jù)降維法是用來代表降低該至少一可讀性指標(biāo)彼此之間的共線性的方法。
[0030]所述的系統(tǒng),其中,該非線性算則是用來代表以非線性方式來組合該至少一閱讀理解構(gòu)面的方法。
[0031]所述的系統(tǒng),其中,該語料庫包含中文詞庫、漢語平衡語料庫及中文句結(jié)構(gòu)樹數(shù)據(jù)庫,以作為中文字詞句特性的比對依據(jù)。
[0032]所述的系統(tǒng),其中,該至少一可讀性指標(biāo)包含詞匯指標(biāo)、語意指標(biāo)、句法指標(biāo)以及文章凝聚指標(biāo)的指標(biāo)類別,以據(jù)此找出該閱讀理解構(gòu)面。
[0033]所述的系統(tǒng),其中,該至少一閱讀理解構(gòu)面是表示通過該數(shù)據(jù)降維法,而歸納同一指標(biāo)類別的該至少一可讀性指標(biāo),且每個(gè)閱讀理解構(gòu)面被表示成同一指標(biāo)類別的該至少一可讀性指標(biāo)的線性組合。
[0034]本發(fā)明提出了 一可整合多個(gè)可讀性指標(biāo)的數(shù)據(jù)降維法以及非線性算則建構(gòu)中文文本可讀性模型,以通過中文文本的可讀性指標(biāo),來建立一個(gè)高精確性且可更有效分析的中文文本可讀性模型。
【專利附圖】
【附圖說明】
[0035]圖1是本發(fā)明一較佳實(shí)施例的以數(shù)據(jù)降維法及非線性算則來建構(gòu)中文文本可讀性模型的系統(tǒng)架構(gòu)圖。
[0036]圖2是本發(fā)明一較佳實(shí)施例的斷詞單元示意圖。
[0037]圖3是本發(fā)明一較佳實(shí)施例的以數(shù)據(jù)降維法及非線性算則來建構(gòu)中文文本可讀性模型的方法流程圖。
[0038]附圖中主要組件符號說明:
[0039]10中文文本;100中文文本可讀性模型;110斷詞單元;120語料庫;130可讀性指標(biāo)分析單元;140智能型算則單元;112斷詞功能函數(shù);114詞性標(biāo)記功能函數(shù);116斷詞信息功能函數(shù);118詞性標(biāo)記信息功能函數(shù);S300、S310、S320、S330、S340步驟。
【具體實(shí)施方式】
[0040]鑒于公知技術(shù)中,傳統(tǒng)可讀性預(yù)測模型不適合分析中文文本是否具有可讀性、中文文本的分析數(shù)量較少的情形下預(yù)測效果不佳、以及影響可讀性模型因素因彼此相關(guān)互相影響而有共線性的問題。本發(fā)明通過擷取多個(gè)中文文本的可讀性指標(biāo)(如,字匯、語意、句法、文章結(jié)構(gòu)等),并利用數(shù)據(jù)降維法、以及非線性算則來建構(gòu)一個(gè)可利用少量文本來產(chǎn)生高預(yù)測精確性、高效率的中文文本可讀性模型及其方法。[0041 ] 為此,本發(fā)明提供了 一種以數(shù)據(jù)降維法及非線性算則建構(gòu)中文文本可讀性模型的方法,包含下列步驟:
[0042](A)收集適合某個(gè)閱讀能力的中文文本,并與語料庫的中文字詞句特性進(jìn)行比對,以產(chǎn)生中文文本的復(fù)數(shù)個(gè)斷詞,且對應(yīng)產(chǎn)生復(fù)數(shù)個(gè)斷詞的詞性標(biāo)記。其中,每篇中文文本皆具有至少一個(gè)可讀性指標(biāo);
[0043](B)對每篇中文文本的復(fù)數(shù)個(gè)斷詞、及復(fù)數(shù)個(gè)斷詞的詞性標(biāo)記進(jìn)行分析,以通過計(jì)算產(chǎn)生上述可讀性指標(biāo)的指標(biāo)數(shù)值;
[0044](C)將上述可讀性指標(biāo),通過數(shù)據(jù)降維法找出重要的閱讀理解構(gòu)面,而上述閱讀理解構(gòu)面可以被表示成可讀性指標(biāo)之間的關(guān)系,進(jìn)而降低可讀性指標(biāo)之間的共線性問題;以及
[0045](D)將上述重要的閱讀理解構(gòu)面通過非線性算則來建構(gòu)中文文本可讀性模型,以作為判斷中文文本是否適合某個(gè)閱讀能力閱讀的依據(jù)。
[0046]此外,本發(fā)明于步驟(C)中,數(shù)據(jù)降維法可用來降低上述可讀性指標(biāo)彼此之間高度共線性問題,仍可保留為重要閱讀理解構(gòu)面。
[0047]再者,本發(fā)明于步驟(D)中,非線性算則可通過廣泛的非線性函數(shù)來對重要的閱讀理解構(gòu)面作轉(zhuǎn)換,以預(yù)測中文文本可讀性模型。
[0048]再者,本發(fā)明于步驟(A)中,語料庫可包含中央研究院的中文詞庫、漢語平衡語料庫、及中文句結(jié)構(gòu)樹數(shù)據(jù)庫,以作為中文字詞句特性的比對依據(jù)。而上述可讀性指標(biāo)可包含詞匯指標(biāo)、語意指標(biāo)、句法指標(biāo)、以及文章凝聚指標(biāo)的指標(biāo)類別,以據(jù)此找出閱讀理解構(gòu)面。
[0049]另外,本發(fā)明于步驟(C)中,上述閱讀理解構(gòu)面可表示通過數(shù)據(jù)降維法,而歸納同一指標(biāo)類別的上述可讀性指標(biāo),且每個(gè)閱讀理解構(gòu)面均可以被表示成同一指標(biāo)類別的上述可讀性指標(biāo)的線性組合。
[0050]本發(fā)明還提供了一種使用數(shù)據(jù)降維法以及非線性算則來建構(gòu)中文文本可讀性模型的系統(tǒng),包含斷詞單元、可讀性指標(biāo)分析單元、及智能型算則單元。其中,斷詞單元接收適合某個(gè)閱讀能力的中文文本,并與語料庫的中文字詞句特性進(jìn)行比對,以產(chǎn)生中文文本的復(fù)數(shù)個(gè)斷詞,且對應(yīng)產(chǎn)生復(fù)數(shù)個(gè)斷詞的詞性標(biāo)記,其中,每篇中文文本皆有其可讀性指標(biāo)??勺x性指標(biāo)分析單元則接收復(fù)數(shù)個(gè)斷詞及復(fù)數(shù)個(gè)斷詞對應(yīng)的詞性標(biāo)記,以通過計(jì)算產(chǎn)生可讀性指標(biāo)的數(shù)值。而本發(fā)明所提的智能型算則單元則接收上述可讀性指標(biāo),以通過數(shù)據(jù)降維法找出閱讀理解構(gòu)面,并根據(jù)上述閱讀理解構(gòu)面,通過非線性算則建構(gòu)中文文本可讀性模型,以作為判斷一待測中文文本是否適合某個(gè)閱讀能力閱讀的依據(jù)。
[0051]以上的概述與接下來的詳細(xì)說明皆為示范性質(zhì),是為了進(jìn)一步說明本發(fā)明的專利范圍。而有關(guān)本發(fā)明的其他目的與優(yōu)點(diǎn),將在后續(xù)的說明與圖示加以闡述。
[0052]首先,請參考圖1,是本發(fā)明一較佳實(shí)施例的以數(shù)據(jù)降維法及非線性算則建構(gòu)中文文本可讀性模型100的系統(tǒng)架構(gòu)圖。如圖1所示,中文文本可讀性模型100包含一斷詞單元110、一可讀性指標(biāo)分析單元130、及一智能型算則單元140。其中,斷詞單元110接收適合某一年齡層閱讀能力閱讀的多個(gè)中文文本10,并與一語料庫120的中文字詞句特性進(jìn)行比對,以產(chǎn)生中文文本10的復(fù)數(shù)個(gè)斷詞,且對應(yīng)產(chǎn)生復(fù)數(shù)個(gè)斷詞的詞性標(biāo)記,其中,每一中文文本10皆具有可讀性指標(biāo)(圖未示)。
[0053]在本實(shí)施例中,中文文本10可以來自書本、網(wǎng)絡(luò)等電子檔案文件,且建構(gòu)中文文本可讀性模型100亦不設(shè)限制形式,如計(jì)算機(jī)、服務(wù)器、云端服務(wù)器皆可。具體來說,斷詞單元110提供中文文本10的斷詞(word segmentation)處理,以將每一中文文本10的中文內(nèi)容進(jìn)行斷詞并給予標(biāo)記,以供后續(xù)對中文文本10的分析。換言之,斷詞對于文本分析是十分重要的,若斷詞不正確時(shí),將導(dǎo)致后續(xù)詞性標(biāo)記錯(cuò)誤,使得最后語意解讀偏離原意。
[0054]此外,語料庫120可由中央研究院的中文詞庫、漢語平衡語料庫、及中文句結(jié)構(gòu)樹數(shù)據(jù)庫來來作為中文字詞句特性的比對依據(jù)。
[0055]請同時(shí)參考圖2,是本發(fā)明一較佳實(shí)施例的斷詞單元示意圖。斷詞單元110包含一斷詞功能函數(shù)112、一詞性標(biāo)記功能函數(shù)114、一斷詞信息功能函數(shù)116、一詞性標(biāo)記信息功能函數(shù)118,以對中文文本10進(jìn)行斷詞、詞性標(biāo)記、產(chǎn)生斷詞信息及詞性標(biāo)記信息等功能。其中,斷詞功能函數(shù)112接收多個(gè)中文文本10,以根據(jù)語料庫120比對而對每一中文文本10對應(yīng)產(chǎn)生復(fù)數(shù)個(gè)斷詞,而復(fù)數(shù)個(gè)斷詞再通過詞性標(biāo)記功能函數(shù)114、斷詞信息功能函數(shù)116、或詞性標(biāo)記信息功能函數(shù)118等處理,以完成斷詞及詞性標(biāo)記等程序。
[0056]可讀性指標(biāo)分析單元130接收每一中文文本10的復(fù)數(shù)個(gè)斷詞及復(fù)數(shù)個(gè)斷詞對應(yīng)的詞性標(biāo)記,以通過計(jì)算產(chǎn)生至少一可讀性指標(biāo)的指標(biāo)數(shù)值。其中,可讀性指標(biāo)包含詞匯類特征、語意類特征、句法類特征、文章凝聚類特征等四大類別特征。
[0057]在本實(shí)施例中,可讀性指標(biāo)可分為詞匯類、語意類、語法類、文章凝聚類:
[0058](I)詞匯類:如詞匯豐富性、詞匯頻率、詞匯長度等詞匯指標(biāo)類別;
[0059](2)語意類:如語意與潛在語意等語意指標(biāo)類別;
[0060](3)句法類:如句平均詞數(shù)、單句數(shù)比率等句法指標(biāo)類別;(4)篇章凝聚類:如指稱詞、連接詞等文章凝聚指標(biāo)類別。
[0061]上述的類別均為篇章理解的重要成分,以提供更精確與周延的可讀性指標(biāo)。本實(shí)施例僅為一較佳實(shí)施例,但非限制其他可讀性指標(biāo)的加入或調(diào)整。
[0062]而智能型算則單元140則具有數(shù)據(jù)降維法,以據(jù)此找出代表上述可讀性指標(biāo)之間的關(guān)系的閱讀理解構(gòu)面。更進(jìn)一步來說,上述閱讀理解構(gòu)面是表示通過數(shù)據(jù)降維法,而歸納同一指標(biāo)類別(如,詞匯類、語意類、句法類、及文章凝聚類)的上述可讀性指標(biāo)。而此數(shù)據(jù)降維法可解決傳統(tǒng)的可讀性模型公式在建立模型時(shí),上述可讀性指標(biāo)之間共線性的問題,意即解決多個(gè)可讀性指標(biāo)彼此之間共線性太高的問題。因此,通過此數(shù)據(jù)降維法可降低多個(gè)可讀性指標(biāo)之間的共線性,遂可得到如下好處:
[0063](I)代表性,保留可讀性指標(biāo)大部分的解釋量;
[0064](2)獨(dú)立性,可讀性指標(biāo)之間共線性減小;
[0065](3)精簡性,可利用少量且具有代表性的閱讀理解構(gòu)面取代繁瑣的可讀性指標(biāo)以作進(jìn)一步的判斷分析。
[0066]智能型算則單元140在取得上述至少一閱讀理解構(gòu)面后,遂通過一個(gè)非線性算則來建構(gòu)中文文本可讀性模型100。而在建構(gòu)完成后,當(dāng)中文文本可讀性模型100接收到一待測中文文本時(shí),將以此中文文本可讀性模型100來作為是否適合某一年齡層閱讀的判斷依據(jù),并輸出此待測中文文本適合哪一年齡層的閱讀能力,意即此待測中文文本的可讀性屬于哪一年齡層來閱讀,進(jìn)而完成本發(fā)明得以準(zhǔn)確預(yù)測中文文本可讀性的目的。
[0067]此外,在本實(shí)施例中,非線性算則是用以表示利用非線性方式來組合閱讀理解構(gòu)面的方法。此外,非線性算則是以一試誤法,來作為參數(shù)篩選的依據(jù)。而此非線性算則法并無數(shù)據(jù)量大小的限制且亦無傳統(tǒng)線性公式的限制(如要符合常態(tài)分配(NormalDistribution)),故在少量資料上也會有良好的預(yù)測精確性。
[0068]接下來,請同時(shí)參考圖3,是本發(fā)明一較佳實(shí)施例的以數(shù)據(jù)降維法及非線性算則建構(gòu)中文文本可讀性模型100的方法流程圖。以下中文文本10將以閱讀能力為三、四年級為例來作說明。首先,中文文本可讀性模型100接收適合三、四年級閱讀的多個(gè)中文文本10,并與一語料庫120的中文字詞句特性進(jìn)行比對,而可在斷詞單元110中產(chǎn)生每一中文文本10的復(fù)數(shù)個(gè)斷詞,并將復(fù)數(shù)個(gè)斷詞作詞性標(biāo)記,以作為接下來可讀性指標(biāo)的判斷依據(jù)(步驟 S300)。
[0069]在此,以下有關(guān)可讀性指標(biāo)的相關(guān)描述,將以詞匯指標(biāo)類別:字?jǐn)?shù)(總字?jǐn)?shù))、詞數(shù)(總詞數(shù))、低筆劃字符數(shù)(筆畫介于I?10筆的總字?jǐn)?shù)),以及句法指標(biāo)類別:句平均詞數(shù)(句子長度)、單句數(shù)比率(單句結(jié)構(gòu)比率)兩大類指標(biāo)類別來作說明。
[0070]接下來,中文文本可讀性模型100將于可讀性指標(biāo)分析單元130中,對每一中文文本10的復(fù)數(shù)個(gè)斷詞、及復(fù)數(shù)個(gè)斷詞的詞性進(jìn)行分析,并通過計(jì)算而產(chǎn)生可讀性指標(biāo)(字?jǐn)?shù)、詞數(shù)、低筆劃字符數(shù)、句平均詞數(shù)、單句數(shù)比率)的指標(biāo)數(shù)值。例如某一個(gè)三年級中文文本10分析后有100個(gè)字?jǐn)?shù)、47個(gè)詞數(shù)、53個(gè)低筆劃字符數(shù)、句平均詞數(shù)為3個(gè)、及單句數(shù)比率為35%。在本實(shí)施例中,每個(gè)可讀性指標(biāo)的量化單位皆不同,而為了讓每個(gè)可讀性指標(biāo)之間可進(jìn)一步用來計(jì)算估測,遂先行將每個(gè)可讀性指標(biāo)的指標(biāo)數(shù)值正規(guī)化,使得每個(gè)可讀性指標(biāo)的指標(biāo)數(shù)值的量化單位一致(步驟S310)。
[0071]再來,中文文本可讀性模型100將上述可讀性指標(biāo),通過數(shù)據(jù)降維法找出重要的閱讀理解構(gòu)面,以從眾多遂先行將每個(gè)可讀性指標(biāo)的指標(biāo)數(shù)值正規(guī)化,使得每個(gè)可讀性指標(biāo)的指標(biāo)數(shù)值的量化單位一致(步驟S320)。
[0072]根據(jù)本實(shí)施例的可讀性指標(biāo),將可得到2個(gè)重要的閱讀理解構(gòu)面,分別為代表詞匯指標(biāo)類別的詞匯理解構(gòu)面,以及代表句法指標(biāo)類別的句法理解構(gòu)面(圖未示)。其中,詞匯理解構(gòu)面是由字?jǐn)?shù)、詞數(shù)、低筆劃字符數(shù)線性組合而成。句法理解構(gòu)面是由句平均詞數(shù)、單句數(shù)比率線性組合而成。如下所示:
[0073]詞匯理解構(gòu)面=alX (字?jǐn)?shù))+a2X (詞數(shù))+a3X (低筆劃字符數(shù));
[0074]句法理解構(gòu)面=blX (句平均詞數(shù))+b2X (單句數(shù)比率);
[0075]其中,al、a2、a3分別為代表詞匯指標(biāo)類別中,字?jǐn)?shù)、詞數(shù)、低筆劃字符數(shù)的系數(shù),而bl、b2則為代表句法指標(biāo)類別中,句平均詞數(shù)、單句數(shù)比率的系數(shù)。
[0076]由上述可知,智能型算則單元140將字?jǐn)?shù)、詞數(shù)、低筆劃字符數(shù)、句平均詞數(shù)、及單句數(shù)比率的多個(gè)可讀性指標(biāo)歸納分類成詞匯指標(biāo)類別(包含字?jǐn)?shù)、詞數(shù)、低筆劃字符數(shù))、以及句法指標(biāo)類別(包含句平均詞數(shù)、單句數(shù)比率)兩個(gè)指標(biāo)類別,并將同一指標(biāo)類別的可讀性指標(biāo)作線性組合而分別成為詞匯理解構(gòu)面、以及句法理解構(gòu)面的兩個(gè)重要的閱讀理解構(gòu)面。進(jìn)而從原本眾多且繁復(fù)的可讀性指標(biāo)中,通過數(shù)據(jù)降維法而得到共線性較小且重要的閱讀理解構(gòu)面。
[0077]最后,同樣于智能型算則單元140中,再將上述兩個(gè)重要的閱讀理解構(gòu)面通過非線性算則來建構(gòu)中文文本可讀性模型100,以作為未來在判斷中文文本是否適合三、四年級同學(xué)的閱讀能力的依據(jù),進(jìn)而可達(dá)到本發(fā)明建構(gòu)高精確性的中文文本可讀性模型100的目的(步驟S330)。[0078]在本實(shí)施例中,上述的中文文本可讀性模型100,可以如下例子來建立中文文本可讀性模型100的演算公式:
[0079]年級=sin (詞匯理解構(gòu)面)+log (句法理解構(gòu)面)。
[0080]由上述可知,上述演算式是通過非線性函數(shù)(如:sin、log logistic等)來對重要的閱讀理解構(gòu)面作變量轉(zhuǎn)換,并采用線性組合的方式來鏈接每個(gè)運(yùn)算值(如,sin(詞匯理解構(gòu)面)、log (句法理解構(gòu)面)等)。而本實(shí)施例僅為一較佳實(shí)施例,但非限制其他可讀性指標(biāo)、閱讀理解構(gòu)面、非線性函數(shù)的加入或調(diào)整。
[0081]因此,當(dāng)中文文本可讀性模型100在接收到一待測中文文本時(shí),將判斷此待測中文文本是否符合三、或四年級的閱讀能力閱讀者來閱讀,而完成本發(fā)明準(zhǔn)確預(yù)測中文文本可讀性的目的。
[0082]故由上述可知,本發(fā)明利用數(shù)據(jù)降維法、以及非線性算則來建立一個(gè)有效預(yù)測中文文本的可讀程度的中文文本可讀性模型100。不但可以解決傳統(tǒng)可讀性預(yù)測模型不適合分析中文文本的可讀性、中文文本較少的情形下預(yù)測效果不佳的問題外,更可降低可讀性指標(biāo)之間的共線性而取得獨(dú)立性更高的閱讀理解特征來建構(gòu)中文文本可讀性模型100。使得本發(fā)明的中文文本可讀性模型100可以預(yù)測出更準(zhǔn)確的中文文本的可讀程度,而提供適合的中文文本給不同的年齡層的閱讀能力來閱讀。
[0083]上述實(shí)施例僅是為了方便說明而舉例而已,本發(fā)明所主張的權(quán)利范圍自應(yīng)以申請的權(quán)利要求范圍所述為準(zhǔn),而非僅限于上述實(shí)施例。
【權(quán)利要求】
1.一種以數(shù)據(jù)降維法及非線性算則建構(gòu)一中文文本可讀性模型的方法,該方法包含下列步驟: A)收集適合某一閱讀能力的至少一中文文本,并與一語料庫的中文字詞句特性進(jìn)行比對,以產(chǎn)生每一中文文本的復(fù)數(shù)個(gè)斷詞,且對應(yīng)產(chǎn)生該復(fù)數(shù)個(gè)斷詞的詞性標(biāo)記,其中,每一中文文本皆具有至少一可讀性指標(biāo); B)對每一中文文本的該復(fù)數(shù)個(gè)斷詞、及該復(fù)數(shù)個(gè)斷詞的詞性標(biāo)記進(jìn)行分析,以通過計(jì)算產(chǎn)生該至少一可讀性指標(biāo)的指標(biāo)數(shù)值; C)將該至少一可讀性指標(biāo),通過該數(shù)據(jù)降維法找出至少一閱讀理解構(gòu)面,而該至少一閱讀理解構(gòu)面系代表該至少一可讀性指標(biāo)的線性組合;以及 D)將該至少一閱讀理解構(gòu)面通過該非線性算則建構(gòu)該中文文本可讀性模型,以作為判斷一待測中文文本是否適合該某一閱讀能力閱讀的依據(jù)。
2.如權(quán)利要求1所述的方法,其中,于該步驟C)中,該資料降維法是用來代表降低該至少一可讀性指標(biāo)彼此之間的共線性的方法。
3.如權(quán)利要求2所述的方法,其中,于該步驟D)中,該非線性算則是用來代表以非線性方式來組合該至少一閱讀理解構(gòu)面的方法。
4.如權(quán)利要求1所述的方法,其中,于該步驟A)中,該語料庫包含中文詞庫、漢語平衡語料庫及中文句結(jié)構(gòu)樹數(shù)據(jù)庫,以作為中文字詞句特性的比對依據(jù)。
5.如權(quán)利要求1所述的方法,其中,于該步驟A)中,該至少一可讀性指標(biāo)包含詞匯指標(biāo)、語意指標(biāo)、句法指標(biāo)以及文章凝聚指標(biāo)的指標(biāo)類別,以據(jù)此找出該閱讀理解構(gòu)面。
6.如權(quán)利要求5所述的方法,其中,于該步驟C)中,該至少一閱讀理解構(gòu)面表示通過該數(shù)據(jù)降維法,而歸納同一指標(biāo)類別的該至少一可讀性指標(biāo),且每個(gè)閱讀理解構(gòu)面被表示成同一指標(biāo)類別的該至少一可讀性指標(biāo)的線性組合。
7.一種以數(shù)據(jù)降維法以及非線性算則建構(gòu)一中文文本可讀性模型的系統(tǒng),包含: 一斷詞單元,接收適合某一閱讀能力的至少一中文文本,并與一語料庫的中文字詞句特性進(jìn)行比對,以產(chǎn)生每一中文文本的復(fù)數(shù)個(gè)斷詞,且對應(yīng)產(chǎn)生該復(fù)數(shù)個(gè)斷詞的詞性標(biāo)記,其中,每一中文文本皆具有至少一可讀性指標(biāo); 一可讀性指標(biāo)分析單元,接收該復(fù)數(shù)個(gè)斷詞及該復(fù)數(shù)個(gè)斷詞對應(yīng)的詞性標(biāo)記,以通過計(jì)算產(chǎn)生該至少一可讀性指標(biāo)的指標(biāo)數(shù)值; 一智能型算則單元,接收該至少一可讀性指標(biāo),以通過該數(shù)據(jù)降維法找出至少一閱讀理解構(gòu)面,并根據(jù)該至少一閱讀理解構(gòu)面,使用該非線性算則建構(gòu)該中文文本可讀性模型,以作為判斷一待測中文文本是否適合該某一閱讀能力閱讀的依據(jù),其中,該至少一閱讀理解構(gòu)面代表該至少一可讀性指標(biāo)的線性組合。
8.如權(quán)利要求7所述的系統(tǒng),其中,該數(shù)據(jù)降維法是用來代表降低該至少一可讀性指標(biāo)彼此之間的共線性的方法。
9.如權(quán)利要求8所述的系統(tǒng),其中,該非線性算則是用來代表以非線性方式來組合該至少一閱讀理解構(gòu)面的方法。
10.如權(quán)利要求7所述的系統(tǒng),其中,該語料庫包含中文詞庫、漢語平衡語料庫及中文句結(jié)構(gòu)樹數(shù)據(jù)庫,以作為中文字詞句特性的比對依據(jù)。
11.如權(quán)利要求7所述的系統(tǒng),其中,該至少一可讀性指標(biāo)包含詞匯指標(biāo)、語意指標(biāo)、句法指標(biāo)以及文章凝聚指標(biāo)的指標(biāo)類別,以據(jù)此找出該閱讀理解構(gòu)面。
12.如權(quán)利要求11所述的系統(tǒng),其中,該至少一閱讀理解構(gòu)面是表示通過該數(shù)據(jù)降維法,而歸納同一指標(biāo)類別的該至少一可讀性指標(biāo),且每個(gè)閱讀理解構(gòu)面被表示成同一指標(biāo)類別的該至少一可讀性指標(biāo)的 線性組合。
【文檔編號】G06F17/27GK103530280SQ201210226577
【公開日】2014年1月22日 申請日期:2012年7月3日 優(yōu)先權(quán)日:2012年7月3日
【發(fā)明者】宋曜廷, 張道行, 陳茹玲, 李宜憲 申請人:宋曜廷