生詞太多而造成的語言障礙, 提高閱讀質(zhì)量。
[0034] 進(jìn)一步,所述采用高低頻分段方法劃分詞頻段W及確定每個詞頻段中所包括的詞 匯量,具體為:
[0035] 計算高頻段和低頻段的預(yù)分界點(diǎn)f:f=int(j/2);
[0036] 判斷f是否為d的正整數(shù)倍,d為第一預(yù)設(shè)值,j為數(shù)字出版物的總詞匯量;
[0037] 若是,則高頻段的詞頻段個數(shù)為d/1000,每個詞頻段中包括的詞匯量為 a 低頻段的詞頻段個數(shù)為X,X不大于5 ;
[0038] 若不是,則將低頻段的詞匯量a補(bǔ)入高頻段,使高頻段的總詞匯量滿足:f+a= d*b,b取使f+a為與f最接近的d的正整數(shù)倍的數(shù)值;所述高頻段的詞頻段個數(shù)為d/1000, 每個詞頻段中包括的詞匯量為:;低頻段的總詞匯量為j-f-a,低頻段的詞頻段個數(shù) 為X,X不大于5,a大于0 ;所述低頻段的詞頻段數(shù)量及低頻段的每個詞頻段包括的詞匯數(shù) 量按照W下方法確定:
[0039] 當(dāng)j-f-a未超過各個低頻段的詞頻段容納量基數(shù)總和時,低頻段的詞頻段個數(shù)對 應(yīng)為:x=int{(j-f-a)/1000},每個低頻段的詞頻段容納量基數(shù)為1000,將余數(shù)部分詞匯 量:(j-f-a)/1000} *1000 放入最后一個詞頻段中;
[0040] 當(dāng)j-f-a超過各低頻詞頻段容納量基數(shù)總和時,將剩余的部分按順序依次放入低 頻段的詞頻段中。
[0041] 進(jìn)一步,所述步驟2中的詞匯信息包括詞匯原型、詞匯釋義、詞匯外語釋義、詞匯 音標(biāo)和備注;所述相關(guān)信息包括該詞匯所出現(xiàn)的章號和頁碼,W及該詞匯在該章中首次出 現(xiàn)的頁碼和在該章中出現(xiàn)的總次數(shù),所述詞匯外語釋義包括一種或多種語言的外語釋義。
[0042] 采用上述進(jìn)一步方案的有益效果是:通過添加詞匯釋義和詞匯外語釋義W及詞匯 音標(biāo),能夠幫助讀者學(xué)習(xí);而相關(guān)信息可W使讀者回到語境中進(jìn)行學(xué)習(xí),提高閱讀質(zhì)量。
[0043] 進(jìn)一步,數(shù)據(jù)包為APP數(shù)據(jù)顯示包,包括與每一章對應(yīng)的所有詞匯的詞匯信息和 相關(guān)信息,W及包括與每一頁對應(yīng)的所有詞匯的詞匯信息。
[0044] 采用上述進(jìn)一步方案的有益效果是:將詞匯按照詞頻大小W章或頁進(jìn)行顯示,能 夠使讀者更加清楚地了解每一章或每一頁的詞匯量,從而進(jìn)行有針對性地下載學(xué)習(xí)。
[0045] 為解決上述問題,本發(fā)明還提出了一種數(shù)字出版物詞匯抽取、顯示系統(tǒng),包括:
[0046] 輸入模塊,用于輸入數(shù)字出版物;
[0047] 詞匯抽取模塊,用于統(tǒng)計數(shù)字出版物中的詞匯總量W及每一個詞匯的詞頻,將所 述數(shù)字出版物中所有的詞匯按照詞頻大小進(jìn)行排序,并添加詞匯信息形成總詞匯表和添加 詞匯的相關(guān)信息形成相關(guān)數(shù)據(jù)表;
[0048] 或?qū)⒃~頻詞典中的詞匯按照詞頻大小進(jìn)行排序,按照排序后詞頻詞典中的詞匯順 序依次在所述數(shù)字出版物中抽取相應(yīng)的詞匯,得到總詞匯表和相關(guān)數(shù)據(jù)表,所述總詞匯表 中記錄所有的詞匯W及詞匯信息,所述相關(guān)數(shù)據(jù)表中記錄所有詞匯的相關(guān)信息;
[0049] 詞頻段劃分模塊,用于根據(jù)總詞匯表確定詞頻段的個數(shù)和各個詞頻段包括的詞匯 數(shù)量并顯示;
[0050] 數(shù)據(jù)包組成模塊,將各個詞頻段所包括的詞匯對應(yīng)的詞匯信息和相關(guān)信息組成數(shù) 據(jù)包,用于下載學(xué)習(xí)。
[0051] 在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可W作如下改進(jìn):
[0052] 進(jìn)一步,所述詞頻段劃分模塊包括:
[0053] 第一詞頻段單元,用于當(dāng)滿足第一判斷條件時,詞頻段數(shù)P=int(j/m),得到P個 詞頻段,P取正整數(shù);前P個詞頻段每個詞頻段加入m個詞匯;當(dāng)剩余詞匯si=j-int(j/ m)Xm大于或等于m/2時,則在p個詞頻段的基礎(chǔ)上增加一個詞頻段將剩余的詞匯添加至該 詞頻段,當(dāng)剩余詞匯小于m/2時,則將剩余的詞匯添加至第P個詞頻段當(dāng)中;j為所述總詞 匯表中的總詞匯量,m取值為與j為相同數(shù)量級的最小數(shù);int為取整函數(shù);所述第一判斷 條件指所述總詞匯表中的詞匯數(shù)量小于或等于第一預(yù)設(shè)值;
[0054] 第二詞頻段單元,用于當(dāng)滿足第二判斷條件時,按照所述詞頻段順序從第一個詞 頻段開始將大于第一預(yù)設(shè)值部分的詞匯添加至已存在的詞頻段中,添加規(guī)則為:設(shè)大于第 一預(yù)設(shè)值部分的詞匯量為i,當(dāng)i小于1000時,則將所述i個詞匯加入滿足第一判斷條件 時已存在的最后一個詞頻段中,當(dāng)i大于或等于1000時,則按照詞頻段的順序依次在每個 已存在的詞頻段中增加k個詞匯,剩余的詞匯S2=i-int(i/k)Xk添加至最后一個詞頻段 中,k取與i數(shù)量級相同的最小數(shù);所述第二判斷條件指所述總詞匯數(shù)大于第一預(yù)設(shè)值且小 于或等于第二預(yù)設(shè)值;所述第二預(yù)設(shè)值為所述第一預(yù)設(shè)值的二倍; 陽化5] 第=詞頻段單元,用于則采用滿足第二判斷條件時的添加規(guī)則,將大于第二預(yù)設(shè) 值的部分的詞匯按照所述詞頻段順序從第一個詞頻段開始添加至已存在的詞頻段中;所述 第=判斷條件指所述總詞匯數(shù)大于第二預(yù)設(shè)值且小于或等于第=預(yù)設(shè)值時,所述第=預(yù)設(shè) 值為所述第一預(yù)設(shè)值的=倍;
[0056] 第四詞頻段單元,用于當(dāng)滿足第四判斷條件時,則采用高低頻分段的方法劃分詞 頻段W及確定每個詞頻段中所包括的詞匯量,所述第四判斷條件指總詞匯量大于第=預(yù)設(shè) 值。
[0057] 進(jìn)一步,所述第四詞頻段單元采用高低頻分段的方法劃分詞頻段W及確定每個詞 頻段中所包括的詞匯量,具體為: 陽05引計算高頻段和低頻段的預(yù)分界點(diǎn)f:f=int(j/2);
[0059]判斷f是否為d的正整數(shù)倍,d為第一預(yù)設(shè)值,j為數(shù)字出版物的總詞匯量; W60] 若是,則高頻段的詞頻段個數(shù)為d/1000,每個詞頻段中包括的詞匯量為4 4HM); d 低頻段的詞頻段個數(shù)為X,X不大于5 ;
[0061] 若不是,則將低頻段的詞匯量a補(bǔ)入高頻段,使高頻段的總詞匯量滿足:f+a= d*b,b取使f+a為與f最接近的d的正整數(shù)倍的數(shù)值;所述高頻段的詞頻段個數(shù)為d/1000, /' +a 每個詞頻段中包括的詞匯量為:;低頻段的總詞匯量為j-f-a,低頻段的詞頻段個數(shù) 為X,X不大于5,a大于0 ;所述低頻段的詞頻段數(shù)量及每個低頻段的詞頻段包括的詞匯數(shù) 量按照W下方法確定:
[0062] 當(dāng)j-f-a未超過各個低頻段的詞頻段容納量基數(shù)總和時,低頻段的詞頻段個數(shù)對 應(yīng)為:x=int{(j-f-a)/1000},每個低頻段的詞頻段容納量基數(shù)為1000,將余數(shù)部分詞匯 量:(j-f-a)/1000} *1000 放入最后一個詞頻段中;
[0063] 當(dāng)j-f-a超過各低頻詞頻段容納量基數(shù)總和時,將剩余的部分按順序依次放入低 頻段的詞頻段中。
[0064] 進(jìn)一步,所述詞匯抽取模塊包括總詞匯表計數(shù)器、章內(nèi)詞匯出現(xiàn)次數(shù)計數(shù)器、詞頻 詞典取詞計數(shù)器;
[0065] 所述詞頻詞典取詞計數(shù)器,用于依次在排序后的詞頻詞典中提取詞匯;
[0066] 所述總詞匯表計數(shù)器,用于根據(jù)所述詞頻詞典取詞計數(shù)器提取出來的詞匯在所述 數(shù)字出版物中抽取該詞匯;或統(tǒng)計數(shù)字出版物中的詞匯總量W及每一個詞匯的詞頻;
[0067] 所述章內(nèi)詞匯出現(xiàn)次數(shù)計數(shù)器,用于記錄總詞匯表計數(shù)器抽取出來的詞匯在每一 章中出現(xiàn)的次數(shù)。
[0068] 進(jìn)一步,所述數(shù)據(jù)包組成模塊為APP數(shù)據(jù)顯示包,包括與每一章對應(yīng)的所有詞匯 的詞匯信息和相關(guān)信息,W及包括與每一頁對應(yīng)的所有詞匯的詞匯信息。
[0069] 本發(fā)明的有益效果是:通過詞匯抽取模塊將數(shù)字出版物中的詞匯W按照詞頻詞典 中的詞頻大小排序后的順序依次抽取或直接對數(shù)字出版物中的詞匯和詞頻進(jìn)行統(tǒng)計排序, 并使用詞頻段劃分模塊劃分成不同的詞頻段,然后讀者可W在數(shù)據(jù)包組成模塊中提前打包 下載學(xué)習(xí),運(yùn)樣就能夠減少閱讀中由于生詞太多所造成的語言障礙,達(dá)到改善閱讀質(zhì)量和 提高詞匯學(xué)習(xí)效率的效果。
【附圖說明】
[0070] 圖1為本發(fā)明一種數(shù)字出版物詞匯抽取、顯示方法的流程示意圖;
[0071] 圖2為本發(fā)明一種數(shù)字出版物詞匯抽取、顯示系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0072]W下結(jié)合附圖對本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并 非用于限定本發(fā)明的范圍。
[0073]本發(fā)明所基于的原理是:因?yàn)橐粋€讀者的語言水平越高,所認(rèn)識的難詞、或者說低 頻詞就越多,那么如果把一種語言的詞匯按詞頻分段,語言水平高的讀者生詞少且趨于低 頻詞段;語言水平較低的讀者生詞較多,詞頻段跨度較大,因此,可W通過采用不同的詞匯 抽取策略提