一種數(shù)字出版物詞匯抽取、顯示方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種數(shù)字出版物詞匯抽取、顯示系統(tǒng)和方法。
【背景技術(shù)】
[0002] 人類已經(jīng)進入數(shù)字出版時代,由于數(shù)字出版平臺和電子讀物自身的數(shù)字化特點, 使利用各種現(xiàn)代技術(shù)為讀者提供各種包括娛樂和輔助學(xué)習(xí)功能的新型有效服務(wù)成為可能。 目前,利用現(xiàn)代技術(shù)為人類閱讀提供語言方面服務(wù)存在W下問題:
[0003] 1)讀物語言難度信息缺乏
[0004] 為實現(xiàn)成功閱讀,讀者在選擇讀物時需要考慮語言難度方面的因素,在外文閱讀 中就更顯重要。因為,如果語言難度過大,詞匯和語法會超出讀者所能理解范圍,讀者很難 看懂內(nèi)容,由此產(chǎn)生的閱讀障礙將使閱讀無法進行和持續(xù)。
[0005]目前數(shù)字出版中已經(jīng)提供的文本難度(文本易讀性)服務(wù),或稱為閱讀分級服務(wù), 較好地了解決運個問題,但閱讀分級服務(wù)主要體現(xiàn)在兒童閱讀方面,對于成人和外文閱讀 方面還沒有設(shè)及。
[0006] 2)閱讀文本中的生詞無法預(yù)知
[0007] 在目前提供的語言服務(wù)中,對于閱讀,無論是多媒體閱讀還是文本閱讀,無論是文 本難度服務(wù)、屏幕取詞和翻譯服務(wù),都還沒有解決人類幾千年來無法克服的問題,即沒有辦 法提前知道閱讀內(nèi)容中可能遇到的詞匯方面的困難。
[000引同樣,在觀看外文動漫和電影時,也無法知道其中可能面臨的詞匯,只能在觀看過 程中W筆記的方式進行人工記錄,即影響觀看效果,同時由于人類短時記憶的限制,對詞匯 的記憶也很有限。如果能提前知道所要閱讀文本內(nèi)容中的生詞,W將要閱讀的章節(jié)為單位, 進行預(yù)習(xí);預(yù)先知道所要觀看的外文影片中幾個不熟悉的詞或值語,提前進行讀寫和聽力 練習(xí),則可W大大改善閱讀和觀看質(zhì)量。
[0009] 對有些讀者或觀看者,所設(shè)及的詞匯、難句、值語的數(shù)量可能較多,對其他的人,貝U 可能比較少,有時甚至是很少的,但通過預(yù)習(xí)都會產(chǎn)生積極影響。
[0010] 3)返回原語境復(fù)習(xí)知識點困難
[0011] 在目前對各種數(shù)字出版物提供的語言服務(wù)中,包括書籍電影等,除了無法預(yù)知可 能遇到的生詞外,另一個問題就是不容易返回原語境復(fù)習(xí)。例如,在讀書時遇到一個生詞, 用筆記錄下來,有的讀者把生詞和查到的解釋記錄到書上(如果讀的是紙質(zhì)書),有的讀者 記錄到筆記本上(包括電子筆記本),但不是所有人在記錄一個生詞或難句時,都把其對應(yīng) 的頁碼記錄下來,運就產(chǎn)生了返回原語境復(fù)習(xí)的困難。但在語言學(xué)習(xí)時,在上下相關(guān)語境中 的學(xué)習(xí)非常重要,外語學(xué)習(xí)中更是如此。
[0012] 4)語言學(xué)研究成果在服務(wù)中難W體現(xiàn)
[0013] 隨著人類語言學(xué)研究的發(fā)展,對于語言本身的規(guī)律有了進一步的了解,積累了很 多語言研究成果,但很少和難W在數(shù)字出版語言服務(wù)中應(yīng)用。
[0014] 例如詞頻統(tǒng)計結(jié)果顯示,一種語言中,盡管詞匯很多,但在人們的實際生活和書籍 中,常用詞占了絕大部分,充分利用詞頻分布會對閱讀產(chǎn)生很大幫助。
[0015] 目前,詞頻規(guī)律被普遍應(yīng)用于教材和外語測試中的詞匯確定等,但在數(shù)字出版方 面的語言服務(wù)中,除了閱讀分級中的文本難度測量,還沒有發(fā)現(xiàn)直接的應(yīng)用。如屏幕取詞服 務(wù)就沒有提供運種詞頻信息,即使提供了,意義也不大,因為屏幕取詞是隨機性的,和文本 總體詞匯分布及讀者自身語言水平?jīng)]有直接的相關(guān)性。
[0016] 5)不能提供對減少屏幕或網(wǎng)絡(luò)閱讀副作用的幫助
[0017] 目前數(shù)字出版服務(wù)提供的語言服務(wù)中,除了電子書閱讀器中的內(nèi)置詞典,其它 "屏"閱讀中的詞匯服務(wù),如屏幕取詞、朗讀和例句顯示等,大部分都是網(wǎng)絡(luò)在線環(huán)境實現(xiàn) 的,如何幫助人們在離開網(wǎng)絡(luò),在綠樹陰下、小溪河旁享受傳統(tǒng)的紙質(zhì)書閱讀時也能獲得與 "在網(wǎng)"時一樣的語言服務(wù),即利用現(xiàn)代技術(shù)的幫化同時又恢復(fù)人類被"網(wǎng)"所束縛的自由 是具有非常積極意義的探索。
[0018] 詞匯是語言學(xué)習(xí)的基礎(chǔ),語言學(xué)家研究結(jié)論是:初次呈現(xiàn)新單詞最好是使用脫離 上下文的單詞表;高水平的學(xué)習(xí)者通過上下文有可能學(xué)到詞匯,但初學(xué)者也許更加得益于 帶有翻譯詞義的詞匯表;利用單詞表模式比利用語境模式學(xué)習(xí)單詞效果更好;在語言學(xué) 習(xí)、特別是外語學(xué)習(xí)中,即使對于語言水平已經(jīng)達到了一定程度的學(xué)習(xí)者而言,通過單詞表 來提高詞匯量仍然不失為一種有效的辦法。目前研究證明,學(xué)習(xí)者必須在一個時間段內(nèi) (如半年)接觸同一個單詞至少7-10次才能記住運個單詞。如果一個學(xué)習(xí)者要想在半年之 內(nèi)通過閱讀文章的方法來學(xué)習(xí)并記住1000個新單詞,那么就意味著運1000個單詞必須在 他半年內(nèi)所閱讀的文字材料中都出現(xiàn)7-10次。諸多關(guān)于詞匯頻率的研究表明,運顯然是不 可能的。因此,如果要想在短時間內(nèi)大幅度提高詞匯量,有計劃地利用單詞表來學(xué)習(xí)并記憶 新單詞應(yīng)該是較好的、也是最直接的辦法。
【發(fā)明內(nèi)容】
[0019] 本發(fā)明所要解決的技術(shù)問題是提供一種數(shù)字出版物詞匯抽取、顯示系統(tǒng)和方法, 能夠減少閱讀中由于生詞造成的語言障礙,改善閱讀質(zhì)量和提高詞匯學(xué)習(xí)效率。
[0020] 本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種數(shù)字出版物詞匯抽取顯示方法, 包括W下步驟:
[0021] 步驟1,輸入數(shù)字出版物;
[0022] 步驟2,統(tǒng)計數(shù)字出版物中的詞匯總量W及每一個詞匯的詞頻,將所述數(shù)字出版物 中所有的詞匯按照詞頻大小進行排序,并添加詞匯信息形成總詞匯表和添加詞匯的相關(guān)信 息形成相關(guān)數(shù)據(jù)表;
[0023] 或?qū)⒃~頻詞典中的詞匯按照詞頻大小進行排序,按照排序后詞頻詞典中的詞匯順 序依次在所述數(shù)字出版物中抽取相應(yīng)的詞匯,得到總詞匯表和相關(guān)數(shù)據(jù)表,所述總詞匯表 中記錄所有的詞匯W及詞匯信息,所述相關(guān)數(shù)據(jù)表中記錄所有詞匯的相關(guān)信息;
[0024] 步驟3,根據(jù)總詞匯表確定詞頻段的個數(shù)和各個詞頻段包括的詞匯數(shù)量并顯示; [00巧]步驟4,將各個詞頻段所包括的詞匯對應(yīng)的詞匯信息和相關(guān)信息組成數(shù)據(jù)包,用于 下載學(xué)習(xí)。
[00%] 本發(fā)明的有益效果是:將數(shù)字出版物中的詞匯W按照詞頻詞典中的詞頻大小排序 后的順序或按照數(shù)字出版物中詞匯詞頻大小排序后的順序依次抽取,并劃分成不同的詞頻 段,然后讀者可w提前打包下載學(xué)習(xí),運樣就能夠減少閱讀中由于生詞太多所造成的語言 障礙,達到改善閱讀質(zhì)量和提高詞匯學(xué)習(xí)效率效果。
[0027] 在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可W做如下改進:
[0028] 進一步,所述步驟3中詞頻段的個數(shù)及各個詞頻段包括的詞匯數(shù)量照W下方法計 算:
[0029] 當滿足第一判斷條件時,詞頻段數(shù)P=int(j/m),得到P個詞頻段,P取正整數(shù);前 P個詞頻段每個詞頻段加入m個詞匯;當剩余詞匯Si=j-int(j/m)Xm大于或等于m/2時, 則在P個詞頻段的基礎(chǔ)上增加一個詞頻段將剩余的詞匯添加至該詞頻段,當剩余詞匯小于 m/2時,則將剩余的詞匯添加至第P個詞頻段當中;j為所述總詞匯表中的總詞匯量,m取值 為與j為相同數(shù)量級的最小數(shù);int為取整函數(shù);所述第一判斷條件指所述總詞匯表中的詞 匯數(shù)量小于或等于第一預(yù)設(shè)值;
[0030] 當滿足第二判斷條件時,按照所述詞頻段順序從第一個詞頻段開始將大于第一預(yù) 設(shè)值部分的詞匯添加至已存在的詞頻段中,添加規(guī)則為:設(shè)大于第一預(yù)設(shè)值部分的詞匯量 為i,當i小于1000時,則將所述i個詞匯加入滿足第一判斷條件時已存在的最后一個詞 頻段中,當i大于或等于1000時,則按照詞頻段的順序依次在每個已存在的詞頻段中增加 k個詞匯,剩余的詞匯S2=i-int(i/k)Xk添加至最后一個詞頻段中,k取與i數(shù)量級相同 的最小數(shù);所述第二判斷條件指所述總詞匯數(shù)大于第一預(yù)設(shè)值且小于或等于第二預(yù)設(shè)值; 所述第二預(yù)設(shè)值為所述第一預(yù)設(shè)值的二倍;
[0031] 當滿足第S判斷條件時,則采用滿足第二判斷條件時的添加規(guī)則,將大于第二預(yù) 設(shè)值的部分的詞匯按照所述詞頻段順序從第一個詞頻段開始添加至已存在的詞頻段中;所 述第=判斷條件指所述總詞匯數(shù)大于第二預(yù)設(shè)值且小于或等于第=預(yù)設(shè)值時,所述第=預(yù) 設(shè)值為所述第一預(yù)設(shè)值的=倍;
[0032] 當滿足第四判斷條件時,則采用高低頻分段的方法劃分詞頻段W及確定每個詞頻 段中所包括的詞匯量,,所述第四判斷條件指總詞匯量大于第=預(yù)設(shè)值。
[0033] 采用上述進一步方案的有益效果是:通過將數(shù)字出版物當中的所有詞匯分成多 個詞頻段,每個詞頻段中包括一定的詞匯量,并且所有的詞匯按照詞頻段的順序排序,運樣 讀者就可W有目的性地進行下載學(xué)習(xí),從而減少閱讀中由于