文章章節(jié)生成方法、系統(tǒng)和電子書閱讀器的制造方法
【技術領域】
[0001]本發(fā)明涉及信息技術領域,具體而言,本發(fā)明涉及一種文章章節(jié)生成方法和系統(tǒng),以及一種電子書閱讀器。
【背景技術】
[0002]互聯(lián)網(wǎng)技術的不斷發(fā)展,使得電子書十分流行。電子書的格式包括TXT、D0C、roF、HTM、HTML、EPUB、CHM等等,通常TXT格式的較受歡迎。一些電子書,是通過搜索引擎抓取網(wǎng)頁內(nèi)容進行轉(zhuǎn)碼形成書籍內(nèi)容,生成電子書文件,這類電子書好多無章節(jié)結構或章節(jié)混亂。在互聯(lián)網(wǎng)上,無章節(jié)結構或章節(jié)混亂的這類電子書較多,用戶利用電子書閱讀器或者在線閱讀這類電子書時容易造成閱讀困難,用戶體驗較差。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的旨在至少能解決上述的技術缺陷之一,特別是閱讀困難的技術缺陷。
[0004]本發(fā)明提供一種文章章節(jié)生成方法,包括如下步驟:
[0005]遍歷所述文章的文本數(shù)據(jù),提取其中具有章節(jié)特征的綱目內(nèi)容;
[0006]按序組織所述綱目內(nèi)容以建立所述文章的章節(jié)列表,建立章節(jié)列表到對應的章節(jié)內(nèi)容之間的索引關系;
[0007]推送或顯示所述章節(jié)列表。
[0008]本發(fā)明中,所述章節(jié)特征為:相鄰兩個標識符之間的字符數(shù)滿足預設條件。
[0009]本發(fā)明中,所述標識符包括段落符和斷行符中的一種。
[0010]本發(fā)明中,所述預設條件包括:字符數(shù)大于0且少于預設數(shù)值。
[0011]本發(fā)明中,所述具有章節(jié)特征的綱目內(nèi)容為所述相鄰兩個標識符之間的字符。
[0012]本發(fā)明中,所述按序組織所述綱目內(nèi)容以建立所述文章的章節(jié)列表包括步驟:
[0013]提取所述相鄰兩個標識符之間的字符作為候選章節(jié);
[0014]得到多個候選章節(jié);
[0015]從所述多個候選章節(jié)中得到多個章節(jié),并按照預設的排列規(guī)則排列所述多個章節(jié)以建立章節(jié)列表。
[0016]本發(fā)明中,從所述多個候選章節(jié)中按照預設的篩選規(guī)則得到多個章節(jié)。
[0017]本發(fā)明中,所述預設的篩選規(guī)則包括:保留具有數(shù)字字符的候選章節(jié)。
[0018]本發(fā)明中,所述預設的篩選規(guī)則包括:保留具有預設字符的候選章節(jié)。
[0019]本發(fā)明中,所述預設的篩選規(guī)則包括:刪除候選章節(jié)為預設字符串的候選章節(jié)。
[0020]本發(fā)明中,所述預設的排列規(guī)則包括:文本數(shù)據(jù)順序。
[0021]本發(fā)明中,還包括前置步驟:根據(jù)所述文章的用戶指定內(nèi)容而獲得所述文章。
[0022]本發(fā)明中,所述用戶指定內(nèi)容包括所述文章的關鍵詞,通過搜索引擎搜索所述關鍵詞而獲取所述文章。
[0023]本發(fā)明中,所述用戶指定內(nèi)容包括所述文章的存儲路徑,通過讀取所述存儲路徑所指向的文件而獲取所述文章。
[0024]本發(fā)明中,按照文本數(shù)據(jù)順序依次提取文本數(shù)據(jù)中具有章節(jié)特征的綱目內(nèi)容。
[0025]本發(fā)明中,推送或顯示所述章節(jié)列表之后,還包括步驟:
[0026]提供所述章節(jié)列表給用戶確認。
[0027]本發(fā)明中,推送或顯示所述章節(jié)列表之后,還包括步驟:
[0028]提供所述章節(jié)列表給用戶修改和確認。
[0029]本發(fā)明中,保存經(jīng)用戶確認的所述章節(jié)列表。
[0030]本發(fā)明還提供一種文章章節(jié)生成系統(tǒng),包括:
[0031]提取模塊,用于遍歷所述文章的文本數(shù)據(jù),提取其中具有章節(jié)特征的綱目內(nèi)容;
[0032]生成模塊,用于按序組織所述綱目內(nèi)容以建立所述文章的章節(jié)列表,建立章節(jié)列表到對應的章節(jié)內(nèi)容之間的索引關系;及
[0033]輸出模塊,用于推送或顯示所述章節(jié)列表。
[0034]本發(fā)明中,所述章節(jié)特征為:相鄰兩個標識符之間的字符數(shù)滿足預設條件。
[0035]本發(fā)明中,所述標識符包括段落符和斷行符中的一種。
[0036]本發(fā)明中,所述預設條件包括:字符數(shù)大于0且少于預設數(shù)值。
[0037]本發(fā)明中,所述具有章節(jié)特征的綱目內(nèi)容為所述相鄰兩個標識符之間的字符。
[0038]本發(fā)明中,所述生成模塊包括:
[0039]提取單元,用于提取所述相鄰兩個標識符之間的字符作為候選章節(jié),并得到多個候選章節(jié);及
[0040]排列單元,用于從所述多個候選章節(jié)中得到多個章節(jié),并按照預設的排列規(guī)則排列所述多個章節(jié)以建立章節(jié)列表。
[0041]本發(fā)明中,從所述多個候選章節(jié)中按照預設的篩選規(guī)則得到多個章節(jié)。
[0042]本發(fā)明中,所述預設的篩選規(guī)則包括:保留具有數(shù)字字符的候選章節(jié)。
[0043]本發(fā)明中,所述預設的篩選規(guī)則包括:保留具有預設字符的候選章節(jié)。
[0044]本發(fā)明中,所述預設的篩選規(guī)則包括:刪除候選章節(jié)為預設字符串的候選章節(jié)。
[0045]本發(fā)明中,所述預設的排列規(guī)則包括:文本數(shù)據(jù)順序。
[0046]本發(fā)明中,所述系統(tǒng)還包括獲取模塊,用于根據(jù)所述文章的用戶指定內(nèi)容而獲得所述文章。
[0047]本發(fā)明中,所述用戶指定內(nèi)容包括所述文章的關鍵詞,通過搜索引擎搜索所述關鍵詞而獲取所述文章。
[0048]本發(fā)明中,所述用戶指定內(nèi)容包括所述文章的存儲路徑,通過讀取所述存儲路徑所指向的文件而獲取所述文章。
[0049]本發(fā)明中,按照文本數(shù)據(jù)順序依次提取文本數(shù)據(jù)中具有章節(jié)特征的綱目內(nèi)容。
[0050]本發(fā)明中,所述系統(tǒng)還包括確認模塊,用于在輸出模塊推送或顯示所述章節(jié)列表之后,提供所述章節(jié)列表給用戶確認。
[0051]本發(fā)明中,所述系統(tǒng)還包括確認模塊,用于在輸出模塊推送或顯示所述章節(jié)列表之后,提供所述章節(jié)列表給用戶修改和確認。
[0052]本發(fā)明中,所述系統(tǒng)還包括存儲模塊,用于保存經(jīng)用戶確認的所述章節(jié)列表。
[0053]本發(fā)明還提供一種電子書閱讀器,所述電子書閱讀器包括上述的文章章節(jié)生成系統(tǒng)。
[0054]上述文章章節(jié)生成方法和系統(tǒng),通過遍歷文章的文本數(shù)據(jù),提取其中具有章節(jié)特征的綱目內(nèi)容;然后按序組織綱目內(nèi)容以建立文章的章節(jié)列表,并建立章節(jié)列表到對應的章節(jié)內(nèi)容之間的索引關系;再推送或顯示所述章節(jié)列表。章節(jié)的標題通常具有一定的章節(jié)特征,例如通常章節(jié)的標題都較短,又或者具備數(shù)字字符,又或者具備特定字符“第” “章” “節(jié)”等等,通過提取具有章節(jié)特征的綱目內(nèi)容,可以迅速而準確的找到文章的各個章節(jié)標題,從而形成章節(jié)列表,使讀者可以通過章節(jié)列表更便利的閱讀文章,提高了用戶體驗。
[0055]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0056]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0057]圖1為一個實施例的文章章節(jié)生成方法流程圖;
[0058]圖2為一個實施例按序組織綱目內(nèi)容以建立文章的章節(jié)列表流程圖;
[0059]圖3為一個實施例的文章章節(jié)生成系統(tǒng)模塊示意圖;
[0060]圖4為一個實施例的生成模塊示意圖。
【具體實施方式】
[0061]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
[0062]本技術領域技術人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復數(shù)形式。應該進一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應該理解,當我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關聯(lián)的列出項的全部或任一單元和全部組合。
[0063]本技術領域技術人員可以理解,除非另外定義,這里使用的所有術語(包括技術術語和科學術語),具有與本發(fā)明所屬領域中的普通技術人員的一般理解相同的意義。還應該理解的是,諸如通用字典中定義的那些術語,應該被理解為具有與現(xiàn)有技術的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會用理想化或過于正式的含義來解釋。
[0064]本技術領域技術人員可以理解,這里所使用的“終端”、“終端設備”既包括無線信號接收器的設備,其僅具備無發(fā)射能力的無線信號接收器的設備,又包括接收和發(fā)射硬件的設備,其具有能夠在雙向通信鏈路上,執(zhí)行雙向通信的接收和發(fā)射硬件的設備。這種設備可以包括:蜂窩或其他通信設備,其具有單線路顯示器或多線路顯示器或沒有多線路顯示器的蜂窩或其他通信設備;PCS (Personal Communicat1ns Service,個人通信系統(tǒng)),其可以組合語音、數(shù)據(jù)處理、傳真和/或數(shù)據(jù)通信能力;PDA(Personal Digital Assistant,個人數(shù)字助理),其可以包括射頻接收器、尋呼機、互聯(lián)網(wǎng)/內(nèi)聯(lián)網(wǎng)訪問、網(wǎng)絡瀏覽器、記事本、日歷和/或GPS (Global Posit1ning System,全球定位系統(tǒng))接收器;常規(guī)膝上型和/或掌上型計算機或其他設備,其具有和/或包括射頻接收器的常規(guī)膝上型和/或掌上型計算機或其他設備。這里所使用的“終端”、“終端