專利名稱:用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文檔處理技術(shù)領(lǐng)域。更具體地,本發(fā)明涉及用于生成可以體現(xiàn)用戶的閱讀興趣和習(xí)慣的結(jié)構(gòu)化文檔導(dǎo)視圖的方法和系統(tǒng)。
背景技術(shù):
目前,電子閱讀(e-Reading)技術(shù)已經(jīng)得到越來越廣泛的應(yīng)用。相對于傳統(tǒng)的紙質(zhì)媒介而言,電子閱讀以其便攜、快速高效以及易于檢索等特點(diǎn)受到了廣大讀者的歡迎。然而,在電子閱讀中仍然存在很多不方便之處。例如,對于一本較長的電子書(或任何電子文檔)而言,如果用戶無法一次閱讀完成,那么用戶下次從中斷部分繼續(xù)閱讀時(shí)可能需要重新閱讀之前已經(jīng)讀過的部分重要章節(jié)(由用戶所注釋)以回憶起相關(guān)內(nèi)容,但是電子書本身無法幫助用戶判斷哪些章節(jié)是重 要章節(jié),更無法快速定位到其所需要的重要章節(jié)?;蛘咴撚脩粼谥暗拈喿x中經(jīng)常在某些章節(jié)間來回切換(潛在地可能表明這些章節(jié)間有彼此間的關(guān)聯(lián)),電子書同樣無法以一種直觀的方式幫助用戶識(shí)別哪些章節(jié)間存在關(guān)聯(lián),或者存在何種類型的關(guān)聯(lián)。用戶多數(shù)情況下只能通過再次瀏覽電子書的內(nèi)容而發(fā)現(xiàn)章節(jié)間的關(guān)聯(lián)性、章節(jié)的重要性或找出該用戶所添加過的注釋。進(jìn)一步地,對于該電子書或電子文檔的其它讀者而言,無法方便地借鑒在先讀者通過其在先閱讀行為或注釋所體現(xiàn)出的對該電子書/文檔的理解,例如哪些章節(jié)被長時(shí)間閱讀、反復(fù)瀏覽,哪些章節(jié)間經(jīng)常被直接跳轉(zhuǎn)或切換,哪些章節(jié)被標(biāo)注為重要性較高等
坐寸ο很多電子文檔中均包含類似于目錄或索引的結(jié)構(gòu)化信息,現(xiàn)有技術(shù)中存在利用這些文檔中已有的結(jié)構(gòu)化信息而生成結(jié)構(gòu)化圖形以展示文檔結(jié)構(gòu)的技術(shù)方案,但是這種結(jié)構(gòu)化圖形僅僅是對電子文檔本身結(jié)構(gòu)的展示,其中并不包含基于用戶的閱讀行為或注釋而產(chǎn)生的體現(xiàn)用戶閱讀興趣、習(xí)慣的信息(例如章節(jié)間的關(guān)聯(lián)性、重要性等)。
發(fā)明內(nèi)容
考慮到上述存在的問題,本發(fā)明的目的之一在于提供一種能夠通過用戶對電子文檔的閱讀行為或所添加的注釋來分析用戶的閱讀興趣、習(xí)慣的技術(shù)方案。本發(fā)明的又一目的在于提供一種能夠?qū)⒎治鼋Y(jié)果映射為可直觀地展示的結(jié)構(gòu)化導(dǎo)視圖的技術(shù)方案。本發(fā)明的再一目的在于提供一種利用已有的電子文檔結(jié)構(gòu)化信息,來直觀地展示用戶對電子文檔的閱讀興趣、習(xí)慣的技術(shù)方案。本發(fā)明的又一目的在于提供一種能夠讓文檔的用戶借鑒、參考該用戶閱讀歷史、興趣、習(xí)慣的技術(shù)方案。本發(fā)明的再一目的在于提供一種能夠讓文檔的用戶借鑒、參考其它用戶的閱讀歷史、興趣、習(xí)慣的技術(shù)方案。根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的方法,包括接收用戶對所述文檔的操作;對所接收到的操作進(jìn)行分析;以及利用所述分析結(jié)果和所述文檔的基礎(chǔ)結(jié)構(gòu),生成結(jié)構(gòu)化文檔導(dǎo)視圖。根據(jù)本發(fā)明的一個(gè)實(shí)施例,其中利用所述分析結(jié)果和所述文檔的基礎(chǔ)結(jié)構(gòu),生成結(jié)構(gòu)化文檔導(dǎo)視圖包括生成所述文檔的基礎(chǔ)結(jié)構(gòu)圖;設(shè)定代表不同含義的圖例標(biāo)記;以及利用所述分析結(jié)果,將所述圖例標(biāo)記附加至所述基礎(chǔ)結(jié)構(gòu)圖中。根據(jù)本發(fā)明的另一方面,提供了一種用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的系統(tǒng),包括接收裝置,被配置為接收用戶對所述文檔的操作;分析裝置,被配置為對所接收到的操作進(jìn)行分析;以及導(dǎo)視圖生成裝置,被配置為利用所述分析結(jié)果和所述文檔的基礎(chǔ)結(jié)構(gòu),生成結(jié)構(gòu)化文檔導(dǎo)視圖。根據(jù)本發(fā)明的方法和系統(tǒng),可以通過用戶的閱讀行為或所添加的注釋來分析用戶的閱讀興趣、習(xí)慣,并將分析結(jié)果映射為可直觀地展示的結(jié)構(gòu)化文檔導(dǎo)視圖,使得電子文檔的讀者(可以是執(zhí)行閱讀行為的讀者也可以是首次閱讀該電子文檔的讀者)能夠直觀地獲取與用戶的閱讀興趣、習(xí)慣相關(guān)的信息,以便利其閱讀電子文檔。
通過對結(jié)合附圖所示出的實(shí)施方式進(jìn)行詳細(xì)說明,本發(fā)明的上述以及其他特征將更加明顯,本發(fā)明附圖中相同的標(biāo)號(hào)表示相同或相似的部件。在附圖中,圖I示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算系統(tǒng)100的框圖;圖2示出了根據(jù)本發(fā)明一實(shí)施例的用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的方法的流程圖;圖3示出了根據(jù)本發(fā)明又一實(shí)施例的用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的方法的流程圖;圖4示出了根據(jù)本發(fā)明一實(shí)施例的所生成的結(jié)構(gòu)化文檔導(dǎo)視圖的實(shí)例;圖5示出了根據(jù)本發(fā)明一實(shí)施例的用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的系統(tǒng)的框圖。
具體實(shí)施例方式在下文中,將參考附圖通過實(shí)施方式對本發(fā)明提供的用于的方法和系統(tǒng)進(jìn)行詳細(xì)地描述。所屬技術(shù)領(lǐng)域的技術(shù)人員知道,本發(fā)明的多個(gè)方面可以體現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明的多個(gè)方面可以具體實(shí)現(xiàn)為以下形式,即,可以是完全的硬件、完全的軟件(包括固件、駐留軟件、微代碼等)、或者本文一般稱為“電路”、“模塊”或“系統(tǒng)”的軟件部分與硬件部分的組合。此外,本發(fā)明的多個(gè)方面還可以采取體現(xiàn)在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)中包含計(jì)算機(jī)可用的程序碼。可以使用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任何組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是一但不限于——電的、磁的、光的、電磁的、紅外線的、或半導(dǎo)體的系統(tǒng)、裝置、器件或任何以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括以下有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任何合適的組合。在本文件的語境中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形的介質(zhì),該程序被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。計(jì)算機(jī)可讀的信號(hào)介質(zhì)可包括在基帶中或者作為載波一部分傳播的、其中體現(xiàn)計(jì)算機(jī)可讀的程序碼的傳播的數(shù)據(jù)信號(hào)。這種傳播的信號(hào)可以采用多種形式,包括一但不限于一電磁信號(hào)、光信號(hào)或任何以上合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以是并非為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、但是能發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序的任何計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于——無線、電線、光纜、RF等等,或者任何合適的上述組合。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于——無線、電線、光纜、RF等等,或者任何合適的上述組合。用于執(zhí)行本發(fā)明的操作的計(jì)算機(jī)程序碼,可以以一種或多種程序設(shè)計(jì)語言的任何組合來編寫,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言-諸如Java、Smalltalk、C++之類,還包括常規(guī)的過程式程序設(shè)計(jì)語言-諸如”C”程序設(shè)計(jì)語言或類似的程序設(shè)計(jì)語言。程序碼可以完全地在用戶的計(jì)算上執(zhí)行、部分地在用戶的計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶的計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在后一種情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任何種類的網(wǎng)絡(luò)一包括局域網(wǎng) (LAN)或廣域網(wǎng)(WAN)-連接到用戶的計(jì)算機(jī),或者,可以(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng))連接到外部計(jì)算機(jī)。以下參照按照本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明的多個(gè)方面。要明白的是,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,使得通過計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令,產(chǎn)生實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。也可以把這些計(jì)算機(jī)程序指令存儲(chǔ)在能指令計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計(jì)算機(jī)可讀介質(zhì)中,這樣,存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令產(chǎn)生一個(gè)包括實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instruction means)的制造品。也可以把計(jì)算機(jī)程序指令加載到計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置上,使得在計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置上執(zhí)行一系列操作步驟,以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過程,從而在計(jì)算機(jī)或其它可編程裝置上執(zhí)行的指令就提供實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。下面參看圖I。圖I示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算系統(tǒng)100的框圖。如所示,計(jì)算機(jī)系統(tǒng)100可以包括CPU(中央處理單元)101、RAM(隨機(jī)存取存儲(chǔ)器)102、ROM (只讀存儲(chǔ)器)103、系統(tǒng)總線104、硬盤控制器105、鍵盤控制器106、串行接口控制器107、并行接口控制器108、顯示控制器109、硬盤110、鍵盤111、串行外部設(shè)備112、并行外部設(shè)備113和顯示器114。在這些設(shè)備中,與系統(tǒng)總線104耦合的有CPU IOU RAM102,ROM 103、硬盤控制器105、鍵盤控制器106、串行控制器107、并行控制器108和顯示控制器109。硬盤110與硬盤控制器105耦合,鍵盤111與鍵盤控制器106耦合,串行外部設(shè)備112與串行接口控制器107耦合,并行外部設(shè)備113與并行接口控制器108耦合,以及顯示器114與顯示控制器109耦合。應(yīng)當(dāng)理解,圖I所述的結(jié)構(gòu)框圖僅僅為了示例的目的而示出的,而不是對本發(fā)明范圍的限制。在某些情況下,可以根據(jù)具體情況而增加或者減少某些設(shè)備。圖2示出了根據(jù)本發(fā)明一實(shí)施例的用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的方法的流程圖。圖2所示的方法從步驟201開始。在步驟201中,接收用戶對文檔的操作。本發(fā)明中的“文檔”,如無特別說明,均指“電子文檔”。本發(fā)明中的“電子文檔”包括所有以數(shù)據(jù)的形式在電子媒介中存儲(chǔ)的文本、表格、可讀指令、圖像、甚至是音視頻內(nèi)容。根據(jù)本發(fā)明的一個(gè)實(shí)施例,“電子文檔”中包含了結(jié)構(gòu)化信息。所謂文檔的結(jié)構(gòu)化信息,是指電子文檔中以數(shù)據(jù)形式存儲(chǔ)的關(guān)于文檔基礎(chǔ)結(jié)構(gòu)的信息,例如包括電子 文檔的各個(gè)部分之間的層級(jí)關(guān)系及其各個(gè)部分的簡要信息(如章節(jié)代碼、標(biāo)題等)。以O(shè)ffice Word(微軟公司注冊商標(biāo))軟件為例,對于一篇Word文檔而言,可以通過“大綱視圖”的選項(xiàng)來顯示其結(jié)構(gòu)化信息,其中可以展示各個(gè)段落所屬的層級(jí)以及各個(gè)段落間的從屬關(guān)系。在編輯Word文檔時(shí)也可以在“大綱視圖”的選項(xiàng)下對段落間的層級(jí)關(guān)系進(jìn)行設(shè)定。有的Word文檔還具有目錄及索引信息,這樣就更直接地提供了電子文檔的結(jié)構(gòu)化信息。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,不同的電子文檔處理軟件可能具有不同的存儲(chǔ)或表示其結(jié)構(gòu)化信息的方式,諸如分段符(通常響應(yīng)于“回車鍵”輸入)、分節(jié)符等都可以用于記錄或表示電子文檔的結(jié)構(gòu)化信息。即使在沒有現(xiàn)成的目錄或索引信息的情況下,也可以通過分析文檔的格式和樣式,如標(biāo)題級(jí)別、段落換行、頁碼等來提煉出電子文檔的結(jié)構(gòu)化信息。根據(jù)本發(fā)明的一個(gè)實(shí)施例,用戶對電子文檔的操作包括用戶對電子文檔的閱讀行為,例如用戶在閱讀過程中停留在電子文檔中的某一部分(章節(jié)或段落)的時(shí)間、閱讀某一部分的頻率、在電子文檔的若干部分之間的跳轉(zhuǎn)關(guān)系等。這是基于如下的考慮上述列舉的閱讀行為均可以從某種程度上反映用戶在閱讀電子文檔過程中的閱讀興趣或習(xí)慣。例如,如果用戶在電子文檔中的某一段落停留了很長時(shí)間或多次停留在該段落,則說明用戶需要很長時(shí)間來讀懂該部分內(nèi)容或者需要反復(fù)多次閱讀該部分內(nèi)容,從而進(jìn)一步說明該部分內(nèi)容比較重要或者比較難以理解。又如,如果用戶經(jīng)常在電子文檔的第二段和第四段間跳轉(zhuǎn),則說明這兩個(gè)段落間存在某種關(guān)聯(lián)性,經(jīng)常需要結(jié)合起來閱讀。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,用戶對電子文檔的閱讀行為可能包含很多其它的類型,絕不僅限于上述列舉的幾種。例如,用戶直接刪除電子文檔中的某一段落也是一種閱讀行為,該操作可以反映用戶認(rèn)為該段落沒有價(jià)值等含義。又例如用戶對文檔部分內(nèi)容的外設(shè)操作,如鼠標(biāo)選擇反顯部分內(nèi)容,打印某段內(nèi)容等也均屬于用戶對文檔的閱讀行為。根據(jù)本發(fā)明的又一實(shí)施例,用戶對電子文檔的操作包括用戶在電子文檔中輸入注釋。所輸入的注釋既可以是文字的記錄(例如在某一段落結(jié)尾處輸入“精彩”),也可以是符號(hào)標(biāo)識(shí)(例如在某一頁結(jié)尾處輸入“? ”以表示讀者對該頁內(nèi)容有疑惑)。所輸入的注釋體現(xiàn)了用戶在閱讀電子文檔過程中的興趣或者特定情緒。由于用戶對電子文檔的操作是通過存儲(chǔ)或展示電子文檔的電子媒介進(jìn)行的,因此用戶的操作自然可以被電子媒介所記錄。接下來,圖2所示的方法進(jìn)行至步驟202。在步驟202中,對所接收到的操作進(jìn)行分析。從上文中可知,由于所接收到的用戶對電子文檔的操作體現(xiàn)了用戶在閱讀過程中的興趣、習(xí)慣、關(guān)注點(diǎn)或者某些特定情緒,因此為了將這些閱讀興趣、習(xí)慣以可量化的方式直觀展示在結(jié)構(gòu)化文檔導(dǎo)視圖中,就需要對所接收到的操作進(jìn)行統(tǒng)計(jì)分析。下文中將結(jié)合圖3具體描述根據(jù)本發(fā)明多種實(shí)施例的分析方法。但是,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,無論采用何種方式、利用何種規(guī)則進(jìn)行分析,只要分析結(jié)果試圖反映(無論是定性地還是定量地)用戶的閱讀興趣、習(xí)慣,即落入本發(fā)明保護(hù)范圍。在步驟203中,利用分析結(jié)果和電子文檔的基礎(chǔ)結(jié)構(gòu),生成結(jié)構(gòu)化文檔導(dǎo)視圖?!敖Y(jié)構(gòu)化文檔導(dǎo)視圖”說明(I)該圖是結(jié)構(gòu)化的或者以結(jié)構(gòu)化的方式表征的圖形,例如樹形圖、層次關(guān)系圖、目錄索引圖等均為結(jié)構(gòu)化的圖;(2)該圖具有導(dǎo)視作用,這里所指的導(dǎo)視作用不僅僅是對文檔目錄、段落、分頁等簡單層次信息的導(dǎo)視,而是指包含了用戶閱讀興趣、習(xí)慣等信息的結(jié)構(gòu)化導(dǎo)視。可以理解,由于在步驟202中對用戶操作的分析是結(jié)合了電子文檔的基礎(chǔ)結(jié)構(gòu)信息進(jìn)行的對用戶閱讀興趣、習(xí)慣的分析,因此利用分析結(jié)果和電子文檔的基礎(chǔ)結(jié)構(gòu),就可以生成包含了用戶閱讀興趣、習(xí)慣信息的結(jié)構(gòu)化文檔導(dǎo)視圖。下文中將結(jié)合圖3和圖4具體描述生成結(jié)構(gòu)化文檔導(dǎo)視圖的實(shí)施例。綜上所述,利用圖2示出的方法,可以通過用戶對電子文檔的操作來分析用戶的閱讀興趣、習(xí)慣,并將分析結(jié)果映射為可直觀地展示的結(jié)構(gòu)化文檔導(dǎo)視圖,使得電子文檔的讀者(可以是執(zhí)行閱讀行為的讀者也可以是首次閱讀該電子文檔的讀者)能夠直觀地獲取·與用戶的閱讀興趣、習(xí)慣相關(guān)的信息,以便利其閱讀電子文檔。圖3示出了根據(jù)本發(fā)明又一實(shí)施例的用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的方法的流程圖。圖3所示的方法從步驟301開始,在步驟301中,接收用戶對電子文檔的操作,步驟301對應(yīng)于步驟201,在此不再贅述。接下來,進(jìn)行至步驟302,判斷所接收到的用戶操作的類型。如果所接收到的用戶操作為用戶對電子文檔的閱讀行為(參見上文對“閱讀行為”的說明),則進(jìn)行至步驟303,記錄與閱讀行為相關(guān)的數(shù)據(jù)。根據(jù)上文中對“閱讀行為”的說明,與閱讀行為相關(guān)的數(shù)據(jù)包括例如用戶在電子文檔某一部分停留的時(shí)間長度、用戶在單位時(shí)間內(nèi)閱讀電子文檔某一部分的次數(shù)、電子文檔的各個(gè)部分之間跳轉(zhuǎn)的順序等。接下來在步驟304中,根據(jù)預(yù)定的規(guī)則對所記錄的數(shù)據(jù)進(jìn)行分析,其中所述規(guī)則定義了如何將用戶的閱讀行為對應(yīng)至用戶對電子文檔的閱讀興趣或習(xí)慣。例如,預(yù)定的規(guī)則可以是If time > 60s, then mark the paragraph as“ important”,這一規(guī)則的含義是“如果用戶在電子文檔的某一段停留的時(shí)間超過60秒,則該段屬于重點(diǎn)段落”。預(yù)定的規(guī)則還可以是If direct jump > 5, then mark the two paragraphs as“related,,,這一規(guī)則的含義是“如果直接跳轉(zhuǎn)次數(shù)大于5,則這兩個(gè)段落間具有相關(guān)性。還有一些預(yù)定的規(guī)則可能是基于比較的,例如“閱讀次數(shù)最多的段落即為用戶最感興趣的段落”這一規(guī)則即需要對不同段落的閱讀次數(shù)進(jìn)行統(tǒng)計(jì)并最終得出分析結(jié)果。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上面只是給出了三個(gè)關(guān)于預(yù)定的規(guī)則的示例,完全可以根據(jù)需要預(yù)定不同的規(guī)則用于分析用戶閱讀行為數(shù)據(jù)。下面回到步驟302,如果在步驟302中判斷出所接收到的用戶操作為用戶在電子文檔中輸入注釋,則進(jìn)行至步驟305。在步驟305中,對所輸入的注釋進(jìn)行語義處理,以體現(xiàn)用戶對所述文檔的閱讀興趣或習(xí)慣。例如,如果用戶在電子文檔的某一段結(jié)尾處輸入問號(hào)“?”,則表明用戶對該段存有疑惑。這里所說的語義處理即是指將用戶輸入的注釋“?”進(jìn)行語義處理,分析得到這個(gè)注釋的語義一對該段存有疑惑。又例如,如果用戶將文檔中某一段的文字內(nèi)容選中然后加以特殊顏色背景以區(qū)分與其它文字,則通過語義處理將特殊顏色背景所覆蓋的文字分析為一該段內(nèi)容比較重要。根據(jù)本發(fā)明的一個(gè)實(shí)施例,對用戶輸入的注釋進(jìn)行語義處理是根據(jù)預(yù)定的規(guī)則進(jìn)行的。這里所指的預(yù)定的規(guī)則可以是例如“?一疑惑內(nèi)容”(表示用戶如果輸入“?”,則表示對該段內(nèi)容有疑惑)、“ifbackgr0Undcolor = blue, then the covered text is important”(表不如果部分文字內(nèi)容為藍(lán)色背景,則表示該部分為重要內(nèi)容)。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上面只是給出了兩個(gè)針對用戶輸入注釋的預(yù)定的規(guī)則的示例,完全可以根據(jù)需要預(yù)定不同的規(guī)則用于對用戶輸入的注釋進(jìn)行語義處理。
圖3所示的方法進(jìn)行至步驟306,生成電子文檔的基礎(chǔ)結(jié)構(gòu)圖。上文中結(jié)合圖2已經(jīng)介紹了如何提煉電子文檔的結(jié)構(gòu)化信息。步驟306中即是將所提煉的電子文檔的結(jié)構(gòu)化信息以圖形的方式展示出來,即結(jié)構(gòu)化的基礎(chǔ)結(jié)構(gòu)圖?;A(chǔ)結(jié)構(gòu)圖的具體形式取決于電子文檔的結(jié)構(gòu)組織形式,例如,可能是樹形圖、索引目錄圖、層級(jí)關(guān)系圖等。無論是何種樣式、效果的圖,只要其反映了電子文檔自身的結(jié)構(gòu)化信息,即屬于步驟306中所指的“基礎(chǔ)結(jié)構(gòu)圖”。根據(jù)本發(fā)明的一個(gè)實(shí)施例,“基礎(chǔ)結(jié)構(gòu)圖”可以是對文檔的部分內(nèi)容的“基礎(chǔ)結(jié)構(gòu)圖”而并非整篇文檔的全部“基礎(chǔ)結(jié)構(gòu)圖”。在步驟307中,設(shè)定代表不同含義的圖例標(biāo)記。設(shè)定圖例標(biāo)記的目的是為了將步驟304或305中的分析結(jié)果以圖形標(biāo)記的方式進(jìn)行表示。例如,可以用矩形標(biāo)記表示“用戶最感興趣的段落”、可以用橢圓形標(biāo)記表示“用戶最近閱讀的段落”、可以用矩形標(biāo)記表示“最頻繁被引用的段落”、可以用單向箭頭表示“單向引用”、可以用雙向箭頭表示“雙向引用”、可以用“? ”表示“需要跟進(jìn)”等。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,可以根據(jù)需要設(shè)定不同的圖例標(biāo)記,也可以隨時(shí)修改已經(jīng)設(shè)定的圖例標(biāo)記。接下來在步驟308中,利用在步驟304和305中的分析結(jié)果,將圖例標(biāo)記附加至電子文檔的基礎(chǔ)結(jié)構(gòu)圖中,從而生成結(jié)構(gòu)化的文檔導(dǎo)視圖。例如,如果用戶最后閱讀的段落是電子文檔的第2段,則將表示“用戶最近閱讀的段落”的橢圓形圖例標(biāo)記添加至電子文檔的基礎(chǔ)結(jié)構(gòu)圖中的代表第2段的相應(yīng)位置。又例如,假設(shè)在步驟304根據(jù)規(guī)則“閱讀次數(shù)最多的段落即為用戶最感興趣的段落”分析得到用戶對第2章最感興趣,則將表示“用戶最感興趣的段落”的矩形圖例標(biāo)記添加至電子文檔的基礎(chǔ)結(jié)構(gòu)圖中的代表第2章的相應(yīng)位置。根據(jù)本發(fā)明的一個(gè)實(shí)施例,除了直接將圖例標(biāo)記附加至電子文檔的基礎(chǔ)結(jié)構(gòu)圖中外,為了提供更好的用戶體驗(yàn),還可以在結(jié)構(gòu)化文檔導(dǎo)視圖中加入相應(yīng)圖例標(biāo)記的屬性,例如對于“單向箭頭”這一表示單向引用關(guān)系的圖例標(biāo)記,可以在結(jié)構(gòu)化文檔導(dǎo)視圖中的相應(yīng)的單向箭頭上加入屬性“關(guān)鍵詞”,以便用戶能夠更直觀地了解此單向引用關(guān)系是基于何種關(guān)鍵詞建立的。根據(jù)本發(fā)明的一個(gè)實(shí)施例,當(dāng)“基礎(chǔ)結(jié)構(gòu)圖”是文檔的部分內(nèi)容的“基礎(chǔ)結(jié)構(gòu)圖”的情況下,所生成的結(jié)構(gòu)化文檔導(dǎo)視圖也是基于文檔的部分內(nèi)容的導(dǎo)視圖。例如,可以按照用戶的閱讀進(jìn)度,一步步地為用戶已經(jīng)閱讀過的文檔部分生成結(jié)構(gòu)化的文檔導(dǎo)視圖。當(dāng)然,也可以無論用戶已經(jīng)閱讀了文檔的哪些內(nèi)容,而直接生成整篇文檔全部“基礎(chǔ)結(jié)構(gòu)圖”,并進(jìn)而在完整的基礎(chǔ)結(jié)構(gòu)圖上附加相應(yīng)的圖例標(biāo)記,以生成結(jié)構(gòu)化文檔導(dǎo)視圖。需要指出的是,圖3所示的方法中的步驟306和307既可以如圖所示在完成304和305的分析步驟之后執(zhí)行,也可以在執(zhí)行301接收用戶操作的步驟之前進(jìn)行,甚至可以在任何時(shí)間段進(jìn)行,只要在最終生成結(jié)構(gòu)化的文檔導(dǎo)視圖(步驟308)之前,生成了文檔基礎(chǔ)結(jié)構(gòu)圖并設(shè)定好圖例標(biāo)記即可,步驟306和307的執(zhí)行與否并不影響步驟301至305的執(zhí)行。此外,步驟306和步驟307本身也沒有執(zhí)行順序先后之分,既可以先設(shè)定圖例標(biāo)記再生成電子文檔的基礎(chǔ)結(jié)構(gòu)圖,也可以先生成電子文檔的基礎(chǔ)結(jié)構(gòu)圖再設(shè)定圖例標(biāo)記。還需要指出的是,步驟302判斷后的兩條分支(一條分支為步驟303和304,另一分支為步驟305)并非都是必需的。本領(lǐng)域技術(shù)人員在理解了本發(fā)明的內(nèi)容之后完全可以只采用其中一條分支的步驟進(jìn)行分析,例如只對用戶輸入的注釋進(jìn)行分析或者只對用戶的閱讀行為數(shù)據(jù)進(jìn)行分析,同樣可以在不脫離本發(fā)明技術(shù)構(gòu)思的情況下生成結(jié)構(gòu)化文檔導(dǎo)視圖,同樣落入本發(fā)明的保護(hù)范圍。因此,在只對用戶輸入的注釋進(jìn)行分析或者只對用戶的閱讀行為數(shù)據(jù)進(jìn)行分析時(shí),判斷步驟302也可以省略。圖4示出了根據(jù)本發(fā)明一實(shí)施例的所生成的結(jié)構(gòu)化文檔導(dǎo)視圖的實(shí)例。圖4的右下角示出了圖例標(biāo)記的具體含義。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,最終生成并展示的結(jié)構(gòu)化文檔導(dǎo)視圖中并非一定要展示圖例標(biāo)記的具體含義,用戶可以另行查找圖例標(biāo)記的定義。圖4示出的結(jié)構(gòu)化文檔導(dǎo)視圖中包含5種圖例標(biāo)記,分別是矩形、橢圓形、五邊形、問號(hào)、單向 箭頭和雙向箭頭。除了這5種圖例標(biāo)記外,剩余的圖形部分即來自于電子文檔的基礎(chǔ)結(jié)構(gòu)圖——展示了電子文檔的標(biāo)題、章節(jié)、章節(jié)下的段落等結(jié)構(gòu)化信息。下面以問號(hào)、五邊形和單向箭頭三種圖例標(biāo)記為例來具體說明。對于問號(hào)(?)這一圖例標(biāo)記而言,如果用戶在閱讀過程中曾在某處用問號(hào)做過標(biāo)記,在生成導(dǎo)視圖時(shí),就會(huì)在該段落旁標(biāo)記一個(gè)問號(hào),并且把用戶標(biāo)注的問題作為標(biāo)簽屬性。在圖4中,用戶在2. 2節(jié)下面的第k段輸入了用戶注釋“?”并又進(jìn)一步輸入了具體的問題,那么在圖4中第k段的位置即會(huì)顯示這個(gè)“? ”。根據(jù)本發(fā)明的一個(gè)實(shí)施例,用戶所輸入的具體的問題可以與“? ”一起直接顯示在結(jié)構(gòu)化文檔導(dǎo)視圖中。根據(jù)本發(fā)明的另一實(shí)施例,響應(yīng)于用戶點(diǎn)擊圖4中的“?”,進(jìn)一步顯示用戶之前所輸入的具體問題。對于五邊形這一圖例標(biāo)記而言,如果經(jīng)過分析得知,用戶對某個(gè)段落最感興趣,那
么在生成導(dǎo)視圖時(shí)’會(huì)在該段落旁附加一個(gè)代表用戶最感興趣的標(biāo)簽1^^·并且會(huì)把分
O
析得出的其他額外信息,如用戶最感興趣的行、關(guān)鍵字,以及訪問頻率等作為標(biāo)簽屬性。從圖4中可以看出,在這篇電子文檔中,用戶對第3章第t段最感興趣。圖4中也并未直接顯示這一最感興趣的段落,而是響應(yīng)于用戶點(diǎn)擊了第3章的圖標(biāo),才最終顯示第3章下面的更具體的結(jié)構(gòu)化導(dǎo)視圖。當(dāng)然,本領(lǐng)域技術(shù)人員也完全可以令所有結(jié)構(gòu)化導(dǎo)視圖信息同時(shí)顯
/Jn ο對于單向箭頭這一圖例標(biāo)記而言,如果經(jīng)分析得知,用戶認(rèn)為段落a與段落h之間有邏輯引用關(guān)系,并且關(guān)鍵詞X被視為重要的鏈接點(diǎn)。那么在生成導(dǎo)視圖時(shí),就會(huì)添加從段落h指向a的箭頭標(biāo)注,且在箭線上注明關(guān)鍵字X。該箭頭包括的屬性包括引用次數(shù),關(guān)鍵字等。以上是生成基于用戶理解和興趣的文檔導(dǎo)向圖的基本流程。圖的繪制可以利用現(xiàn)有的控件技術(shù)實(shí)現(xiàn)。根據(jù)本發(fā)明的一個(gè)實(shí)施例,結(jié)構(gòu)化文檔導(dǎo)視圖是可編輯的。也就是說,導(dǎo)視圖生成后,用戶可以對自動(dòng)生成的文檔導(dǎo)視圖上的任一節(jié)點(diǎn)和圖元作相應(yīng)地增,刪,改。也可以將該文檔或書籍的導(dǎo)視圖導(dǎo)出Pdf或xml等格式,與其他讀者共享。結(jié)構(gòu)化文檔導(dǎo)視圖是可編輯的也可體現(xiàn)為根據(jù)該文檔的其它用戶對該文檔的操作而進(jìn)一步完善、修正已經(jīng)存在的結(jié)構(gòu)化文檔導(dǎo)視圖,從而使得所生成的結(jié)構(gòu)化文檔導(dǎo)視圖能夠體現(xiàn)多個(gè)用戶對該文檔的閱讀歷史、興趣、習(xí)慣。
圖5示出了根據(jù)本發(fā)明一實(shí)施例的用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的系統(tǒng)的框圖。圖5所示的系統(tǒng)在整體上由系統(tǒng)500表示。具體地,系統(tǒng)500包括接收裝置501,被配置為接收用戶對所述文檔的操作;分析裝置502,被配置為對所接收到的操作進(jìn)行分析;以及導(dǎo)視圖生成裝置503,被配置為利用所述分析結(jié)果和所述文檔的基礎(chǔ)結(jié)構(gòu),生成結(jié)構(gòu)化文檔導(dǎo)視圖。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,系統(tǒng)500中的裝置501-503分別對應(yīng)于圖2所示的方法中的步驟201-203,在此不再贅述。附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。 雖然以上結(jié)合具體實(shí)例,對本發(fā)明的利用遠(yuǎn)程應(yīng)用處理本地文件的系統(tǒng)及方法進(jìn)行了詳細(xì)描述,但本發(fā)明并不限于此。本領(lǐng)域普通技術(shù)人員能夠在說明書教導(dǎo)之下對本發(fā)明進(jìn)行多種變換、替換和修改而不偏離本發(fā)明的精神和范圍。應(yīng)該理解,所有這樣的變化、替換、修改仍然落入本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明的保護(hù)范圍由所附權(quán)利要求來限定。
權(quán)利要求
1.一種用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的方法,包括 接收用戶對所述文檔的操作; 對所接收到的操作進(jìn)行分析;以及 利用所述分析結(jié)果和所述文檔的基礎(chǔ)結(jié)構(gòu),生成結(jié)構(gòu)化文檔導(dǎo)視圖。
2.如權(quán)利要求I所述的方法,其中對所接收到的操作進(jìn)行分析包括 響應(yīng)于所接收到的操作是對所述文檔的閱讀行為, 記錄與所述閱讀行為相關(guān)的數(shù)據(jù);并且 根據(jù)預(yù)定的規(guī)則對所記錄的數(shù)據(jù)進(jìn)行分析,其中所述規(guī)則定義了如何將用戶的閱讀行為對應(yīng)至用戶對所述文檔的閱讀興趣或習(xí)慣。
3.如權(quán)利要求I所述的方法,其中對所接收到的操作進(jìn)行分析包括 響應(yīng)于所接收到的操作是在所述文檔中輸入注釋,對所輸入的注釋進(jìn)行語義處理,以體現(xiàn)用戶對所述文檔的閱讀興趣或習(xí)慣。
4.如權(quán)利要求2所述的方法,其中與所述閱讀行為相關(guān)的數(shù)據(jù)包括至少下列之一在所述文檔的某一部分停留的時(shí)間、在所述文檔的若干部分之間的跳轉(zhuǎn)以及對所述文檔的某一部分的訪問頻率、用戶對文檔部分內(nèi)容的外設(shè)操作。
5.如權(quán)利要求1-4任一所述的方法,所述文檔的基礎(chǔ)結(jié)構(gòu)是依據(jù)下列一種或多種信息獲取的所述文檔的內(nèi)容目錄、所述文檔的索引信息、所述文檔的格式及樣式信息。
6.如權(quán)利要求1-4任一所述的方法,其中利用所述分析結(jié)果和所述文檔的基礎(chǔ)結(jié)構(gòu),生成結(jié)構(gòu)化文檔導(dǎo)視圖包括 生成所述文檔的基礎(chǔ)結(jié)構(gòu)圖; 設(shè)定代表不同含義的圖例標(biāo)記;以及 利用所述分析結(jié)果,將所述圖例標(biāo)記附加至所述基礎(chǔ)結(jié)構(gòu)圖中。
7.如權(quán)利要求1-4任一所述的方法,所生成的結(jié)構(gòu)化文檔導(dǎo)視圖是可編輯的。
8.一種用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的系統(tǒng),包括 接收裝置,被配置為接收用戶對所述文檔的操作; 分析裝置,被配置為對所接收到的操作進(jìn)行分析;以及 導(dǎo)視圖生成裝置,被配置為利用所述分析結(jié)果和所述文檔的基礎(chǔ)結(jié)構(gòu),生成結(jié)構(gòu)化文檔導(dǎo)視圖。
9.如權(quán)利要求8所述的系統(tǒng),所述分析裝置被配置為 響應(yīng)于所接收到的操作是對所述文檔的閱讀行為, 記錄與所述閱讀行為相關(guān)的數(shù)據(jù);并且 根據(jù)預(yù)定的規(guī)則對所記錄的數(shù)據(jù)進(jìn)行分析,其中所述規(guī)則定義了如何將用戶的閱讀行為對應(yīng)至用戶對所述文檔的閱讀興趣或習(xí)慣。
10.如權(quán)利要求8所述的系統(tǒng),所述分析裝置被配置為 響應(yīng)于所接收到的操作是在所述文檔中輸入注釋,對所輸入的注釋進(jìn)行語義處理,以體現(xiàn)用戶對所述文檔的閱讀興趣或習(xí)慣。
11.如權(quán)利要求8所述的系統(tǒng),其中與所述閱讀行為相關(guān)的數(shù)據(jù)包括至少下列之一在所述文檔的某一部分停留的時(shí)間、在所述文檔的若干部分之間的跳轉(zhuǎn)以及對所述文檔的某一部分的訪問頻率、用戶對文檔部分內(nèi)容的外設(shè)操作。
12.如權(quán)利要求8-11任一所述的系統(tǒng),所述文檔的基礎(chǔ)結(jié)構(gòu)是依據(jù)下列一種或多種信息獲取的所述文檔的內(nèi)容目錄、所述文檔的索引信息、所述文檔的格式及樣式信息。
13.如權(quán)利要求8-11任一所述的系統(tǒng),其中導(dǎo)視圖生成裝置被配置為 生成所述文檔的基礎(chǔ)結(jié)構(gòu)圖; 設(shè)定代表不同含義的圖例標(biāo)記;以及 利用所述分析結(jié)果,將所述圖例標(biāo)記附加至所述基礎(chǔ)結(jié)構(gòu)圖中。
14.如權(quán)利要求8-11任一所述的系統(tǒng),所生成的結(jié)構(gòu)化文檔導(dǎo)視圖是可編輯的。
全文摘要
本發(fā)明涉及文檔處理技術(shù)領(lǐng)域。更具體地,本發(fā)明涉及用于生成可以體現(xiàn)用戶的閱讀興趣和習(xí)慣的結(jié)構(gòu)化文檔導(dǎo)視圖的方法和系統(tǒng)。本發(fā)明提供了一種用于生成結(jié)構(gòu)化文檔導(dǎo)視圖的方法,包括接收用戶對所述文檔的操作;對所接收到的操作進(jìn)行分析;以及利用所述分析結(jié)果和所述文檔的基礎(chǔ)結(jié)構(gòu),生成結(jié)構(gòu)化文檔導(dǎo)視圖。通過本發(fā)明,可以利用用戶的閱讀行為或所添加的注釋來分析用戶的閱讀興趣、習(xí)慣,并將分析結(jié)果映射為可直觀地展示的結(jié)構(gòu)化文檔導(dǎo)視圖,使得電子文檔的讀者能夠直觀地獲取與用戶的閱讀興趣、習(xí)慣相關(guān)的信息,以便利其閱讀電子文檔。
文檔編號(hào)G06F17/30GK102902697SQ20111022607
公開日2013年1月30日 申請日期2011年7月29日 優(yōu)先權(quán)日2011年7月29日
發(fā)明者姚毅, 付國康, 王冰欣, 高雪峰, 張大偉 申請人:國際商業(yè)機(jī)器公司