[0143]在步驟S1240中,計算文本和用戶輸入動作的位置之間的距離。
[0144]在步驟S1250中,提取與用戶輸入動作的距離最小的內(nèi)容。
[0145]步驟S1262至S1268基本上與步驟S210至S240相同,為了簡單起見,省略對它們的描述。
[0146]在步驟S1270中,輸出響應(yīng)于接收到的用戶輸入動作的提取內(nèi)容或主題內(nèi)容區(qū)域。
[0147]根據(jù)本發(fā)明的實施例,有多種用于處理所提取的主題內(nèi)容區(qū)域的方式。
[0148]例如,可以以高亮顯示、尺寸改變和顏色變化中的至少一種方式對響應(yīng)于用戶輸入動作的主題內(nèi)容區(qū)域進(jìn)行輸出。以對所選擇的內(nèi)容進(jìn)行高亮顯示為例。在圖4C中,當(dāng)用戶通過手勢在文本“Mt.Fuji”下方掃過時,相關(guān)技術(shù)可能對該文本或者下面的文本“most”或“popular”進(jìn)行高亮顯示。相對照地,所公開的內(nèi)容提取方法將對用黑體示出的整個主題內(nèi)容區(qū)域進(jìn)行高亮顯示。在圖4B中,當(dāng)用戶在右側(cè)垂直地從第一行掃到第二行時,相關(guān)技術(shù)可能對第一行和第二行中的兩個文本“6-llyrs”都進(jìn)行高亮顯示。相對照地,所公開的內(nèi)容提取方法將對用黑體示出的整個主題內(nèi)容區(qū)域進(jìn)行高亮顯示。
[0149]再例如,可以對響應(yīng)于用戶輸入動作的主題內(nèi)容區(qū)域進(jìn)行編輯或由用戶對其添加評論。
[0150]又例如,可以將響應(yīng)于用戶輸入動作的主題內(nèi)容區(qū)域呈現(xiàn)或保存在用戶指定的位置中。例如,當(dāng)用戶想要填寫表格時,用戶可以將整個主題內(nèi)容區(qū)域放置到表格的對應(yīng)空格中,以避免輸入多條信息的麻煩。再例如,在用戶是旅行社的職員和顧客的情況下,在進(jìn)行一些討論之后,他們想要填寫旅游計劃的表格。表格中的項目的內(nèi)容已經(jīng)存在于文檔中,用戶可以通過使用如下手勢來容易地對表格進(jìn)行填寫:將一只手移動到文檔以靠近內(nèi)容(例如“non-stop overnight flight”),使用抓取手勢,將抓取的手移動到表格項目(例如“flight”),使用釋放手勢。作為結(jié)果,內(nèi)容(例如“non-stop overnight flight”)被填寫到與表格項目(例如“ fl ight ” )對應(yīng)的空格中。
[0151]雖然上述描述以英文文檔作為例子,但是本領(lǐng)域技術(shù)人員可以容易地想到所公開的方案也可以用在使用諸如中文、日文等的其他語言的文檔中、以及使用不同語言組合的文檔中。它們都落入由權(quán)利要求限制的本發(fā)明的范圍中。
[0152]基于根據(jù)本發(fā)明的實施例的內(nèi)容提取方法,通過提取主題內(nèi)容區(qū)域來理解用戶與文檔交互的潛在目的,其中主題內(nèi)容區(qū)域是文本、表格、圖片等語義單元的完整表現(xiàn)。然后,通過使用每個主題內(nèi)容區(qū)域的結(jié)構(gòu)類型來識別興趣內(nèi)容,其中興趣內(nèi)容是當(dāng)用戶想要獲得相應(yīng)的主題內(nèi)容區(qū)域時最可能被用戶注意到的。當(dāng)接收到用戶輸入動作(例如手勢)時,計算興趣內(nèi)容和用戶手勢之間的距離,并選擇對應(yīng)的一個或多個興趣內(nèi)容。最后,獲取包括所選擇的興趣內(nèi)容的主題內(nèi)容區(qū)域。由于主題內(nèi)容區(qū)域和興趣內(nèi)容的使用,可以在向用戶提供有意義的內(nèi)容的同時提高內(nèi)容提取的準(zhǔn)確度。
[0153]此外,相關(guān)技術(shù)僅僅能夠處理文檔中的每個單詞,但是根據(jù)本發(fā)明的實施例的內(nèi)容提取方法可以提取將用作構(gòu)成主題內(nèi)容區(qū)域的元素的語義單元。當(dāng)用戶想要選擇顯示文檔中的內(nèi)容時,在大多數(shù)情況下用戶的目的是選擇語義單元,從而所公開的內(nèi)容提取方法可以向用戶提供更完整的信息或內(nèi)容。
[0154]此外,相關(guān)技術(shù)計算文本和手勢的坐標(biāo)的距離,但是根據(jù)本發(fā)明的實施例的內(nèi)容提取方法可以計算興趣內(nèi)容和手勢的坐標(biāo)的距離。當(dāng)用戶與文檔交互時,用戶優(yōu)選使用恰當(dāng)且簡單的手勢,而不是指向文檔中的每一個單詞。相關(guān)技術(shù)可能不能返回精確的結(jié)果。相對照地,所公開的內(nèi)容提取方法可以通過使用主題內(nèi)容區(qū)域的興趣內(nèi)容來處理該問題。該功能對于低分辨率UI(用戶界面)環(huán)境是特別希望的。
[0155]此外,根據(jù)本發(fā)明的實施例的內(nèi)容提取方法可以向用戶提供具有完整語義含義的所選主題內(nèi)容區(qū)域,而不單純是在不考慮含義的情況下的文檔片段。并且,由于興趣內(nèi)容的使用,所公開的內(nèi)容提取方法可以準(zhǔn)確地提取用戶想要選擇的內(nèi)容,而不單純是靠近用戶手勢的單詞。此外,基于主題內(nèi)容區(qū)域和興趣內(nèi)容,使得用戶能夠使用較少的動作來選擇他想要的內(nèi)容。
[0156]上面描述了內(nèi)容提取方法。接下來,將參考圖13至15來描述根據(jù)本發(fā)明的實施例的內(nèi)容提取裝置和用于內(nèi)容提取的系統(tǒng)。
[0157]如圖13所示,內(nèi)容提取裝置1300包括區(qū)域提取單元1310、確定單元1320、識別單元1330和內(nèi)容提取單元1340。區(qū)域提取單元1310可被配置為提取輸入文檔中的多個主題內(nèi)容區(qū)域,其中每個主題內(nèi)容區(qū)域由輸入文檔中的關(guān)于同一主題的一個或多個元素組成。確定單元1320可被配置為對于至少一部分主題內(nèi)容區(qū)域中的每個主題內(nèi)容區(qū)域,確定該主題內(nèi)容區(qū)域的結(jié)構(gòu)類型,其中所述結(jié)構(gòu)類型通過該主題內(nèi)容區(qū)域中包含的元素確定。識別單元1330可被配置為對于所述至少一部分主題內(nèi)容區(qū)域中的每個主題內(nèi)容區(qū)域,根據(jù)該主題內(nèi)容區(qū)域的結(jié)構(gòu)類型識別該主題內(nèi)容區(qū)域中的興趣內(nèi)容,其中該主題內(nèi)容區(qū)域中的興趣內(nèi)容指示該主題內(nèi)容區(qū)域中最可能被用戶注意的至少一個元素。內(nèi)容提取單元1340可被配置為根據(jù)用戶輸入動作和所述至少一部分主題內(nèi)容區(qū)域中的每個主題內(nèi)容區(qū)域中的興趣內(nèi)容,提取響應(yīng)于用戶輸入動作的主題內(nèi)容區(qū)域。
[0158]區(qū)域提取單元1310、確定單元1320、識別單元1330和內(nèi)容提取單元1340的上述和/或其他操作和功能可以參考上面關(guān)于步驟S210至S240的描述,為了避免重復(fù)在此不再贅述。
[0159]因為根據(jù)本發(fā)明的實施例的內(nèi)容提取裝置利用主題內(nèi)容區(qū)域和興趣內(nèi)容來提取由用戶選擇的一個主題內(nèi)容區(qū)域中的所有內(nèi)容,因此可以在向用戶提供有意義的內(nèi)容的同時提高內(nèi)容提取的準(zhǔn)確度。
[0160]圖14示出了根據(jù)本發(fā)明的實施例的內(nèi)容提取裝置1400的結(jié)構(gòu)框圖。內(nèi)容提取裝置1400中的區(qū)域提取單元1410、確定單元1420、識別單元1430和內(nèi)容提取單元1440與內(nèi)容提取裝置1300中的區(qū)域提取單元1310、確定單元1320、識別單元1330和內(nèi)容提取單元1340相似。以下的描述將主要集中在內(nèi)容提取裝置1400和內(nèi)容提取裝置1300之間的不同之處。
[0161]根據(jù)本發(fā)明的實施例,區(qū)域提取單元1410可以包括第一提取子單元1412、第二提取子單元1414和第三提取子單元1416中的至少一個。第一提取子單元1412可被配置為提取輸入文檔中由用戶預(yù)先定義的主題內(nèi)容區(qū)域。第二提取子單元1414可被配置為通過使用用戶與輸入文檔之間的歷史交互信息來提取輸入文檔中的主題內(nèi)容區(qū)域。第三提取子單元1416可被配置為通過對輸入文檔進(jìn)行解析來提取輸入文檔中的主題內(nèi)容區(qū)域。例如,對輸入文檔進(jìn)行解析可以包括:從輸入文檔提取語義單元,其中每個語義單元選自包含單詞、短語、句子、段落、圖片和表格中的至少一種的組;對所提取的語義單元進(jìn)行排序;選擇排序級別高于閾值的語義單元作為元素;以及根據(jù)元素之間的關(guān)系提取主題內(nèi)容區(qū)域。
[0162]根據(jù)本發(fā)明的實施例,結(jié)構(gòu)類型可以包括單信息強調(diào)型、比較強調(diào)型、群信息強調(diào)型和對應(yīng)強調(diào)型中的至少一種。單信息強調(diào)型的主題內(nèi)容區(qū)域可以包含一個元素。比較強調(diào)型的主題內(nèi)容區(qū)域可以包含具有比較關(guān)系的多個元素。群信息強調(diào)型的主題內(nèi)容區(qū)域可以包含與同一關(guān)鍵詞關(guān)聯(lián)的多個元素。對應(yīng)強調(diào)型的主題內(nèi)容區(qū)域可以包含指示文本及其對應(yīng)圖片和/或表格的多個元素。
[0163]根據(jù)本發(fā)明的實施例,確定單元1420可以包括提取子單元1422、計算子單元1424和確定子單元1426。提取子單元1422可被配置為提取該主題內(nèi)容區(qū)域中包含的每個元素的詞匯特征、上下文特征和篇章特征中的至少一種。計算子單元1424可被配置為根據(jù)所提取的詞匯特征、上下文特征和篇章特征中的至少一種,計算該主題內(nèi)容區(qū)域中包含的每兩個元素之間的比較可能性和關(guān)聯(lián)程度。確定子單元1426可被配置為根據(jù)比較可能性和關(guān)聯(lián)程度來確定該主題內(nèi)容區(qū)域的結(jié)構(gòu)類型。
[0164]根據(jù)本發(fā)明的實施例,確定子單元1426可以包括第一確定部件1426-2、第二確定部件1426-4、第三確定部件1426-6和第四確定部件1426-8。第一確定部件1426-2可被配置為如果在該主題內(nèi)容區(qū)域中存在比較可能性達(dá)到第一閾值的至少兩個元素,則確定該主題內(nèi)容區(qū)域為比較強調(diào)型的主題內(nèi)容區(qū)域。第二確定部件1426-4可被配置為如果在該主題內(nèi)容區(qū)域中不存在比較可能性達(dá)到第一閾值的至少兩個元素、而存在與其它元素的關(guān)聯(lián)程度低于第二閾值的元素,則確定該元素單獨對應(yīng)一個單信息強調(diào)型的主題內(nèi)容區(qū)域。第三確定部件1426-6可被配置為如果在該主題內(nèi)容區(qū)域中不存在比較可能性達(dá)到第一閾值的至少兩個元素、并且不存在與其它元素的關(guān)聯(lián)程度低于第二閾值的元素、并且該主題內(nèi)容區(qū)域中的元素不包含圖片和表格,則確定該主題內(nèi)容區(qū)域為群信息強調(diào)型的主題內(nèi)容區(qū)域。第四確定部件1426-8可被配置為如果在該主題內(nèi)容區(qū)域中不存在比較可能性達(dá)到第一閾值的至少兩個元素、并且不存在與其它元素的關(guān)聯(lián)程度低于第二閾值的元素、并且該主題內(nèi)容區(qū)域中的元素包含圖片和/或表格,則確定該主題內(nèi)容區(qū)域為對應(yīng)強調(diào)型的主題內(nèi)容區(qū)域。
[0165]根據(jù)本發(fā)明的實施例,識別單元1430可進(jìn)一步被配置為在該主題內(nèi)容區(qū)域中包含的元素中識別與所述結(jié)構(gòu)類型對應(yīng)的提示詞和焦點詞作為興趣內(nèi)容,其中所述提示詞是用于反映結(jié)構(gòu)類型的單詞和/或短語,所述焦點詞是由結(jié)構(gòu)類型強調(diào)的單詞和/或短語。
[0166]根據(jù)本發(fā)明的實施例,識別單元1430可以包括第一確定子單元1432、第二確定子單元1434、第三確定子單元1436和第四確定子單元1438中的至少一個。第一確定子單元1432可被配置為對于單信息強調(diào)型,將唯一一個元素確定為興趣內(nèi)容。第二確定子單元1434可被配置為對于比較強調(diào)型,將重復(fù)結(jié)構(gòu)中包含的相同的單詞和/或短語確定為提示詞,并將重復(fù)結(jié)構(gòu)中包含的其它單詞和/或短語確定為焦點詞。第三確定子單元1436可被配置為對于群信息強調(diào)型,將包含有專有名詞的單詞和/或短語確定為提示詞,并將從該主題內(nèi)容區(qū)域提取的元素中作為除了提示詞之外的關(guān)鍵詞的單詞和/或短語確定為焦點詞。第四確定子單元1438可被配置為對于對應(yīng)強調(diào)型,將用于指示文本與圖片和/或表格之間的對應(yīng)關(guān)系的單詞和/或短語確定為提示詞,并將出現(xiàn)在該主題內(nèi)容區(qū)域中的不同位置中的相同的單詞和/或短語確定為焦點詞。
[0167]根據(jù)本發(fā)明的實施例,識別提示詞可以由第一識別部件和第二識別部件中的至少一個執(zhí)行。第一識別部件可被配置為通過使用基于歷史文檔收集的歷史提示詞信息來識別輸入文檔中包含的提示詞。第二識別部件可被配置為通過如下方式識別輸入文檔中包含的提示詞:提取每個主題內(nèi)容區(qū)域中的單詞和/或短語;識別所提取的每個單詞和/或短語所屬于的類別類型;識別具有相同結(jié)構(gòu)類型的主題內(nèi)容區(qū)域共有的類別類型;以及在所述具有相同結(jié)構(gòu)類型的主題內(nèi)容區(qū)域中的每一個中將屬于共有的類別類型的單詞和/或短語確定為對應(yīng)主題內(nèi)容區(qū)域中的提示詞。
[0168]根據(jù)本發(fā)明的實施例,第一識別部件可以包括獲取子部件、排序子部件和構(gòu)建子部件。獲取子部件可被配置為獲取歷史文檔中每種結(jié)構(gòu)類型涉及的單詞和/或短語。排序子部件可被配置為對所獲取的每種結(jié)構(gòu)類型涉及的單詞和/或短語進(jìn)行排序。構(gòu)建子部件可被配置為通過使用排序級別高于閾值的單詞和/或短語來構(gòu)建對應(yīng)結(jié)構(gòu)類型的歷史提示詞信息。
[0169]根據(jù)本發(fā)明的實施例,內(nèi)容提取單元1440可以包括第一內(nèi)容提取子單元1442、第二內(nèi)容提取子單元1444和第三內(nèi)容提取子單元1446中的至少一個。第一內(nèi)容提取子單元1442可被配置為將具有最多個數(shù)的與用戶輸入動作的軌跡重疊的興趣內(nèi)容的主題內(nèi)容區(qū)域確定為響應(yīng)于用戶輸入動作的主題內(nèi)容區(qū)域以供提取。第二內(nèi)容提取子單元1444可被配置為將具有與用戶輸入動作輸入的信息對應(yīng)的興趣內(nèi)容的主題內(nèi)容區(qū)域確定為響應(yīng)于用戶輸入動作的主題內(nèi)容區(qū)域以供提取。第三內(nèi)容提取子單元1446可被配置為根據(jù)用戶輸入動作的位置和所述至少一部分主題內(nèi)容區(qū)域中的每個主題內(nèi)容區(qū)域中的興趣內(nèi)容的位置之間的距離,提取響應(yīng)于用戶輸入動作的主題內(nèi)容區(qū)域。
[0170]根據(jù)本發(fā)明的實施例,所述用戶輸入動作的位置和所述至少一部分主題內(nèi)容區(qū)域中的每個主題內(nèi)容區(qū)域中的興趣內(nèi)容的位置之間的距離可以是通過如下方式確定的:檢測與用戶輸入動作對應(yīng)的坐標(biāo)位置和與該主題內(nèi)容區(qū)域中的興趣內(nèi)容對應(yīng)的坐標(biāo)位置;如果由與用戶輸入動作對應(yīng)的坐標(biāo)位置構(gòu)成的范圍和由與該主題內(nèi)容區(qū)域中的興趣內(nèi)容對應(yīng)的坐標(biāo)位置構(gòu)成的范圍存在重疊,則確