亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于版面信息的檢索方法

文檔序號:6573314閱讀:123來源:國知局

專利名稱::一種基于版面信息的檢索方法
技術領域
:本發(fā)明涉及檢索技術,具體涉及一種基于版面信息的檢索方法。技術背景隨著計算機技術的推廣和應用,采用電子文檔存儲信息已經(jīng)正在逐漸代替?zhèn)鹘y(tǒng)的信息存儲方式。電子紙張就是電子文檔的一種。電子紙張技術可以取代傳統(tǒng)的紙質信息的保存方式,它能夠以電子格式存儲文本、圖形和圖像等信息。這就給借助計算機技術,方便的瀏覽、處理電子紙張上的信息提供了方便。目前,對電子紙張的檢索方式,主要是針對文本、基于文本字符匹配的檢索。在應用時會發(fā)現(xiàn),由于輸入的檢索條件不夠精確,因此現(xiàn)有的檢索方式除了檢索到需要的文本,還會檢索到大量無用的文本。用戶需要從檢索得到的文本中再進行人為篩選,因此檢索不夠精確。而且,電子文檔存儲的遠遠不只有文本,還包括豐富的圖形、圖像、甚至媒體信息,而現(xiàn)有的檢索方法只停留在文本的檢索。目前有少數(shù)圖形、圖像檢索方法,也只能檢索出是否包含圖像,并進行定位,而不能根據(jù)用戶設定的檢索條件,進行有針對性的檢索。可見,現(xiàn)有的基于字符的電子文檔檢索方式,不能滿足全面、高效、準確的檢索要求。
發(fā)明內容有鑒于此,本發(fā)明的目的在于提供一種基于版面信息的檢索方法,能夠提高檢索效率、擴大可檢索對象的范圍。為達到上述目的,本發(fā)明的技術方案是這樣實現(xiàn)的本發(fā)明公開了一種基于版面信息的檢索方法,該方法包括設置檢索條件,該檢索條件包括版面信息;根據(jù)所述檢索條件,從所需檢索的電子文檔中獲取檢索結果。該方法進一步包括預先設置檢索條件與檢索規(guī)則的對應關系;所述獲取^r索結果的步驟包括根據(jù)所述檢索條件,從所述對應關系中獲取所述檢索條件對應的檢索規(guī)則;根據(jù)所述檢索條件及其檢索規(guī)則,從所需檢索的電子文檔中獲取沖全索結果。其中,所述設置檢索條件為用戶輸入版面信息,作為檢索條件;或者,所述設置檢索條件之前,該方法進一步包括預先將所述所需檢索的電子文檔涉及的版面信息提供給用戶;所述確定版面信息為用戶從所述提供的版面信息中選擇^r索條件。所述作為檢索條件的版面信息為文本版面信息、和/或圖形版面信息、和/或圖像版面信息、和/或公共版面信息。當所述版面信息為文本版面信息時,所述文本版面信息為字體、字號、文本顏色、文本填充方式、文本勾邊方式、文字特效中的一種或者任意組合。所述文本版面信息進一步包括文本字符。當所述版面信息為圖形版面信息時,所述圖形版面信息為圖形形狀、圖形大小、圖形填充方式、圖形勾邊方式中的一種,或任意組合。當所述版面信息為圖像版面信息時,所述圖像版面信息為圖像形狀、圖像大小、圖像顏色、圖像格式中的一種,或任意組合。當所述版面信息為公共版面信息時,所述公共版面信息為對象位置和/或對象坐標空間變換。與現(xiàn)有技術相比,本發(fā)明所提供的基于版面信息的檢索方案,采用單獨或組合的版面信息作為檢索條件,根據(jù)該檢索條件從所需檢索的電子文檔中得到檢索結果。由于作為檢索條件的版面信息包括了文本版面信息、圖形版面信息、圖像版面信息、公共版面信息,因此本發(fā)明在對文本進行檢索時,可以采用較現(xiàn)有技術更為豐富的版面信息作為檢索條件,檢索針對性更強,了檢索效率。而且,本發(fā)明還可以根據(jù)用戶輸入的版面信息,有針對性的對圖形和圖像進行檢索,擴大了可檢索對象的范圍。圖1為本發(fā)明實施例基于版面信息的檢索方法的流程圖;圖2為本發(fā)明實施例一實現(xiàn)基于版面信息的文本檢索的方法流程圖;圖3為本發(fā)明實施例二實現(xiàn)基于版面信息的圖形檢索的方法流程圖;圖4為本發(fā)明實施例三實現(xiàn)基于版面信息的圖像檢索的方法流程圖;圖5為本發(fā)明實施例四實現(xiàn)基于版面信息的圖像檢索的方法流程圖。具體實施方式為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚明白,下面結合實施例和附圖,對本發(fā)明進一步詳細說明。版面信息是對電子文檔可見部分的描述,包括呈現(xiàn)在版面上所有對象的可見屬性的描述。版面上的對象一般包括文本、圖形、圖形等,描述這些對象的可見屬性例如文本的字體、位置,圖像的分辨率、色彩,圖形的線寬、位置等。每類對象都具有描述其可見屬性的多個版面信息。對于不同對象,描述其可見屬性的版面信息不盡相同。本發(fā)明實施例的核心思想是用戶設置檢索條件,該檢索條件中包括版面信息,采用設置的檢索條件對需要檢索的電子文檔進行檢索,從而提供了一種全面、高效、準確的檢索方式。這里,電子文檔為以電子/數(shù)字方式存儲的文檔信息,其表現(xiàn)形式可能是單獨的文檔文件,如常見的Office文件、網(wǎng)頁等,也可能是以結構化數(shù)據(jù)形式存儲文檔信息的數(shù)據(jù)庫,或者是以非結構化數(shù)據(jù)形式存儲文檔信息的文檔庫,該文檔庫采用非結構操作標記語言(UOML)和文檔庫技術,可以存儲一個或一個以上的文檔文件。電子文檔中被檢索的對象為文本、圖形和圖像等以電子格式存儲的信息。作為檢索條件的版面信息可以包括文本版面信息、圖形版面信息、圖像版面信息、公共版面信息中的一類,或者任意組合。其中,每類版面信息又可以包括一個或者一個以上的可見屬性描述項。圖1為本發(fā)明實施例基于版面信息的檢索方法的流程圖。參見圖1,該方法包括以下步驟步驟101:預先在檢索系統(tǒng)中設置檢索條件與檢索規(guī)則的對應關系。步驟102:用戶設置檢索條件,該檢索條件包括版面信息,檢索系統(tǒng)根據(jù)檢索條件,從其保存的對應關系中,獲取該檢索條件對應的檢索規(guī)則。本步驟中,用戶設置作為檢索條件的版面信息的方法可以是用戶輸入,也可以是用戶從檢索系統(tǒng)提供的版面信息選項中選取一個或一個以上的版面信息作為檢索條件。檢索系統(tǒng)可以列出所有的版面信息,也可以只列出用戶所要檢索電子文檔中涉及到的版面信息。步驟103:根據(jù)所述檢索條件及其檢索規(guī)則,從所需檢索的電子文檔中獲取檢索結果。檢索規(guī)則主要是采用匹配的方法。電子文檔中的文本、圖形和圖形等對象在存儲時對應一系列的字段。匹配是以版面信息為條件,查找電子文檔中符合條件的字段,將該字段描述的對象作為匹配成功的結果,即檢索結果。由于電子文檔存儲的內容主要包括文本、圖形、圖像這三大類對象。下面就針對以文本、圖形、圖像作為檢索對象舉多個實施例,說明基于版面信息檢索的具體實施方式。這里需要說明的是,檢索條件和檢索規(guī)則之間的對應關系已經(jīng)預先設置好,在以下各實施例中就不再說明該步驟。實施例一本實施例以文本作為檢索對象,根據(jù)文本版面信息進行文本檢索。文本的版面描述信息檢索主要是以文本的字體、字號、顏色、填充方式、勾邊方式、字體特效作為檢索條件。其中,1、字體,可以是文本字體的具體名。也可以是文本所使用字體的分類名稱,例如仿宋。分類字體的分類名稱為仿宋的字體,又包括方正仿宋、華文仿宋、文星仿宋等文本字體的具體名。其對應的檢索規(guī)則為根據(jù)用戶設定的字體匹配所需;f全索電子文檔中的文本字體。2、字號,可以是文本具體的字號,也可以是一個字號的范圍,或者是一個對字號大小的描述。當字號是具體字號或者字號范圍時,屬于精確檢索條件,對應的檢索規(guī)則為根據(jù)用戶設定的字號或者字號范圍匹配電子文檔中的文本字號。當字號是一個對字號大小的描述時,屬于模糊檢索,例如,對字號大小的描述為字號最大,則該檢索條件對應的檢索規(guī)則為首先判斷出電子文檔所有文本中的最大字號,然后將該最大字號作為檢索條件,進行文本字號的匹配,匹配成功的文本即為^r索結果。3、文本顏色,包括文本顯示所用的前景色和/或背景色。文本顏色可以是一個具體的顏色代碼、或顏色代碼范圍。其檢索規(guī)則為根據(jù)用戶指定的文本顏色代碼或代碼范圍匹配電子文檔中的文本顏色。4、文本填充方式,包括文本中某個文字的填充顏色、填充圖案和填充算法。其中,4a)填充顏色,可以是文本的整體顏色或者文本的部分顏色。采用整體顏色作為檢索條件時,其對應的檢索規(guī)則為根據(jù)用戶指定的顏色代碼匹配電子文檔中文本填充顏色的顏色代碼;采用文本填充部分顏色作為檢索條件時,其對應的檢索規(guī)則為根據(jù)用戶指定的顏色代碼匹配文本中所占比例最大的填充顏色;填充顏色還可以是圖形特效,根據(jù)用戶指定的特效算法匹配文本填充顏色的特效算法。4b)填充圖案,對應的檢索規(guī)則為根據(jù)用戶指定的圖案模版匹配文本的填充圖案。圖案模版可以由檢索系統(tǒng)提供,并由用戶選擇。4c)填充算法,對應的檢索規(guī)則為根據(jù)用戶指定的填充算法匹配文本的填充算法。檢索系統(tǒng)可以列出幾種主要的填充算法,由用戶選擇。5、文本勾邊方式,包括本文勾邊的顏色、線條樣式和線條粗細。其中,5a)勾邊顏色,可以是一種具體的紅綠藍(RGB,RedGreenBlue)顏色值,也可以是RGB顏色值范圍,或者對顏色的描述。對于精確檢索條件,例如指定了RGB顏色值或RGB顏色值的范圍,檢索規(guī)則采用匹配的方法;對于顏色的描述這樣的模糊檢索條件,例如指定紅色,其檢索規(guī)則為首先將顏色的描述轉化為RGB顏色值或者RGB顏色值的范圍,然后再進行匹配。5b)勾邊線條樣式,是指虛線、實線,或者沒有線等。其檢索規(guī)則采用匹配的方法。5c)勾邊線條粗細,可以是一個具體的粗細值,也可以是粗細值的范圍,或者是一個線條粗細的描述,例如最粗、最細。對于指定具體粗細值或者粗細值范圍的精確的檢索條件,采用匹配的方法。對于線條粗細的描述,可以參見對字號模糊檢索的方法。6、文字特效,是文本顯示時所使用的具體特殊效果,主要包括加粗、傾斜、下劃線、刪除線、陰文、陽文、上標、下標、陰影、隱藏等特效。以上這些文本版面信息可以由檢索系統(tǒng)通過頁面的方式提供給用戶,由用戶從中選擇;或者由用戶手動輸入。每種文本版面信息可以單獨作為檢索條件使用,也可以相互組合使用;組合使用時每種文本版面信息可以選擇一個,也可以選擇一個以上。檢索時,可以只采用以上所說的文本版面信息作為檢索條件,也可以將版面信息與文本字符組合作為檢索條件,以提高檢索的命中率。例如,檢索條件可以是查找3號紅色"專利"二字,或紅色3~18號"專利"二字、或加粗的字號最大的"專利"二字等等。本實施例采用現(xiàn)有的字符匹配作為基本檢索手段,采用根據(jù)版面信息檢索作為輔助檢索手段進行文本的檢索。其中,版面信息采用字體、字號、文本顏色和勾邊顏色作為組合4企索條件。圖2為本發(fā)明實施例一基于版面信息的文本4企索的方法流程圖。參見圖2,該方法包括以下步驟步驟200:檢索系統(tǒng)分析電子文檔中的所有文本的文本版面信息,將該電子文檔中所有用到的字體、字號、文本顏色、勾邊顏色等版面信息顯示給用戶。用戶選擇文本版面信息作為檢索條件。本步驟中,用戶可以從檢索系統(tǒng)提供的版面信息中選擇檢索條件,也可以輸入檢索條件。檢索條件可以為單一檢索條件,即采用一個文本版面信息作為檢索條件;也可以組合檢索條件,即采用多個文本版面信息組成組合檢索條件。本實施例中,用戶選擇的組合檢索條件為在電子文檔中查找使用3號宋體來顯示的紅色綠邊"專利"二字。步驟201:根據(jù)文本字符匹配"專利,,二字。本步驟中,將檢索條件中的"專利"二字轉化為文本字符的字符編碼,在電子文檔中以字符編碼為索引,查找對應的文字。步驟202:判斷是否匹配到;如果是,則執(zhí)行步驟203;否則執(zhí)行步驟210。步驟203-206:根據(jù)檢索條件中的各文本版面信息,判斷匹配的"專利"二字字體是否為宋體、字號是否為3號、字體顏色的前景色是否為紅色、勾邊顏色是否為綠色。其中只要有一項不符合,即執(zhí)行步驟208;全符合,則執(zhí)行步驟207。本實施例中,對"專利"二字的版面信息的判斷順序為字體、字號、字體顏色的前景色、勾邊顏色。在實際應用中,判斷順序可以任意組合,只要完成對檢索條件中的多個文本版面信息的匹配即可??梢圆捎妙A先對文本版面信息設置優(yōu)先級的方法來預定義匹配文本版面信息的順序。判斷的過程也是匹配,只是被匹配的對象只有一個被字符匹配的"專利"二字。步驟207:將匹配的"專利"記錄在匹配列表中。本步驟中,記錄在匹配列表中的文本包括匹配文本的所有版面信息。步驟208:匹配下一個"專利"二字。返回步驟202。步驟210:判斷匹配列表是否為空;如果是,則執(zhí)行步驟211;否則執(zhí)行步驟212。步驟211:返回未匹配到信息。本流程結束。本步驟中,返回的未匹配到信息可以作為一類檢索結果,通知用戶。步驟212:返回匹配到的檢索結果。本流程結束。本步驟中,可以將匹配的檢索結果在丈檔中突出顯示,成者將匹配的檢索結果保存和/或導出。本實施例中的檢索過程可總結為,首先根據(jù)一個文本版面信息進行匹配,先查找到一個符合條件的文本,再對該查找到的文本進行其它文本版面信息的匹配,直到判定該文本符合用戶設定的檢索條件并查找下一個,或者不符合檢索條件中的某個文本版面信息并查找下一個。由于本實施例的檢索條件比較精確,因此檢索規(guī)則也比較的簡單,即針對組成檢索條件的每個版面信息采用匹配的方法進行檢索即可。從本實施例一的方案中可以看出,根據(jù)多個文本版面信息組成的檢索條件進行檢索時,不僅用到單個文本版面信息的檢索規(guī)則,還需要將這些檢索規(guī)則進行組合,采用一定的順序執(zhí)行每個文本版面信息的檢索規(guī)則。這個執(zhí)行順序可以采用預先對文本版面信息設置優(yōu)先級的方法來預定義。同樣,對于圖形、圖像等其它對象進行檢索時,當采用多個版面信息作為檢索條件時,也需要對版面信息對應檢索規(guī)則的執(zhí)行順序進行定義。在實際應用中,4全索過程可以4艮靈活。例如,可以先將與一個文本版面信息匹配的文本全部查找出來,暫存在匹配列表中,再對匹配列表中的文本進行第二個文本版面信息的匹配,將不匹配的文本從匹配列表中刪除。當匹配完檢索條件中所有文本版面信息,則最后保存在匹配列表中的文本就是匹配成功的檢索結果。這種方法中的匹配順序也可以由用戶預先設定。實施例一是針對文本進行的基于版面信息的檢索。根據(jù)版面信息對圖形和圖像進行檢索的過程與實施例一基本相同,只要根據(jù)用戶指定的版面信息,匹配被檢索電子文檔中的相應對象的版面信息即可實現(xiàn)。實施例二對于電子文檔來說,文本、圖形和圖像除了擁有其各自的版面信息,還有擁有公共版面信息。公共版面信息適用電子文檔所包含的所有對象。公共版面信息可以與文本、圖形、圖像版面信息進行組合作為檢索條件,也可以單獨使用作為檢索條件。參見表l,作為檢索條件的公共版面信息主要包括幾種:<table>tableseeoriginaldocumentpage12</column></row><table>表1本實施例以圖形作為檢索對象,根據(jù)圖形版面信息和公共版面信息進行圖形才會索。與實施例一不同之處在于,圖形版面信息的具體內容與文本版面信息的具體內容有所區(qū)別,且圖形在電子文檔中是以圖形繪制命令形式存儲的,需要顯示該圖形時,調用圖形繪制命令進行繪制。因此,從圖形繪制命令中可以得到很多描述圖形的屬性信息。例如,從線段繪制命令中可以得到該命令繪制的形狀是直線、該直線的起始坐標、直線的顏色、直線的樣式等。因此在檢索過程中,很多圖形的屬性信息都是從圖形繪制命令中得到的,然后再根據(jù)用戶確定的圖形版面信息,以及檢索規(guī)則,匹配從圖形繪制命令中獲取的圖形的屬性信息。如表2所示,圖形版面信息包括以下幾種圖形版面信息<table>tableseeoriginaldocumentpage13</column></row><table>表2表2中的圖形版面信息可以單獨或者組合作為檢索條件使用。本實施例設置檢索條件為長度大于3厘米的紅色垂直虛線。檢索條件中的"垂直,,需要根據(jù)繪制命令的直線兩端點坐標來確定,屬于公共版面信息。圖3為本發(fā)明實施例二實現(xiàn)基于版面信息的圖形檢索的方法流程圖。參見圖3,該方法包括以下步驟步驟300:用戶輸入版面信息作為檢索條件。本實施例中,用戶輸入的作為檢索條件的版面信息具體為圖形形狀為直線、圖形大小為直線長度大于3厘來、圖形勾邊顏色為紅色、圖形勾邊線條樣式為虛線、圖形角度為垂直。這里,根據(jù)直線兩端點的橫坐標是否相等判斷是否為垂直直線。步驟301:根據(jù)圖形形狀為直線的檢索條件,匹配被檢索電子文檔中繪制線條的指令。步驟302:判斷是否匹配到繪制線條的指令;如果是,則執(zhí)行步驟303;否則執(zhí)行步驟310。步驟303:根據(jù)直線角度為垂直的檢索條件,判斷步驟302中匹配直線的兩端橫坐標是否相等;如果是則執(zhí)行步驟304;否則執(zhí)行步驟308。步驟304:根據(jù)直線長度大于3厘米的檢索條件,判斷步驟303中匹配直線的長度是否大于3厘米;如果是則執(zhí)行步驟305;否則執(zhí)行步驟308。本步驟304中,如果沒有直線長度的字段,則根據(jù)繪制線條指令中直線兩端坐標計算出直線長度。步驟305:根據(jù)直線為紅色的檢索條件,判斷步驟304中匹配直線的勾邊顏色是否為紅色;如果是則執(zhí)行步驟306;否則執(zhí)行步驟308。步驟306:根據(jù)直線為虛線的檢索條件,判斷步驟305中匹配直線的勾邊樣式是否為虛線;如果是則執(zhí)行步驟307;否則執(zhí)行步驟308。步驟307:將步驟306中匹配直線存入匹配列表;轉入執(zhí)行步驟308。步驟308:匹配下一個繪制線條命令。返回步驟302。步驟310:判斷匹配列表是否為空;如果是則執(zhí)行步驟311;否則執(zhí)行步驟312。步驟311:返回未匹配到信息。本流程結束。步驟312:返回匹配到的檢索結果。本流程結束。本實施例中,步驟301、步驟303、步驟304、步驟305、步驟306分別為圖形形狀、圖形大小、圖形勾邊顏、圖形勾邊線條樣式、圖形角度對應的檢索規(guī)則。實施例三以上兩個實施例中,其檢索條件均為精確檢索條件,本實施例對檢索條件為非精確檢索條件的基于版面信息檢索的實現(xiàn)方法進行舉例描述。本實施例以圖像作為檢索對象,根據(jù)圖像版面信息進行圖像檢索。作為檢索條件的圖像版面信息的具體內容如表3所示。表3中的圖像版面信息可以單獨或者組合作為檢索條件使用。參見表3,圖像版面描述信息包括以下幾種:圖像版面信息圖像形狀圖像顯示形狀。例如矩形、圓形、橢圓形、不規(guī)則等。圖像顏色圖像中主要顏色特征。分為以下3種圖像顏色數(shù)量二值圖、16色圖、256色圖、24位色像整體顏色特征圖像中比例最大的顏色。檢索規(guī)則為采用指定的顏色匹配圖像中所占比例最大的顏色。圖像的背景色檢索規(guī)則為根據(jù)用戶指定的顏色,匹配采用自定義的算法計算出的背景顏色。圖像大小圖像具體量化的大小,或者是模糊的對圖像大小的描述。例如,"最大"、"較大"、"最小"等。圖像格式圖像的存儲格式。表3本實施例設置檢索條件為最大的顯示形狀為橢圓形的黑白圖。圖4為本發(fā)明實施例三實現(xiàn)基于版面信息的圖像檢索的方法流程圖。參見圖4,該方法包括以下步驟步驟400:用戶輸入版面信息,作為檢索條件。本實施例中,用戶輸入作為檢索條件的版面信息具體為圖像形狀為橢圓形、圖像顏色只包括白色和黑色、圖像大小為最大??梢姡緦嵤├膱D像大小為模糊檢索條件。步驟401:根據(jù)圖像顏色為黑白的檢索條件,采用黑色和白色匹配被檢索電子文檔中圖像像素的顏色。其檢索規(guī)則為匹配圖像顏色只包括黑色和白色的圖像。本步驟中,可以分別采用黑色和白色的RGB值,與被檢索電子文檔中的圖像像素的RGB值進行比較,將RGB值只有黑色和白色的圖像作為匹配的圖像。也可以先將查找出被檢索電子文檔中的二值圖,作為匹配的圖像,當所有二值圖匹配完畢,再對其它圖像進行像素顏色的匹配。如果作為檢索條件的圖像顏色不要求只為黑白,只要大部分為黑和白即可。則對應的檢索規(guī)則可以為,分別采用黑色和白色的RGB值,與被檢索電子文檔中的圖像像素的RGB值進行比較,將黑色和/或白色像素占圖像大部分像素的圖像作為匹配的圖像。步驟402:判斷是否匹配到黑白圖像;如果是則執(zhí)行步驟403;否則執(zhí)行步驟410;步驟403:根據(jù)圖像形狀為橢圓形的檢索條件,判斷步驟402中匹配圖像的輸出剪裁指令是否為剪裁橢圓形指令;如果是則執(zhí)行步驟404,否則執(zhí)行步驟409;由于圖像存儲在電子文檔中都是矩形,在顯示該圖像時,要對圖像進行了剪裁,使其呈現(xiàn)不同的形狀。因此圖像形狀是根據(jù)圖像對應的剪裁命令獲取的。步驟404:判斷匹配列表中是否已經(jīng)存儲有匹配圖像;如果有則執(zhí)行步驟405;否則執(zhí)行步驟408;步驟405:比較匹配列表中匹配圖像與當前匹配圖像的大小。在步驟404中,匹配列表中存儲的是當前匹配過程之前匹配得到最大的黑白橢圓圖像。因此執(zhí)行步驟405的目的是查找出最大的黑白橢圓圖像。步驟406:判斷是否當前匹配圖像大于匹配列表中的匹配圖像;如果是則執(zhí)行步驟407;否則執(zhí)行步驟409。步驟407:將當前匹配圖像替換匹配列表中的圖像。轉入執(zhí)行步驟409。步驟408:將當前匹配圖像存入匹配列表。轉入執(zhí)行步驟409;步驟409:匹配下一個黑白圖像。返回步驟402。步驟410:判斷匹配列表是否為空;如杲是則執(zhí)行步驟411;否則執(zhí)行步驟412。步驟411:返回未匹配到信息。本流程結束。步驟412:返回匹配到的檢索結果。本流程結束。本實施例中,步驟401、步驟403分別為圖像顏色、圖像形狀的檢索規(guī)則。模糊檢索條件為圖像大小為"最大"。其檢索規(guī)則為步驟404、405、406和407。如果用戶設置的檢索條件中包括圖像大小為"較大",則需要檢索系統(tǒng)對"較大,,進行預先定義。其檢索規(guī)則可以是,對所有圖像的大小進行檢索,將最大圖像的尺寸記為A,將最小圖像的尺寸記為B,采用1/2x(A-B)十B作為門限值,門限值為l/2x(A-B)十B表示中間尺寸,圖像尺寸大于該門限值的就判定為"較大"的圖像。也可以采用其它計算方法獲取門限值,該門限值的計算方法也可以由用戶確定。實施例四本實施例以圖像作為檢索對象,根據(jù)文本版面信息和公共版面信息進行圖像檢索。查找一幅位于當前頁上半部分、左側2厘米內有"專利"二字的圖像。其中"專利"二字為黑色。圖5為本發(fā)明實施例四實現(xiàn)基于版面信息的圖像檢索的方法流程圖。參見圖5,該方法包括以下步驟步驟500:用戶輸入版面信息,作為檢索條件。本步驟中,用戶輸入作為檢索條件的版面信息具體為圖像在頁中的大概位置為頁上部、相對于本頁中指定文本的位置為圖像左側2厘米內的區(qū)域內有黑色"專利"二字。步驟501:根據(jù)被檢索電子文檔中圖像的坐標,獲取圖像的顯示位置。根據(jù)檢索條件中的圖像位于頁上半部和圖像的顯示位置,判斷圖像是否在當前頁的上半部。本步驟中,根據(jù)圖像左下角的坐標和右下角的坐標,判斷是否都小于該頁大小的一半。如果是,則認為該圖像為匹配圖像。如杲不是,可以認為該圖像為不匹配圖像。如果不是,也可以繼續(xù)進行判斷,判斷該圖像是否一半以上的部分在當前頁的上半部,如果是也可以認為該圖像為匹配圖像,否則為不匹配圖像。步驟502:如果匹配到則執(zhí)行步驟503;否則執(zhí)行步驟510。步驟503:計算距圖像左側2厘米的區(qū)域大小,在該區(qū)域內根據(jù)文本字符和文本顏色,檢索顏色為黑色的"專利"二字。具體檢索方法與實施例一的根據(jù)文本版面信息的檢索方法相似,不同之處在于,本步驟中,文本檢索區(qū)域是距圖像左側2厘米之內的區(qū)域,檢索條件只包括文本顏色和文本字效付。步驟504:判斷是否匹配到;如果是,則執(zhí)行步驟505;否則執(zhí)行步驟506;步驟505:將步驟504的匹配圖像存入匹配列表;轉入執(zhí)行步驟506;步驟506:匹配下一個圖像的位置;返回步驟502。步驟510:判斷匹配列表是否為空;如果是則執(zhí)行步驟511;否則執(zhí)行步驟512。步驟511:返回未匹配到信息。本流程結束。步驟512:返回匹配到的檢索結果。本流程結束。本實施例中,步驟501為圖像在頁中的大概位置對應的檢索規(guī)則;步驟503為圖像相對于本頁中指定文本位置的檢索規(guī)則。由以上方案所述可以看出,本發(fā)明所提供的基于版面信息的檢索方案,提供了一種全面、高效、準確的電子文檔檢索方式。檢索針對性更強,檢索結果更為精確,從而提高了檢索效率。而且,本發(fā)明實施例還可以根據(jù)用戶輸入的版面信息,有針對性的對圖形和圖像進行檢索,擴大了可檢索對象的范圍。綜上所述,以上僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包舍在本發(fā)明的保護范圍之內。權利要求1.一種基于版面信息的檢索方法,其特征在于,該方法包括設置檢索條件,該檢索條件包括版面信息;根據(jù)所述檢索條件,從所需檢索的電子文檔中獲取檢索結果。2、如權利要求l所述的方法,其特征在于,該方法進一步包括預先設置檢索條件與檢索規(guī)則的對應關系;所述獲取險索結果的步驟包括根據(jù)所述檢索條件,從所述對應關系中獲取所述檢索條件對應的檢索規(guī)則;根據(jù)所述檢索條件及其檢索規(guī)則,從所需檢索的電子文檔中獲取檢索結果。3、如權利要求l所述的方法,其特征在于,所述設置檢索條件為用戶輸入版面信息,作為檢索條件;或者,所述設置檢索條件之前,該方法進一步包括預先將所述所需檢索的電子文檔涉及的版面信息提供給用戶;所述確定版面信息為用戶從所述提供的版面信息中選擇檢索條件。4、如權利要求l所述的方法,其特征在于,所述作為檢索條件的版面信息為文本版面信息、和/或圖形版面信息、和/或圖像版面信息、和/或公共版面信臺5、如權利要求4所述的方法,其特征在于,當所述版面信息為文本版面信息時,所述文本版面信息為字體、字號、文本顏色、文本填充方式、文本勾邊方式、文字特效中的一種或者任意組合。6、如權利要求5所述的方法,其特征在于,所述文本版面信息進一步包括文本字符。7、如權利要求4所述的方法,其特征在于,當所述版面信息為圖形版面信息時,所述圖形版面信息為圖形形狀、圖形大小、圖形填充方式、圖形勾邊方式中的一種,或任意組合。8、如權利要求4所述的方法,其特征在于,當所述版面信息為圖像版面信息時,所述圖像版面信息為圖像形狀、圖像大小、圖像顏色、圖像格式中的一種,或任意組合。9、如權利要求4所述的方法,其特征在于,當所述版面信息為公共版面信息時,所述公共版面信息為對象位置和/或對象坐標空間變換。全文摘要本發(fā)明公開了一種基于版面信息的檢索方法,該方法包括,設置檢索條件,該檢索條件包括版面信息;根據(jù)該檢索條件,從所需檢索的電子文檔中獲取檢索結果。本發(fā)明基于版面信息的檢索方法提供了一種全面、高效、準確的電子文檔檢索方式,能夠提高文本檢索的檢索效率,有針對性的對圖形和圖像進行檢索,擴大了可檢索對象的范圍。文檔編號G06F17/30GK101246475SQ200710063928公開日2008年8月20日申請日期2007年2月14日優(yōu)先權日2007年2月14日發(fā)明者劉寧勝,王東臨,王瑞華申請人:北京書生國際信息技術有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1