專利名稱:圖簽信息提取方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,尤其涉及一種圖簽信息提取方法和裝置。
背景技術(shù):
設(shè)計圖紙是通信建設(shè)工程建設(shè)的重要依據(jù),隨著電子繪圖軟件在設(shè)計單位中的使用日益普及,電子圖紙量急劇增長。對電子圖紙中的圖簽信息進行快速準確地提取、歸檔和檢索,使設(shè)計單位能夠?qū)こ藤Y料進行有效管理,其意義十分重要。設(shè)計圖紙的圖簽是指在圖中對圖紙基本信息進行描述的固定格式部分,圖紙圖簽中包含了工程圖紙中許多重要的信息,如圖1所示,圖簽主要包含圖紙中的一些必要信息和有關(guān)責任人的信息。目前,對電子圖紙中圖簽信息的提取主要還是依賴人工完成,且一個電子圖檔文件里可能包含多張電子圖紙,使得信息提取工作單調(diào)繁瑣,效率低下。而在多個電子圖紙中,很可能出現(xiàn)某些圖簽信息在一些圖紙中的位置相同或近似的情況,也就是說,這些圖紙中上述圖簽信息的分布是類似的,但是,對于這種情況,同樣需要單純借助人工的方式完成信息的提取,導(dǎo)致操作人員的大量重復(fù)勞動。針對相關(guān)技術(shù)中圖簽信息提取依賴人工方式而導(dǎo)致提取操作的工作量大、效率低的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
針對相關(guān)技術(shù)中圖簽信息提取依賴人工方式而導(dǎo)致提取操作的工作量大、效率低的問題,本發(fā)明提出了一種圖簽信息提取方法和裝置,能夠有效提高處理效率,減少人工操作量。本發(fā)明的技術(shù)方案是這樣實現(xiàn)的一種圖簽信息提取方法,其特征在于,包括確定預(yù)定關(guān)鍵字在模板中的位置,根據(jù)所述預(yù)定關(guān)鍵字之間的參考連接線與其他連接線確定所述預(yù)定關(guān)鍵字之間的位置關(guān)系,其中,所述位置關(guān)系包括所述參考連接線與所述其他連接線間的長度比和角度,所述參考連接線為所述預(yù)定關(guān)鍵字中第一指定關(guān)鍵字與第二指定關(guān)鍵字之間的連接線,所述其他連接線為所述第一指定關(guān)鍵字與第二指定關(guān)鍵字之外的其他關(guān)鍵字之間的連接線;根據(jù)所述模板中所述預(yù)定關(guān)鍵字之間的位置關(guān)系,確定滿足預(yù)定要求的電子圖紙中的圖簽,從所述圖簽中提取所有關(guān)鍵字對應(yīng)的屬性值,其中,所述預(yù)定要求是指該圖簽中的預(yù)定關(guān)鍵字之間的相對位置滿足所述位置關(guān)系。其中,從所述圖簽中提取所有關(guān)鍵字對應(yīng)的屬性值的操作包括確定所述模板中兩個關(guān)鍵字之間的第一連接線的長度,并確定電子圖紙中所述兩個關(guān)鍵字之間的第二連接線的長度;確定所述模板中所述兩個關(guān)鍵字對應(yīng)的屬性值所在的區(qū)域,并根據(jù)所述第一連接線與所述第二連接線之間的長度比和角度差確定所述電子圖紙中所述兩個關(guān)鍵字所對應(yīng)的屬性值所在的目標區(qū)域。具體地,確定所述模板中所述兩個關(guān)鍵字對應(yīng)的屬性值所在的區(qū)域包括對于所述模板中所述兩個關(guān)鍵字中的每個關(guān)鍵字,確定該關(guān)鍵字對應(yīng)的屬性值所在的矩形參考區(qū)域,確定所述參考區(qū)域的一個對角線的一個頂點與該關(guān)鍵字所在區(qū)域的參照點之間形成的第一定位連線,并確定所述對角線另一頂點與所述參照點之間形成的第二定位連線,確定兩個定位連線的長度以及所述兩個定位連線之間的角度。優(yōu)選地,根據(jù)所述第一連接線與所述第二連接線之間的長度比和角度差確定所述電子圖紙中所述兩個關(guān)鍵字所對應(yīng)的屬性值所在的目標區(qū)域的操作包括對于所述電子圖紙中的每個關(guān)鍵字,確定該關(guān)鍵字所在區(qū)域中目標參照點的位置,其中,所述目標參照點、與所述模板中該關(guān)鍵字所在區(qū)域中的參照點在各自所在區(qū)域中的相對位置相同;以所述目標參照點為起點形成第一目標連接線和第二目標連線,并以所述第一目標連線和所述第二目標連線的終點之間的連線作為所述目標區(qū)域的對角線,并將根據(jù)該對角線形成的矩形區(qū)域確定為所述目標區(qū)域;其中,所述第一定位連線的長度與所述第一目標連線的長度比、以及所述第二定位連線的長度與所述第二目標連線的長度比,滿足所述第一連接線與所述第二連接線之間的長度比;所述第一目標連接線和所述第二目標連線之間的角度,與所述第一定位連線與所述第二定位連線之間的角度相同;所述第一定位連線的長度與所述第一目標連線之間的角度差、以及所述第二定位連線的長度與所述第二目標連線之間的角度差,均滿足所述第一連接線與所述第二連接線之間的角度差。其中,所述參照點和所述目標參照點均為各自所在區(qū)域的中心點、或者均為各自所在區(qū)域的一個邊界點。一種圖簽信息提取裝置,其特征在于,包括確定模塊,用于確定預(yù)定關(guān)鍵字在模板中的位置,根據(jù)所述預(yù)定關(guān)鍵字之間的參考連接線與其他連接線確定所述預(yù)定關(guān)鍵字之間的位置關(guān)系,其中,所述位置關(guān)系包括所述參考連接線與所述其他連接線間的長度比和角度,所述參考連接線為所述預(yù)定關(guān)鍵字中第一指定關(guān)鍵字與第二指定關(guān)鍵字之間的連接線,所述其他連接線為所述第一指定關(guān)鍵字與第二指定關(guān)鍵字之外的其他關(guān)鍵字之間的連接線;提取模塊,用于根據(jù)所述模板中所述預(yù)定關(guān)鍵字之間的位置關(guān)系,確定滿足預(yù)定要求的電子圖紙中的圖簽,從所述圖簽中提取所有關(guān)鍵字對應(yīng)的屬性值,其中,所述預(yù)定要求是指該圖簽中的預(yù)定關(guān)鍵字之間的相對位置滿足所述位置關(guān)系。其中,所述提取模塊包括第一確定子模塊,用于確定所述模板中兩個關(guān)鍵字之間的第一連接線的長度,并確定電子圖紙中所述兩個關(guān)鍵字之間的第二連接線的長度;第二確定子模塊,用于確定所述模板中所述兩個關(guān)鍵字對應(yīng)的屬性值所在的區(qū)域,并根據(jù)所述第一連接線與所述第二連接線之間的長度比和角度差確定所述電子圖紙中所述兩個關(guān)鍵字所對應(yīng)的屬性值所在的目標區(qū)域。具體地,所述第一確定子模塊用于對于所述模板中所述兩個關(guān)鍵字中的每個關(guān)鍵字,確定該關(guān)鍵字對應(yīng)的屬性值所在的矩形參考區(qū)域,確定所述參考區(qū)域的一個對角線的一個頂點與該關(guān)鍵字所在區(qū)域的參照點之間形成的第一定位連線,并確定所述對角線另一頂點與所述參照點之間形成的第二定位連線,確定兩個定位連線的長度以及所述兩個定位連線之間的角度。優(yōu)選地,所述第二確定子模塊用于對于所述電子圖紙中的每個關(guān)鍵字,確定該關(guān)鍵字所在區(qū)域中目標參照點的位置,其中,所述目標參照點、與所述模板中該關(guān)鍵字所在區(qū)域中的參照點在各自所在區(qū)域中的相對位置相同;并且,所述第二確定子模塊還用于以所述目標參照點為起點形成第一目標連接線和第二目標連線,并以所述第一目標連線和所述第二目標連線的終點之間的連線作為所述目標區(qū)域的對角線,并將根據(jù)該對角線形成的矩形區(qū)域確定為所述目標區(qū)域;其中,所述第一定位連線的長度與所述第一目標連線的長度比、以及所述第二定位連線的長度與所述第二目標連線的長度比,滿足所述第一連接線與所述第二連接線之間的長度比;所述第一目標連接線和所述第二目標連線之間的角度,與所述第一定位連線與所述第二定位連線之間的角度相同;所述第一定位連線的長度與所述第一目標連線之間的角度差、以及所述第二定位連線的長度與所述第二目標連線之間的角度差,均滿足所述第一連接線與所述第二連接線之間的角度差。其中,所述參照點和所述目標參照點均為各自所在區(qū)域的中心點、或者均為各自所在區(qū)域的一個邊界點。借助于本發(fā)明的上述技術(shù)方案,通過在模板中確定需要提取的關(guān)鍵字(例如,可以是圖簽信息對應(yīng)的關(guān)鍵字)的相對位置關(guān)系,就能夠在多個圖紙中提取滿足上述位置關(guān)系的圖簽中的所有關(guān)鍵字對應(yīng)的屬性值,從而能夠基于多個電子圖紙之間的共性自動提取圖簽信息,能夠有效提高處理效率,減少人工操作量,并且能夠適用于電子圖紙中多種不同的關(guān)鍵字組合對應(yīng)的信息提取;并且,本發(fā)明的方案無需處理圖紙中的線條信息,而是直接處理其中的矢量,因此無需進行大量計算和信息的排列,也無需尋找單元格,因此處理過程較為簡單;此外,由于本發(fā)明是根據(jù)關(guān)鍵字之間的相對位置關(guān)系進行提取,因此,即使電子圖紙相對于模板出現(xiàn)旋轉(zhuǎn)和縮放,本發(fā)明同樣能夠?qū)ζ溥M行識別和提取。
圖1是現(xiàn)有技術(shù)中圖簽信息的示例圖;圖2是根據(jù)本發(fā)明實施例的圖簽信息提取方法的流程圖;圖3是根據(jù)本發(fā)明實施例的圖簽信息提取方法的詳細處理流程圖;圖4是根據(jù)本發(fā)明實施例的圖簽信息的示例圖;圖5是根據(jù)本發(fā)明實施例的圖簽信息提取裝置的結(jié)構(gòu)框圖。
具體實施例方式針對相關(guān)技術(shù)中圖簽信息提取依賴人工方式而導(dǎo)致提取操作的工作量大、效率低的問題,本發(fā)明提出在模板中確定需要提取的關(guān)鍵字(例如,可以是圖簽信息中預(yù)先設(shè)置的關(guān)鍵字)的相對位置關(guān)系,之后在多個圖紙中提取滿足上述位置關(guān)系的關(guān)鍵字所歸屬的圖簽,并提取該圖簽中所有關(guān)鍵字對應(yīng)的屬性值,從而能夠基于多個電子圖紙之間的共性自動提取圖簽信息,通過自動化的提取代替人工操作,提高處理效率并降低工作量。下面將結(jié)合附圖,描述本發(fā)明的實施例。圖2是根據(jù)本發(fā)明實施例的圖簽信息提取方法的流程圖,如圖2所示,該方法包括步驟S201,確定預(yù)定關(guān)鍵字在模板中的位置,根據(jù)預(yù)定關(guān)鍵字之間的參考連接線與其他連接線確定預(yù)定關(guān)鍵字之間的位置關(guān)系,其中,位置關(guān)系包括參考連接線與其他連接線間的長度比和角度,參考連接線為預(yù)定關(guān)鍵字中第一指定關(guān)鍵字與第二指定關(guān)鍵字之間的連接線,其他連接線為第一指定關(guān)鍵字與第二指定關(guān)鍵字之外的其他關(guān)鍵字之間的連接線。步驟S203,根據(jù)模板中預(yù)定關(guān)鍵字之間的位置關(guān)系,確定滿足預(yù)定要求的電子圖紙中的圖簽,從圖簽中提取所有關(guān)鍵字對應(yīng)的屬性值,其中,預(yù)定要求是指該圖簽中的預(yù)定關(guān)鍵字之間的相對位置滿足位置關(guān)系。其中,從圖簽中提取所有關(guān)鍵字對應(yīng)的屬性值的操作包括確定模板中兩個關(guān)鍵字之間的第一連接線的長度,并確定電子圖紙中兩個關(guān)鍵字之間的第二連接線的長度;確定模板中兩個關(guān)鍵字對應(yīng)的屬性值所在的區(qū)域,并根據(jù)第一連接線與第二連接線之間的長度比和角度差確定電子圖紙中兩個關(guān)鍵字所對應(yīng)的屬性值所在的目標區(qū)域。其中,確定模板中兩個關(guān)鍵字對應(yīng)的屬性值所在的區(qū)域包括對于模板中兩個關(guān)鍵字中的每個關(guān)鍵字,確定該關(guān)鍵字對應(yīng)的屬性值所在的矩形參考區(qū)域,確定參考區(qū)域的一個對角線的一個頂點與該關(guān)鍵字所在區(qū)域的參照點之間形成的第一定位連線,并確定對角線另一頂點與參照點之間形成的第二定位連線,確定兩個定位連線的長度以及兩個定位連線之間的角度。具體地,根據(jù)第一連接線與第二連接線之間的長度比和角度差確定電子圖紙中兩個關(guān)鍵字所對應(yīng)的屬性值所在的目標區(qū)域的操作包括對于電子圖紙中的每個關(guān)鍵字,確定該關(guān)鍵字所在區(qū)域中目標參照點的位置,其中,目標參照點、與模板中該關(guān)鍵字所在區(qū)域中的參照點在各自所在區(qū)域中的相對位置相同;以目標參照點為起點形成第一目標連接線和第二目標連線,并以第一目標連線和第二目標連線的終點之間的連線作為目標區(qū)域的對角線,并將根據(jù)該對角線形成的矩形區(qū)域確定為目標區(qū)域;其中,第一定位連線的長度與第一目標連線的長度比、以及第二定位連線的長度與第二目標連線的長度比,滿足第一連接線與第二連接線之間的長度比;第一目標連接線和第二目標連線之間的角度,與第一定位連線與第二定位連線之間的角度相同;第一定位連線的長度與第一目標連線之間的角度差、以及第二定位連線的長度與第二目標連線之間的角度差,均滿足第一連接線與第二連接線之間的角度差。優(yōu)選地,參照點和目標參照點均為各自所在區(qū)域的中心點、或者均為各自所在區(qū)域的一個邊界點。借助于本發(fā)明的上述技術(shù)方案,通過在模板中確定需要提取的關(guān)鍵字(例如,可以是圖簽信息對應(yīng)的關(guān)鍵字)的相對位置關(guān)系,就能夠在多個圖紙中提取滿足上述位置關(guān)系的圖簽中的所有關(guān)鍵字對應(yīng)的屬性值,從而能夠基于多個電子圖紙之間的共性自動提取圖簽信息,能夠有效提高處理效率,減少人工操作量,并且能夠適用于電子圖紙中多種不同的關(guān)鍵字組合對應(yīng)的信息提??;并且,本發(fā)明的方案無需處理圖紙中的線條信息,而是直接處理其中的矢量,因此無需進行大量計算和信息的排列,也無需尋找單元格,因此處理過程較為簡單;此外,由于本發(fā)明是根據(jù)關(guān)鍵字之間的相對位置關(guān)系進行提取,因此,即使電子圖紙相對于模板出現(xiàn)旋轉(zhuǎn)和縮放,本發(fā)明同樣能夠?qū)ζ溥M行識別和提取。本發(fā)明從分析圖簽中的關(guān)鍵字組矢量關(guān)系入手,由于一個電子圖檔文件中可能存在多張圖紙即含有多個圖簽,先使用聚類算法對多張電子圖紙中的圖簽信息進行匹配,并對圖簽個數(shù)和旋轉(zhuǎn)情況做出分析,獲取每個圖簽的基本信息;再通過模板中其他關(guān)鍵字的與關(guān)鍵字組核心位置的相對矢量值,獲取該位置范圍內(nèi)的文本信息,最終完成所有圖簽的提取。圖3是根據(jù)本發(fā)明實施例的圖簽信息提取方法的詳細處理流程圖,如圖3所示,包括以下處理步驟S301,讀取電子圖紙文件。步驟S302,讀取模板配置文件。步驟S303,獲取電子圖紙中的全部文字對象信息,從模板配置文件中提取圖簽關(guān)鍵字組,按關(guān)鍵字組中關(guān)鍵字內(nèi)容在該全部文字對象信息中抽取相應(yīng)的文本對象,并獲取每個關(guān)鍵字在電子圖紙中位置和方向信息。例如,如圖4所示,模板配置文件中的關(guān)鍵字組為部門主管、設(shè)計人和圖號,為之后獲取其他數(shù)據(jù)值方便考慮,可以選擇一個核心關(guān)鍵字, 在這里可以取“部門主管”為核心關(guān)鍵字,這里定義文字的左上角位置為文本位置。步驟S304,以矢量位置關(guān)系為依據(jù),對關(guān)鍵字組進行聚類分組,即按照模板配置文件中的關(guān)鍵字的名稱和相對矢量位置,對電子圖紙中的全部文字對象信息按照聚類準則進行分組,并通過匹配算法獲取分組結(jié)果;其中,以圖4為例,模板配置文件中的相對矢量位置(即上文所述的預(yù)定關(guān)鍵字之間的位置關(guān)系)可以為兩個從關(guān)鍵字到主關(guān)鍵字的相對矢量,包括其距離值、角度值等,例如,距離值可以為部門主管和圖號間的線段長度與部門主管和設(shè)計人間的線段長度之比s (這里,部門主管即上文所述的第一指定關(guān)鍵字,設(shè)計人即上文所述的第二指定關(guān)鍵字,部門主管和設(shè)計人間的線段長度即上文所述的參考連接線), S為預(yù)設(shè)的范圍值,角度值可以為部門主管和圖號之間的線段與部門主管和設(shè)計人間的線段形成的夾角X,X為預(yù)設(shè)的范圍值,其中,X和S的范圍可以根據(jù)需要靈活設(shè)置;對聚類分組信息按照聚類準則進行計算,主要根據(jù)矢量相對性準測判斷各分組內(nèi)的分布是否符合關(guān)鍵字分布規(guī)則,這里,矢量相對性準則的計算準則設(shè)計不局限于模板數(shù)據(jù)的準確計算,而是包含適應(yīng)圖簽縮放、旋轉(zhuǎn)和一定程度下的拖動變形的綜合計算準則。例如,如果某個電子圖紙中的圖簽中包含關(guān)鍵字部門主管、設(shè)計人和圖號,另外,該電子圖紙中,部門主管和圖號間的線段長度與部門主管和設(shè)計人間的線段長度之比在上述s的預(yù)設(shè)范圍內(nèi)(即距離值滿足條件),且部門主管和圖號之間的線段與部門主管和設(shè)計人間的線段形成的夾角在上述X的預(yù)設(shè)范圍內(nèi)(即角度值滿足條件),則認為該電子圖紙中有關(guān)鍵字組符合聚類準則,也就是說距離值和角度值均需要滿足預(yù)設(shè)條件,才認為該電子圖紙存在符合聚類準則的合法圖簽。通過以上計算后歸納聚類分析結(jié)果,判斷電子圖紙文件是否有符合聚類準則的分組,如果符合聚類準則的分組則具有符合標準的圖簽,進入步驟S305,否則轉(zhuǎn)到步驟S307。步驟S305,從模板中獲取其他圖簽內(nèi)容文本對象的相對矢量組,基于關(guān)鍵字組中的核心關(guān)鍵字位置信息以及該組的縮放、旋轉(zhuǎn)程度重新計算相對矢量值,并依此計算相應(yīng)文本的位置范圍,在此范圍內(nèi)尋找文本對象。這里的相對矢量組定義為該文本的左上角和右下角位置與主關(guān)鍵字的相對矢量,這樣,即使電子圖紙相對于模板出現(xiàn)旋轉(zhuǎn),也能夠從電子圖紙中提取關(guān)鍵字對應(yīng)的屬性值。步驟S306,將讀取的圖簽文本屬性值記錄到結(jié)果列表中存儲。步驟S307,判斷是否有其他的模板配置文件,如果有則進入步驟S302,否則進入步驟S308。步驟S308,將綜合結(jié)果列表顯示給用戶。六、本申請?zhí)岚傅年P(guān)鍵點和欲保護點通過對標準圖簽中關(guān)鍵字組建立相對矢量模型,按模型對圖紙中的關(guān)鍵字組進行提取,通過聚類算法進行智能匹配并獲取合法分組結(jié)果解決多圖簽信息提取問題,并按照旋轉(zhuǎn)和縮放程度計算相對矢量方法獲取其他文本位置范圍,并讀取其信息值。圖4是根據(jù)本發(fā)明實施例的圖簽信息提取裝置的結(jié)構(gòu)框圖,如圖4所示,該裝置可以包括確定模塊1,用于確定預(yù)定關(guān)鍵字在模板中的位置,根據(jù)預(yù)定關(guān)鍵字之間的參考連接線與其他連接線確定預(yù)定關(guān)鍵字之間的位置關(guān)系,其中,位置關(guān)系包括參考連接線與其他連接線間的長度比和角度,參考連接線為預(yù)定關(guān)鍵字中第一指定關(guān)鍵字與第二指定關(guān)鍵字之間的連接線,其他連接線為第一指定關(guān)鍵字與第二指定關(guān)鍵字之外的其他關(guān)鍵字之間的連接線;提取模塊2,用于根據(jù)模板中預(yù)定關(guān)鍵字之間的位置關(guān)系,確定滿足預(yù)定要求的電子圖紙中的圖簽,從圖簽中提取所有關(guān)鍵字對應(yīng)的屬性值,其中,預(yù)定要求是指該圖簽中的預(yù)定關(guān)鍵字之間的相對位置滿足位置關(guān)系。其中,上述提取模塊2包括第一確定子模塊(圖中未示出)和第二確定子模塊(圖中未示出),其中,第一確定子模塊,用于確定模板中兩個關(guān)鍵字之間的第一連接線的長度, 并確定電子圖紙中兩個關(guān)鍵字之間的第二連接線的長度;第二確定子模塊,用于確定模板中兩個關(guān)鍵字對應(yīng)的屬性值所在的區(qū)域,并根據(jù)第一連接線與第二連接線之間的長度比和角度差確定電子圖紙中兩個關(guān)鍵字所對應(yīng)的屬性值所在的目標區(qū)域。具體地,第一確定子模塊用于對于模板中兩個關(guān)鍵字中的每個關(guān)鍵字,確定該關(guān)鍵字對應(yīng)的屬性值所在的矩形參考區(qū)域,確定參考區(qū)域的一個對角線的一個頂點與該關(guān)鍵字所在區(qū)域的參照點之間形成的第一定位連線,并確定對角線另一頂點與參照點之間形成的第二定位連線,確定兩個定位連線的長度以及兩個定位連線之間的角度。具體地,第二確定子模塊用于對于電子圖紙中的每個關(guān)鍵字,確定該關(guān)鍵字所在區(qū)域中目標參照點的位置,其中,目標參照點、與模板中該關(guān)鍵字所在區(qū)域中的參照點在各自所在區(qū)域中的相對位置相同;并且,第二確定子模塊還用于以目標參照點為起點形成第一目標連接線和第二目標連線,并以第一目標連線和第二目標連線的終點之間的連線作為目標區(qū)域的對角線,并將根據(jù)該對角線形成的矩形區(qū)域確定為目標區(qū)域;其中,第一定位連線的長度與第一目標連線的長度比、以及第二定位連線的長度與第二目標連線的長度比, 滿足第一連接線與第二連接線之間的長度比;第一目標連接線和第二目標連線之間的角度,與第一定位連線與第二定位連線之間的角度相同;第一定位連線的長度與第一目標連線之間的角度差、以及第二定位連線的長度與第二目標連線之間的角度差,均滿足第一連接線與第二連接線之間的角度差。優(yōu)選地,參照點和目標參照點均為各自所在區(qū)域的中心點、或者均為各自所在區(qū)域的一個邊界點。綜上所述,借助于本發(fā)明的上述技術(shù)方案,通過在模板中確定需要提取的關(guān)鍵字 (例如,可以是圖簽信息對應(yīng)的關(guān)鍵字)的相對位置關(guān)系,就能夠在多個圖紙中提取滿足上述位置關(guān)系的圖簽中的所有關(guān)鍵字對應(yīng)的屬性值,從而能夠基于多個電子圖紙之間的共性自動提取圖簽信息,能夠有效提高處理效率,減少人工操作量,并且能夠適用于電子圖紙中多種不同的關(guān)鍵字組合對應(yīng)的信息提取;并且,本發(fā)明的方案可以直接獲取文本對象內(nèi)容, 不需要讀圖紙中大量的直線信息,也不需要對此類信息進行排序,節(jié)省了大量的運算量;另外,由于在處理過程中直接利用相對矢量值進行比對和分析,不需要通過對直線交叉來尋找單元格,因此不需要進行范圍內(nèi)的直線搜索,也不需要進行交叉點的判斷和計算,計算量大大減少;直接基于相對矢量關(guān)系,與用戶的繪圖習慣和方式基本無關(guān),不會出現(xiàn)現(xiàn)有技術(shù)中由于不同對象引起的錯判漏判現(xiàn)象;通過聚類算法提高對多圖簽情況下信息提取準確率;另外,本發(fā)明的方案能夠在圖紙中識別每個圖簽的縮放和旋轉(zhuǎn)程度,可以對有縮放和旋轉(zhuǎn)情況下的圖紙圖簽進行有效的信息提取,具有良好的應(yīng)變性能。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種圖簽信息提取方法,其特征在于,包括確定預(yù)定關(guān)鍵字在模板中的位置,根據(jù)所述預(yù)定關(guān)鍵字之間的參考連接線與其他連接線確定所述預(yù)定關(guān)鍵字之間的位置關(guān)系,其中,所述位置關(guān)系包括所述參考連接線與所述其他連接線間的長度比和角度,所述參考連接線為所述預(yù)定關(guān)鍵字中第一指定關(guān)鍵字與第二指定關(guān)鍵字之間的連接線,所述其他連接線為所述第一指定關(guān)鍵字與第二指定關(guān)鍵字之外的其他關(guān)鍵字之間的連接線;根據(jù)所述模板中所述預(yù)定關(guān)鍵字之間的位置關(guān)系,確定滿足預(yù)定要求的電子圖紙中的圖簽,從所述圖簽中提取所有關(guān)鍵字對應(yīng)的屬性值,其中,所述預(yù)定要求是指該圖簽中的預(yù)定關(guān)鍵字之間的相對位置滿足所述位置關(guān)系。
2.根據(jù)權(quán)利要求1所述的圖簽信息提取方法,其特征在于,從所述圖簽中提取所有關(guān)鍵字對應(yīng)的屬性值的操作包括確定所述模板中兩個關(guān)鍵字之間的第一連接線的長度,并確定電子圖紙中所述兩個關(guān)鍵字之間的第二連接線的長度;確定所述模板中所述兩個關(guān)鍵字對應(yīng)的屬性值所在的區(qū)域,并根據(jù)所述第一連接線與所述第二連接線之間的長度比和角度差確定所述電子圖紙中所述兩個關(guān)鍵字所對應(yīng)的屬性值所在的目標區(qū)域。
3.根據(jù)權(quán)利要求2所述的圖簽信息提取方法,其特征在于,確定所述模板中所述兩個關(guān)鍵字對應(yīng)的屬性值所在的區(qū)域包括對于所述模板中所述兩個關(guān)鍵字中的每個關(guān)鍵字,確定該關(guān)鍵字對應(yīng)的屬性值所在的矩形參考區(qū)域,確定所述參考區(qū)域的一個對角線的一個頂點與該關(guān)鍵字所在區(qū)域的參照點之間形成的第一定位連線,并確定所述對角線另一頂點與所述參照點之間形成的第二定位連線,確定兩個定位連線的長度以及所述兩個定位連線之間的角度。
4.根據(jù)權(quán)利要求3所述的圖簽信息提取方法,其特征在于,根據(jù)所述第一連接線與所述第二連接線之間的長度比和角度差確定所述電子圖紙中所述兩個關(guān)鍵字所對應(yīng)的屬性值所在的目標區(qū)域的操作包括對于所述電子圖紙中的每個關(guān)鍵字,確定該關(guān)鍵字所在區(qū)域中目標參照點的位置,其中,所述目標參照點、與所述模板中該關(guān)鍵字所在區(qū)域中的參照點在各自所在區(qū)域中的相對位置相同;以所述目標參照點為起點形成第一目標連接線和第二目標連線,并以所述第一目標連線和所述第二目標連線的終點之間的連線作為所述目標區(qū)域的對角線,并將根據(jù)該對角線形成的矩形區(qū)域確定為所述目標區(qū)域;其中,所述第一定位連線的長度與所述第一目標連線的長度比、以及所述第二定位連線的長度與所述第二目標連線的長度比,滿足所述第一連接線與所述第二連接線之間的長度比;所述第一目標連接線和所述第二目標連線之間的角度,與所述第一定位連線與所述第二定位連線之間的角度相同;所述第一定位連線的長度與所述第一目標連線之間的角度差、以及所述第二定位連線的長度與所述第二目標連線之間的角度差,均滿足所述第一連接線與所述第二連接線之間的角度差。
5.根據(jù)權(quán)利要求4所述的圖簽信息提取方法,其特征在于,所述參照點和所述目標參照點均為各自所在區(qū)域的中心點、或者均為各自所在區(qū)域的一個邊界點。
6.一種圖簽信息提取裝置,其特征在于,包括確定模塊,用于確定預(yù)定關(guān)鍵字在模板中的位置,根據(jù)所述預(yù)定關(guān)鍵字之間的參考連接線與其他連接線確定所述預(yù)定關(guān)鍵字之間的位置關(guān)系,其中,所述位置關(guān)系包括所述參考連接線與所述其他連接線間的長度比和角度,所述參考連接線為所述預(yù)定關(guān)鍵字中第一指定關(guān)鍵字與第二指定關(guān)鍵字之間的連接線,所述其他連接線為所述第一指定關(guān)鍵字與第二指定關(guān)鍵字之外的其他關(guān)鍵字之間的連接線;提取模塊,用于根據(jù)所述模板中所述預(yù)定關(guān)鍵字之間的位置關(guān)系,確定滿足預(yù)定要求的電子圖紙中的圖簽,從所述圖簽中提取所有關(guān)鍵字對應(yīng)的屬性值,其中,所述預(yù)定要求是指該圖簽中的預(yù)定關(guān)鍵字之間的相對位置滿足所述位置關(guān)系。
7.根據(jù)權(quán)利要求6所述的圖簽信息提取裝置,其特征在于,所述提取模塊包括第一確定子模塊,用于確定所述模板中兩個關(guān)鍵字之間的第一連接線的長度,并確定電子圖紙中所述兩個關(guān)鍵字之間的第二連接線的長度;第二確定子模塊,用于確定所述模板中所述兩個關(guān)鍵字對應(yīng)的屬性值所在的區(qū)域,并根據(jù)所述第一連接線與所述第二連接線之間的長度比和角度差確定所述電子圖紙中所述兩個關(guān)鍵字所對應(yīng)的屬性值所在的目標區(qū)域。
8.根據(jù)權(quán)利要求7所述的圖簽信息提取裝置,其特征在于,所述第一確定子模塊用于對于所述模板中所述兩個關(guān)鍵字中的每個關(guān)鍵字,確定該關(guān)鍵字對應(yīng)的屬性值所在的矩形參考區(qū)域,確定所述參考區(qū)域的一個對角線的一個頂點與該關(guān)鍵字所在區(qū)域的參照點之間形成的第一定位連線,并確定所述對角線另一頂點與所述參照點之間形成的第二定位連線,確定兩個定位連線的長度以及所述兩個定位連線之間的角度。
9.根據(jù)權(quán)利要求8所述的圖簽信息提取裝置,其特征在于,所述第二確定子模塊用于對于所述電子圖紙中的每個關(guān)鍵字,確定該關(guān)鍵字所在區(qū)域中目標參照點的位置,其中,所述目標參照點、與所述模板中該關(guān)鍵字所在區(qū)域中的參照點在各自所在區(qū)域中的相對位置相同;并且,所述第二確定子模塊還用于以所述目標參照點為起點形成第一目標連接線和第二目標連線,并以所述第一目標連線和所述第二目標連線的終點之間的連線作為所述目標區(qū)域的對角線,并將根據(jù)該對角線形成的矩形區(qū)域確定為所述目標區(qū)域;其中,所述第一定位連線的長度與所述第一目標連線的長度比、以及所述第二定位連線的長度與所述第二目標連線的長度比,滿足所述第一連接線與所述第二連接線之間的長度比;所述第一目標連接線和所述第二目標連線之間的角度,與所述第一定位連線與所述第二定位連線之間的角度相同;所述第一定位連線的長度與所述第一目標連線之間的角度差、以及所述第二定位連線的長度與所述第二目標連線之間的角度差,均滿足所述第一連接線與所述第二連接線之間的角度差。
10.根據(jù)權(quán)利要求9所述的圖簽信息提取裝置,其特征在于,所述參照點和所述目標參照點均為各自所在區(qū)域的中心點、或者均為各自所在區(qū)域的一個邊界點。
全文摘要
本發(fā)明公開了一種圖簽信息提取方法和裝置,其中,該方法包括確定預(yù)定關(guān)鍵字在模板中的位置,根據(jù)預(yù)定關(guān)鍵字之間的參考連接線與其他連接線確定預(yù)定關(guān)鍵字之間的位置關(guān)系,其中,位置關(guān)系包括參考連接線與其他連接線間的長度比和角度,參考連接線為預(yù)定關(guān)鍵字中第一指定關(guān)鍵字與第二指定關(guān)鍵字之間的連接線,其他連接線為第一指定關(guān)鍵字與第二指定關(guān)鍵字之外的其他關(guān)鍵字之間的連接線;根據(jù)模板中預(yù)定關(guān)鍵字之間的位置關(guān)系,確定滿足預(yù)定要求的電子圖紙中的圖簽,從圖簽中提取所有關(guān)鍵字對應(yīng)的屬性值,其中,預(yù)定要求是指該圖簽中的預(yù)定關(guān)鍵字之間的相對位置滿足位置關(guān)系。本發(fā)明能夠有效提高處理效率,減少人工操作量。
文檔編號G06K9/52GK102592108SQ20111000530
公開日2012年7月18日 申請日期2011年1月4日 優(yōu)先權(quán)日2011年1月4日
發(fā)明者張勇, 樊邦華, 江偉, 譚裴 申請人:中國移動通信集團設(shè)計院有限公司