本技術(shù)涉及文本檢測,尤其是涉及一種文本檢測方法及系統(tǒng)。
背景技術(shù):
1、在信息內(nèi)容記錄系統(tǒng)中,內(nèi)容供給者需要確保所記錄的信息準(zhǔn)確且可再現(xiàn),以便于后續(xù)的使用和分析。這一過程中,他們需要詳細(xì)記錄各種信息,包括事件狀態(tài)、處理步驟、涉及的關(guān)鍵元素以及遇到的問題等。這些信息對于后續(xù)的內(nèi)容管理和深入分析至關(guān)重要。
2、傳統(tǒng)的記錄方式往往依賴于非結(jié)構(gòu)化的自由富文本。這種記錄方式雖然靈活,但內(nèi)容供給者所記錄的歷史檔案在一致性和可比性方面存在明顯不足。自由富文本中的關(guān)鍵信息難以快速準(zhǔn)確地檢測,導(dǎo)致提取和整合所需信息變得困難,進(jìn)而影響了后續(xù)的數(shù)據(jù)分析效率。
3、在新聞內(nèi)容的供稿、企業(yè)知識庫的建立等領(lǐng)域中,準(zhǔn)確、結(jié)構(gòu)化的信息記錄同樣重要,它有助于提升內(nèi)容管理的效率,并為后續(xù)的分析和利用提供有力支持。
技術(shù)實現(xiàn)思路
1、本技術(shù)提供一種文本檢測方法及系統(tǒng),以解決上述問題。
2、第一方面,本技術(shù)提供一種文本檢測方法,所述方法包括:
3、獲取文本使用需求;根據(jù)所述文本使用需求,獲取富文本歷史檔案;解析所述富文本歷史檔案,確定結(jié)構(gòu)化多類型富文本;根據(jù)所述文本使用需求及所述結(jié)構(gòu)化多類型富文本,確定檢測需求導(dǎo)向信息;判斷所述檢測需求導(dǎo)向信息中是否存在多媒體融合內(nèi)容;若存在,則基于多媒體融合內(nèi)容,確定檢測結(jié)果信息集;將檢測結(jié)果信息集進(jìn)行結(jié)構(gòu)化文本輸出。
4、通過上述技術(shù)方案,根據(jù)文本使用需求,針對性地獲取富文本歷史檔案,保證了數(shù)據(jù)的準(zhǔn)確性和可靠性,減少無關(guān)數(shù)據(jù)的干擾;通過解析富文本歷史檔案,深入理解其內(nèi)容和結(jié)構(gòu),確定結(jié)構(gòu)化多類型富文本后,可以更有針對性地提取信息,提高信息提取效率,確保檢測需求導(dǎo)向信息的準(zhǔn)確性和相關(guān)性,使提取出的檢測需求導(dǎo)向信息更便于后續(xù)的數(shù)據(jù)分析和處理;識別檢測需求導(dǎo)向信息中是否存在多媒體融合內(nèi)容,若存在,對多媒體融合內(nèi)容進(jìn)行標(biāo)記,整理出的檢測結(jié)果信息集,便于后續(xù)的利用和分析,提高信息的實用價值;結(jié)構(gòu)化文本輸出提高了檢測結(jié)果信息集的可讀性和可理解性,便于用戶快速獲取信息,便于計算機(jī)進(jìn)行處理和分析,為后續(xù)的數(shù)據(jù)挖掘和應(yīng)用提供支持。
5、可選的,所述基于多媒體融合內(nèi)容,確定檢測結(jié)果信息集,包括:將所述多媒體融合內(nèi)容劃分為文本數(shù)據(jù)和圖像數(shù)據(jù);解析所述文本數(shù)據(jù),確定文本數(shù)據(jù)的段落行信息及語義信息;解析所述圖像數(shù)據(jù),確定圖像坐標(biāo);根據(jù)所述語義信息、所述圖像坐標(biāo)及所述段落行信息,確定指代對應(yīng)文本的目標(biāo)圖像、目標(biāo)圖像坐標(biāo);根據(jù)所述目標(biāo)圖像及所述語義信息,確定所述目標(biāo)圖像代表的有效文本成分;根據(jù)所述有效文本成分、所述語義信息、所述段落行信息及所述目標(biāo)圖像坐標(biāo),確定檢測結(jié)果信息集。
6、通過上述技術(shù)方案,將多媒體融合內(nèi)容有效地劃分為文本數(shù)據(jù)和圖像數(shù)據(jù),確保文本數(shù)據(jù)和圖像數(shù)據(jù)的準(zhǔn)確提取,避免信息丟失,為后續(xù)分別處理這兩種類型的數(shù)據(jù)提供基礎(chǔ)。解析文本數(shù)據(jù)得到其詳細(xì)結(jié)構(gòu)信息(段落行信息)及語義信息,有助于理解文本布局,為后續(xù)確定文本與圖像的關(guān)系提供位置關(guān)系判斷的基礎(chǔ)。解析圖像數(shù)據(jù)得到其坐標(biāo)信息,在后續(xù)提取有效文本成分提供準(zhǔn)確的與文本內(nèi)容相對應(yīng)的目標(biāo)圖像及其坐標(biāo)有重要作用;提取出目標(biāo)圖像所代表的有效文本成分,補(bǔ)充文本數(shù)據(jù)的不足,為后續(xù)構(gòu)建檢測結(jié)果信息集提供補(bǔ)充數(shù)據(jù)。形成包含文本、圖像、坐標(biāo)等豐富信息的檢測結(jié)果信息集,為后續(xù)的輸出和使用提供便利,滿足用戶需求,提高檔案內(nèi)容記錄的一致性和可比性,快速準(zhǔn)確地檢測、提取和整合所需信息。
7、可選的,所述據(jù)所述語義信息、所述圖像坐標(biāo)及所述段落行信息,確定指代對應(yīng)文本的目標(biāo)圖像、目標(biāo)圖像坐標(biāo),包括:基于所述語義信息、所述圖像坐標(biāo)及所述段落行信息計算每個文本數(shù)據(jù)和每個圖像數(shù)據(jù)的關(guān)聯(lián)度,根據(jù)所述關(guān)聯(lián)度,確定所述目標(biāo)圖像,參考以下公式:
8、isel=ij|ij∈i,rij>t;
9、其中,isel為目標(biāo)圖像;ij為圖像數(shù)據(jù)第j個數(shù)據(jù)點;i為圖像數(shù)據(jù)的集合;rij為關(guān)聯(lián)度;
10、根據(jù)所述關(guān)聯(lián)度,確定目標(biāo)圖像坐標(biāo),參考以下公式:
11、
12、其中,csel為目標(biāo)圖像坐標(biāo);為j*索引指向的圖像數(shù)據(jù)中的圖像;j*為指代對應(yīng)文本的目標(biāo)圖像的索引;j為圖像數(shù)據(jù)的集合中的任意一個圖像的索引;rij為關(guān)聯(lián)度。
13、通過上述技術(shù)方案,計算每個文本數(shù)據(jù)和每個圖像數(shù)據(jù)的關(guān)聯(lián)度,為后續(xù)確定目標(biāo)圖像和目標(biāo)圖像坐標(biāo)提供計算基礎(chǔ)。根據(jù)關(guān)聯(lián)度,確定與檢測的結(jié)構(gòu)化多類型富文本中關(guān)鍵信息所在位置的文本數(shù)據(jù)的數(shù)據(jù)點最相關(guān)的目標(biāo)圖像,為后續(xù)提取目標(biāo)圖像坐標(biāo)提供基礎(chǔ)。根據(jù)關(guān)聯(lián)度,確定與檢測的結(jié)構(gòu)化多類型富文本中關(guān)鍵信息所在位置的文本數(shù)據(jù)點最相關(guān)的目標(biāo)圖像的坐標(biāo),為后續(xù)的數(shù)據(jù)分析、信息提取和整合提供準(zhǔn)確的圖像位置信息,通過上述計算方式可以準(zhǔn)確的找到圖像與文本存在有較強(qiáng)相關(guān)性,從而避免圖像被歪曲解讀及圖像釋義中不能表達(dá)出在此處放置的真正含義。
14、可選的,所述基于所述語義信息、所述圖像坐標(biāo)及所述段落行信息計算每個文本數(shù)據(jù)和每個圖像數(shù)據(jù)的關(guān)聯(lián)度,包括:提取所述文本數(shù)據(jù)的集合中的關(guān)鍵詞集合;提取所述圖像數(shù)據(jù)的集合中的關(guān)鍵詞集合;計算所述文本數(shù)據(jù)的集合中的關(guān)鍵詞集合與所述圖像數(shù)據(jù)的集合中的關(guān)鍵詞集合的交集大小,得到關(guān)鍵詞匹配得分,參考以下公式:
15、krat(kti,klj)=|kti∩kij|;
16、其中,krat為關(guān)鍵詞匹配得分;kti為文本數(shù)據(jù)的集合中的關(guān)鍵詞集合;kj為圖像數(shù)據(jù)的集合中的關(guān)鍵詞集合;
17、將文本數(shù)據(jù)的集合轉(zhuǎn)換為文本語義向量;將圖像數(shù)據(jù)的集合轉(zhuǎn)換為圖像語義向量;計算文本語義向量與圖像語義向量之間的余弦相似度,得到語義匹配得分,參考以下公式;
18、
19、其中;vrat(vti,vlj)為余弦相似度;dot(vti,vij)為文本語義向量與圖像語義向量的點積公式;||vti||為文本語義向量的長度;||vij||為圖像語義向量的長度;
20、計算所述目標(biāo)圖像坐標(biāo)與任意一個文本數(shù)據(jù)中的關(guān)鍵詞集合對應(yīng)的段落行信息的接近程度,得到位置關(guān)系得分;根據(jù)所述關(guān)鍵詞匹配得分、所述語義匹配得分及所述位置關(guān)系得分,得到每個文本數(shù)據(jù)和每個圖像數(shù)據(jù)的關(guān)聯(lián)度,參考以下公式:
21、
22、其中,rij為關(guān)聯(lián)度;ε為位置關(guān)系得分的權(quán)重系數(shù);krat(kti,klj)為關(guān)鍵詞匹配得分;為語義匹配得分的權(quán)重系數(shù);vrat(vti,vlj)為語義匹配得分;η為位置關(guān)系得分的權(quán)重系數(shù);score為位置關(guān)系得分。
23、通過上述技術(shù)方案,結(jié)合文本和圖像的關(guān)鍵詞集合,更準(zhǔn)確地提取出檔案內(nèi)容記錄中的關(guān)鍵信息,比單純依賴文本或圖像的方法更加全面和準(zhǔn)確。關(guān)聯(lián)度的計算考慮了文本和圖像之間的關(guān)鍵詞、語義及位置關(guān)系,有助于識別和檔案內(nèi)容記錄中的一致性信息,從而提高數(shù)據(jù)之間的可比性。通過計算文本和圖像之間的關(guān)聯(lián)度,可以快速準(zhǔn)確地定位到所需的信息,避免了在非結(jié)構(gòu)化自由富文本中手動搜索和整理的繁瑣過程,大大提高了數(shù)據(jù)分析的效率;使用上述公式計算關(guān)聯(lián)度,使得檔案內(nèi)容記錄中的信息更加易于整合和利用;通過調(diào)整關(guān)鍵詞匹配得分、語義匹配得分和位置關(guān)系得分對應(yīng)的權(quán)重系數(shù),可以靈活地適應(yīng)不同的應(yīng)用場景和需求,這使得該方法具有很好的可擴(kuò)展性和適應(yīng)性。
24、可選的,所述計算所述目標(biāo)圖像坐標(biāo)與任意一個文本數(shù)據(jù)中的關(guān)鍵詞集合中關(guān)鍵詞對應(yīng)的段落行信息的接近程度,得到位置關(guān)系得分,包括:解析所述目標(biāo)圖像坐標(biāo)與任意一個文本數(shù)據(jù)中的關(guān)鍵詞集合中關(guān)鍵詞對應(yīng)的段落行信息的接近程度,得到文本和圖像所在的行號之差、文本和圖像所在的列號之差、文本與圖像間的環(huán)繞情況;根據(jù)所述圖像和文本的環(huán)繞情況,得到文本在圖像的x軸上的環(huán)繞距離、文本在圖像的y軸上的環(huán)繞距離;根據(jù)所述行號之差、所述列號之差、所述x軸上的環(huán)繞距離及所述y軸上的環(huán)繞距離,計算位置關(guān)系得分,參考以下公式:
25、
26、其中,α為行號之差的絕對值的權(quán)重系數(shù);drow為行號之差的絕對值;β為列號之差的權(quán)重系數(shù);dcol為列號之差;γ為x軸上的環(huán)繞距離的權(quán)重系數(shù);為x軸上的環(huán)繞距離;δ為y軸上的環(huán)繞距離的權(quán)重系數(shù);為y軸上的環(huán)繞距離。
27、通過上述技術(shù)方案,通過細(xì)致分析文本與圖像在文檔中的相對位置,包括行號之差、列號之差以及環(huán)繞情況,能夠更精確地定位到與圖像緊密相關(guān)的文本信息;位置關(guān)系得分的計算考慮了文本和圖像之間的空間布局關(guān)系,有助于識別和檔案內(nèi)容記錄中的一致性信息。即使在不同的檔案內(nèi)容記錄中,只要文本與圖像的空間關(guān)系相似,它們的位置關(guān)系得分就會相近,從而提高了數(shù)據(jù)之間的可比性。通過計算位置關(guān)系得分,我們可以快速準(zhǔn)確地定位到與圖像緊密相關(guān)的文本信息,避免了在非結(jié)構(gòu)化自由富文本中手動搜索和整理的繁瑣過程,大大提高了數(shù)據(jù)分析的效率。該方法不僅適用于文本數(shù)據(jù),還結(jié)合了圖像數(shù)據(jù),支持多媒體數(shù)據(jù)的融合分析,這對于檔案內(nèi)容記錄中包含了大量的關(guān)鍵信息的照片等圖像信息的分析尤為重要。
28、可選的,所述根據(jù)所述目標(biāo)圖像及所述語義信息,確定所述目標(biāo)圖像代表的有效文本成分,包括:解析目標(biāo)圖像,判斷目標(biāo)圖像是否存在文本內(nèi)容;若存在,則提取目標(biāo)圖像的圖像文本內(nèi)容;基于圖像文本內(nèi)容、圖像畫面聯(lián)系上下文的所述語義信息進(jìn)行解釋,通過所述圖像文本內(nèi)容、圖像解釋信息及所述語義信息提取圖像中的有效文本成分;若不存在,則基于圖像畫面聯(lián)系上下文的所述語義信息進(jìn)行解釋,將圖像解釋信息作為有效文本成分。
29、通過上述技術(shù)方案,不僅考慮了圖像中可能存在的文本內(nèi)容,還考慮了圖像畫面本身所傳達(dá)的信息,提高了信息提取的全面性。通過提取圖像中的文本內(nèi)容,并將其與語義信息相結(jié)合,可以將非結(jié)構(gòu)化的自由富文本轉(zhuǎn)化為更加結(jié)構(gòu)化和可理解的形式,這有助于更好地理解和利用檔案內(nèi)容記錄中的信息。從不同類型的檔案內(nèi)容記錄(包括文本和圖像)中提取出一致的關(guān)鍵信息,從而提高檔案內(nèi)容記錄的一致性和可比性,也有助于在多個檔案內(nèi)容記錄之間進(jìn)行比較和分析,以發(fā)現(xiàn)潛在的問題和改進(jìn)點。通過上述有效文本成分獲得的過程對圖像數(shù)據(jù)的適用性極強(qiáng),支持多媒體數(shù)據(jù)的融合分析,對于檔案內(nèi)容記錄中包含的照片等圖像信息的分析尤為重要。通過提取圖像中的有效文本成分,可以更加快速和準(zhǔn)確地定位到檔案內(nèi)容記錄中的關(guān)鍵信息,這避免了在非結(jié)構(gòu)化自由富文本中手動搜索和整理的繁瑣過程,從而優(yōu)化了數(shù)據(jù)分析的效率。
30、可選的,所述基于圖像畫面聯(lián)系上下文的所述語義信息進(jìn)行解釋,將圖像解釋信息作為有效文本成分,包括:基于圖像畫面聯(lián)系上下文進(jìn)行解釋,得到解釋信息;計算所述解釋信息與所述語義信息之間的相似度;若所述相似度大于預(yù)設(shè)的閾值,則解釋信息作為有效文本成分。
31、通過上述技術(shù)方案,結(jié)合圖像畫面和上下文語義信息進(jìn)行解釋,更準(zhǔn)確地理解圖像在檔案內(nèi)容記錄中的具體含義,從而提取出更準(zhǔn)確的信息。同時,不僅考慮圖像中的文本內(nèi)容,還考慮圖像畫面本身所傳達(dá)的信息,提高了信息提取的全面性;將非結(jié)構(gòu)化的自由富文本和圖像信息轉(zhuǎn)化為結(jié)構(gòu)化的解釋信息,便于后續(xù)的數(shù)據(jù)分析和處理。結(jié)構(gòu)化的解釋信息提高了檔案內(nèi)容記錄的一致性和可比性,使得在多個檔案內(nèi)容記錄之間進(jìn)行比較和分析變得更加容易;通過提取圖像中的有效文本成分,更精準(zhǔn)地定位到檔案內(nèi)容記錄中的關(guān)鍵信息。
32、可選的,所述根據(jù)所述有效文本成分、所述語義信息、所述段落行信息及所述目標(biāo)圖像坐標(biāo),確定檢測結(jié)果信息集,包括:基于有效文本成分,根據(jù)目標(biāo)圖像坐標(biāo)、段落行信息、語義信息,確定有效文本成分分布狀態(tài);對所述有效文本成分及所述語義信息,根據(jù)分布狀態(tài)進(jìn)行多模態(tài)信息融合,得到檢測結(jié)果信息集。
33、通過上述技術(shù)方案,結(jié)合有效文本成分、語義信息、段落行信息和目標(biāo)圖像坐標(biāo),更準(zhǔn)確地確定文本在圖像中的分布狀態(tài),提高了信息提取的準(zhǔn)確性。將非結(jié)構(gòu)化的自由富文本和圖像信息轉(zhuǎn)化為結(jié)構(gòu)化的檢測結(jié)果信息集,便于后續(xù)的數(shù)據(jù)分析和處理。通過多模態(tài)信息融合,將有效文本成分與文本的語義信息整合在一起,形成更加統(tǒng)一、豐富和全面的檢測結(jié)果信息集。
34、可選的,所述將檢測結(jié)果信息集進(jìn)行結(jié)構(gòu)化文本輸出,包括:根據(jù)查詢信息,對檢測結(jié)果信息集進(jìn)行篩選,得到篩選后的信息集;獲取預(yù)設(shè)的結(jié)構(gòu)化模板;通過所述篩選后的信息集,對所述結(jié)構(gòu)化模板進(jìn)行信息填充,得到精簡后的信息集;將精簡后的檢測結(jié)果信息集進(jìn)行結(jié)構(gòu)化文本輸出。
35、通過上述技術(shù)方案,根據(jù)查詢信息對檢測結(jié)果信息集進(jìn)行篩選,快速準(zhǔn)確地定位到所需的信息,避免了在非結(jié)構(gòu)化文本中手動搜索的繁瑣過程,提高了后續(xù)處理的效率。使用預(yù)設(shè)的結(jié)構(gòu)化模板對篩選后的信息進(jìn)行填充,確保了輸出信息的統(tǒng)一格式和標(biāo)準(zhǔn),提高檔案內(nèi)容記錄的一致性和可比性,使得信息更加清晰、易于理解,為后續(xù)的數(shù)據(jù)分析提供便利,可以直接用于報告生成、數(shù)據(jù)可視化或進(jìn)一步的數(shù)據(jù)處理和分析,結(jié)構(gòu)化文本輸出使得使用人員可以更加清晰地了解檔案記錄中的具體情況和背景,有助于做出更準(zhǔn)確的判斷和決策。由于信息經(jīng)過篩選和結(jié)構(gòu)化處理,因此數(shù)據(jù)分析的效率和準(zhǔn)確性都得到了提升。
36、第二方面,本技術(shù)提供一種文本檢測系統(tǒng),所述系統(tǒng)包括:
37、富文本歷史檔案獲取模塊,用于獲取文本使用需求;根據(jù)所述文本使用需求,獲取富文本歷史檔案;
38、結(jié)構(gòu)化多類型富文本解析模塊,用于解析所述富文本歷史檔案,確定結(jié)構(gòu)化多類型富文本;
39、檢測需求導(dǎo)向信息確定模塊,用于根據(jù)所述文本使用需求及所述結(jié)構(gòu)化多類型富文本,確定檢測需求導(dǎo)向信息;
40、多媒體內(nèi)容判斷模塊,用于判斷所述檢測需求導(dǎo)向信息中是否存在多媒體融合內(nèi)容;
41、檢測結(jié)果信息集構(gòu)建模塊,用于若存在,則基于多媒體融合內(nèi)容,確定檢測結(jié)果信息集;
42、結(jié)構(gòu)化文本輸出模塊,用于將檢測結(jié)果信息集進(jìn)行結(jié)構(gòu)化文本輸出。