本發(fā)明涉及文本信息提取技術領域,尤其涉及一種網(wǎng)頁學術報告信息抽取方法和系統(tǒng)。
背景技術:
隨著互聯(lián)網(wǎng)時代的高速發(fā)展,越來越多的的信息發(fā)布在網(wǎng)上。而信息的展現(xiàn)形式卻是參差不齊的,因此越來越需要一種技術可以將大量優(yōu)質的信息從互聯(lián)網(wǎng)的各個角落集中的、規(guī)范的挖掘給用戶,來提高用戶的消費質量。
網(wǎng)頁學術報告信息是科研工作者重要的信息獲取、交流方式之一,它可以幫組科研工作者快速的發(fā)現(xiàn)哪里有和自己研究方向相關聯(lián)的學術報告,從而參加并進行學術交流、提高學術水平。目前網(wǎng)頁學術報告信息在每個研究所、高校等機構都是存在的,但是機構太過分散,每個機構的學術網(wǎng)頁網(wǎng)址也都很難查找,而且學術信息的展現(xiàn)形式的混亂導致讓用戶很難快速的查找和發(fā)現(xiàn)與自己相關的學術報告,所以如何快速在大量混亂的機構、網(wǎng)頁中找到自己所需要的報告是一個問題。因此能將分散的、格式混亂的學術報告集中、規(guī)范的展現(xiàn)給科研工作者是一個非常有價值的工作。
由于網(wǎng)頁信息的高度復雜性和高度自然語言化,現(xiàn)有的、配合html標記的規(guī)則化關鍵字匹配方法工作方式單一,可擴展性很低,面對稍有變化的網(wǎng)頁就需要大量的重寫操作,而且沒有考慮到html標記以外的標記內容,最小粒度依賴于dom樹節(jié)點的分類,但同一節(jié)點中很容易包含不同的內容?,F(xiàn)有的基于文檔樹的機器學習方式針對整體的分類任務和節(jié)點類別判斷較好,但是針對更精細的、文檔樹參考價值低的、特征過于寬泛復雜的內容效果還不夠,尤其未考慮到內容之間序的關系。
技術實現(xiàn)要素:
基于背景技術存在的技術問題,本發(fā)明提出了一種網(wǎng)頁學術報告信息抽取方法和系統(tǒng)。
本發(fā)明提出的一種網(wǎng)頁學術報告信息抽取方法,包括:
s1、將學術報告網(wǎng)頁html標簽和學術報告的內容開頭替換為對應的固定表示標記,并根據(jù)相鄰兩個固定表示標記對學術報告進行分割,得到初步分割結果集合;
s2、刪除初步分割結果集合中匹配預設黑名單的初步分割結果,得到有效分割結果集合;
s3、獲取有效分割結果集合中各有效分割結果的開頭位置和結尾位置,再根據(jù)各有效分割結果的開頭位置和結尾位置合并提取出各有效分割結果對應的屬性內容;
s4、判斷步驟s3中屬性是否出現(xiàn)重復,當判斷結果為是時,根據(jù)屬性排列方式將不同屬性對應的屬性內容分配到相應的學術報告中;
s5、獲取學術報告的報告人信息和時間并匹配到學術報告中報告人信息和時間中。
優(yōu)選地,步驟s1,具體包括:將html轉義字符還原,并將表示開始、結束標記的html代碼替換為表示結尾的固定表示標記;依次替換題目、報告人、時間、地點、報告人簡介、報告簡介、主辦單位的內容開頭標識為相應的固定表示標記;
優(yōu)選地,在步驟s1中,所述固定表示標記代表的標記類別是唯一的。
優(yōu)選地,在步驟s2中,所述黑名單為一組模糊匹配方法的集合,黑名單包括所有屬性適用黑名單和單一屬性適用黑名單,其中,所述屬性為目標學術報告中一段內容的類別特征;
優(yōu)選地,在步驟s3中,所述獲取有效分割結果集合中各有效分割結果的開頭位置和結尾位置,具體包括:有效分割結果起始位置為有效分割結果的開頭位置,有效分割結果中連續(xù)空白內容出現(xiàn)次數(shù)達到預設次數(shù)的位置為有效分割結果的結尾位置。
優(yōu)選地,步驟s4中,所述判斷步驟s3中屬性是否出現(xiàn)重復,其中所述屬性不包括舉辦單位;
優(yōu)選地,步驟s4中,在根據(jù)屬性排列方式將不同屬性對應的屬性內容分配到相應的學術報告中之后,還包括:當某個屬性在多個學術報告中出現(xiàn)且僅出現(xiàn)一次時,將此屬性添加到其他學術報告中。
優(yōu)選地,步驟s5,具體包括:
根據(jù)已有報告人職稱生成一個對應列表,將列表按職稱詞語包含與被包含的順序由高職位到低職位的順序進行排序,再根據(jù)職稱生成的對應列表在報告人和報告人簡介中提取出職稱最高的作為此報告職稱并匹配到報告人信息中;
利用分詞算法和正則匹配方法分離出報告人、報告人簡介中的機構,并結合相關的、正確的前綴、后綴作為此報告的報告人單位并匹配到報告人信息中;
利用分詞算法和正則匹配方法分離出報告人、報告人簡介中的名字,作為此報告的報告人姓名并匹配到報告人信息中;
按照預設策略將報告時間補充為utc時間并匹配到報告人信息中,其中,預設策略包括:獲取學術報告對應機構的最新的時間記為最新時間,對所述最新時間出現(xiàn)不規(guī)范的時間進行規(guī)范化,將12小時進制轉化為24小時進制,并按照從整體到部分的捕獲策略得到精準的年月日時分,當學術報告原數(shù)據(jù)沒有年份,則使用發(fā)布時間中的年份,當發(fā)布時間中沒有年份,則看最新時間是否為空,若不為空則取最新時間的年份,否則放入沒有年份的等待隊列,當報告至少具有年月日,則將此時間賦值給所述的最新時間,并查看所述的沒有年份的等待隊列,若其中不為空,則補上年份并從隊列中去除,其他情況不處理;當開始時間缺失時分、結束時間缺失年月日時分的情況時,進行大致偏好時間的填補。
一種網(wǎng)頁學術報告信息抽取系統(tǒng),包括:
替換分割模塊,用于將學術報告網(wǎng)頁html標簽和學術報告的內容開頭替換為對應的固定表示標記,并根據(jù)相鄰兩個固定表示標記對學術報告進行分割,得到初步分割結果集合;
黑名單模塊,用于刪除初步分割結果集合中匹配預設黑名單的初步分割結果,得到有效分割結果集合;
內容提取模塊,用于獲取有效分割結果集合中各有效分割結果的開頭位置和結尾位置,再根據(jù)各有效分割結果的開頭位置和結尾位置合并提取出各有效分割結果對應的屬性內容;
報告分類模塊,用于判斷內容提取模塊中屬性是否出現(xiàn)重復,當判斷結果為是時,根據(jù)屬性排列方式將不同屬性對應的屬性內容分配到相應的學術報告中;
內容補充模塊,獲取學術報告的報告人信息和時間并匹配到學術報告中報告人信息和時間中。
優(yōu)選地,所述替換分割模塊,具體用于:將html轉義字符還原,并將表示開始、結束標記的html代碼替換為表示結尾的固定表示標記;依次替換題目、報告人、時間、地點、報告人簡介、報告簡介、主辦單位的內容開頭標識為相應的固定表示標記;
優(yōu)選地,替換分割模塊,還用于:將學術報告網(wǎng)頁html標簽和內容開頭標識替換為對應的固定表示標記,其中所述固定表示標記代表的標記類別是唯一的。
優(yōu)選地,所述黑名單模塊,具體用于:黑名單為一組模糊匹配方法的集合,黑名單包括所有屬性適用黑名單和單一屬性適用黑名單,其中,所述屬性為目標學術報告中一段內容的類別特征;
優(yōu)選地,所述內容提取模塊,具體用于:獲取有效分割結果集合中各有效分割結果的開頭位置和結尾位置,其中有效分割結果起始位置為有效分割結果的開頭位置,有效分割結果中連續(xù)空白內容出現(xiàn)次數(shù)達到預設次數(shù)的位置為有效分割結果的結尾位置。
優(yōu)選地,所述報告分類模塊,具體用于:判斷內容提取模塊中屬性是否出現(xiàn)重復,其中所述屬性不包括舉辦單位;
優(yōu)選地,報告分類模塊,還用于:當某個屬性在多個學術報告中出現(xiàn)且僅出現(xiàn)一次時,將此屬性添加到其他學術報告中。
優(yōu)選地,所述內容補充模塊,具體用于:
根據(jù)已有報告人職稱生成一個對應列表,將列表按職稱詞語包含與被包含的順序由高職位到低職位的順序進行排序,再根據(jù)職稱生成的對應列表在報告人和報告人簡介中提取出職稱最高的作為此報告職稱并匹配到報告人信息中;
利用分詞算法和正則匹配方法分離出報告人、報告人簡介中的機構,并結合相關的、正確的前綴、后綴作為此報告的報告人單位并匹配到報告人信息中;
利用分詞算法和正則匹配方法分離出報告人、報告人簡介中的名字,作為此報告的報告人姓名并匹配到報告人信息中;
按照預設策略將報告時間補充為utc時間并匹配到報告人信息中,其中,預設策略包括:獲取學術報告對應機構的最新的時間記為最新時間,對所述最新時間出現(xiàn)不規(guī)范的時間進行規(guī)范化,將12小時進制轉化為24小時進制,并按照從整體到部分的捕獲策略得到精準的年月日時分,當學術報告原數(shù)據(jù)沒有年份,則使用發(fā)布時間中的年份,當發(fā)布時間中沒有年份,則看最新時間是否為空,若不為空則取最新時間的年份,否則放入沒有年份的等待隊列,當報告至少具有年月日,則將此時間賦值給所述的最新時間,并查看所述的沒有年份的等待隊列,若其中不為空,則補上年份并從隊列中去除,其他情況不處理;當開始時間缺失時分、結束時間缺失年月日時分的情況時,進行大致偏好時間的填補。
本發(fā)明在提取信息時做出了一個假設,同一類有用的信息是連續(xù)展現(xiàn)的,比如對于一個摘要,我們不會認為第一段摘要和第二段摘要之間會有不屬于摘要信息的存在,那么,這樣就可以利用同信息連續(xù)展現(xiàn)特性、節(jié)點細化功能,將分類任務化為文本切割位置的選擇任務,本發(fā)明對于非連續(xù)展現(xiàn)的信息或無開頭標識的信息則缺乏適應,本發(fā)明提供一個三層架構來提高可擴展性,即規(guī)范-合并-模式架構;規(guī)范:解決標簽格式多樣性問題,提供一個可供定制的匹配選擇,使用戶可以在為新的網(wǎng)頁情況輕松得擴展;合并:主要解決結尾位置問題,使用黑名單方式進行處理,不在名單中的可以去除,保證能正確的結尾;模式:一個網(wǎng)頁報告中可能有多個相同屬性的標簽,比如多個報告時間、多個報告人簡介等等,這里就是解決一頁多報告、多報告共享屬性等標簽歸屬問題,并進行人工修改評測。這個架構擺脫了傳統(tǒng)提取信息時最小粒度依賴于dom樹節(jié)點的分類,并利用了屬性順序特征分類,考慮到了內容之間序的關系,本發(fā)明為了更高的利用所需信息,本發(fā)明利用屬性之間的一定聯(lián)系進行深層次的信息提取、規(guī)范,如根據(jù)發(fā)布時間、時間及其前后的時間規(guī)范補充非標準時間,根據(jù)報告人、報告人簡介用分詞、規(guī)則匹配方式得到更細的姓名、職稱、機構,從而一定的克服了節(jié)點內精細內容的匹配問題。
本發(fā)明擴大了dom樹節(jié)點細化的能力,提高了規(guī)則適用性,利用了屬性順序特征分類。利用同信息連續(xù)展現(xiàn)特性等,將分類任務化為文本切割位置的選擇任務,從而準確、規(guī)范并易于擴展地提取和整理學術報告信息。
附圖說明
圖1為本發(fā)明提出的一種網(wǎng)頁學術報告信息抽取方法的流程示意圖;
圖2為圖1中步驟s1的具體流程圖;
圖3為圖1中步驟s2的具體流程圖;
圖4為圖1中步驟s3的具體流程圖;
圖5為圖1中步驟s4的具體流程圖;
圖6為圖1中步驟s5具體流程圖;
圖7為本發(fā)明提出的一種網(wǎng)頁學術報告信息抽取方法的三層架構示意圖;
圖8為本發(fā)明提出的一種網(wǎng)頁學術報告信息抽取系統(tǒng)的模塊示意圖。
具體實施方式
參照圖1,本發(fā)明提出的一種網(wǎng)頁學術報告信息抽取方法,該方法包括:
步驟s1,將學術報告網(wǎng)頁html標簽和學術報告的內容開頭替換為對應的固定表示標記,并根據(jù)相鄰兩個固定表示標記對學術報告進行分割,得到初步分割結果集合;
本步驟具體包括:將html轉義字符還原,并將表示開始、結束標記的html代碼替換為表示結尾的固定表示標記;依次替換題目、報告人、時間、地點、報告人簡介、報告簡介、主辦單位的內容開頭標識為相應的固定表示標記;
具體地,在本步驟中,所述固定表示標記代表的標記類別是唯一的;
在本實施方式中,獲取學術網(wǎng)頁并對其中的html標簽及屬性標簽進行規(guī)范化的處理,即將html標簽及屬性標簽聯(lián)合起來得到更細致的劃分點,其中,所述屬性標簽為學術報告中特有的、表示內容屬性的標記,例如“報告人:”、“報告人簡介:”;
參照圖2,步驟s1具體包括以下步驟:
步驟s11,下載一個學術報告網(wǎng)站上的每一個學術報告網(wǎng)頁,
步驟s12,從已經(jīng)下載好的學術報告網(wǎng)頁中按順序提取一個學術報告網(wǎng)頁,如果提取完畢則結束;
例如,提取報告:“<p>\r\n\t報告題目一:</p>\n<p>aaaaaa</p>aaa<p>報告時間:bbb</p>bbb<p>報告地點:ccc</p><p>報\xa0告\xa0人:ddd</p>ddd<p>內容摘要:</p><p>eeeeee</p><p>eee</p><p>報告人簡介:</p><p>fff</p><p>r\n\t報告題目二:</p><p>aaa</p>aaa<p>報告時間:bbb</p><p>報告地點:ccc</p><p>報\xa0告\xa0人:ddd</p><p>ddd內容摘要:</p><p>eeeeee</p><p></p><p>報告人簡介:</p><p>fff</p>fff<p>”;
步驟s13,將html轉義字符還原,并將表示開始、結束標記的html代碼替換為一個固定的結尾表示標記,然后去掉html代碼;
例如,由上例得到:“報告題目一:{結尾}aaaaaa{結尾}aaa報告時間:bbb{結尾}bbb報告地點:ccc{結尾}報告人:ddd{結尾}ddd內容摘要:{結尾}eeeeee{結尾}eee{結尾}報告人簡介:{結尾}fff{結尾}報告題目二:{結尾}aaa{結尾}aaa報告時間:bbb{結尾}報告地點:ccc{結尾}報告人:ddd{結尾}ddd內容摘要:{結尾}eeeeee{結尾}{結尾}報告人簡介:{結尾}fff{結尾}fff”;
步驟s14,根據(jù)屬性出現(xiàn)規(guī)則多層次的依次替換題目、報告人、時間、地點、報告人簡介、報告簡介、主辦單位等模糊屬性為固定的表示標記;
例如,由上例得到:“{題目}{結尾}aaaaaa{結尾}aaa{時間}bbb{結尾}bbb{地點}ccc{結尾}{報告人}ddd{結尾}ddd{報告簡介}{結尾}eeeeee{結尾}eee{結尾}{報告人簡介}{結尾}fff{結尾}{題目}{結尾}aaa{結尾}aaa{時間}bbb{結尾}{地點}ccc{結尾}{報告人}ddd{結尾}ddd{報告簡介}{結尾}eeeeee{結尾}{結尾}{報告人簡介}{結尾}fff{結尾}fff”;
步驟s15,整體替換修正,在上一個步驟全部完成的基礎上再替換更為復雜的、屬性直接存在一定聯(lián)系的模糊屬性標簽為固定的表示標記,并有偏好的替換一些模凌兩可的標簽;
步驟s16,按已經(jīng)確定好的固定表示標記將這段文本分割;
例如,由上例得到:“屬性:內容,1:,0:aaaaaa,0:aaa,3:bbb,0:bbb,4:ccc,0:,2:ddd,0:ddd,6:,0:eeeeee,0:eee,0:,5:,0:fff,0:,1:,0:aaa,0:aaa,3:bbb,0:,4:ccc,0:,2:ddd,0:ddd,6:,0:eeeeee,0:,0:,5:,0:fff,0:fff”,其中0代表結尾,123456代表一般屬性。
步驟s2,刪除初步分割結果集合中匹配預設黑名單的初步分割結果,得到有效分割結果集合;
在本步驟中,所述黑名單為一組模糊匹配方法的集合,黑名單包括所有屬性適用黑名單和單一屬性適用黑名單,其中,所述屬性為目標學術報告中一段內容的類別特征;
在本實施方式中,根據(jù)建立的多樣化黑名單確定結尾的位置,這是一種分類的方式,其中,所述黑名單是指一組模糊匹配方法的集合,可以是一組正則表達式,用于確定內容是否屬于當前屬性;
參照圖3,步驟s2具體包括以下步驟:
步驟s21,根據(jù)網(wǎng)頁的規(guī)則和需要,從所有屬性適用和單一屬性適用的角度分別建立2種黑名單。其中,所述單一屬性適用是指某個特定的屬性使用的黑名單;
步驟s22,從分割結果中提取一個分割塊,如果沒有則結束。所述分割結果是指步驟s16所得到的文本分割結果;
步驟s23,判斷分割塊開頭是否為普通屬性,若不是則進入步驟s22,否則進入在步驟s24。所述分割塊開頭是指分割塊起始處的分割節(jié)點。所述普通屬性是指所需提取內容的屬性之一,不是指代表結尾的屬性;
步驟s24,判斷分割塊內容是否匹配黑名單,從所有屬性適用和單一屬性適用的角度分別一次,若不是則進入步驟s25,否則進入在步驟s22;
步驟s25,此分割塊作為一類開頭;
步驟s26,從分割結果中再提取一個分割塊,如果沒有則結束;
步驟s27,判斷分割塊開頭是否為普通屬性,若不是則進入步驟s28,否則進入在步驟s24;
步驟s28,判斷分割塊內容是否匹配黑名單,從所有屬性適用和單一屬性適用的角度分別一次,若不是則進入步驟s29,否則進入在步驟s26;
在步驟s29中,此分割塊內容加入此類,繼續(xù)步驟s21。所述此類是指步驟s25所創(chuàng)建的一類。
步驟s3,獲取有效分割結果集合中各有效分割結果的開頭位置和結尾位置,再根據(jù)各有效分割結果的開頭位置和結尾位置合并提取出各有效分割結果對應的屬性內容;
在本步驟中,所述獲取有效分割結果集合中各有效分割結果的開頭位置和結尾位置,具體包括:有效分割結果起始位置為有效分割結果的開頭位置,有效分割結果中連續(xù)空白內容出現(xiàn)次數(shù)達到預設次數(shù)的位置為有效分割結果的結尾位置;
在本實施方式中,由開頭和結尾的位置合并提取出所有不同屬性的內容;
參照圖4,步驟s3具體包括以下步驟:
步驟s31,抽取一個類,從開頭到最后內容,抽完則結束,所述一個類是指步驟s2中得到的所有類別中的一個;
步驟s32,判斷所抽取類別中空白塊連續(xù)次數(shù)是否超過閾值,是則進入步驟s33,否則進入步驟s34。所述空白塊是指類別中的分割塊只有開頭或中間沒有內容;
步驟s33,丟棄此連續(xù)空白塊及其之后的內容;
步驟s34,判斷此類屬性是否與上類一致,是則進入步驟s35,否則進入步驟s36,所述上類是指上一次在步驟s31中所抽取的一個類,如果是第一次則沒有上一次;
步驟s35,將此類與上一類合并成一個類。
步驟s36,合并此類別的內容,成功分出類別,繼續(xù)步驟s31;
例如,經(jīng)過步驟s13后,由上例得到:“屬性:內容,1:aaaaaaaaa,3:bbbbbb,4:ccc,2:dddddd,6:eeeeeeeee,5:fff,1:aaaaaa,3:bbb,4:ccc,2:dddddd,6:eeeeee,5:ffffff”,其中0代表結尾,123456代表一般屬性。
步驟s4,判斷步驟s3中屬性是否出現(xiàn)重復,當判斷結果為是時,根據(jù)屬性排列方式將不同屬性對應的屬性內容分配到相應的學術報告中;
本步驟中,判斷步驟s3中屬性是否出現(xiàn)重復,其中所述屬性不包括舉辦單位;
具體的,在本步驟中,判斷網(wǎng)頁有多個學術報告之后,還包括:當某個屬性在多個學術報告中出現(xiàn)且僅出現(xiàn)一次時,將此屬性添加到其他學術報告中。
具體的,在本步驟中,根據(jù)學術報告的屬性排列方式將不同屬性內容分屬到對應的學術報告中之后,還包括:根據(jù)同一頁面下不同報告的屬性缺失差異、每個報告的屬性缺失狀況、黑白名單關鍵字的判斷、屬性字符長度的限制對分析結果進行可信任程度評估;
在本實施方式中,根據(jù)類別內容的屬性的排列方式確定類別內容的屬性分屬哪一個報告,達到分離一個網(wǎng)頁的多個報告的效果;
參照圖5,步驟s4具體包括以下步驟:
步驟s41,生成一個空的報告。所述空的報告是用來存儲一個報告的屬性內容的,可以是數(shù)組或結構體等的形式;
步驟s42,判斷分類結果是否遍歷完,是則進入步驟s47,否則進入步驟s43,所述分類結果是指步驟s3分出的所有類別;
步驟s43中,從分好的結果中抽取一個類及其屬性;
步驟s44中,判斷所取的屬性是否在生成的報告中已有,是則進入步驟s45,否則進入步驟s46;
步驟s45,再生成一個空的報告,放在上一個報告之前,作為被加入的報告。
步驟s46中,將所取的類加入報告之中,然后進入步驟s42;
例如,直到步驟s407時,由上例得到:“{題目}aaaaaaaaa,{報告人}dddddd,{時間}bbbbbb,{地點}ccc,{報告人簡介}fff,{報告簡介}eeeeeeeee;{題目}aaaaaa,{報告人}dddddd,{時間}bbb,{地點}ccc,{報告人簡介}ffffff,{報告簡介}eeeeee”;
步驟s47,對本網(wǎng)頁所有報告缺失屬性進行公共信息延展,所述公共信息延展是指將多個報告中出現(xiàn)且僅出現(xiàn)一次的屬性類別添加到本網(wǎng)頁其他的所有報告之中;
步驟s48,分析計算結果可信度,所述結果可信度是根據(jù)同一網(wǎng)頁下不同報告的屬性缺失差異、每個報告的屬性缺失狀況、黑白名單關鍵字的判斷、屬性字符長度的限制的角度綜合得到的結果,本發(fā)明實施例對此并不加以限定;
至此分析完一個網(wǎng)頁的所有報告以后,再回到步驟s12,直到分析完所有的網(wǎng)頁再進行步驟s5。
步驟s5,獲取學術報告的報告人信息和時間并匹配到學術報告中報告人信息和時間中;
本步驟具體包括:
根據(jù)已有報告人職稱生成一個對應列表,將列表按職稱詞語包含與被包含的順序由高職位到低職位的順序進行排序,再根據(jù)職稱生成的對應列表在報告人和報告人簡介中提取出職稱最高的作為此報告職稱并匹配到報告人信息中;
利用分詞算法和正則匹配方法分離出報告人、報告人簡介中的機構,并結合相關的、正確的前綴、后綴作為此報告的報告人單位并匹配到報告人信息中;
利用分詞算法和正則匹配方法分離出報告人、報告人簡介中的名字,作為此報告的報告人姓名并匹配到報告人信息中;
按照預設策略將報告時間補充為utc時間并匹配到報告人信息中,其中,預設策略包括:獲取學術報告對應機構的最新的時間記為最新時間,對所述最新時間出現(xiàn)不規(guī)范的時間進行規(guī)范化,將12小時進制轉化為24小時進制,并按照從整體到部分的捕獲策略得到精準的年月日時分,當學術報告原數(shù)據(jù)沒有年份,則使用發(fā)布時間中的年份,當發(fā)布時間中沒有年份,則看最新時間是否為空,若不為空則取最新時間的年份,否則放入沒有年份的等待隊列,當報告至少具有年月日,則將此時間賦值給所述的最新時間,并查看所述的沒有年份的等待隊列,若其中不為空,則補上年份并從隊列中去除,其他情況不處理;當開始時間缺失時分、結束時間缺失年月日時分的情況時,進行大致偏好時間的填補;
在本實施方式中,使用分詞和模糊匹配技術深度規(guī)范時間和細化報告人信息;
參照圖參照圖6,步驟s5具體包括以下步驟:
步驟s51,從前面所有步驟得到的報告中取出一份報告,若取完則結束。
步驟s52,根據(jù)職稱列表從報告人及其簡介中匹配出最高職稱,所述職稱列表是根據(jù)已有的報告人職稱生成的一個對應列表,列表按職稱詞語包含與被包含、高職位到低職位的順序進行排序,每個職稱可能有著不同的表達形式,一般由正則表達式展現(xiàn);
步驟s53,從報告人及其簡介中匹配出報告人機構,利用分詞算法和一定規(guī)則的正則匹配方法分離出報告人、報告人簡介中的機構,并帶上相關的、正確的前綴、后綴作為此報告的報告人單位;
步驟s54,從報告人及其簡介中匹配出報告人精確姓名,利用分詞算法和一定規(guī)則的正則匹配方法分離出報告人、報告人簡介中的名字,作為此報告的報告人姓名;
步驟s55中,將報告時間補充并化為utc時間,再返回步驟s51;
最后,針對分析完的數(shù)據(jù),和數(shù)據(jù)庫中的信息進行一定偏好的匹配,丟棄冗余的數(shù)據(jù),并將所有分析完畢的報告信息分條存入數(shù)據(jù)庫。
參照圖7,圖7為本發(fā)明提出的一種網(wǎng)頁學術報告信息抽取方法的三層架構示意圖,本發(fā)明提供一個三層架構來提高可擴展性,即規(guī)范-合并-模式架構;規(guī)范:解決標簽格式多樣性問題,提供一個可供定制的匹配選擇,使用戶可以在為新的網(wǎng)頁情況輕松得擴展;合并:主要解決結尾位置問題,使用黑名單方式進行處理,不在名單中的可以去除,保證能正確的結尾;模式:一個網(wǎng)頁報告中可能有多個相同屬性的標簽,比如多個報告時間、多個報告人簡介等等,這里就是解決一頁多報告、多報告共享屬性等標簽歸屬問題,并進行人工修改評測。這個架構擺脫了傳統(tǒng)提取信息時最小粒度依賴于dom樹節(jié)點的分類,并利用了屬性順序特征分類,考慮到了內容之間序的關系,本發(fā)明為了更高的利用所需信息,本發(fā)明利用屬性之間的一定聯(lián)系進行深層次的信息提取、規(guī)范,如根據(jù)發(fā)布時間、時間及其前后的時間規(guī)范補充非標準時間,根據(jù)報告人、報告人簡介用分詞、規(guī)則匹配方式得到更細的姓名、職稱、機構,從而一定的克服了節(jié)點內精細內容的匹配問題。
參照圖2,本發(fā)明提出的一種網(wǎng)頁學術報告信息抽取系統(tǒng),包括:
替換分割模塊,用于將學術報告網(wǎng)頁html標簽和學術報告的內容開頭替換為對應的固定表示標記,并根據(jù)相鄰兩個固定表示標記對學術報告進行分割,得到初步分割結果集合;
替換分割模塊,具體用于:將html轉義字符還原,并將表示開始、結束標記的html代碼替換為表示結尾的固定表示標記;依次替換題目、報告人、時間、地點、報告人簡介、報告簡介、主辦單位的內容開頭標識為相應的固定表示標記;
具體的,替換分割模塊,還用于:將學術報告網(wǎng)頁html標簽和內容開頭標識替換為對應的固定表示標記,其中所述固定表示標記代表的標記類別是唯一的;
在本實施方式中,獲取學術網(wǎng)頁并對其中的html標簽及屬性標簽進行規(guī)范化的處理,即將html標簽及屬性標簽聯(lián)合起來得到更細致的劃分點,其中,所述屬性標簽為學術報告中特有的、表示內容屬性的標記,例如“報告人:”、“報告人簡介:”。
黑名單模塊,用于刪除初步分割結果集合中匹配預設黑名單的初步分割結果,得到有效分割結果集合;
黑名單模塊,具體用于:黑名單為一組模糊匹配方法的集合,黑名單包括所有屬性適用黑名單和單一屬性適用黑名單,其中,所述屬性為目標學術報告中一段內容的類別特征;
在本實施方式中,根據(jù)建立的多樣化黑名單確定結尾的位置,這是一種分類的方式,其中,所述黑名單是指一組模糊匹配方法的集合,可以是一組正則表達式,用于確定內容是否屬于當前屬性。
內容提取模塊,用于獲取有效分割結果集合中各有效分割結果的開頭位置和結尾位置,再根據(jù)各有效分割結果的開頭位置和結尾位置合并提取出各有效分割結果對應的屬性內容;
內容提取模塊,具體用于:獲取有效分割結果集合中各有效分割結果的開頭位置和結尾位置,其中有效分割結果起始位置為有效分割結果的開頭位置,有效分割結果中連續(xù)空白內容出現(xiàn)次數(shù)達到預設次數(shù)的位置為有效分割結果的結尾位置。
在本實施方式中,由開頭和結尾的位置合并提取出所有不同屬性的內容。
報告分類模塊,用于判斷內容提取模塊中屬性是否出現(xiàn)重復,當判斷結果為是時,表示網(wǎng)頁有多個學術報告,此時根據(jù)屬性排列方式將不同屬性對應的屬性內容分配到相應的學術報告中;;
報告分類模塊,具體用于:判斷內容提取模塊中屬性是否出現(xiàn)重復,其中所述屬性不包括舉辦單位;
具體的,報告分類模塊,還用于:當某個屬性在多個學術報告中出現(xiàn)且僅出現(xiàn)一次時,將此屬性添加到其他學術報告中。
報告分類模塊,還用于:根據(jù)同一頁面下不同報告的屬性缺失差異、每個報告的屬性缺失狀況、黑白名單關鍵字的判斷、屬性字符長度的限制對分析結果進行可信任程度評估;
在本實施方式中,根據(jù)類別內容的屬性的排列方式確定類別內容的屬性分屬哪一個報告,達到分離一個網(wǎng)頁的多個報告的效果。
內容補充模塊,獲取學術報告的報告人信息和時間并匹配到學術報告中報告人信息和時間中;
內容補充模塊,具體用于:
根據(jù)已有報告人職稱生成一個對應列表,將列表按職稱詞語包含與被包含的順序由高職位到低職位的順序進行排序,再根據(jù)職稱生成的對應列表在報告人和報告人簡介中提取出職稱最高的作為此報告職稱并匹配到報告人信息中;
利用分詞算法和正則匹配方法分離出報告人、報告人簡介中的機構,并結合相關的、正確的前綴、后綴作為此報告的報告人單位并匹配到報告人信息中;
利用分詞算法和正則匹配方法分離出報告人、報告人簡介中的名字,作為此報告的報告人姓名并匹配到報告人信息中;
按照預設策略將報告時間補充為utc時間并匹配到報告人信息中,其中,預設策略包括:獲取學術報告對應機構的最新的時間記為最新時間,對所述最新時間出現(xiàn)不規(guī)范的時間進行規(guī)范化,將12小時進制轉化為24小時進制,并按照從整體到部分的捕獲策略得到精準的年月日時分,當學術報告原數(shù)據(jù)沒有年份,則使用發(fā)布時間中的年份,當發(fā)布時間中沒有年份,則看最新時間是否為空,若不為空則取最新時間的年份,否則放入沒有年份的等待隊列,當報告至少具有年月日,則將此時間賦值給所述的最新時間,并查看所述的沒有年份的等待隊列,若其中不為空,則補上年份并從隊列中去除,其他情況不處理;當開始時間缺失時分、結束時間缺失年月日時分的情況時,進行大致偏好時間的填補。
本實施方式擴大了dom樹節(jié)點細化的能力,提高了規(guī)則適用性,利用了屬性順序特征分類。利用同信息連續(xù)展現(xiàn)特性等,將分類任務化為文本切割位置的選擇任務,從而準確、規(guī)范并易于擴展地提取和整理學術報告信息。
以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,根據(jù)本發(fā)明的技術方案及其發(fā)明構思加以等同替換或改變,都應涵蓋在本發(fā)明的保護范圍之內。