亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種頁面信息提取方法及裝置的制作方法

文檔序號:6372638閱讀:219來源:國知局
專利名稱:一種頁面信息提取方法及裝置的制作方法
一種頁面信息提取方法及裝置
技術領域
本發(fā)明涉及互聯(lián)網(wǎng)信息處理技術領域,特別涉及一種頁面信息提取方法及裝置。背景技術
隨著互聯(lián)網(wǎng)和信息技術的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘+@取信息的主要來源。由于web網(wǎng)頁每天都以幾何級數(shù)激增,為了使用戶能夠快速準確的獲得自己感興趣的信息,通常會先對這些海量的頁面數(shù)據(jù)進行信息提取。信息提取的任務是把文本里包含的信息進行結(jié)構化處理,以便人們可以像查詢數(shù)據(jù)庫一樣獲取自己需要的信息。例如,可以利用信息提取的方法提取網(wǎng)頁中包含的實體機構名稱、地址、聯(lián)系電話等聯(lián)系方式,獲取地理興趣點數(shù)據(jù),以利用后續(xù)用戶檢索或查詢時提供較好的搜索結(jié)果?,F(xiàn)有的信息提取方法通常是基于模板的結(jié)構化信息提取方法,通過人工編寫模板的規(guī)則,對互聯(lián)網(wǎng)中的頁面信息進行挖掘,得到結(jié)構化信息。采用這種方式不僅需要消耗巨 大的人工代價,而且還要求挖掘?qū)ο笤陧撁嬷杏邢嗤慕Y(jié)構特點,因而受到人力成本和頁面結(jié)構一致性的限制,無法大規(guī)模應用。對于挖掘?qū)ο髷?shù)量巨大且頁面結(jié)構變化多樣的情況,如獲取全網(wǎng)中實體機構的地理興趣點數(shù)據(jù),現(xiàn)有基于模板的結(jié)構化信息抽取方式無法滿足抽取的準確率和信息召回率要求。

發(fā)明內(nèi)容有鑒于此,本發(fā)明提供了一種頁面信息提取方法及裝置,能夠自動對全網(wǎng)中結(jié)構變化多樣且數(shù)量巨大的對象進行挖掘,節(jié)省人力成本,提高準確率和信息召回率。具體技術方案如下一種頁面信息提取方法,該方法包括以下步驟SI、獲取全網(wǎng)的網(wǎng)頁頁面;S2、獲取所述網(wǎng)頁頁面對應的站點首頁或聯(lián)系頁;S3、從所述站點首頁或聯(lián)系頁中提取興趣點名稱和對應的地址信息;S4、將提取到的興趣點名稱與地址信息進行關聯(lián),得到結(jié)構化信息。根據(jù)本發(fā)明一優(yōu)選實施例,所述獲取站點首頁的方法采用以下所列的一種或任意結(jié)合從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應的站點首頁;通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進行跳轉(zhuǎn)處理,得到相對應的站點首頁;或者,利用站點的首頁樣本集合,統(tǒng)計分析其鏈接錨文本及網(wǎng)址樣式特征構造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進行分析,得到所有的站點首頁。根據(jù)本發(fā)明一優(yōu)選實施例,所述獲取網(wǎng)頁頁面對應的聯(lián)系頁的方法,具體包括利用站點的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本、頁面標題及網(wǎng)址樣式特征構造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進行分析,得到所有站點的聯(lián)系信息頁。根據(jù)本發(fā)明一優(yōu)選實施例,所述從站點首頁和聯(lián)系頁中提取興趣點名稱和對應的地址信息,具體為將所述站點首頁或聯(lián)系頁的頁面標題識別為興趣點名稱;判斷所述站點首頁或聯(lián)系頁的頁面內(nèi)容是否有地址提示詞;對于帶有提示詞的頁面內(nèi)容,對提示詞后面的文本利用預設的地址信息樹進行分詞,識別出至少一個地址信息;
對于無提示詞的頁面內(nèi)容,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的頁面內(nèi)容識別為地址信息。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟SI之后和步驟S4之前,還包括S5、逐一將所獲取的網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊;S6、基于視覺分塊的語義特征對所述視覺分塊進行標注,得到標注分塊;S7、利用預先構建的地址信息樹對所述標注分塊中的文本逐句進行分析,將含有地址信息的標注分塊識別為地址信息塊;S8、從所述地址信息塊中提取興趣點名稱和對應的地址信息。根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟S5具體包括逐一解析所述網(wǎng)頁頁面,建立當前網(wǎng)頁頁面的文檔對象模型樹;計算所述文檔對象模型樹中每個節(jié)點的位置、大小和長寬信息,構成視覺樹;遍歷所述視覺樹,計算每個節(jié)點的子樹信息;根據(jù)所述節(jié)點位置、層疊樣式表信息和子樹信息對所述視覺樹進行分塊處理,得到視覺分塊;將所述節(jié)點與視覺分塊對應,構成最終的視覺分塊樹。根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟S6具體包括記錄所述視覺分塊的塊節(jié)點信息,計算所述塊節(jié)點的位置;利用塊節(jié)點的語義特征進行標注,得到所述標注分塊,包括標注語義塊、標注功能塊和標注資源塊。根據(jù)本發(fā)明一優(yōu)選實施例,所述地址信息樹的構建方法,包括逐一獲取地址實例庫中的實例地址;對當前的實例地址進行分詞處理,得到該實例地址的詞項;利用預設的地址標識詞典,識別實例地址中詞項的后綴成分;利用預設的地址信息詞典對所述后綴的上下文進行成分分析,識別所述詞項的主體成分; 將識別到的主體成分添加到地址信息樹中對應的節(jié)點,形成地址信息樹。根據(jù)本發(fā)明一優(yōu)選實施例,所述從地址信息塊中提取興趣點名稱,包括利用地址信息塊中的文本與預設的命名實體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點名稱;或者,利用地址信息塊中的文本與預設的語義規(guī)則相比對,將滿足預設語義規(guī)則的文本識別為地址信息塊中的興趣點名稱;所述從地址信息塊中提取對應的地址信息,具體包括判斷地址信息塊中的文本是否有地址提示詞;對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進行分詞,識別出至少一個地址信息;對于無提示詞的文本,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的文本識別為地址信息。根據(jù)本發(fā)明一優(yōu)選實施例,在步驟S4之前,還包括對同一站點內(nèi)多個位置來源的興趣點名稱進行校驗,確定站點的興趣點名稱。
根據(jù)本發(fā)明一優(yōu)選實施例,所述校驗方法包括根據(jù)預設的可信度規(guī)則和興趣點名稱的提取位置,對所提取的興趣點名稱確定名稱可信度;或者,統(tǒng)計所提取的興趣點名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度;將名稱可信度滿足預設要求的興趣點名稱作為該站點的興趣點名稱。一種頁面信息提取裝置,該裝置包括網(wǎng)頁獲取模塊,用于獲取全網(wǎng)的網(wǎng)頁頁面;站點結(jié)構分析模塊,用于獲取所述網(wǎng)頁頁面對應的站點首頁和聯(lián)系頁;第一信息提取模塊,用于從所述站點首頁和聯(lián)系頁中提取興趣點名稱和對應的地址信息;關聯(lián)模塊,用于將提取到的興趣點名稱與地址信息進行關聯(lián),得到結(jié)構化信息。根據(jù)本發(fā)明一優(yōu)選實施例,所述站點結(jié)構分析模塊獲取站點首頁的具體配置,采用以下所列的一種或任意結(jié)合從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應的站點首頁;通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進行跳轉(zhuǎn)處理,得到相對應的站點首頁;或者,利用站點的首頁樣本集合,統(tǒng)計分析其鏈接錨文本及網(wǎng)址樣式特征構造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進行分析,得到所有的站點首頁。根據(jù)本發(fā)明一優(yōu)選實施例,所述站點結(jié)構分析模塊獲取網(wǎng)頁頁面對應的聯(lián)系頁的具體配置為利用站點的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本、頁面標題及網(wǎng)址樣式特征構造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進行分析,得到所有站點的聯(lián)系信息頁。根據(jù)本發(fā)明一優(yōu)選實施例,所述第一信息提取模塊從站點首頁和聯(lián)系頁中提取興趣點名稱和對應的地址信息,具體配置為將所述站點首頁或聯(lián)系頁的頁面標題識別為興趣點名稱;判斷所述站點首頁或聯(lián)系頁的頁面內(nèi)容是否有地址提示詞;對于帶有提示詞的頁面內(nèi)容,對提示詞后面的文本利用預設的地址信息樹進行分詞,識別出至少一個地址信息;
對于無提示詞的頁面內(nèi)容,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的頁面內(nèi)容識別為地址信息。根據(jù)本發(fā)明一優(yōu)選實施例,該裝置還包括視覺分塊處理模塊,用于逐一將所述網(wǎng)頁獲取模塊獲取的網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊;標注模塊,用于基于視覺分塊的語義特征對所述視覺分塊進行標注,得到標注分塊;地址信息塊獲取模塊,用于利用預先構建的地址信息樹對所述標注分塊中的文本逐句進行分析,將含有地址信息的標注分塊識別為地址信息塊;
第二信息提取模塊,用于從所述地址信息塊中提取興趣點名稱和對應的地址信
肩、O根據(jù)本發(fā)明一優(yōu)選實施例,所述視覺分塊處理模塊具體配置為逐一解析所述網(wǎng)頁頁面,建立當前網(wǎng)頁頁面的文檔對象模型樹;計算所述文檔對象模型樹中每個節(jié)點的位置、大小和長寬信息,構成視覺樹;遍歷所述視覺樹,計算每個節(jié)點的子樹信息;根據(jù)所述節(jié)點位置、層疊樣式表信息和子樹信息對所述視覺樹進行分塊處理,得到視覺分塊;將所述節(jié)點與視覺分塊對應,構成最終的視覺分塊樹。根據(jù)本發(fā)明一優(yōu)選實施例,所述標注模塊具體配置為記錄所述視覺分塊的塊節(jié)點信息,計算所述塊節(jié)點的位置;利用塊節(jié)點的語義特征進行標注,得到所述標注分塊,包括標注語義塊、標注功能塊和標注資源塊。根據(jù)本發(fā)明一優(yōu)選實施例,所述地址信息樹通過地址信息樹構建模塊預先建立,所述地址信息樹構建模塊包括實例地址獲取子模塊,用于逐一獲取地址實例庫中的實例地址;分詞子模塊,用于對所述實例地址獲取子模塊獲取的當前的實例地址進行分詞處理,得到該實例地址的詞項;后綴識別子模塊,用于利用預設的地址標識詞典,識別實例地址中詞項的后綴成分;成分識別子模塊,用于利用預設的地址信息詞典和上下文關系對所述詞項進行成分分析,識別所述詞項的成分;成分節(jié)點確定子模塊,用于將所述后綴識別子模塊和成分識別子模塊識別到的成分添加到地址信息樹中對應的節(jié)點,形成地址信息樹。根據(jù)本發(fā)明一優(yōu)選實施例,所述第二信息提取模塊從地址信息塊中提取興趣點名稱,具體配置為利用地址信息塊中的文本與預設的命名實體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點名稱;或者,利用地址信息塊中的文本與預設的語義規(guī)則相比對,將滿足預設語義規(guī)則的文本識別為地址信息塊中的興趣點名稱;所述第二信息提取模塊從地址信息塊中提取對應的地址信息,具體配置為判斷地址信息塊中的文本是否有地址提示詞;對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進行分詞,識別出至少一個地址信息;對于無提示詞的文本,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的文本識別為地址信息。根據(jù)本發(fā)明一優(yōu)選實施例,該裝置還包括校驗模塊,用于對所述第一信息提取模塊或所述第二信息提取模塊獲取的同一站·點內(nèi)多個位置來源的興趣點名稱進行校驗,確定站點的興趣點名稱。根據(jù)本發(fā)明一優(yōu)選實施例,所述校驗模塊的具體配置包括根據(jù)預設的可信度規(guī)則和興趣點名稱的提取位置,對所提取的興趣點名稱確定名稱可信度;或者,統(tǒng)計所提取的興趣點名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度;將名稱可信度滿足預設要求的興趣點名稱作為該站點的興趣點名稱。由以上技術方案可以看出,本發(fā)明提供的頁面信息提取方法及裝置,利用互聯(lián)網(wǎng)中實體機構的組織結(jié)構特點及信息語義特征,從站點首頁和聯(lián)系頁中提取實體機構的聯(lián)系信息,通過對多來源數(shù)據(jù)的校驗、整合與關聯(lián),并結(jié)合視覺分塊技術獲取包含地址信息的網(wǎng)頁塊,獲取結(jié)構化的地理位置信息,提高了信息的準確率,并能夠自動面向整個互聯(lián)網(wǎng)的實體機構進行信息召回,降低人力成本,提高了信息召回率。

圖I為本發(fā)明實施例一提供的頁面信息提取方法流程圖;圖2為本發(fā)明實施例一提供的地址信息樹構建方法流程圖;圖3為本發(fā)明實施例二提供的頁面信息提取方法流程圖;圖4為本發(fā)明實施例二提供的基于視覺特征分塊的方法流程圖;圖5a為“北京市海淀醫(yī)院”站點網(wǎng)頁中的版權塊示意圖;圖5b為一個包含地址信息的文本塊示意圖;圖6為本發(fā)明實施例三提供的頁面信息提取裝置示意圖;圖7為本發(fā)明實施例三提供的頁地址信息樹構建模塊示意圖;圖8為本發(fā)明實施例四提供的頁面信息提取裝置示意圖。
具體實施方式為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述。電子地圖中興趣點(point of interest, POI)數(shù)據(jù),通常包括名稱、地址、聯(lián)系電話、類別、位置坐標等信息。通常,一條POI數(shù)據(jù)代表電子地圖中的一個位置實體。興趣點可以是一定地域內(nèi)比較重要或使用頻率較高的面向整個社會的場所,如銀行、主要商場、主要商務大樓、飯店賓館、政府機關、娛樂場所、主要風景名勝等,也可以是某一地域內(nèi)屬于某一行業(yè)的單位所在地址,如企業(yè)或單位所在的地址。在互聯(lián)網(wǎng)上存在大量的實體機構的網(wǎng)站站點,通常包含平臺類二級域名實體站點(如阿里巴巴)和實體機構官網(wǎng)兩個類別。在這些站點中通常包含該實體機構的名稱及地址等相關信息,這些信息存在于互聯(lián)網(wǎng)中的站點結(jié)構、頁面結(jié)構及頁面中的文本信息塊中,例如,通常在站點聯(lián)系頁、版權塊或其他主體塊中存在該站點的地址信息。本發(fā)明利用互聯(lián)網(wǎng)中實體機構站點的結(jié)構特點及站點頁面之間信息語義特征的聯(lián)系,提取該些實體機構的地址信息作為地理興趣點。在地理興趣點的提取中,通過網(wǎng)頁內(nèi)容提取興趣點信息,用以構建和完善電子地圖的數(shù)據(jù)信息,以便后續(xù)用作垂直搜索,提供較好的搜索結(jié)果。實施例一、
圖I是本實施例提供的頁面信息提取方法流程圖,如圖I所示,該方法包括步驟S101、獲取全網(wǎng)的網(wǎng)頁頁面。利用網(wǎng)絡爬蟲,抓取互聯(lián)網(wǎng)中各網(wǎng)頁頁面,至少包括網(wǎng)頁頁面的網(wǎng)址和源代碼。例如,urI網(wǎng)址為“http://www. hdhospital. com/OverView, aspx”為北京市海淀醫(yī)院站點內(nèi)的一個頁面,利用網(wǎng)絡爬蟲抓取該網(wǎng)頁頁面,記錄對應的ur I網(wǎng)址,并獲取該網(wǎng)頁頁面對應的網(wǎng)頁源代碼(如HTML代碼)。步驟S102、獲取所述網(wǎng)頁頁面對應的站點首頁或聯(lián)系頁。獲取站點首頁的方法可以采用以下所列方法A C中的一種或任意結(jié)合方法A :從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應的站點首頁。對于平臺類二級域名實體站點的首頁,則直接采用該實體站點的二級域名進行跳轉(zhuǎn),例如,“http://fsj0769. cn. alibaba. com/”為“東莞市立信塑料制品有限公司”的站點首頁的網(wǎng)頁地址。對于實體機構官網(wǎng)具有獨立域名,因此,抽取獨立域名進行跳轉(zhuǎn),獲取實體機構的站點首頁。例如,網(wǎng)頁頁面的 url 網(wǎng)址為http://www. hdhospital. com/OverView, aspx,從該url網(wǎng)址中去掉路徑部分,取出域名地址“www. hdhospital. com”,利用該域名地址進行跳轉(zhuǎn)處理,跳轉(zhuǎn)結(jié)果指向“http://www. hdhospital. com/”,則該跳轉(zhuǎn)結(jié)果為對應的站點首頁。方法B :通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進行跳轉(zhuǎn)處理,得到相對應的站點首頁。這種方式與方法A相類似,區(qū)別在于先對取出的域名地址作去重處理后,再統(tǒng)一進行域名地址的跳轉(zhuǎn),可提聞效率。方法C :利用站點的首頁樣本集合,統(tǒng)計分析其鏈接錨文本(即前鏈錨文本)及網(wǎng)址樣式特征構造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進行分析,得到所有的站點首頁。鏈接錨文本特征可以與提取興趣點名稱時預設的語義規(guī)則一致,例如具有相同的后綴信息“XXX公司”或“XXX醫(yī)院”等。而網(wǎng)址樣式特征,則例如,“http://www. XXX. com/index. html”、“http://www. XXX. com/”、“http://www. XXX. com/default, aspx”等等為站點的首頁網(wǎng)址,從中提取得到首頁的網(wǎng)址樣式特征,可以包括“index”、“defaUlt”等。利用這些特征構造首頁分類器,再對網(wǎng)頁頁面進行分類得到站點首頁。獲取網(wǎng)頁頁面對應的聯(lián)系頁的方法,具體包括利用站點的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本(即前鏈錨文本)、頁面標題及網(wǎng)址樣式特征構造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進行分析,得到所有站點的聯(lián)系信息頁。鏈接錨文本和頁面標題的特征主要為相關 的語義特征,包括“聯(lián)系我們”、“聯(lián)絡方”、“公司名片”、“詳細信息”等,而網(wǎng)址樣式特征則主要為在網(wǎng)址中包括“contact”、“COnneCt”、“l(fā)XfS”等等,利用分析得到的這些特征采用正則表達式構造聯(lián)系頁分類器,再對網(wǎng)頁頁面進行分類得到聯(lián)系頁。步驟S103、從站點首頁或聯(lián)系頁中提取興趣點名稱和對應的地址信息。具體包括將所述站點首頁或聯(lián)系頁的頁面標題識別為興趣點名稱。判斷所述站點首頁或聯(lián)系頁的頁面內(nèi)容是否有地址提示詞。對于帶有提示詞的頁面內(nèi)容,對提示詞后面的文本利用預設的地址信息樹進行分詞,識別出至少一個地址信息。對于無提示詞的頁面內(nèi)容,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的頁面內(nèi)容識別為地址信息。步驟S104、將提取到的興趣點名稱與地址信息進行關聯(lián),得到結(jié)構化信息。對于同一站點,可以從多個地址信息塊中提取到興趣點名稱與地址信息,并將該些興趣點名稱與地址信息歸類到同一個站點下進行關聯(lián),得到結(jié)構化信息。具體地,結(jié)構化信息包括興趣點名稱、地址、電話、郵編、傳真、聯(lián)系人、郵箱等信息。圖2是地址信息樹構建的方法流程圖,如圖2所示,地址信息樹的構建可以但不限于采用以下方法,具體包括步驟S201、逐一獲取地址實例庫中的實例地址。地址實例庫中包括現(xiàn)有已收集的地圖POI數(shù)據(jù)地址,包括大量具體的實例地址數(shù)據(jù),例如,“北京市海淀區(qū)中關村大街29號”、“北京市海淀區(qū)上地十街百度大廈”等。步驟S202、對當前的實例地址進行分詞處理,得到該實例地址的詞項。采用現(xiàn)有的分詞方法,如最大正向匹配法等,對獲取的每一條實例地址進行分析。例如,對“北京市海淀區(qū)上地十街百度大廈”分詞,得到分詞結(jié)果“北京市/海淀區(qū)/上地/十街/百度/大廈”的各個詞項。步驟S203、利用預設的地址標識詞典,識別實例地址中詞項的后綴成分。預設地址標識詞典中包括各級別的地名標識,例如,省、市、區(qū)、縣、街道、小區(qū)等。對實例地址的詞項進行后綴成分識別,確定地名標識所在級別。例如,“北京市”和“海淀區(qū)”可以直接通過后綴識別為城市和區(qū)縣級別的成分。步驟S204、利用預設的地址信息詞典和上下文關系對所述詞項進行成分分析,識別所述詞項的成分。地址信息詞典是利用已有的地理或地圖數(shù)據(jù)建立的帶有各級別范圍的地理名詞,例如,“海淀”、“上地”、“中關村”等。
對于不能識別后綴成分的詞項,采用預設的地址信息詞典進行分析,再利用上下文關系(如后綴)進行組合成一個成分。例如,“十街”是街道后綴,“上地”與該街道后綴可組合成一個成分“上地十街”,同理,“大廈”是建筑后綴,得到另一成分“百度大廈”。步驟S205、將識別到的成分添加到地址信息樹中對應的節(jié)點,形成地址信息樹。根據(jù)識別到的成分,按照詞項的成分所在的級別添加到地址信息樹中對應的節(jié)點上,形成包含“北京市/海淀區(qū)/上地十街/百度大廈”等具有層級關系的地址信息樹。實施例二圖3是本實施例提供的頁面信息提取方法流程圖,如圖3所示,包括
步驟S301、獲取全網(wǎng)的網(wǎng)頁頁面。本步驟與實施例一中步驟SlOl相同,于此不再贅述。步驟S302、逐一對所述網(wǎng)頁頁面進行分析。對步驟S301獲取的全網(wǎng)的網(wǎng)頁頁面逐一進行分析,執(zhí)行步驟S303后進入步驟S307,或者執(zhí)行步驟S304至步驟S306后進入步驟S307。步驟S303、獲取所述網(wǎng)頁頁面對應的站點首頁或聯(lián)系頁。本步驟的處理過程與實施例一中的步驟S102相同,于此不再贅述。并將獲取得到的站點首頁或聯(lián)系頁,添加到首頁或聯(lián)系頁庫中。步驟S304、將所述網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊。對步驟S301獲取的網(wǎng)頁頁面基于視覺特征進行分塊,如圖4所示,具體包括步驟S304_l、逐一解析所獲取的網(wǎng)頁頁面,建立當前網(wǎng)頁頁面的文檔對象模型樹。對當前網(wǎng)頁頁面的源代碼進行解析,生成文檔對象模型樹(D0M樹)。步驟S304_2、計算所述文檔對象模型樹中每個節(jié)點的位置、大小和長寬信息,構成視覺樹。利用頁面標簽確定每個節(jié)點,如“ <head></head> ”、“ <body></body> ”等,處于標簽的起始位置和終點位置之間的內(nèi)容為同一個節(jié)點內(nèi)容,并計算對每個節(jié)點的位置以及節(jié)點中包含內(nèi)容的長寬、大小信息,構成視覺樹。步驟S304_3、遍歷所述視覺樹,計算每個節(jié)點的子樹信息。根據(jù)頁面標簽信息確定節(jié)點中包含的子樹信息。例如,“<head>〈/head>”節(jié)點中包含 “<title>〈/title>”, “<body>〈/body>” 中包含“〈(1;^>〈/(1;^>”、“〈丨31316>〈八31316>”等頁面標簽,逐級遍歷這些節(jié)點的子樹信息,計算子樹上每個節(jié)點的位置、大小和長寬信息。步驟S304_4、根據(jù)所述節(jié)點位置、層疊樣式表信息和子樹信息對所述視覺樹進行分塊處理,得到視覺分塊。層疊樣式表(CSS)信息包括選擇符、屬性及屬性值,例如,body {color: black},其中屬性可以包括字體、字號、字重、顏色等,在HTML代碼的CSS信息中,選擇符可以包括主體、標題、邊框、背景色等信息。將利用這些CSS信息的相似程度來確定是否在同一個視覺分塊內(nèi)。根據(jù)遍歷的結(jié)果和節(jié)點位置,將每個節(jié)點的子樹信息根據(jù)CSS信息進行分塊,得到視覺分塊。
步驟S304_5、將所述節(jié)點與視覺分塊對應,構成視覺分塊樹。根據(jù)各節(jié)點位置,將節(jié)點內(nèi)包含的內(nèi)容對應到相應的視覺分塊中,形成視覺分塊樹。繼續(xù)參見圖3,步驟S305、基于視覺分塊的語義特征對所述視覺分塊進行標注,得到標注分塊。具體包括步驟S305_l、 記錄所述視覺分塊的塊節(jié)點信息,計算所述塊節(jié)點的位置。根據(jù)步驟S102確定的視覺分塊信息,記錄每一個塊節(jié)點的信息和位置。步驟S305_2、利用塊節(jié)點的語義特征進行標注,得到所述標注分塊,包括標注語義塊、標注功能塊和標注資源塊。例如,識別到在網(wǎng)頁頁面的邊緣塊(如處于底部的視覺分塊)中有“版權所有”、“copyright”等語義相關的文字時,則將該視覺分塊標注為版權塊,圖5a是北京市海淀醫(yī)院這一站點的版權塊示意圖,如圖5a所示,包含文字“版權所有”。采用類似的方法,識別出標注資源塊、標注功能塊和標注語義塊,其中,標注資源塊包括文本塊、交互塊、圖片塊等;標注功能塊包括版權塊、導航塊等;標注語義塊包括標題塊、核心正文塊等。步驟S306、利用預先構建的地址信息樹對所述標注分塊中的文本逐句進行分析,將含有地址信息的標注分塊識別為地址信息塊。將所識別到的地址信息塊添加到地址信息塊庫中。識別出含有地址信息的標注語義塊、標注功能塊和標注資源塊。例如,圖5b是包含地址信息的文本塊,經(jīng)過本步驟后,將被識別為地址信息塊。步驟S307、判斷是否還有未處理的網(wǎng)頁頁面,如是,則返回步驟S302,獲取下一個網(wǎng)頁頁面進行分析,否則利用步驟S308和步驟S309的結(jié)果,執(zhí)行步驟S310。步驟S308、從站點首頁或聯(lián)系頁中提取興趣點名稱和對應的地址信息。本步驟的處理過程與實施例一中的步驟S103相同,于此不再贅述。步驟S309、從地址信息塊中提取興趣點名稱和對應的地址信息。具體地,從地址信息塊中提取興趣點名稱,可以但不限于采用以下方法利用地址信息塊中的文本與預設的命名實體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點名稱。其中,預設的命名實體詞典中包括大量已有的實體機構名稱,如果地址信息塊中的文本能與該詞典相匹配,則將該文本識別為興趣點名稱?;蛘?,利用地址信息塊中的文本與預設的語義規(guī)則相比對,將滿足預設語義規(guī)則的文本識別為地址信息塊中的興趣點名稱。興趣點名稱通常具有相同的后綴,而且該興趣點名稱在同一個站點內(nèi)的地址信息塊中出現(xiàn)的頻次超過一定閾值,例如,以“XXX公司” “XXX有限公司” “XXX醫(yī)院”等,則提取符合這些語義規(guī)則的文本作為興趣點名稱。當然,也可以采用以上兩種方式相結(jié)合的方式,先通過預設的命名實體詞典來匹配,對于不能匹配的地址信息塊再采用語義規(guī)則來判斷,這樣有利于發(fā)現(xiàn)未被命名實體詞典收錄的興趣點名稱。從地址信息塊中提取對應的地址信息,可以但不限于采用以下方法
判斷地址信息塊中的文本是否有地址提示詞。對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進行分詞,識別出至少一個地址信息。如圖5b所示的地址信息塊中的文本即包含有地址提示詞“地址”。獲取該提示詞后面的文本“北京市海淀區(qū)黃莊中關村大街29號”,并利用預先構建的地址信息樹,識別出該文本即為一個地址信息。對于無提示詞的文本,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的文本識別為地址信息。地址信息詞典是利用已有的地理或地圖數(shù)據(jù)建立的帶有各級別范圍的地理名詞,例如,“海淀”、“上地”、“中關村”等。地址標識詞典中包括各級別的地名標識,例如,省、市、區(qū)、縣、街道、小區(qū)等。
·
對于無提示詞的文本,則分析分詞的詞項是否有該些地理名詞或地理標識,并判斷該文本是否按照行政級別的順序正向或逆向排列,若是,則認為該文本為一個地址信息。值得一提的是,分支二 (包括步驟S303和步驟S308)與分支一(包括步驟S304至步驟S306和步驟S309)相對獨立,本發(fā)明對兩個分支的處理順序并不作限定,只需在步驟S301和步驟S310之間完成處理即可。步驟S310、對同一站點內(nèi)的多個位置來源的興趣點名稱進行校驗,確定站點的興趣點名稱。所述多個位置來源的興趣點名稱可以是從站點首頁或聯(lián)系頁等多個頁面中提取而來的興趣點名稱,也可以是從站點首頁、聯(lián)系頁以及站內(nèi)包含的多個地址信息塊中提取而來的興趣點名稱。對于同一個站點,如果獲取的興趣點名稱一致,則將該興趣點名稱作為該站點的興趣點名稱;如果獲取的興趣點名稱不一致,則對多個位置來源的興趣點名稱進行校驗。校驗方法包括根據(jù)預設的可信度規(guī)則和興趣點名稱的提取位置,對所提取的興趣點名稱確定名稱可信度。或者,統(tǒng)計所提取的興趣點名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度。預設的可信度規(guī)則可以但不限于采用以下優(yōu)先級順序(由高到低)頁面標題(pagetitle) >地址塊 > 版權塊 > 聯(lián)系信息頁 > 鏈接錨文本 > 其他分塊。對于優(yōu)先級不低于聯(lián)系信息頁的位置,也可以直接抽取得到興趣點名稱。具體的,先從所述站點首頁的頁面標題中抽取出整個標題內(nèi)容,判斷該標題內(nèi)容是否為單一名稱,若是,則將該標題內(nèi)容作為該站點的興趣點名稱;否則,抽取的興趣點名稱為空。從地址塊內(nèi)部利用命名實體識別抽取實體名稱,判斷是否優(yōu)先級別較高的名稱為空且塊內(nèi)抽取名稱唯一,若是,則將該實體名稱識別為興趣點名稱;否則,抽取的興趣點名稱為空。從版權塊中抽取出實體名稱,判斷是否優(yōu)先級別較高的名稱均為空且塊內(nèi)抽取名稱唯一,若是,則將該實體名稱識別為興趣點名稱;否則,抽取的興趣點名稱為空。從聯(lián)系信息頁抽取實體名稱,判斷是否優(yōu)先級別較高的名稱均為空且塊內(nèi)抽取名稱唯一,若是,則將該實體名稱識別為興趣點名稱;否則,抽取的興趣點名稱為空。
獲取指向站點首頁的鏈接錨文本,統(tǒng)計所有鏈接錨文本出現(xiàn)的頻次,并根據(jù)統(tǒng)計的頻次賦予各鏈接錨文本相應的權重。最后,將名稱可信度滿足預設要求的興趣點名稱作為該站點的興趣點名稱。步驟S311、將提取到的興趣點名稱與地址信息進行關聯(lián),得到結(jié)構化信息。經(jīng)過步驟S310確定了同一個站點的興趣點名稱之后,同樣的,對于提取的地址信息也可以從不同的來源中擇一作為對應站點的地址信息,最后形成準確率高的結(jié)構化信
肩、O以上是對本發(fā)明所提供的方法進行的詳細描述,下面對本發(fā)明提供的頁面信息提取裝置進行詳細描述。
實施例三圖6是本實施例提供的頁面信息提取裝置示意圖。如圖6所示,該裝置包括網(wǎng)頁獲取模塊601,用于獲取全網(wǎng)的網(wǎng)頁頁面。利用網(wǎng)絡爬蟲,抓取互聯(lián)網(wǎng)中各網(wǎng)頁頁面,至少包括網(wǎng)頁頁面的網(wǎng)址和源代碼。例如,url網(wǎng)址為“http://www. hdhospital. com/OverView, aspx”為北京市海淀醫(yī)院站點內(nèi)的一個頁面,利用網(wǎng)絡爬蟲抓取該網(wǎng)頁頁面,記錄對應的url網(wǎng)址,并獲取該網(wǎng)頁頁面對應的網(wǎng)頁源代碼(如HTML代碼)。站點結(jié)構分析模塊602,用于獲取所述網(wǎng)頁頁面對應的站點首頁或聯(lián)系頁,包括站點首頁獲取子模塊6021,用于獲取所述網(wǎng)頁頁面對應的站點首頁。聯(lián)系頁獲取子模塊6022,用于獲取所述網(wǎng)頁頁面對應的聯(lián)系頁。站點首頁獲取子模塊6021獲取站點首頁可以采用以下所列方法A C中的一種或任意結(jié)合方法A :從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應的站點首頁。對于平臺類二級域名實體站點的首頁,則直接采用該實體站點的二級域名進行跳轉(zhuǎn),例如,“http://fsj0769. cn. alibaba. com/”為“東莞市立信塑料制品有限公司”的站點首頁的網(wǎng)頁地址。對于實體機構官網(wǎng)具有獨立域名,因此,抽取獨立域名進行跳轉(zhuǎn),獲取實體機構的站點首頁。例如,網(wǎng)頁頁面的 url 網(wǎng)址為http://www. hdhospital. com/OverView, aspx,從該url網(wǎng)址中去掉路徑部分,取出域名地址“www. hdhospital. com”,利用該域名地址進行跳轉(zhuǎn)處理,跳轉(zhuǎn)結(jié)果指向“http://www. hdhospital. com/”,則該跳轉(zhuǎn)結(jié)果為對應的站點首頁。方法B :通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進行跳轉(zhuǎn)處理,得到相對應的站點首頁。這種方式與方法A相類似,區(qū)別在于先對取出的域名地址作去重處理后,再統(tǒng)一進行域名地址的跳轉(zhuǎn),可提聞效率。方法C :利用站點的首頁樣本集合,統(tǒng)計分析其鏈接錨文本(即前鏈錨文本)及網(wǎng)址樣式特征構造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進行分析,得到所有的站點首頁。
鏈接錨文本特征可以與提取興趣點名稱時預設的語義規(guī)則一致,例如具有相同的后綴信息“XXX公司”或“XXX醫(yī)院”等。而網(wǎng)址樣式特征,則例如,“http://www. XXX. com/index. html”、“http://www. XXX. com/”、“http://www. XXX. com/default, aspx”等等為站點的首頁網(wǎng)址,從中提取得到首頁的網(wǎng)址樣式特征,可以包括“index”、“defaUlt”等。利用這些特征構造首頁分類器,再對網(wǎng)頁頁面進行分類得到站點首頁。聯(lián)系頁獲取子模塊6022獲取網(wǎng)頁頁面對應的聯(lián)系頁的方法,具體包括利用站點的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本(即前鏈錨文本)、頁面標題及網(wǎng)址樣式特征構造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進行分析,得到所有站點的聯(lián)系信息頁。鏈接錨文本和頁面標題的特征主要為相關的語義特征,包括“聯(lián)系我們”、“聯(lián) 絡方”、“公司名片”、“詳細信息”等,而網(wǎng)址樣式特征則主要為在網(wǎng)址中包括“contact”、“COnneCt”、“l(fā)XfS”等等,利用分析得到的這些特征采用正則表達式構造聯(lián)系頁分類器,再對網(wǎng)頁頁面進行分類得到聯(lián)系頁。第一信息提取模塊603,用于從站點首頁或聯(lián)系頁中提取興趣點名稱和對應的地址信息,相應地,包括首頁信息提取子模塊6031,用于從站點首頁獲取子模塊6021獲取的站點首頁中提取興趣點名稱和對應的地址信息。聯(lián)系頁信息提取子模塊6032,用于從聯(lián)系頁獲取子模塊6022獲取的聯(lián)系頁中提取興趣點名稱和對應的地址信息。第一信息提取模塊603的具體配置包括將所述站點首頁或聯(lián)系頁的頁面標題識別為興趣點名稱。判斷所述站點首頁或聯(lián)系頁的頁面內(nèi)容是否有地址提示詞。對于帶有提示詞的頁面內(nèi)容,對提示詞后面的文本利用預設的地址信息樹進行分詞,識別出至少一個地址信息。對于無提示詞的頁面內(nèi)容,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的頁面內(nèi)容識別為地址信息。關聯(lián)模塊604,用于將第一信息提取模塊603提取到的興趣點名稱與地址信息進行關聯(lián),得到結(jié)構化信息。對于同一站點,可以從多個地址信息塊中提取到興趣點名稱與地址信息,并將該些興趣點名稱與地址信息歸類到同一個站點下進行關聯(lián),得到結(jié)構化信息。具體地,結(jié)構化信息包括興趣點名稱、地址、電話、郵編、傳真、聯(lián)系人、郵箱等信息。圖7是地址信息樹構建模塊示意圖,如圖7所示,包括實例地址獲取子模塊701,用于逐一獲取地址實例庫中的實例地址。地址實例庫中包括現(xiàn)有已收集的地圖POI數(shù)據(jù)地址,包括大量具體的實例地址數(shù)據(jù),例如,“北京市海淀區(qū)中關村大街29號”、“北京市海淀區(qū)上地十街百度大廈”等。分詞子模塊702,用于對當前的實例地址進行分詞處理,得到該實例地址的詞項。采用現(xiàn)有的分詞方法,如最大正向匹配法等,對獲取的每一條實例地址進行分析。例如,對“北京市海淀區(qū)上地十街百度大廈”分詞,得到分詞結(jié)果“北京市/海淀區(qū)/上地/十街/百度/大廈”的各個詞項。
后綴識別子模塊703,用于利用預設的地址標識詞典,識別實例地址中詞項的后綴成分。預設地址標識詞典中包括各級別的地名標識,例如,省、市、區(qū)、縣、街道、小區(qū)等。對實例地址的詞項進行后綴成分識別,確定地名標識所在級別。例如,“北京市”和“海淀區(qū)”可以直接通過后綴識別為城市和區(qū)縣級別的成分。成分識別子模塊704,用于利用預設的地址信息詞典和上下文關系對所述詞項進行成分分析,識別所述詞項的成分。地址信息詞典是利用已有的地理或地圖數(shù)據(jù)建立的帶有各級別范圍的地理名詞,例如,“海淀”、“上地”、“中關村”等。對于不能識別后綴成分的詞項,采用預設的地址信息詞典進行分析,再利用上下 文關系(如后綴)進行組合成一個成分。例如,“十街”是街道后綴,“上地”與該街道后綴可組合成一個成分“上地十街”,同理,“大廈”是建筑后綴,得到另一成分“百度大廈”。成分節(jié)點確定子模塊705,用于將識別到的成分添加到地址信息樹中對應的節(jié)點,形成地址信息樹。根據(jù)識別到的成分,按照詞項的成分所在的級別添加到地址信息樹中對應的節(jié)點上,形成包含“北京市/海淀區(qū)/上地十街/百度大廈”等具有層級關系的地址信息樹。實施例四圖8是本實施例提供的頁面信息提取方法流程圖,如圖8所示,包括網(wǎng)頁獲取模塊801,用于獲取全網(wǎng)的網(wǎng)頁頁面。站點結(jié)構分析模塊802,用于獲取所述網(wǎng)頁頁面對應的站點首頁或聯(lián)系頁,并將獲取得到的站點首頁或聯(lián)系頁,添加到首頁或聯(lián)系頁庫中。第一信息提取模塊803,用于從站點首頁或聯(lián)系頁中提取興趣點名稱和對應的地
址信息。上述模塊801至803與實施例三中模塊601至603對應相同,于此不再贅述。視覺分塊處理模塊804,用于將所述網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊。視覺分塊處理模塊804對網(wǎng)頁獲取模塊801獲取的網(wǎng)頁頁面基于視覺特征進行分塊,具體配置為先逐一解析所獲取的網(wǎng)頁頁面,建立當前網(wǎng)頁頁面的文檔對象模型樹。對當前網(wǎng)頁頁面的源代碼進行解析,生成文檔對象模型樹(D0M樹)。其次,計算所述文檔對象模型樹中每個節(jié)點的位置、大小和長寬信息,構成視覺樹。利用頁面標簽確定每個節(jié)點,如“ <head></head> ”、“ <body></body> ”等,處于標簽的起始位置和終點位置之間的內(nèi)容為同一個節(jié)點內(nèi)容,并計算對每個節(jié)點的位置以及節(jié)點中包含內(nèi)容的長寬、大小信息,構成視覺樹。再次,遍歷所述視覺樹,計算每個節(jié)點的子樹信息。根據(jù)頁面標簽信息確定節(jié)點中包含的子樹信息。例如,“<head>〈/head>”節(jié)點中包含 “<title>〈/title>”, “<body>〈/body>” 中包含“〈(1;^>〈/(1;^>”、“〈丨31316>〈八31316>”等頁面標簽,逐級遍歷這些節(jié)點的子樹信息,計算子樹上每個節(jié)點的位置、大小和長寬信息。進而,根據(jù)所述節(jié)點位置、層疊樣式表信息和子樹信息對所述視覺樹進行分塊處理,得到視覺分塊。層疊樣式表(CSS)信息包括選擇符、屬性及屬性值,例如,body {color: black},其中屬性可以包括字體、字號、字重、顏色等,在HTML代碼的CSS信息中,選擇符可以包括主體、標題、邊框、背景色等信息。將利用這些CSS信息的相似程度來確定是否在同一個視覺分塊內(nèi)。根據(jù)遍歷的結(jié)果和節(jié)點位置,將每個節(jié)點的子樹信息根據(jù)CSS信息進行分塊,得到視覺分塊。最后,將所述節(jié)點與視覺分塊對應,構成視覺分塊樹。根據(jù)各節(jié)點位置,將節(jié)點內(nèi)包含的內(nèi)容對應到相應的視覺分塊中,形成視覺分塊 樹。標注模塊805,用于基于視覺分塊的語義特征對所述視覺分塊進行標注,得到標注分塊。具體配置為首先,記錄所述視覺分塊的塊節(jié)點信息,計算所述塊節(jié)點的位置。根據(jù)視覺分塊處理模塊804確定的視覺分塊信息,記錄每一個塊節(jié)點的信息和位置。然后,利用塊節(jié)點的語義特征進行標注,得到所述標注分塊,包括標注語義塊、標注功能塊和標注資源塊。例如,識別到在網(wǎng)頁頁面的邊緣塊(如處于底部的視覺分塊)中有“版權所有”、“copyright”等語義相關的文字時,則將該視覺分塊標注為版權塊,圖5a是北京市海淀醫(yī)院這一站點的版權塊示意圖,如圖5a所示,包含文字“版權所有”。采用類似的方法,識別出標注資源塊、標注功能塊和標注語義塊,其中,標注資源塊包括文本塊、交互塊、圖片塊等;標注功能塊包括版權塊、導航塊等;標注語義塊包括標題塊、核心正文塊等。地址信息塊獲取模塊806,用于利用預先構建的地址信息樹對所述標注分塊中的文本逐句進行分析,將含有地址信息的標注分塊識別為地址信息塊。將所識別到的地址信息塊添加到地址信息塊庫中。識別出含有地址信息的標注語義塊、標注功能塊和標注資源塊。例如,圖5b是包含地址信息的文本塊,經(jīng)過本模塊后,將被識別為地址信息塊。第二信息提取模塊807,用于從地址信息塊中提取興趣點名稱和對應的地址信息。具體地,從地址信息塊中提取興趣點名稱,可以但不限于采用以下方法利用地址信息塊中的文本與預設的命名實體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點名稱。其中,預設的命名實體詞典中包括大量已有的實體機構名稱,如果地址信息塊中的文本能與該詞典相匹配,則將該文本識別為興趣點名稱?;蛘?,利用地址信息塊中的文本與預設的語義規(guī)則相比對,將滿足預設語義規(guī)則的文本識別為地址信息塊中的興趣點名稱。
興趣點名稱通常具有相同的后綴,而且該興趣點名稱在同一個站點內(nèi)的地址信息塊中出現(xiàn)的頻次超過一定閾值,例如,以“XXX公司” “XXX有限公司” “XXX醫(yī)院”等,則提取符合這些語義規(guī)則的文本作為興趣點名稱。當然,也可以采用以上兩種方式相結(jié)合的方式,先通過預設的命名實體詞典來匹配,對于不能匹配的地址信息塊再采用語義規(guī)則來判斷,這樣有利于發(fā)現(xiàn)未被命名實體詞典收錄的興趣點名稱。從地址信息塊中提取對應的地址信息,可以但不限于采用以下方法判斷地址信息塊中的文本是否有地址提示詞。
對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進行分詞,識別出至少一個地址信息。如圖5b所示的地址信息塊中的文本即包含有地址提示詞“地址”。獲取該提示詞后面的文本“北京市海淀區(qū)黃莊中關村大街29號”,并利用預先構建的地址信息樹,識別出該文本即為一個地址信息。對于無提示詞的文本,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的文本識別為地址信息。地址信息詞典是利用已有的地理或地圖數(shù)據(jù)建立的帶有各級別范圍的地理名詞,例如,“海淀”、“上地”、“中關村”等。地址標識詞典中包括各級別的地名標識,例如,省、市、區(qū)、縣、街道、小區(qū)等。對于無提示詞的文本,則分析分詞的詞項是否有該些地理名詞或地理標識,并判斷該文本是否按照行政級別的順序正向或逆向排列,若是,則認為該文本為一個地址信息。校驗模塊808,用于對第一信息提取模塊803和第二信息提取模塊807獲取的同一站點內(nèi)的多個位置來源的興趣點名稱進行校驗,確定站點的興趣點名稱。所述多個位置來源的興趣點名稱可以是從站點首頁或聯(lián)系頁等多個頁面中提取而來的興趣點名稱,也可以是從站點首頁、聯(lián)系頁以及站內(nèi)包含的多個地址信息塊中提取而來的興趣點名稱。對于同一個站點,如果獲取的興趣點名稱一致,則將該興趣點名稱作為該站點的興趣點名稱;如果獲取的興趣點名稱不一致,則對多個位置來源的興趣點名稱進行校驗。校驗方法包括根據(jù)預設的可信度規(guī)則和興趣點名稱的提取位置,對所提取的興趣點名稱確定名稱可信度。或者,統(tǒng)計所提取的興趣點名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度。預設的可信度規(guī)則可以但不限于采用以下優(yōu)先級順序(由高到低)頁面標題(pagetitle) >地址塊 > 版權塊 > 聯(lián)系信息頁 > 鏈接錨文本 > 其他分塊。對于優(yōu)先級不低于聯(lián)系信息頁的位置,也可以直接抽取得到興趣點名稱。具體的,先從所述站點首頁的頁面標題中抽取出整個標題內(nèi)容,判斷該標題內(nèi)容是否為單一名稱,若是,則將該標題內(nèi)容作為該站點的興趣點名稱;否則,抽取的興趣點名稱為空。從地址塊內(nèi)部利用命名實體識別抽取實體名稱,判斷是否優(yōu)先級別較高的名稱為空且塊內(nèi)抽取名稱唯一,若是,則將該實體名稱識別為興趣點名稱;否則,抽取的興趣點名稱為空。
從版權塊中抽取出實體名稱,判斷是否優(yōu)先級別較高的名稱均為空且塊內(nèi)抽取名稱唯一,若是,則將該實體名稱識別為興趣點名稱;否則,抽取的興趣點名稱為空。從聯(lián)系信息頁抽取實體名稱,判斷是否優(yōu)先級別較高的名稱均為空且塊內(nèi)抽取名稱唯一,若是,則將該實體名稱識別為興趣點名稱;否則,抽取的興趣點名稱為空。獲取指向站點首頁的鏈接錨文本,統(tǒng)計所有鏈接錨文本出現(xiàn)的頻次,并根據(jù)統(tǒng)計的頻次賦予各鏈接錨文本相應的權重。最后,將名稱可信度滿足預設要求的興趣點名稱作為該站點的興趣點名稱。關聯(lián)模塊809,用于將提取到的興趣點名稱與地址信息進行關聯(lián),得到結(jié)構化信
肩、O
經(jīng)過校驗模塊808確定了同一個站點的興趣點名稱之后,同樣的,關聯(lián)模塊809對于提取的地址信息也可以從不同的來源中擇一作為對應站點的地址信息,最后形成準確率高的結(jié)構化信息。本發(fā)明提供的頁面信息提取方法及裝置,基于站點結(jié)構及信息語義特征相結(jié)合,提取實體機構站點的聯(lián)系信息,用作地圖興趣點數(shù)據(jù),以便后續(xù)用作垂直搜索,提供較好的搜索結(jié)果。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明保護的范圍之內(nèi)。
權利要求
1.一種頁面信息提取方法,其特征在于,包括 51、獲取全網(wǎng)的網(wǎng)頁頁面; 52、獲取所述網(wǎng)頁頁面對應的站點首頁或聯(lián)系頁; 53、從所述站點首頁或聯(lián)系頁中提取興趣點名稱和對應的地址信息; 54、將提取到的興趣點名稱與地址信息進行關聯(lián),得到結(jié)構化信息。
2.根據(jù)權利要求I所述的方法,其特征在于,所述獲取站點首頁的方法采用以下所列的一種或任意結(jié)合 從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應的站點首頁; 通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進行跳轉(zhuǎn)處理,得到相對應的站點首頁; 或者,利用站點的首頁樣本集合,統(tǒng)計分析其鏈接錨文本及網(wǎng)址樣式特征構造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進行分析,得到所有的站點首頁。
3.根據(jù)權利要求I所述的方法,其特征在于,所述獲取網(wǎng)頁頁面對應的聯(lián)系頁的方法,具體包括 利用站點的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本、頁面標題及網(wǎng)址樣式特征構造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進行分析,得到所有站點的聯(lián)系信息頁。
4.根據(jù)權利要求I所述的方法,其特征在于,所述從站點首頁和聯(lián)系頁中提取興趣點名稱和對應的地址信息,具體為 將所述站點首頁或聯(lián)系頁的頁面標題識別為興趣點名稱; 判斷所述站點首頁或聯(lián)系頁的頁面內(nèi)容是否有地址提示詞; 對于帶有提示詞的頁面內(nèi)容,對提示詞后面的文本利用預設的地址信息樹進行分詞,識別出至少一個地址信息; 對于無提示詞的頁面內(nèi)容,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的頁面內(nèi)容識別為地址信息。
5.根據(jù)權利要求I所述的方法,其特征在于,在所述步驟SI之后和步驟S4之前,還包括 55、逐一將所獲取的網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊; 56、基于視覺分塊的語義特征對所述視覺分塊進行標注,得到標注分塊; 57、利用預先構建的地址信息樹對所述標注分塊中的文本逐句進行分析,將含有地址信息的標注分塊識別為地址信息塊; 58、從所述地址信息塊中提取興趣點名稱和對應的地址信息。
6.根據(jù)權利要求5所述的方法,其特征在于,所述步驟S5具體包括 逐一解析所述網(wǎng)頁頁面,建立當前網(wǎng)頁頁面的文檔對象模型樹; 計算所述文檔對象模型樹中每個節(jié)點的位置、大小和長寬信息,構成視覺樹; 遍歷所述視覺樹,計算每個節(jié)點的子樹信息; 根據(jù)所述節(jié)點位置、層疊樣式表信息和子樹信息對所述視覺樹進行分塊處理,得到視覺分塊; 將所述節(jié)點與視覺分塊對應,構成最終的視覺分塊樹。
7.根據(jù)權利要求5所述的方法,其特征在于,所述步驟S6具體包括 記錄所述視覺分塊的塊節(jié)點信息,計算所述塊節(jié)點的位置; 利用塊節(jié)點的語義特征進行標注,得到所述標注分塊,包括標注語義塊、標注功能塊和標注資源塊。
8.根據(jù)權利要求4或5所述的方法,其特征在于,所述地址信息樹的構建方法,包括 逐一獲取地址實例庫中的實例地址; 對當前的實例地址進行分詞處理,得到該實例地址的詞項; 利用預設的地址標識詞典,識別實例地址中詞項的后綴成分; 利用預設的地址信息詞典對所述后綴的上下文進行成分分析,識別所述詞項的主體成分; 將識別到的主體成分添加到地址信息樹中對應的節(jié)點,形成地址信息樹。
9.根據(jù)權利要求5所述的方法,其特征在于,所述從地址信息塊中提取興趣點名稱,包括 利用地址信息塊中的文本與預設的命名實體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點名稱; 或者,利用地址信息塊中的文本與預設的語義規(guī)則相比對,將滿足預設語義規(guī)則的文本識別為地址信息塊中的興趣點名稱; 所述從地址信息塊中提取對應的地址信息,具體包括 判斷地址信息塊中的文本是否有地址提示詞; 對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進行分詞,識別出至少一個地址信息; 對于無提示詞的文本,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的文本識別為地址信息。
10.根據(jù)權利要求I或5所述的方法,其特征在于,在步驟S4之前,還包括 對同一站點內(nèi)多個位置來源的興趣點名稱進行校驗,確定站點的興趣點名稱。
11.根據(jù)權利要求10所述的方法,其特征在于,所述校驗方法包括 根據(jù)預設的可信度規(guī)則和興趣點名稱的提取位置,對所提取的興趣點名稱確定名稱可信度; 或者,統(tǒng)計所提取的興趣點名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度; 將名稱可信度滿足預設要求的興趣點名稱作為該站點的興趣點名稱。
12.—種頁面信息提取裝置,其特征在于,包括 網(wǎng)頁獲取模塊,用于獲取全網(wǎng)的網(wǎng)頁頁面; 站點結(jié)構分析模塊,用于獲取所述網(wǎng)頁頁面對應的站點首頁和聯(lián)系頁; 第一信息提取模塊,用于從所述站點首頁和聯(lián)系頁中提取興趣點名稱和對應的地址信息; 關聯(lián)模塊,用于將提取到的興趣點名稱與地址信息進行關聯(lián),得到結(jié)構化信息。
13.根據(jù)權利要求12所述的裝置,其特征在于,所述站點結(jié)構分析模塊獲取站點首頁的具體配置,采用以下所列的一種或任意結(jié)合 從所述網(wǎng)頁頁面的網(wǎng)址中取出域名地址,對所述域名地址進行跳轉(zhuǎn)處理,得到該網(wǎng)頁頁面對應的站點首頁; 通過全網(wǎng)網(wǎng)頁頁面的網(wǎng)址中逐一取出域名地址,進行去重處理后添加到域名地址集合中,對所述域名地址集合中的所有域名地址進行跳轉(zhuǎn)處理,得到相對應的站點首頁; 或者,利用站點的首頁樣本集合,統(tǒng)計分析其鏈接錨文本及網(wǎng)址樣式特征構造首頁分類器,利用所述首頁分類器對所述網(wǎng)頁頁面進行分析,得到所有的站點首頁。
14.根據(jù)權利要求12所述的裝置,其特征在于,所述站點結(jié)構分析模塊獲取網(wǎng)頁頁面對應的聯(lián)系頁的具體配置為 利用站點的聯(lián)系頁樣本集合,統(tǒng)計分析其鏈接錨文本、頁面標題及網(wǎng)址樣式特征構造聯(lián)系頁分類器,利用所述聯(lián)系頁分類器對所述網(wǎng)頁頁面進行分析,得到所有站點的聯(lián)系信息頁。
15.根據(jù)權利要求12所述的裝置,其特征在于,所述第一信息提取模塊從站點首頁和聯(lián)系頁中提取興趣點名稱和對應的地址信息,具體配置為 將所述站點首頁或聯(lián)系頁的頁面標題識別為興趣點名稱; 判斷所述站點首頁或聯(lián)系頁的頁面內(nèi)容是否有地址提示詞; 對于帶有提示詞的頁面內(nèi)容,對提示詞后面的文本利用預設的地址信息樹進行分詞,識別出至少一個地址信息; 對于無提示詞的頁面內(nèi)容,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的頁面內(nèi)容識別為地址信息。
16.根據(jù)權利要求12所述的裝置,其特征在于,該裝置還包括 視覺分塊處理模塊,用于逐一將所述網(wǎng)頁獲取模塊獲取的網(wǎng)頁頁面解析成文檔對象模型樹,根據(jù)頁面標簽大小、位置及層疊樣式表信息,對所述網(wǎng)頁頁面進行視覺分塊處理,得到所述網(wǎng)頁頁面的視覺分塊; 標注模塊,用于基于視覺分塊的語義特征對所述視覺分塊進行標注,得到標注分塊;地址信息塊獲取模塊,用于利用預先構建的地址信息樹對所述標注分塊中的文本逐句進行分析,將含有地址信息的標注分塊識別為地址信息塊; 第二信息提取模塊,用于從所述地址信息塊中提取興趣點名稱和對應的地址信息。
17.根據(jù)權利要求16所述的裝置,其特征在于,所述視覺分塊處理模塊具體配置為 逐一解析所述網(wǎng)頁頁面,建立當前網(wǎng)頁頁面的文檔對象模型樹; 計算所述文檔對象模型樹中每個節(jié)點的位置、大小和長寬信息,構成視覺樹; 遍歷所述視覺樹,計算每個節(jié)點的子樹信息; 根據(jù)所述節(jié)點位置、層疊樣式表信息和子樹信息對所述視覺樹進行分塊處理,得到視覺分塊; 將所述節(jié)點與視覺分塊對應,構成最終的視覺分塊樹。
18.根據(jù)權利要求16所述的裝置,其特征在于,所述標注模塊具體配置為 記錄所述視覺分塊的塊節(jié)點信息,計算所述塊節(jié)點的位置; 利用塊節(jié)點的語義特征進行標注,得到所述標注分塊,包括標注語義塊、標注功能塊和標注資源塊。
19.根據(jù)權利要求15或16所述的裝置,其特征在于,所述地址信息樹通過地址信息樹構建模塊預先建立,所述地址信息樹構建模塊包括 實例地址獲取子模塊,用于逐一獲取地址實例庫中的實例地址; 分詞子模塊,用于對所述實例地址獲取子模塊獲取的當前的實例地址進行分詞處理,得到該實例地址的詞項; 后綴識別子模塊,用于利用預設的地址標識詞典,識別實例地址中詞項的后綴成分; 成分識別子模塊,用于利用預設的地址信息詞典和上下文關系對所述詞項進行成分分析,識別所述詞項的成分; 成分節(jié)點確定子模塊,用于將所述后綴識別子模塊和成分識別子模塊識別到的成分添加到地址信息樹中對應的節(jié)點,形成地址信息樹。
20.根據(jù)權利要求16所述的裝置,其特征在于,所述第二信息提取模塊從地址信息塊中提取興趣點名稱,具體配置為 利用地址信息塊中的文本與預設的命名實體詞典相比對,將能夠匹配的文本識別為地址信息塊中的興趣點名稱; 或者,利用地址信息塊中的文本與預設的語義規(guī)則相比對,將滿足預設語義規(guī)則的文本識別為地址信息塊中的興趣點名稱; 所述第二信息提取模塊從地址信息塊中提取對應的地址信息,具體配置為 判斷地址信息塊中的文本是否有地址提示詞; 對于帶有提示詞的文本,對提示詞后面的文本利用所述地址信息樹進行分詞,識別出至少一個地址信息; 對于無提示詞的文本,先進行分詞處理,利用預設的地址信息詞典或地址標識詞典進行地址成分的識別,將匹配程度滿足預設要求的文本識別為地址信息。
21.根據(jù)權利要求12或16所述的裝置,其特征在于,該裝置還包括 校驗模塊,用于對所述第一信息提取模塊或所述第二信息提取模塊獲取的同一站點內(nèi)多個位置來源的興趣點名稱進行校驗,確定站點的興趣點名稱。
22.根據(jù)權利要求21所述的裝置,其特征在于,所述校驗模塊的具體配置包括 根據(jù)預設的可信度規(guī)則和興趣點名稱的提取位置,對所提取的興趣點名稱確定名稱可信度; 或者,統(tǒng)計所提取的興趣點名稱出現(xiàn)的頻次,根據(jù)頻次大小確定名稱可信度; 將名稱可信度滿足預設要求的興趣點名稱作為該站點的興趣點名稱。
全文摘要
本發(fā)明提供了一種頁面信息提取方法及裝置,所述方法包括S1.獲取全網(wǎng)的網(wǎng)頁頁面;S2.獲取所述網(wǎng)頁頁面對應的站點首頁或聯(lián)系頁;S3.從所述站點首頁或聯(lián)系頁中提取興趣點名稱和對應的地址信息;S4.將提取到的興趣點名稱與地址信息進行關聯(lián),得到結(jié)構化信息。相較于現(xiàn)有技術,本發(fā)明利用互聯(lián)網(wǎng)中實體機構的組織結(jié)構特點及信息語義特征,從站點首頁和聯(lián)系頁中提取實體機構的聯(lián)系信息,通過對多來源數(shù)據(jù)的校驗、整合與關聯(lián),獲取結(jié)構化的地理位置信息,提高了信息的準確率,并能夠自動面向整個互聯(lián)網(wǎng)的實體機構進行信息召回,降低人力成本,提高了信息召回率。
文檔編號G06F17/30GK102841920SQ20121022719
公開日2012年12月26日 申請日期2012年6月30日 優(yōu)先權日2012年6月30日
發(fā)明者王松 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1