亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用語言查詢的文本分析系統(tǒng)和方法與流程

文檔序號:11412574閱讀:352來源:國知局
使用語言查詢的文本分析系統(tǒng)和方法與流程
本發(fā)明屬于計算機科學領域中的網絡分支,具體涉及一種使用語言查詢的文本分析系統(tǒng)和方法,適用于網絡信息提取、商業(yè)情報挖掘、信息聚合、網絡知識庫建立等應用領域。

背景技術:
隨著互聯(lián)網的高速發(fā)展,網絡上的信息呈爆炸式增長,人們越來越習慣在網絡上獲取信息。然而,由于網絡上的信息太多,即使有了網絡搜索工具,人們還很難找到所需要的信息。此外,網絡上也經常出現(xiàn)許多不相干的噪音信息,盡管很多信息是能被檢索到,但其內容可能是不相干或不準確的。因此,人們希望出現(xiàn)一種智能工具,根據(jù)用戶的意愿,幫助人們擯除噪音,在大量的信息中,篩選出真正需要的信息。傳統(tǒng)的自然語言處理(NLP)系統(tǒng),能利用自然語言處理技術,如分詞性標注,分類樹,同義詞,索引典等,從文本的內容,提取當中的意義。大量的計算機程序也因此被開發(fā)出來,以從這些經NLP加工后的文本內容,提取知識。但是,計算機程序的開發(fā)通常是非常耗時。此外,隨著時間推移,便需要更多的計算機程序以提取新的知識,這使整個分析系統(tǒng)的維護費用變得昂貴。在很多時候,由于被提取的知識是含糊不清,還需要人工核實和校正。中國發(fā)明專利申請申請?zhí)枮?00810142630.7和200910104805.X提出利用分類樹對文本進行分析的文本分析系統(tǒng)。然而,該系統(tǒng)高度依賴于博客或網頁的結構,以作為系統(tǒng)的輸入。對于許多文本分析系統(tǒng),由于內容的來源(如從不同新聞網站的新聞文章,微博的內容)可能不具有良好或相同的結構,這意味著每一個網站或每一個網頁便需要相對應的規(guī)則。此外,該內容的來源結構可能隨時間而發(fā)生變更,所以每當該結構發(fā)生變化時,分類樹也必需重建,這都是不具有成本效益的。美國專利申請公開號2011/019671和PCT國際公布號WO2012/099970A1提出品牌估值系統(tǒng)。該系統(tǒng)收集品牌網站銷售和傳輸數(shù)據(jù),以評估品牌的價值。它也試圖比較不同品牌,以創(chuàng)建在某一個行業(yè)的品牌指數(shù)。但該系統(tǒng)的問題是,收集競爭對手網站的銷售和流量數(shù)據(jù)是相當困難的。從理論上,如果一個組織可以從不同公司收集得到數(shù)據(jù),該指數(shù)是可以被建立的。然而在實際上,因為銷售數(shù)據(jù)通常是高度保密,所以這是不可行的。

技術實現(xiàn)要素:
根據(jù)以上問題,本發(fā)明公開了一種使用語言查詢的文本分析系統(tǒng)和方法。本發(fā)明使用中文分詞(ChineseSegmentation)和語言查詢語言(LinguisticsQueryLanguage,LQL)技術。透過中文分詞,能對中文文本進行詞的切分,并對所切分出的詞進行詞性標注(Part-of-Speech,POSTagging)。LQL技術能對該被切分和被詞性標注的中文文本,作進一步分析,以提取所需的知識。根據(jù)本發(fā)明的一個方面,提供了一種使用語言查詢的文本分析系統(tǒng),所述系統(tǒng)包括:文本內容輸入模塊,用于輸入中文文本于所述的文本分析系統(tǒng);中文分詞模塊,用于對該中文文本進行詞的切分;詞性標注模塊,用于對該被切分出的詞,標注上詞性標簽;應用詞典數(shù)據(jù)庫,包括一個或多個應用詞典,該應用詞典包括一個或多個關鍵詞;語言查詢語言(LQL)規(guī)則數(shù)據(jù)庫,用于儲存一個或多個LQL規(guī)則,其中,該LQL規(guī)則的設定包括:定義被提取的知識在該中文文本中的位置(ExtractionPosition);定義覆蓋范圍(Coverage),該覆蓋范圍是一個句子,一個段落或一個文檔;定義一個或多個匹配條件(MatchCriteria),該匹配條件是短語列表(PhraseList)或具有特定詞性標注的詞(WORDPOS);定義匹配模式(MatchPattern),該匹配模式是用于定義匹配條件,當該匹配條件是短語列表時,其匹配模式是一個檔案名稱,該檔案名稱指向在該應用詞典內的一個或多個關鍵詞,當該匹配條件是該具有特定詞性標注的詞時,其匹配模式是詞性標簽;LQL分析模塊,根據(jù)該LQL規(guī)則,用于對該被切分和被詞性標注的中文文本,進行LQL分析,并提取所需的知識,其中,該LQL分析包括:確立該LQL規(guī)則所定義的覆蓋范圍;根據(jù)該LQL規(guī)則的匹配條件所定義的詞性標簽,在該被切分和被詞性標注的中文文本,找出具有該詞性標簽的詞;根據(jù)該LQL規(guī)則的匹配條件所定義的關鍵詞,在該被切分和被詞性標注的中文文本,找出與該關鍵詞相同的詞;當在該覆蓋范圍中,該匹配條件能得到滿足,根據(jù)該LQL規(guī)則所定義的被提取知識在中文文本中的位置,提取一個或多個詞;被提取知識數(shù)據(jù)庫,用于儲存該被提取的知識。根據(jù)本發(fā)明的另一個方面,提供了一種使用上述系統(tǒng)的文本分析方法,所述方法包括:S1:取得中文文本;S2:使用中文分詞模塊,對該中文文本進行詞的切分;S3:使用詞性標注模塊,對該被切分出的詞,進行詞性標注;S4:在LQL分析模塊,使用LQL規(guī)則,對該被切分和標注的中文文本,進行LQL分析,以提取知識,其中,該LQL分析包括以下步驟:確立該LQL規(guī)則所定義的覆蓋范圍;根據(jù)該LQL規(guī)則的匹配條件所定義的詞性標簽,在該被切分和被詞性標注的中文文本,找出具有該詞性標簽的詞;根據(jù)該LQL規(guī)則的匹配條件所定義的關鍵詞,在該被切分和被詞性標注的中文文本,找出與該關鍵詞相同的詞;當在該覆蓋范圍中,該匹配條件能得到滿足,根據(jù)該LQL規(guī)則所定義的被提取知識在中文文本中的位置,提取一個或多個詞。根據(jù)本發(fā)明的一個方面,提供了一種使用語言查詢的文本分析系統(tǒng),所述系統(tǒng)包括:文本內容輸入模塊,用于輸入該語言的文本于所述的文本分析系統(tǒng);語言分詞模塊,用于對該文本進行詞的切分;詞性標注模塊,用于對該被切分出的詞,標注上詞性標簽;應用詞典數(shù)據(jù)庫,包括一個或多個應用詞典;語言查詢語言(LQL)規(guī)則數(shù)據(jù)庫,用于儲存一個或多個LQL規(guī)則,其中,該LQL規(guī)則的設定包括:定義被提取的知識在該文本中的位置(ExtractionPosition);定義覆蓋范圍(Coverage),該覆蓋范圍是一個句子,一個段落或一個文檔;定義一個或多個匹配條件(MatchCriteria),該匹配條件是短語列表(PhraseList)或具有特定詞性標注的詞(WORDPOS);定義匹配模式(MatchPattern),該匹配模式是用于定義匹配條件,當該匹配條件是短語列表時,其匹配模式是一個檔案名稱,該檔案名稱指向在該應用詞典內的一個或多個關鍵詞,當該匹配條件是該具有特定詞性標注的詞時,其匹配模式是詞性標簽;LQL分析模塊,根據(jù)該LQL規(guī)則,用于對該被切分和被詞性標注的文本,進行LQL分析,并提取所需的知識,其特征在于,該LQL分析包括:確立該LQL規(guī)則所定義的覆蓋范圍;根據(jù)該LQL規(guī)則的匹配條件所定義的詞性標簽,在該被切分和被詞性標注的文本,找出具有該詞性標簽的詞;根據(jù)該LQL規(guī)則的匹配條件所定義的關鍵詞,在該被切分和被詞性標注的文本,找出與該關鍵詞相同的詞;當在該覆蓋范圍中,該匹配條件能得到滿足,根據(jù)該LQL規(guī)則所定義的被提取知識在文本中的位置,提取一個或多個詞;被提取知識數(shù)據(jù)庫,用于儲存該被提取的知識。依據(jù)本發(fā)明,以語言查詢的文本分析系統(tǒng)包括文本內容輸入模塊、文本語法分析模塊、文本分詞模塊、詞性標注模塊、LQL分析模塊、被提取知識數(shù)據(jù)庫、中文分詞詞典、LQL規(guī)則數(shù)據(jù)庫、應用詞典數(shù)據(jù)庫、錯誤校正規(guī)則數(shù)據(jù)庫、錯誤校正模塊、LQL規(guī)則輸入界面、應用詞典輸入界面和錯誤校正規(guī)則輸入界面。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞指的是將漢字序列切分成一個一個單獨的詞。所述中文分詞模塊是用于對中文文本進行詞的切分,即像英文那樣,使得中文句子中的每一個詞之間留有空格。所述詞性標注模塊便是對被切分出的詞進行詞性標注(POSTagging)。所述中文分詞詞典包括術語列表,當中的術語具有詞性標注和該詞性標注出現(xiàn)的頻率。該文本分詞模塊和該詞性標注模塊便是基于該中文分詞詞典、對中文文本進行詞的切分和詞性標注。所述應用詞典數(shù)據(jù)庫包含一個或多個應用詞典。每一個應用詞典記載了一系列根據(jù)特定應用的關鍵詞。應用詞典會被應用于LQL規(guī)則的設定中。所述LQL分析模塊使用LQL規(guī)則,對被切分和被詞性標注的中文文本進行分析,并從中提取所需的知識。用戶能使用LQL規(guī)則輸入界面,根據(jù)不同的需要,而設定所需的LQL規(guī)則,并把LQL規(guī)則儲存于LQL規(guī)則數(shù)據(jù)庫當中。該被提取的知識會被儲存于被提取知識數(shù)據(jù)庫當中。該錯誤校正模塊能使用錯誤校正規(guī)則,對被提取的知識作出分析,并刪除那些被錯誤提取的知識,從而提高知識提取的準確性。用戶能使用錯誤校正規(guī)則輸入界面,根據(jù)不同的需要,設定錯誤校正規(guī)則。被設定的錯誤校正規(guī)則會被儲存于錯誤校正規(guī)則數(shù)據(jù)庫當中。根據(jù)本發(fā)明的一個方面,LQL規(guī)則設定包括:定義被提取知識在文本中的位置(ExtractionPosition);定義覆蓋范圍(Coverage),該覆蓋范圍可以是一個句子,一個段落或一個文檔;定義匹配條件(MatchCriteria),該匹配條件可以是短語列表(PhraseList)、具有特定詞性標簽的詞(WORDPOS)或不具有特定詞性標簽的詞(WORDNOTPOS);定義匹配模式(MatchPattern),該匹配模式是用于定義匹配條件,對于PhraseList,其匹配模式可以是一個檔案名稱,該檔案名稱指向在應用詞典內的一系列關鍵詞,對于WORDPOS或WORDNOTPOS,其匹配模式是詞性標簽;定義可選的條件(OptionalCriteria),用于匹配條件,并能被一般的正規(guī)表達式所定義。根據(jù)本發(fā)明的一個方面,所述LQL分析模塊使用LQL規(guī)則,對被切分和被詞性標注的文本進行分析,該LQL分析包括:確立LQL規(guī)則所定義的覆蓋范圍;根據(jù)LQL規(guī)則的匹配條件所定義的詞性標簽,在該被切分和被詞性標注的文本,找出具有該詞性標簽的詞;根據(jù)LQL規(guī)則的匹配條件所定義的關鍵詞,在該被切分和被詞性標注的文本,找出與該關鍵詞相同的詞;當在該覆蓋范圍中,能找出具有該詞性標簽的詞和與該關鍵詞相同的詞,即該匹配條件能得到滿足,根據(jù)該LQL規(guī)則所定義的被提取知識在中文文本中的位置,提取一個或多個詞。根據(jù)本發(fā)明的一個方面,所述錯誤校正規(guī)則設定包括定義一個或多個的數(shù)值和數(shù)值比較要求。定義該數(shù)值可以是:定義被提取的知識是單值的或多值的;定義被提取知識來源數(shù)目的閾值;定義被提取知識數(shù)目的閾值;或定義被提取知識的數(shù)目占所有被提取知識數(shù)目的百分比的閾值。該數(shù)值比較要求是比較統(tǒng)計值和該數(shù)值,可以是大于、小于或者等于。當被提取的知識不符合以上一個或多個錯誤校正規(guī)則,這些錯誤被提取的知識會被刪除。根據(jù)本發(fā)明的一個方面,所述錯誤校正模塊使用錯誤校正規(guī)則,對被切分和被詞性標注的文本進行分析,該錯誤校正分析包括:對所有被提取的知識進行統(tǒng)計,以取得統(tǒng)計值;把該統(tǒng)計值和該錯誤校正規(guī)則所定義的數(shù)值比較;刪除不符合數(shù)值比較要求的被提取的知識。根據(jù)本發(fā)明的另一個方面,提供了一種使用語言查詢的文本分析方法,所述方法包括以下步聚:S1:使用LQL規(guī)則輸入界面,定義LQL規(guī)則;S2:使用應用詞典輸入界面,定義應用詞典;S3:使用錯誤校正規(guī)則輸入界面,定義錯誤校正規(guī)則;S4:使用文本內容輸入模塊,取得文本;S5:使用文本語法分析模塊,對該文本進行語法分析。S6:使用文本分詞模塊,對該文本進行詞的切分;S7:使用詞性標注模塊,對被切分出的詞進行詞性標注;S8:在LQL分析模塊,使用LQL規(guī)則,對已被切分和標注的中文文本,進行LQL分析,以提取知識;S9:把被提取的知識,儲存于被提取知識數(shù)據(jù)庫中;S10:使用錯誤校正模塊,并根據(jù)錯誤校正規(guī)則,刪除錯誤被提取的知識,以增加所述被提的知識的準確性。本發(fā)明的優(yōu)點在于,由于語言查詢語言的設定很接近自然語言,而非一般的計算機語言,所以非計算機程式員也能簡單地設定語言規(guī)則語言,以提取知識,從而減低計算機程序開發(fā)的難度,有效地降低系統(tǒng)開發(fā)和維護成本。同時,被設定的語言查詢語言能夠被累積和儲存于語言查詢語言數(shù)據(jù)庫,以作為新應用的參考。此外,本發(fā)明是可以獨立于文本內容的網頁格式和結構,大大增強了收集信息的范圍。根據(jù)本發(fā)明的多個方面,只需簡單地更改語言查詢語言和更新應用詞典,便能使用者因需要而建立不同種類的應用。例如,人物搜索,以提取人和機構的關系;新聞搜尋系統(tǒng),其能聯(lián)系一篇新聞文章于一個地方;品牌估值,以監(jiān)測品牌于不同社交媒體平臺的認受程度。附圖說明通過下面的附圖本領域技術人員將對本發(fā)明有更好的理解,并且更能清楚地體現(xiàn)出本發(fā)明的優(yōu)點。這里描述的附圖僅為了所選實施例的說明目的,而不是全部可能的實施方式并且旨在不限定本發(fā)明的范圍。圖1是根據(jù)本發(fā)明的使用語言查詢的文本分析系統(tǒng)方框圖;圖2是根據(jù)本發(fā)明的一種詞性標注的方法;圖3是根據(jù)本發(fā)明的使用語言查詢的文本分析方法流程圖;圖4是根據(jù)本發(fā)明的LQL分析方法流程圖;圖5是根據(jù)本發(fā)明的錯誤校正分析流程圖。具體實施方式圖1示出了根據(jù)本發(fā)明的一個實施例的文本分析系統(tǒng),包括文本內容輸入模塊101、文本語法分析模塊102、文本分詞模塊103、詞性標注模塊104、LQL分析模塊105、被提取知識數(shù)據(jù)庫106、中文分詞詞典10...
當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1