技術編號:6506379
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。本發(fā)明公開了一種借助互聯(lián)網自動構建文本分類語料庫的方法及系統(tǒng),該方法包括如下步驟用戶提供所需的文本類別體系,網站結構與內容的采集整理,用戶輸入類別與網站結構的匹配,語料庫去噪,輸出語料庫。本發(fā)明的技術效果是利用互聯(lián)網上各類網站上存在的類別標注信息,無需專業(yè)的人員手工標注,自適應不同用戶的分類體系需求。它改變了傳統(tǒng)的語料庫構建系統(tǒng)需要大量的具有一定專業(yè)知識的人員加入標注的方式,采用對互聯(lián)網上的豐富信息進行自動的抽取和挖掘的方式,可快速的構建出大容量的精準的文...
注意:該技術已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業(yè)用途。
該專利適合技術人員進行技術研發(fā)參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。