技術編號:6518229
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。本發(fā)明提出一種新詞搜索方法及系統(tǒng),其中方法包括以下步驟提供多個語料,并對多個語料分別進行分詞以得到多個單詞;獲取多個單詞中第一單詞在對應的語料中與第一單詞相鄰的單詞集合;根據(jù)單詞集合中不同單詞的數(shù)量得到停用詞集合;分別將單詞集合中的每個單詞與第一單詞進行組合以得到組合后的多個候選單詞;分別判斷組合為每個候選單詞中的兩個單詞組合之后的上下文熵增量;如果上下文熵增量大于第一預設值且對應的候選單詞不包含停用詞集合中的停用詞,則將對應的候選單詞作為新詞。根據(jù)本發(fā)明...
注意:該技術已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業(yè)用途。
該專利適合技術人員進行技術研發(fā)參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。