本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)錄入方法、系統(tǒng)及數(shù)據(jù)庫。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,信息匯集與處理在各個領(lǐng)域的應(yīng)用越來越廣泛,信息的匯集和處理通?;跀?shù)據(jù)庫進行。如何建立和維護數(shù)據(jù)庫,或換言之,如何高效的對數(shù)據(jù)庫進行數(shù)據(jù)錄入,成為亟待解決的問題。
但是,現(xiàn)有的數(shù)據(jù)庫錄入方法的效率較低。
技術(shù)實現(xiàn)要素:
本發(fā)明解決的技術(shù)問題是提升錄入方法的錄入效率。
為解決上述技術(shù)問題,本發(fā)明實施例提供一種數(shù)據(jù)錄入方法,包括:對待錄入數(shù)據(jù)庫的待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算,其中,所述數(shù)據(jù)庫包括知識點,所述特征語句用于標(biāo)識所述待錄入語句;若所述待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度小于預(yù)設(shè)的相似度閾值,則根據(jù)所述待錄入語句生成新的知識點錄入所述數(shù)據(jù)庫。
可選的,若所述待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度大于預(yù)設(shè)的相似度閾值,則生成提醒信息以對錄入數(shù)據(jù)的用戶進行提醒。
可選的,所述知識點包括標(biāo)準(zhǔn)問和擴展問;所述數(shù)據(jù)錄入方法還包括:若所述待錄入語句與所述數(shù)據(jù)庫中的語句的語義相似度大于預(yù)設(shè)的相似度閾值,則將所述待錄入語句中的特征語句作為數(shù)據(jù)庫中與所述待錄入語句的特征語句的語義相似度最高的標(biāo)準(zhǔn)問的擴展問。
可選的,所述知識點包括特征語句和解釋語句,所述待錄入語句僅包括特征語句;根據(jù)所述待錄入語句生成新的知識點錄入所述數(shù)據(jù)庫,包括:根據(jù)所述待錄入語句的特征語句生成新的知識點的特征語句;錄入所述新的知識點的特征語句至數(shù)據(jù)庫;提醒錄入數(shù)據(jù)的用戶輸入所述新的知識點的解釋語句。
可選的,所述知識點包括特征語句和解釋語句,所述待錄入語句包括特征語句和解釋語句;根據(jù)所述待錄入語句生成新的知識點錄入所述數(shù)據(jù)庫,包括:拆分所述待錄入語句中的特征語句和解釋語句,將所述待錄入語句中的特征語句作為所述數(shù)據(jù)庫中的新的知識點中的特征語句,將所述待錄入語句中的解釋語句作為所述數(shù)據(jù)庫中的新的知識點中的解釋語句。
可選的,進行語義相似度計算之前還包括:提取所述待錄入語句中的特征語句的關(guān)鍵詞組,以得到待錄入關(guān)鍵詞組;提取所述數(shù)據(jù)庫中的語句的關(guān)鍵詞組,以得到已有關(guān)鍵詞組;當(dāng)所述已有關(guān)鍵詞組中未包括所述待錄入關(guān)鍵詞組時,執(zhí)行所述語義相似度計算。
可選的,當(dāng)所述已有關(guān)鍵詞組中未包含所述待錄入關(guān)鍵詞組時,則生成提醒信息以對錄入數(shù)據(jù)的用戶進行提醒。
可選的,通過爬蟲爬取的數(shù)據(jù)生成所述待錄入語句,或基于人工客服問答語句生成所述待錄入語句。
可選的,所述進行語義相似度計算包括:對所述待錄入語句中的特征語句進行分詞處理,以得到分詞后的詞語;根據(jù)對待錄入語句中的特征語句的語義影響值,對所述分詞后的詞語進行篩選,以得到篩選后的詞語;匹配所述篩選后的詞語和所述知識點中的語義表達式,以得到所述語義相似度。
可選的,根據(jù)對待錄入語句的語義影響值對所述分詞后的詞語進行篩選包括:去除語氣詞以及助詞。
本發(fā)明實施例還包括一種數(shù)據(jù)錄入系統(tǒng),包括:語義相似度計算單元,適于對待錄入數(shù)據(jù)庫的待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算,其中,所述數(shù)據(jù)庫包括知識點,所述特征語句用于標(biāo)識所述待錄入語句;新的知識點錄入單元,適于若所述待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度小于預(yù)設(shè)的相似度閾值,則根據(jù)所述待錄入語句生成新的知識點錄入所述數(shù)據(jù)庫。
可選的,所述的數(shù)據(jù)錄入系統(tǒng)還包括:第一提醒單元,適于若所述待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度大于預(yù)設(shè)的相似度閾值,則生成提醒信息以對錄入數(shù)據(jù)的用戶進行提醒。
可選的,所述知識點包括標(biāo)準(zhǔn)問和擴展問;所述數(shù)據(jù)錄入系統(tǒng)還包括擴展問錄入單元,適于若所述待錄入語句與所述數(shù)據(jù)庫中的語句的語義相似度大于預(yù)設(shè)的相似度閾值,則將所述待錄入語句中的特征語句作為數(shù)據(jù)庫中與所述待錄入語句的特征語句的語義相似度最高的標(biāo)準(zhǔn)問的擴展問。
可選的,所述知識點包括特征語句和解釋語句,所述待錄入語句僅包括特征語句;所述新的知識點錄入單元,包括:新的知識點的特征語句生成子單元,適于根據(jù)所述待錄入語句的特征語句生成新的知識點的特征語句;新的知識點的特征語句錄入子單元,適于錄入所述新的知識點的特征語句至數(shù)據(jù)庫;解釋語句提醒子單元,適于提醒錄入數(shù)據(jù)的用戶輸入所述新的知識點的解釋語句。
可選的,所述知識點包括特征語句和解釋語句,所述待錄入語句包括特征語句和解釋語句;所述新的知識點錄入單元適于:拆分所述待錄入語句中的特征語句和解釋語句,將所述待錄入語句中的特征語句作為所述數(shù)據(jù)庫中的新的知識點中的特征語句,將所述待錄入語句中的解釋語句作為所述數(shù)據(jù)庫中的新的知識點中的解釋語句。
可選的,所述數(shù)據(jù)錄入系統(tǒng)還包括:待錄入關(guān)鍵詞組提取單元,適于進行語義相似度計算之前提取所述待錄入語句中的特征語句的關(guān)鍵詞組,以得到待錄入關(guān)鍵詞組;已有關(guān)鍵詞組提取單元,適于提取所述數(shù)據(jù)庫中的語句的關(guān)鍵詞組,以得到已有關(guān)鍵詞組;執(zhí)行單元,適于當(dāng)所述已有關(guān)鍵詞組中未包括所述待錄入關(guān)鍵詞組時,執(zhí)行所述語義相似度計算。
可選的,所述的數(shù)據(jù)錄入系統(tǒng)還包括:第二提醒單元,適于當(dāng)所述已有關(guān)鍵詞組中未包含所述待錄入關(guān)鍵詞組時,則生成提醒信息以對錄入數(shù)據(jù)的用戶進行提醒。
可選的,通過爬蟲爬取的數(shù)據(jù)生成所述待錄入語句,或基于人工客服問答語句生成所述待錄入語句。
可選的,所述語義相似度計算單元包括:分詞處理子單元,適于對所述待錄入語句中的特征語句進行分詞處理,以得到分詞后的詞語;篩選子單元,適于根據(jù)對待錄入語句中的特征語句的語義影響值,對所述分詞后的詞語進行篩選,以得到篩選后的詞語;匹配子單元,適于匹配所述篩選后的詞語和所述知識點中的語義表達式,以得到所述語義相似度。
可選的,所述篩選子單元適于去除語氣詞以及助詞。
本發(fā)明實施例還提供一種數(shù)據(jù)庫,所述數(shù)據(jù)庫包括知識點,且所述數(shù)據(jù)庫中的知識點的至少一部分通過任一項所述的數(shù)據(jù)錄入方法錄入,所述數(shù)據(jù)庫用于支持智能交互過程。
與現(xiàn)有技術(shù)相比,本發(fā)明實施例的技術(shù)方案具有以下有益效果:
在本發(fā)明實施例中,對待錄入數(shù)據(jù)庫的待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算,由于特征語句用于標(biāo)識待錄入語句,故通過比較待錄入語句和數(shù)據(jù)庫中的語句的語義相似度,即可確定數(shù)據(jù)庫中是否已包含與待錄入語句對應(yīng)的知識點。當(dāng)待錄入語句的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度小于預(yù)設(shè)的相似度閾值時,表明數(shù)據(jù)庫中未包含與待錄入語句對應(yīng)的知識點,此時根據(jù)待錄入語句生成新的知識點錄入數(shù)據(jù)庫,可以對數(shù)據(jù)庫進行完善,并且避免重復(fù)錄入,進而可以數(shù)據(jù)庫中知識點的重復(fù)。避免重復(fù)錄入也可以提升數(shù)據(jù)錄入方法的錄入效率。
進一步,若所述特征語句與所述數(shù)據(jù)庫中的語句的語義相似度大于預(yù)設(shè)的相似度閾值,則說明數(shù)據(jù)庫中可能包含與待錄入語句對應(yīng)的知識點,此時生成提醒信息對錄入數(shù)據(jù)的用戶進行提醒,可以為錄入用戶提供更加多樣化的選擇。在自然語言處理領(lǐng)域,自然人對語義的判斷通常比程序化的判斷更準(zhǔn)確,故通過提醒錄入數(shù)據(jù)的用戶,由錄入數(shù)據(jù)的用戶基于提醒進行再次判斷,錄入用戶可以選擇繼續(xù)錄入待錄入語句,或可以放棄錄入待錄入語句,故即可以避免知識點的重復(fù)錄入,也可以避免知識點錄入的遺漏。
另外,由于在交互過程中,向用戶返回的答句是依據(jù)數(shù)據(jù)庫中的知識點生成的,若數(shù)據(jù)庫中包含多個內(nèi)容相似或重復(fù)的知識點,則在生成答句時,需要對具體依據(jù)的知識點進行進一步判斷,效率較低。故利用以本發(fā)明實施例的錄入方法維護或建立的數(shù)據(jù)庫對人機交互過程進行支持時,由于本發(fā)明實施例中的數(shù)據(jù)錄入方法可以避免重復(fù)錄入,故可以減少數(shù)據(jù)庫中知識點的重復(fù),進而可以提升人機交互過程的效率。
附圖說明
圖1是本發(fā)明實施例中一種數(shù)據(jù)錄入方法的流程圖;
圖2是本發(fā)明實施例中一種語義相似度計算方法的流程圖;
圖3是本發(fā)明實施例中另一種數(shù)據(jù)錄入方法的流程圖;
圖4是本發(fā)明實施例中又一種數(shù)據(jù)錄入方法的流程圖;
圖5是本發(fā)明實施例中一種數(shù)據(jù)錄入系統(tǒng)的結(jié)構(gòu)示意圖;
圖6是圖5中語義相似度計算單元51的一種具體實施的結(jié)構(gòu)示意圖。
具體實施方式
如前所述,隨著信息技術(shù)的發(fā)展,信息匯集與處理在各個領(lǐng)域的應(yīng)用越來越廣泛,信息的匯集和處理通?;跀?shù)據(jù)庫進行。如何建立和維護數(shù)據(jù)庫,或換言之,如何高效的對數(shù)據(jù)庫進行數(shù)據(jù)錄入,成為亟待解決的問題。但是,現(xiàn)有的數(shù)據(jù)庫錄入方法的效率依然有待提高。
在本發(fā)明實施例中,對待錄入數(shù)據(jù)庫的待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算,由于特征語句用于標(biāo)識待錄入語句,故通過比較待錄入語句和數(shù)據(jù)庫中的語句的語義相似度,即可確定數(shù)據(jù)庫中是否已包含與待錄入語句對應(yīng)的知識點。
當(dāng)待錄入語句的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度小于預(yù)設(shè)的相似度閾值時,說明數(shù)據(jù)庫中未包含與待錄入語句對應(yīng)的知識點,此時對根據(jù)待錄入語句生成新的知識點錄入數(shù)據(jù)庫,可以對數(shù)據(jù)庫進行完善,并且避免重復(fù)錄入,進而可以數(shù)據(jù)庫中知識點的重復(fù)。避免重復(fù)錄入也可以提升數(shù)據(jù)錄入方法的錄入效率。
為使本發(fā)明的上述目的、特征和有益效果能夠更為明顯易懂,下面結(jié)合附圖對本發(fā)明的具體實施例做詳細的說明。
圖1是本發(fā)明實施例中一種數(shù)據(jù)錄入方法的流程圖,可以包括如下步驟:
步驟S11,對待錄入數(shù)據(jù)庫的待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算,其中,所述數(shù)據(jù)庫包括知識點,所述特征語句用于標(biāo)識所述待錄入語句;
步驟S12,若所述待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度小于預(yù)設(shè)的相似度閾值,則根據(jù)所述待錄入語句生成新的知識點錄入所述數(shù)據(jù)庫。
其中,待錄入語句的錄入目標(biāo)為數(shù)據(jù)庫,待錄入語句可以基于智能交互過程中的數(shù)據(jù)生成,例如可以基于爬蟲爬取的語句生成,或者也可以基于人工客服問答語句生成所述待錄入語句,即將爬蟲爬取的語句或者人工客服問答語句以預(yù)定的格式整理生成待錄入語句。
特征語句用于標(biāo)識待錄入語句,待錄入語句中可以僅包含特征語句,也可以包含特征語句和解釋語句。特征語句通??梢允菃柧?,解釋語句通??梢允谴鹁?。例如,特征語句可以是“開通彩鈴”,解釋語句可以是開通彩鈴的具體方式、彩鈴的資費標(biāo)準(zhǔn)等。
可以看出,本發(fā)明實施例中的問句并不局限于語言學(xué)意義的問句,而是以智能交互過程為參照,將智能交互過程中通常由用戶輸入的句子作為問句,對用戶的智能回復(fù)為答句。
本發(fā)明實施例中的數(shù)據(jù)庫,即可以是支持上述智能交互過程的數(shù)據(jù)庫,類似地,該數(shù)據(jù)庫中存儲的知識點同樣可以分為特征語句和解釋語句,本發(fā)明實施例中的數(shù)據(jù)錄入方法可以是在對支持智能交互過程的數(shù)據(jù)庫建立或維護過程中的錄入方法。
待錄入語句中特征語句的確定,可以采用多樣的方式進行,例如待錄入語句可以符合預(yù)設(shè)的格式,依據(jù)預(yù)設(shè)的格式可以識別特征語句,或者也可以利用語義識別的方式確定特征語句,或者也可以采用本領(lǐng)域技術(shù)人員可以實現(xiàn)的其他方式進行特征語句的確定。
數(shù)據(jù)庫中的語句指的是數(shù)據(jù)庫中的已有語句,由于特征語句用于標(biāo)識待錄入語句,故通過比較待錄入語句和數(shù)據(jù)庫中的語句的語義相似度,可判斷數(shù)據(jù)庫中是否已包含與待錄入語句對應(yīng)的知識點。當(dāng)待錄入語句的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度小于預(yù)設(shè)的相似度閾值時,說明數(shù)據(jù)庫中未包含與待錄入語句對應(yīng)的知識點,此時對根據(jù)待錄入語句生成新的知識點錄入數(shù)據(jù)庫,可以對數(shù)據(jù)庫進行完善,并且避免數(shù)據(jù)庫中知識點的重復(fù)。避免重復(fù)錄入也可以提升數(shù)據(jù)錄入方法的錄入效率。
在步驟S11的具體實施中,對待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算,可以是與數(shù)據(jù)庫中的全部或部分語句進行相似度計算。例如,可以是僅與數(shù)據(jù)庫中的特征語句進行相似度計算,當(dāng)數(shù)據(jù)庫的知識點中包含特征語句以及擴展語句時,也可以與數(shù)據(jù)庫中的特征語句以及擴展語句進行相似度計算,或者也可以與數(shù)據(jù)庫中的全部語句進行相似度計算。
當(dāng)計算待錄入語句中的特征語句與數(shù)據(jù)庫中的部分語句的相似度時,計算量較小,單次錄入過程耗時較短,效率較高。
雖然待錄入語句中和數(shù)據(jù)庫的知識點中,均可以包含特征語句,但對應(yīng)相同的知識點的特征語句可能是不同的,故計算與數(shù)據(jù)庫中的全部語句的相似度時,對數(shù)據(jù)庫中是否已包含待錄入語句對應(yīng)的知識點較為全面,可以更加準(zhǔn)確的避免重復(fù)錄入和避免數(shù)據(jù)庫中知識點的重復(fù),有助于提升數(shù)據(jù)庫進行建立和維護的過程的總體效率。
故進行數(shù)據(jù)庫的維護或建立的用戶可以根據(jù)數(shù)據(jù)庫的實際情況和應(yīng)用需求,選擇與所述數(shù)據(jù)庫中的全部或部分語句進行相似度計算。
圖2示出了本發(fā)明實施例中一種語義相似度計算方法,具體包括如下步驟:
步驟S21,對所述待錄入語句進行分詞處理,以得到分詞后的詞語;
步驟S22,根據(jù)對待錄入語句的語義影響值對所述分詞后的詞語進行篩選,以得到篩選后的詞語;
步驟S23,匹配所述篩選后的詞語和所述知識點中的語義表達式,以得到所述語義相似度。
以下對步驟S21至步驟S23的具體實施進行進一步說明:
步驟S21中的分詞處理可以采用本領(lǐng)域技術(shù)人員可以實施的各種分詞方法,在此不做限制。
在步驟S22的具體實施中,可以去除語氣詞以及助詞以完成篩選,也可以基于預(yù)設(shè)的詞庫進行篩選。
數(shù)據(jù)庫中知識點的特征語句可以包含標(biāo)準(zhǔn)問以及標(biāo)準(zhǔn)問的擴展問,標(biāo)準(zhǔn)問為用來表示某個知識點的文字,主要目標(biāo)是表達清晰,便于維護。如“彩鈴的資費”就是表達清晰的標(biāo)準(zhǔn)問描述。擴展問可以是步驟S23中的語義表達式的形式,也可以是普通語句的形式。在進行相似度計算時,可以是計算待錄入語句中的特征語句與數(shù)據(jù)庫中的特征語句的相似度,即,可以是計算待錄入語句中的特征語句與標(biāo)準(zhǔn)問的相似度,也可以是計算待錄入語句中的特征語句與擴展問的相似度,當(dāng)擴展問的形式為語義表達式時,即可采用步驟S21至步驟S23進行語義相似度的計算。
語義表達式可以由詞語、詞語的詞類以及它們的“或”關(guān)系構(gòu)成。詞類可以為一組有共性的詞,這些詞在語義上可以相似也可以不相似,這些詞也可以被標(biāo)注為重要或不重要。詞類中包括的詞通常是預(yù)設(shè)的。
語義表達式與待匹配句子的關(guān)系與傳統(tǒng)的模板匹配有了很大的不同,在傳統(tǒng)模板匹配中,模板和待匹配句子只是匹配與未匹配的關(guān)系,而語義表達式與待匹配句子之間關(guān)系是通過量化的值(相似度)來表示。
語義表達式可以用預(yù)設(shè)的不同的符號來標(biāo)識詞類、詞類的重要性、詞類之間的順序限定等等,以進行更為準(zhǔn)確的相似度計算。
例如,可以利用“[]”標(biāo)識詞類,出現(xiàn)在“[]”中的詞為詞類,例如簡單語義表達式可以如下:[飛信][如何][開通]、[飛信]的[登錄][方法]。
可以用(|)表示或的關(guān)系,在方括號中的詞類可以通過“或”關(guān)系出現(xiàn)多次,這些“或”關(guān)系的詞類會在計算相似度的時候以“展開”的方式單獨計算?!罢归_”主要是根據(jù)“或”的意義將語義表達式展開成多個簡單表達式的過程。如:[彩鈴][開通]的[方法|步驟]可展開成“[彩鈴][開通]的[步驟]”和“[彩鈴][開通]的[方法]”兩個簡單的語義表達式。
可以在“[]”內(nèi)的詞類的結(jié)尾加入“?”表示可出現(xiàn)也可以不出現(xiàn),即非必要的關(guān)系,這種非必要關(guān)系的詞類也同樣會在計算相似度的時候以“展開”的方式單獨計算?!罢归_”主要是將語義表達式中含有非必要的詞類(或詞類的“或組合”)展開成包含和不包含這個詞類的兩個簡單語義表達式的過程。
例如:[介紹][手機視頻][軍事欄目][內(nèi)容][什么?]可展開成“[介紹][手機視頻][軍事欄目][內(nèi)容]”和“[介紹][手機視頻][軍事欄目][內(nèi)容][什么]”。
語義表達式可以利用預(yù)設(shè)的符號可以表達語義增強,例如可以利用“&”表示,在語義表達式的最左邊出現(xiàn)“&”符號,可以在相似度計算中提高語義表達式內(nèi)詞類的權(quán)重。這類語義表達式往往可忽略語義表達式中更多的詞,匹配范圍可以更廣泛。這類語義表達式的示例如下:&[手機視頻][優(yōu)惠包|優(yōu)惠]、&[全網(wǎng)音樂盒][星光熠熠][1元][套餐]、&[17951][移動IP電話][業(yè)務(wù)?]、&[IP?][直通車][業(yè)務(wù)?]。
語義表達式可以利用預(yù)設(shè)的符號來表達有序,例如可以利用“()”。多個詞按照不同的順序排列組合在一起后所表達的語義可能會是同一個意思,也可能是完全不同的意思。如下:“怎么辦理彩鈴”和“彩鈴怎么辦理”所表達的語義都是彩鈴的辦理方法。我們可以將語義表達式寫成[怎么][辦理][彩鈴],這個語義表達式包含上述的兩種問法。
但是“美元兌換人民幣匯率”和“人民幣兌換美元匯率”用同樣的詞所組成,但是所表達的語義卻是不同的,在智能交互過程中需要針對這兩個問題給出正確的回復(fù)。那此時需要使用()來表示詞的有序組合的語義。如上述:美元兌換人民幣匯率的語義表達式為([美元][兌換][人民幣])[匯率]人民幣兌換美元匯率的語義表達式為([人民幣][兌換][美元])[匯率]
語義表達式也可以利用預(yù)設(shè)的符號表示局部加強詞類權(quán)重,例如可以利用“*”,以如下格式進行:“[]*”,將“*”前“[]”內(nèi)的詞類標(biāo)注為重點詞。
語義表達式還可以利用預(yù)設(shè)的符號表示命名實體,命令實體為系統(tǒng)在實體識別過程中提取的語義信息,可以看作是一種特殊的詞類,但這種詞類一般都是一個無限集合,比如時間、手機號碼等,這些詞類并不是詞類庫中存在的詞類,因此為了區(qū)分和普通詞類的區(qū)別,可以在“[]”中詞類的前邊加上“@”符號表示。這類語義表達式的示例如下:[查詢][@手機號碼][歸屬地]、[@時間]是[農(nóng)歷][幾號]、[計算][@表達式]等于多少[查詢][@月份]的[話費]。
通過對比待錄入語句中的特征語句與語義表達式,可以更為精確的得到所述語義相似度。
繼續(xù)參照圖1,本發(fā)明實施例中的數(shù)據(jù)錄入方法還可以包括:
步驟S13,若所述待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度大于預(yù)設(shè)的相似度閾值,則生成提醒信息以對錄入數(shù)據(jù)的用戶進行提醒。
若所述特征語句與所述數(shù)據(jù)庫中的語句的語義相似度大于預(yù)設(shè)的相似度閾值,則說明數(shù)據(jù)庫中可能包含與待錄入語句對應(yīng)的知識點,此時生成提醒信息對錄入數(shù)據(jù)的用戶進行提醒,可以為錄入用戶提供更加多樣化的選擇。
在自然語言處理領(lǐng)域,自然人對語義的判斷通常比程序化的判斷更準(zhǔn)確,故通過提醒錄入數(shù)據(jù)的用戶,由錄入數(shù)據(jù)的用戶基于提醒進行再次判斷,錄入用戶可以選擇繼續(xù)錄入待錄入語句,或可以放棄錄入待錄入語句,故既可以避免知識點的重復(fù)錄入,也可以避免知識點錄入的遺漏。
提醒信息可以簡單提醒錄入數(shù)據(jù)的用戶數(shù)據(jù)庫中已包含該知識點,或者也可以生成可選的下步操作的提醒信息。
例如,可以提供錄入用戶放棄錄入的選擇,或者也可以提供用戶繼續(xù)進行錄入操作的選擇。
當(dāng)知識點包括標(biāo)準(zhǔn)問和擴展問時,也可以生成提醒信息,以提示用戶將所述待錄入語句中的特征語句作為數(shù)據(jù)庫中與所述待錄入語句的待錄入語句的語義相似度最高的標(biāo)準(zhǔn)問的擴展問。數(shù)據(jù)庫中的特征語句中可以包含上述標(biāo)準(zhǔn)問和擴展問。
可以理解的是,若所述待錄入語句與所述數(shù)據(jù)庫中的語句的語義相似度大于預(yù)設(shè)的相似度閾值,也可以不經(jīng)提醒,直接將所述待錄入語句中的特征語句作為數(shù)據(jù)庫中與所述待錄入語句的待錄入語句的語義相似度最高的標(biāo)準(zhǔn)問的擴展問。
如前所述,知識點可以包括特征語句和解釋語句,在本發(fā)明一實施例中,待錄入語句中僅包含特征語句時,可以依照如下步驟進行數(shù)據(jù)錄入(參見圖3):
步驟S31,對待錄入數(shù)據(jù)庫的待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算,其中,所述數(shù)據(jù)庫包括知識點,所述特征語句用于標(biāo)識所述待錄入語句;
步驟S32,若所述待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度小于預(yù)設(shè)的相似度閾值,則根據(jù)所述待錄入語句的特征語句生成新的知識點的特征語句;
步驟S33,錄入所述新的知識點的特征語句至數(shù)據(jù)庫;
步驟S34,提醒錄入數(shù)據(jù)的用戶輸入所述新的知識點的解釋語句。
其中,步驟S31的具體實現(xiàn)以及步驟S32中對相似度的判斷,可以參照圖1中的步驟S11和步驟S12,在此不再贅述。
生成的新的知識點的特征語句可以與待錄入語句中的特征語句相同,或者也可以不同于錄入語句中的特征語句,可以按照數(shù)據(jù)庫知識點的特征語句的需求進行。
在錄入所述新的知識點的特征語句至數(shù)據(jù)庫后,提醒錄入數(shù)據(jù)的用戶輸入的新的知識點的解釋語句,可以減少知識點中僅包含特征語句,而無對應(yīng)的解釋語句的情形。
在本發(fā)明另一實施例中,知識點包括特征語句和解釋語句,所述待錄入語句包括特征語句和解釋語句,則圖1中步驟S12中的根據(jù)所述待錄入語句生成新的知識點錄入所述數(shù)據(jù)庫可以包括:
拆分所述待錄入語句中的特征語句和解釋語句,將所述待錄入語句中的特征語句作為所述數(shù)據(jù)庫中的新的知識點中的特征語句,將所述待錄入語句中的解釋語句作為所述數(shù)據(jù)庫中的新的知識點中的解釋語句。
圖4是本發(fā)明實施例中另一種數(shù)據(jù)錄入方法的流程圖,包括步驟S41至步驟S46。
在步驟S41中,提取所述待錄入語句中的特征語句的關(guān)鍵詞組,以得到待錄入關(guān)鍵詞組;
在步驟S42中,提取所述數(shù)據(jù)庫中的語句的關(guān)鍵詞組,以得到已有關(guān)鍵詞組;
在步驟S43中,判斷已有關(guān)鍵詞組中是否包括所述待錄入關(guān)鍵詞組,當(dāng)所述已有關(guān)鍵詞組中未包括所述待錄入關(guān)鍵詞組時,執(zhí)行步驟S44;
在步驟S44中,對待錄入數(shù)據(jù)庫的待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算,其中,所述數(shù)據(jù)庫包括知識點,所述特征語句用于標(biāo)識所述待錄入語句;
在步驟S45中,若所述待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度小于預(yù)設(shè)的相似度閾值,則根據(jù)所述待錄入語句生成新的知識點錄入所述數(shù)據(jù)庫。
步驟S44以及步驟S45的具體實現(xiàn)可以參照圖1中步驟S11和步驟S12,在此不再贅述。
在具體實施中,當(dāng)在步驟S43中判斷所述已有關(guān)鍵詞組中包括所述待錄入關(guān)鍵詞組時,則可以執(zhí)行步驟S46,生成提醒信息以對錄入數(shù)據(jù)的用戶進行提醒。
在步驟S46的具體實施中,生成提醒信息以對錄入數(shù)據(jù)的用戶進行提醒可以包括提醒用戶待錄入語句中的特征語句已重復(fù),也可以包括提醒用戶選擇是否將待錄入語句作為與數(shù)據(jù)庫中最大語義相似度的標(biāo)準(zhǔn)問的擴展問進行錄入。
在本發(fā)明實施例中,對待錄入數(shù)據(jù)庫的待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算,由于特征語句用于標(biāo)識待錄入語句,故通過比較待錄入語句和數(shù)據(jù)庫中的語句的語義相似度,即可確定數(shù)據(jù)庫中是否已包含與待錄入語句對應(yīng)的知識點。當(dāng)待錄入語句的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度小于預(yù)設(shè)的相似度閾值時,說明數(shù)據(jù)庫中未包含與待錄入語句對應(yīng)的知識點,此時對根據(jù)待錄入語句生成新的知識點錄入數(shù)據(jù)庫,可以對數(shù)據(jù)庫進行完善,并且避免重復(fù)錄入,進而可以數(shù)據(jù)庫中知識點的重復(fù)。避免重復(fù)錄入也可以提升數(shù)據(jù)錄入方法的錄入效率。
本發(fā)明實施例還提供一種數(shù)據(jù)錄入系統(tǒng),其結(jié)構(gòu)示意圖參見圖5,具體可以包括:
語義相似度計算單元51,適于對待錄入數(shù)據(jù)庫的待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算,其中,所述數(shù)據(jù)庫包括知識點,所述特征語句用于標(biāo)識所述待錄入語句;
新的知識點錄入單元52,適于若所述待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度小于預(yù)設(shè)的相似度閾值,則根據(jù)所述待錄入語句生成新的知識點錄入所述數(shù)據(jù)庫。
對待錄入數(shù)據(jù)庫的待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算,由于特征語句用于標(biāo)識待錄入語句,故通過比較待錄入語句和數(shù)據(jù)庫中的語句的語義相似度,即可確定數(shù)據(jù)庫中是否已包含與待錄入語句對應(yīng)的知識點。當(dāng)待錄入語句的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度小于預(yù)設(shè)的相似度閾值時,說明數(shù)據(jù)庫中未包含與待錄入語句對應(yīng)的知識點,此時對根據(jù)待錄入語句生成新的知識點錄入數(shù)據(jù)庫,可以對數(shù)據(jù)庫進行完善,并且避免重復(fù)錄入,進而可以數(shù)據(jù)庫中知識點的重復(fù)。避免重復(fù)錄入也可以提升數(shù)據(jù)錄入方法的錄入效率。
在具體實施中,所述數(shù)據(jù)錄入系統(tǒng)還可以包括:第一提醒單元53,適于若所述待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句的語義相似度大于預(yù)設(shè)的相似度閾值,則生成提醒信息以對錄入數(shù)據(jù)的用戶進行提醒。
若所述特征語句與所述數(shù)據(jù)庫中的語句的語義相似度大于預(yù)設(shè)的相似度閾值,則說明數(shù)據(jù)庫中可能包含與待錄入語句對應(yīng)的知識點,此時生成提醒信息對錄入數(shù)據(jù)的用戶進行提醒,可以為錄入用戶提供更加多樣化的選擇。在自然語言處理領(lǐng)域,自然人對語義的判斷通常比程序化的判斷更準(zhǔn)確,故通過提醒錄入數(shù)據(jù)的用戶,由錄入數(shù)據(jù)的用戶基于提醒進行再次判斷,錄入用戶可以選擇繼續(xù)錄入待錄入語句,或可以放棄錄入待錄入語句,故即可以避免知識點的重復(fù)錄入,也可以避免知識點錄入的遺漏。
在具體實施中,所述知識點可以包括標(biāo)準(zhǔn)問和擴展問;所述數(shù)據(jù)錄入系統(tǒng)還可以包括擴展問錄入單元54,適于若所述待錄入語句與所述數(shù)據(jù)庫中的語句的語義相似度大于預(yù)設(shè)的相似度閾值,則將所述待錄入語句中的特征語句作為數(shù)據(jù)庫中與所述待錄入語句的特征語句的語義相似度最高的標(biāo)準(zhǔn)問的擴展問。
在具體實施中,所述知識點可以包括特征語句和解釋語句,所述待錄入語句僅包括特征語句;所述新的知識點錄入單元52可以包括:
新的知識點的特征語句生成子單元,適于根據(jù)所述待錄入語句的特征語句生成新的知識點的特征語句;
新的知識點的特征語句錄入子單元,適于錄入所述新的知識點的特征語句至數(shù)據(jù)庫;
解釋語句提醒子單元,適于提醒錄入數(shù)據(jù)的用戶輸入所述新的知識點的解釋語句。
在具體實施中,所述知識點可以包括特征語句和解釋語句,所述待錄入語句包括特征語句和解釋語句;所述新的知識點錄入單元52適于:拆分所述待錄入語句中的特征語句和解釋語句,將所述待錄入語句中的特征語句作為所述數(shù)據(jù)庫中的新的知識點中的特征語句,將所述待錄入語句中的解釋語句作為所述數(shù)據(jù)庫中的新的知識點中的解釋語句。
在具體實施中,數(shù)據(jù)錄入系統(tǒng)還可以包括:
待錄入關(guān)鍵詞組提取單元55,適于進行語義相似度計算之前提取所述待錄入語句中的特征語句的關(guān)鍵詞組,以得到待錄入關(guān)鍵詞組;
已有關(guān)鍵詞組提取單元57,適于提取所述數(shù)據(jù)庫中的語句的關(guān)鍵詞組,以得到已有關(guān)鍵詞組;
執(zhí)行單元56,適于當(dāng)所述已有關(guān)鍵詞組中未包括所述待錄入關(guān)鍵詞組時,執(zhí)行所述語義相似度計算。
在具體實施中,數(shù)據(jù)錄入系統(tǒng)還可以包括:第二提醒單元58,適于當(dāng)所述已有關(guān)鍵詞組中未包含所述待錄入關(guān)鍵詞組時,則生成提醒信息以對錄入數(shù)據(jù)的用戶進行提醒。
在具體實施中,可以通過爬蟲爬取的數(shù)據(jù)生成所述待錄入語句,或基于人工客服問答語句生成所述待錄入語句。
參見圖6,在具體實施中,圖5中語義相似度計算單元51可以包括:
分詞處理子單元61,適于對所述待錄入語句中的特征語句進行分詞處理,以得到分詞后的詞語;
篩選子單元62,適于根據(jù)對待錄入語句中的特征語句的語義影響值,對所述分詞后的詞語進行篩選,以得到篩選后的詞語;
匹配子單元63,適于匹配所述篩選后的詞語和所述知識點中的語義表達式,以得到所述語義相似度。
在具體實施中,所述篩選子單元62適于去除語氣詞以及助詞。
本發(fā)明實施例還提供一種數(shù)據(jù)庫,所述數(shù)據(jù)庫包括知識點,且所述數(shù)據(jù)庫中的知識點的至少一部分通過前述的數(shù)據(jù)錄入方法錄入,所述數(shù)據(jù)庫用于支持智能交互過程。
在自然語言處理系統(tǒng)中,若出現(xiàn)錄入知識點存在意思相同但表述不同的情況,加載到引擎后,會造成引擎在匹配知識點無法區(qū)分正確的知識點情況,有概率給出錯誤的知識點回答,并會降低交互過程的效率,同時也會在維護上造成不使用者在編輯知識點時產(chǎn)生知識點建設(shè)重復(fù),耗費人力。
故利用以本發(fā)明錄入方法維護或建立的數(shù)據(jù)庫對人機交互過程進行支持時,由于本發(fā)明實施例中的數(shù)據(jù)錄入方法可以避免重復(fù)錄入,故可以減少數(shù)據(jù)庫中知識點的重復(fù),進而可以提升人機交互過程的效率。
在新建數(shù)據(jù)庫時,也即在數(shù)據(jù)庫中未包含語句時,對待錄入數(shù)據(jù)庫的待錄入語句中的特征語句與所述數(shù)據(jù)庫中的語句進行語義相似度計算的計算結(jié)果可以設(shè)為小于相似度閾值。
本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:ROM、RAM、磁盤或光盤等。
雖然本發(fā)明披露如上,但本發(fā)明并非限定于此。任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動與修改,因此本發(fā)明的保護范圍應(yīng)當(dāng)以權(quán)利要求所限定的范圍為準(zhǔn)。