專利名稱:一種聊天機(jī)器人的制作方法
技術(shù)領(lǐng)域:
本實用新型涉及智能機(jī)器人領(lǐng)域,特別涉及一種聊天機(jī)器人。
背景技術(shù):
在很多公眾場合,設(shè)置了一些用于信息查詢的終端。其一般是由觸摸屏和電腦一起構(gòu)成。由用戶通過觸摸來進(jìn)行查詢或者用鼠標(biāo)、鍵盤來進(jìn)行查詢,不能直接通過會話來進(jìn)行信息查詢。具有語音功能的設(shè)備也通常是機(jī)器設(shè)有用于播放語音的電路,如申請?zhí)枮?00910248546. 8的中國專利申請,公開了一種自助收費(fèi)機(jī),由主控單元(工控機(jī))與外圍功能模塊組成,其包括有運(yùn)營狀態(tài)顯示器、維護(hù)顯示器、維護(hù)鍵盤、操作顯示器、紅外觸摸屏,連接方式包括串口、USB、LVDS、VGA和以太網(wǎng)接口。該設(shè)備缺少通過對話來進(jìn)行信息交互的 功能。因此,需要提供一種可直接通過對話來進(jìn)行信息交互設(shè)備,滿足不同使用者的交互需求。
實用新型內(nèi)容本實用新型的目的是克服現(xiàn)有技術(shù)存在的上述不足,提供一種聊天機(jī)器人,可以實現(xiàn)人與聊天機(jī)器人的直接對話,可應(yīng)用于公眾場合用于咨詢,具體技術(shù)方案如下。一種聊天機(jī)器人,其包括攝像頭、攝像頭驅(qū)動模塊、語音拾取模塊和用于實現(xiàn)語音識別、知識查詢、語音生成的計算機(jī);所述語音拾取模塊為麥克風(fēng),用于拾取語音信號;所述攝像頭用于捕獲人臉圖像;所述攝像頭的個數(shù)為2個。所述攝像頭共有5個自由度。與現(xiàn)有技術(shù)相比,本實用新型具有以下有益效果所述的聊天機(jī)器人具有視、聽、說、記憶功能。只要用戶和它對過一次話,它就能記住用戶的聲音,見過一次面便能認(rèn)識用戶。它可以24小時晝夜地進(jìn)行簡單的對話和服務(wù)。聊天機(jī)器人具有語音識別和理解能力,它能夠聽懂用戶的指令,具有較強(qiáng)的聊天功能。聊天機(jī)器人可以掌握了多種不同國家的語言,既可以是導(dǎo)游,又是翻譯,并且能夠辦理各種業(yè)務(wù),例如接待報案,查詢資料等。
圖I是實施方式中會話機(jī)器人的組成框圖。圖2是實施方式中語義知識的三元組表示法的示意圖。圖3是實施方式中基于模式匹配的語音識別的原理方框圖。圖4是實施方式中語音合成模塊框架圖。
具體實施方式
以下結(jié)合附圖對本實用新型的實施作進(jìn)一步說明,但本實用新型的實施不限于此。如圖I所示,一種聊天機(jī)器人,包括攝像頭及其驅(qū)動模塊、語音拾取模塊、語音識別模塊、知識查詢模塊、語音生成模塊;攝像頭捕獲人臉圖像,語音信號經(jīng)由語音拾取模塊和語音識別模塊后識別出語義,所述聊天機(jī)器人根據(jù)人的語音來了解人的需求,然后通過知識查詢模塊來形成會話語句,再通過語音生成模塊生成語音與人進(jìn)行交流。本實施例中,聊天機(jī)器人包括I臺高性能PC機(jī)、2個CXD攝像頭、5個直流伺服電機(jī)、I塊雙通道圖像輸入板和I塊數(shù)據(jù)采集卡、I個麥克風(fēng)和2個揚(yáng)聲器,2個CXD攝像頭共有5個自由度(由5個直流伺服電機(jī)控制),可以模仿人的兩個眼睛上、下、左、右運(yùn)動,也可以像人脖子一樣作旋轉(zhuǎn)運(yùn)動,追蹤人臉。當(dāng)用戶走入2個攝像頭的攝像區(qū)域時,通過攝像頭驅(qū)動模塊始終把用戶分別定位在2個攝像頭的取像中心,就像人的一雙眼睛。通過麥克風(fēng)(語音拾取模塊)拾取語音信號并轉(zhuǎn)換成數(shù)字信號后進(jìn)行語音識別。語音拾取模塊、語音識別模塊、知識查詢模塊、語音生成模塊可通過計算機(jī)來實現(xiàn)。音識別模塊語音識別模塊通過識別把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)文本。目前,大多數(shù)語音識別系統(tǒng)都采用了模式匹配的原理。根據(jù)這個原理,未知語音的模式要與已知語音的參考模式逐一進(jìn)行比較,最佳匹配的參考模式被作為識別結(jié)果。如圖3,待識別語音經(jīng)過話筒變換成圖中語音信號后加在識別系統(tǒng)輸入端,先經(jīng)過預(yù)處理。預(yù)處理包括語音信號采樣、反混疊帶通濾波器、去除個體發(fā)音差異的設(shè)備、環(huán)境引起的噪聲影響等,涉及到語音識別基元的選取和端點(diǎn)檢測問題,有時還包括模數(shù)轉(zhuǎn)換器。特征提取部分用于提取語音中反映本質(zhì)特征的聲學(xué)參數(shù),常用的特征有短時平均能量或幅度、短時平均過零率、短時自相關(guān)函數(shù)、線性預(yù)測系數(shù)、清音/濁音標(biāo)志、基音頻率、短時傅立葉變換、倒譜、共振峰等。訓(xùn)練在識別之前進(jìn)行,是通過讓講話者多次重復(fù)語音,從原始語音樣本中去除冗余信息,保留關(guān)鍵數(shù)據(jù),再按規(guī)則對數(shù)據(jù)加以聚類,形成模式庫。模式匹配是整個語音識別系統(tǒng)的核心,是根據(jù)一定的準(zhǔn)則以及專家知識,計算機(jī)輸入特征與庫存模式之間的相似度,判斷出輸入語音的語意信息。模型訓(xùn)練是指按照一定準(zhǔn)則,從大量已知模式中提取表示該模式特征的模型參數(shù)。模式匹配是指根據(jù)一定準(zhǔn)則,使未知模式與模型庫中某一模型獲得最佳匹配。語音技術(shù)所應(yīng)用中主流的模型訓(xùn)練和模式匹配技術(shù)有以下幾種(I)動態(tài)時間規(guī)整匹配(Dynamic Time Warping,DTW)算法時間規(guī)整即時間校正,是把一個單詞內(nèi)的時變特征變?yōu)橐恢碌倪^程。在規(guī)整過程中,未知單詞的時間軸要不均勻地扭曲或變折,以便使其特征與模型特征對比,是一個最為小巧的語音識別算法,其系統(tǒng)開銷小,識別速度快,在對付小詞匯量的語音命令控制系統(tǒng)中效率較高,但是,如果系統(tǒng)稍微復(fù)雜一些,這種算法就顯得力不從心。(2)隱馬爾克夫模型(Hidden Markov Model,HMM):采用語言信號時變特征的參數(shù)表示法,由相互關(guān)聯(lián)的兩個隨機(jī)過程共同描述信號的統(tǒng)計特性。采用HMM這種技術(shù),要以一個具有有限不同狀態(tài)的系統(tǒng)作為語音生成模型,每個狀態(tài)皆可產(chǎn)生有限個輸出,直到整個單詞輸出完畢,狀態(tài)之間的轉(zhuǎn)移是隨機(jī)的,每個狀態(tài)下的輸出也是隨機(jī)的,由于允許隨機(jī)轉(zhuǎn)移和隨機(jī)輸出,所以HMM能適應(yīng)發(fā)音的各種微妙變化。HMM方法很好地解決了分類以及訓(xùn)練上的困難,維特比(Viterbi)搜索語音識別算法解決了時間軸的規(guī)一化問題。HMM是把未知量均勻地伸長或縮短,直到它與參考模式的長度一致時為止,這是一種非常有力的措施,對提聞系統(tǒng)的識別精度極為有效。(3)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Net ANN):神經(jīng)網(wǎng)絡(luò)的概念也已經(jīng)被應(yīng)用于語音識別中,其中最有效的一種方法是使用多層神經(jīng)網(wǎng)絡(luò),多層神經(jīng)網(wǎng)絡(luò)不僅輸入節(jié)點(diǎn)、輸出節(jié)點(diǎn),而且有一層或多層隱節(jié)點(diǎn)。利用神經(jīng)網(wǎng)絡(luò)的記憶功能和快速響應(yīng)特性,將語音信號提取出來的特征值輸入到神經(jīng)網(wǎng)絡(luò)中進(jìn)行長時間訓(xùn)練,得到節(jié)點(diǎn)間連接權(quán)值。自組織神經(jīng)網(wǎng)絡(luò)能完成對輸入樣本的分類和聚類功能,但在其輸出層并不能直觀表現(xiàn)出來,需要對其進(jìn)行模式標(biāo)識。對于只對某類樣本產(chǎn)生響應(yīng)的神經(jīng)元,直接將其標(biāo)識為與該類輸入樣本所對應(yīng)的模式類;對于邊界神經(jīng)元則采用上述邊界神經(jīng)元的處理方法標(biāo)識;對于未對任何輸入類產(chǎn)生響應(yīng)的神經(jīng)元,直接屏蔽。這樣,當(dāng)新的樣本輸入時,就能夠直觀的從輸出層讀出輸入樣本屬于哪個模式類。自然語言是人類日常所用的語言,是人類在其社會生活中發(fā)展出來的用來互相交際的聲音符號系統(tǒng),如漢語、英語、日語等。自然語言是個十分復(fù)雜的符號系統(tǒng),符號的形式和其所表達(dá)的意義由社會所約定,而且隨著社會的發(fā)展而不斷變化發(fā)展。自然語言理解作為語言信息處理技術(shù)的一個高層次的重要方向,一直是人工智能界所關(guān)注的核心課題之一。從微觀上看,自然語言理解是自然語言系統(tǒng)到計算機(jī)的系統(tǒng)內(nèi)部表示之間的映射;從宏觀上看,它是指計算機(jī)能夠依照某些的規(guī)則來執(zhí)行人類所期望的某些語言功能。·[0021]在漢語的書寫表達(dá)中,字詞之間是連著的,各個詞語在句子中沒有顯式的標(biāo)記。理解漢語的首要任務(wù)就是把連續(xù)的漢字串分割成詞的序列,即中文分詞。中文分詞可分為以下三種形式(I)機(jī)械分詞。機(jī)械分詞是基于字符串匹配原理,需要分詞詞典作為分詞的依據(jù),詞典的結(jié)構(gòu)以及詞典中詞的個數(shù)直接影響分詞的準(zhǔn)確度和效率。按照掃描方向可分為正向掃描,反向掃描和雙向掃描;按匹配原則可分為最大匹配法和最小匹配法。機(jī)械分詞算法簡單,對詞典建立索引,能有效地提高分詞速度,但這種分詞方法并不能很好地消除歧義,還需和其它方法結(jié)合一起,進(jìn)一步提高分詞精度。(2)統(tǒng)計分詞。統(tǒng)計分詞是以概率論為理論基礎(chǔ)的,將漢語文本中漢字串的出現(xiàn)抽象為一隨機(jī)過程,其中,隨機(jī)過程中的參數(shù)可以通過大規(guī)模的漢語語料庫來訓(xùn)練得出。待分詞的字串C=C1C2. . . Cn,輸出的詞串W=W1W2. . . Wn,其中m彡η。對于一個特定的C會有多個W對應(yīng),統(tǒng)計分詞的任務(wù)就是在這些W中找出概率最大的一個,即求W,使P (WI C)的值最大。根據(jù)貝葉斯公式可以得到P (WI C) =P (CI ff) *P (W) /P (C),其中P (C)是固定值,從詞串恢復(fù)至IJ漢字串的概率P(c|w)=l。由此求解問題可以變換為在全切分所得的所有結(jié)果中求出某個W,使得P(W)為最大。N-gram模型是最基本的統(tǒng)計語言模型,用常用的二元模表示P (W),gpP (W) =P (W1) *P (w21W1) *· · · *P (wm I Wm^1)。(3)知識分詞。知識分詞也稱為規(guī)則分詞,它不僅僅是使用詞典的匹配,還運(yùn)用語法、句法和語義方面的知識進(jìn)一步分詞處理。知識分詞需要設(shè)計一個語法語義知識庫,通過庫中所定義的規(guī)則來分詞處理。漢語的詞法句法規(guī)則復(fù)雜,建立一個適用的知識庫難度大,花時間長,因此知識分詞至今難以適用于大規(guī)模真實文本處理,有待進(jìn)一步研究。知識是人們在改造客觀世界的過程中積累起來的經(jīng)驗及其總結(jié)升華的產(chǎn)物。知識是一切智能行為的基礎(chǔ),是人工智能的重要研究內(nèi)容。要使計算機(jī)具有智能,就必須使它具有知識。適當(dāng)選擇和正確使用知識表示方法可以極大地提高人工智能問題求解的效率。從計算機(jī)角度看,自然語言中的詞和句子只是保存在內(nèi)存中孤立的符號串常量,沒特殊的意義。如果按照某種規(guī)則或結(jié)構(gòu)組織這些字符串,轉(zhuǎn)換成便于計算機(jī)程序處理的結(jié)構(gòu),那么計算機(jī)程序經(jīng)過搜索、關(guān)聯(lián)、判斷、推理、替代等處理后,再以自然語言表達(dá)方式輸出,可以認(rèn)為計算機(jī)具備一定的智能性。目前語義知識的表示可以采用以下幾種方法。(I)邏輯表示法。使用邏輯法表示知識,需將以自然語言描述的知識,通過引入謂詞、函數(shù)來加以形式描述,獲得有關(guān)邏輯公式,進(jìn)而以機(jī)器內(nèi)部代碼表示。其中項是描述世界中的物體的常量,包括抽象事物;謂詞是描述關(guān)系和屬性的常量;關(guān)系邏輯運(yùn)算有合取(Λ)、析取(V)、否定( )、條件(一)、雙條件O;量詞有全稱量詞(V )和存在量詞(3 )。采用歸結(jié)或其它方法進(jìn)行推理。(2)產(chǎn)生式表示法。產(chǎn)生式表示法容易描述事實、規(guī)則以及它們的不確定性度量。產(chǎn)生式系統(tǒng)由知識庫和推理機(jī)兩部分組成,其中知識庫由規(guī)則庫和數(shù)據(jù)庫組成。規(guī)則庫是產(chǎn)生式規(guī)則的集合,數(shù)據(jù)庫是事實的集合。規(guī)則庫是以某個領(lǐng)域知識的存儲器,規(guī)則是用產(chǎn)生式表示,包含著從初始態(tài)到最終解決狀態(tài)的轉(zhuǎn)換規(guī)則。數(shù)據(jù)庫存放輸 入的事實、外部數(shù)據(jù)庫輸入的事實以及中間結(jié)果。推理機(jī)是控制程序,包含推理方式和控制策略。其推理方式包含三種正向推理,反向推理和雙向推理。產(chǎn)生式表示形式固定,形式簡單,規(guī)則鍵相互較為獨(dú)立,而且知識庫和推理規(guī)則相分離,能夠獨(dú)立地的修改知識庫,由此產(chǎn)生式表示常用于專家系統(tǒng)建造時所采用。(3)語義網(wǎng)絡(luò)表示法。一個語義網(wǎng)絡(luò)是以有向圖的三元組(結(jié)點(diǎn)A,弧,標(biāo)注R,結(jié)點(diǎn)B)連結(jié)而成,如圖2所示。結(jié)點(diǎn)表示概念、事物、事件、情況等;弧是有方向的有標(biāo)注的,方向表示主次,結(jié)點(diǎn)A為主’結(jié)點(diǎn)B為次,而標(biāo)注R表示結(jié)點(diǎn)A的屬性或結(jié)點(diǎn)A和結(jié)點(diǎn)B之間的關(guān)系。語義網(wǎng)絡(luò)能夠表示事物之間的繼承、補(bǔ)充、變異、細(xì)化等關(guān)系,而且直觀易懂,很容易用于推理,得到廣泛應(yīng)用。(4)框架表示法??蚣芾碚摰幕居^點(diǎn)是人腦以存儲大量的典型情景,當(dāng)人面臨新的情景時,就從記憶中選擇一個稱作框架的基本知識結(jié)構(gòu),這個框架是以前記憶的一個知識空框,而具體的內(nèi)容以新的情景而改變,對這空框的細(xì)節(jié)加工修改和補(bǔ)充,形成對新情景的認(rèn)識又記憶于人腦中??蚣苁怯扇舾蓚€結(jié)點(diǎn)和關(guān)系(統(tǒng)稱為槽)構(gòu)成的網(wǎng)絡(luò),表示某一類情景的結(jié)構(gòu)化的一種數(shù)據(jù)結(jié)構(gòu)??蚣苡煽蚣苊鸵恍┎劢M成,每個槽有一些值,槽的值可以是邏輯的、數(shù)字的,可以是程序、條件、默認(rèn)值或是子框架。框架表示法適應(yīng)性強(qiáng)、概括性高、結(jié)構(gòu)化良好、推理方式靈活、又能把陳述性知識與過程性知識相結(jié)合,但是框架方法不易表達(dá)過程性知識,所以在具體的系統(tǒng)中,它往往要和其它方法配合使用。知識查詢模塊人工智能問題的求解是以知識為基礎(chǔ)的,該模塊中知識庫規(guī)模大小一定程度上反映計算機(jī)的智能水平,但是人類的知識浩如煙海,表達(dá)形式各異,在現(xiàn)在的計算機(jī)技術(shù)限制下,不能夠把這些知識用規(guī)則形式全部表達(dá)出來。文字聊天模塊的知識庫可以分為詞典庫、規(guī)則庫、語義知識庫和常識庫。詞典庫主要用于分詞,包含有詞,詞義,詞性,以及詞頻等信息,同時也可以根據(jù)詞典庫里面的詞義來動態(tài)生成一些基本的語義知識。規(guī)則庫保存中文句子的語法規(guī)則,用規(guī)則判斷句子是否符合語法,也可以根據(jù)規(guī)則來構(gòu)造簡單的句子,規(guī)則可以動態(tài)增加。語義知識庫中記錄的語義知識主要就是語義關(guān)系知識,本質(zhì)上就是詞語之間的巨大的關(guān)系網(wǎng),通過這些關(guān)系網(wǎng)可以對詞語進(jìn)行替換,推導(dǎo)出深層次的語義。[0038]常識庫可以是人們?nèi)粘K玫闹R,也可以是特殊領(lǐng)域的專業(yè)知識,內(nèi)容最為廣泛,其形式可以是文字,圖片,聲音,視頻等。需要花費(fèi)大量的人力物力去獲取、建立常識庫以及保證每一條常識的正確性,由此常識庫的建立是一個長期的過程。常識庫的建立應(yīng)該獨(dú)立于程序設(shè)計,只要建立相關(guān)領(lǐng)域的常識庫,就能將聊天、教育和咨詢機(jī)器人應(yīng)用于該領(lǐng)域。由于常識庫數(shù)據(jù)量巨大,如何快速保存,建立索引,提高數(shù)據(jù)檢索的速度需要進(jìn)一步研究。知識庫的建立主要有手工建立,計算機(jī)程序自動建立和人機(jī)結(jié)合建立方式。一些基礎(chǔ)庫,如詞典庫,規(guī)則庫通過手工來建立,也可以到互聯(lián)網(wǎng)上獲取、改進(jìn)已有的知識庫資源。而那些常識庫,可以先通過計算機(jī)從互聯(lián)網(wǎng)直接獲取,再經(jīng)過人工檢查、修改,按照一定格式保存到數(shù)據(jù)庫中?;谧匀徽Z言的知識查詢是指用戶用自然語言在檢索系統(tǒng)中對查詢目標(biāo)進(jìn)行描述,系統(tǒng)從查詢文本中自動提取查詢條件、查詢目標(biāo)的關(guān)鍵特征等,按一定的規(guī)則和算法在數(shù)據(jù)庫中查找滿足條件的記錄作為查詢結(jié)果反饋給用戶。知識查詢需要預(yù)先設(shè)定一個或者多個特定知識庫,如特定專業(yè)課程,產(chǎn)品使用說明,企業(yè)的規(guī)章制度等。和聊天功能模塊不·同的是,知識查詢擅長于知識問答,而且答案要盡可能準(zhǔn)確,對于不能回答的問題,就回答“不知道”,而不是故意轉(zhuǎn)移話題。知識查詢對輸入的句子預(yù)處理與聊天功能模塊是相同的,也需要先進(jìn)行分詞、語法語義分析。為了能對用戶的提問做出正確地回答,首先需要知道用戶是針對什么進(jìn)行提問,也就是問題的類型是什么,同時還要明確最終給出的答案應(yīng)該滿足哪些要求。查詢過程中的問題類型疑問詞是確定問題類型及答案要求的主要依據(jù),因此在確定問題類型時,首先要找出問句中的疑問詞,根據(jù)疑問詞分析可能的答案類型。但是各疑問詞的辨別能力并不相同由疑問詞“哪里”可知是對“地點(diǎn)”進(jìn)行提問,它是“專用疑問詞”,但如果句中出現(xiàn)“什么”,就不能僅靠疑問詞來判斷類型,因為很多類型的問題都有這種“通用疑問詞”,必須借助于問句中的另一個詞(稱為“問題焦點(diǎn)”或“疑問修飾詞”)才能進(jìn)行正確的判斷。所謂“問題焦點(diǎn)”,就是問題中說明問題主要內(nèi)容的一個名詞或名詞性短語,而問題的主要內(nèi)容就是本實施例想要找到的答案需要滿足的條件。那么如何來確定“問題焦點(diǎn)”呢? 一般情況下,問題中的第一個名詞或名詞短語是問題焦點(diǎn)的可能性很大。問答系統(tǒng)的問句一般是由一句話構(gòu)成,首先取出該句中所有的名詞,然后根據(jù)疑問詞與句中名詞的位置信息進(jìn)行判定,通過對大量問題的觀察和統(tǒng)計,可以歸納出含有通用疑問詞時問題類型的判斷規(guī)則如下(I)如果疑問詞后緊跟著名詞或名詞短語,則可以將該名詞或名詞短語看作是問題焦點(diǎn);(2)如果疑問詞處于句子的末尾,則與該疑問詞距離最近的名詞或名詞短語可以看作是問題焦點(diǎn);(3)如果疑問詞后為動詞(如“是、為”等),則句子中最后出現(xiàn)的名詞或名詞短語可以看作是問題焦點(diǎn)。表I為問題類型及答案要求的對應(yīng)關(guān)系。表I
權(quán)利要求1.一種聊天機(jī)器人,其特征在于包括攝像頭、攝像頭驅(qū)動模塊、語音拾取模塊和用于實現(xiàn)語音識別、知識查詢、語音生成的計算機(jī);所述語音拾取模塊為麥克風(fēng),用于拾取語音信號;所述攝像頭用于捕獲人臉圖像;所述攝像頭的個數(shù)為2個。
2.根據(jù)權(quán)利要求I所述的聊天機(jī)器人,其特征在于所述攝像頭共有5個自由度。
專利摘要本實用新型公開了一種聊天機(jī)器人,包括攝像頭及其驅(qū)動模塊、語音拾取模塊、語音識別模塊、知識查詢模塊、語音生成模塊;攝像頭捕獲人臉圖像,語音信號經(jīng)由語音拾取模塊和語音識別模塊后識別出語義,所述聊天機(jī)器人根據(jù)人的語音來了解人的需求,然后通過知識查詢模塊來形成會話語句,再通過語音生成模塊生成語音與人進(jìn)行交流。該會話機(jī)器人系統(tǒng)具有語音識別和理解能力,能夠聽懂用戶的指令,可以應(yīng)用于學(xué)校、家庭、賓館、公司、機(jī)場、車站、碼頭、會議等地進(jìn)行教育、聊天、會話、咨詢等;此外,它還可以為用戶提供宣傳介紹、來訪接待、辦事查詢、文秘服務(wù)、外語翻譯等。
文檔編號G06F17/30GK202736475SQ20112050895
公開日2013年2月13日 申請日期2011年12月8日 優(yōu)先權(quán)日2011年12月8日
發(fā)明者肖南峰 申請人:華南理工大學(xué)