本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種會(huì)話數(shù)據(jù)處理、知識(shí)庫(kù)建立、優(yōu)化、交互方法及裝置。
背景技術(shù):
隨著計(jì)算機(jī)技術(shù)的普及,人們的生活已經(jīng)逐漸走入智能時(shí)代。不僅僅是電腦、手機(jī)、PAD等終端設(shè)備,人們的衣食住行等方方面面都開(kāi)始應(yīng)用智能交互技術(shù),例如,智能電視,智能導(dǎo)航,智能家居等。也就是說(shuō),智能交互技術(shù)將為人們生活的各個(gè)方面提供方便、快捷的服務(wù)。
通常情況下,智能交互系統(tǒng)在接收到用戶的輸入后,會(huì)根據(jù)用戶的輸入,向用戶反饋相應(yīng)的答案。
然而,上述智能交互系統(tǒng)經(jīng)常會(huì)出現(xiàn)無(wú)法向用戶反饋相應(yīng)內(nèi)容的情況,導(dǎo)致用戶體驗(yàn)較差。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明解決的問(wèn)題是如何減少無(wú)法向用戶反饋相應(yīng)內(nèi)容的情況出現(xiàn),提高智能交互系統(tǒng)的用戶體驗(yàn)。
為解決上述問(wèn)題,本發(fā)明提供一種會(huì)話數(shù)據(jù)的處理方法,所述方法包括:獲取多個(gè)待處理的會(huì)話數(shù)據(jù),每個(gè)所述待處理的會(huì)話數(shù)據(jù)包含若干個(gè)按時(shí)間排列的問(wèn)句;對(duì)每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第一個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第一分組;分別對(duì)屬于同一第一分組的每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第二個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第二分組;不斷重復(fù)上述語(yǔ)義聚類(lèi)處理的過(guò)程,分別對(duì)屬于同一第i分組的每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第i+1個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第i+1分組,直至獲得滿足預(yù)設(shè)條件的一個(gè)或多個(gè)葉子分組,其中,i為正整數(shù);基于語(yǔ)義聚類(lèi)處理的結(jié)果,根據(jù)每個(gè)所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組按照時(shí)間順序排列建立一場(chǎng)景會(huì)話序列。
可選地,所述待處理的會(huì)話數(shù)據(jù)是在日志或/和開(kāi)放數(shù)據(jù)中爬取到的。
可選地,將所爬取的會(huì)話數(shù)據(jù)中問(wèn)句的數(shù)目大于或等于第一閾值的會(huì)話數(shù)據(jù)作為所述待處理的會(huì)話數(shù)據(jù)。
可選地,所述預(yù)設(shè)條件包括:所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組中每個(gè)分組所包括的問(wèn)句的數(shù)目大于或等于第二閾值;所述葉子分組位于第j分組,j大于或等于第三閾值。
可選地,所述根據(jù)每個(gè)所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組按照時(shí)間順序排列建立一場(chǎng)景會(huì)話序列,包括:從所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組分別選取一問(wèn)句,將所選取的問(wèn)句按照時(shí)間順序排列作為對(duì)應(yīng)的場(chǎng)景會(huì)話序列。
可選地,所述場(chǎng)景會(huì)話序列包括:標(biāo)準(zhǔn)問(wèn)句及擴(kuò)展問(wèn)句;所述根據(jù)每個(gè)所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組按照時(shí)間順序排列建立一場(chǎng)景會(huì)話序列,包括:分別將所述葉子分組的語(yǔ)義及所述葉子分組對(duì)應(yīng)的所有上級(jí)分組的語(yǔ)義按照時(shí)間順序排列作為對(duì)應(yīng)的場(chǎng)景會(huì)話序列的標(biāo)準(zhǔn)問(wèn)句;將所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組中不同于所述語(yǔ)義的問(wèn)句作為對(duì)應(yīng)標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句。
本發(fā)明實(shí)施例還提供了一種知識(shí)庫(kù)的建立方法,所述知識(shí)庫(kù)包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案和問(wèn)題,所述方法包括:從場(chǎng)景會(huì)話庫(kù)中獲取知識(shí)點(diǎn)的問(wèn)題,所述場(chǎng)景會(huì)話庫(kù)包括上述任一種的會(huì)話數(shù)據(jù)的處理方法所獲得的場(chǎng)景會(huì)話序列,每個(gè)所述知識(shí)點(diǎn)至少對(duì)應(yīng)所述場(chǎng)景會(huì)話序列的一個(gè)分組,所述知識(shí)點(diǎn)的問(wèn)題至少包括所對(duì)應(yīng)的分組中的問(wèn)句;為每個(gè)所述知識(shí)點(diǎn)提供答案。
本發(fā)明實(shí)施例還提供了一種知識(shí)庫(kù)的優(yōu)化方法,所述知識(shí)庫(kù)包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括標(biāo)準(zhǔn)問(wèn)句和擴(kuò)展問(wèn)句;所述方法包括:從場(chǎng)景會(huì)話庫(kù)中查找與所述知識(shí)點(diǎn)對(duì)應(yīng)的場(chǎng)景會(huì)話序列,所述場(chǎng)景會(huì)話庫(kù)包含若干個(gè)按照上述任一種的會(huì)話數(shù)據(jù)的處理方法所獲得的場(chǎng)景會(huì)話序列,每個(gè)場(chǎng)景會(huì)話序列包括多個(gè)分組,每個(gè)分組包括多個(gè)問(wèn)句;計(jì)算所述知識(shí)點(diǎn)與對(duì)應(yīng)的場(chǎng)景會(huì)話序列中每個(gè)分組的語(yǔ)義相似度,當(dāng)所述語(yǔ)義相似度大于第五閾值時(shí),則將位于對(duì)應(yīng)分組中但未位于所述知識(shí)點(diǎn)的問(wèn)句作為擴(kuò)展問(wèn)句添加到所述知識(shí)點(diǎn)中。
本發(fā)明實(shí)施例還提供了一種智能問(wèn)答系統(tǒng)的交互方法,所述智能問(wèn)答系統(tǒng)包括:知識(shí)庫(kù)以及場(chǎng)景會(huì)話庫(kù),所述場(chǎng)景會(huì)話庫(kù)包含若干個(gè)按照上述任一種的會(huì)話數(shù)據(jù)的處理方法所獲得的場(chǎng)景會(huì)話序列;所述方法包括:當(dāng)接收到用戶問(wèn)句后,從所述知識(shí)庫(kù)中獲取與所述用戶問(wèn)句對(duì)應(yīng)的答案,以及從所述場(chǎng)景會(huì)話庫(kù)中獲取與所述用戶問(wèn)句關(guān)聯(lián)的全部或部分問(wèn)句;輸出與所述用戶問(wèn)句對(duì)應(yīng)的答案及關(guān)聯(lián)的問(wèn)句。
本發(fā)明實(shí)施例還提供了一種智能問(wèn)答系統(tǒng)的交互方法,所述智能問(wèn)答系統(tǒng)包括:知識(shí)庫(kù)以及場(chǎng)景會(huì)話庫(kù),所述場(chǎng)景會(huì)話庫(kù)包含若干個(gè)按照上述任一種的會(huì)話數(shù)據(jù)的處理方法所獲得的場(chǎng)景會(huì)話序列;所述方法包括:當(dāng)接收到的用戶問(wèn)句包含命名實(shí)體但未包含所述命名實(shí)體的屬性信息時(shí),從所述場(chǎng)景會(huì)話庫(kù)中獲取所述命名實(shí)體對(duì)應(yīng)的所有屬性信息,并生成屬性優(yōu)先級(jí);選取優(yōu)先級(jí)別最高的屬性作為所述用戶問(wèn)句中所述命名實(shí)體的屬性信息,從所述知識(shí)庫(kù)中獲取相應(yīng)的答案并發(fā)送給用戶。
本發(fā)明實(shí)施例還提供了一種會(huì)話數(shù)據(jù)的處理裝置,所述裝置包括:第一獲取單元,適于獲取多個(gè)待處理的會(huì)話數(shù)據(jù),每個(gè)所述待處理的會(huì)話數(shù)據(jù)包含若干個(gè)按時(shí)間排列的問(wèn)句;處理單元,適于對(duì)每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第一個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第一分組;分別對(duì)屬于同一第一分組的每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第二個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第二分組;不斷重復(fù)上述語(yǔ)義聚類(lèi)處理的過(guò)程,分別對(duì)屬于同一第i分組的每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第i+1個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第i+1分組,直至獲得滿足預(yù)設(shè)條件的一個(gè)或多個(gè)葉子分組,其中,i為正整數(shù);第一建立單元,適于基于語(yǔ)義聚類(lèi)處理的結(jié)果,根據(jù)每個(gè)所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組按照時(shí)間順序排列建立一場(chǎng)景會(huì)話序列。
可選地,所述第一獲取單元適于從日志或/和開(kāi)放數(shù)據(jù)中爬取所述待處理的會(huì)話數(shù)據(jù)。
可選地,所述第一獲取單元適于將所爬取的會(huì)話數(shù)據(jù)中問(wèn)句的數(shù)目大于或等于第一閾值的會(huì)話數(shù)據(jù)作為所述待處理的會(huì)話數(shù)據(jù)。
可選地,所述預(yù)設(shè)條件包括:所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組中每個(gè)分組所包括的問(wèn)句的數(shù)目大于或等于第二閾值;所述葉子分組位于第j分組,j大于或等于第三閾值。
可選地,所述第一建立單元包括:第一建立子單元,適于從所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組分別選取一問(wèn)句,將所選取的問(wèn)句按照時(shí)間順序排列作為對(duì)應(yīng)的場(chǎng)景會(huì)話序列。
可選地,所述第一建立單元建立的場(chǎng)景會(huì)話序列包括:標(biāo)準(zhǔn)問(wèn)句及擴(kuò)展問(wèn)句;所述第一建立單元包括:第二建立子單元,適于分別將所述葉子分組的語(yǔ)義及所述葉子分組對(duì)應(yīng)的所有上級(jí)分組的語(yǔ)義按照時(shí)間順序排列作為對(duì)應(yīng)的場(chǎng)景會(huì)話序列的標(biāo)準(zhǔn)問(wèn)句;第三建立子單元,適于將所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組中不同于所述語(yǔ)義的問(wèn)句作為所述對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句。
本發(fā)明實(shí)施例還提供了一種知識(shí)庫(kù)的建立裝置,所述知識(shí)庫(kù)包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案和問(wèn)題,所述裝置包括:第二獲取單元,適于從場(chǎng)景會(huì)話庫(kù)中獲取知識(shí)點(diǎn)的問(wèn)題,所述場(chǎng)景會(huì)話庫(kù)包括上述任一種的會(huì)話數(shù)據(jù)的處理裝置所獲得的場(chǎng)景會(huì)話序列,每個(gè)所述知識(shí)點(diǎn)至少對(duì)應(yīng)所述場(chǎng)景會(huì)話序列的一個(gè)分組,所述知識(shí)點(diǎn)的問(wèn)題至少包括所對(duì)應(yīng)的分組中的問(wèn)句;第二建立單元,適于為每個(gè)所述知識(shí)點(diǎn)提供答案。
本發(fā)明實(shí)施例還提供了一種知識(shí)庫(kù)的優(yōu)化裝置,所述知識(shí)庫(kù)包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括標(biāo)準(zhǔn)問(wèn)和擴(kuò)展問(wèn),所述裝置包括:查找單元,適于從場(chǎng)景會(huì)話庫(kù)中查找與所述知識(shí)點(diǎn)對(duì)應(yīng)的場(chǎng)景會(huì)話序列,所述場(chǎng)景會(huì)話庫(kù)包含若干個(gè)按照上述任一種的會(huì)話數(shù)據(jù)的處理裝置所獲得的場(chǎng)景會(huì)話序列,每個(gè)場(chǎng)景會(huì)話序列包括多個(gè)分組,每個(gè)分組包括多個(gè)問(wèn)句;計(jì)算單元,適于計(jì)算所述知識(shí)點(diǎn)與對(duì)應(yīng)的場(chǎng)景會(huì)話序列中每個(gè)分組的語(yǔ)義相似度;優(yōu)化單元,適于當(dāng)所述語(yǔ)義相似度大于第五閾值時(shí),則將位于對(duì)應(yīng)分組中但未位于所述知識(shí)點(diǎn)的問(wèn)句作為擴(kuò)展問(wèn)句添加到所述知識(shí)點(diǎn)中。
本發(fā)明實(shí)施例還提供了一種智能問(wèn)答系統(tǒng)的交互裝置,所述智能問(wèn)答系統(tǒng)包括:知識(shí)庫(kù)以及場(chǎng)景會(huì)話庫(kù),所述場(chǎng)景會(huì)話庫(kù)包含若干個(gè)按照上述任一種的會(huì)話數(shù)據(jù)的處理裝置所獲得的場(chǎng)景會(huì)話序列;所述裝置包括:第三獲取單元,適于當(dāng)接收到用戶問(wèn)句后,從所述知識(shí)庫(kù)中獲取與所述用戶問(wèn)句對(duì)應(yīng)的答案,以及從所述場(chǎng)景會(huì)話庫(kù)中獲取與所述用戶問(wèn)句關(guān)聯(lián)的問(wèn)句;輸出單元,適于輸出與所述用戶問(wèn)句對(duì)應(yīng)的答案及關(guān)聯(lián)的問(wèn)句。
本發(fā)明實(shí)施例還提供了另一種智能問(wèn)答系統(tǒng)的交互裝置,所述智能問(wèn)答系統(tǒng)包括:知識(shí)庫(kù)以及場(chǎng)景會(huì)話庫(kù),所述場(chǎng)景會(huì)話庫(kù)包含若干個(gè)按照上述任一種的會(huì)話數(shù)據(jù)的處理裝置所獲得的場(chǎng)景會(huì)話序列;所述裝置包括:第四獲取單元,適于當(dāng)接收到的用戶問(wèn)句包含命名實(shí)體但未包含所述命名實(shí)體的屬性信息時(shí),從所述場(chǎng)景會(huì)話庫(kù)中獲取所述命名實(shí)體對(duì)應(yīng)的所有屬性信息,并生成屬性優(yōu)先級(jí);反饋單元,適于選取優(yōu)先級(jí)別最高的屬性作為所述用戶問(wèn)句中所述命名實(shí)體的屬性信息,從所述知識(shí)庫(kù)中獲取相應(yīng)的答案并發(fā)送給用戶。
與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有以下優(yōu)點(diǎn):
通過(guò)獲取多個(gè)待處理的會(huì)話數(shù)據(jù),并對(duì)各待處理的會(huì)話數(shù)據(jù)進(jìn)行語(yǔ)義聚類(lèi)處理,最終根據(jù)語(yǔ)義聚類(lèi)結(jié)果建立相應(yīng)的場(chǎng)景會(huì)話序列。由于所述場(chǎng)景會(huì)話序列包含相應(yīng)場(chǎng)景的多個(gè)問(wèn)句,因此可以豐富智能交互系統(tǒng)中數(shù)據(jù)庫(kù)的內(nèi)容,減少智能交互系統(tǒng)出現(xiàn)無(wú)法向用戶反饋相應(yīng)內(nèi)容的情況,提高用戶體驗(yàn)。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例中一種會(huì)話數(shù)據(jù)的處理方法的流程圖;
圖2是本發(fā)明實(shí)施例中一種語(yǔ)義聚類(lèi)過(guò)程多對(duì)應(yīng)的樹(shù)結(jié)構(gòu)的示意圖;
圖3是本發(fā)明實(shí)施例中一種知識(shí)庫(kù)的建立方法的流程圖;
圖4是本發(fā)明實(shí)施例中一種知識(shí)庫(kù)的優(yōu)化方法的流程圖;
圖5是本發(fā)明實(shí)施例中一種智能問(wèn)答系統(tǒng)的交互方法的流程圖;
圖6是本發(fā)明實(shí)施例中另一種智能問(wèn)答系統(tǒng)的交互方法的流程圖;
圖7是本發(fā)明實(shí)施例中一種會(huì)話數(shù)據(jù)的處理裝置的結(jié)構(gòu)示意圖;
圖8是本發(fā)明實(shí)施例中一種知識(shí)庫(kù)的建立裝置的結(jié)構(gòu)示意圖;
圖9是本發(fā)明實(shí)施例中一種知識(shí)庫(kù)的優(yōu)化裝置的結(jié)構(gòu)示意圖;
圖10是本發(fā)明實(shí)施例中一種智能問(wèn)答系統(tǒng)的交互裝置的結(jié)構(gòu)示意圖;
圖11是本發(fā)明實(shí)施例中另一種智能問(wèn)答系統(tǒng)的交互裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
現(xiàn)有的智能交互系統(tǒng)內(nèi)設(shè)置有知識(shí)庫(kù),當(dāng)接收到用戶的輸入后,通常從所述知識(shí)庫(kù)中獲取相應(yīng)的答案,并反饋至用戶。然而,由于知識(shí)庫(kù)中知識(shí)點(diǎn)的局限性,智能交互系統(tǒng)經(jīng)常會(huì)出現(xiàn)無(wú)法從知識(shí)庫(kù)中獲取到相應(yīng)答案的情況,導(dǎo)致用戶體驗(yàn)較差。
針對(duì)上述問(wèn)題,本發(fā)明的實(shí)施例提供了一種會(huì)話數(shù)據(jù)的處理方法,應(yīng)用所述方法,通過(guò)獲取多個(gè)待處理的會(huì)話數(shù)據(jù),并對(duì)各待處理的會(huì)話數(shù)據(jù)進(jìn)行語(yǔ)義聚類(lèi)處理,最終根據(jù)語(yǔ)義聚類(lèi)結(jié)果建立相應(yīng)的場(chǎng)景會(huì)話序列,由于所述場(chǎng)景會(huì)話序列包含相應(yīng)場(chǎng)景的多個(gè)問(wèn)句,因此可以豐富智能交互系統(tǒng)中數(shù)據(jù)庫(kù)的內(nèi)容,減少智能交互系統(tǒng)出現(xiàn)無(wú)法向用戶反饋相應(yīng)內(nèi)容的情況,提高用戶體驗(yàn)。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施例作詳細(xì)地說(shuō)明。
參照?qǐng)D1,本發(fā)明實(shí)施例提供了一種會(huì)話數(shù)據(jù)的處理方法,所述方法可以包括如下步驟:
步驟11,獲取多個(gè)待處理的會(huì)話數(shù)據(jù),每個(gè)所述待處理的會(huì)話數(shù)據(jù)包含若干個(gè)按時(shí)間排列的問(wèn)句。
在具體實(shí)施中,按照目標(biāo)領(lǐng)域,可以采用多種方式獲取所述待處理的會(huì)話數(shù)據(jù)。比如,可以從領(lǐng)域日志中爬取所述待處理的會(huì)話數(shù)據(jù),還可以從相應(yīng)領(lǐng)域的電商、垂直網(wǎng)站(例如京東,汽車(chē)之家,蘇寧)以及貼吧等開(kāi)放數(shù)據(jù)中爬取所述待處理的會(huì)話數(shù)據(jù)。
需要說(shuō)明的是,在具體實(shí)施中,所獲取的每個(gè)待處理的會(huì)話數(shù)據(jù)中,問(wèn)句的數(shù)目可以相同,也可以不同,具體不受限制。在從領(lǐng)域日志及開(kāi)放數(shù)據(jù)中獲取所述待處理的會(huì)話數(shù)據(jù)時(shí),可以先對(duì)所爬取的會(huì)話數(shù)據(jù)進(jìn)行篩選,將篩選出的會(huì)話數(shù)據(jù)作為所述待處理的會(huì)話數(shù)據(jù)。比如,可以將所爬取的會(huì)話數(shù)據(jù)中問(wèn)句的數(shù)目大于或等于第一閾值的會(huì)話數(shù)據(jù)作為所述待處理的會(huì)話數(shù)據(jù),其中,所述第一閾值可以根據(jù)實(shí)際情況進(jìn)行設(shè)置。
例如,待處理的會(huì)話數(shù)據(jù)可以包括如下四個(gè)問(wèn)句:
Q1:什么是安吉星
Q2:好用么
Q3:多少錢(qián)
Q4:跟安捷星比有什么優(yōu)點(diǎn)
步驟12,對(duì)所獲取的待處理的會(huì)話數(shù)據(jù)進(jìn)行語(yǔ)義聚類(lèi)處理,獲得一個(gè)或多個(gè)葉子分組。
具體地,先對(duì)每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第一個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第一分組,再對(duì)屬于同一第一分組的每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第二個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第二分組;不斷重復(fù)上述語(yǔ)義聚類(lèi)處理的過(guò)程,分別對(duì)屬于同一第i分組的每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第i+1個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第i+1分組,直至獲得滿足預(yù)設(shè)條件的一個(gè)或多個(gè)葉子分組,其中,i為正整數(shù)。
在具體實(shí)施中,可以采用多種方式對(duì)各個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理。比如,可以通過(guò)計(jì)算各個(gè)問(wèn)句之間的語(yǔ)義相似度,并在語(yǔ)義相似度的值大于一定閾值時(shí),將相應(yīng)問(wèn)句作為一個(gè)聚類(lèi)。
上述語(yǔ)義聚類(lèi)過(guò)程可以形成一樹(shù)結(jié)構(gòu),每個(gè)分組表示一個(gè)聚類(lèi)結(jié)果并作為該樹(shù)結(jié)構(gòu)的一個(gè)結(jié)點(diǎn)。其中,第一分組為該樹(shù)結(jié)構(gòu)的第一個(gè)層次中的結(jié)點(diǎn),第二分組為該樹(shù)結(jié)構(gòu)的第二個(gè)層次中的結(jié)點(diǎn),第i分組為該樹(shù)結(jié)構(gòu)的第i個(gè)層次中的結(jié)點(diǎn),第i+1分組為該樹(shù)結(jié)構(gòu)的第i+1個(gè)層次中的結(jié)點(diǎn)。每一層次所包含的分組的數(shù)目可以相同,也可以不同。所述葉子分組為該樹(shù)結(jié)構(gòu)的葉子結(jié)點(diǎn),也叫終端結(jié)點(diǎn)。除葉子分組外,每個(gè)分組都有子結(jié)點(diǎn)。所述葉子分組所在分支的其它結(jié)點(diǎn),也就是與所述葉子分組位于同一分支的所有上級(jí)分組為所述葉子分組的祖先分組。
在本發(fā)明的一實(shí)施例中,所述預(yù)設(shè)條件可以包括:所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組中每個(gè)分組所包括的問(wèn)句的數(shù)目大于或等于第二閾值;所述葉子分組位于第j分組,j大于或等于第三閾值。
在具體實(shí)施中,所述第二閾值及第三閾值可以根據(jù)實(shí)際情況進(jìn)行設(shè)置,比如,所述第二閾值可以為2,所述第三閾值為3。在所述語(yǔ)義聚類(lèi)處理的過(guò)程中,通過(guò)所述預(yù)設(shè)條件可以獲得所述葉子分組。
為了描述方便,以第i分組表示語(yǔ)義聚類(lèi)過(guò)程中獲得的任一分組為例,在具體實(shí)施中,既可以在對(duì)各待處理的會(huì)話數(shù)據(jù)的全部問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,獲得對(duì)應(yīng)樹(shù)結(jié)構(gòu)的全部終端結(jié)點(diǎn)后,再?gòu)乃鋈拷K端結(jié)點(diǎn)中篩選出符合預(yù)設(shè)條件的終端結(jié)點(diǎn);也可以在每獲得一第i分組后,即通過(guò)所述預(yù)設(shè)條件對(duì)所獲得的第i分組進(jìn)行判斷,并在滿足所述預(yù)設(shè)條件后繼續(xù)后續(xù)流程,否則刪除該第i分組。
比如,當(dāng)所述第i分組非終端結(jié)點(diǎn)時(shí),若第i分組中問(wèn)句的數(shù)目大于第二閾值,則對(duì)屬于同一第i分組的每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第i+1個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第i+1分組。當(dāng)所述第i分組為終端結(jié)點(diǎn)時(shí),若i大于或等于第三閾值,則所述第i分組為滿足所述預(yù)設(shè)條件的葉子分組,否則刪除該第i分組。由此,語(yǔ)義聚類(lèi)處理結(jié)束后,所獲得的終端結(jié)點(diǎn)均為滿足所述預(yù)設(shè)條件的葉子分組。
參照?qǐng)D2,下面以獲取5個(gè)待處理的會(huì)話數(shù)據(jù)s1,s2,s3,s4及s5,所述第二閾值為2,所述第三閾值為4為例,對(duì)上述語(yǔ)義聚類(lèi)處理過(guò)程進(jìn)行詳細(xì)說(shuō)明。其中,每個(gè)待處理的會(huì)話數(shù)據(jù)包括的問(wèn)句如下:
s1={Q11,Q12,Q13,Q14},
s2={Q21,Q22,Q23,Q24},
s3={Q31,Q32,Q33,Q34,Q35},
s4={Q41,Q42,Q43,Q44,Q45},
s5={Q51,Q52,Q53,Q54,Q55}。
首先,對(duì)s1~s5中的第一個(gè)問(wèn)句{Q11,Q21,Q31,Q41,Q51}進(jìn)行聚類(lèi),得到一個(gè)第一分組Z1={Q11,Q21,Q31,Q41,Q51}。第一分組Z1位于對(duì)應(yīng)樹(shù)結(jié)構(gòu)的第一個(gè)層次L1。
接著,對(duì)s1~s5中的第二個(gè)問(wèn)句{Q12,Q22,Q32,Q42,Q52}進(jìn)行聚類(lèi),得到兩個(gè)第二分組Z21={Q12,Q32,Q42,Q52},Z22={Q22}。第二分組Z21及Z22位于對(duì)應(yīng)樹(shù)結(jié)構(gòu)的第二個(gè)層次L2。此時(shí),由于第二分組Z22中僅存在Q22一個(gè)問(wèn)句(即該分組中包括的問(wèn)句的數(shù)目小于第二閾值),故刪除第二分組Z22。
然后,對(duì)s1、s3、s4及s5中的第三個(gè)問(wèn)句進(jìn)行聚類(lèi),得到兩個(gè)第三分組Z31={Q13,Q33},Z32={Q43,Q53}。第三分組Z31及Z32位于對(duì)應(yīng)樹(shù)結(jié)構(gòu)的第三個(gè)層次L3。
接著,對(duì)s1及s3中的第四個(gè)問(wèn)句進(jìn)行聚類(lèi),得到一個(gè)第四分組Z41={Q14,Q34}。對(duì)s4及s5的第四個(gè)問(wèn)句進(jìn)行聚類(lèi),得到兩個(gè)第四分組Z42及Z43,其中,Z42={Q44},Z43={Q54}。第四分組Z41、Z42及Z43位于對(duì)應(yīng)樹(shù)結(jié)構(gòu)的第四個(gè)層次L4。
其中:由于待處理的會(huì)話數(shù)據(jù)s1僅存在4個(gè)問(wèn)句,第四分組Z41所在的分組數(shù)等于第三閾值,并且第四分組Z41中問(wèn)句的數(shù)目等于第二閾值,第四分組Z41的各上級(jí)分組中包括的問(wèn)句數(shù)目均大于或等于第二閾值,因此,所述第四分組Z41為滿足所述預(yù)設(shè)條件的葉子分組。而Z42及Z43中僅存在一個(gè)問(wèn)句,即Z42及Z43中問(wèn)句的數(shù)目小于第二閾值,故刪除Z42及Z43。另外,由于Z32所在的分組數(shù)小于第三閾值,故刪除第三分組Z32。
最后,將s3中的第五個(gè)問(wèn)句Q35單獨(dú)聚為一類(lèi),得到第五分組Z5={Q35}。第五分組Z5位于對(duì)應(yīng)樹(shù)結(jié)構(gòu)的第五個(gè)層次L5。由于與第五分組Z5位數(shù)目中所包含的問(wèn)句數(shù)目小于第二閾值,故刪除第五分組Z5。
最終得到的滿足所述預(yù)設(shè)條件的葉子分組為Z41。
步驟13,基于語(yǔ)義聚類(lèi)處理的結(jié)果,根據(jù)每個(gè)所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組按照時(shí)間順序排列建立一場(chǎng)景會(huì)話序列。
在具體實(shí)施中,根據(jù)每個(gè)所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組,也就是根據(jù)所述葉子分組及其祖先分組(后續(xù)將所有的上級(jí)分組稱(chēng)為祖先分組),可以采用多種方式建立相應(yīng)的場(chǎng)景會(huì)話序列。
在本發(fā)明的一實(shí)施例中,可以直接從所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組中分別選取一問(wèn)句,將所選取的問(wèn)句按照時(shí)間順序排列作為對(duì)應(yīng)的場(chǎng)景會(huì)話序列。其中,從每個(gè)分組中選取問(wèn)句可以為該分組中的任意問(wèn)句,由于該分組中各問(wèn)句之間的語(yǔ)義相似,因此,無(wú)論從該分組中選取問(wèn)句的結(jié)果如何,均不會(huì)對(duì)該場(chǎng)景序列對(duì)應(yīng)的知識(shí)點(diǎn)產(chǎn)生較大的影響。
例如,對(duì)于葉子分組Z41及其祖先分組Z31、Z21及Z1,對(duì)應(yīng)的場(chǎng)景會(huì)話序列可以為{Q11,Q12,Q13,Q14},也可以為{Q11,Q21,Q33,Q34}。
在本發(fā)明的另一實(shí)施例中,所述場(chǎng)景會(huì)話序列可以包括:標(biāo)準(zhǔn)問(wèn)句及擴(kuò)展問(wèn)句。其中,所述標(biāo)準(zhǔn)問(wèn)句即按照常用形式表現(xiàn)的問(wèn)句,所述擴(kuò)展問(wèn)句即與標(biāo)準(zhǔn)問(wèn)句相同語(yǔ)義但形式不同的問(wèn)句。比如,標(biāo)準(zhǔn)問(wèn)句為“這支筆多少錢(qián)”時(shí),對(duì)應(yīng)的擴(kuò)展問(wèn)句可以包括“這支筆的價(jià)格是多少”、“這支筆的價(jià)格怎么樣”及“這支筆的市場(chǎng)價(jià)是多少”。
根據(jù)每個(gè)所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組,也就是根據(jù)所述葉子分組及其祖先分組建立相應(yīng)的場(chǎng)景會(huì)話序列時(shí),可以分別將所述葉子分組的語(yǔ)義及所述葉子分組對(duì)應(yīng)的所有上級(jí)分組的語(yǔ)義按照時(shí)間順序排列作為對(duì)應(yīng)的場(chǎng)景會(huì)話序列的標(biāo)準(zhǔn)問(wèn)句,而將所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組中不同于所述語(yǔ)義的問(wèn)句作為對(duì)應(yīng)標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句。
比如,對(duì)于葉子分組Z41及其祖先分組Z31、Z21及Z1,建立對(duì)應(yīng)的場(chǎng)景會(huì)話序列時(shí),可以分別將Z41、Z31、Z21及Z1的語(yǔ)義作為該場(chǎng)景會(huì)話序列的標(biāo)準(zhǔn)問(wèn)句,而將Q14及Q34作為Z41對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句,將Q13及Q33作為Z31對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句,將Q12、Q32、Q42及Q52作為Z21對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句,將Q11、Q21、Q31、Q41及Q51作為Z1對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句。
由上述內(nèi)容可以看出,通過(guò)建立場(chǎng)景會(huì)話序列,可以獲得相應(yīng)場(chǎng)景的多個(gè)問(wèn)句,進(jìn)而可以豐富智能交互系統(tǒng)中數(shù)據(jù)庫(kù)的內(nèi)容,減少智能交互系統(tǒng)出現(xiàn)無(wú)法向用戶反饋內(nèi)容的情況,提高用戶體驗(yàn)。
參照?qǐng)D3,本發(fā)明的實(shí)施例還提供了一種知識(shí)庫(kù)的建立方法,所述知識(shí)庫(kù)可以包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案及相應(yīng)的問(wèn)題,所述方法可以包括如下步驟:
步驟31,從場(chǎng)景會(huì)話庫(kù)中獲取知識(shí)點(diǎn)的問(wèn)題。
在具體實(shí)施中,所述場(chǎng)景會(huì)話庫(kù)包括上述會(huì)話數(shù)據(jù)處理方法所獲得的場(chǎng)景會(huì)話序列。每個(gè)知識(shí)點(diǎn)至少對(duì)應(yīng)所述場(chǎng)景會(huì)話序列的一個(gè)分組。所述知識(shí)點(diǎn)的問(wèn)題至少包括所對(duì)應(yīng)的分組中的問(wèn)句,當(dāng)然還可以包括從其它途徑獲取的問(wèn)句。
步驟32,為每個(gè)知識(shí)點(diǎn)提供答案。
在具體實(shí)施中,可以采用多種方式為每個(gè)知識(shí)點(diǎn)提供答案,具體不受限制。比如,可以從日志或開(kāi)放數(shù)據(jù)中獲取相應(yīng)問(wèn)題的答案,也可以由知識(shí)庫(kù)建立人員編寫(xiě)相應(yīng)問(wèn)題的答案。
基于所述場(chǎng)景會(huì)話庫(kù)建立知識(shí)庫(kù),可以使得知識(shí)庫(kù)建立人員更有方向和目的性地建立相應(yīng)的知識(shí)點(diǎn),完善所述知識(shí)庫(kù),進(jìn)一步減少智能交互系統(tǒng)出現(xiàn)無(wú)法向用戶反饋內(nèi)容的情況,提高用戶體驗(yàn)。
參照?qǐng)D4,本發(fā)明實(shí)施例還提供了一種知識(shí)庫(kù)的優(yōu)化方法,所述知識(shí)庫(kù)包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括標(biāo)準(zhǔn)問(wèn)句和擴(kuò)展問(wèn)句,所述方法可以包括如下步驟:
步驟41,從場(chǎng)景會(huì)話庫(kù)中查找與所述知識(shí)點(diǎn)對(duì)應(yīng)的場(chǎng)景會(huì)話序列。
在具體實(shí)施中,所述場(chǎng)景會(huì)話庫(kù)包括上述會(huì)話數(shù)據(jù)處理方法所獲得的場(chǎng)景會(huì)話序列。每個(gè)場(chǎng)景會(huì)話序列包括多個(gè)分組,每個(gè)分組包括多個(gè)問(wèn)句。每個(gè)知識(shí)點(diǎn)可以僅對(duì)應(yīng)所述場(chǎng)景會(huì)話序列的一個(gè)分組,也可以同時(shí)對(duì)應(yīng)所述場(chǎng)景會(huì)話序列中兩個(gè)或兩個(gè)以上的分組。
在具體實(shí)施中,可以通過(guò)計(jì)算各個(gè)知識(shí)點(diǎn)與場(chǎng)景會(huì)話庫(kù)中各個(gè)場(chǎng)景會(huì)話序列之間的語(yǔ)義相似度的方式,來(lái)查找與該知識(shí)點(diǎn)對(duì)應(yīng)的場(chǎng)景會(huì)話序列。當(dāng)然,也可以采用其它方式查找與各知識(shí)點(diǎn)對(duì)應(yīng)的場(chǎng)景會(huì)話序列。
步驟42,計(jì)算所述知識(shí)點(diǎn)與對(duì)應(yīng)的場(chǎng)景會(huì)話序列中每個(gè)分組的語(yǔ)義相似度,當(dāng)所述語(yǔ)義相似度大于第五閾值時(shí),則將位于對(duì)應(yīng)分組中但未位于所述知識(shí)點(diǎn)的問(wèn)句作為擴(kuò)展問(wèn)句添加到所述知識(shí)點(diǎn)中。
在具體實(shí)施中,獲得該知識(shí)點(diǎn)對(duì)應(yīng)的場(chǎng)景會(huì)話序列后,可以通過(guò)計(jì)算該知識(shí)點(diǎn)與所對(duì)應(yīng)的場(chǎng)景會(huì)話序列中每個(gè)分組之間的語(yǔ)義相似度的方式,也就是計(jì)算該知識(shí)點(diǎn)中的問(wèn)題對(duì)應(yīng)的場(chǎng)景會(huì)話序列中各個(gè)問(wèn)句之間的語(yǔ)義相似度,來(lái)優(yōu)化所述知識(shí)庫(kù)。
當(dāng)所述語(yǔ)義相似度大于第五閾值時(shí),則將位于對(duì)應(yīng)分組中但未位于所述知識(shí)點(diǎn)的問(wèn)句作為擴(kuò)展問(wèn)句添加到所述知識(shí)點(diǎn)中。其中,所述第五閾值可以根據(jù)實(shí)際情況進(jìn)行設(shè)置,此處不作限制。
基于所述場(chǎng)景會(huì)話庫(kù)優(yōu)化知識(shí)庫(kù),可以使得所述知識(shí)庫(kù)中相應(yīng)知識(shí)點(diǎn)中的問(wèn)題更加豐富,由此可以在接收到用戶輸入后,更好地匹配至相應(yīng)的知識(shí)點(diǎn),也就可以更準(zhǔn)確地向用戶反饋相應(yīng)的答案,進(jìn)一步提高用戶體驗(yàn)。
參照?qǐng)D5,本發(fā)明實(shí)施例還提供了一種智能問(wèn)答系統(tǒng)的交互方法,所述智能問(wèn)答系統(tǒng)包括:知識(shí)庫(kù)以及場(chǎng)景會(huì)話庫(kù),所述場(chǎng)景會(huì)話庫(kù)包含若干個(gè)按照上述的會(huì)話數(shù)據(jù)的處理方法所獲得的場(chǎng)景會(huì)話序列;所述方法可以包括:
步驟51,當(dāng)接收到用戶問(wèn)句后,從所述知識(shí)庫(kù)中獲取與所述用戶問(wèn)句對(duì)應(yīng)的答案,以及從所述場(chǎng)景會(huì)話庫(kù)中獲取與所述用戶問(wèn)句關(guān)聯(lián)的全部或部分問(wèn)句。
在具體實(shí)施中,接收到用戶問(wèn)句后,獲取與所述用戶問(wèn)句對(duì)應(yīng)的答案以及與所述用戶問(wèn)句關(guān)聯(lián)的問(wèn)句的執(zhí)行順序不受限制,既可以同時(shí)從知識(shí)庫(kù)以及場(chǎng)景會(huì)話庫(kù)中獲取相應(yīng)的問(wèn)句,也可以先從知識(shí)庫(kù)中獲取與所述用戶問(wèn)句對(duì)應(yīng)的答案,再?gòu)膱?chǎng)景會(huì)話庫(kù)中獲取與所述用戶問(wèn)句關(guān)聯(lián)的問(wèn)句,還可以先從場(chǎng)景會(huì)話庫(kù)中獲取與所述用戶問(wèn)句關(guān)聯(lián)的問(wèn)句,再?gòu)闹R(shí)庫(kù)中獲取與所述用戶問(wèn)句對(duì)應(yīng)的答案。
需要說(shuō)明的是,在具體實(shí)施中,所述用戶問(wèn)句可以僅對(duì)應(yīng)一個(gè)場(chǎng)景會(huì)話序列,也可以對(duì)應(yīng)多個(gè)場(chǎng)景會(huì)話序列。因此,與所述用戶問(wèn)句關(guān)聯(lián)的問(wèn)句可以僅為一個(gè)場(chǎng)景會(huì)話序列中的問(wèn)句,也可以為多個(gè)場(chǎng)景會(huì)話序列中的問(wèn)句。并且,與所述用戶問(wèn)句關(guān)聯(lián)的問(wèn)句可以為對(duì)應(yīng)場(chǎng)景會(huì)話序列中除與所述用戶問(wèn)句相同語(yǔ)義的語(yǔ)句外的其它任意語(yǔ)句。
例如,當(dāng)用戶問(wèn)句為“冰箱可以做冰塊嗎”,對(duì)應(yīng)的一場(chǎng)景會(huì)話序列包括如下S1~S4四個(gè)問(wèn)句:
S1:BCD-216SDX體積多大
S2:那冷藏室呢
S3:可以做冰塊嗎
S4:耗電量大嗎
則與所述用戶問(wèn)句關(guān)聯(lián)的問(wèn)句可以為S1、S2及S4中的至少一個(gè)。
步驟52,輸出與所述用戶問(wèn)句對(duì)應(yīng)的答案及關(guān)聯(lián)的問(wèn)句。
在具體實(shí)施中,既可以同時(shí)輸出與所述用戶問(wèn)句對(duì)應(yīng)的答案及關(guān)聯(lián)的問(wèn)句,也可以先輸出與所述用戶問(wèn)句對(duì)應(yīng)的答案,再輸出與所述用戶問(wèn)句關(guān)聯(lián)的問(wèn)句。
基于場(chǎng)景會(huì)話庫(kù)向用戶反饋相應(yīng)的內(nèi)容,可以更加便于用戶獲取相應(yīng)內(nèi)容的知識(shí),提高交互效率及用戶體驗(yàn)。
參照?qǐng)D6,本發(fā)明實(shí)施例還提供了另一種智能問(wèn)答系統(tǒng)的交互方法,所述智能問(wèn)答系統(tǒng)包括:知識(shí)庫(kù)以及場(chǎng)景會(huì)話庫(kù),所述場(chǎng)景會(huì)話庫(kù)包含若干個(gè)按照上述的會(huì)話數(shù)據(jù)的處理方法所獲得的場(chǎng)景會(huì)話序列;所述方法可以包括:
步驟61,當(dāng)接收到的用戶問(wèn)句包含命名實(shí)體但未包含所述命名實(shí)體的屬性信息時(shí),從所述場(chǎng)景會(huì)話庫(kù)中獲取所述命名實(shí)體對(duì)應(yīng)的所有屬性信息,并生成屬性優(yōu)先級(jí)。
所述命名實(shí)體就是人名、物品名、機(jī)構(gòu)名、地名以及其他所有以名稱(chēng)為標(biāo)識(shí)的實(shí)體,也包括數(shù)字、日期、貨幣、地址等等。
比如,當(dāng)接收到的用戶問(wèn)句為“蘋(píng)果手機(jī)怎么樣”,該用戶問(wèn)句中僅包含命名實(shí)體“蘋(píng)果手機(jī)”,但未包括該命名實(shí)體的屬性信息。此時(shí),可以從場(chǎng)景會(huì)話庫(kù)中獲取所述命名實(shí)體對(duì)應(yīng)的所有屬性信息,比如,蘋(píng)果手機(jī)的價(jià)格、配置、拍照功能等,并可以按照交互次數(shù)生成屬性優(yōu)先級(jí),也就是按照用戶對(duì)蘋(píng)果手機(jī)屬性的詢問(wèn)次數(shù),生成優(yōu)先級(jí)。
步驟62,選取優(yōu)先級(jí)別最高的屬性作為所述用戶問(wèn)句中所述命名實(shí)體的屬性信息,從所述知識(shí)庫(kù)中獲取相應(yīng)的答案并發(fā)送給用戶。
比如,當(dāng)蘋(píng)果手機(jī)的價(jià)格為優(yōu)先級(jí)別最高的屬性時(shí),可以直接從知識(shí)庫(kù)中獲取關(guān)于“蘋(píng)果手機(jī)的價(jià)格怎么樣”問(wèn)題的答案,并反饋至用戶。
當(dāng)接收到的用戶問(wèn)句包含命名實(shí)體但未包含所述命名實(shí)體的屬性信息時(shí),基于所述場(chǎng)景會(huì)話庫(kù)向用戶反饋相應(yīng)的內(nèi)容,可以避免向用戶詢問(wèn)所輸入的問(wèn)題,減少不必要的交互,提高用戶體驗(yàn)。
當(dāng)然,在具體實(shí)施中,基于所述場(chǎng)景會(huì)話庫(kù)還可能存在其它多種應(yīng)用方法,此處不再一一列舉。但無(wú)論具體應(yīng)用如何,均不構(gòu)成對(duì)本發(fā)明的限制,只要該應(yīng)用的一個(gè)以上的步驟是基于所述場(chǎng)景會(huì)話庫(kù)進(jìn)行的,均在本發(fā)明的保護(hù)范圍之內(nèi)。
為了使本領(lǐng)域技術(shù)人員更好地理解和實(shí)現(xiàn)本發(fā)明,以下對(duì)上述方法所對(duì)應(yīng)的裝置進(jìn)行詳細(xì)描述。
參照?qǐng)D7,本發(fā)明實(shí)施例提供了一種會(huì)話數(shù)據(jù)的處理裝置,所述裝置可以包括:第一獲取單元71、處理單元72及第一建立單元73,其中:
所述第一獲取單元71,適于獲取多個(gè)待處理的會(huì)話數(shù)據(jù),每個(gè)所述待處理的會(huì)話數(shù)據(jù)包含若干個(gè)按時(shí)間排列的問(wèn)句;
所述處理單元72,適于對(duì)每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第一個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第一分組;分別對(duì)屬于同一第一分組的每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第二個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第二分組;不斷重復(fù)上述語(yǔ)義聚類(lèi)處理的過(guò)程,分別對(duì)屬于同一第i分組的每個(gè)所述待處理的會(huì)話數(shù)據(jù)的第i+1個(gè)問(wèn)句進(jìn)行語(yǔ)義聚類(lèi)處理,得到一個(gè)或多個(gè)第i+1分組,直至獲得滿足預(yù)設(shè)條件的一個(gè)或多個(gè)葉子分組,其中,i為正整數(shù);
所述第一建立單元73,適于基于語(yǔ)義聚類(lèi)處理的結(jié)果,根據(jù)每個(gè)所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組按照時(shí)間順序排列建立一場(chǎng)景會(huì)話序列。
在具體實(shí)施中,所述第一獲取單元71適于從日志或/和開(kāi)放數(shù)據(jù)中獲取所述待處理的會(huì)話數(shù)據(jù)。
在具體實(shí)施中,所述第一獲取單元71適于將所爬取的會(huì)話數(shù)據(jù)中問(wèn)句的數(shù)目大于或等于第一閾值的會(huì)話數(shù)據(jù)作為所述待處理的會(huì)話數(shù)據(jù)。
在具體實(shí)施中,所述預(yù)設(shè)條件可以包括:
所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組中每個(gè)分組所包括的問(wèn)句的數(shù)目大于或等于第二閾值;
所述葉子分組為第j分組,j大于或等于第三閾值。
在具體實(shí)施中,所述第一建立單元73包括:第一建立子單元(未示出),適于從所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組分別選取一問(wèn)句,將所選取的問(wèn)句按照時(shí)間順序排列作為對(duì)應(yīng)的場(chǎng)景會(huì)話序列。
在具體實(shí)施中,所述第一建立單元73建立的場(chǎng)景會(huì)話序列包括:標(biāo)準(zhǔn)問(wèn)句及擴(kuò)展問(wèn)句。
相應(yīng)地,所述第一建立單元73包括:第二建立子單元731及第三建立子單元732。其中:
所述第二建立子單元731,適于分別將所述葉子分組的語(yǔ)義及所述葉子分組對(duì)應(yīng)的所有上級(jí)分組的語(yǔ)義按照時(shí)間順序排列作為對(duì)應(yīng)的場(chǎng)景會(huì)話序列的標(biāo)準(zhǔn)問(wèn)句;
所述第三建立子單元732,適于將所述葉子分組及對(duì)應(yīng)的所有上級(jí)分組中不同于所述語(yǔ)義的問(wèn)句作為所述對(duì)應(yīng)的標(biāo)準(zhǔn)問(wèn)句的擴(kuò)展問(wèn)句。
參照?qǐng)D8,本發(fā)明實(shí)施例還提供了一種知識(shí)庫(kù)的建立裝置,所述知識(shí)庫(kù)包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括答案和問(wèn)題,所述裝置可以包括:第二獲取單元81及第二建立單元82。其中:
所述第二獲取單元81,適于從場(chǎng)景會(huì)話庫(kù)中獲取知識(shí)點(diǎn)的問(wèn)題,所述場(chǎng)景會(huì)話庫(kù)包括上述的會(huì)話數(shù)據(jù)的處理裝置所獲得的場(chǎng)景會(huì)話序列,每個(gè)所述知識(shí)點(diǎn)至少對(duì)應(yīng)所述場(chǎng)景會(huì)話序列的一個(gè)分組,所述知識(shí)點(diǎn)的問(wèn)題至少包括所對(duì)應(yīng)的分組中的問(wèn)句;
所述第二建立單元82,適于為每個(gè)所述知識(shí)點(diǎn)提供答案。
參照?qǐng)D9,本發(fā)明實(shí)施例還提供了一種知識(shí)庫(kù)的優(yōu)化裝置,所述知識(shí)庫(kù)包括多個(gè)知識(shí)點(diǎn),每個(gè)知識(shí)點(diǎn)包括標(biāo)準(zhǔn)問(wèn)和擴(kuò)展問(wèn),所述裝置可以包括:查找單元91,計(jì)算單元92以及優(yōu)化單元93。其中:
所述查找單元91,適于從場(chǎng)景會(huì)話庫(kù)中查找與所述知識(shí)點(diǎn)對(duì)應(yīng)的場(chǎng)景會(huì)話序列,所述場(chǎng)景會(huì)話庫(kù)包含若干個(gè)按照上述的會(huì)話數(shù)據(jù)的處理裝置所獲得的場(chǎng)景會(huì)話序列,每個(gè)場(chǎng)景會(huì)話序列包括多個(gè)分組,每個(gè)分組包括多個(gè)問(wèn)句;
所述計(jì)算單元92,適于計(jì)算所述知識(shí)點(diǎn)與對(duì)應(yīng)的場(chǎng)景會(huì)話序列中每個(gè)分組的語(yǔ)義相似度;
所述優(yōu)化單元93,適于當(dāng)所述語(yǔ)義相似度大于第五閾值時(shí),則將位于對(duì)應(yīng)分組中但未位于所述知識(shí)點(diǎn)的問(wèn)句作為擴(kuò)展問(wèn)句添加到所述知識(shí)點(diǎn)中。
參照?qǐng)D10,本發(fā)明實(shí)施例提供了一種智能問(wèn)答系統(tǒng)的交互裝置,所述智能問(wèn)答系統(tǒng)包括:知識(shí)庫(kù)以及場(chǎng)景會(huì)話庫(kù),所述場(chǎng)景會(huì)話庫(kù)包含若干個(gè)按照上述的會(huì)話數(shù)據(jù)的處理裝置所獲得的場(chǎng)景會(huì)話序列;所述裝置可以包括:第三獲取單元101以及輸出單元102。其中:
所述第三獲取單元101,適于當(dāng)接收到用戶問(wèn)句后,從所述知識(shí)庫(kù)中獲取與所述用戶問(wèn)句對(duì)應(yīng)的答案,以及從所述場(chǎng)景會(huì)話庫(kù)中獲取與所述用戶問(wèn)句關(guān)聯(lián)的問(wèn)句;
所述輸出單元102,適于輸出與所述用戶問(wèn)句對(duì)應(yīng)的答案及關(guān)聯(lián)的全部或部分問(wèn)句。
參照?qǐng)D11,本發(fā)明實(shí)施例還提供了一種智能問(wèn)答系統(tǒng)的交互裝置,所述智能問(wèn)答系統(tǒng)包括:知識(shí)庫(kù)以及場(chǎng)景會(huì)話庫(kù),所述場(chǎng)景會(huì)話庫(kù)包含若干個(gè)按照上述的會(huì)話數(shù)據(jù)的處理裝置所獲得的場(chǎng)景會(huì)話序列;所述裝置可以包括:第四獲取單元111及反饋單元112。其中:
所述第四獲取單元111,適于當(dāng)接收到的用戶問(wèn)句包含命名實(shí)體但未包含所述命名實(shí)體的屬性信息時(shí),從所述場(chǎng)景會(huì)話庫(kù)中獲取所述命名實(shí)體對(duì)應(yīng)的所有屬性信息,并生成屬性優(yōu)先級(jí);
所述反饋單元112,適于選取優(yōu)先級(jí)別最高的屬性作為所述用戶問(wèn)句中所述命名實(shí)體的屬性信息,從所述知識(shí)庫(kù)中獲取相應(yīng)的答案并發(fā)送給用戶。
本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:ROM、RAM、磁盤(pán)或光盤(pán)等。
雖然本發(fā)明披露如上,但本發(fā)明并非限定于此。任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動(dòng)與修改,因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以權(quán)利要求所限定的范圍為準(zhǔn)。