亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)處理方法和系統(tǒng)與流程

文檔序號(hào):11286437閱讀:199來源:國(guó)知局
一種數(shù)據(jù)處理方法和系統(tǒng)與流程
本發(fā)明實(shí)施例涉及人工智能
技術(shù)領(lǐng)域
,尤其涉及一種數(shù)據(jù)處理方法和系統(tǒng)。
背景技術(shù)
:智能問答是將積累的無序語料信息,進(jìn)行有序和科學(xué)的整理,并建立基于知識(shí)的分類模型;這些分類模型可以指導(dǎo)新增加的語料咨詢和服務(wù)信息,節(jié)約人力資源,提高信息處理的自動(dòng)性,降低網(wǎng)站運(yùn)行成本。傳統(tǒng)的智能問答方案是基于問題的相似度計(jì)算,或者是基于句型模式匹配,都是在顯示關(guān)系中進(jìn)行挖掘,即尋找知識(shí)庫(kù)中的相似問題進(jìn)行問題匹配,將與匹配得到的問題對(duì)應(yīng)的答案作為最終的答案。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理方法和系統(tǒng),以解決現(xiàn)有的智能問答方案推薦的答案不準(zhǔn)確的問題。根據(jù)本發(fā)明實(shí)施例的一方面,提供了一種數(shù)據(jù)處理方法,包括:獲取待處理的第一數(shù)據(jù);根據(jù)自然語言處理引擎抽取所述第一數(shù)據(jù)的關(guān)鍵詞序列;根據(jù)協(xié)同過濾引擎確定所述關(guān)鍵詞序列的推薦數(shù)據(jù);查詢預(yù)設(shè)的數(shù)據(jù)庫(kù),得到與所述推薦數(shù)據(jù)匹配的第二數(shù)據(jù)。根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種數(shù)據(jù)處理系統(tǒng),包括:獲取模塊,用于獲取待處理的第一數(shù)據(jù);抽取模塊,用于根據(jù)自然語言處理引擎抽取所述第一數(shù)據(jù)的關(guān)鍵詞序列;確定模塊,用于根據(jù)協(xié)同過濾引擎確定所述關(guān)鍵詞序列的推薦數(shù)據(jù);查詢模塊,用于查詢預(yù)設(shè)的數(shù)據(jù)庫(kù),得到與所述推薦數(shù)據(jù)匹配的第二數(shù)據(jù)。根據(jù)本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理方法和系統(tǒng),獲取待處理的第一數(shù)據(jù),第一數(shù)據(jù)可以為用戶輸入的問題數(shù)據(jù),進(jìn)而根據(jù)自然語言處理引擎抽取第一數(shù)據(jù)的關(guān)鍵詞序列,再根據(jù)協(xié)同過濾引擎確定關(guān)鍵詞序列的推薦數(shù)據(jù),該推薦數(shù)據(jù)可以理解為與第一數(shù)據(jù)相似的問題數(shù)據(jù),最后查詢預(yù)設(shè)的數(shù)據(jù)庫(kù),得到與推薦數(shù)據(jù)匹配的第二數(shù)據(jù),該第二數(shù)據(jù)可以理解為推薦數(shù)據(jù)的答案數(shù)據(jù)。本發(fā)明實(shí)施例在獲取到第一數(shù)據(jù)之后,抽取第一數(shù)據(jù)的關(guān)鍵詞序列,進(jìn)而根據(jù)協(xié)同過濾引擎確定關(guān)鍵詞序列的推薦數(shù)據(jù),再?gòu)念A(yù)設(shè)的數(shù)據(jù)庫(kù)中查找到與推薦數(shù)據(jù)匹配的第二數(shù)據(jù)作為第一數(shù)據(jù)的答案。與傳統(tǒng)的直接從數(shù)據(jù)庫(kù)中查找第一數(shù)據(jù)的相似數(shù)據(jù)不同,本發(fā)明實(shí)施例利用協(xié)同過濾引擎和第一數(shù)據(jù)的關(guān)鍵詞序列確定第一數(shù)據(jù)的相似數(shù)據(jù),即推薦數(shù)據(jù),采用協(xié)同過濾技術(shù)確定第一數(shù)據(jù)的相似數(shù)據(jù),提高了確定相似數(shù)據(jù)的準(zhǔn)確率。當(dāng)?shù)谝粩?shù)據(jù)作為問題數(shù)據(jù),第二數(shù)據(jù)作為答案數(shù)據(jù)時(shí),本發(fā)明實(shí)施例也提高了答案推薦的準(zhǔn)確率。附圖說明圖1是根據(jù)本發(fā)明實(shí)施例一的一種數(shù)據(jù)處理方法的步驟流程圖;圖2是根據(jù)本發(fā)明實(shí)施例一的一種數(shù)據(jù)處理方法中一種用戶與物品的關(guān)聯(lián)管理示意圖;圖3是根據(jù)本發(fā)明實(shí)施例一的一種數(shù)據(jù)處理方法中另一種用戶與物品的關(guān)聯(lián)管理示意圖;圖4是根據(jù)本發(fā)明實(shí)施例二的一種數(shù)據(jù)處理方法的步驟流程圖;圖5是根據(jù)本發(fā)明實(shí)施例二的一種數(shù)據(jù)處理方法中問題數(shù)據(jù)與關(guān)鍵詞之間的隱式關(guān)系示意圖;圖6是根據(jù)本發(fā)明實(shí)施例二的一種數(shù)據(jù)處理方法中問答流程示意圖;圖7是根據(jù)本發(fā)明實(shí)施例二的一種數(shù)據(jù)處理方法中生成關(guān)鍵詞-推薦問題詞典的步驟流程圖;圖8是根據(jù)本發(fā)明實(shí)施例二的一種數(shù)據(jù)處理方法中生成新的隱式關(guān)系詞典的步驟流程圖;圖9是根據(jù)本發(fā)明實(shí)施例三的一種數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)框圖;圖10是根據(jù)本發(fā)明實(shí)施例三的一種智能問答系統(tǒng)的邏輯架構(gòu)示意圖。具體實(shí)施方式下面結(jié)合附圖(若干附圖中相同的標(biāo)號(hào)表示相同的元素)和實(shí)施例,對(duì)本發(fā)明實(shí)施例的具體實(shí)施方式作進(jìn)一步詳細(xì)說明。以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。本領(lǐng)域技術(shù)人員可以理解,本發(fā)明實(shí)施例中的“第一”、“第二”等術(shù)語僅用于區(qū)別不同步驟、設(shè)備或模塊等,既不代表任何特定技術(shù)含義,也不表示它們之間的必然邏輯順序。實(shí)施例一圖1示出了根據(jù)本發(fā)明實(shí)施例一的一種數(shù)據(jù)處理方法的步驟流程圖。本實(shí)施例提供的數(shù)據(jù)處理方法包括如下步驟。步驟s100、獲取待處理的第一數(shù)據(jù)。本實(shí)施例中的第一數(shù)據(jù)可以理解為問題數(shù)據(jù),本步驟s100具體可以獲取用戶輸入的問題數(shù)據(jù),用戶輸入問題數(shù)據(jù)的方式可以為鍵盤輸入、手寫輸入或者語音輸入等等,本實(shí)施例對(duì)用戶輸入問題數(shù)據(jù)的具體手段不做限制。而且,本實(shí)施例中的第一數(shù)據(jù)可以為任意語言類型的數(shù)據(jù),包括中文、英文、日文等等,本實(shí)施例對(duì)第一數(shù)據(jù)的語言類型不做限制。步驟s102、根據(jù)自然語言處理引擎抽取第一數(shù)據(jù)的關(guān)鍵詞序列。本實(shí)施例中的一個(gè)第一數(shù)據(jù)可以抽取出多個(gè)關(guān)鍵詞,抽取出的多個(gè)關(guān)鍵詞可以組成關(guān)鍵詞序列。步驟s104、根據(jù)協(xié)同過濾引擎確定關(guān)鍵詞序列的推薦數(shù)據(jù)。本實(shí)施例中的協(xié)同過濾(collaborativefiltering,cf)引擎采用協(xié)同過濾技術(shù)。協(xié)同過濾技術(shù)用于分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對(duì)某一信息的評(píng)價(jià),進(jìn)而對(duì)該指定用戶對(duì)此信息的喜好程度進(jìn)行預(yù)測(cè)。協(xié)同過濾技術(shù)的一個(gè)典型案例就是尿布與啤酒的例子:美國(guó)的婦女們經(jīng)常會(huì)囑咐她們的丈夫下班以后要為孩子買尿布。而丈夫在買完尿布之后又要順手買回自己愛喝的啤酒,因此啤酒和尿布在一起購(gòu)買的機(jī)會(huì)還是很多的。很多時(shí)候看似不相關(guān)的兩種產(chǎn)品,卻會(huì)存在某種神秘的隱含關(guān)系,獲取這種關(guān)系將會(huì)對(duì)提高銷售額起到推動(dòng)作用,然而有時(shí)這種關(guān)聯(lián)是很難通過理性的分析得到的。借助協(xié)同過濾技術(shù)可以挖掘人與人以及商品與商品的關(guān)聯(lián)關(guān)系。簡(jiǎn)單來說,協(xié)同過濾技術(shù)是一種基于關(guān)聯(lián)規(guī)則的算法,以購(gòu)物行為為例。假設(shè)有甲和乙兩名用戶,有a、b、c三款產(chǎn)品。如果用戶甲和乙都購(gòu)買了a和b這兩款產(chǎn)品,可以假定用戶甲和乙有近似的購(gòu)物品味。當(dāng)用戶甲購(gòu)買了產(chǎn)品c而用戶乙還沒有購(gòu)買產(chǎn)品c的時(shí)候,通過協(xié)同過濾技術(shù)就可以把產(chǎn)品c也推薦給用戶乙。協(xié)同過濾技術(shù)是集體智慧的一個(gè)典型方法,要理解什么是協(xié)同過濾技術(shù),首先想一個(gè)簡(jiǎn)單的問題,如果想看個(gè)電影,但不知道具體看哪部,可以問問周圍的朋友有什么好看的電影推薦,人們一般更傾向于從口味比較類似的朋友那里得到推薦。這就是協(xié)同過濾技術(shù)的核心思想。要實(shí)現(xiàn)基于協(xié)同過濾技術(shù)進(jìn)行數(shù)據(jù)算法,需要進(jìn)行以下三個(gè)步驟:1)收集數(shù)據(jù)通常為用戶的歷史行為數(shù)據(jù),比如用戶的購(gòu)買歷史、關(guān)注、收藏行為、發(fā)表了某些評(píng)論、給某個(gè)物品打了多少分等等,都可以用來作為數(shù)據(jù)供協(xié)同過濾技術(shù)使用。需要特別指出的在于,不同的數(shù)據(jù)準(zhǔn)確性不同粒度也不同,在使用時(shí)需要考慮到噪音所帶來的影響。2)找到相似用戶和物品就是計(jì)算用戶間以及物品間的相似度。可以通過歐幾里德距離、皮爾遜相關(guān)系數(shù)、余弦相似度和谷本(tanimoto)系數(shù)等計(jì)算相似度。3)進(jìn)行推薦協(xié)同過濾技術(shù)主要包括兩種過濾方法:一、基于用戶的協(xié)同過濾;二、基于物品的協(xié)同過濾。基于用戶的協(xié)同過濾的基本思想是基于用戶對(duì)物品的偏好,找到鄰居用戶,然后將鄰居用戶喜歡的物品推薦給當(dāng)前用戶。具體地,將一個(gè)用戶對(duì)所有物品的偏好作為一個(gè)向量來計(jì)算用戶之間的相似度,找到多個(gè)鄰居用戶后,根據(jù)鄰居用戶的相似度權(quán)重以及他們對(duì)物品的偏好,預(yù)測(cè)當(dāng)前用戶沒有偏好的未涉及物品,計(jì)算得到一個(gè)排序的物品列表作為推薦物品。如圖2所示,用戶a對(duì)物品1和物品3感興趣,用戶b對(duì)物品2感興趣,用戶c對(duì)物品1、物品2和物品4感興趣。對(duì)于用戶a來說,根據(jù)各用戶的歷史興趣偏好信息,計(jì)算得到用戶c為用戶a的鄰居用戶,則可以將用戶c感興趣的物品4推薦給用戶a。表1圖2中的用戶與物品的關(guān)聯(lián)對(duì)照表,其中,√表示擁護(hù)對(duì)物品感興趣。用戶/物品物品1物品2物品3物品4用戶a√√推薦用戶b√用戶c√√√表1基于物品的協(xié)同過濾的原理和基于用戶的協(xié)同過濾類似,只是在計(jì)算鄰居時(shí)采用物品本身,而不是從用戶的角度,即基于用戶對(duì)物品的偏好找到相似的物品,然后根據(jù)用戶的歷史偏好,推薦相似的物品。從計(jì)算的角度看,就是將所有用戶對(duì)某個(gè)物品的偏好作為一個(gè)向量來計(jì)算物品之間的相似度,得到物品的相似物品后,根據(jù)用戶歷史的偏好預(yù)測(cè)當(dāng)前用戶還沒有表示偏好的物品,計(jì)算得到一個(gè)排序的物品列表作為推薦物品。如圖3所示,用戶a對(duì)物品1和物品3感興趣,用戶b對(duì)物品1、物品2和物品3感興趣,用戶c對(duì)物品1感興趣。對(duì)于物品1來說,根據(jù)所有用戶的歷史偏好,喜歡物品1的用戶都喜歡物品3,得出物品1和物品3比較相似,而用戶c喜歡物品1,則可以推斷出用戶c可能也喜歡物品3。表2為圖3中的用戶與物品的關(guān)聯(lián)對(duì)照表,其中,√表示擁護(hù)對(duì)物品感興趣。用戶/物品物品1物品2物品3用戶a√√用戶b√√√用戶c√推薦表2步驟s106、查詢預(yù)設(shè)的數(shù)據(jù)庫(kù),得到與推薦數(shù)據(jù)匹配的第二數(shù)據(jù)。本實(shí)施例中,預(yù)設(shè)的數(shù)據(jù)庫(kù)可以為包括具有對(duì)應(yīng)關(guān)系的問題數(shù)據(jù)-答案數(shù)據(jù)的數(shù)據(jù)庫(kù)。在查詢數(shù)據(jù)庫(kù)時(shí),若推薦數(shù)據(jù)與數(shù)據(jù)庫(kù)中的某個(gè)問題數(shù)據(jù)相同,則將與該問題數(shù)據(jù)具有對(duì)應(yīng)關(guān)系的答案數(shù)據(jù)確定為與推薦數(shù)據(jù)匹配的第二數(shù)據(jù),也就是說,本實(shí)施例中的第二數(shù)據(jù)為第一數(shù)據(jù)的答案數(shù)據(jù)。根據(jù)本實(shí)施例提供的一種數(shù)據(jù)處理方法,獲取待處理的第一數(shù)據(jù),第一數(shù)據(jù)可以為用戶輸入的問題數(shù)據(jù),進(jìn)而根據(jù)自然語言處理引擎抽取第一數(shù)據(jù)的關(guān)鍵詞序列,再根據(jù)協(xié)同過濾引擎確定關(guān)鍵詞序列的推薦數(shù)據(jù),該推薦數(shù)據(jù)可以理解為與第一數(shù)據(jù)相似的問題數(shù)據(jù),最后查詢預(yù)設(shè)的數(shù)據(jù)庫(kù),得到與推薦數(shù)據(jù)匹配的第二數(shù)據(jù),該第二數(shù)據(jù)可以理解為推薦數(shù)據(jù)的答案數(shù)據(jù)。本實(shí)施例在獲取到第一數(shù)據(jù)之后,抽取第一數(shù)據(jù)的關(guān)鍵詞序列,進(jìn)而根據(jù)協(xié)同過濾引擎確定關(guān)鍵詞序列的推薦數(shù)據(jù),再?gòu)念A(yù)設(shè)的數(shù)據(jù)庫(kù)中查找到與推薦數(shù)據(jù)匹配的第二數(shù)據(jù)作為第一數(shù)據(jù)的答案。與傳統(tǒng)的直接從數(shù)據(jù)庫(kù)中查找第一數(shù)據(jù)的相似數(shù)據(jù)不同,本實(shí)施例利用協(xié)同過濾引擎和第一數(shù)據(jù)的關(guān)鍵詞序列確定第一數(shù)據(jù)的相似數(shù)據(jù),即推薦數(shù)據(jù),采用協(xié)同過濾技術(shù)確定第一數(shù)據(jù)的相似數(shù)據(jù),提高了確定相似數(shù)據(jù)的準(zhǔn)確率。當(dāng)?shù)谝粩?shù)據(jù)作為問題數(shù)據(jù),第二數(shù)據(jù)作為答案數(shù)據(jù)時(shí),本實(shí)施例也提高了答案推薦的準(zhǔn)確率。實(shí)施例二本實(shí)施例重點(diǎn)在于強(qiáng)調(diào)與上述實(shí)施例的不同之處,相同之處可以參照上述實(shí)施例中的相關(guān)說明,在此不再贅述。圖4示出了根據(jù)本發(fā)明實(shí)施例二的一種數(shù)據(jù)處理方法的步驟流程圖。本實(shí)施例提供的一種數(shù)據(jù)處理方法包括如下步驟。步驟s400、獲取待處理的第一數(shù)據(jù)。本實(shí)施例以第一數(shù)據(jù)為中文問題數(shù)據(jù)為例進(jìn)行說明,對(duì)于其他語言類型的第一數(shù)據(jù)均可以參照本實(shí)施例的相關(guān)介紹,在此不再贅述。步驟s402、根據(jù)自然語言處理引擎抽取第一數(shù)據(jù)的關(guān)鍵詞序列??蛇x地,本步驟s402可以包括如下子步驟。子步驟s4020、對(duì)第一數(shù)據(jù)進(jìn)行分詞。詞是最小的能夠獨(dú)立活動(dòng)的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而中文是以字為基本的書寫單位,詞語之間沒有明顯的區(qū)分標(biāo)記,因此,中文詞語分析是中文信息處理的基礎(chǔ)與關(guān)鍵。本實(shí)施例中的分詞方法可分為三大類:基于字典、詞庫(kù)匹配的分詞方法;基于詞頻度統(tǒng)計(jì)的分詞方法;基于知識(shí)理解的分詞方法。本實(shí)施例以詞頻度統(tǒng)計(jì)的分詞方法為主,字典、詞庫(kù)與知識(shí)理解的分詞方法為輔的方法實(shí)現(xiàn)中文分詞。子步驟s4022、利用詞頻-逆向文件頻率(termfrequency–inversedocumentfrequency,tf-idf)方式對(duì)分詞結(jié)果進(jìn)行加權(quán),抽取第一數(shù)據(jù)的關(guān)鍵詞序列。tf-idf是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫(kù)中出現(xiàn)的頻率成反比下降。在一份給定的文件里,tf指的是某一個(gè)給定的詞語在該文件中出現(xiàn)的頻率。這個(gè)數(shù)字是對(duì)詞數(shù)(termcount)的歸一化,以防止它偏向長(zhǎng)的文件(同一個(gè)詞語在長(zhǎng)文件里可能會(huì)比短文件有更高的詞數(shù),而不管該詞語重要與否)。idf是一個(gè)詞語普遍重要性的度量。某一特定詞語的idf,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對(duì)數(shù)。某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個(gè)文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的tf-idf。步驟s404、根據(jù)協(xié)同過濾引擎確定關(guān)鍵詞序列的推薦數(shù)據(jù)。一種可行的實(shí)施方式中,本步驟s404具體可以為:根據(jù)協(xié)同過濾引擎中的隱式關(guān)系詞典,確定關(guān)鍵詞序列的推薦數(shù)據(jù)。其中,隱式關(guān)系詞典包括關(guān)鍵詞與推薦數(shù)據(jù)的隱式關(guān)聯(lián)關(guān)系。本實(shí)施例中,隱式關(guān)系詞典包括多個(gè)問題數(shù)據(jù),以及與每個(gè)問題數(shù)據(jù)關(guān)聯(lián)的多個(gè)關(guān)鍵詞,例如,從問題數(shù)據(jù)1中抽取出一組關(guān)鍵詞,分別為關(guān)鍵詞1、關(guān)鍵詞2、關(guān)鍵詞4……,從問題數(shù)據(jù)2抽取出一組關(guān)鍵詞,分別為關(guān)鍵詞1、關(guān)鍵詞3、關(guān)鍵詞4……,從問題數(shù)據(jù)3抽取出一組關(guān)鍵詞,分別為關(guān)鍵詞2、關(guān)鍵詞3、關(guān)鍵詞4……,通常,不同的問題數(shù)據(jù)之間會(huì)存在重復(fù)的關(guān)鍵詞,因此,可以建立問題數(shù)據(jù)與關(guān)鍵詞之間的隱式關(guān)系,如圖5所示。步驟s406、查詢預(yù)設(shè)的數(shù)據(jù)庫(kù),得到與推薦數(shù)據(jù)匹配的第二數(shù)據(jù)?;诒緦?shí)施例的上述介紹,一種可行的實(shí)施方式中,如圖6所示,用戶輸入問題數(shù)據(jù),調(diào)用中文自然語言處理引擎,抽取問題數(shù)據(jù)的關(guān)鍵詞,遍歷抽取得到的所有關(guān)鍵詞,查詢關(guān)鍵詞-推薦問題詞典,尋找問題數(shù)據(jù)的推薦問題,對(duì)尋找到的全部推薦問題進(jìn)行評(píng)分排序,得到最佳推薦問題,根據(jù)最佳推薦問題查詢問題-答案知識(shí)庫(kù),得到問題數(shù)據(jù)的最佳答案,并返回至用戶??蛇x地,在本實(shí)施例執(zhí)行之前,需要預(yù)先生成關(guān)鍵詞-推薦問題詞典,如圖7所示,先收集問題-答案對(duì)數(shù)據(jù),調(diào)用中文自然語言處理引擎,抽取問題-答案對(duì)數(shù)據(jù)的關(guān)鍵詞,對(duì)關(guān)鍵詞的權(quán)重進(jìn)行歸一化處理,對(duì)所有關(guān)鍵詞進(jìn)行排序創(chuàng)建關(guān)鍵詞序列,對(duì)所有問題進(jìn)行排序創(chuàng)建問題序列,生成關(guān)鍵詞-問題-權(quán)重的三元組矩陣,根據(jù)關(guān)鍵詞-問題-權(quán)重的三元組矩陣進(jìn)行協(xié)同過濾計(jì)算,遍歷關(guān)鍵詞序列,獲得每個(gè)關(guān)鍵詞的推薦問題,生成關(guān)鍵詞-推薦文件詞典??蛇x地,一個(gè)關(guān)鍵詞在一個(gè)問題中只出現(xiàn)了一次,在實(shí)際應(yīng)用中,一個(gè)關(guān)鍵詞可以在一個(gè)問題中出現(xiàn)多次,因此,可以對(duì)協(xié)同過濾引擎進(jìn)行優(yōu)化,具體可以包括如下三方面:一方面、人工維護(hù)關(guān)鍵詞的權(quán)重一種具體場(chǎng)景中,通過人工的形式為知識(shí)庫(kù)中的問題-答案對(duì)給定關(guān)鍵詞。該關(guān)鍵詞有可能并未在文中出現(xiàn),例如一篇介紹霧霾的問題-答案對(duì),標(biāo)注的關(guān)鍵詞為“大氣污染”,“pm2.5”。對(duì)于此類關(guān)鍵詞,需要設(shè)定為最高權(quán)重。二方面、代入tf-idf值作為關(guān)鍵詞與推薦數(shù)據(jù)的隱式關(guān)聯(lián)關(guān)系的權(quán)重。在抽取關(guān)鍵詞時(shí),通過tf-idf計(jì)算的方式提取數(shù)值較高的關(guān)鍵詞,同理,也可以對(duì)隱式關(guān)聯(lián)關(guān)系的權(quán)重進(jìn)行推薦計(jì)算,但是抽取關(guān)鍵詞時(shí)的tf-idf計(jì)算結(jié)果的值域范圍與協(xié)同過濾時(shí)計(jì)算隱式關(guān)聯(lián)關(guān)系的權(quán)重的值域范圍并不相同,因此,需要根據(jù)隱式關(guān)聯(lián)關(guān)系的權(quán)重的值域范圍對(duì)tf-idf計(jì)算結(jié)果進(jìn)行等比例處理。三方面、利用用戶反饋機(jī)制調(diào)整關(guān)鍵詞與推薦數(shù)據(jù)的隱式關(guān)聯(lián)關(guān)系的權(quán)重建立多種反饋機(jī)制,借助用戶的反饋來維護(hù)關(guān)鍵詞與推薦數(shù)據(jù)的隱式關(guān)聯(lián)關(guān)系的權(quán)重??梢园ㄈ缦路椒ǎ?、對(duì)一段時(shí)間內(nèi)的用戶提問問題進(jìn)行關(guān)鍵詞抽取,統(tǒng)計(jì)出頻率較高的關(guān)鍵詞,整理出熱門關(guān)鍵詞,可以對(duì)這些熱門關(guān)鍵詞的關(guān)系進(jìn)行適當(dāng)加權(quán)。2、對(duì)一段時(shí)間內(nèi),統(tǒng)計(jì)出作為結(jié)果推薦次數(shù)較多的問題作為熱門問題,可以對(duì)這些熱門問題的關(guān)系進(jìn)行適當(dāng)加權(quán)。3、通過頂、踩、復(fù)制粘貼、評(píng)價(jià)等機(jī)制讓用戶對(duì)已回復(fù)的問題進(jìn)行反饋,根據(jù)反饋結(jié)果重新進(jìn)行權(quán)重計(jì)算。通過以上反饋機(jī)制對(duì)問答結(jié)果進(jìn)行跟蹤,獲取行為數(shù)據(jù),根據(jù)行為數(shù)據(jù)自動(dòng)維護(hù)關(guān)鍵詞與推薦數(shù)據(jù)的隱式關(guān)聯(lián)關(guān)系的權(quán)重,并定期進(jìn)行重新推薦,提高問答效果。因此,本實(shí)施例還可以定時(shí)地生成新的隱式關(guān)系詞典,如圖8所示,可以定時(shí)收集熱門關(guān)鍵詞、熱門推薦數(shù)據(jù)、人工標(biāo)注的關(guān)鍵詞和返回行為數(shù)據(jù),對(duì)熱門關(guān)鍵詞、熱門推薦數(shù)據(jù)、人工標(biāo)注的關(guān)鍵詞和返回行為數(shù)據(jù)依次進(jìn)行綜合權(quán)重計(jì)算和協(xié)同過濾計(jì)算,生成新的隱式關(guān)系詞典。根據(jù)本實(shí)施例提供的一種數(shù)據(jù)處理方法,獲取待處理的第一數(shù)據(jù),第一數(shù)據(jù)可以為用戶輸入的問題數(shù)據(jù),進(jìn)而根據(jù)自然語言處理引擎抽取第一數(shù)據(jù)的關(guān)鍵詞序列,再根據(jù)協(xié)同過濾引擎確定關(guān)鍵詞序列的推薦數(shù)據(jù),該推薦數(shù)據(jù)可以理解為與第一數(shù)據(jù)相似的問題數(shù)據(jù),最后查詢預(yù)設(shè)的數(shù)據(jù)庫(kù),得到與推薦數(shù)據(jù)匹配的第二數(shù)據(jù),該第二數(shù)據(jù)可以理解為推薦數(shù)據(jù)的答案數(shù)據(jù)。本實(shí)施例在獲取到第一數(shù)據(jù)之后,抽取第一數(shù)據(jù)的關(guān)鍵詞序列,進(jìn)而根據(jù)協(xié)同過濾引擎確定關(guān)鍵詞序列的推薦數(shù)據(jù),再?gòu)念A(yù)設(shè)的數(shù)據(jù)庫(kù)中查找到與推薦數(shù)據(jù)匹配的第二數(shù)據(jù)作為第一數(shù)據(jù)的答案。與傳統(tǒng)的直接從數(shù)據(jù)庫(kù)中查找第一數(shù)據(jù)的相似數(shù)據(jù)不同,本實(shí)施例利用協(xié)同過濾引擎和第一數(shù)據(jù)的關(guān)鍵詞序列確定第一數(shù)據(jù)的相似數(shù)據(jù),即推薦數(shù)據(jù),采用協(xié)同過濾技術(shù)確定第一數(shù)據(jù)的相似數(shù)據(jù),提高了確定相似數(shù)據(jù)的準(zhǔn)確率。當(dāng)?shù)谝粩?shù)據(jù)作為問題數(shù)據(jù),第二數(shù)據(jù)作為答案數(shù)據(jù)時(shí),本實(shí)施例也提高了答案推薦的準(zhǔn)確率。實(shí)施例三圖9示出了根據(jù)本發(fā)明實(shí)施例三的一種數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)框圖。本實(shí)施例提供的一種數(shù)據(jù)處理系統(tǒng)包括:獲取模塊90,用于獲取待處理的第一數(shù)據(jù);抽取模塊91,用于根據(jù)自然語言處理引擎抽取第一數(shù)據(jù)的關(guān)鍵詞序列;確定模塊92,用于根據(jù)協(xié)同過濾引擎確定關(guān)鍵詞序列的推薦數(shù)據(jù);查詢模塊93,用于查詢預(yù)設(shè)的數(shù)據(jù)庫(kù),得到與推薦數(shù)據(jù)匹配的第二數(shù)據(jù)??蛇x地,確定模塊92,用于根據(jù)協(xié)同過濾引擎中的隱式關(guān)系詞典,確定關(guān)鍵詞序列的推薦數(shù)據(jù);其中,隱式關(guān)系詞典包括關(guān)鍵詞與推薦數(shù)據(jù)的隱式關(guān)聯(lián)關(guān)系。可選地,確定模塊92包括:遍歷子模塊920,用于遍歷關(guān)鍵詞序列中的各關(guān)鍵詞,從隱式關(guān)系字典中確定各關(guān)鍵詞的推薦數(shù)據(jù);排序子模塊921,用于將各關(guān)鍵詞的推薦數(shù)據(jù)進(jìn)行評(píng)分排序;確定子模塊921,用于將評(píng)分最高的推薦數(shù)據(jù)確定為關(guān)鍵詞序列的推薦數(shù)據(jù)。可選地,抽取模塊91包括:分詞子模塊910,用于對(duì)第一數(shù)據(jù)進(jìn)行分詞;抽取子模塊911,用于利用詞頻-逆向文件頻率tf-idf方式對(duì)分詞結(jié)果進(jìn)行加權(quán),抽取第一數(shù)據(jù)的關(guān)鍵詞序列。可選地,數(shù)據(jù)處理系統(tǒng)還包括:收集模塊94,用于收集熱門關(guān)鍵詞、熱門推薦數(shù)據(jù)、人工標(biāo)注的關(guān)鍵詞和返回行為數(shù)據(jù);生成模塊95,用于對(duì)熱門關(guān)鍵詞、熱門推薦數(shù)據(jù)、人工標(biāo)注的關(guān)鍵詞和返回行為數(shù)據(jù)依次進(jìn)行綜合權(quán)重計(jì)算和協(xié)同過濾計(jì)算,定時(shí)生成新的隱式關(guān)系詞典。一種可行的實(shí)施方式中,采用本實(shí)施例中技術(shù)方案的一種智能問答系統(tǒng)的邏輯架構(gòu)如圖10所示,包括問答交互界面、協(xié)同過濾引擎、中文自然語言處理引擎和問題-答案知識(shí)庫(kù)。其中,協(xié)同過濾引擎包括關(guān)鍵詞序列、問題序列和關(guān)鍵詞-問題隱式關(guān)系;中文自然語言處理引擎包括中文分詞和關(guān)鍵詞提取。根據(jù)本實(shí)施例提供的一種數(shù)據(jù)處理系統(tǒng),獲取待處理的第一數(shù)據(jù),第一數(shù)據(jù)可以為用戶輸入的問題數(shù)據(jù),進(jìn)而根據(jù)自然語言處理引擎抽取第一數(shù)據(jù)的關(guān)鍵詞序列,再根據(jù)協(xié)同過濾引擎確定關(guān)鍵詞序列的推薦數(shù)據(jù),該推薦數(shù)據(jù)可以理解為與第一數(shù)據(jù)相似的問題數(shù)據(jù),最后查詢預(yù)設(shè)的數(shù)據(jù)庫(kù),得到與推薦數(shù)據(jù)匹配的第二數(shù)據(jù),該第二數(shù)據(jù)可以理解為推薦數(shù)據(jù)的答案數(shù)據(jù)。本實(shí)施例在獲取到第一數(shù)據(jù)之后,抽取第一數(shù)據(jù)的關(guān)鍵詞序列,進(jìn)而根據(jù)協(xié)同過濾引擎確定關(guān)鍵詞序列的推薦數(shù)據(jù),再?gòu)念A(yù)設(shè)的數(shù)據(jù)庫(kù)中查找到與推薦數(shù)據(jù)匹配的第二數(shù)據(jù)作為第一數(shù)據(jù)的答案。與傳統(tǒng)的直接從數(shù)據(jù)庫(kù)中查找第一數(shù)據(jù)的相似數(shù)據(jù)不同,本實(shí)施例利用協(xié)同過濾引擎和第一數(shù)據(jù)的關(guān)鍵詞序列確定第一數(shù)據(jù)的相似數(shù)據(jù),即推薦數(shù)據(jù),采用協(xié)同過濾技術(shù)確定第一數(shù)據(jù)的相似數(shù)據(jù),提高了確定相似數(shù)據(jù)的準(zhǔn)確率。當(dāng)?shù)谝粩?shù)據(jù)作為問題數(shù)據(jù),第二數(shù)據(jù)作為答案數(shù)據(jù)時(shí),本實(shí)施例也提高了答案推薦的準(zhǔn)確率。本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及方法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明實(shí)施例的范圍。以上實(shí)施方式僅用于說明本發(fā)明實(shí)施例,而并非對(duì)本發(fā)明實(shí)施例的限制,有關(guān)
技術(shù)領(lǐng)域
的普通技術(shù)人員,在不脫離本發(fā)明實(shí)施例的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明實(shí)施例的范疇,本發(fā)明實(shí)施例的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。當(dāng)前第1頁(yè)12
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1