專利名稱:一種提問標(biāo)題質(zhì)量判定方法、提問引導(dǎo)方法及其裝置的制作方法
一種提問標(biāo)題質(zhì)量判定方法、提問引導(dǎo)方法及其裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎領(lǐng)域,特別涉及一種提問標(biāo)題質(zhì)量判定方法、提問引導(dǎo)方法及其裝置。
背景技術(shù):
隨著WEB2. O的廣泛應(yīng)用,人們越來越多地利用網(wǎng)絡(luò)來獲取自己想要的知識和信息,與此同時,在互聯(lián)網(wǎng)上興起了大量的知識互動社區(qū)或知識問答平臺。所謂的知識互動社區(qū)或知識問答平臺,是指用戶既可以在該平臺 上進行提問,同時也可以在該平臺上回答其他用戶提問的場所。在知識互動社區(qū)或知識問答平臺里存在大量的問答數(shù)據(jù),因此如何方便用戶回答或檢索這些數(shù)據(jù),是個重要問題。在這些平臺上的提問均有一個標(biāo)題,標(biāo)題的質(zhì)量直接對檢索或回答產(chǎn)生影響,因此對用戶提問的標(biāo)題進行質(zhì)量控制,是一個很重要的工作?,F(xiàn)有技術(shù)在解決這個問題時,通常是采用簡單的策略來進行控制的,例如對用戶提問的標(biāo)題字?jǐn)?shù)進行限制,規(guī)定標(biāo)題的字?jǐn)?shù)不能少于一個閾值,或?qū)τ脩籼釂柕臉?biāo)題里缺乏實際含義的字符進行過濾控制,但是這些做法不能對用戶提問的標(biāo)題進行表意能力的判斷,即雖然有些標(biāo)題的字?jǐn)?shù)超過了規(guī)定的字?jǐn)?shù),但是該標(biāo)題的內(nèi)容卻讓人不知所云,而現(xiàn)有技術(shù)的簡單策略無法識別出這種含義不清晰的標(biāo)題,同時,針對這種低質(zhì)量標(biāo)題的提問,現(xiàn)有技術(shù)也沒有提供一種對提問進行引導(dǎo)的方法。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種提問標(biāo)題質(zhì)量判定的方法、提問引導(dǎo)方法及其裝置,以解決現(xiàn)有技術(shù)不能清晰識別用戶在知識問答平臺上的提問的表意能力較差的標(biāo)題,從而不能很好地控制用戶在知識問答平臺上提問的標(biāo)題的質(zhì)量,導(dǎo)致大量不利于檢索的數(shù)據(jù)進入數(shù)據(jù)庫,增加數(shù)據(jù)庫負(fù)擔(dān)的問題。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種提問標(biāo)題質(zhì)量判定的方法,包括:A.獲取提問的標(biāo)題;B.對所述標(biāo)題結(jié)合語法結(jié)構(gòu)與文本內(nèi)容進行分析,以確定所述標(biāo)題的質(zhì)量。根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟B包括B11.利用關(guān)鍵詞與語法結(jié)構(gòu)結(jié)合的問題模版對所述標(biāo)題進行匹配驗證;B12.計算通過所述驗證的標(biāo)題中包含的表意能力的詞語的個數(shù),當(dāng)所述個數(shù)大于第一閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟B包括B21.利用疑問詞表對所述標(biāo)題進行匹配驗證;B22.計算通過所述驗證的標(biāo)題的有效長度及包含的實詞的個數(shù),當(dāng)所述有效長度大于第二閾值且所述實詞的個數(shù)大于第三閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟B包括B31.利用疑問規(guī)則對所述標(biāo)題進行匹配驗證,其中所述疑問規(guī)則至少包含對詞匯、詞性或位置三者中一種的限制;B32.計算通過所述驗證的標(biāo)題的有效長度及包含的實詞的個數(shù),當(dāng)所述有效長度大于第四閾值且所述實詞的個數(shù)大于第五閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟B進一步包括B41.當(dāng)所述標(biāo)題無法確定為高質(zhì)量標(biāo)題時,對所述標(biāo)題進行語義分析,以獲取所述標(biāo)題的主題;B42.利用分類信息目錄對所述主題進行匹配驗證,并根據(jù)所述主題與所述目錄匹配的層次判斷所述標(biāo)題的質(zhì)量。本發(fā)明還提供了一種提問引導(dǎo)方法,包括a.對提問的標(biāo)題進行檢索,以獲取候選標(biāo)題;b.對所述候選標(biāo)題進行過濾,以得到候選引導(dǎo)標(biāo)題,所述過濾包括采用所述提問標(biāo)題質(zhì)量判定方法對所述候選標(biāo)題進行質(zhì)量判定,并過濾掉所述候選標(biāo)題中除判定為高質(zhì)量標(biāo)題外的其他標(biāo)題;c.計算所述提問的標(biāo)題與所述候選引導(dǎo)標(biāo)題的相關(guān)度,并根據(jù)所述相關(guān)度得到引導(dǎo)標(biāo)題;d.向用戶展示所述引導(dǎo)標(biāo)題,以對用戶的提問進行引導(dǎo)。
根據(jù)本發(fā)明之一優(yōu)選實施例,所述相關(guān)度包括第一相關(guān)度與第二相關(guān)度,其中所述第一相關(guān)度是所述提問的標(biāo)題與所述候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與所述提問的標(biāo)題單獨包含的詞匯個數(shù)之比,所述第二相關(guān)度是所述提問的標(biāo)題與所述候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與所述候選引導(dǎo)標(biāo)題單獨包含的詞匯個數(shù)之比。根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟c中,當(dāng)所述第一相關(guān)度與所述第二相關(guān)度均大于第六閾值時,將所述候選引導(dǎo)標(biāo)題選擇為所述引導(dǎo)標(biāo)題。根據(jù)本發(fā)明之一優(yōu)選實施例,所述方法在所述步驟d前,進一步包括el.當(dāng)所述步驟c中的輸出結(jié)果為零時,對所述提問的標(biāo)題進行語義分析以得到所述標(biāo)題的主題;e2.利用分類信息目錄對所述主題進行匹配驗證,并從相匹配的目錄層次的數(shù)據(jù)庫中抽取預(yù)置數(shù)目的提問標(biāo)題作為所述引導(dǎo)標(biāo)題。本發(fā)明還提供了一種提問標(biāo)題質(zhì)量判定裝置,包括輸入單元,用于獲取提問的標(biāo)題;質(zhì)量判定單元,用于對所述標(biāo)題結(jié)合語法結(jié)構(gòu)與文本內(nèi)容進行分析,以確定所述標(biāo)題的質(zhì)量。根據(jù)本發(fā)明之一優(yōu)選實施例,所述質(zhì)量判定單元包括問題模版驗證單元,用于利用關(guān)鍵詞與語法結(jié)構(gòu)結(jié)合的問題模版對所述標(biāo)題進行匹配驗證;第一確定單元,用于計算通過所述驗證的標(biāo)題中包含的表意能力的詞語的個數(shù),當(dāng)所述個數(shù)大于第一閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。根據(jù)本發(fā)明之一優(yōu)選實施例,所述質(zhì)量判定單元包括疑問詞表驗證單元,用于利用疑問詞表對所述標(biāo)題進行匹配驗證;第二確定單元,用于計算通過所述驗證的標(biāo)題的有效長度及包含的實詞的個數(shù),當(dāng)所述有效長度大于第二閾值且所述實詞的個數(shù)大于第三閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。根據(jù)本發(fā)明之一優(yōu)選實施例,所述質(zhì)量判定單元包括疑問規(guī)則驗證單元,用于利用疑問規(guī)則對所述標(biāo)題進行匹配驗證,其中所述疑問規(guī)則至少包含對詞匯、詞性或位置三者中一種的限制;第三確定單元,用于計算通過所述驗證的標(biāo)題的有效長度及包含的實詞的個數(shù),當(dāng)所述有效長度大于第四閾值且所述實詞的個數(shù)大于第五閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。根據(jù)本發(fā)明之一優(yōu)選實施例,所述質(zhì)量判定單元進一步包括第一語義分析單元,用于當(dāng)所述標(biāo)題無法確定為高質(zhì)量標(biāo)題時,對所述標(biāo)題進行語義分析,以獲取所述標(biāo)題的主題;第四確定單元,用于利用分類信息目錄對所述主題進行匹配驗證,并根據(jù)所述主題與所述目錄匹配的層次判斷所述標(biāo)題的質(zhì)量。本發(fā)明還提供了一種提問引導(dǎo)裝置,包括檢索單元,用于對提問的標(biāo)題進行檢索,以獲取候選標(biāo)題;過濾單元,用于對所述候選標(biāo)題進行過濾,以得到候選引導(dǎo)標(biāo)題,所述過濾包括采用所述提問標(biāo)題質(zhì)量判定裝置對所述候選標(biāo)題進行質(zhì)量判定,并過濾掉所述候選標(biāo)題中除判定為高質(zhì)量標(biāo)題外的其他標(biāo)題;相關(guān)度計算單元,用于計算所述提問的標(biāo)題與所述候選引導(dǎo)標(biāo)題的相關(guān)度,并根據(jù)所述相關(guān)度得到引導(dǎo)標(biāo)題;展示單元,用于向用戶展示所述引導(dǎo)標(biāo)題,以對用戶的提問進行引導(dǎo)。根據(jù)本發(fā)明之一優(yōu)選實施例,所述相關(guān)度包括第一相關(guān)度與第二相關(guān)度,其中所述第一相關(guān)度是所述提問的標(biāo)題與所述候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與所述提問的標(biāo)題單獨包含的詞匯個數(shù)之比,所述第二相關(guān)度是所述提問的標(biāo)題與所述候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與所述候選引導(dǎo)標(biāo)題單獨包含的詞匯個數(shù)之比。
根據(jù)本發(fā)明之一優(yōu)選實施例,當(dāng)所述第一相關(guān)度與所述第二相關(guān)度均大于第六閾值時,所述相關(guān)度計算單元將所述候選引導(dǎo)標(biāo)題選擇為所述引導(dǎo)標(biāo)題。根據(jù)本發(fā)明之一優(yōu)選實施例,所述裝置進一步包括第二語義分析單元,用于當(dāng)所述相關(guān)度計算單元的輸出結(jié)果為零時,對所述提問的標(biāo)題進行語義分析以得到所述標(biāo)題的主題;抽取單元,用于利用分類信息目錄對所述主題進行匹配驗證,并從匹配的目錄層次的數(shù)據(jù)庫中抽取預(yù)置數(shù)目的提問標(biāo)題作為所述引導(dǎo)標(biāo)題。由以上技術(shù)方案可以看出,通過對提問的標(biāo)題結(jié)合語法結(jié)構(gòu)與文本內(nèi)容進行分析,能夠很好地將用戶提問中含義不清晰的標(biāo)題識別出來,并結(jié)合對提問進行引導(dǎo),可以有效地提高數(shù)據(jù)庫中提問的標(biāo)題的質(zhì)量,從而有利于用戶進行檢索或回答,并釋放了數(shù)據(jù)庫中無效提問的存儲空間,減輕了數(shù)據(jù)庫的負(fù)擔(dān),增加了數(shù)據(jù)庫的使用效率。
圖I為本發(fā)明實施例中提問標(biāo)題質(zhì)量判定方法的流程示意圖;圖2為本發(fā)明中提問標(biāo)題質(zhì)量判定方法另一實施例的流程示意圖;圖3為本發(fā)明實施例中疑問規(guī)則建立的方法的流程示意圖;圖4為本發(fā)明實施例中提問引導(dǎo)方法的流程示意圖;圖5為本發(fā)明實施例中提問標(biāo)題質(zhì)量判定裝置的結(jié)構(gòu)示意框圖;圖6為本發(fā)明實施例中提問引導(dǎo)裝置的結(jié)構(gòu)示意框圖。
具體實施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本發(fā)明進行詳細(xì)描述。請參考圖1,圖I為本發(fā)明實施例中提問標(biāo)題質(zhì)量判定方法的流程示意圖。如圖I所示,所述方法100包括步驟101:獲取提問的標(biāo)題;步驟102 :對所述標(biāo)題結(jié)合語法結(jié)構(gòu)與文本內(nèi)容進行分析,以確定所述標(biāo)題的質(zhì)量。下面結(jié)合具體的實施例,對上述方法進行詳細(xì)描述。
請一并參考圖I與圖2,圖2為本發(fā)明中提問標(biāo)題質(zhì)量判定方法另一實施例的流程示意圖。如圖I與圖2所示,步驟SlOl與步驟101對應(yīng),在步驟SlOl中,獲取提問的標(biāo)題,獲取標(biāo)題是進行后續(xù)處理的基礎(chǔ)。由于本發(fā)明既可應(yīng)用在對線下數(shù)據(jù)庫中的提問的標(biāo)題的質(zhì)量判定,也可用于線上對用戶輸入的提問的標(biāo)題的質(zhì)量判斷,所以步驟SlOl中并不限定標(biāo)題的來源。步驟S1021至S1028與步驟102對應(yīng),在本實施例中,對標(biāo)題結(jié)合語法結(jié)構(gòu)與文本內(nèi)容進行分析,是通過四個處理邏輯實現(xiàn)的,分別為問題模版匹配、疑問詞匹配、疑問規(guī)則匹配和分類信息匹配四個方面,對于一個用戶提問的標(biāo)題,只要通過這四個處理邏輯中的任意一個認(rèn)定為高質(zhì)量標(biāo)題,就說明該標(biāo)題是含義清晰的,否則該標(biāo)題就屬于低質(zhì)量標(biāo)題,也就是含義不清晰的標(biāo)題。下面結(jié)合具體的步驟,對上述的四個處理邏輯進行說明。步驟S1021至步驟S1022實現(xiàn)的是問題模版匹配的處理邏輯,其中步驟S1021 :利用關(guān)鍵詞與語法結(jié)構(gòu)結(jié)合的問題模版對標(biāo)題進行匹配驗證。如果標(biāo)題未通過驗證,則執(zhí)行步驟S1023,否則執(zhí)行步驟S1022。所述的問題模版,指的是包含關(guān)鍵詞與語法結(jié)構(gòu)的句子結(jié)構(gòu)定義,其中所述的關(guān)鍵詞通常具有強烈的疑問傾向。以下面這個問題模版為例還能+VP+嗎,其中的VP代表動詞短語,該模版表示標(biāo)題中含有“還能”、“嗎”這樣的關(guān)鍵字,同時在“還能”和“嗎”中間包含動詞短語,當(dāng)一個符合上述要求的標(biāo)題出現(xiàn)時,該標(biāo)題就能通過驗證,例如,“跟有女朋友的前男友還能和好嗎?”這樣一個標(biāo)題,由于符合上述問題模版,將通過驗證。除了動詞短語,還可以在句子中通過短語或名詞短語等語法結(jié)構(gòu)對問題模版中除關(guān)鍵字以外的部分進行限定,在此不再贅述。問題模版中的關(guān)鍵詞具有很強的疑問傾向,這是由于問題模版的關(guān)鍵詞提取是對數(shù)據(jù)庫中的優(yōu)質(zhì)提問的標(biāo)題進行統(tǒng)計分析后得到的,例如,可以將數(shù)據(jù)庫中得到較多用戶回答的提問或在提問生成后在較短時間內(nèi)得到用戶回答的提問提取出來,將這些提問的標(biāo)題進行分詞后統(tǒng)計,通過每個詞在一個標(biāo)題中單獨出現(xiàn)的次數(shù)、與其他詞共同出現(xiàn)的次數(shù),可以計算每個詞在一個標(biāo)題中單獨出現(xiàn)的概率和每個詞與其他詞在一個標(biāo)題中共同出現(xiàn)的概率,這樣就可以選擇單獨出現(xiàn)概率高或共同出現(xiàn)概率高的詞作為問題模版的關(guān)鍵詞。通過對上述提取的包含關(guān)鍵詞的問題進行語法結(jié)構(gòu)的分析,即可以得到完整的問題模版。步驟S1022 :計算通過驗證的標(biāo)題中包含的表意能力的詞語的個數(shù),當(dāng)該個數(shù)大于第一閾值時,確定標(biāo)題為高質(zhì)量標(biāo)題,否則執(zhí)行步驟S1023。步驟S1022是對步驟S1021中通過匹配的標(biāo)題進行進一步地過濾,從而提高高質(zhì)量標(biāo)題的置信度。所述表意能力的詞語,指的是名詞或動詞這樣有實際含義的詞。步驟S1023至步驟S1024實現(xiàn)的是疑問詞匹配的處理邏輯,其中步驟S1023 :利用疑問詞表對標(biāo)題進行匹配驗證。如果標(biāo)題未通過驗證,則執(zhí)行步驟S1025,否則執(zhí)行步驟
S1024。所述的疑問詞表,可以根據(jù)人們語言使用中的常識進行總結(jié),例如哪里、哪些、為什么、怎么樣、如何、誰等等。、步驟S1024 :計算通過驗證的標(biāo)題的有效長度與包含的實詞的個數(shù),當(dāng)有效長度大于第二閾值且實詞的個數(shù)大于第三閾值時,確定標(biāo)題為高質(zhì)量標(biāo)題,否則執(zhí)行步驟S1025。步驟S1024是對步驟S1023中通過匹配的標(biāo)題進行進一步地過濾,從而提高高質(zhì)量標(biāo)題的置信度。標(biāo)題的有效長度,指的是一個標(biāo)題通過分詞后得到的所有詞,去掉停用詞后的詞語個數(shù)。所述的停用詞,指的是諸如“像”、“的”、“啊”、“哎呀”、“按理”等沒有實際意義的詞。標(biāo)題包含的實詞的個數(shù),是在標(biāo)題去掉這些停用詞的基礎(chǔ)上,再去掉一些對提問的含義沒有幫助的詞匯,例如有的用戶常在提問的時候采用“求助”、“高手”、“大俠”這樣的詞語,這些詞語本身對理解提問的內(nèi)容沒有任何的意義,因此考慮實詞的個數(shù)時,也會將這些詞語剔除。第二閾值與第三閾值相當(dāng)于兩個門檻,只有達(dá)到相應(yīng)門檻的標(biāo)題,才確定為高質(zhì)量標(biāo)題。步驟S1025與步驟S1026實現(xiàn)的是疑問規(guī)則匹配的處理邏輯,其中步驟S1025 :利用疑問規(guī)則對標(biāo)題進行匹配驗證,所述疑問規(guī)則至少包含對詞匯、詞性或位置三者中一種的限制。如果標(biāo)題未通過驗證,則執(zhí)行步驟S1027,否則執(zhí)行步驟S1026。
所述詞匯的限制,指的是定義一個具體詞語的限制,例如以下面這種結(jié)構(gòu)來表示一條規(guī)則應(yīng)/1+不/1+應(yīng)該/I,其中“應(yīng)”、“不”、“應(yīng)該”都是具體的詞語,表示在標(biāo)題中出現(xiàn)“應(yīng)不應(yīng)該”這樣的詞語,而規(guī)則中的數(shù)字“I”可以理解為一個代號,代表的是“應(yīng)”、“不”、“應(yīng)該”都是關(guān)于詞匯的限制,例如“吃完飯后應(yīng)不應(yīng)該吃水果? ”這樣一個標(biāo)題就符合上面所述的規(guī)則。所述詞性的限制,指的是限制句子中的部分詞語的詞性,例如下面這條規(guī)則那/1+名詞/2,指的是在標(biāo)題中出現(xiàn)“那”這樣的詞語,同時在那后面出現(xiàn)一個詞性為名詞的詞語,例如“那蘋果像是行貨嗎? ”這樣一個標(biāo)題就符合上面所述的規(guī)則。規(guī)則中的數(shù)字“I”表示“那”的限制是一個具體詞匯的限制,而數(shù)字“2”表示“名詞”代表的是詞性的限制,而不是表示在標(biāo)題中需要出現(xiàn)“名詞”這樣的詞匯。所述位置的限制,指的是限制一個具體的詞語或某種詞性的詞語處于標(biāo)題中的位置。例如下面這條規(guī)則含義/1+末尾/3,指的是在標(biāo)題中出現(xiàn)“含義”這樣的詞語,同時該詞語出現(xiàn)在標(biāo)題的末尾,“我想知道臺風(fēng)的‘臺’字的含義”這樣一個標(biāo)題就符合上述規(guī)則。規(guī)則中的數(shù)字“I”表示“含義”的限制是一個具體詞匯的限制,而數(shù)字“3”表示對“含義”這個詞匯出現(xiàn)的位置進行限制,“3”在所舉例子里面代表處于末尾這樣的位置。位置的限制除了所舉例子里位于末尾的這種情況外,還有位于起始、位于某個詞語兩側(cè)等等,只要規(guī)則中帶有位置信息,都可以理解為對位置的限制,在此不一一列舉。以上例子中的數(shù)字“1”、“2”、“3”只是為了說明本發(fā)明采用的示意性地描述,實際上任何具有代表意義的符號都可采用。另外,在限制規(guī)則中,可以對詞匯、詞性或位置的限制進行任意組合,并不限于前文所舉例子中的幾種情況。疑問規(guī)則的建立,是通過對數(shù)據(jù)庫中的數(shù)據(jù)進行統(tǒng)計分析后得到的,請參考圖3,圖3為本發(fā)明實施例中疑問規(guī)則建立的方法的流程示意圖。如圖3所示,建立疑問規(guī)則的方法包括步驟201 :根據(jù)疑問詞表從數(shù)據(jù)庫中抽取包含相同疑問詞的優(yōu)質(zhì)提問標(biāo)題,以形成相同疑問詞的標(biāo)題集合。疑問詞表就是如步驟S1023中所述的根據(jù)常識可以總結(jié)出來的具有疑問傾向的詞語的集合。例如疑問詞表中有“哪里”這個疑問詞,步驟201就從數(shù)據(jù)庫中將包含“哪里”這個疑問詞的所有優(yōu)質(zhì)提問標(biāo)題抽取出來。優(yōu)質(zhì)標(biāo)題的判斷可以基于一定的策略進行,例如根據(jù)提問的回答個數(shù)、提問獲取到回答的時間或提問被點擊的次數(shù)等等。步驟201在對優(yōu)質(zhì)提問的標(biāo)題進行抽取后,針對每一個疑問詞,就可以形成與該疑問詞有關(guān)的標(biāo)題集合。步驟202 :統(tǒng)計標(biāo)題集合中的頻繁項特征,以得到統(tǒng)計結(jié)果,其中所述特征包括詞匯、詞性或位置。頻繁項指的是分詞后統(tǒng)計出現(xiàn)頻率較高的詞語,其本身就構(gòu)成了詞匯這一特征,分析其出現(xiàn)的位置即可得到位置特征,分析其與其他詞語的連接關(guān)系即可得到詞性特征。步驟203 :根據(jù)統(tǒng)計結(jié)果生成疑問規(guī)則。通過對統(tǒng)計結(jié)果設(shè)置閾值,可將最具共性的標(biāo)題特點挑選出來,通過進一步地人工審核,則可以得到相應(yīng)的疑問規(guī)則。請繼續(xù)參閱圖2。步驟S1026 :計算通過驗證的標(biāo)題的有效長度與包含的實詞的個數(shù),當(dāng)有效長度大于第四閾值且實詞的個數(shù)大于第五閾值時,確定標(biāo)題為高質(zhì)量標(biāo)題,否則執(zhí)行步驟S1027。步驟S1026與步驟S1024類似,是為了對步驟S1025中通過匹配的標(biāo)題進 行進一步地過濾,其中的第四閾值與第五閾值可以設(shè)置為與第二閾值和第三閾值相同,也可以不同。步驟S1027至步驟S1028實現(xiàn)的是分類信息匹配的處理邏輯,其中步驟S1027 :對標(biāo)題進行語義分析,以獲取標(biāo)題的主題。對標(biāo)題進行語義分析可采用現(xiàn)有技術(shù)進行,在此不再贅述。步驟S1028 :利用分類信息目錄對主題進行匹配驗證,并根據(jù)主題與目錄匹配的層次判斷標(biāo)題的質(zhì)量。分類信息目錄是科學(xué)體系的分類層次結(jié)構(gòu),例如第一層為計算機、體育、社會這樣的認(rèn)知體系的大范圍,在計算機、體育、社會的范圍下再進一步細(xì)分,可得到第二層,例如計算機還可以分為筆記本、臺式機、平板電腦等等。在第二層之下還可以進一步細(xì)分出第三層,以此類推。當(dāng)標(biāo)題的主題匹配到分類信息目錄第一層時,認(rèn)為該標(biāo)題是低質(zhì)量的,也就是不清晰的,當(dāng)標(biāo)題的主題匹配到第二層及以下各層時,可通過過濾策略進一步判斷標(biāo)題是否是高質(zhì)量的,例如為每一層次設(shè)置一個實詞閾值的限制,當(dāng)標(biāo)題匹配到某個層次,其包含的實詞的個數(shù)又超過該層次設(shè)置的閾值,就認(rèn)為標(biāo)題是高質(zhì)量的,否則就是不清晰的。當(dāng)匹配的層次越小,說明標(biāo)題的語義就越清楚,因此為實詞設(shè)置的閾值就可越小。值得注意的是,對提問標(biāo)題的質(zhì)量判定,本實施例同時采用問題模版匹配、疑問詞匹配、疑問規(guī)則匹配和分類信息匹配這四個處理邏輯及其處理順序僅為示范性描述,在本發(fā)明的其他實施例中,對這四個處理邏輯任意組合及安排處理順序,都可實現(xiàn)提問標(biāo)題質(zhì)量判定。通過本發(fā)明提供的方法,實驗數(shù)據(jù)表明,不清晰的標(biāo)題的判定精確率為87%,清晰問題誤判率為3%,不清晰問題召回率為60%,說明本發(fā)明取得了較好的判定效果。請參考圖4,圖4為本發(fā)明實施例中提問引導(dǎo)方法的流程示意圖。如圖4所示,所述方法300包括步驟301 :對提問的標(biāo)題進行檢索,以獲取候選標(biāo)題,即以用戶提問的標(biāo)題為關(guān)鍵字,在搜索引擎的數(shù)據(jù)庫中進行檢索,找到數(shù)據(jù)庫中包含該關(guān)鍵字的所有標(biāo)題,以這些標(biāo)題作為候選標(biāo)題。
步驟302 :對候選標(biāo)題進行過濾,以得到候選引導(dǎo)標(biāo)題。對候選標(biāo)題進行過濾,主要是為了過濾掉一些重復(fù)的標(biāo)題以及低質(zhì)量的標(biāo)題。由于數(shù)據(jù)庫中的數(shù)據(jù)來自于不同用戶,因此,有可能出現(xiàn)不同的用戶提交了相同的問題,這樣就會出現(xiàn)一些重復(fù)數(shù)據(jù),因此對這些重復(fù)的標(biāo)題,只要保留一個即可。對低質(zhì)量的標(biāo)題進行過濾,采用的方法包括對標(biāo)題的質(zhì)量進行判定以及去除相應(yīng)的低質(zhì)量標(biāo)題。對標(biāo)題的質(zhì)量判定,可采用前文所述的方法100進行,在方法100中除了判定為高質(zhì)量標(biāo)題以外的其他標(biāo)題,都是低質(zhì)量標(biāo)題,將給予過濾。步驟303 :計算提問的標(biāo)題與候選引導(dǎo)標(biāo)題的相關(guān)度,并根據(jù)相關(guān)度得到引導(dǎo)標(biāo)題。相關(guān)度包括兩個方面的度量,稱為第一相關(guān)度和第二相關(guān)度,其中第一相關(guān)度指 的是提問的標(biāo)題與候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與提問的標(biāo)題單獨包含的詞匯個數(shù)之比,第二相關(guān)度指的是提問的標(biāo)題與候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與候選引導(dǎo)標(biāo)題單獨包含的詞匯個數(shù)之比。例如,提問的標(biāo)題是“中國的四大是什么”,候選弓丨導(dǎo)標(biāo)題是“中國人愛吃的四大菜系,是誰發(fā)明的”,這兩個標(biāo)題分詞后分別為“中國、的、四、大、是、什么”和“中國、人、愛吃、的、四、大、菜系、是、誰、發(fā)明、的”,那么提問的標(biāo)題和候選引導(dǎo)標(biāo)題共同包含的詞匯就是“中國、的、四、大、是”,因此提問的標(biāo)題和候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)是5,提問的標(biāo)題單獨包含的詞匯個數(shù)是6,候選引導(dǎo)標(biāo)題單獨包含的詞匯個數(shù)是11,第一相關(guān)度就是5/6,第二相關(guān)度就是5/11。當(dāng)?shù)谝幌嚓P(guān)度與第二相關(guān)度均大于規(guī)定的閾值時,就認(rèn)為提問的標(biāo)題與候選弓I導(dǎo)標(biāo)題相關(guān),從而將候選引導(dǎo)標(biāo)題選擇為引導(dǎo)標(biāo)題。仍以上面的例子說明,如果還有一個候選引導(dǎo)標(biāo)題為“中國的四大發(fā)明是什么”,其包含的詞匯為“中國、的、四、大、發(fā)明、是、什么”,與提問的標(biāo)題“中國的四大是什么”包含的相同的詞匯為“中國、的、四、大、是、什么”,那么第一相關(guān)度為6/6,第二相關(guān)度為6/7,如果閾值設(shè)為O. 8,那么對于候選引導(dǎo)標(biāo)題“中國的四大發(fā)明是什么”來說,其第一相關(guān)度與第二相關(guān)度都大于了規(guī)定的閾值,因此會成為引導(dǎo)標(biāo)題,但是對于候選引導(dǎo)標(biāo)題“中國人愛吃的四大菜系,是誰發(fā)明的”,雖然其第一相關(guān)度大于規(guī)定的閾值,但是其第二相關(guān)度卻小于規(guī)定的閾值,因此不會成為引導(dǎo)標(biāo)題。步驟304:向用戶展示引導(dǎo)標(biāo)題,以對用戶的提問進行引導(dǎo)。也就是在用戶交互的界面,將引導(dǎo)標(biāo)題以一定的順序排列后供用戶選擇,排序的依據(jù)可以是步驟303中計算的相關(guān)度大小,也可以與其他策略相結(jié)合。所述方法300在步驟304前還可進一步包括步驟305 :當(dāng)步驟303中得到的引導(dǎo)標(biāo)題的數(shù)量為零時,對提問的標(biāo)題進行語義分析以得到標(biāo)題的主題。語義分析可采用現(xiàn)有技術(shù)進行,在此不再贅述。步驟306 :利用分類信息目錄對主題進行匹配驗證,并從匹配的目錄層次的數(shù)據(jù)庫中抽取預(yù)置數(shù)目的提問標(biāo)題作為引導(dǎo)標(biāo)題。例如提問的標(biāo)題為“我到蛾眉山什么泉”,由于在步驟303中得到的引導(dǎo)標(biāo)題數(shù)目為零,那么通過步驟305的語義分析,得到的主題為四川,那么就從“旅游-四川”的目錄層次的數(shù)據(jù)庫中抽取一定數(shù)目的提問標(biāo)題作為引導(dǎo)標(biāo)題。請參考圖5,圖5為本發(fā)明實施例中提問標(biāo)題質(zhì)量判定裝置的結(jié)構(gòu)示意框圖。如圖5所示,所述裝置400包括
輸入單元401,用于獲取提問的標(biāo)題;質(zhì)量判定單元402,用于對所述標(biāo)題結(jié)合語法結(jié)構(gòu)與文本內(nèi)容進行分析,以確定所述標(biāo)題的質(zhì)量。在本實施例中,對標(biāo)題結(jié)合語法結(jié)構(gòu)與文本內(nèi)容進行分析,是通過四個處理邏輯實現(xiàn)的,分別為問題模版匹配、疑問詞匹配、疑問規(guī)則匹配和分類信息匹配四個方面,對于一個用戶提問的標(biāo)題,只要通過這四個處理邏輯中的任意一個認(rèn)定為高質(zhì)量標(biāo)題,就說明該標(biāo)題是含義清晰的,否則該標(biāo)題就屬于低質(zhì)量標(biāo)題,也就是含義不清晰的標(biāo)題。在本實施例中,質(zhì)量判斷單元402包括問題模版驗證單元4021、第一確認(rèn)單元
4022、疑問詞表驗證單元4023、第二確認(rèn)單元4024、疑問規(guī)則驗證單元4025、第三確認(rèn)單元4026、語義分析單元4027和第四確認(rèn)單元4028。其中問題模版驗證單元4021、第一確認(rèn)單元4022對應(yīng)問題模版匹配處理邏輯,疑問詞表驗證單元4023、第二確認(rèn)單元4024對應(yīng)疑問詞匹配處理邏輯,疑問規(guī)則驗證單元4025、第三確認(rèn)單元4026對應(yīng)疑問規(guī)則匹配處理邏 輯,語義分析單元4027、第四確認(rèn)單元4028對應(yīng)分類信息匹配處理邏輯。下面對每個具體單元進行詳細(xì)說明。問題模版驗證單元4021,用于利用關(guān)鍵詞與語法結(jié)構(gòu)結(jié)合的問題模版對標(biāo)題進行匹配驗證,通過驗證的標(biāo)題會傳遞到第一確認(rèn)單元4022,否則傳遞到疑問詞表驗證單元
4023。所述的問題模版,指的是包含關(guān)鍵詞與語法結(jié)構(gòu)的句子結(jié)構(gòu)定義,其中所述的關(guān)鍵詞通常具有強烈的疑問傾向。以下面這個問題模版為例還能+VP+嗎,其中的VP代表動詞短語,該模版表示標(biāo)題中含有“還能”、“嗎”這樣的關(guān)鍵字,同時在“還能”和“嗎”中間包含動詞短語,當(dāng)一個符合上述要求的標(biāo)題出現(xiàn)時,該標(biāo)題就能通過驗證,例如,“跟有女朋友的前男友還能和好嗎?”這樣一個標(biāo)題,由于符合上述問題模版,將通過驗證。除了動詞短語,還可以在句子中通過短語或名詞短語等語法結(jié)構(gòu)對問題模版中除關(guān)鍵字以外的部分進行限定,在此不再贅述。問題模版中的關(guān)鍵詞具有很強的疑問傾向,這是由于問題模版的關(guān)鍵詞提取是對數(shù)據(jù)庫中的優(yōu)質(zhì)提問的標(biāo)題進行統(tǒng)計分析后得到的,例如,可以將數(shù)據(jù)庫中得到較多用戶回答的提問或在提問生成后在較短時間內(nèi)得到用戶回答的提問提取出來,將這些提問的標(biāo)題進行分詞后統(tǒng)計,通過每個詞在一個標(biāo)題中單獨出現(xiàn)的次數(shù)、與其他詞共同出現(xiàn)的次數(shù),可以計算每個詞在一個標(biāo)題中單獨出現(xiàn)的概率和每個詞與其他詞在一個標(biāo)題中共同出現(xiàn)的概率,這樣就可以選擇單獨出現(xiàn)概率高或共同出現(xiàn)概率高的詞作為問題模版的關(guān)鍵詞。通過對上述提取的包含關(guān)鍵詞的問題進行語法結(jié)構(gòu)的分析,即可以得到完整的問題模版。第一確認(rèn)單元4022,用于計算通過問題模版驗證單元4021驗證的標(biāo)題中包含的表意能力的詞語的個數(shù),當(dāng)該個數(shù)大于第一閾值時,確定標(biāo)題為高質(zhì)量標(biāo)題,否則將標(biāo)題傳遞至疑問詞表驗證單元4023。所述表意能力的詞語,指的是名詞或動詞這樣有實際含義的
ο疑問詞表驗證單元4023,用于利用疑問詞表對標(biāo)題進行匹配驗證。通過驗證的標(biāo)題將傳遞至第二確認(rèn)單元4024,否則傳遞至疑問規(guī)則驗證單元4025。所述的疑問詞表,可以根據(jù)人們語言使用中的常識進行總結(jié),例如哪里、哪些、為什么、怎么樣、如何、誰等等。第二確認(rèn)單元4024,用于計算通過疑問詞表驗證單元4023驗證的標(biāo)題的有效長度與包含的實詞的個數(shù),當(dāng)有效長度大于第二閾值且實詞的個數(shù)大于第三閾值時,確定標(biāo)題為高質(zhì)量標(biāo)題,否則將標(biāo)題傳遞至疑問規(guī)則驗證單元4025。標(biāo)題的有效長度,指的是一個標(biāo)題通過分詞后得到的所有詞,去掉停用詞后的詞語個數(shù)。所述的停用詞,指的是諸如“像”、“的”、“啊”、“哎呀”、“按理”等沒有實際意義的詞。標(biāo)題包含的實詞的個數(shù),是在標(biāo)題去掉這些停用詞的基礎(chǔ)上,再去掉一些對提問的含義沒有幫助的詞匯,例如有的用戶常在提問的時候采用“求助”、“高手”、“大俠”這樣的詞語,這些詞語本身對理解提問的內(nèi)容沒有任何的意義,因此考慮實詞的個數(shù)時,也會將這些詞語剔除。第二閾值與第三閾值相當(dāng)于兩個門檻,只有達(dá)到相應(yīng)門檻的標(biāo)題,第二確認(rèn)單元4024才確定為高質(zhì)量標(biāo)題。疑問規(guī)則驗證單元4025,用于利用疑問規(guī)則對標(biāo)題進行匹配驗證,所述疑問規(guī)則至少包含對詞匯、詞性或位置三者中一種的限制。通過驗證的標(biāo)題將傳遞至第三確認(rèn)單元4026,否則傳遞至語義分析單元4027。所述詞匯的限制,指的是定義一個具體詞語的限制,例如以下面這種結(jié)構(gòu)來表示一條規(guī)則應(yīng)/1+不/1+應(yīng)該/I,其中“應(yīng)”、“不”、“應(yīng)該”都是具體的詞語, 表示在標(biāo)題中出現(xiàn)“應(yīng)不應(yīng)該”這樣的詞語,而規(guī)則中的數(shù)字“I”可以理解為一個代號,代表的是“應(yīng)”、“不”、“應(yīng)該”都是關(guān)于詞匯的限制,例如“吃完飯后應(yīng)不應(yīng)該吃水果? ”這樣一個標(biāo)題就符合上面所述的規(guī)則。所述詞性的限制,指的是限制句子中的部分詞語的詞性,例如下面這條規(guī)則那/1+名詞/2,指的是在標(biāo)題中出現(xiàn)“那”這樣的詞語,同時在那后面出現(xiàn)一個詞性為名詞的詞語,例如“那蘋果像是行貨嗎? ”這樣一個標(biāo)題就符合上面所述的規(guī)則。規(guī)則中的數(shù)字“I”表示“那”的限制是一個具體詞匯的限制,而數(shù)字“2”表示“名詞”代表的是詞性的限制,而不是表示在標(biāo)題中需要出現(xiàn)“名詞”這樣的詞匯。所述位置的限制,指的是限制一個具體的詞語或某種詞性的詞語處于標(biāo)題中的位置。例如下面這條規(guī)則含義/1+末尾/3,指的是在標(biāo)題中出現(xiàn)“含義”這樣的詞語,同時該詞語出現(xiàn)在標(biāo)題的末尾,“我想知道臺風(fēng)的‘臺’字的含義”這樣一個標(biāo)題就符合上述規(guī)則。規(guī)則中的數(shù)字“ I ”表示“含義”的限制是一個具體詞匯的限制,而數(shù)字“3”表示對“含義”這個詞匯出現(xiàn)的位置進行限制,“3”在所舉例子里面代表處于末尾這樣的位置。位置的限制除了所舉例子里位于末尾的這種情況外,還有位于起始、位于某個詞語兩側(cè)等等,只要規(guī)則中帶有位置信息,都可以理解為對位置的限制,在此不一一列舉。以上例子中的數(shù)字“1”、“2”、“3”只是為了說明本發(fā)明采用的示意性地描述,實際上任何具有代表意義的符號都可采用。另外,在限制規(guī)則中,可以對詞匯、詞性或位置的限制進行任意組合,并不限于前文所舉例子中的幾種情況。第三確認(rèn)單元4026,用于計算通過疑問規(guī)則驗證單元4025驗證的標(biāo)題的有效長度與包含的實詞的個數(shù),當(dāng)有效長度大于第四閾值且實詞的個數(shù)大于第五閾值時,確定標(biāo)題為高質(zhì)量標(biāo)題,否則將標(biāo)題傳遞至語義分析單元4027。第四閾值與第五閾值可以設(shè)置為與第二閾值和第三閾值相同,也可以不同。語義分析單元4027,用于對標(biāo)題進行語義分析,以獲取標(biāo)題的主題。對標(biāo)題進行語義分析可采用現(xiàn)有技術(shù)進行,在此不再贅述。第四確認(rèn)單元4028,用于利用分類信息目錄對語義分析單元4027得到的主題進行匹配驗證,并根據(jù)主題與目錄匹配的層次判斷標(biāo)題的質(zhì)量。
分類信息目錄是科學(xué)體系的分類層次結(jié)構(gòu),例如第一層為計算機、體育、社會這樣的認(rèn)知體系的大范圍,在計算機、體育、社會的范圍下再進一步細(xì)分,可得到第二層,例如計算機還可以分為筆記本、臺式機、平板電腦等等。在第二層之下還可以進一步細(xì)分出第三層,以此類推。當(dāng)標(biāo)題的主題匹配到分類信息目錄第一層時,認(rèn)為該標(biāo)題是低質(zhì)量的,也就是不清晰的,當(dāng)標(biāo)題的主題匹配到第二層及以下各層時,可通過過濾策略進一步判斷標(biāo)題是否是高質(zhì)量的,例如為每一層次設(shè)置一個實詞閾值的限制,當(dāng)標(biāo)題匹配到某個層次,其包含的實詞的個數(shù)又超過該層次設(shè)置的閾值,就認(rèn)為標(biāo)題是高質(zhì)量的,否則就是不清晰的。當(dāng)匹配的層次越小,說明標(biāo)題的語義就越清楚,因此為實詞設(shè)置的閾值就可越小。通過質(zhì)量判斷單元402處理后不能判定為高質(zhì)量標(biāo)題的,都是低質(zhì)量標(biāo)題,也就是含義不清晰的標(biāo)題。值得注意的是,對提問標(biāo)題的質(zhì)量判定,本實施例同時采用問題模版匹配、疑問詞匹配、疑問規(guī)則匹配和分類信息匹配這四個處理邏輯及其處理順序僅為示范性描述,在本發(fā)明的其他實施例中,對這四個處理邏輯任意組合及安排處理順序,都可實現(xiàn)提問標(biāo)題質(zhì)量判定。 請參考圖6,圖6為本發(fā)明實施例中提問引導(dǎo)裝置的結(jié)構(gòu)示意框圖。如圖6所示,所述裝置500包括檢索單元501、過濾單元502、相關(guān)度計算單元503、展示單元504、語義分析單元505、抽取單元506。其中檢索單元501,用于對提問的標(biāo)題進行檢索,以獲取候選標(biāo)題,即以用戶提問的標(biāo)題為關(guān)鍵字,在搜索引擎的數(shù)據(jù)庫中進行檢索,找到數(shù)據(jù)庫中包含該關(guān)鍵字的所有標(biāo)題,以這些標(biāo)題作為候選標(biāo)題。過濾單元502,用于對候選標(biāo)題進行過濾,以得到候選引導(dǎo)標(biāo)題。對候選標(biāo)題進行過濾,主要是為了過濾掉一些重復(fù)的標(biāo)題以及低質(zhì)量的標(biāo)題。由于數(shù)據(jù)庫中的數(shù)據(jù)來自于不同用戶,因此,有可能出現(xiàn)不同的用戶提交了相同的問題,這樣就會出現(xiàn)一些重復(fù)數(shù)據(jù),因此對這些重復(fù)的標(biāo)題,只要保留一個即可。對低質(zhì)量的標(biāo)題進行過濾,可采用前文所述的裝置400進行,除了裝置400判定為高質(zhì)量標(biāo)題以外的其他標(biāo)題,都是低質(zhì)量標(biāo)題,將給予過濾。相關(guān)度計算單元503,用于計算提問的標(biāo)題與候選引導(dǎo)標(biāo)題的相關(guān)度,并根據(jù)相關(guān)度得到引導(dǎo)標(biāo)題。相關(guān)度包括兩個方面的度量,稱為第一相關(guān)度和第二相關(guān)度,其中第一相關(guān)度指的是提問的標(biāo)題與候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與提問的標(biāo)題單獨包含的詞匯個數(shù)之比,第二相關(guān)度指的是提問的標(biāo)題與候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與候選引導(dǎo)標(biāo)題單獨包含的詞匯個數(shù)之比。例如,提問的標(biāo)題是“中國的四大是什么”,候選引導(dǎo)標(biāo)題是“中國人愛吃的四大菜系,是誰發(fā)明的”,這兩個標(biāo)題分詞后分別為“中國、的、四、大、是、什么”和“中國、人、愛吃、的、四、大、菜系、是、誰、發(fā)明、的”,那么提問的標(biāo)題和候選引導(dǎo)標(biāo)題共同包含的詞匯就是“中國、的、四、大、是”,因此提問的標(biāo)題和候選弓I導(dǎo)標(biāo)題共同包含的詞匯個數(shù)是5,提問的標(biāo)題單獨包含的詞匯個數(shù)是6,候選引導(dǎo)標(biāo)題單獨包含的詞匯個數(shù)是11,第一相關(guān)度就是5/6,第二相關(guān)度就是5/11。當(dāng)?shù)谝幌嚓P(guān)度與第二相關(guān)度均大于規(guī)定的閾值時,就認(rèn)為提問的標(biāo)題與候選弓I導(dǎo)標(biāo)題相關(guān),從而將候選引導(dǎo)標(biāo)題選擇為引導(dǎo)標(biāo)題。仍以上面的例子說明,如果還有一個候選引導(dǎo)標(biāo)題為“中國的四大發(fā)明是什么”,其包含的詞匯為“中國、的、四、大、發(fā)明、是、什么”,與提問的標(biāo)題“中國的四大是什么”包含的相同的詞匯為“中國、的、四、大、是、什么”,那么第一相關(guān)度為6/6,第二相關(guān)度為6/7,如果閾值設(shè)為O. 8,那么對于候選引導(dǎo)標(biāo)題“中國的四大發(fā)明是什么”來說,其第一相關(guān)度與第二相關(guān)度都大于了規(guī)定的閾值,因此會成為引導(dǎo)標(biāo)題,但是對于候選引導(dǎo)標(biāo)題“中國人愛吃的四大菜系,是誰發(fā)明的”,雖然其第一相關(guān)度大于規(guī)定的閾值,但是其第二相關(guān)度卻小于規(guī)定的閾值,因此不會成為引導(dǎo)標(biāo)題。展示單元504,用于向用戶展示引導(dǎo)標(biāo)題,以對用戶的提問進行引導(dǎo)。也就是在用戶交互的界面,將引導(dǎo)標(biāo)題以一定的順序排列后供用戶選擇,排序的依據(jù)可以是相關(guān)度計算單元503中計算的相關(guān)度大小,也可以與其他策略相結(jié)合。語義分析單元505,用于當(dāng)相關(guān)度計算單元503輸出的引導(dǎo)標(biāo)題的數(shù)量為零時,對提問的標(biāo)題進行語義分析以得到標(biāo)題的主題。語義分析可采用現(xiàn)有技術(shù)進行,在此不再贅述。
抽取單元506,用于利用分類信息目錄對主題進行匹配驗證,并從匹配的目錄層次的數(shù)據(jù)庫中抽取預(yù)置數(shù)目的提問標(biāo)題作為引導(dǎo)標(biāo)題。例如提問的標(biāo)題為“我到蛾眉山什么泉”,由于相關(guān)度計算單元503得到的引導(dǎo)標(biāo)題數(shù)目為零,那么通過語義分析單元505的分析,得到的主題為四川,那么就從“旅游-四川”的目錄層次的數(shù)據(jù)庫中抽取一定數(shù)目的提問標(biāo)題作為引導(dǎo)標(biāo)題。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明保護的范圍之內(nèi)。
權(quán)利要求
1.一種提問標(biāo)題質(zhì)量判定方法,其特征在于,所述方法包括 A.獲取提問的標(biāo)題; B.對所述標(biāo)題結(jié)合語法結(jié)構(gòu)與文本內(nèi)容進行分析,以確定所述標(biāo)題的質(zhì)量。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B包括 Bll.利用關(guān)鍵詞與語法結(jié)構(gòu)結(jié)合的問題模版對所述標(biāo)題進行匹配驗證; B12.計算通過所述驗證的標(biāo)題中包含的表意能力的詞語的個數(shù),當(dāng)所述個數(shù)大于第一閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B包括 B21.利用疑問詞表對所述標(biāo)題進行匹配驗證; B22.計算通過所述驗證的標(biāo)題的有效長度及包含的實詞的個數(shù),當(dāng)所述有效長度大于第二閾值且所述實詞的個數(shù)大于第三閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B包括 B31.利用疑問規(guī)則對所述標(biāo)題進行匹配驗證,其中所述疑問規(guī)則至少包含對詞匯、詞性或位置三者中一種的限制; B32.計算通過所述驗證的標(biāo)題的有效長度及包含的實詞的個數(shù),當(dāng)所述有效長度大于第四閾值且所述實詞的個數(shù)大于第五閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。
5.根據(jù)權(quán)利要求2至4中任一權(quán)項所述的方法,其特征在于,所述步驟B進一步包括 B41.當(dāng)所述標(biāo)題無法確定為高質(zhì)量標(biāo)題時,對所述標(biāo)題進行語義分析,以獲取所述標(biāo)題的主題; B42.利用分類信息目錄對所述主題進行匹配驗證,并根據(jù)所述主題與所述目錄匹配的層次判斷所述標(biāo)題的質(zhì)量。
6.一種提問引導(dǎo)方法,其特征在于,所述方法包括 a.對提問的標(biāo)題進行檢索,以獲取候選標(biāo)題; b.對所述候選標(biāo)題進行過濾,以得到候選引導(dǎo)標(biāo)題,所述過濾包括采用權(quán)利要求I至4中任一權(quán)項所述的方法對所述候選標(biāo)題進行質(zhì)量判定,并過濾掉所述候選標(biāo)題中除判定為高質(zhì)量標(biāo)題外的其他標(biāo)題; c.計算所述提問的標(biāo)題與所述候選引導(dǎo)標(biāo)題的相關(guān)度,并根據(jù)所述相關(guān)度得到引導(dǎo)標(biāo)題; d.向用戶展示所述引導(dǎo)標(biāo)題,以對用戶的提問進行引導(dǎo)。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述相關(guān)度包括第一相關(guān)度與第二相關(guān)度,其中所述第一相關(guān)度是所述提問的標(biāo)題與所述候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與所述提問的標(biāo)題單獨包含的詞匯個數(shù)之比,所述第二相關(guān)度是所述提問的標(biāo)題與所述候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與所述候選引導(dǎo)標(biāo)題單獨包含的詞匯個數(shù)之比。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述步驟c中,當(dāng)所述第一相關(guān)度與所述第二相關(guān)度均大于第六閾值時,將所述候選引導(dǎo)標(biāo)題選擇為所述引導(dǎo)標(biāo)題。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法在所述步驟d前,進一步包括 el.當(dāng)所述步驟c中的輸出結(jié)果為零時,對所述提問的標(biāo)題進行語義分析以得到所述標(biāo)題的主題; e2.利用分類信息目錄對所述主題進行匹配驗證,并從相匹配的目錄層次的數(shù)據(jù)庫中抽取預(yù)置數(shù)目的提問標(biāo)題作為所述引導(dǎo)標(biāo)題。
10.一種提問標(biāo)題質(zhì)量判定裝置,其特征在于,所述裝置包括 輸入單元,用于獲取提問的標(biāo)題; 質(zhì)量判定單元,用于對所述標(biāo)題結(jié)合語法結(jié)構(gòu)與文本內(nèi)容進行分析,以確定所述標(biāo)題的質(zhì)量。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述質(zhì)量判定單元包括 問題模版驗證單元,用于利用關(guān)鍵詞與語法結(jié)構(gòu)結(jié)合的問題模版對所述標(biāo)題進行匹配驗證; 第一確定單元,用于計算通過所述驗證的標(biāo)題中包含的表意能力的詞語的個數(shù),當(dāng)所述個數(shù)大于第一閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。
12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述質(zhì)量判定單元包括 疑問詞表驗證單元,用于利用疑問詞表對所述標(biāo)題進行匹配驗證; 第二確定單元,用于計算通過所述驗證的標(biāo)題的有效長度及包含的實詞的個數(shù),當(dāng)所述有效長度大于第二閾值且所述實詞的個數(shù)大于第三閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。
13.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述質(zhì)量判定單元包括 疑問規(guī)則驗證單元,用于利用疑問規(guī)則對所述標(biāo)題進行匹配驗證,其中所述疑問規(guī)則至少包含對詞匯、詞性或位置三者中一種的限制; 第三確定單元,用于計算通過所述驗證的標(biāo)題的有效長度及包含的實詞的個數(shù),當(dāng)所述有效長度大于第四閾值且所述實詞的個數(shù)大于第五閾值時,確定所述標(biāo)題為高質(zhì)量標(biāo)題。
14.根據(jù)權(quán)利要求11至13中任一權(quán)項所述的裝置,其特征在于,所述質(zhì)量判定單元進一步包括 第一語義分析單元,用于當(dāng)所述標(biāo)題無法確定為高質(zhì)量標(biāo)題時,對所述標(biāo)題進行語義分析,以獲取所述標(biāo)題的主題; 第四確定單元,用于利用分類信息目錄對所述主題進行匹配驗證,并根據(jù)所述主題與所述目錄匹配的層次判斷所述標(biāo)題的質(zhì)量。
15.一種提問引導(dǎo)裝置,其特征在于,所述裝置包括 檢索單元,用于對提問的標(biāo)題進行檢索,以獲取候選標(biāo)題; 過濾單元,用于對所述候選標(biāo)題進行過濾,以得到候選引導(dǎo)標(biāo)題,所述過濾包括采用權(quán)利要求10至13中任一權(quán)項所述的裝置對所述候選標(biāo)題進行質(zhì)量判定,并過濾掉所述候選標(biāo)題中除判定為高質(zhì)量標(biāo)題外的其他標(biāo)題; 相關(guān)度計算單元,用于計算所述提問的標(biāo)題與所述候選引導(dǎo)標(biāo)題的相關(guān)度,并根據(jù)所述相關(guān)度得到引導(dǎo)標(biāo)題; 展示單元,用于向用戶展示所述引導(dǎo)標(biāo)題,以對用戶的提問進行引導(dǎo)。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述相關(guān)度包括第一相關(guān)度與第二相關(guān)度,其中所述第一相關(guān)度是所述提問的標(biāo)題與所述候選引導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與所述提問的標(biāo)題單獨包含的詞匯個數(shù)之比,所述第二相關(guān)度是所述提問的標(biāo)題與所述候選弓I導(dǎo)標(biāo)題共同包含的詞匯個數(shù)與所述候選弓I導(dǎo)標(biāo)題單獨包含的詞匯個數(shù)之比。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,當(dāng)所述第一相關(guān)度與所述第二相關(guān)度均大于第六閾值時,所述相關(guān)度計算單元將所述候選引導(dǎo)標(biāo)題選擇為所述引導(dǎo)標(biāo)題。
18.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述裝置進一步包括 第二語義分析單元,用于當(dāng)所述相關(guān)度計算單元的輸出結(jié)果為零時,對所述提問的標(biāo)題進行語義分析以得到所述標(biāo)題的主題; 抽取單元,用于利用分類信息目錄對所述主題進行匹配驗證,并從匹配的目錄層次的數(shù)據(jù)庫中抽取預(yù)置數(shù)目的提問標(biāo)題作為所述引導(dǎo)標(biāo)題。
全文摘要
本發(fā)明提供了一種提問標(biāo)題質(zhì)量判定方法、提問引導(dǎo)方法及其裝置,其中提問標(biāo)題質(zhì)量判定方法包括A.獲取提問的標(biāo)題;B.對標(biāo)題結(jié)合語法結(jié)構(gòu)與文本內(nèi)容進行分析,以確定所述標(biāo)題的質(zhì)量。對提問進行引導(dǎo)的方法包括a.對提問的標(biāo)題進行檢索,以獲取候選標(biāo)題;b.對候選標(biāo)題進行過濾,以得到候選引導(dǎo)標(biāo)題;c.計算提問的標(biāo)題與候選引導(dǎo)標(biāo)題的相關(guān)度,并根據(jù)相關(guān)度得到引導(dǎo)標(biāo)題;d.向用戶展示引導(dǎo)標(biāo)題。通過上述方式,減輕了數(shù)據(jù)庫的負(fù)擔(dān),增加了數(shù)據(jù)庫的使用效率。
文檔編號G06F17/30GK102789466SQ201110131169
公開日2012年11月21日 申請日期2011年5月19日 優(yōu)先權(quán)日2011年5月19日
發(fā)明者李連華, 楊小光, 陳慶軒 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司