專利名稱:一種服務(wù)智能導(dǎo)航方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人工智能計(jì)算機(jī)領(lǐng)域中的自然語言處理,特別涉及利用自 然語言處理實(shí)現(xiàn)服務(wù)的智能導(dǎo)航。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,在現(xiàn)實(shí)生活中出現(xiàn)了多種類型的增值服務(wù),如 網(wǎng)站推出的彩鈴下載、在線聽歌等,移動(dòng)服務(wù)器提供商所提供的移動(dòng)服務(wù) 是其中一種比較典型的增值服務(wù)。移動(dòng)服務(wù)是指移動(dòng)服務(wù)提供商在用戶的 要求下,為用戶的移動(dòng)終端提供包括彩鈴下載、音樂下載在內(nèi)的多種服務(wù), 移動(dòng)服務(wù)的種類和數(shù)量會(huì)隨著需求的增加而日益增多。
隨著移動(dòng)服務(wù)的種類和數(shù)量的增加,如何使用戶方便、快捷地對(duì)具體 的移動(dòng)服務(wù)進(jìn)行查找已經(jīng)成為移動(dòng)服務(wù)實(shí)現(xiàn)過程中亟待解決的問題。當(dāng) 前,用戶要查找或使用移動(dòng)服務(wù)時(shí),需要記住服務(wù)的特服號(hào)以及使用方式, 才能得到關(guān)于移動(dòng)服務(wù)的具體信息,這給用戶帶來了很多困難,不利于移 動(dòng)服務(wù)的推廣,也是造成當(dāng)前移動(dòng)服務(wù)使用率不高的關(guān)鍵原因。
為了方便包括移動(dòng)服務(wù)在內(nèi)的各種服務(wù)的推廣,需要一種能夠根據(jù)用 戶的提問自動(dòng)返回相關(guān)信息的智能導(dǎo)航系統(tǒng),而為了方便用戶的使用,智 能導(dǎo)航系統(tǒng)應(yīng)當(dāng)能夠以自然語言的方式與用戶進(jìn)行交互。但在現(xiàn)有技術(shù) 中,并不存在這樣的智能導(dǎo)航系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)中無法根據(jù)用戶的提問自動(dòng)返回與問 題相關(guān)的服務(wù)信息,從而提供一種可針對(duì)用戶的提問自動(dòng)為其導(dǎo)航的方法 及系統(tǒng)。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種服務(wù)智能導(dǎo)航方法,用于在元
數(shù)據(jù)或服務(wù)分類本體中查找與用戶查詢語句相關(guān)的服務(wù);所述元數(shù)據(jù)包括 與所述服務(wù)相關(guān)的信息,以及所述信息與語義文法間的對(duì)應(yīng)關(guān)系;所述服 務(wù)分類本體包括詞模模式;所述詞模模式用于描述與所述服務(wù)分類本體相
8關(guān)的服務(wù)中所涉及的句子的^t式;所述方法包括
步驟1 )、對(duì)用戶以自然語言方式所提出查詢語句的分詞結(jié)果進(jìn)行基于 元數(shù)據(jù)的文法匹配,對(duì)于成功匹配所得到的服務(wù)信息返回給用戶,結(jié)束對(duì) 所述查詢語句的導(dǎo)航,對(duì)于匹配未成功的分詞結(jié)果執(zhí)行下一步;
步驟2 )、根據(jù)所述分詞結(jié)果中的模板詞或模板詞類,找出與所述分詞 結(jié)果最為匹配的詞模模式,然后得到所述詞模模式所在的服務(wù)分類本體, 返回所述服務(wù)分類本體中的服務(wù)給用戶,結(jié)束對(duì)所述查詢語句的導(dǎo)航操 作;對(duì)匹配未成功的分詞結(jié)果,所述分詞結(jié)果所在的查詢語句導(dǎo)航失敗。
上述技術(shù)方案中,所述服務(wù)分類本體還包括描述性信息或業(yè)務(wù)性信 息,所述的描述性信息包括用于自然語言理解的通用信息,所述的業(yè)務(wù)性 信息用于表示具體業(yè)務(wù);所述方法還包括
步驟3)、將所述步驟2)中匹配未成功的分詞結(jié)果與各個(gè)服務(wù)分類本 體中的描述性信息或業(yè)務(wù)性信息進(jìn)行匹配查找,對(duì)所得到的匹配查找結(jié)果 按照所述描述性信息或業(yè)務(wù)性信息與所在服務(wù)分類本體間的映射關(guān)系,得 到包含候選服務(wù)分類的列表,將該列表稱為第 一候選服務(wù)分類列表;
步驟4)、對(duì)于所述的第一候選服務(wù)分類列表,若所述列表中只有一個(gè) 候選服務(wù)分類,則從該唯一的候選服務(wù)分類中獲取服務(wù)并返回給用戶,若 所述列表中的候選服務(wù)分類大于或等于兩個(gè),則對(duì)候選服務(wù)分類列表所對(duì) 應(yīng)查詢語句中的未登錄串進(jìn)行模糊理解,得到又一個(gè)候選服務(wù)分類列表, 將該列表稱為第二候選服務(wù)分類列表;
步驟5 )、根據(jù)所述的第一候選服務(wù)分類列表與所述的第二候選服務(wù)分 類列表作融合操作,得到公共的候選服務(wù)分類,若所述公共的候選服務(wù)分 類唯一,則返回該候選服務(wù)分類中的服務(wù)給用戶,若所述公共的候選服務(wù) 分類不存在或多于一個(gè),則對(duì)所述查詢語句的導(dǎo)航失敗。
上述技術(shù)方案中,所述的服務(wù)分類本體還包括用于唯一地描述所述服 務(wù)分類本體的標(biāo)志性詞條;所述方法還包括
對(duì)導(dǎo)航失敗的查詢語句中的分詞結(jié)果與各個(gè)服務(wù)分類本體中的所述 標(biāo)志性詞條進(jìn)行匹配查找,若存在匹配結(jié)果,則將所述匹配結(jié)果所在服務(wù) 分類中的服務(wù)返回給用戶,否則,向用戶返回導(dǎo)航失敗信息。
上述技術(shù)方案中,在所述的步驟1)中,所述查詢語句的分詞結(jié)果與 所述元數(shù)據(jù)中的語義文法進(jìn)行比較,若所述分詞結(jié)果與所述語義文法相對(duì) 應(yīng),則將所述元數(shù)據(jù)中與所述語義文法存在對(duì)應(yīng)關(guān)系的與所述服務(wù)相關(guān)的信息作為成功匹配所得到的服務(wù)信息返回給用戶。 上述技術(shù)方案中,所述的步驟2)包括
步驟2-l)、對(duì)所述分詞結(jié)果中的模板詞或模板詞類,查找包含有所述 模板詞或模板詞類的所有詞模模式;
步驟2-2)、從步驟2-1 )所得到的所有詞模模式中選擇最優(yōu)詞模模式 作為相匹配的詞模模式;
步驟2-3 )、將所述最優(yōu)詞模模式所在服務(wù)分類中的服務(wù)返回給用戶。
上述技術(shù)方案中,在所述的步驟2-2)中,采用TFUDF擴(kuò)展模型來確 定所述詞模模式與所述查詢語句間的相對(duì)匹配強(qiáng)度,選擇相對(duì)匹配強(qiáng)度最 強(qiáng)的詞模模式作為最優(yōu)詞模模式。
上述技術(shù)方案中,所述的TF\IDF擴(kuò)展模型計(jì)算所述候選詞模模式與 所述查詢語句間的相關(guān)度和不相關(guān)度,然后求所述的相關(guān)度與所述的不相 關(guān)度的比值,得到所述候選詞模模式與所述查詢語句間的相對(duì)匹配強(qiáng)度; 其中,
所述的相關(guān)度用Relativeness(Pt, Q)表示,其中的; ,表示所述的候選詞模 模式,Q表示所述用戶查詢語句;
其中,TF表示一個(gè)候選詞模模式中的模板詞或模板詞類與某個(gè)詞模 模式的相關(guān)度,
77^,. rf) = co柳啦)/ Z cowwf(。.)
其中,ti表示一個(gè)模板詞或模板詞類,d,表示某個(gè)詞模模式,c。unt(t,) 是第、個(gè)模板詞或模板詞類在詞模模式dt中的計(jì)數(shù);
IDF表示一個(gè)模板詞或模板詞類在詞模模式的主題的權(quán)重大小,
/Z)F, = log(Z) /D,)
其中,D是詞模模式集的總數(shù)量,A,是包含了該模板詞或模板詞類的 詞模模式的總數(shù);
woW/en,,表示一莫纟反詞或才莫板詞類的長度;
所述的不相關(guān)度用Irrelativeness(Pt,Q)表示,它表示用戶查詢語句中沒有 與詞模a相匹配的模板詞或模板詞類的IDF值的累力口
10上述技術(shù)方案中,在所述的步驟4)中,所述的模糊理解包括
步驟4-l)、將所述查詢語句與所述查詢語句的分詞結(jié)果進(jìn)行比較,得 到所述查詢語句中的未登錄串;
步驟4-2)、對(duì)所述未登錄串中的各個(gè)字符分別查找包含各單個(gè)字符的 候選詞條,然后從所述候選詞條中得到所述未登錄串的候選模式串;
步驟4-3)、實(shí)現(xiàn)所述候選模式串與所述未登錄串之間的模糊匹配,將 模糊匹配成功的候選模式串作為模糊理解的結(jié)果。
上述技術(shù)方案中,所述的步驟4-2)包括
步驟4-2-1)、判斷所述查詢語句的分詞結(jié)果是否為空,若不為空,則
根據(jù)所述分詞結(jié)果中的詞語在移動(dòng)服務(wù)分類本體中查找相關(guān)詞類,然后執(zhí)
行下一步,若不為空,則直接根據(jù)所述未登錄串中的各個(gè)字符分別查找包 含各單個(gè)字符的候選詞條,然后執(zhí)行步驟4-2-3 );
步驟4-2-2)、對(duì)所述未登錄串中的各個(gè)字符,在滿足相關(guān)詞類的條件 下分別查找包含各個(gè)單個(gè)字符的候選詞條;
步驟4-2-3 )、從所述的候選詞條中選擇可能性較大的候選詞條作為未 登錄串的候選模式串。
上述技術(shù)方案中,在所述的步驟4-2-3)中,采用計(jì)分方式選擇可能 性較大的候選詞條,所述候選詞條每出現(xiàn)一次,為其計(jì)一次分,最后選擇 滿足一定分值的候選詞條作為可能性較大的候選詞條。
上述技術(shù)方案中,在所述的步驟4-3)中,所述的模糊匹配包括
步驟4-3-1)、比較所述候選模式串與所述未登錄串的長度,若兩者相 差字符個(gè)數(shù)超過第一闊值時(shí),返回不能匹配,否則執(zhí)行下一步;
步驟4-3-2 )、求取所述候選模式串與所迷未登錄串的極大公共子串, 然后按照所述極大公共子串在候選模式串中出現(xiàn)的次序依次標(biāo)出所述極 大公共子串在所述未登錄串中的位置值;
步驟4-3-3)、判斷所述極大公共子串的數(shù)目,若所述極大公共子串的 數(shù)目為0,則執(zhí)行下一步,若所述極大公共子串的數(shù)目為1,則執(zhí)行步驟 4-3-5),若所述極大公共子串的數(shù)目大于1,則執(zhí)行步驟4-3-6);
步驟4-3-4)、所述候選模式串與所述未登錄串不能匹配,向用戶返回 不能匹配的標(biāo)志,結(jié)束操作;
ii步驟4-3-5 )、對(duì)所述候選模式串中除極大公共子串外的部分進(jìn)行音近
/音似匹配,若匹配成功則將該候選模式串作為模糊匹配的結(jié)果,若失敗,
則向用戶返回不能匹配的標(biāo)志,結(jié)束操作;
步驟4-3-6 )、判斷極大公共子串在候選模式串以及未登錄串中的相對(duì) 位置是否一致,若不一致,則返回不能匹配標(biāo)志,否則,執(zhí)行下一步;
步驟4-3-7)、對(duì)所述未登錄串較所述候選模式串多寫或漏寫的情況, 判斷所有極大公共子串的長度之和占所述未登錄串的百分比是否大于第 二閾值,若大于或等于,則將所述候選模式串作為模糊匹配的結(jié)果,若小 于則向用戶返回不能匹配的標(biāo)志,結(jié)束操作。
上述技術(shù)方案中,在步驟4-3-1)中,所述第一閾值為2。
上述技術(shù)方案中,在步驟4-3-7)中,所述第二閾值為0.8。
上述技術(shù)方案中,所述的步驟5)中包括
步驟5-1 )、對(duì)所述的第一候選服務(wù)分類列表與所述的第二候選服務(wù)分 類列表做交操作,所得到的結(jié)果若存在唯一的公共移動(dòng)服務(wù)分類,則將該 移動(dòng)服務(wù)分類中的移動(dòng)服務(wù)返回給用戶,否則,執(zhí)行下一步;
步驟5-2)、對(duì)所述的第一候選服務(wù)分類列表進(jìn)行擴(kuò)展,將擴(kuò)展后的第 一候選服務(wù)分類列表與所述的第二候選服務(wù)分類列表做交操作,所得到的 結(jié)果若存在唯一的公共移動(dòng)服務(wù)分類,則將該移動(dòng)服務(wù)分類中的移動(dòng)服務(wù) 返回給用戶,否則,執(zhí)行下一步;
步驟5-3)、對(duì)所述的第二候選服務(wù)分類列表進(jìn)行擴(kuò)展,將擴(kuò)展后的第 二候選服務(wù)分類列表與所述的第一候選服務(wù)分類列表做交操作,所得到的 結(jié)果若存在唯一的公共移動(dòng)服務(wù)分類,則將該移動(dòng)服務(wù)分類中的移動(dòng)服務(wù) 返回給用戶,否則,執(zhí)行下一步;
步驟5-4)、將擴(kuò)展后的第一候選服務(wù)分類列表與擴(kuò)展后的第二候選服 務(wù)分類列表做交操作,所得到的結(jié)果若存在唯一的公共移動(dòng)服務(wù)分類,則 將該移動(dòng)服務(wù)分類中的移動(dòng)服務(wù)返回給用戶,否則向用戶返回不能匹配的 標(biāo)志,結(jié)束操作。
上述技術(shù)方案中,所述的擴(kuò)展操作包括將所述候選服務(wù)分類列表中的 候選服務(wù)分類的子類也作為候選服務(wù)分類加入到列表中。
本發(fā)明還提供了 一種服務(wù)智能導(dǎo)航系統(tǒng),用于在元數(shù)據(jù)或服務(wù)分類本 體中查找與用戶查詢語句相關(guān)的服務(wù);所述元數(shù)據(jù)包括與所述服務(wù)相關(guān)的 信息,以及所述信息與語義文法間的對(duì)應(yīng)關(guān)系;所述服務(wù)分類本體包括詞模模式;所述詞模^t式用于描述與所述服務(wù)分類本體相關(guān)的服務(wù)中所涉及
的句子的模式;所述系統(tǒng)包括基于元數(shù)據(jù)的文法匹配模塊、詞模模式匹配 模塊;其中,
所述的基于元數(shù)據(jù)的文法匹配模塊對(duì)用戶以自然語言方式所提出查詢 語句的分詞結(jié)果進(jìn)行基于元數(shù)據(jù)的文法匹配,對(duì)于成功匹配所得到的服務(wù) 信息返回給用戶,結(jié)束對(duì)所述查詢語句的導(dǎo)航,對(duì)于匹配未成功的分詞結(jié) 果轉(zhuǎn)發(fā)給詞模模式匹配模塊;
所述的詞模模式匹配模塊根據(jù)所述分詞結(jié)果中的模板詞或模板詞類, 找出與所述分詞結(jié)果最為匹配的詞模模式,然后得到所述詞模模式所在的 服務(wù)分類本體,返回所述服務(wù)分類本體中的服務(wù)給用戶,結(jié)束對(duì)所述查詢 語句的導(dǎo)航操作;對(duì)匹配未成功的分詞結(jié)果,所述分詞結(jié)果所在的查詢語 句導(dǎo)航失敗。
上述技術(shù)方案中,還包括描述性信息或業(yè)務(wù)性信息匹配模塊、模糊匹 配模塊以及融合操作模塊;其中,
所述的描述性信息或業(yè)務(wù)性信息匹配模塊將所述詞模模式匹配模塊 中匹配未成功的分詞結(jié)果與各個(gè)服務(wù)分類本體中的描述性信息或業(yè)務(wù)性 信息進(jìn)行匹配查找,對(duì)所得到的匹配查找結(jié)果按照所述描述性信息或業(yè)務(wù) 性信息與所在服務(wù)分類本體間的映射關(guān)系,得到包含候選服務(wù)分類的列
表,將該列表稱為第一候選服務(wù)分類列表,然后將所述的第一候選服務(wù)分 類列表轉(zhuǎn)發(fā)給模糊理解模塊以及融合操作模塊;
所述的模糊匹配模塊對(duì)于所述的第一候選服務(wù)分類列表進(jìn)行判斷,若 所述列表中只有一個(gè)候選服務(wù)分類,則從該唯一的候選服務(wù)分類中獲取服 務(wù)并返回給用戶,若所述列表中的候選服務(wù)分類大于或等于兩個(gè),則對(duì)候 選服務(wù)分類列表所對(duì)應(yīng)查詢語句中的未登錄串進(jìn)行模糊理解,得到又一個(gè) 候選服務(wù)分類列表,將該列表稱為第二候選服務(wù)分類列表;
所述的融合操作模塊根據(jù)所述的第 一候選服務(wù)分類列表與所述的第 二候選服務(wù)分類列表作融合操作,得到公共的候選服務(wù)分類,若所述公共 的候選服務(wù)分類唯一,則返回該候選服務(wù)分類中的服務(wù)給用戶,若所述公 共的候選服務(wù)分類不存在或多于一個(gè),則對(duì)所述查詢語句的導(dǎo)航失敗。
上述技術(shù)方案中,還包括標(biāo)志性詞條匹配模塊;
所述的標(biāo)志性詞條匹配模塊對(duì)導(dǎo)航失敗的查詢語句中的分詞結(jié)果與 各個(gè)服務(wù)分類本體中的所述標(biāo)志性詞條進(jìn)行匹配查找,若存在匹配結(jié)果,
13則將所述匹配結(jié)果所在服務(wù)分類中的服務(wù)返回給用戶,否則,向用戶返回 導(dǎo)航失敗信息。
本發(fā)明的優(yōu)點(diǎn)在于
1、 本發(fā)明將基于元數(shù)據(jù)的文法匹配、詞模模式匹配、描述性信息或 業(yè)務(wù)性信息匹配以及標(biāo)志性詞條匹配等多種方式相結(jié)合,實(shí)現(xiàn)了對(duì)自然語 言的理解,從而為用戶以自然語言方式提出的查詢語句實(shí)現(xiàn)智能導(dǎo)航。
2、 本發(fā)明提供了多種匹配方式,使得本發(fā)明的智能導(dǎo)航方法具有靈 活性與精確性。
3、 本發(fā)明通過對(duì)服務(wù)分類本體的定義,有效地組織了移動(dòng)服務(wù)信息, 使得本發(fā)明的方法能夠?qū)A康囊苿?dòng)服務(wù)請(qǐng)求進(jìn)行處理。
4、 本發(fā)明實(shí)現(xiàn)了對(duì)用戶查詢語句的模糊理解,從而能夠自動(dòng)糾正用 戶的錯(cuò)誤輸入,更好地為用戶服務(wù)。
5、 本發(fā)明允許服務(wù)提供商對(duì)服務(wù)分類本體進(jìn)行重新定義或添加,使 得本發(fā)明能夠適用于不同的應(yīng)用需求,從而具有良好的適應(yīng)性和可擴(kuò)展 性。
6、 本發(fā)明可以提供兩種方式的智能導(dǎo)航,通過基于元數(shù)據(jù)的文法匹 配可以在用戶已知服務(wù)名稱時(shí),將與該服務(wù)相關(guān)的信息返回給用戶,通過 詞模模式匹配、描述性信息或業(yè)務(wù)性信息匹配以及標(biāo)志性詞條匹配等方式 在用戶不知道服務(wù)名稱時(shí),將用戶的查詢語句導(dǎo)航到一個(gè)具體的服務(wù)上。
以下,結(jié)合附圖來詳細(xì)說明本發(fā)明的實(shí)施例,其中 圖1為本發(fā)明的服務(wù)智能導(dǎo)航方法的流程圖2為本發(fā)明的服務(wù)智能導(dǎo)航方法中根據(jù)詞模模式進(jìn)行匹配的方法的 流程圖3為本發(fā)明的服務(wù)智能導(dǎo)航方法中根據(jù)描述性信息或業(yè)務(wù)性信息進(jìn) 行匹配的方法的流程圖4為本發(fā)明的服務(wù)智能導(dǎo)航方法中的模糊理解方法的流程圖5為本發(fā)明的服務(wù)智能導(dǎo)航方法中的候選模式串生成方法的流程
圖6為本發(fā)明的服務(wù)智能導(dǎo)航方法中候選模式串與未登錄串進(jìn)行模糊 匹配的方法的流程圖7為本發(fā)明的服務(wù)智能導(dǎo)航方法中融合操作流程的示意圖,圖中的
14fuzzy—cate—list表示模糊理解得到的服務(wù)類列表,Decom_cate_list表示精確
分詞得到的服務(wù)類列表。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明做進(jìn)一步說明。 在本實(shí)施例中,以用于實(shí)現(xiàn)移動(dòng)服務(wù)的查找和使用的智能導(dǎo)航方法為 例,對(duì)本發(fā)明如何實(shí)現(xiàn)對(duì)用戶語句的智能導(dǎo)航進(jìn)行說明。本發(fā)明中所述的 智能導(dǎo)航包括兩個(gè)方面, 一是用戶已知某個(gè)服務(wù)的名稱,需要知道服務(wù)的 具體屬性信息,例如,用戶已知彩鈴業(yè)務(wù),需要對(duì)彩鈴業(yè)務(wù)的收費(fèi)信息進(jìn) 行提問,此時(shí)的智能導(dǎo)航應(yīng)當(dāng)返回彩鈴業(yè)務(wù)在資費(fèi)方面的信息;二是用戶 不知道具體服務(wù)的名稱,例如,用戶提出"在哪里可以下載周杰倫的千里 之外?",此時(shí)的智能導(dǎo)航應(yīng)當(dāng)通過理解將其導(dǎo)航到某一個(gè)具體的業(yè)務(wù)上 (如彩鈴業(yè)務(wù))。
下面對(duì)本發(fā)明的方法和系統(tǒng)如何實(shí)現(xiàn)上述的智能服務(wù)導(dǎo)航進(jìn)行說明, 但在說明之前,還要對(duì)本發(fā)明中所涉及的數(shù)據(jù)結(jié)構(gòu)進(jìn)行描述。
由于在移動(dòng)服務(wù)中存在著各種類別的服務(wù)分類,如手機(jī)鈴聲下載、音 樂搜索、在線試聽、電影下載等,因此需要對(duì)這些服務(wù)分類分門別類地進(jìn) 行管理,以方便用戶的查找和使用。在本發(fā)明中,為了管理的需要釆用移 動(dòng)服務(wù)分類本體對(duì)這些具體的服務(wù)分類進(jìn)行組織和描述。其中所涉及的本 體是一個(gè)為描述某個(gè)領(lǐng)域而按繼承關(guān)系組織起來作為一個(gè)知識(shí)庫的骨架 的一系列術(shù)語,是對(duì)某個(gè)領(lǐng)域中的概念的形式化的明確表示。本體中每個(gè) 概念的特性描述了概念的各個(gè)方面及其約束的特征和屬性。在移動(dòng)服務(wù)領(lǐng) 域,本申請(qǐng)抽象出一系列概念(即服務(wù)分類),并用各種描述信息來描述 這些概念的特性及約束,并將這些概念按繼承關(guān)系組織起來,形成領(lǐng)域本 體(即本發(fā)明中的移動(dòng)服務(wù)分類本體)。
在移動(dòng)服務(wù)中,不同的服務(wù)分類間還可能存在一定的層次關(guān)系,因此 用于表示服務(wù)分類的移動(dòng)服務(wù)分類本體之間也可以采用樹結(jié)構(gòu)表示它們 之間的層次關(guān)系,下面是關(guān)于移動(dòng)服務(wù)分類本體的一個(gè)形式化描述 deframe類別標(biāo)準(zhǔn)名稱
描述性信息用于自然語言理解的通用信息
描述性詞類對(duì)描述性信息進(jìn)行分類的信息,如"地點(diǎn)疑問詞" 描述性詞條未歸類的其他描述性信息業(yè)務(wù)性信息由移動(dòng)服務(wù)的各個(gè)服務(wù)提供商(SP, Service Provider)來提供的具體業(yè)務(wù)信息
服務(wù)已有詞類SP已提供的具體詞類信息 服務(wù)缺失詞類SP未能提供的具體詞類信息 標(biāo)志性詞條該詞用于唯一描述該類 詞模模式描述該服務(wù)的句子模式
在采用本發(fā)明的方法實(shí)現(xiàn)對(duì)移動(dòng)服務(wù)的智能導(dǎo)航的一個(gè)實(shí)施例中,建 立了包括八個(gè)大類的移動(dòng)服務(wù)分類本體(包括新聞天氣、生活時(shí)尚、教育 文化、電子商務(wù)、休閑娛樂、交友情感、個(gè)人\團(tuán)體助理、職業(yè)生涯等), 在各個(gè)大類下又可以增加新的業(yè)務(wù)子類,如對(duì)于休閑娛樂類下,按照層次 由上到下的服務(wù)類有音樂視頻、音樂搜索、手機(jī)鈴聲、多媒體鈴聲等。 用戶可以根據(jù)具體的應(yīng)用,增加或修改頂層業(yè)務(wù)類型,在不同的業(yè)務(wù)類別 下添加新的業(yè)務(wù)子類(Subclass),或者具體的業(yè)務(wù)實(shí)例(Instance )。
下面針對(duì)移動(dòng)服務(wù)分類本體的上述形式化描述,給出了兩種服務(wù)的對(duì) 應(yīng)移動(dòng)服務(wù)分類本體,然后對(duì)其中的內(nèi)容進(jìn)行說明。
1、手機(jī)鈴聲類的本體
deframe手機(jī)鈴聲類
描述性信息
描述性詞類彩鈴詞類、下載詞類
描述性詞條彩鈴、鈴聲、無線音樂 業(yè)務(wù)性信息
服務(wù)已有詞類多媒體彩鈴名
服務(wù)缺失詞類Null 標(biāo)志性詞條Null 詞模模式*<!取消詞類>*<!彩鈴詞類>@2#取消彩鈴功能 <手機(jī)>*<鈴聲|彩鈴>@2#介紹彩鈴*<下載|獲取|搜索|找到|有 >*<歌|的歌|的音樂|音樂|曲|鈴聲|彩鈴>@2#彩鈴開通方法 對(duì)應(yīng)服務(wù)彩鈴頁
父類列表音樂搜索類 子類列表多媒體鈴聲類
2、音樂搜索類的本體 deframe音樂搜索類
描述性信息
描述性詞類Null
描述性詞條音樂,歌曲,下載,試聽 業(yè)務(wù)性信息
服務(wù)已有詞類音樂名、歌手名、專輯名
服務(wù)缺失詞類Null 標(biāo)志性詞條音樂搜索 詞模模式
<下載|獲取|搜索|找到|有>*<歌|的歌|的音樂|音樂|曲>@2#音樂搜索介
紹
對(duì)應(yīng)服務(wù)音樂搜索 父類列表音樂視頻 子類列表手機(jī)鈴聲類
在上述類中,所涉及到的描述性信息是指用于自然語言理解的通用信 息,它可以包括描述性詞類和描述性詞條兩種信息。在描述性詞類中,包 含了對(duì)描述性信息進(jìn)行分類的信息,例如,"彩鈴詞類"是對(duì)一些描述彩 鈴的詞條的類型概括,如"彩鈴"、"鈴聲"、"鈴音,,等詞條都可以歸類到 "彩鈴詞類,,中,而對(duì)于"在哪里,,,"怎么走"等描述問路的一些詞條可 以歸類到"地點(diǎn)疑問詞,,中。在描述性詞條中,則包含了未歸類的其他描 述性信息。
在上述類中,所涉及到的業(yè)務(wù)類信息是指由移動(dòng)服務(wù)的提供商所給出 的具體業(yè)務(wù)的信息,它包括服務(wù)已有詞類和服務(wù)缺失詞類。在服務(wù)已有詞 類中包括有服務(wù)提供商已經(jīng)提供的具體詞類信息,如上述兩個(gè)類中的"多 媒體彩鈴名"、"音樂名"、"歌手名"等。服務(wù)缺失詞類中包括有服務(wù)提 供商未能提供的具體詞類信息,在實(shí)際應(yīng)用中,服務(wù)缺失詞類通常為空。在上述類中,還包括有標(biāo)志性詞條,它用于唯一地描述所在的類,如 上例中,"音樂搜索"可作為音樂搜索類的標(biāo)志性詞條,當(dāng)用戶問句中出 現(xiàn)這一詞條時(shí),可將其導(dǎo)航到音樂搜索類。
在上述類中所涉及的詞模模式用于描述與類相關(guān)的服務(wù)中所涉及的 句子的模式。對(duì)于特定的服務(wù),用戶對(duì)該類服務(wù)進(jìn)行請(qǐng)求、查找或使用時(shí) 所采用的句子通常有一定的模式,在此處的詞模模式中就是對(duì)這些句子的 模式進(jìn)行概括,同時(shí),詞模模式還包括了對(duì)服務(wù)的業(yè)務(wù)屬性的導(dǎo)航,如詞
模"[<!怎么疑問詞類>]*<!取消詞類>*<!彩鈴詞類>@2#取消彩鈴功能", 當(dāng)用戶查詢語句與這一詞模相匹配時(shí),可將其導(dǎo)航到彩鈴服務(wù),并返回給 用戶相應(yīng)的業(yè)務(wù)屬性方面的信息,在這里是指"取消彩鈴功能"方面的信 息。
上述類中的對(duì)應(yīng)服務(wù)就是指出了與當(dāng)前類相關(guān)的服務(wù)的名稱。如音樂 搜索類中,相關(guān)的服務(wù)名稱就是"音樂搜索"。在手機(jī)鈴聲類中,相關(guān)的 服務(wù)名稱是"彩鈴"等。
上述類中的父類列表和子類列表給出了當(dāng)前類的父類和子類信息,通 過這些信息,可以知道當(dāng)前類與其它類之間的層次關(guān)系。在上述兩個(gè)例子 中,音樂搜索類是手機(jī)鈴聲類的父類,從兩個(gè)類中的相關(guān)信息還可以看出, 音樂搜索類還具有名稱為音樂視頻的父類,手機(jī)鈴聲類還具有名稱為多媒 體鈴聲的子類。
在為移動(dòng)服務(wù)定義上述類后,對(duì)用戶的查詢語句進(jìn)行導(dǎo)航的最終導(dǎo)航 目標(biāo)是各個(gè)移動(dòng)服務(wù)類,通過移動(dòng)服務(wù)類再找到具體的移動(dòng)服務(wù)。這樣做 使得移動(dòng)服務(wù)提供商不需要因?yàn)樵鰷p或改動(dòng)具體的移動(dòng)服務(wù)而對(duì)導(dǎo)航系 統(tǒng)的理解策略進(jìn)行改動(dòng),將移動(dòng)服務(wù)分類本體作為中間層,有助于提供系 統(tǒng)的通用性和可移植性。此外,移動(dòng)服務(wù)分類本體有效地組織了海量的移 動(dòng)服務(wù)項(xiàng)目,有利于管理和維護(hù);在移動(dòng)服務(wù)分類本體中針對(duì)服務(wù)類型添 加各種描述型信息,而不是具體的移動(dòng)服務(wù),可以減少數(shù)據(jù)冗余。
假設(shè)用戶以自然語言的方式向系統(tǒng)發(fā)出了以下查詢語句 查詢語句1:彩鈴怎么取消?
查詢語句2:我想知道彩鈴下載業(yè)務(wù)是怎么收費(fèi)的? 查詢語句3:在哪里可以下載周杰輪的菊花臺(tái)?
18要理解上述查詢語句并根據(jù)語句的語義返回對(duì)應(yīng)的移動(dòng)服務(wù)信息,首 先就要對(duì)查詢語句進(jìn)行分詞操作。所謂的分詞操作就是要將一個(gè)句子劃分 成詞語或詞組,以方便在后續(xù)操作中實(shí)現(xiàn)對(duì)句子語義的理解。分詞操作的 實(shí)現(xiàn)是成熟的現(xiàn)有技術(shù),在本發(fā)明中可以在現(xiàn)有的知識(shí)庫詞典及關(guān)鍵詞詞 典的基礎(chǔ)上實(shí)現(xiàn),在此不再對(duì)其具體實(shí)現(xiàn)過程進(jìn)行說明。下面只給出上述 查詢語句的分詞結(jié)果。
查詢語句1的分詞結(jié)果彩鈴(模板詞)怎么(怎么疑問詞類)取
消(耳又消詞類)?
查詢語句2的分詞結(jié)果我(人稱代詞)想(句型詞)知道(句型 詞)彩鈴下載(移動(dòng)業(yè)務(wù))業(yè)務(wù)(句型詞)是(句型詞)怎么(疑問 詞)收費(fèi)(句型詞)。
查詢語句3的分詞結(jié)果在哪里(地點(diǎn)疑問詞4莫板詞)可以(句型詞)下 載(描述詞l模板詞)菊花臺(tái)(音樂名)。
從上面的分詞結(jié)果可以看出,在分詞結(jié)果中除了給出句子經(jīng)過分詞后 的各個(gè)詞語外,還給出了各個(gè)詞語的相關(guān)屬性。例如,"我"是"人稱代 詞","菊花臺(tái)"是音樂名等。應(yīng)當(dāng)注意的是,在查詢語句3中,由于用戶 的書寫錯(cuò)誤,將"周杰倫"錯(cuò)寫為"周杰輪",因此,"周杰輪"并沒有作 為一個(gè)已知的詞被分詞操作識(shí)別出來,也就沒有被包括在分詞結(jié)果中。對(duì) 于這類由于書寫錯(cuò)誤或其它原因而無法在分詞操作中被識(shí)別的字符串,在 本發(fā)明中用未登錄串表示,未登錄串將在后續(xù)的模糊理解過程中得到應(yīng) 用。另外,由于句子中的某一個(gè)詞語既可以與前面的詞語相結(jié)合形成詞組, 也可以與后面的詞語相結(jié)合形成詞組,因此, 一個(gè)句子可能會(huì)有多個(gè)分詞 結(jié)果,對(duì)于這種情況, 一個(gè)句子在分詞后所得到的是包含多個(gè)分詞結(jié)果的 分詞結(jié)果集。在分詞結(jié)果集中通常會(huì)根據(jù)分詞結(jié)果的可能性按照從高到低 的順序?yàn)榉衷~結(jié)果進(jìn)行排序。
在得到查詢語句的分詞結(jié)果后,就要將查詢語句中的詞語與移動(dòng)服務(wù) 分類進(jìn)行匹配,根據(jù)匹配結(jié)果找到具體的移動(dòng)服務(wù)分類,然后根據(jù)移動(dòng)服 務(wù)分類向用戶返回具體的移動(dòng)服務(wù),從而實(shí)現(xiàn)對(duì)移動(dòng)服務(wù)的導(dǎo)航。本發(fā)明 在查找具體的移動(dòng)服務(wù)分類的過程中,為了提高查找的效率和查找的準(zhǔn)確 率,對(duì)這一過程進(jìn)行了分層、多次的操作,具體而言,對(duì)于一個(gè)分詞結(jié)果, 先后要將其與基于數(shù)據(jù)的文法、基于服務(wù)分類本體中的詞模模式、基于服 務(wù)分類本體中的描述性信息或業(yè)務(wù)性信息、以及基于服務(wù)分類本體中的標(biāo)志性詞條進(jìn)行匹配,只要滿足其中的一個(gè)匹配條件即可退出導(dǎo)航過程,只 有所有的匹配條件都不滿足,才會(huì)認(rèn)為導(dǎo)航失敗。下面結(jié)合前面所給出的 三個(gè)查詢語句,對(duì)各個(gè)過程進(jìn)4亍詳細(xì)的i兌明。
分詞結(jié)果首先要與基于元數(shù)據(jù)的文法進(jìn)行匹配操作。此處所述的元數(shù) 據(jù)是指與服務(wù)定制方法、服務(wù)資費(fèi)等內(nèi)容相關(guān)的數(shù)據(jù),用于刻畫服務(wù)業(yè)務(wù) 各方面信息的元數(shù)據(jù)形成一個(gè)元數(shù)據(jù)集。例如,有一個(gè)關(guān)于移動(dòng)服務(wù)的如
下元數(shù)據(jù)集
1、服務(wù)名稱
2、服務(wù)描述;
3、服務(wù)主題
4、服務(wù)提供商
5、服務(wù)訂制方法
6、服務(wù)取消方法
7、服務(wù)開通地區(qū)
8、服務(wù)資費(fèi)
9、服務(wù)開通日期
10、服務(wù)類別
11、服務(wù)構(gòu)成
12、服務(wù)終端設(shè)備
13、服務(wù)使用方式
14、服務(wù)適用對(duì)象
15、返回用戶的短信內(nèi)容
16、服務(wù)支持的終端型號(hào)
17、單向服務(wù)關(guān)聯(lián)
18、雙向服務(wù)關(guān)聯(lián)
在上述元數(shù)據(jù)集的每一個(gè)元數(shù)據(jù)項(xiàng)中定義有至少一種語義文法,以上
述元數(shù)據(jù)集中的第8項(xiàng)"服務(wù)資費(fèi)"為例,假設(shè)該項(xiàng)有以下語義文法 [<!人稱代詞>];[<想|要|希望>];[<知道|了解|明白|清楚>];〈 C1(移動(dòng)
服務(wù))>;[<服務(wù)|業(yè)務(wù)>];[<是>];<!怎么疑問詞>; <資費(fèi)|收費(fèi)|付費(fèi)|錢|價(jià)
格|貴|元|計(jì)費(fèi)|費(fèi)用>"。
其中的"!"表示后續(xù)字符串是系統(tǒng)定義的類常量;?C1表示文法變量,
20待與用戶的查詢語句進(jìn)4亍匹配。
從上面查詢語句2的分詞結(jié)果可以看出,查詢語句2的分詞結(jié)果與元 數(shù)據(jù)"服務(wù)資費(fèi)"的語義文法十分匹配,因此,可以向用戶返回與"彩鈴 下載"的資費(fèi)相關(guān)的信息,即查詢語句2匹配成功。在本實(shí)施例中,查詢
語句2只有一種分詞結(jié)果,因此,該分詞結(jié)果與元數(shù)據(jù)的語義文法匹配后, 就認(rèn)為查詢語句2匹配成功。但在前面已經(jīng)提到, 一個(gè)查詢語句可能會(huì)有 多個(gè)分詞結(jié)果,由于在分詞結(jié)果集中的分詞結(jié)果是按照可能性的高低做了 排序的,因此只要有一個(gè)分詞結(jié)果匹配成功,我們就認(rèn)為整個(gè)查詢語句匹 配成功。對(duì)于其它分詞結(jié)果不再做基于元數(shù)據(jù)的匹配操作或其它后續(xù)的匹 配操作。
通過上述的基于元數(shù)據(jù)的文法匹配,可以實(shí)現(xiàn)對(duì)前述的第一種智能導(dǎo) 航的實(shí)現(xiàn),即當(dāng)用戶已知某個(gè)服務(wù)的名稱時(shí),返回該服務(wù)的具體屬性信息。
假設(shè)查詢語句1和查詢語句3的分詞結(jié)果在元數(shù)據(jù)集中沒有找到可以 實(shí)現(xiàn)文法匹配的元數(shù)據(jù),因此查詢語句1和查詢語句3需要進(jìn)行后續(xù)的匹 配操作。在后續(xù)的匹配操作中,要用到前述定義的移動(dòng)服務(wù)分類本體。在 移動(dòng)服務(wù)分類本體中的信息基本可以分為四個(gè)類別,分別是描述性信息、 業(yè)務(wù)性信息、詞模模式和標(biāo)志性詞條。由于詞語本身通常具有歧義性,而 詞模模式是詞的一種組合方式,具有更強(qiáng)的語義約束能力。因此,為了克 服由于歧義而造成的誤判現(xiàn)象,首先釆用移動(dòng)服務(wù)分類本體中的詞模模式 與分詞結(jié)果進(jìn)行匹配。例如,"在哪里,,這一短語通常是與地圖服務(wù)等移 動(dòng)業(yè)務(wù)的用戶提問相關(guān)的,如"中科院計(jì)算所在哪里?"。但在另一個(gè)句 子"在哪里可以下載周杰-f侖的千里之外?"中,該查詢語句想要得到的服 務(wù)應(yīng)該是彩鈴下載這一類服務(wù),而不是任何地圖類的服務(wù)。所以單純地將 "在哪里"與地圖服務(wù)或彩鈴下載相關(guān)聯(lián),并不能解決實(shí)際應(yīng)用中的歧義 問題,也無法準(zhǔn)確地定位服務(wù)類,在這種情況下,詞模模式可以很好地解 決詞語歧義的問題。
在前述的兩個(gè)移動(dòng)服務(wù)分類本體中已經(jīng)給出了兩個(gè)詞模模式的范例, 在這些范例中,"*"表示通配符,"[]"表示所包含的成分在詞模模式中是 可選部分,"<>"表示所包含成分在詞模模式中是必選部分,"@2"表示 當(dāng)用詞才莫^^式與用戶查詢語句匹配時(shí),不必遵守順序,"@1"表示當(dāng)用詞 模模式與用戶查詢語句匹配時(shí),應(yīng)當(dāng)嚴(yán)格遵守順序,"#"后面所接的是對(duì) 應(yīng)業(yè)務(wù)的元屬性。
21假設(shè)對(duì)查詢語句1的分詞結(jié)果查找詞模模式,如圖2所示,首先需要 在分詞結(jié)果中查找模板詞或模板詞類(即組成詞模模式的某一元素),若 查找有結(jié)果,則根據(jù)模板詞或模板詞類找到所有相匹配的詞模模式。相匹
配的詞模模式之所以有多種,是因?yàn)?一個(gè)^t板詞或模板詞類可能在多個(gè)詞 模模式中存在,以查詢語句l為例,查詢語句1中的模板詞"彩鈴"就可 能在兩個(gè)詞模模式中存在,因此得到兩個(gè)與之相匹配的候選詞模模式
Pl: <彩鈴|鈴聲|鈴音>@2#介紹彩鈴功能
P2: [<!怎么疑問詞類>]*<!取消詞類>*<彩鈴|鈴聲>@2#取消彩鈴功能 得到候選詞模模式后,還要在候選詞模模式中選擇最優(yōu)的詞模模式。 對(duì)最優(yōu)詞模模式的選擇是通過計(jì)算用戶查詢語句與候選詞模模式間的相 關(guān)度得到的。在本發(fā)明的一個(gè)實(shí)施例中通過對(duì)信息檢索中的TF\IDF模型 進(jìn)行擴(kuò)展來實(shí)現(xiàn)對(duì)最優(yōu)詞模模式的選擇。下面對(duì)其具體實(shí)現(xiàn)過程進(jìn)行說 明。
在搜索引擎中, 一個(gè)關(guān)鍵的問題是如何度量網(wǎng)頁和用戶查詢的相關(guān) 度,并返回給用戶按相關(guān)度進(jìn)行排序的結(jié)果集,TFUDF模型就用于解決這 一問題。將TF\IDF模型應(yīng)用在本發(fā)明中,則候選的詞模模式集就相當(dāng)于 網(wǎng)頁,用戶查詢語句就相當(dāng)于在搜索引擎中輸入的查詢,結(jié)果是候選的詞 模模式與用戶查詢語句匹配成分所計(jì)算出的相關(guān)度,即相關(guān)度。下文所涉 及到的term就是組成詞模模式的模板詞或模板詞類。
TF(Term Frequency):表示一個(gè)term與某個(gè)詞模模式的相關(guān)度。公式
為
其中,ti表示一個(gè)term, dt表示某個(gè)詞才莫才莫式,count(ti)是 termt.在詞模 模式dt中的計(jì)數(shù)。
IDF (Inverse Document Frequency)表示一個(gè)term在詞模模式的主題 的權(quán)重大小。主要是通過包含了該term的詞模模式的數(shù)量和詞模模式集的 總數(shù)量來比較的。出現(xiàn)的次數(shù)越多,權(quán)重越小。公式是
/DF, = log(D /D,)
其中,D是詞模模式集的總數(shù)量,A,是包含了該term的詞模模式的總數(shù)。在匹配詞模模式時(shí),當(dāng)匹配上的模板詞的長度越長時(shí),其所貢獻(xiàn)的相 關(guān)度也應(yīng)該越大,所以,候選詞模模式A與用戶查詢Q的相關(guān)度就變成了
… , '
其中,而W/M,.表示模板詞或模板詞類的長度,在這里采用其字節(jié)長 度,即一個(gè)漢字占用兩個(gè)字節(jié)長度, 一個(gè)半角英文字符占用一個(gè)字節(jié)長度等。
除了相關(guān)度外,本發(fā)明對(duì)TF\IDF模型擴(kuò)展還引入了不相關(guān)度這一概 念。不相關(guān)度定義為
公式的含義是用戶查詢語句中沒有與詞模A相匹配的模板詞或模板
詞類的IDF值的累加,woW/e",含義同上。
則定義一個(gè)詞模模式與用戶查詢語句的相對(duì)匹配強(qiáng)度t/(A,0為(簡(jiǎn)稱 匹配強(qiáng)度)
"(P,, 2) = Ae/""ve"e5^(/ ,, g ) /(/"e/a"ve"ew(/ ,, 2) + 1) 從候選詞模模式集中選取C/(A,值最大的詞模模式,即取詞模與查詢 語句的相關(guān)度與不相關(guān)度的比值最大者作為最優(yōu)詞模,分母加一是除零因 子。
根據(jù)上述公式計(jì)算查詢語句l的兩個(gè)候選詞模模式,就可以求得各自 的分值
對(duì)于詞模模式Pl:
i e/a"ve"ess(ppg) = !TF(彩鈴p ) x /DF彩鈴x 4 = 38.62
/rre/af/ve"ess(;^,2) = r、怎么疑問詞類,p)x /"尸怎么疑問詞類x 4 +尸(取消詞類,/>1) x JD,取消詞類x 4 = 36'31
(A,2) = We/^'ve"""/^"/""^/^"""/^" + 1) = 1.04 對(duì)于詞模模式P2:
&/^.ve"^s(P2,2)=巧彩鈴p2) x /i)F彩鈴x 4 + rF(怎么疑問詞類p2) x /DF怎么疑問詞類x 4 +^取消詞類,,2) x m尸取消詞類x 4 = 74"3
23V (Z72,2) = ^e/a"ve"e^(; 2,2)/(^^e/fl/7've"ej^(;72,0 + 1) = 74.93 根據(jù)上述的計(jì)算分值可以選擇使得U值最大的P2作為查詢語句1的 最優(yōu)匹配的詞模模式,然后依據(jù)詞模模式與服務(wù)類的映射關(guān)系,可獲取服 務(wù)類"彩鈴下載,,類及相應(yīng)的移動(dòng)服務(wù)及相應(yīng)的移動(dòng)服務(wù)業(yè)務(wù)屬性"取消 彩鈴功能"。
在上述的詞才莫才莫式匹配過程中實(shí)現(xiàn)了對(duì)查詢語句1的導(dǎo)^t元,對(duì)于無法 用詞模模式進(jìn)行匹配的查詢語句3還要進(jìn)行后續(xù)的匹配操作。在下一個(gè)匹 配操作中,采用移動(dòng)服務(wù)分類本體中的描述性信息或業(yè)務(wù)性信息進(jìn)行匹 配。從前述的兩個(gè)移動(dòng)服務(wù)分類本體的例子中可以看出,描述性信息或業(yè) 務(wù)性信息中都是一些與移動(dòng)服務(wù)相關(guān)的詞語,這些詞語是對(duì)現(xiàn)有市場(chǎng)中的 各類移動(dòng)服務(wù)進(jìn)行高度抽象和歸納后得到的。在匹配過程中,不存在語義 文法的支撐,而是直接對(duì)用戶查詢語句進(jìn)行粗粒度的自然語言匹配。以查 詢語句3為例,在查詢語句3的分詞結(jié)果中有"哪里"、"下載"等詞語, 因此,如圖3所示,可以在各個(gè)移動(dòng)服務(wù)分類本體的業(yè)務(wù)性信息或描述性 信息中查找是否有這樣的詞語,如果存在這樣的詞語,就提取出這些詞語 所在的移動(dòng)服務(wù)分類本體。所提取的移動(dòng)服務(wù)分類本體被稱為候選移動(dòng)服 務(wù)分類,候選移動(dòng)服務(wù)分類在一個(gè)列表中表示。由于對(duì)于一個(gè)查詢語句而 言,它所希望得到的移動(dòng)服務(wù)分類應(yīng)該是唯一的,因此,如果在候選移動(dòng) 服務(wù)分類列表中的候選移動(dòng)服務(wù)分類只有一個(gè),則可以直接將該候選移動(dòng) 服務(wù)分類中的移動(dòng)服務(wù)返回給用戶。但如果列表中的候選移動(dòng)服務(wù)分類多 于一個(gè),則需要對(duì)候選移動(dòng)服務(wù)分類進(jìn)行選擇,選擇對(duì)當(dāng)前查詢語句最為 合適的一個(gè)候選移動(dòng)服務(wù)分類。這一選擇過程可以通過模糊理解和融合過 程實(shí)現(xiàn)。
在前面對(duì)查詢語句的分詞結(jié)果的說明中已經(jīng)提到,在查詢語句3的分 詞結(jié)果中存在分詞操作無法識(shí)別的字符串"周杰輪",這一字符串也被稱 為未登錄串。未登錄串的產(chǎn)生通常是由于用戶的誤寫或用戶所寫詞過于冷 僻造成的。由于在前述的匹配過程中都沒有用到未登錄串中的信息,因此, 在采用描述性信息和業(yè)務(wù)性信息無法得到唯一 的候選移動(dòng)服務(wù)分類時(shí),可 以考慮利用未登錄串中的信息實(shí)現(xiàn)對(duì)候選移動(dòng)服務(wù)分類的進(jìn)一 步選擇。具 體的說,如圖4所示,這一進(jìn)一步選擇的過程首先要將未登錄串與候選模 式串進(jìn)行模糊匹配,將模糊匹配成功的候選模式串作為模糊理解的結(jié)果,然后將模糊理解得到的結(jié)果重新在各個(gè)移動(dòng)服務(wù)分類本體的描述性信息 或業(yè)務(wù)性信息中進(jìn)行匹配查找,得到一個(gè)新的候選移動(dòng)服務(wù)分類列表,將 新得到的候選移動(dòng)服務(wù)分類列表與原來的候選移動(dòng)服務(wù)分類列表做以交 操作為主的融合操作,從而得到一個(gè)唯一的候選移動(dòng)服務(wù)分類,進(jìn)而向用 戶返回對(duì)應(yīng)的移動(dòng)服務(wù)。
要完成上述過程首先要實(shí)現(xiàn)模糊匹配,而要實(shí)現(xiàn)模糊匹配過程就要先 解決如何獲取候選模式串。在圖5中,對(duì)候選模式串的產(chǎn)生過程進(jìn)行了說 明。要獲取一個(gè)查詢語句中未登錄串的候選模式串,需要采用字索引字典, 所述的字索引字典是本發(fā)明中所提供的 一種根據(jù)字查找?guī)в性撟值脑~語 的字典,在該字典中,對(duì)于一個(gè)字符,按照類別給出了包含該字符的所能 找到的相關(guān)詞語。因此,對(duì)于如"周杰輪,,這樣的未登錄串,就可以通過 字索引字典得到對(duì)應(yīng)于每一個(gè)字符的候選詞條。如,對(duì)于"周,,字可以通 過字索引字典找到若干候選詞條,對(duì)于"杰"字也可以找到若干候選詞條, 對(duì)于"輪"字同樣能找到若干候選詞條。在查找過程中很容易知道,字索 引字典中包含某一個(gè)字的相關(guān)詞條有許多個(gè),將這些詞條都作為候選詞條 很容易造成數(shù)據(jù)冗余,效率不高的問題。因此,在查找候選詞條前,可以 根據(jù)未登錄串所在查詢語句中的已有分詞結(jié)果設(shè)定相關(guān)詞類,然后在查找 候選詞條時(shí),只要將字索引字典中相關(guān)詞類下的詞條作為候選詞條即可。
例如,在查詢語句3的分詞結(jié)果中,已知"菊花臺(tái)"是一個(gè)"音樂名,,, 而在前述音樂搜索類的本體中,"音樂名,,與"歌手名"、"專輯名"是相 關(guān)的,因此,"歌手名"、"專輯名"就是相關(guān)詞類。所以在查找未登錄串 "周杰輪"的候選詞條時(shí),只要在字索引字典中的"歌手名"、"專輯名" 等相關(guān)類中進(jìn)行查找即可。在實(shí)際應(yīng)用中,也可能存在未登錄串所在查詢 語句的分詞結(jié)果為空的情況,此時(shí),則只能將字索引字典中與相關(guān)字符相 關(guān)的所有詞條都作為候選詞條。
在得到未登錄串的各個(gè)字符的候選詞條后,就可以從眾多的候選詞條 中找出可能性較大的詞條作為未登錄串的候選模式串。在一個(gè)實(shí)施例中, 這一個(gè)過程可以采用打分機(jī)制實(shí)現(xiàn)。例如,在"周,,字的候選詞條中可能 有"周杰倫"、"周潤發(fā)"、"周杰"等,為每一個(gè)詞條加上一分,而在"杰" 字的候選詞條中可能有"周杰倫"、"周杰"、"王杰"等,為每一個(gè)詞條也 加上一分,在"輪"字的候選詞條中可能有各種與該字相關(guān)的候選詞條, 如"輪胎"、"三輪車"等,也為這些詞條加上一分。最后可以設(shè)定分?jǐn)?shù)在大于或等于2的詞條作為候選模式串,因此,上面例子中最后得到的候選 模式串包括"周杰倫"、"周杰"。
在得到候選模式串后,下一步就是要將候選模式串與未登錄串做模糊
匹配,從而識(shí)別出用戶查詢語句中可能存在的錯(cuò)寫、漏寫、多寫等錯(cuò)誤, 并返回糾錯(cuò)結(jié)果。在圖6中,對(duì)模糊匹配的過程進(jìn)行了詳細(xì)說明。在模糊
匹配過程中,首先比較候選模式串與未登錄串之間的長度,如果兩者的相 差字符個(gè)數(shù)超過一定數(shù)量,就認(rèn)為兩者不相匹配,只有兩者的字符串長度 一致或只有較小差異時(shí),才進(jìn)入下一步的比較。此處所涉及的一定數(shù)量應(yīng) 該是一個(gè)較小的值,在一個(gè)實(shí)施例中,可確定為2。比較完字符串長度后, 求候選模式串與未登錄串之間的極大公共子串,并按照極大公共子串在候 選模式串中出現(xiàn)的次序依次標(biāo)出極大公共子串在未登錄串中的位置值。例
如,對(duì)于字符串"abcde"和"gabkde,,,它們的極大公共子串為"ab,,和 "de", "ab"在"abcde" "gabkde,,中的位置值分別為1和2, "de,,在"abcde" "gabkde"中的位置值分別為4和5。對(duì)于不存在極大公共子串的候選模 式串與未登錄串,就認(rèn)為它們不能匹配,而對(duì)于存在極大公共子串的候選 模式串與未登錄串,則還要根據(jù)位置值比較極大公共子串在候選模式串以 及未登錄串中的相對(duì)位置是否一致,如果不一致,也認(rèn)為候選模式串與未 登錄串不匹配。例如,"周杰"與"杰周,,雖有公共字串,但次序不一致, 也不能匹配。對(duì)于存在極大公共子串且極大乂>共子串在候選模式串以及未 登錄串中的相對(duì)位置也一致的情況,則還要根據(jù)極大公共子串的數(shù)量分情 況討論。
如果極大公共子串有兩個(gè)或兩個(gè)以上,則要判斷未登錄串與候選模式 串相比是否有多寫或簡(jiǎn)寫情況。以多寫為例,假設(shè)極大公共子串在候選模 式串中相鄰,而在未登錄串中則間隔一定的字符,則認(rèn)為未登錄串存在多 寫情況,如"南大"與"南京大學(xué)",此時(shí)可以判斷所有極大公共子串的 長度之和占整個(gè)未登錄串的百分比是否大于某一個(gè)閾值,如果大于就認(rèn)為 候選模式串就是未登錄串模糊理解的結(jié)果,如果小于就認(rèn)為不能匹配。對(duì) 于簡(jiǎn)寫的情況,也可以用與多寫情況類似的操作實(shí)現(xiàn)。上述操作中所涉及 的閾值可以根據(jù)情況由用戶設(shè)定,在一個(gè)實(shí)施例中,該閾值可以設(shè)定為0.8。
如果極大公共子串只有一個(gè),則可以將候選模式串中除公共子串之外 的部分,進(jìn)行音近/音似匹配,如果匹配成功,就認(rèn)為候選模式串就是未登 錄串模糊理解的結(jié)果。前述例子中的"周杰輪,,就可以通過音近/音似匹配操作將其模糊理解為"周杰倫",從而實(shí)現(xiàn)對(duì)用戶查詢語句的自動(dòng)糾錯(cuò)。
為了方便理解,在此對(duì)上述操作中所涉及的音近/音似匹配方法進(jìn)行說
明
用(ic, v)來表示漢字,其中ic和v分別表示組成該漢字的聲母和 韻母(有些漢字沒有聲母,則對(duì)應(yīng)if空)。給定任意兩個(gè)漢字C尸(id,Vi) 和C2=(ic2, v2),將它們的發(fā)音相似度PSIM(d, C》定義為 (a)、 1, 如果ic尸ic2且v尸V2;
(b )、 CSIM([(icl, vl)], [(ic2, v2)]),如果icl^ic2或vl^v2 ( CSIM是 預(yù)先定義的部分類間的發(fā)音相似度函數(shù),如CSIM ([(b, ai)],[(b, ei)])=0.8, CSIM ([(ch, i)], [(c, i)])=0.92等);
(C)、兩個(gè)漢語詞組W尸C!C2…Cn和W^D^2…Dn之間的發(fā)音相似
度為PSIM(W!,W2) ^ZPSIM(Cj, Di)/n。
在對(duì)用戶查詢進(jìn)行辨音分析時(shí),由于錯(cuò)誤經(jīng)常很離譜,與正確的句子 間的相似度不夠高,所以我們將相似字及相似詞的閾值放得很低,這樣一 個(gè)句子就會(huì)出現(xiàn)成千上萬種相似結(jié)果,給辨音帶來了很大的工作量。為了 實(shí)現(xiàn)快速辨音,需要按照一定的規(guī)則來產(chǎn)生這些相似結(jié)果,使正確的結(jié)果 最早出現(xiàn)。詞間優(yōu)先級(jí)的比較分為三種情況:精確詞和精確詞的比較,相似 詞和相似詞的比較,精確詞和相似詞的比較,我們針對(duì)這三種情況分別總 結(jié)了相應(yīng)的優(yōu)先規(guī)則第一,如果兩個(gè)詞都是精確詞(詞在原文本對(duì)應(yīng)位 置出現(xiàn)),則長度優(yōu)先;第二,如果兩個(gè)詞都為相似詞(詞之間的相似度 大于某閾值,而且詞中的字都對(duì)應(yīng)相似),則同音字?jǐn)?shù)多者優(yōu)先;若兩詞同 音字?jǐn)?shù)相同,則相似度優(yōu)先;第三,如果兩個(gè)詞一個(gè)為精確詞,另一個(gè)為 相似詞,則相似詞優(yōu)于精確詞當(dāng)且僅當(dāng)相似詞字?jǐn)?shù)>=精確詞字?jǐn)?shù)*2,且相似 詞中的同音字?jǐn)?shù) >=精確詞字?jǐn)?shù)。關(guān)于音近/音似匹配計(jì)算的詳細(xì)說明和算 法過程可以參考專利號(hào)為ZL02160272.7的中國專利"語音查詢中的辨音 方法"。
在得到未登錄串的模糊理解結(jié)果后,還要將該結(jié)果在各個(gè)移動(dòng)服務(wù)分 類本體的描述性信息或業(yè)務(wù)性信息中進(jìn)行匹配查找,從而得到新的候選移 動(dòng)服務(wù)分類列表,然后將新得到的候選移動(dòng)服務(wù)分類列表與原來的候選移 動(dòng)服務(wù)分類列表做以交操作為主的融合操作。在圖7中,對(duì)該融合操作的 實(shí)現(xiàn)過程進(jìn)行了詳細(xì)說明。在這一融合過程中,對(duì)由精確分詞結(jié)果得到的 候選移動(dòng)服務(wù)分類列表與由模糊理解結(jié)果所得到的候選移動(dòng)服務(wù)分類列
27表之間做交操作,如果求交后存在唯一的公共移動(dòng)服務(wù)分類,則將該移動(dòng)
服務(wù)分類中的移動(dòng)服務(wù)返回給用戶;如果不存在公共的移動(dòng)服務(wù)分類,則
對(duì)精確分詞結(jié)果得到的候選移動(dòng)服務(wù)分類列表做擴(kuò)展操作,得到擴(kuò)展后的候選移動(dòng)服務(wù)分類列表,然后將該擴(kuò)展后的列表與由模糊理解結(jié)果所得到的候選移動(dòng)服務(wù)分類列表之間做交操作,在交操作結(jié)果中若存在唯一的公
共移動(dòng)服務(wù)分類,則將移動(dòng)服務(wù)返回給用戶;如果還是不存在公共移動(dòng)服務(wù)分類,則對(duì)由模糊理解結(jié)果所得到的候選移動(dòng)服務(wù)分類列表作擴(kuò)展操作,然后將該擴(kuò)展列表與精確分詞結(jié)果得到的候選移動(dòng)服務(wù)分類列表做交操作,將交操作得到的公共移動(dòng)服務(wù)分類中的移動(dòng)服務(wù)返回給用戶;如果仍然沒有公共移動(dòng)服務(wù)分類,則將前述兩個(gè)擴(kuò)展列表做交操作,將所得到的公共移動(dòng)服務(wù)分類中的移動(dòng)服務(wù)返回給用戶;如果此時(shí)還是沒有公共移動(dòng)服務(wù)分類,則認(rèn)為導(dǎo)航失敗。上述操作中,所涉及的擴(kuò)展操作是指將所在候選移動(dòng)服務(wù)分類的子類也作為候選移動(dòng)服務(wù)分類加入到相應(yīng)的列表中。
通過前述的匹配查找、模糊理解、融合操作等過程實(shí)現(xiàn)了釆用移動(dòng)服務(wù)分類本體中的描述性信息或業(yè)務(wù)性信息進(jìn)行匹配的過程, 一般而言,用戶的查詢語句經(jīng)過前述的基于元數(shù)據(jù)的文法匹配、基于詞模模式的匹配、基于描述性信息或業(yè)務(wù)性信息的匹配后大多可以成功實(shí)現(xiàn)服務(wù)導(dǎo)航,得到具體的服務(wù)信息。但也存在仍然無法得到服務(wù)信息的情況,此時(shí),還可以根據(jù)各個(gè)服務(wù)分類本體中的標(biāo)志性詞條進(jìn)行匹配查找,具體的匹配查找過程與前述根據(jù)移動(dòng)服務(wù)分類本體中的描述性信息或業(yè)務(wù)性信息進(jìn)行匹配查找的過程相類似,因此不再重復(fù)說明。
通過上述的基于詞模模式的匹配、基于描述性信息或業(yè)務(wù)性信息的匹配以及基于標(biāo)志性詞條的匹配后,可以實(shí)現(xiàn)對(duì)前述的第二種智能導(dǎo)航的實(shí)現(xiàn),即當(dāng)用戶不知道具體服務(wù)的名稱時(shí),將相應(yīng)的查詢語句導(dǎo)航到某一個(gè)具體的服務(wù)上。
以上是對(duì)本發(fā)明的方法以及方法中具體實(shí)現(xiàn)細(xì)節(jié)的說明,為了說明本發(fā)明的實(shí)際效果,本發(fā)明采取人工評(píng)測(cè)的方法對(duì)移動(dòng)服務(wù)智能導(dǎo)航系統(tǒng)進(jìn)行檢測(cè)。人工評(píng)測(cè)由多名來自不同地域、領(lǐng)域的用戶,由用戶事先構(gòu)造出詢問的問題序列及對(duì)應(yīng)的期望反饋的服務(wù)序列,將問題序列輸入到服務(wù)導(dǎo)航系統(tǒng)中,經(jīng)過系統(tǒng)解析,得出實(shí)際的系統(tǒng)反饋序列結(jié)果,通過比較期望反饋的服務(wù)序列與實(shí)際的系統(tǒng)反饋序列是否一致,來衡量系統(tǒng)準(zhǔn)確度。表1中是該實(shí)驗(yàn)的結(jié)果。
從中可以知道,實(shí)驗(yàn)中的錯(cuò)誤主要是由于描述本體類的信息不全(占
所有錯(cuò)誤的70%)和漢語詞歧義(占所有錯(cuò)誤的30%)造成的。通過實(shí)驗(yàn)可以得出如下結(jié)論本發(fā)明對(duì)移動(dòng)服務(wù)的導(dǎo)航具有較好的識(shí)別效果,平均準(zhǔn)確率達(dá)97.9%以上,適用范圍廣。
表1
服務(wù)數(shù)用戶提問 數(shù)系統(tǒng)反饋數(shù)正確結(jié)果錯(cuò)誤結(jié)果準(zhǔn)確率召回率
6010009809602097. 9%98. 0%
以上實(shí)施例是將基于元數(shù)據(jù)的文法匹配、基于詞模模式的匹配、基于描述性信息或業(yè)務(wù)性信息的匹配以及基于標(biāo)志性詞條的匹配等多種匹配方式相結(jié)合所實(shí)現(xiàn)的服務(wù)導(dǎo)航方法,在實(shí)際應(yīng)用中也可以采用其中的一種或幾種匹配方式來實(shí)現(xiàn)服務(wù)的智能導(dǎo)航,雖然在最終效果上與本實(shí)施例的智能導(dǎo)航方法相比有所不足,但也可以實(shí)現(xiàn)對(duì)常用查詢語句的智能導(dǎo)航功能。
本發(fā)明在前述的智能導(dǎo)航方法的基礎(chǔ)上,還包括與所述智能導(dǎo)航方法相對(duì)應(yīng)的智能導(dǎo)航系統(tǒng)。該智能導(dǎo)航系統(tǒng)包括基于元數(shù)據(jù)的文法匹配模塊、詞模模式匹配模塊、描述性信息或業(yè)務(wù)性信息匹配模塊、模糊匹配模塊以及
融合操作模塊;其中,
所述的基于元數(shù)據(jù)的文法匹配模塊對(duì)用戶以自然語言方式所提出查詢語句的分詞結(jié)果進(jìn)行基于元數(shù)據(jù)的文法匹配,將與所述分詞結(jié)果成功匹配的服務(wù)返回給用戶,對(duì)于匹配未成功的分詞結(jié)果轉(zhuǎn)發(fā)給詞模模式匹配模塊。
所述的詞模模式匹配模塊根據(jù)所述的分詞結(jié)果找出相匹配的詞模模式,然后按照服務(wù)分類本體中的詞模模式與所述服務(wù)分類本體間的映射關(guān)系,得到所述相匹配的詞模模式所在的服務(wù)分類,返回所述服務(wù)分類中的服務(wù)給用戶;對(duì)匹配未成功的分詞結(jié)果轉(zhuǎn)發(fā)給描述性信息或業(yè)務(wù)性信息匹配模塊。
所述的描述性信息或業(yè)務(wù)性信息匹配模塊將所述的分詞結(jié)果與各個(gè)服務(wù)分類本體中的描述性信息或業(yè)務(wù)性信息進(jìn)行匹配查找,對(duì)所得到的匹
29配查找結(jié)果按照所述描述性信息或業(yè)務(wù)性信息與所在服務(wù)分類本體間的映射關(guān)系,得到包含候選服務(wù)分類的列表,將該列表稱為第一候選服務(wù)分類列表,然后將所述的第 一候選服務(wù)分類列表轉(zhuǎn)發(fā)給模糊理解模塊以及融合操作模塊。
所述的模糊理解模塊對(duì)于所述的第 一候選服務(wù)分類列表,若所述列表中只有一個(gè)候選服務(wù)分類,則從該唯一的候選服務(wù)分類中獲取服務(wù)并返回給用戶,若所述列表中的候選服務(wù)分類大于或等于兩個(gè),則對(duì)候選服務(wù)分類列表所對(duì)應(yīng)查詢語句中的未登錄串進(jìn)行模糊理解,得到又一個(gè)候選服務(wù)分類列表,將該列表稱為第二候選服務(wù)分類列表,然后將所述的第二候選服務(wù)分類列表轉(zhuǎn)發(fā)給融合操作模塊。
所述的融合操作模塊根據(jù)所述的第一候選服務(wù)分類列表與所述的第二候選服務(wù)分類列表作融合操作,得到公共的候選服務(wù)分類,若所述公共的候選服務(wù)分類唯一,則返回該候選服務(wù)分類中的服務(wù)給用戶,若所述公共的候選服務(wù)分類不存在或多于一個(gè),則對(duì)所述查詢語句的導(dǎo)航失敗。
本發(fā)明的智能導(dǎo)航系統(tǒng)還包括標(biāo)志性詞條匹配模塊,所述的標(biāo)志性詞條匹配模塊將融合操作模塊所輸出的導(dǎo)航失敗的查詢語句中的分詞結(jié)果再與各個(gè)服務(wù)分類本體中的標(biāo)志性詞條進(jìn)行匹配查找,若存在匹配結(jié)果,則將所述匹配結(jié)果所在服務(wù)分類中的服務(wù)返回給用戶,否則,向用戶返回導(dǎo)航失敗信息。
最后所應(yīng)說明的是,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1、一種服務(wù)智能導(dǎo)航方法,用于在元數(shù)據(jù)或服務(wù)分類本體中查找與用戶查詢語句相關(guān)的服務(wù);所述元數(shù)據(jù)包括與所述服務(wù)相關(guān)的信息,以及所述信息與語義文法間的對(duì)應(yīng)關(guān)系;所述服務(wù)分類本體包括詞模模式;所述詞模模式用于描述與所述服務(wù)分類本體相關(guān)的服務(wù)中所涉及的句子的模式;所述方法包括步驟1)、對(duì)用戶以自然語言方式所提出查詢語句的分詞結(jié)果進(jìn)行基于元數(shù)據(jù)的文法匹配,對(duì)于成功匹配所得到的服務(wù)信息返回給用戶,結(jié)束對(duì)所述查詢語句的導(dǎo)航,對(duì)于匹配未成功的分詞結(jié)果執(zhí)行下一步;步驟2)、根據(jù)所述分詞結(jié)果中的模板詞或模板詞類,找出與所述分詞結(jié)果最為匹配的詞模模式,然后得到所述詞模模式所在的服務(wù)分類本體,返回所述服務(wù)分類本體中的服務(wù)給用戶,結(jié)束對(duì)所述查詢語句的導(dǎo)航操作;對(duì)匹配未成功的分詞結(jié)果,所述分詞結(jié)果所在的查詢語句導(dǎo)航失敗。
2、 根據(jù)權(quán)利要求1所述的服務(wù)智能導(dǎo)航方法,其特征在于,所述服 務(wù)分類本體還包括描述性信息或業(yè)務(wù)性信息,所述的描述性信息包括用于 自然語言理解的通用信息,所述的業(yè)務(wù)性信息用于表示具體業(yè)務(wù);所述方 法還包括步驟3)、將所述步驟2)中匹配未成功的分詞結(jié)果與各個(gè)服務(wù)分類本 體中的描述性信息或業(yè)務(wù)性信息進(jìn)行匹配查找,對(duì)所得到的匹配查找結(jié)果 按照所述描述性信息或業(yè)務(wù)性信息與所在服務(wù)分類本體間的映射關(guān)系,得 到包含候選服務(wù)分類的列表,將該列表稱為第 一候選服務(wù)分類列表;步驟4)、對(duì)于所述的第一候選服務(wù)分類列表,若所述列表中只有一個(gè) 候選服務(wù)分類,則從該唯一的候選服務(wù)分類中獲取服務(wù)并返回給用戶,若 所述列表中的候選服務(wù)分類大于或等于兩個(gè),則對(duì)候選服務(wù)分類列表所對(duì) 應(yīng)查詢語句中的未登錄串進(jìn)行模糊理解,得到又一個(gè)候選服務(wù)分類列表, 將該列表稱為第二候選服務(wù)分類列表;步驟5 )、根據(jù)所述的第一候選服務(wù)分類列表與所述的第二候選服務(wù)分 類列表作融合操作,得到公共的候選服務(wù)分類,若所述公共的候選服務(wù)分 類唯一,則返回該候選服務(wù)分類中的服務(wù)給用戶,若所述公共的候選服務(wù) 分類不存在或多于一個(gè),則對(duì)所述查詢語句的導(dǎo)航失敗。
3、 根據(jù)權(quán)利要求1或2所述的服務(wù)智能導(dǎo)航方法,其特征在于,所述的服務(wù)分類本體還包括用于唯一地描述所述服務(wù)分類本體的標(biāo)志性詞條;所述方法還包括對(duì)導(dǎo)航失敗的查詢語句中的分詞結(jié)果與各個(gè)服務(wù)分類本體中的所述 標(biāo)志性詞條進(jìn)行匹配查找,若存在匹配結(jié)果,則將所述匹配結(jié)果所在服務(wù) 分類中的服務(wù)返回給用戶,否則,向用戶返回導(dǎo)航失敗信息。
4、 根據(jù)權(quán)利要求1或2或3所述的服務(wù)智能導(dǎo)航方法,其特征在于, 在所述的步驟1)中,所述查詢語句的分詞結(jié)果與所述元數(shù)據(jù)中的語義文 法進(jìn)行比較,若所述分詞結(jié)果與所述語義文法相對(duì)應(yīng),則將所述元數(shù)據(jù)中 與所述語義文法存在對(duì)應(yīng)關(guān)系的與所述服務(wù)相關(guān)的信息作為成功匹配所 得到的服務(wù)信息返回給用戶。
5、 根據(jù)權(quán)利要求1或2或3所述的服務(wù)智能導(dǎo)航方法,其特征在于, 所述的步驟2)包括步驟2-l)、對(duì)所述分詞結(jié)果中的模板詞或模板詞類,查找包含有所述 模板詞或模板詞類的所有詞模模式;步驟2-2)、從步驟2-l)所得到的所有詞模模式中選擇最優(yōu)詞模模式 作為相匹配的詞沖莫才莫式;步驟2-3 )、將所述最優(yōu)詞模模式所在服務(wù)分類中的服務(wù)返回給用戶。
6、 根據(jù)權(quán)利要求5所述的服務(wù)智能導(dǎo)航方法,其特征在于,在所述 的步驟2-2)中,采用TFUDF擴(kuò)展模型來確定所述詞模模式與所述查詢語 句間的相對(duì)匹配強(qiáng)度,選擇相對(duì)匹配強(qiáng)度最強(qiáng)的詞模模式作為最優(yōu)詞模模 式。
7、 根據(jù)權(quán)利要求6所述的服務(wù)智能導(dǎo)航方法,其特征在于,所述的 TF\IDF擴(kuò)展模型計(jì)算所述候選詞模模式與所述查詢語句間的相關(guān)度和不 相關(guān)度,然后求所述的相關(guān)度與所述的不相關(guān)度的比值,得到所述候選詞模模式與所述查詢語句間的相對(duì)匹配強(qiáng)度;其中,所述的相關(guān)度用Relativeness(Pt,Q)表示,其中的; ,表示所述的候選詞模模式,Q表示所述用戶查詢語句;其中,TF表示一個(gè)候選詞模模式中的模板詞或模板詞類與某個(gè)詞模 模式的相關(guān)度,3<formula>formula see original document page 4</formula>其中,tj表示一個(gè)模板詞或模板詞類,dt表示某個(gè)詞模模式,count(t,) 是第、個(gè)模板詞或模板詞類在詞模模式《中的計(jì)數(shù);IDF表示一個(gè)模板詞或模板詞類在詞模模式的主題的權(quán)重大小,<formula>formula see original document page 4</formula>其中,D是詞模模式集的總數(shù)量,A,是包含了該模板詞或模板詞類的 詞模模式的總數(shù);表示才莫才反詞或才莫才反詞類的長度; 所述的不相關(guān)度用Irrelativeness(Pt,Q)表示,它表示用戶查詢語句中沒有 與詞模a相匹配的模板詞或模板詞類的IDF值的累加<formula>formula see original document page 4</formula>
8、 根據(jù)權(quán)利要求2所述的服務(wù)智能導(dǎo)航方法,其特征在于,在所述 的步驟4)中,所述的模糊理解包括步驟4-l)、將所述查詢語句與所述查詢語句的分詞結(jié)果進(jìn)行比較,得 到所述查詢語句中的未登錄串;步驟4-2)、對(duì)所述未登錄串中的各個(gè)字符分別查找包含各單個(gè)字符的 候選詞條,然后從所述候選詞條中得到所述未登錄串的候選模式串;步驟4-3)、實(shí)現(xiàn)所述候選模式串與所述未登錄串之間的模糊匹配,將 模糊匹配成功的候選模式串作為模糊理解的結(jié)果。
9、 根據(jù)權(quán)利要求8所述的服務(wù)智能導(dǎo)航方法,其特征在于,所述的 步驟4-2)包括步驟4_2-1)、判斷所述查詢語句的分詞結(jié)果是否為空,若不為空,則 根據(jù)所述分詞結(jié)果中的詞語在移動(dòng)服務(wù)分類本體中查找相關(guān)詞類,然后執(zhí) 行下一步,若不為空,則直接根據(jù)所述未登錄串中的各個(gè)字符分別查找包 含各單個(gè)字符的候選詞條,然后執(zhí)行步驟4-2-3 );步驟4-2-2)、對(duì)所述未登錄串中的各個(gè)字符,在滿足相關(guān)詞類的條件 下分別查找包含各個(gè)單個(gè)字符的候選詞條;步驟4-2-3 )、從所述的候選詞條中選擇可能性較大的候選詞條作為未 登錄串的候選模式串。
10、 根據(jù)權(quán)利要求9所述的服務(wù)智能導(dǎo)航方法,其特征在于,在所述 的步驟4-2-3)中,采用計(jì)分方式選擇可能性較大的候選詞條,所述候選 詞條每出現(xiàn)一次,為其計(jì)一次分,最后選擇滿足一定分值的候選詞條作為 可能性較大的候選詞條。
11、 根據(jù)權(quán)利要求8所述的服務(wù)智能導(dǎo)航方法,其特征在于,在所述 的步驟4-3)中,所述的才莫糊匹配包括步驟4-3-1)、比較所述候選模式串與所述未登錄串的長度,若兩者相 差字符個(gè)數(shù)超過第一闊值時(shí),返回不能匹配,否則執(zhí)行下一步;步驟4-3-2 )、求取所述候選模式串與所述未登錄串的極大公共子串, 然后按照所述極大公共子串在候選模式串中出現(xiàn)的次序依次標(biāo)出所述極 大公共子串在所述未登錄串中的位置值;步驟4-3-3)、判斷所述極大公共子串的數(shù)目,若所述極大公共子串的 數(shù)目為0,則執(zhí)行下一步,若所述極大公共子串的數(shù)目為1,則執(zhí)行步驟 4-3-5),若所述極大公共子串的數(shù)目大于1,則執(zhí)行步驟4-3-6);步驟4-3-4)、所述候選模式串與所述未登錄串不能匹配,向用戶返回 不能匹配的標(biāo)志,結(jié)束操作;步驟4-3-5 )、對(duì)所述候選模式串中除極大公共子串外的部分進(jìn)行音近 /音似匹配,若匹配成功則將該候選模式串作為模糊匹配的結(jié)果,若失敗, 則向用戶返回不能匹配的標(biāo)志,結(jié)束操作;步驟4-3-6 )、判斷極大公共子串在候選模式串以及未登錄串中的相對(duì) 位置是否一致,若不一致,則返回不能匹配標(biāo)志,否則,執(zhí)行下一步;步驟4-3-7)、對(duì)所述未登錄串較所述候選模式串多寫或漏寫的情況, 判斷所有極大公共子串的長度之和占所述未登錄串的百分比是否大于第 二閾值,若大于或等于,則將所述候選模式串作為模糊匹配的結(jié)果,若小 于則向用戶返回不能匹配的標(biāo)志,結(jié)束操作。
12、 根據(jù)權(quán)利要求11所述的服務(wù)智能導(dǎo)航方法,其特征在于,在步 驟4-3-1)中,所述第一閾值為2。
13、 根據(jù)權(quán)利要求11所述的服務(wù)智能導(dǎo)航方法,其特征在于,在步 驟4-3-7)中,所述第二閾值為0.8。
14、 根據(jù)權(quán)利要求2所述的服務(wù)智能導(dǎo)航方法,其特征在于,所述的 步驟5)中包括步驟5-1 )、對(duì)所述的第一候選服務(wù)分類列表與所述的第二候選服務(wù)分類列表做交操作,所得到的結(jié)果若存在唯一的公共移動(dòng)服務(wù)分類,則將該移動(dòng)服務(wù)分類中的移動(dòng)服務(wù)返回給用戶,否則,執(zhí)行下一步;步驟5-2)、對(duì)所述的第一候選服務(wù)分類列表進(jìn)行擴(kuò)展,將擴(kuò)展后的第一候選服務(wù)分類列表與所述的第二候選服務(wù)分類列表做交操作,所得到的結(jié)果若存在唯一的公共移動(dòng)服務(wù)分類,則將該移動(dòng)服務(wù)分類中的移動(dòng)服務(wù)返回給用戶,否則,執(zhí)行下一步;步驟5-3)、對(duì)所述的第二候選服務(wù)分類列表進(jìn)行擴(kuò)展,將擴(kuò)展后的第二候選服務(wù)分類列表與所述的第 一候選服務(wù)分類列表做交操作,所得到的結(jié)果若存在唯一的公共移動(dòng)服務(wù)分類,則將該移動(dòng)服務(wù)分類中的移動(dòng)服務(wù)返回給用戶,否則,執(zhí)行下一步;步驟5-4)、將擴(kuò)展后的第一候選服務(wù)分類列表與擴(kuò)展后的第二候選服務(wù)分類列表做交操作,所得到的結(jié)果若存在唯一的公共移動(dòng)服務(wù)分類,則將該移動(dòng)服務(wù)分類中的移動(dòng)服務(wù)返回給用戶,否則向用戶返回不能匹配的標(biāo)志,結(jié)束操作。
15、 根據(jù)權(quán)利要求14所述的服務(wù)智能導(dǎo)航方法,其特征在于,所述 的擴(kuò)展操作包括將所述候選服務(wù)分類列表中的候選服務(wù)分類的子類也作 為候選服務(wù)分類加入到列表中。
16、 一種服務(wù)智能導(dǎo)航系統(tǒng),其特征在于,用于在元數(shù)據(jù)或服務(wù)分類 本體中查找與用戶查詢語句相關(guān)的服務(wù);所述元數(shù)據(jù)包括與所述服務(wù)相關(guān) 的信息,以及所述信息與語義文法間的對(duì)應(yīng)關(guān)系;所述服務(wù)分類本體包括 詞模模式;所述詞模模式用于描述與所述服務(wù)分類本體相關(guān)的服務(wù)中所涉 及的句子的模式;所述系統(tǒng)包括基于元數(shù)據(jù)的文法匹配模塊、詞模模式匹 配才莫塊;其中,所述的基于元數(shù)據(jù)的文法匹配模塊對(duì)用戶以自然語言方式所提出查詢 語句的分詞結(jié)果進(jìn)行基于元數(shù)據(jù)的文法匹配,對(duì)于成功匹配所得到的服務(wù) 信息返回給用戶,結(jié)束對(duì)所述查詢語句的導(dǎo)航,對(duì)于匹配未成功的分詞結(jié) 果轉(zhuǎn)發(fā)給詞模模式匹配模塊;所述的詞模模式匹配模塊根據(jù)所述分詞結(jié)果中的模板詞或模板詞類, 找出與所述分詞結(jié)果最為匹配的詞模模式,然后得到所述詞模模式所在的 服務(wù)分類本體,返回所述服務(wù)分類本體中的服務(wù)給用戶,結(jié)束對(duì)所述查詢 語句的導(dǎo)航操作;對(duì)匹配未成功的分詞結(jié)果,所述分詞結(jié)果所在的查詢語 句導(dǎo)航失敗。
17、 根據(jù)權(quán)利要求16所述的服務(wù)智能導(dǎo)航系統(tǒng),其特征在于,還包括描述性信息或業(yè)務(wù)性信息匹配模塊、模糊匹配模塊以及融合操作模塊; 其中,所述的描述性信息或業(yè)務(wù)性信息匹配模塊將所述詞模模式匹配模塊 中匹配未成功的分詞結(jié)果與各個(gè)服務(wù)分類本體中的描述性信息或業(yè)務(wù)性 信息進(jìn)行匹配查找,對(duì)所得到的匹配查找結(jié)果按照所述描述性信息或業(yè)務(wù) 性信息與所在服務(wù)分類本體間的映射關(guān)系,得到包含候選服務(wù)分類的列 表,將該列表稱為第一候選服務(wù)分類列表,然后將所述的第一候選服務(wù)分 類列表轉(zhuǎn)發(fā)給模糊理解模塊以及融合操作模塊;所述的模糊匹配模塊對(duì)于所述的第一候選服務(wù)分類列表進(jìn)行判斷,若 所述列表中只有一個(gè)候選服務(wù)分類,則從該唯一的候選服務(wù)分類中獲取服 務(wù)并返回給用戶,若所述列表中的候選服務(wù)分類大于或等于兩個(gè),則對(duì)候 選服務(wù)分類列表所對(duì)應(yīng)查詢語句中的未登錄串進(jìn)行模糊理解,得到又一個(gè) 候選服務(wù)分類列表,將該列表稱為第二候選服務(wù)分類列表;所述的融合操作模塊根據(jù)所述的第 一候選服務(wù)分類列表與所述的第 二候選服務(wù)分類列表作融合操作,得到公共的候選服務(wù)分類,若所述公共 的候選服務(wù)分類唯一,則返回該候選服務(wù)分類中的服務(wù)給用戶,若所述公 共的候選服務(wù)分類不存在或多于一個(gè),則對(duì)所述查詢語句的導(dǎo)航失敗。
18、 根據(jù)權(quán)利要求16或17所述的服務(wù)智能導(dǎo)航系統(tǒng),其特征在于, 還包括標(biāo)志性詞條匹配才莫塊;所述的標(biāo)志性詞條匹配模塊對(duì)導(dǎo)航失敗的查詢語句中的分詞結(jié)果與 各個(gè)服務(wù)分類本體中的所述標(biāo)志性詞條進(jìn)行匹配查找,若存在匹配結(jié)果, 則將所述匹配結(jié)果所在服務(wù)分類中的服務(wù)返回給用戶,否則,向用戶返回 導(dǎo)航失敗信息。
全文摘要
本發(fā)明提供一種服務(wù)智能導(dǎo)航方法,包括對(duì)用戶所提出查詢語句的分詞結(jié)果進(jìn)行基于元數(shù)據(jù)的文法匹配;根據(jù)分詞結(jié)果找出相匹配的詞模模式,得到所述相匹配的詞模模式所在的服務(wù)分類;將分詞結(jié)果與描述性信息或業(yè)務(wù)性信息進(jìn)行匹配查找,得到第一候選服務(wù)分類列表;對(duì)只有一個(gè)候選服務(wù)分類的第一候選服務(wù)分類列表,從唯一的候選服務(wù)分類中獲取服務(wù)并返回給用戶,若候選服務(wù)分類大于或等于兩個(gè),則對(duì)查詢語句中的未登錄串進(jìn)行模糊理解,得到第二候選服務(wù)分類列表;根據(jù)第一候選服務(wù)分類列表與第二候選服務(wù)分類列表作融合操作,得到公共的候選服務(wù)分類,若其唯一,則返回服務(wù)給用戶,若所述公共的候選服務(wù)分類不存在或多于一個(gè),則導(dǎo)航失敗。
文檔編號(hào)G10L15/28GK101499277SQ20081011724
公開日2009年8月5日 申請(qǐng)日期2008年7月25日 優(yōu)先權(quán)日2008年7月25日
發(fā)明者劉亮亮, 漢 盧, 吳昱明, 曹亞男, 曹存根, 曹馨宇, 林樂宇, 石 王, 王東升, 臧良俊 申請(qǐng)人:中國科學(xué)院計(jì)算技術(shù)研究所