亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用戶訴求分析方法和裝置與流程

文檔序號:11432232閱讀:285來源:國知局
一種用戶訴求分析方法和裝置與流程

本申請涉及互聯(lián)網(wǎng)數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種用戶訴求分析方法和裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的迅速發(fā)展,互聯(lián)網(wǎng)上存儲了大量消費(fèi)者對產(chǎn)品的評論信息,這些評論信息中包含消費(fèi)者對產(chǎn)品性能或功能等方面褒義或貶義的評價。商家可以通過跟蹤這些評價信息,及時獲取消費(fèi)者的反饋意見,從而改進(jìn)產(chǎn)品。

因此,用戶評論信息的意見挖掘研究營運(yùn)而生,如何快速有效地從評論信息中挖掘出用戶訴求已成為評論信息處理的一個研究熱點。然而,目前,常通過人工閱讀用戶評論信息的方式挖掘用戶訴求,但面對網(wǎng)絡(luò)上海量的無結(jié)構(gòu)化的評論信息,通過人工閱讀的方式挖掘用戶訴求是一個費(fèi)時費(fèi)力的過程。另外,由于每個產(chǎn)品都具有產(chǎn)品業(yè)務(wù)的獨(dú)特性,這就要求分析人員必須非常熟悉產(chǎn)品技術(shù)和具體業(yè)務(wù),才能夠準(zhǔn)確挖掘用戶訴求。



技術(shù)實現(xiàn)要素:

本申請所要解決的技術(shù)問題是針對產(chǎn)品的具體業(yè)務(wù)提供一種用戶訴求分析方法,用以自動地從用戶評論信息中挖掘用戶訴求,以提高用戶訴求挖掘的效率。

本申請還提供一種用戶訴求分析裝置,用以保證上述方法在實際中的實現(xiàn)及應(yīng)用。

本申請第一方面提供了一種用戶訴求分析方法,所述方法包括:

將用戶評論信息輸入至預(yù)設(shè)的分詞詞性標(biāo)注模型得到所述用戶評論信息包含的詞和對應(yīng)詞性;其中,所述預(yù)設(shè)的詞性標(biāo)注模型是利用標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞和對應(yīng)詞性訓(xùn)練后得到的模型;

將所述預(yù)設(shè)的詞性標(biāo)注模型輸出的詞和對應(yīng)詞性輸入至預(yù)設(shè)的依存關(guān)系預(yù)測模型得到依存關(guān)系;其中,所述預(yù)設(shè)的依存關(guān)系預(yù)測模型是選取標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞相關(guān)的特征訓(xùn)練后得到的模型;

將所述用戶評論信息包含的每個詞分別作為候選核心詞,根據(jù)所述依存關(guān)系提取每個候選核心詞相關(guān)的特征,將提取到的特征輸入預(yù)設(shè)的分類模型預(yù)測得到候選核心詞對應(yīng)的概率;所述候選核心詞相關(guān)的特征至少包括:候選核心詞與業(yè)務(wù)關(guān)鍵詞的關(guān)系和候選核心詞相鄰的詞與業(yè)務(wù)關(guān)鍵詞之間的關(guān)系;

選擇最大概率對應(yīng)的候選核心詞作為所述用戶評論信息的核心詞。

可選的,候選核心詞相關(guān)的特征包括:

候選核心詞、候選核心詞的詞性、候選核心詞的左邊詞、候選核心詞的左邊詞的詞性、候選核心詞的右邊詞、候選核心詞的右邊詞的詞性、候選核心詞的依存距離、候選核心詞的長度、候選核心詞第一個字、候選核心詞最后一字、候選核心詞是否為業(yè)務(wù)關(guān)鍵詞、候選核心詞的左邊詞是否為業(yè)務(wù)關(guān)鍵詞、候選核心詞的右邊詞是否為業(yè)務(wù)關(guān)鍵詞。

可選的,在所述選擇最大概率對應(yīng)的候選核心詞作為所述用戶評論信息的核心詞之前,所述方法還包括:

判斷所有候選核心詞對應(yīng)的概率中的最大概率是否小于預(yù)設(shè)閾值;其中,所述預(yù)設(shè)閾值是根據(jù)roc曲線而設(shè)定的閾值;

如果所述最大概率大于或等于預(yù)設(shè)閾值,則執(zhí)行所述步驟:根據(jù)每個候選核心詞以及對應(yīng)的概率分析所述用戶評論信息的核心詞;

如果所述最大概率小于預(yù)設(shè)閾值,則根據(jù)預(yù)設(shè)場景詞列表以及預(yù)設(shè)識別方式識別出所述用戶評論信息的核心詞;其中,所述預(yù)設(shè)場景詞列表包括:與產(chǎn)品業(yè)務(wù)相關(guān)的、能夠表征應(yīng)用場景的詞;所述預(yù)設(shè)識別方式包括:針對用戶評論信息包含場景詞的情況,如何選擇核心詞的方式,以及針對用戶評論信息不包含場景詞的情況,如何選擇核心詞的方式。

可選的,所述根據(jù)預(yù)設(shè)場景詞列表以及預(yù)設(shè)識別方式識別出所述用戶評論信息的核心詞,包括:

根據(jù)預(yù)設(shè)場景詞列表識別所述用戶評論信息是否包含場景詞;

如果是,則根據(jù)場景詞詞性和預(yù)設(shè)識別方式中包含場景詞的各個識別方式的優(yōu)先級識別出所述用戶評論信息的核心詞;

如果否,則根據(jù)預(yù)設(shè)識別方式中不包含場景詞的識別方式識別出所述用戶評論信息的核心詞。

可選的,所述預(yù)設(shè)識別方式包括:如下幾種方式,其中,場景詞詞性相同的不同識別方式具有不同的優(yōu)先級:

識別方式1:當(dāng)場景詞為形容詞時,選擇有效動詞作為核心詞;

識別方式2:當(dāng)場景詞為形容詞時,選擇賓語中心詞作為核心詞;

識別方式3:當(dāng)場景詞為動詞時,選擇情態(tài)動詞作為核心詞;

識別方式4:當(dāng)場景詞為動詞時,選擇否定副詞作為核心詞;

識別方式5:當(dāng)場景詞為動詞時,選擇賓語中心詞作為核心詞;

識別方式6:當(dāng)場景詞為動詞時,選擇非否定副詞作為核心詞;

識別方式7:當(dāng)場景詞為動詞時,選擇主語作為核心詞;

識別方式8:當(dāng)場景詞為名詞時,選擇有效動詞作為核心詞;

識別方式9:當(dāng)場景詞為名詞時,選擇形容詞作為核心詞;

識別方式10:當(dāng)場景詞為名詞時,選擇從句動詞作為核心詞;

識別方式11:當(dāng)沒有無場景詞時,選擇第一個有效動詞作為核心詞。

可選的,所述方法還包括:

利用word2vec工具對識別出的所有核心詞進(jìn)行聚類。

本申請第二方面提供了一種用戶訴求分析裝置,所述裝置包括:

分詞詞性標(biāo)注單元,用于將用戶評論信息輸入至預(yù)設(shè)的分詞詞性標(biāo)注模型得到所述用戶評論信息包含的詞和對應(yīng)詞性;其中,所述預(yù)設(shè)的詞性標(biāo)注模型是利用標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞和對應(yīng)詞性訓(xùn)練后得到的模型;

依存關(guān)系分析單元,用于將所述預(yù)設(shè)的詞性標(biāo)注模型輸出的詞和對應(yīng)詞性輸入至預(yù)設(shè)的依存關(guān)系預(yù)測模型得到依存關(guān)系;其中,所述預(yù)設(shè)的依存關(guān)系預(yù)測模型是選取標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞相關(guān)的特征訓(xùn)練后得到的模型;

候選核心詞分析單元,用于將所述用戶評論信息包含的每個詞分別作為候選核心詞,根據(jù)所述依存關(guān)系提取每個候選核心詞相關(guān)的特征,將提取到的特征輸入預(yù)設(shè)的分類模型預(yù)測得到候選核心詞對應(yīng)的概率;所述候選核心 詞相關(guān)的特征至少包括:候選核心詞與業(yè)務(wù)關(guān)鍵詞的關(guān)系和候選核心詞相鄰的詞與業(yè)務(wù)關(guān)鍵詞之間的關(guān)系;

第一選擇單元,用于選擇最大概率對應(yīng)的候選核心詞作為所述用戶評論信息的核心詞。

可選的,所述候選核心詞分析單元具體提取的每個候選核心詞相關(guān)的特征包括:候選核心詞、候選核心詞的詞性、候選核心詞的左邊詞、候選核心詞的左邊詞的詞性、候選核心詞的右邊詞、候選核心詞的右邊詞的詞性、候選核心詞的依存距離、候選核心詞的長度、候選核心詞第一個字、候選核心詞最后一字、候選核心詞是否為業(yè)務(wù)關(guān)鍵詞、候選核心詞的左邊詞是否為業(yè)務(wù)關(guān)鍵詞、候選核心詞的右邊詞是否為業(yè)務(wù)關(guān)鍵詞。

可選的,所述裝置還包括:

判斷單元,用于判斷所有候選核心詞對應(yīng)的概率中的最大概率是否小于預(yù)設(shè)閾值;其中,所述預(yù)設(shè)閾值是根據(jù)roc曲線而設(shè)定的閾值;

如果所述最大概率大于或等于預(yù)設(shè)閾值,則執(zhí)行所述第一選擇單元;

如果所述最大概率小于預(yù)設(shè)閾值,則執(zhí)行第二選擇單元;

所述第二選擇單元,用于根據(jù)預(yù)設(shè)場景詞列表以及預(yù)設(shè)識別方式識別出所述用戶評論信息的核心詞;其中,所述預(yù)設(shè)場景詞列表包括:與產(chǎn)品業(yè)務(wù)相關(guān)的、能夠表征應(yīng)用場景的詞;所述預(yù)設(shè)識別方式包括:針對用戶評論信息包含場景詞的情況,如何選擇核心詞的方式,以及針對用戶評論信息不包含場景詞的情況,如何選擇核心詞的方式。

可選的,所述第二選擇單元,包括:

場景詞識別子單元,用于根據(jù)預(yù)設(shè)場景詞列表識別所述用戶評論信息是否包含場景詞;如果是,觸發(fā)第一識別子單元;如果否,觸發(fā)第二識別子單元;

第一識別子單元,用于根據(jù)場景詞詞性和預(yù)設(shè)識別方式中包含場景詞的各個識別方式的優(yōu)先級識別出所述用戶評論信息的核心詞;

第二識別子單元,用于根據(jù)預(yù)設(shè)識別方式中不包含場景詞的識別方式識別出所述用戶評論信息的核心詞。

可選的,所述預(yù)設(shè)識別方式包括:如下幾種方式,其中,場景詞詞性相 同的不同識別方式具有不同的優(yōu)先級:

識別方式1:當(dāng)場景詞為形容詞時,選擇有效動詞作為核心詞;

識別方式2:當(dāng)場景詞為形容詞時,選擇賓語中心詞作為核心詞;

識別方式3:當(dāng)場景詞為動詞時,選擇情態(tài)動詞作為核心詞;

識別方式4:當(dāng)場景詞為動詞時,選擇否定副詞作為核心詞;

識別方式5:當(dāng)場景詞為動詞時,選擇賓語中心詞作為核心詞;

識別方式6:當(dāng)場景詞為動詞時,選擇非否定副詞作為核心詞;

識別方式7:當(dāng)場景詞為動詞時,選擇主語作為核心詞;

識別方式8:當(dāng)場景詞為名詞時,選擇有效動詞作為核心詞;

識別方式9:當(dāng)場景詞為名詞時,選擇形容詞作為核心詞;

識別方式10:當(dāng)場景詞為名詞時,選擇從句動詞作為核心詞;

識別方式11:當(dāng)沒有無場景詞時,選擇第一個有效動詞作為核心詞。

可選的,所述裝置還包括:

聚類單元,用于利用word2vec工具對識別出的所有核心詞進(jìn)行聚類。

本申請?zhí)峁┑募夹g(shù)方案與現(xiàn)有技術(shù)相比,具有如下優(yōu)點:

本申請?zhí)峁┑募夹g(shù)方案,先利用預(yù)設(shè)的分詞詞性標(biāo)注模型對用戶評論信息進(jìn)行分詞以及詞性標(biāo)注處理;由于,預(yù)設(shè)的詞性標(biāo)注模型是利用標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞和對應(yīng)詞性訓(xùn)練后得到的模型;因此,該詞性標(biāo)注模型針對產(chǎn)品特定業(yè)務(wù)具有較高的準(zhǔn)確性;然后,利用預(yù)設(shè)的依存關(guān)系預(yù)測模型分析用戶評論信息中各詞之間的依存關(guān)系;由于,預(yù)設(shè)的依存關(guān)系預(yù)測模型是選取標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞相關(guān)的特征訓(xùn)練后得到的模型;因此,該詞性標(biāo)注模型針對產(chǎn)品特定業(yè)務(wù)具有較高的預(yù)測準(zhǔn)確性;再,將所述用戶評論信息包含的每個詞分別作為候選核心詞,根據(jù)所述依存關(guān)系提取每個候選核心詞相關(guān)的特征,將提取到的特征輸入預(yù)設(shè)的分類模型預(yù)測得到候選核心詞對應(yīng)的概率;最后,選擇最大概率對應(yīng)的候選核心詞作為所述用戶評論信息的核心詞。由于,候選核心詞相關(guān)的特征至少包括:候選核心詞與業(yè)務(wù)關(guān)鍵詞的關(guān)系和候選核心詞相鄰的詞與業(yè)務(wù)關(guān)鍵詞之間的關(guān)系;因此,在預(yù)測過程中充分考慮了用戶評論信息包含的詞與產(chǎn)品業(yè)務(wù)的實際關(guān)系,因此能夠充分挖掘用戶針對產(chǎn)品業(yè)務(wù)的實際訴求??梢姡罕旧暾?zhí)峁┑募夹g(shù)方案,能夠自 動的挖掘出用戶訴求,其挖掘效率和精度遠(yuǎn)遠(yuǎn)高于現(xiàn)有技術(shù)的人工閱讀方式。

附圖說明

為了更清楚地說明本申請實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本申請?zhí)峁┑囊环N用戶訴求分析方法實施例1的流程圖;

圖2是基于圖1所示方法提供的一種示例圖;

圖3是本申請?zhí)峁┑囊环N用戶訴求分析方法實施例2的流程圖;

圖4是本申請?zhí)峁┑囊环N用戶訴求分析裝置實施例1的結(jié)構(gòu)圖;

圖5是本申請?zhí)峁┑囊环N用戶訴求分析裝置實施例2的結(jié)構(gòu)圖。

具體實施方式

下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護(hù)的范圍。

本申請可用于眾多通用或?qū)S玫挠嬎阊b置環(huán)境或配置中。例如:個人計算機(jī)、服務(wù)器計算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器裝置、包括以上任何裝置或設(shè)備的分布式計算環(huán)境等等。

本申請可以在由計算機(jī)執(zhí)行的計算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模型。一般地,程序模型包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本申請,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模型可以位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計算機(jī)存儲介質(zhì)中。

參考圖1,示出了本申請?zhí)峁┑囊环N用戶訴求分析方法的流程圖,該方法可以包括以下步驟101-104:

步驟101:將用戶評論信息輸入至預(yù)設(shè)的分詞詞性標(biāo)注模型得到所述用戶評論信息包含的詞和對應(yīng)詞性;其中,所述預(yù)設(shè)的詞性標(biāo)注模型是利用標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞和對應(yīng)詞性訓(xùn)練后得到的模型。

由于,傳統(tǒng)分詞詞性標(biāo)注器是基于詞典實現(xiàn)分詞詞性標(biāo)注處理,因此,其與產(chǎn)品的實際業(yè)務(wù)很可能不匹配,使得利用傳統(tǒng)分詞詞性標(biāo)注器針對產(chǎn)品特定業(yè)務(wù)時,其準(zhǔn)確性較低,并不能夠適用于針對產(chǎn)品業(yè)務(wù)評論信息的挖掘。因此,本申請?zhí)峁┑募夹g(shù)方案提出了針對產(chǎn)品業(yè)務(wù)訓(xùn)練特定的分詞詞性標(biāo)注模型。但在作模型訓(xùn)練時,訓(xùn)練數(shù)據(jù)的選取和收集是模型訓(xùn)練的難點,也是提高模型訓(xùn)練效率和可靠性的重要因素。

因此,本申請?zhí)峁┝岁P(guān)于分詞詞性標(biāo)注模型的訓(xùn)練方法,以提供模型的訓(xùn)練效率和可靠性,使其能夠更好的適用于產(chǎn)品特定業(yè)務(wù)中。具體的,該訓(xùn)練方法可以包括s11-s13.

s11:利用傳統(tǒng)分詞詞性標(biāo)注器對采集的用戶評論信息進(jìn)行分詞以及詞性標(biāo)注處理,得到用戶評論信息包含的詞以及對應(yīng)詞性。

舉例說明:用戶針對產(chǎn)品“支付寶”下的業(yè)務(wù)“招財寶”發(fā)表的評論信息為“招財寶收益下降?”。則經(jīng)過s11利用傳統(tǒng)分詞詞性標(biāo)注器進(jìn)行分詞及詞性標(biāo)注處理后,得到的結(jié)果是:

“招財寶/動詞收益/名詞下降/名詞”。

在產(chǎn)品“支付寶”下的業(yè)務(wù)“招財寶”中,“招財寶”是業(yè)務(wù)名稱,其在該產(chǎn)品中本定義為名詞,而不是動詞。若直接利用這些數(shù)據(jù)進(jìn)行模型訓(xùn)練,其訓(xùn)練結(jié)果也不可靠,因此,在得到這些數(shù)據(jù)之后,利用s12對這些數(shù)據(jù)進(jìn)行修正。

s12:利用預(yù)設(shè)的業(yè)務(wù)關(guān)鍵詞詞性標(biāo)注方式對所述詞對應(yīng)的詞性進(jìn)行修正,得到詞和修正后的詞性。

其中,預(yù)設(shè)的業(yè)務(wù)關(guān)鍵詞詞性標(biāo)注方式可以包含多種修正規(guī)則。

舉例說明,一種修正規(guī)則為當(dāng)“當(dāng)招財寶為動詞時,將其詞性修正為名詞”,通過該方式對上述“招財寶/動詞收益/名詞下降/名詞” 進(jìn)行修正,得到的修正結(jié)果為:“招財寶/名詞收益/名詞下降/名詞”。

通過s12的修正處理,使得修正后的詞和對應(yīng)詞性是符合產(chǎn)品特定業(yè)務(wù)場景的,因此,利用修正后的數(shù)據(jù)進(jìn)行模型訓(xùn)練,能夠保證模型的可靠性。

s13:將詞和修正后的詞性作為訓(xùn)練樣本,通過隱馬爾可夫模型訓(xùn)練得到分詞詞性標(biāo)注模型。

本申請?zhí)峁┑倪@種訓(xùn)練方法,利用傳統(tǒng)分詞詞性標(biāo)注器可以快速的收集用戶評論信息的詞和對應(yīng)詞性,再利用預(yù)設(shè)的業(yè)務(wù)關(guān)鍵詞詞性標(biāo)注方式對詞性進(jìn)行修正,這樣,就能夠快速收集到真實、可靠的訓(xùn)練樣本,再利用訓(xùn)練樣本進(jìn)行模型訓(xùn)練,就能夠得到符合產(chǎn)品特定業(yè)務(wù)場景的分詞詞性標(biāo)注模型。

在步驟101之后,執(zhí)行步驟102。

步驟102:將所述預(yù)設(shè)的詞性標(biāo)注模型輸出的詞和對應(yīng)詞性輸入至預(yù)設(shè)的依存關(guān)系預(yù)測模型得到依存關(guān)系;其中,所述預(yù)設(shè)的依存關(guān)系預(yù)測模型是選取標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞相關(guān)的特征訓(xùn)練后得到的模型。

由于傳統(tǒng)的依存關(guān)系分析器是根據(jù)結(jié)構(gòu)句法而獲得依存句法,其僅僅使用了詞本身的特征,并沒有針對產(chǎn)品特定業(yè)務(wù)場景,其針對產(chǎn)品特定業(yè)務(wù)的用戶評論信息的依存句法分析效果并不好,因此,本申請?zhí)岢隽诉x取標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞相關(guān)的特征訓(xùn)練后得到的預(yù)設(shè)的依存關(guān)系預(yù)測模型。

在實現(xiàn)時,可以采用基于轉(zhuǎn)移的依存分類器,通過機(jī)器學(xué)習(xí)方法預(yù)先訓(xùn)練得到依存關(guān)系預(yù)測模型,依存關(guān)系預(yù)測模型能夠?qū)邮盏降脑~和詞性進(jìn)行預(yù)測,得到一個動作序列,并將動作序列轉(zhuǎn)換為最終的依存關(guān)系。

步驟103:將所述用戶評論信息包含的每個詞分別作為候選核心詞,根據(jù)所述依存關(guān)系提取每個候選核心詞相關(guān)的特征,將提取到的特征輸入預(yù)設(shè)的分類模型預(yù)測得到候選核心詞對應(yīng)的概率;所述候選核心詞相關(guān)的特征至少包括:候選核心詞與業(yè)務(wù)關(guān)鍵詞的關(guān)系和候選核心詞相鄰的詞與業(yè)務(wù)關(guān)鍵詞之間的關(guān)系。

在實現(xiàn)時,候選核心詞相關(guān)的特征也可以包括:

候選核心詞、候選核心詞的詞性、候選核心詞的左邊詞、候選核心詞的 左邊詞的詞性、候選核心詞的右邊詞、候選核心詞的右邊詞的詞性、候選核心詞的依存距離、候選核心詞的長度、候選核心詞第一個字、候選核心詞最后一字、候選核心詞是否為業(yè)務(wù)關(guān)鍵詞、候選核心詞的左邊詞是否為業(yè)務(wù)關(guān)鍵詞、候選核心詞的右邊詞是否為業(yè)務(wù)關(guān)鍵詞。

其中,預(yù)設(shè)的分類模型是通過機(jī)器學(xué)習(xí)訓(xùn)練得到的分類模型,該模型可以采用邏輯斯蒂回歸模型、線性模型、決策樹模型等用于實現(xiàn)分類的模型。

舉例說明:用戶評論信息是“花唄需要手續(xù)費(fèi)?”,經(jīng)過步驟102處理后的結(jié)果如圖2所示。

其中,“花唄”與根節(jié)點root的依存距離為2;

“需要”與根節(jié)點root的依存距離為1;

“手續(xù)費(fèi)”與根節(jié)點root的依存距離為2。

則步驟103的具體處理過程如下:

將“花唄需要手續(xù)費(fèi)?”包含的每個詞分別作為候選核心詞,則得到如下信息:

1、將“花唄”作為候選核心詞;

2、將“需要”作為候選核心詞;

3、將“手續(xù)費(fèi)”作為候選核心詞;

對每個候選核心詞的處理方式相同,下面僅以候選核心詞“花唄”為例進(jìn)行說明,根據(jù)依存關(guān)系提取與“花唄”相關(guān)的特征,具體如下:

候選核心詞:花唄

候選核心詞的詞性:名詞

候選核心詞的左邊詞:無

候選核心詞的左邊詞的詞性:無

候選核心詞的右邊詞:需要

候選核心詞的右邊詞的詞性:動詞

候選核心詞的依存距離:2

候選核心詞的長度:2

候選核心詞第一個字:花

候選核心詞最后一字:唄

候選核心詞是否為業(yè)務(wù)關(guān)鍵詞:是

候選核心詞的左邊詞是否為業(yè)務(wù)關(guān)鍵詞:否

候選核心詞的右邊詞是否為業(yè)務(wù)關(guān)鍵詞:是

將與“花唄”相關(guān)的上述特征輸入到預(yù)設(shè)的分類模型中,預(yù)測得到候選核心詞“花唄”對應(yīng)的概率。

步驟104:選擇最大概率對應(yīng)的候選核心詞作為所述用戶評論信息的核心詞。

另外,為了進(jìn)一步提高關(guān)于用戶訴求分析的準(zhǔn)確性,本申請還提供了另一種實現(xiàn)方案,下面結(jié)合圖2對該方案進(jìn)行技術(shù)說明。

圖2是本申請?zhí)峁┑囊环N用戶訴求分析方法實施例2的流程圖,如圖2所示,所述方法包括步驟201-205:

步驟201:將用戶評論信息輸入至預(yù)設(shè)的分詞詞性標(biāo)注模型得到所述用戶評論信息包含的詞和對應(yīng)詞性;其中,所述預(yù)設(shè)的詞性標(biāo)注模型是利用標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞和對應(yīng)詞性訓(xùn)練后得到的模型;

步驟202:將所述預(yù)設(shè)的詞性標(biāo)注模型輸出的詞和對應(yīng)詞性輸入至預(yù)設(shè)的依存關(guān)系預(yù)測模型得到依存關(guān)系;其中,所述預(yù)設(shè)的依存關(guān)系預(yù)測模型是選取標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞相關(guān)的特征訓(xùn)練后得到的模型;

步驟203:將所述用戶評論信息包含的每個詞分別作為候選核心詞,根據(jù)所述依存關(guān)系提取每個候選核心詞相關(guān)的特征,將提取到的特征輸入預(yù)設(shè)的分類模型預(yù)測得到候選核心詞對應(yīng)的概率;所述候選核心詞相關(guān)的特征至少包括:候選核心詞與業(yè)務(wù)關(guān)鍵詞的關(guān)系和候選核心詞相鄰的詞與業(yè)務(wù)關(guān)鍵詞之間的關(guān)系;

步驟204:選擇最大概率對應(yīng)的候選核心詞作為所述用戶評論信息的核心詞。

在執(zhí)行步驟204之前,先執(zhí)行步驟205。

步驟205:判斷所有候選核心詞對應(yīng)的概率中的最大概率是否小于預(yù)設(shè)閾值;其中,所述預(yù)設(shè)閾值是根據(jù)roc曲線而設(shè)定的閾值;如果所述最大概率大于或等于預(yù)設(shè)閾值,則執(zhí)行步驟204。否則執(zhí)行步驟206。

例如,在實現(xiàn)時,可以選取準(zhǔn)確率為80%對應(yīng)的概率值作為預(yù)設(shè)閾值。 當(dāng)然,在實現(xiàn)時,可以根據(jù)實際情況來決定以多大的準(zhǔn)確率為基準(zhǔn)來設(shè)定閾值,本申請實施例對此不作具體限定。

步驟206:根據(jù)預(yù)設(shè)場景詞列表以及預(yù)設(shè)識別方式識別出所述用戶評論信息的核心詞;其中,所述預(yù)設(shè)場景詞列表包括:與產(chǎn)品業(yè)務(wù)相關(guān)的、能夠表征應(yīng)用場景的詞;所述預(yù)設(shè)識別方式包括:針對用戶評論信息包含場景詞的情況,如何選擇核心詞的方式,以及針對用戶評論信息不包含場景詞的情況,如何選擇核心詞的方式。

其中,步驟206在實現(xiàn)時,可以包括:

根據(jù)預(yù)設(shè)場景詞列表識別所述用戶評論信息是否包含場景詞;

如果是,則根據(jù)場景詞詞性和預(yù)設(shè)識別方式中包含場景詞的各個識別方式的優(yōu)先級識別出所述用戶評論信息的核心詞;

如果否,則根據(jù)預(yù)設(shè)識別方式中不包含場景詞的識別方式識別出所述用戶評論信息的核心詞。

其中,預(yù)設(shè)識別方式包括:如下幾種方式,其中,場景詞詞性相同的不同識別方式具有不同的優(yōu)先級:

識別方式1:當(dāng)場景詞為形容詞時,選擇有效動詞作為核心詞;

識別方式2:當(dāng)場景詞為形容詞時,選擇賓語中心詞作為核心詞;

識別方式3:當(dāng)場景詞為動詞時,選擇情態(tài)動詞作為核心詞;

識別方式4:當(dāng)場景詞為動詞時,選擇否定副詞作為核心詞;

識別方式5:當(dāng)場景詞為動詞時,選擇賓語中心詞作為核心詞;

識別方式6:當(dāng)場景詞為動詞時,選擇非否定副詞作為核心詞;

識別方式7:當(dāng)場景詞為動詞時,選擇主語作為核心詞;

識別方式8:當(dāng)場景詞為名詞時,選擇有效動詞作為核心詞;

識別方式9:當(dāng)場景詞為名詞時,選擇形容詞作為核心詞;

識別方式10:當(dāng)場景詞為名詞時,選擇從句動詞作為核心詞;

識別方式11:當(dāng)沒有無場景詞時,選擇第一個有效動詞作為核心詞。

舉例說明:對于用戶評論信息“花唄需要手續(xù)費(fèi)”,其中,手續(xù)費(fèi)為場景詞,而該場景詞為名詞,則先初步判斷出可以采用識別方式8、9、10來識別,進(jìn)一步地根據(jù)識別方式8、9、10的優(yōu)先級,來決定采用優(yōu)先級最高 的方式來處理,例如,識別方式8的優(yōu)先級最高,此時,則選擇有效動詞作為核心詞,即選擇“需要”作為核心詞。

另外,為了給產(chǎn)品優(yōu)化人員提供精簡、有價值的信息,在上述方法實施例1或2的基礎(chǔ)上,還可以增加如下步驟:利用word2vec工具對識別出的所有核心詞進(jìn)行聚類。這樣,產(chǎn)品優(yōu)化人員可以根據(jù)聚類后的核心詞來對產(chǎn)品性能和功能作進(jìn)一步優(yōu)化。

與上述方法相對應(yīng)的,本申請還提供了一種用戶訴求分析裝置,參見圖3,該裝置可以包括:

分詞詞性標(biāo)注單元301,用于將用戶評論信息輸入至預(yù)設(shè)的分詞詞性標(biāo)注模型得到所述用戶評論信息包含的詞和對應(yīng)詞性;其中,所述預(yù)設(shè)的詞性標(biāo)注模型是利用標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞和對應(yīng)詞性訓(xùn)練后得到的模型;

依存關(guān)系分析單元302,用于將所述預(yù)設(shè)的詞性標(biāo)注模型輸出的詞和對應(yīng)詞性輸入至預(yù)設(shè)的依存關(guān)系預(yù)測模型得到依存關(guān)系;其中,所述預(yù)設(shè)的依存關(guān)系預(yù)測模型是選取標(biāo)定的產(chǎn)品業(yè)務(wù)關(guān)鍵詞相關(guān)的特征訓(xùn)練后得到的模型;

候選核心詞分析單元303,用于將所述用戶評論信息包含的每個詞分別作為候選核心詞,根據(jù)所述依存關(guān)系提取每個候選核心詞相關(guān)的特征,將提取到的特征輸入預(yù)設(shè)的分類模型預(yù)測得到候選核心詞對應(yīng)的概率;所述候選核心詞相關(guān)的特征至少包括:候選核心詞與業(yè)務(wù)關(guān)鍵詞的關(guān)系和候選核心詞相鄰的詞與業(yè)務(wù)關(guān)鍵詞之間的關(guān)系;

第一選擇單元304,用于選擇最大概率對應(yīng)的候選核心詞作為所述用戶評論信息的核心詞。

可選的,所述候選核心詞分析單元具體提取的每個候選核心詞相關(guān)的特征包括:候選核心詞、候選核心詞的詞性、候選核心詞的左邊詞、候選核心詞的左邊詞的詞性、候選核心詞的右邊詞、候選核心詞的右邊詞的詞性、候選核心詞的依存距離、候選核心詞的長度、候選核心詞第一個字、候選核心詞最后一字、候選核心詞是否為業(yè)務(wù)關(guān)鍵詞、候選核心詞的左邊詞是否為業(yè) 務(wù)關(guān)鍵詞、候選核心詞的右邊詞是否為業(yè)務(wù)關(guān)鍵詞。

另外,參見圖4,本申請還提供了一種用戶訴求分析裝置實施例2,如圖4所示,該裝置是在圖3的基礎(chǔ)上,還包括:

判斷單元305,用于判斷所有候選核心詞對應(yīng)的概率中的最大概率是否小于預(yù)設(shè)閾值;其中,所述預(yù)設(shè)閾值是根據(jù)roc曲線而設(shè)定的閾值;

如果所述最大概率大于或等于預(yù)設(shè)閾值,則執(zhí)行所述第一選擇單元;

如果所述最大概率小于預(yù)設(shè)閾值,則執(zhí)行第二選擇單元306;

所述第二選擇單元,用于根據(jù)預(yù)設(shè)場景詞列表以及預(yù)設(shè)識別方式識別出所述用戶評論信息的核心詞;其中,所述預(yù)設(shè)場景詞列表包括:與產(chǎn)品業(yè)務(wù)相關(guān)的、能夠表征應(yīng)用場景的詞;所述預(yù)設(shè)識別方式包括:針對用戶評論信息包含場景詞的情況,如何選擇核心詞的方式,以及針對用戶評論信息不包含場景詞的情況,如何選擇核心詞的方式。

可選的,所述第二選擇單元,包括:

場景詞識別子單元,用于根據(jù)預(yù)設(shè)場景詞列表識別所述用戶評論信息是否包含場景詞;如果是,觸發(fā)第一識別子單元;如果否,觸發(fā)第二識別子單元;

第一識別子單元,用于根據(jù)場景詞詞性和預(yù)設(shè)識別方式中包含場景詞的各個識別方式的優(yōu)先級識別出所述用戶評論信息的核心詞;

第二識別子單元,用于根據(jù)預(yù)設(shè)識別方式中不包含場景詞的識別方式識別出所述用戶評論信息的核心詞。

可選的,所述預(yù)設(shè)識別方式包括:如下幾種方式,其中,場景詞詞性相同的不同識別方式具有不同的優(yōu)先級:

識別方式1:當(dāng)場景詞為形容詞時,選擇有效動詞作為核心詞;

識別方式2:當(dāng)場景詞為形容詞時,選擇賓語中心詞作為核心詞;

識別方式3:當(dāng)場景詞為動詞時,選擇情態(tài)動詞作為核心詞;

識別方式4:當(dāng)場景詞為動詞時,選擇否定副詞作為核心詞;

識別方式5:當(dāng)場景詞為動詞時,選擇賓語中心詞作為核心詞;

識別方式6:當(dāng)場景詞為動詞時,選擇非否定副詞作為核心詞;

識別方式7:當(dāng)場景詞為動詞時,選擇主語作為核心詞;

識別方式8:當(dāng)場景詞為名詞時,選擇有效動詞作為核心詞;

識別方式9:當(dāng)場景詞為名詞時,選擇形容詞作為核心詞;

識別方式10:當(dāng)場景詞為名詞時,選擇從句動詞作為核心詞;

識別方式11:當(dāng)沒有無場景詞時,選擇第一個有效動詞作為核心詞。

可選的,所述裝置還包括:

聚類單元,用于利用word2vec工具對識別出的所有核心詞進(jìn)行聚類。

需要說明的是,本說明書中的各個實施例均采用遞進(jìn)的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于裝置類實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。

最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

以上對本申請所提供的一種用戶訴求分析方法和裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本申請的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1