本發(fā)明屬于數(shù)據(jù)挖掘
技術(shù)領(lǐng)域:
:,具體涉及一種面向多語(yǔ)種點(diǎn)評(píng)的復(fù)述方法,能夠根據(jù)源語(yǔ)種點(diǎn)評(píng)的主要觀點(diǎn)內(nèi)容生成目標(biāo)語(yǔ)種的復(fù)述點(diǎn)評(píng)。
背景技術(shù):
::國(guó)家旅游局近日發(fā)布數(shù)據(jù)顯示,2015年共有41.2億人次國(guó)內(nèi)或出境游,相當(dāng)于全國(guó)人口一年旅游近3次。窮游2016年用戶調(diào)研發(fā)現(xiàn),59.7%的用戶會(huì)制定詳細(xì)行程計(jì)劃。他們通常會(huì)規(guī)劃好主要景點(diǎn)、安排玩樂(lè)項(xiàng)目和城際交通,再根據(jù)每日的活動(dòng)范圍和第二天的出行情況,尋找匹配的酒店。美國(guó)康乃爾大學(xué)酒店管理學(xué)院的教授ChrisAnderson在2012年的研究中指出,網(wǎng)上點(diǎn)評(píng)對(duì)現(xiàn)今的旅行者在選擇住宿的消費(fèi)決策上有越來(lái)越大的影響力。在該研究中,單單針對(duì)在酒店官網(wǎng)所下的訂單,就有36%的消費(fèi)者會(huì)在下訂單之前閱覽TripAdvisor貓途鷹上的點(diǎn)評(píng)。而且平均每次預(yù)定前都會(huì)訪問(wèn)高達(dá)4次,超過(guò)25個(gè)頁(yè)面。證明網(wǎng)上點(diǎn)評(píng)對(duì)酒店預(yù)訂的消費(fèi)決策舉足輕重。據(jù)國(guó)際旅游調(diào)研機(jī)構(gòu)Phocuswright2015年對(duì)TripAdvisor全球用戶展開的調(diào)研報(bào)告顯示,96%的受訪者表示“旅游點(diǎn)評(píng)”對(duì)于他們計(jì)劃旅行和預(yù)訂酒店來(lái)說(shuō)非常重要;79%的受訪者在預(yù)定某家酒店前至少會(huì)查看其6到12條點(diǎn)評(píng)。這說(shuō)明隨著全球旅游業(yè)的迅猛發(fā)展,游客在面對(duì)五花八門的選擇時(shí),亟需參考在線點(diǎn)評(píng)內(nèi)容以做出正確的選擇。這一需求在中國(guó)游客規(guī)劃出境游時(shí)尤為突出,原因在于海外陌生文化、語(yǔ)言、環(huán)境所帶來(lái)的強(qiáng)烈不確定性促使中國(guó)游客急需通過(guò)前人經(jīng)驗(yàn)打消疑慮,形成體驗(yàn)預(yù)期。2015年,英孚教育發(fā)布第五版年度英語(yǔ)熟練度指標(biāo)報(bào)告,中國(guó)大陸英語(yǔ)熟練度指標(biāo)仍屬于低熟練度水平。中國(guó)出境游人數(shù)增長(zhǎng)明顯,行程規(guī)劃的預(yù)定決策過(guò)程需要點(diǎn)評(píng)支持,但境外酒店多為英語(yǔ)或其他語(yǔ)種,這給出境游的中國(guó)游客造成了巨大障礙。為了克服這個(gè)困難,一些在線旅游平臺(tái)通過(guò)各種鼓勵(lì)項(xiàng)目或志愿者計(jì)劃,組織精通英語(yǔ)等語(yǔ)種的人來(lái)翻譯。但這種方式效率低,成本高。機(jī)器自動(dòng)翻譯雖然有效率,成本可控,但翻譯結(jié)果語(yǔ)句不通或晦澀難懂。復(fù)述,是對(duì)現(xiàn)成語(yǔ)言材料的重述,要求用自己的話把聽過(guò)或讀過(guò)的語(yǔ)言材料重述出來(lái),重在內(nèi)容的提取和言語(yǔ)的轉(zhuǎn)換。從計(jì)算語(yǔ)言學(xué)的角度講,復(fù)述(Paraphrases)就是對(duì)相同語(yǔ)義的不同表達(dá)?;谧匀徽Z(yǔ)言生成(NaturalLanguageGeneration,NLG)的方法是復(fù)述的一種方法,主要包括兩個(gè)步驟。步驟一是通過(guò)句法分析、語(yǔ)義分析等一系列處理得到待復(fù)述句S的內(nèi)部表示R;步驟二則是基于NLG技術(shù)生成R對(duì)應(yīng)的自然語(yǔ)言句子T。由于S和T都對(duì)應(yīng)相同的中間表示R,因此可保證S和T的意思相同?;贜LG的方法模擬了人的復(fù)述行為,即先理解句子的意思,再用另外一種方式將其表達(dá)出來(lái)。這種方法對(duì)深層語(yǔ)義知識(shí)的依賴性較大,通常需要建立一整套語(yǔ)義表達(dá)形式和框架。另外,NLG系統(tǒng)也非常復(fù)雜。由于這種方法的復(fù)雜性,實(shí)際應(yīng)用中不常見。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提出一種跨語(yǔ)種的點(diǎn)評(píng)復(fù)述方法,能夠根據(jù)源語(yǔ)種點(diǎn)評(píng)的主要觀點(diǎn)內(nèi)容生成目標(biāo)語(yǔ)種的復(fù)述點(diǎn)評(píng),不僅復(fù)述結(jié)果接近人工翻譯結(jié)果,而且完全自動(dòng)化。本發(fā)明采用的技術(shù)方案如下:一種跨語(yǔ)種的點(diǎn)評(píng)復(fù)述方法,包括以下步驟:1)獲取目標(biāo)語(yǔ)種的點(diǎn)評(píng)數(shù)據(jù);2)對(duì)目標(biāo)語(yǔ)種的點(diǎn)評(píng)數(shù)據(jù)進(jìn)行語(yǔ)義分析;3)根據(jù)語(yǔ)義分析的結(jié)果,對(duì)目標(biāo)語(yǔ)種的點(diǎn)評(píng)數(shù)據(jù)中的點(diǎn)評(píng)句進(jìn)行語(yǔ)義表示;4)將目標(biāo)語(yǔ)種的點(diǎn)評(píng)數(shù)據(jù)中的每個(gè)點(diǎn)評(píng)句作為文檔,將其語(yǔ)義的完整表示和部分表示作為詞,構(gòu)建倒排索引,形成目標(biāo)語(yǔ)種的點(diǎn)評(píng)數(shù)據(jù)的復(fù)述句庫(kù);5)對(duì)源語(yǔ)種的點(diǎn)評(píng)數(shù)據(jù)進(jìn)行語(yǔ)義分析和語(yǔ)義表示,通過(guò)得到的源語(yǔ)種的每個(gè)點(diǎn)評(píng)句的語(yǔ)義表示在所述復(fù)述句庫(kù)中進(jìn)行檢索,得到目標(biāo)語(yǔ)種的點(diǎn)評(píng)句;6)根據(jù)得到的目標(biāo)語(yǔ)種的各點(diǎn)評(píng)句的前后句的極性以及評(píng)價(jià)主體,按照句子銜接規(guī)則進(jìn)行處理,得到最終的目標(biāo)語(yǔ)種點(diǎn)評(píng)。進(jìn)一步地,步驟1)通過(guò)聚焦爬蟲從各大主流點(diǎn)評(píng)網(wǎng)站獲取目標(biāo)語(yǔ)種的在線點(diǎn)評(píng)數(shù)據(jù)。進(jìn)一步地,步驟2)所述語(yǔ)義分析包括分析點(diǎn)評(píng)數(shù)據(jù)的維度和極性。進(jìn)一步地,所述極性的計(jì)算方法是:a)獲取點(diǎn)評(píng)數(shù)據(jù),對(duì)其進(jìn)行規(guī)范化處理;b)對(duì)規(guī)范化處理后的點(diǎn)評(píng)數(shù)據(jù)的句子進(jìn)行分詞處理;c)對(duì)分詞后的句子進(jìn)行要素分析,識(shí)別出影響文本情感傾向性檢測(cè)分析的各類詞語(yǔ);d)根據(jù)句式模版庫(kù)對(duì)進(jìn)行要素分析后的點(diǎn)評(píng)數(shù)據(jù)進(jìn)行句式模版匹配;e)確定點(diǎn)評(píng)數(shù)據(jù)的句子中指代語(yǔ)對(duì)應(yīng)的先行語(yǔ),并恢復(fù)省略的主語(yǔ);f)將出現(xiàn)評(píng)價(jià)對(duì)象詞、評(píng)價(jià)屬性詞或情感詞的句子作為候選情感句,采用最大熵模型對(duì)候選情感句的句子極性進(jìn)行判別,得到句子的極性。進(jìn)一步地,步驟3)將點(diǎn)評(píng)句的概念、屬性、屬性值、維度和極性表示為點(diǎn)評(píng)句的語(yǔ)義表示。進(jìn)一步地,步驟5)在進(jìn)行所述檢索時(shí),根據(jù)概念、屬性、屬性值以及其間關(guān)系的匹配程度給出置信度,在置信度較高的候選點(diǎn)評(píng)句中隨機(jī)挑選一個(gè)作為目標(biāo)語(yǔ)種的點(diǎn)評(píng)句。進(jìn)一步地,步驟6)通過(guò)所述句子銜接規(guī)則來(lái)避免冗余和內(nèi)容沖突,使句子間過(guò)渡自然;所述句子銜接規(guī)則包括主語(yǔ)缺省規(guī)則和句子間連詞和副詞規(guī)則。本發(fā)明的有益效果如下:本文發(fā)明提出的跨語(yǔ)種的點(diǎn)評(píng)復(fù)述技術(shù),根據(jù)源語(yǔ)種點(diǎn)評(píng)的主要觀點(diǎn)內(nèi)容生成目標(biāo)語(yǔ)種的復(fù)述點(diǎn)評(píng),不僅復(fù)述結(jié)果接近人工翻譯結(jié)果,而且完全自動(dòng)化,從而效率高,成本低。該技術(shù)具有很好的推廣性,可應(yīng)用于不同語(yǔ)種間的點(diǎn)評(píng)復(fù)述,也可應(yīng)用于相同語(yǔ)種的點(diǎn)評(píng)復(fù)述,從而規(guī)避點(diǎn)評(píng)的著作權(quán)問(wèn)題。附圖說(shuō)明圖1是現(xiàn)有技術(shù)中漢語(yǔ)點(diǎn)評(píng)的分析結(jié)果示意圖。圖2是本發(fā)明方法的流程圖。圖3是酒店本體知識(shí)庫(kù)的示例圖。圖4是進(jìn)行知識(shí)推理的示意圖。圖5是對(duì)點(diǎn)評(píng)句“房間很干凈”和“theroomisveryclean”分析理解后的表示圖。具體實(shí)施方式下面通過(guò)具體實(shí)施例和附圖,對(duì)本發(fā)明做進(jìn)一步說(shuō)明。本發(fā)明是一種面向點(diǎn)評(píng)的點(diǎn)評(píng)復(fù)述方法,用于跨語(yǔ)種或相同語(yǔ)種間自動(dòng)生成點(diǎn)評(píng),從而在用戶預(yù)訂酒店的過(guò)程中提供決策支持。本發(fā)明采用了自然語(yǔ)言生成(NLG)方法的思路,之所以采用這種方法的原因在于本發(fā)明專注于酒店點(diǎn)評(píng)這個(gè)領(lǐng)域,而沒有試圖在所有領(lǐng)域上應(yīng)用,這樣才能在理解和生成點(diǎn)評(píng)的過(guò)程中實(shí)現(xiàn)深度理解和表達(dá)。本發(fā)明使用了“一種面向點(diǎn)評(píng)數(shù)據(jù)的情感傾向性檢測(cè)方法”(專利申請(qǐng)?zhí)?01510481197.X),用于分析、理解和表達(dá)語(yǔ)言,其具體步驟見后文的步驟2。圖1是漢語(yǔ)點(diǎn)評(píng)的分析結(jié)果,斜體字的點(diǎn)評(píng)句表示好評(píng),帶下劃線的點(diǎn)評(píng)句表示差評(píng),每句有其對(duì)應(yīng)的維度,如“酒店整體”、“客房設(shè)施”等。該面向點(diǎn)評(píng)數(shù)據(jù)的情感傾向性檢測(cè)方法是跨語(yǔ)種的,無(wú)論漢語(yǔ)還是英語(yǔ),都可以達(dá)到非常高的準(zhǔn)確率。分析后理解的結(jié)果基于相同的酒店本體來(lái)表達(dá),也就是說(shuō),不同語(yǔ)種相同語(yǔ)義的句子分析理解后的形式化表示是相同的?;谧匀徽Z(yǔ)言生成的復(fù)述技術(shù)的關(guān)鍵工作包括兩部分:一是復(fù)述資源獲取,包括構(gòu)建復(fù)述句庫(kù)、復(fù)述句的語(yǔ)義表示等;另一部分是復(fù)述生成,即針對(duì)給定文本片段(通常是句子)生成復(fù)述。對(duì)于復(fù)述資源獲取,本發(fā)明首先通過(guò)聚焦爬蟲從各大主流點(diǎn)評(píng)網(wǎng)站獲取目標(biāo)語(yǔ)種的在線點(diǎn)評(píng)數(shù)據(jù),然后分析點(diǎn)評(píng)的極性和維度,按照既有的酒店本體知識(shí)庫(kù),將點(diǎn)評(píng)句的概念、屬性、屬性值、維度和極性表示為點(diǎn)評(píng)句的語(yǔ)義表示。極性是指用戶觀點(diǎn)的情感傾向,如“好評(píng)”和“差評(píng)”。維度是指酒店行業(yè)的關(guān)注點(diǎn),如“酒店整體”、“客房設(shè)施”等。對(duì)于復(fù)述生成,給定源語(yǔ)種點(diǎn)評(píng),同樣分析點(diǎn)評(píng)的極性和維度,按照既有的酒店本體知識(shí)庫(kù),將點(diǎn)評(píng)句的概念、屬性、屬性值、維度和極性表示為點(diǎn)評(píng)句的語(yǔ)義表示。對(duì)于每個(gè)有情感傾向性的點(diǎn)評(píng)句,通過(guò)其語(yǔ)義表示在復(fù)述句庫(kù)中檢索得到具有相同或相似語(yǔ)義表示的目標(biāo)語(yǔ)種的候選點(diǎn)評(píng)句,隨機(jī)選擇一個(gè)后拼接得到目標(biāo)語(yǔ)種的候選點(diǎn)評(píng)。對(duì)于候選點(diǎn)評(píng),根據(jù)前后句的極性以及評(píng)價(jià)主體,根據(jù)整理的句子銜接規(guī)則處理后得到最終的目標(biāo)語(yǔ)種點(diǎn)評(píng)。具體來(lái)說(shuō),本發(fā)明首先構(gòu)建目標(biāo)語(yǔ)種復(fù)述句庫(kù),然后針對(duì)源語(yǔ)種點(diǎn)評(píng)生成復(fù)述。該方法的流程如圖2所示,具體包括如下步驟:步驟1:目標(biāo)語(yǔ)種點(diǎn)評(píng)的數(shù)據(jù)下載。針對(duì)目標(biāo)語(yǔ)種點(diǎn)評(píng)豐富的OTA網(wǎng)站,配置種子頁(yè)面和抓取模版等數(shù)據(jù),通過(guò)聚焦爬蟲自動(dòng)抓取大規(guī)模點(diǎn)評(píng)。步驟2:目標(biāo)語(yǔ)種點(diǎn)評(píng)的語(yǔ)義分析。對(duì)于大規(guī)模目標(biāo)語(yǔ)種的點(diǎn)評(píng),分析其點(diǎn)評(píng)的維度和極性。具體的計(jì)算極性和維度的方法是:步驟2.1:文本規(guī)范化?;ヂ?lián)網(wǎng)點(diǎn)評(píng)文本常會(huì)出現(xiàn)拼寫錯(cuò)誤,對(duì)于這些問(wèn)題,我們采用基于規(guī)則的方法處理。這些規(guī)則是“包含錯(cuò)別字的字串或詞串”到“相應(yīng)正確字串或詞串”的映射。這種規(guī)則通過(guò)兩種方法獲?。阂皇歉鶕?jù)現(xiàn)有經(jīng)驗(yàn)知識(shí),即前人總結(jié)的常見拼寫錯(cuò)誤;二是根據(jù)每個(gè)字或詞的上下文抽取相似字或詞,通過(guò)人工校驗(yàn)確定正確的字串或詞串。這種方法簡(jiǎn)單,有效。系統(tǒng)這個(gè)模塊的性能依賴于拼寫錯(cuò)誤糾正規(guī)則的數(shù)量,在系統(tǒng)運(yùn)維的過(guò)程中可以不斷總結(jié),豐富規(guī)則庫(kù)。中文還存在標(biāo)點(diǎn)符號(hào)全半角問(wèn)題,根據(jù)符號(hào)全半角映射關(guān)系,將標(biāo)點(diǎn)符號(hào)統(tǒng)一標(biāo)示為全角符號(hào)。步驟2.2:點(diǎn)評(píng)分詞。該步驟對(duì)點(diǎn)評(píng)數(shù)據(jù)進(jìn)行分詞。中文分詞是中文自然語(yǔ)言處理的基礎(chǔ)步驟,本發(fā)明分詞采用詞典分詞和統(tǒng)計(jì)分詞融合的方法。首先采用基于詞典的最大匹配分詞方法,針對(duì)分詞有歧義的部分再采用序列標(biāo)注的分詞方法。基于詞典的最大匹配分詞方法,給定詞典,對(duì)于待分詞的漢字序列,依次尋找匹配的最長(zhǎng)詞典詞,無(wú)匹配者則作為單字詞處理,直至該漢字序列處理完畢。按照對(duì)漢字序列掃描方向的不同,該方法又可以分為:正向最大匹配(從左向右匹配)和逆向最大匹配(從右向左匹配)。例如,對(duì)于序列“當(dāng)原子結(jié)合成分子時(shí)”,正向最大匹配結(jié)果為“當(dāng)|原子|結(jié)合|成|分子|時(shí)”,而逆向最大匹配結(jié)果為“當(dāng)|原子|結(jié)合|成分|子時(shí)”。顯然,正向最大匹配和逆向最大匹配都不能很好地處理切分歧義問(wèn)題。正向最大匹配和逆向最大匹配也可以結(jié)合形成雙向最大匹配,雙向匹配時(shí)正向和逆向匹配不一致的地方,往往是潛在歧義的地方。有歧義往往需要根據(jù)具體上下文確認(rèn)分詞結(jié)果。有監(jiān)督的序列標(biāo)注方法能夠充分的挖掘上下文的豐富特征,因此有歧義的情況下本發(fā)明引入序列標(biāo)注方法消除歧義。該方法將詞的切分問(wèn)題轉(zhuǎn)換為字的分類問(wèn)題,每個(gè)字根據(jù)其在詞中的不同位置,賦予不同的位置類別標(biāo)記,比如詞首、詞中、詞尾和單字詞?;谶@樣的標(biāo)記序列,很容易確定句子的切分方式。其中,B(Begin)、M(Middle)、E(End)、S(Single)分別表示詞首、詞中、詞尾、單字詞。有了字的標(biāo)記序列,符合正則表達(dá)式“S”或“B(M)*E”的字序列表示一個(gè)詞,從而很容易地完成句子切分。為了實(shí)現(xiàn)序列標(biāo)注任務(wù),本發(fā)明采用條件隨機(jī)場(chǎng)模型(ConditionalRandomFields,CRF),該模型在自然語(yǔ)言處理中得到廣泛應(yīng)用,并取得了很大成功。具體特征包括:前一個(gè)字、當(dāng)前字、后一個(gè)字、前一個(gè)字與當(dāng)前字、當(dāng)前字與后一個(gè)字,以及基于這些一元特征的二元特征。條件隨機(jī)場(chǎng)模型利用提取的這些特征,預(yù)測(cè)出的每個(gè)字的類別標(biāo)記。最大匹配方法的詞典以及有監(jiān)督的條件隨機(jī)場(chǎng)模型的訓(xùn)練學(xué)習(xí)語(yǔ)料都來(lái)自本發(fā)明人工標(biāo)注的10萬(wàn)條酒店點(diǎn)評(píng)。步驟2.3:要素分析。要素,指的是影響文本情感傾向性檢測(cè)的重要因素,既包括上述的情感信息要素,如點(diǎn)評(píng)中的評(píng)價(jià)對(duì)象詞(Obj)、評(píng)價(jià)屬性詞(Attr)、情感詞(Sent)、程度副詞(Dgr)、普通副詞(Adv)、否定詞(Neg)、插入詞(Inter)等,又包括城市、景點(diǎn)等多個(gè)類別的詞語(yǔ)。要素分析是將句子中的要素識(shí)別出來(lái),并標(biāo)記上其相應(yīng)的類別標(biāo)簽。步驟2.4:句式匹配。對(duì)句子經(jīng)過(guò)要素分析后得到句子語(yǔ)義類別化形式,即句式,句式反映的是其中的詞或要素共同的上下文,所以具有一定的消歧能力。句式匹配過(guò)程中,已有的句式模版庫(kù)起著關(guān)鍵作用。該步驟進(jìn)行句式匹配的目的是約束句式中情感要素的語(yǔ)義和語(yǔ)用,經(jīng)過(guò)該步驟后,得到的是各個(gè)情感要素相互約束的句式。句式模版庫(kù)是本發(fā)明的重要資源,反映了點(diǎn)評(píng)中情感要素的相互約束。本發(fā)明通過(guò)基于點(diǎn)評(píng)的自舉(Bootstrapping)方法提取句式模版和各類情感要素。具體來(lái)說(shuō),建立句式模版庫(kù)的方法包括如下步驟:1)人工查看少量(如500條)點(diǎn)評(píng),整理各個(gè)情感要素的詞,形成種子詞典,將該種子詞典記為SemLex。2)情感要素標(biāo)簽替換及句式模版生成。對(duì)點(diǎn)評(píng)數(shù)據(jù)的句子進(jìn)行分詞處理,對(duì)分詞后的點(diǎn)評(píng)逐詞判定其語(yǔ)義類并用語(yǔ)義類標(biāo)簽替換,如“餐廳|的|價(jià)格|很|高”,替換為“Obj|的|Attr|Dgr|Sent”,對(duì)于點(diǎn)評(píng)起始和結(jié)束位置分別添加“Start”和“End”標(biāo)簽,點(diǎn)評(píng)中除了“?!?、“!”、“?”之外的標(biāo)點(diǎn)符號(hào)也采用“Punc”標(biāo)簽替換。然后對(duì)標(biāo)簽替換后的點(diǎn)評(píng)數(shù)據(jù)進(jìn)行斷句,根據(jù)各語(yǔ)義類的名稱及各語(yǔ)義類包含的具體詞語(yǔ)生成模版。比如可以根據(jù)“?!薄ⅰ?!”、“?”3個(gè)標(biāo)點(diǎn)符號(hào)斷句,限定模版最小長(zhǎng)度3個(gè)詞,最大長(zhǎng)度7個(gè)詞,掃描標(biāo)簽替換后的點(diǎn)評(píng),生成句式模版。3)語(yǔ)義詞抽取。將生成的句式模版應(yīng)用到語(yǔ)義類標(biāo)簽替換后的點(diǎn)評(píng)中。當(dāng)某個(gè)點(diǎn)評(píng)片段對(duì)應(yīng)的模版與生成的句式模版的差異只有一個(gè)詞時(shí),將該詞作為相應(yīng)語(yǔ)義類的實(shí)例詞。例如,對(duì)于點(diǎn)評(píng)片段“價(jià)格|很|高”,其中“價(jià)格”屬于評(píng)價(jià)屬性詞,“高”屬于情感詞,而“很”不屬于任何語(yǔ)義類,這時(shí)其對(duì)應(yīng)的模版為“Attr|很|Sent”。這與步驟2)生成的句式模版“Attr|Dgr|Sent”只有中間一個(gè)詞不同,則將“很”抽取出來(lái)作為程度副詞的實(shí)例詞。4)句式模版打分及挑選。本發(fā)明從兩方面打分,一方面通過(guò)頻次衡量模版的重要性和推廣性,另一方面通過(guò)在語(yǔ)義詞典中的命中率衡量模版的準(zhǔn)確性。pati重要性和推廣性打分S(pati)的計(jì)算公式如下:其中,|pati|是模版pati的長(zhǎng)度,以詞數(shù)計(jì)算,f(pati)表示模版pati的頻次,C(pati)表示嵌套pati的模版集合,如點(diǎn)評(píng)片段“餐廳|的|價(jià)格|很|高”對(duì)應(yīng)的模版“Obj|的|Attr|Dgr|Sent”嵌套點(diǎn)評(píng)片段“價(jià)格|很|高”對(duì)應(yīng)的模版“Attr|Dgr|Sent”。pati準(zhǔn)確性打分P(pati)的計(jì)算公式如下:其中,T(pati)表示模版pati抽取的語(yǔ)義詞集合,f(t)表示語(yǔ)義詞t的頻次,SemLex為步驟1構(gòu)建的種子語(yǔ)義詞典。我們采用Sigmoid函數(shù)將S(pati)歸一化到(0,1),進(jìn)而融合兩方面的打分得到F(pati),計(jì)算公式如下:其中α為重要性和推廣性打分S(pati)的權(quán)重,取值范圍為[0,1]。本發(fā)明更注重模版的準(zhǔn)確性,故將α=0.4,還可以根據(jù)具體應(yīng)用加以調(diào)整。根據(jù)F(pati)選取得分最高的前5~10%的模版。5)語(yǔ)義詞打分及語(yǔ)義詞典擴(kuò)充。根據(jù)挑選的模版patk及其打分,計(jì)算該模版抽取的語(yǔ)義詞的得分,計(jì)算公式如下:選取得分最高的前5~10%的詞添加到語(yǔ)義詞典SemLex中。從2)到5)迭代進(jìn)行。迭代終止條件。挑選出來(lái)的語(yǔ)義詞明顯不正確時(shí)終止,從而得到最終的語(yǔ)義詞典,并由各模版構(gòu)成模版庫(kù)。步驟2.5:指代消解。指代和省略是常見的語(yǔ)言現(xiàn)象,在口語(yǔ)化點(diǎn)評(píng)中更普遍。指代常表示共指,即兩種表述均指稱相同對(duì)象。指代有多種類型,我們主要針對(duì)人稱代詞、指示代詞作為指代語(yǔ)的情況。省略可以視為零指代語(yǔ)的情況,本發(fā)明將指代和省略都看成廣義的“指代”,指代消解指的是發(fā)現(xiàn)指代語(yǔ)對(duì)應(yīng)的先行語(yǔ),或恢復(fù)省略的主語(yǔ)。如果當(dāng)前句中沒有評(píng)價(jià)對(duì)象詞或評(píng)價(jià)屬性詞,選擇上一句最后提及的評(píng)價(jià)對(duì)象或評(píng)價(jià)屬性詞引入到當(dāng)前句。如果當(dāng)前句中只有評(píng)價(jià)屬性詞,當(dāng)上一句出現(xiàn)評(píng)價(jià)對(duì)象時(shí)將該評(píng)價(jià)對(duì)象引入到當(dāng)前句。本發(fā)明的指代消解處理規(guī)則建立在要素分析的基礎(chǔ)上,對(duì)于情感傾向性的判定又有著重要作用,所以在處理流程上位于要素分析和情感傾向性分析之間。步驟2.6:情感傾向性分析。將出現(xiàn)評(píng)價(jià)對(duì)象詞、評(píng)價(jià)屬性詞或情感詞的句子作為候選情感句。針對(duì)候選情感句,采用最大熵(MaximumEntropy)模型,融合豐富的上下文特征,對(duì)句子極性進(jìn)行判別,得到句子的情感傾向性。在分類任務(wù)中,判別式模型往往要優(yōu)于產(chǎn)生式模型。產(chǎn)生式模型估計(jì)的是聯(lián)合概率分布,在機(jī)器學(xué)習(xí)中用于對(duì)數(shù)據(jù)直接建模,或者借助貝葉斯規(guī)則作為得到條件概率的中間步驟。而判別式模型直接對(duì)條件概率建模,使得模型的訓(xùn)練和預(yù)測(cè)保持一致,從而更好地在類別之間進(jìn)行區(qū)分。在判別式模型中,最大熵模型在自然處理領(lǐng)域得到廣泛應(yīng)用。對(duì)于給定上下文信息x∈X預(yù)測(cè)類別y∈Y這樣的分類問(wèn)題,其中x表示待判定的樣本,在情感傾向性檢測(cè)任務(wù)中對(duì)應(yīng)由各種特征構(gòu)成的候選情感句,X表示樣本空間,y表示情感類別,在情感傾向性檢測(cè)任務(wù)中對(duì)應(yīng)情感類別,Y表示類別空間,最大熵模型建立條件概率模型P(y|x)預(yù)測(cè)不同情感類別y∈Y并估計(jì)其概率。類別包括-1(差評(píng))、0(無(wú)情感)、1(好評(píng))三類。特征包括評(píng)價(jià)對(duì)象詞、評(píng)價(jià)屬性詞、情感詞,以及它們的搭配,還有否定詞、句式模版等特征。下面通過(guò)具體實(shí)例,說(shuō)明本發(fā)明的流程。點(diǎn)評(píng)內(nèi)容:“之前住過(guò)這家酒店,感覺特別好,附近有地鐵站,狠方便。”規(guī)范化處理后的點(diǎn)評(píng)內(nèi)容:“之前住過(guò)這家酒店,感覺特別好,附近有地鐵站,很方便?!狈衷~后的點(diǎn)評(píng)內(nèi)容:“之前|住|過(guò)|這家|酒店|,|感覺|特別|好|,|附近|有|地鐵站|,|很|方便|。”要素分析后的點(diǎn)評(píng)內(nèi)容:“之前|住|過(guò)|這家|Obj|Punc|Inter|Dgr|Sent|Punc|附近|有|Obj|Punc|Dgr|Sent|Punc”匹配句式:“Inter|Dgr|Sent”,“附近|有|Obj”,“Dgr|Sent|Punc”指代消解:“感覺|特別|好”補(bǔ)充缺省主語(yǔ)“酒店”,“很|方便”補(bǔ)充缺省主語(yǔ)“地鐵站”候選情感句:“之前|住|過(guò)|這家|酒店”,“感覺|特別|好”,“附近|有|地鐵站”,“很|方便”情感句判定:針對(duì)每個(gè)候選情感句,提取特征,利用最大熵模型進(jìn)行情感類別判定。以“感覺|特別|好”為例,提取出來(lái)的特征包括:評(píng)價(jià)對(duì)象詞“酒店”,情感詞“好”,評(píng)價(jià)對(duì)象詞與情感詞的搭配“<酒店,好>”,匹配句式模版“Inter|Dgr|Sent”,情感詞極性“1”,評(píng)價(jià)對(duì)象詞與情感詞的搭配極性“1”。最終判定極性為“1”。維度根據(jù)人工預(yù)先總結(jié)的概念、屬性、屬性值與維度的映射規(guī)則得到,如點(diǎn)評(píng)句中提到概念“客房”和屬性“衛(wèi)生”,則對(duì)應(yīng)維度“客房衛(wèi)生”。步驟3:目標(biāo)語(yǔ)種點(diǎn)評(píng)句的語(yǔ)義表示。按照既有的酒店本體,采用點(diǎn)評(píng)句的概念、屬性、屬性值、維度和極性對(duì)點(diǎn)評(píng)句的語(yǔ)義進(jìn)行表示。所述概念是人類思維的重要組成部分,是客觀世界的實(shí)體通過(guò)抽象化過(guò)程提煉出來(lái)的反映其共同屬性的思維單元,實(shí)體可以是具體的,如“客房”或“客房服務(wù)員”;也可以是抽象的,如“萬(wàn)有引力”。所述屬性是指實(shí)體本質(zhì)方面的特性,如“客房”有屬性“空間”,“客房服務(wù)員”有屬性“態(tài)度”。所述屬性值是指屬性的內(nèi)容,如“客房”的屬性“空間”有值“寬敞”,“客房服務(wù)員”的屬性“態(tài)度”有值“熱情”。世界上的實(shí)體都在特定的時(shí)間和空間內(nèi)不停地變化,通常從一種狀態(tài)變化到另一種狀態(tài),并由其屬性值的改變來(lái)體現(xiàn)。具體的計(jì)算概念、屬性和屬性值的方法是:概念、屬性、屬性值的分析根據(jù)人工預(yù)先總結(jié)的知識(shí)庫(kù)推理得到,推理規(guī)則包括由詞匯到概念的推理,以及概念、屬性、屬性值之間的推理。由詞匯到概念的推理規(guī)則,如詞匯“客房”和“房間”都對(duì)應(yīng)概念“客房”,詞匯“房間空間”和“房間大小”都對(duì)應(yīng)概念“客房”和屬性“空間”,詞匯“寬敞”和“大”都對(duì)應(yīng)屬性值“寬敞”。概念、屬性、屬性值之間的推理規(guī)則,如點(diǎn)評(píng)句“房間很大”,推理出概念“客房”和屬性值“寬敞”,進(jìn)而推理出屬性“空間”,雖然點(diǎn)評(píng)句沒有明確用詞匯表達(dá),但仍然可以推理出。推理規(guī)則的整理過(guò)程,一方面利用關(guān)鍵詞抽取等自然語(yǔ)言處理技術(shù)以及關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘技術(shù)分析出候選推理規(guī)則,另一方面由人工根據(jù)候選推理規(guī)則的頻次統(tǒng)計(jì)以及具體上下文進(jìn)行判定。圖3是酒店本體知識(shí)庫(kù)的示例,不僅有概念、屬性和屬性值(分別對(duì)應(yīng)圖中白色、灰色、黑色的橢圓框),還有推理規(guī)則。其中,BelongTo表示屬性與概念間的“隸屬于”關(guān)系,IsA表示概念間的上下位關(guān)系,WorkIn表示概念“酒店員工”與概念“酒店”間的工作關(guān)系,PartOf表示酒店不同部門間的“所屬”關(guān)系,ValueOf表示屬性值與屬性間的“值”關(guān)系。圖4是進(jìn)行知識(shí)推理的示意圖,其中Agent表示動(dòng)作或事件的施事,Patient表示動(dòng)作或事件的受事,Result表示動(dòng)作或事件的結(jié)果,Time表示動(dòng)作或事件的時(shí)間。對(duì)于點(diǎn)評(píng)句“房間很干凈”和“theroomisveryclean”分析理解后的表示都是如圖5所示的形式。步驟4:目標(biāo)語(yǔ)種點(diǎn)評(píng)的復(fù)述句庫(kù)的構(gòu)建。對(duì)于目標(biāo)語(yǔ)種的每個(gè)點(diǎn)評(píng)句,將其作為文檔,其語(yǔ)義的完整表示和部分表示作為詞,構(gòu)建倒排索引,方便檢索到具有相同語(yǔ)義的復(fù)述句。所述完整表示是指包含概念、屬性、屬性值的語(yǔ)義表示,所述部分表示是指缺失概念或?qū)傩曰驅(qū)傩灾档恼Z(yǔ)義表示。步驟5:源語(yǔ)種點(diǎn)評(píng)的語(yǔ)義分析。對(duì)于源語(yǔ)種的點(diǎn)評(píng),按照前文所述的方法分析其點(diǎn)評(píng)的極性和維度。步驟6:源語(yǔ)種點(diǎn)評(píng)句的語(yǔ)義表示。利用前文所述的方法,按照既有的酒店本體,將點(diǎn)評(píng)句的概念、屬性、屬性值、維度和極性表示為點(diǎn)評(píng)句的語(yǔ)義表示。步驟7:目標(biāo)語(yǔ)種點(diǎn)評(píng)句的生成。對(duì)于每個(gè)點(diǎn)評(píng)句,通過(guò)其語(yǔ)義表示在復(fù)述句庫(kù)中檢索得到具有相同或相似語(yǔ)義表示的目標(biāo)語(yǔ)種的候選點(diǎn)評(píng)句,隨機(jī)選擇一個(gè)作為生成的點(diǎn)評(píng)句。檢索時(shí)根據(jù)概念、屬性、屬性值以及其間關(guān)系的匹配程度給出置信度,在置信度較高的候選句中隨機(jī)挑選。步驟8:目標(biāo)語(yǔ)種點(diǎn)評(píng)的生成。對(duì)于候選點(diǎn)評(píng),根據(jù)前后句的極性以及評(píng)價(jià)主體,根據(jù)整理的句子銜接規(guī)則處理后得到最終的目標(biāo)語(yǔ)種點(diǎn)評(píng)。句子銜接規(guī)則的目的是避免冗余和內(nèi)容沖突,句子間過(guò)渡自然。例如主語(yǔ)缺省規(guī)則,“客房空間特別大,也特別干凈”主語(yǔ)相同,則第二句主語(yǔ)缺省。例如句子間連詞和副詞規(guī)則,“這家酒店住著很舒服,床睡起來(lái)也比較舒服”后句添加了副詞“也”;“客房空間特別大,也特別干凈,而且工作人員很友善很熱情”第三句添加了連詞“而且”;“距離有點(diǎn)遠(yuǎn),但周圍的景色挺好的”第二句添加了連詞“但”。本發(fā)明的跨語(yǔ)種的點(diǎn)評(píng)復(fù)述技術(shù),根據(jù)源語(yǔ)種點(diǎn)評(píng)的主要觀點(diǎn)內(nèi)容生成目標(biāo)語(yǔ)種的復(fù)述點(diǎn)評(píng),不僅復(fù)述結(jié)果接近人工翻譯結(jié)果,而且完全自動(dòng)化,從而效率高,成本低。下面以英語(yǔ)點(diǎn)評(píng)復(fù)述成漢語(yǔ)點(diǎn)評(píng)為例來(lái)說(shuō)明點(diǎn)評(píng)復(fù)述效果。英文原始點(diǎn)評(píng):Myselfandfriendsstayedherefor3nights.Verycomfortablestay,bedsweresocomfy,roomsizewasgoodsizedandclean.Staffweresohelpfultous.Locationisalittlewalkawaybutperfectforvisitingbothbeachespentaicenangandpentaitengahwhicharebothinwalkingdistance.谷歌翻譯結(jié)果:我和朋友在這里住了3晚。非常舒適的住宿,床是如此舒適,房間的大小是好的大小和干凈。工作人員這樣對(duì)我們很有幫助。位置是一個(gè)小的步行路程,但完美的參觀兩個(gè)海灘pentai切南和登加pentai這兩者都是在步行距離。采用本發(fā)明方法得到的點(diǎn)評(píng)復(fù)述結(jié)果:這家酒店住著很舒服,床睡起來(lái)也比較舒服,客房空間特別大,也特別干凈,而且工作人員很友善很熱情,距離有點(diǎn)遠(yuǎn),但周圍的景色挺好的。上述點(diǎn)評(píng)中下劃線的英語(yǔ)句子對(duì)應(yīng)的翻譯句不通順,但復(fù)述句不僅表達(dá)了核心語(yǔ)義,而且表達(dá)通暢,唯一不足是有些過(guò)于細(xì)節(jié)的內(nèi)容(如海灘)會(huì)丟失。復(fù)述點(diǎn)評(píng)整體上反映了原始點(diǎn)評(píng)的主要內(nèi)容,特別是用戶表達(dá)觀點(diǎn)的內(nèi)容,這樣對(duì)于用戶預(yù)訂酒店的決策有很大幫助。以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非對(duì)其進(jìn)行限制,本領(lǐng)域的普通技術(shù)人員可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明的精神和范圍,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求書所述為準(zhǔn)。當(dāng)前第1頁(yè)1 2 3 當(dāng)前第1頁(yè)1 2 3