從文本中確定情感的方法
【專利摘要】本發(fā)明公開了從文本中確定情感的方法,該方法包括從包括與文本的各部分相關(guān)的格式化信息的文本中確定通過至少一個部分表達的情感,其中,使用微處理器自動地確定所述情感,并且所述情感取決于與至少一個部分相關(guān)的格式化信息。
【專利說明】從文本中確定情感的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實施方式涉及一種根據(jù)包括格式化信息的文本確定情感的方法。本發(fā)明的進一步的實施方式涉及一種根據(jù)包括格式化信息的文本文件(例如,已經(jīng)發(fā)布在電子網(wǎng)絡(luò)中)確定情感的裝置。
【背景技術(shù)】
[0002]現(xiàn)今,可以電子獲取大量的文本數(shù)據(jù),例如,發(fā)布在諸如因特網(wǎng)的大型網(wǎng)絡(luò)中的數(shù)據(jù)。例如,作者在他們的網(wǎng)站上、用戶博客中、新聞組和聊天室中發(fā)布他們關(guān)于各種主題的個人意見。該信息可以針對各種目的受到關(guān)注,諸如評估關(guān)于某個主題的公眾觀點。
[0003]為了分析文本數(shù)據(jù),有效地評估文本數(shù)據(jù)的內(nèi)容是非常重要的,例如,為了確定相應(yīng)主題和評估作者關(guān)于該主題的觀點。然而,通過分析文本數(shù)據(jù)的語義內(nèi)容來識別主題以及作者關(guān)于該主題的觀點和情緒通常是非常困難并且繁雜的。因此,需要一種快速并且精確的識別文本中關(guān)于主題以及作者對該主題的觀點的重要段落的方法。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種快速并且精確地確定作者在文本的部分中所表達的情感并進一步分析關(guān)于作者所表達的情感的大量文本的方法和裝置。
[0005]該目的通過根據(jù)獨立權(quán)利要求的方法和裝置解決。
[0006]從附圖以及隨后的描述中,本發(fā)明的進一步的細節(jié)將變得顯而易見。
【專利附圖】
【附圖說明】
[0007]附圖被包括是為了提供對實施方式進一步的理解,并被結(jié)合于該說明書中并且構(gòu)成該說明書的一部分。附圖示出了實施方式,并與說明書一起用于解釋實施方式的原理。通過參考以下具體的描述,其他實施方式和實施方式的許多預(yù)期的優(yōu)點隨著它們變得更好理解將會很容易地被領(lǐng)會。附圖的元件沒必要按相互之間的比例繪制。相同的參考標號指定相應(yīng)相似的部分。
[0008]圖1示出了用于確定情感的方法的實施方式。
[0009]圖2示出了用于確定情感的方法的另一實施方式,其中,輸出與文本相關(guān)的分數(shù)。
[0010]圖3示出了圖2的方法在質(zhì)量評論網(wǎng)站中的應(yīng)用。
[0011]圖4示出了用于確定情感的方法的另一實施方式,其中,輸出與主題相關(guān)的分數(shù)。
[0012]圖5示出了圖4的方法在包括用于提供購買的網(wǎng)站中的應(yīng)用。
[0013]圖6示出了通過使用格式化信息從中能夠分析情感的網(wǎng)絡(luò)博客。
[0014]圖7示出了發(fā)布在通過使用格式化信息能夠從中分析與主題相關(guān)的情感的網(wǎng)站上的作品評估。
[0015]圖8示出了對包括關(guān)于預(yù)定主題的用戶觀點的不同網(wǎng)站執(zhí)行的情感分析的評估結(jié)果。[0016]圖9示出了用于自動地確定情感、將輸出提供至作品研發(fā)、作品分配、供應(yīng)鏈管理和/或用戶推薦系統(tǒng)的裝置的實施方式。
【具體實施方式】
[0017]在下文中,描述本發(fā)明的實施方式。重要的是應(yīng)注意,所有描述的實施方式可以以任何方式相結(jié)合,即,并不限制某些所描述的實施方式不可以與其他的實施方式相結(jié)合。此夕卜,應(yīng)注意貫穿附圖的相同的參考標號表示相同的或相似的元件。
[0018]進一步理解,在不偏離本發(fā)明的范圍的前提下,可以利用其他的實施方式并且可以進行結(jié)構(gòu)或邏輯的改變。因此,以下詳細的實施方式并不是限制意義上的,并且本發(fā)明的范圍由所附權(quán)利要求來限定。
[0019]應(yīng)當理解,本文所描述的各個實施方式的特征可以彼此結(jié)合,除非另外特別注明。
[0020]在圖1中,示出了確定情感的方法的實施方式,該方法包括從包括與文本的部分相關(guān)的格式化信息的文本中確定由至少一部分所表達的情感,其中,使用微處理器自動確定所述情感并且所述情感取決于與至少一部分相關(guān)的格式化信息。
[0021]在B100,通過使用微處理器從文本中自動確定情感。文本應(yīng)該包括格式化信息,格式化信息應(yīng)該涉及文本的各部分(例如,文本的單個字符、詞匯、短語、句子、段落、頁等)。根據(jù)與一部分相關(guān)的格式化信息來確定通過至少一部分所表達的情感。
[0022]文本可以是可通過使用微處理器自動分析的任何種類的文本。例如,文本可發(fā)布在網(wǎng)站上或可以以文件的形式存儲在服務(wù)器上、數(shù)據(jù)庫中或具有該方法的存儲器訪問權(quán)的任何其他裝置中。例如,通過電子網(wǎng)絡(luò)(諸如因特網(wǎng))可訪問的存儲器。
[0023]通過文本的部分所表達的情感可對應(yīng)作者對于文本的該部分的語義內(nèi)容或含義的態(tài)度,例如,作者在文本的部分中發(fā)表的意見或作者對于文本的部分的主題的重視??蛇M
一步對應(yīng)在與文本的部分時作者可能具有的精神情緒或感情。因此情感可對應(yīng)在文本的部分中所表達的作者的個人情緒或感情的呈現(xiàn)或表現(xiàn)。
[0024]由于假定作者在寫文本時具有的真實想法可能不能從文本中讀出來,因此應(yīng)當理解情感對應(yīng)于旨在通過在文本中使用的詞匯或短語來傳達的想法或情緒。因此,情感可對應(yīng)作者在寫文本時想要表達或傳遞給讀者的情緒,例如,正面的或負面的觀點。
[0025]文本可包括與文本的部分有關(guān)的各種格式化信息。例如,格式化信息可與文本的字符相關(guān),例如,字符的大寫、加下劃線、斜體印刷、顏色、字體風(fēng)格或字體大小。
[0026]例如,字符的顏色也可以被評估為確定情感的基礎(chǔ)。具有與文本的其余部分不同的顏色的字符、詞匯或短語可被認為具有包括個人觀點的高度可能性并且因此可具有用于確定在文本的相應(yīng)部分中所表達的情感的高度重要性。此外,顏色本身可以表達情感。例如,顏色紅、黃和綠可在交通燈設(shè)計中分別用作不好的、可以以及好的。此外,任何顏色可適用于用于強調(diào)有特定重要性的文本的部分。此外還知道特定的顏色(諸如紅色)用于強調(diào)重要的一段。
[0027]此外,可通過字符本身來表示格式化信息,例如,通過標點符號,諸如圓點、單個或多個感嘆號。格式化信息也可包括具有說明效果的字符序列,諸如通過跟隨有破折號的冒號和右括號所表示的笑臉,從而形成已知為“感情”的笑臉“:_) ”。形成部分格式化信息的字符也可包括表示例如情感的縮寫,諸如“ 1l ”(大聲笑)、“rofI ”(笑得滿地打滾)或“wtf”(搞什么呀)。此外也可分析標記個人意見(諸如“IMHO”(依我之愚見)或“僅是我的一點拙見”)的縮寫。
[0028]格式化信息也可與逐項化字符(itemization character)有關(guān)。例如”或“ _ ”可被用于標記各項為正面或負面的。
[0029]在文本中使用的符號也可以作為格式化信息來分析,諸如表達作者的正面的或負面的觀點的(+ )或(-)。然而,如果符號孤立地出現(xiàn)在連續(xù)的文本中,這些符號可能具有另外的含義,例如,作為數(shù)學(xué)符號或分開長詞匯的部分的簡單斜線。
[0030]如在上文中指出的,格式化信息也可涉及文本的整個短語、句子、段落或節(jié)。例如,與文本的剩余的部分相比段落具有不同的格式(例如,較大的縮排或較大的左邊距和/或右邊距)的事實可表示該段落的增強的重要性和段落中潛在的情感的表達。
[0031]當分析文本時,格式化的信息也可用于評估和評定段落的組織,例如,用于識別例如表達作者的全面觀點的較高重要性的段落。例如,結(jié)束段落相比介紹性段落可能與作者的情感的表達更加相關(guān)。
[0032]當分析段落時,可評定段落的逐項化。例如,可以假定逐項化列表可包括可能被認為相似或可能具有語義相似性的條目。此外,可能對介紹性短語感興趣。介紹性短語可涉及所有的條目,諸如在逐項化列表的開始處的短語“現(xiàn)有或缺少的產(chǎn)品X的列表:”。
[0033]在列表開始處發(fā)表的情感或觀點可適用于所有的列出的條目。例如,當分析列表“好的產(chǎn)品特征是:A、B、C,不好的產(chǎn)品特征是:X、Y、Z”,“好的產(chǎn)品特征”的正面情感適用于Α、B、C,而X、Y和Z都被識別為不好的特征。因此,只有當介紹性短語與所有條目相關(guān)時,列表的條目的正確分析才是可行的。
[0034]在第一步驟中,例如如上所述的格式化信息的分析,例如,如上所述,在第一步中,例如可被用于識別被分析的文本的最重要段落。在第二步第二步驟中,因此可確定被識別的段落的語義內(nèi)容。在第三步第三步驟中,可以再次根據(jù)格式化來評估語義內(nèi)容。
[0035]例如,如果在第一步驟中已經(jīng)分析了段落格式以識別高度重要性的段落,則可在第二步驟中確定段落的語義內(nèi)容或主題,并且可在第三步驟中進一步分析作者想要在段落中表達的情感,例如,關(guān)于在段落中所使用的顏色。例如,如果在段落中使用顏色紅、綠和黃,格式為紅色的部分的語義內(nèi)容可被假定為批判的或負面的,而格式為綠色的語義內(nèi)容可被假定為可接受的、不加批判的或正面的。
[0036]如在Β102中所示,因此可額外地確定關(guān)于文本的至少一部分的語義內(nèi)容的情感是否對應(yīng)文本的作者的正面或負面的情緒。例如,綠色、笑容符號或逐項化字符“ + ”可以是正面情緒的標志,而顏色紅色、憤怒的或傷心的笑容符號或符號“-”可以是負面情緒的暗
/Jn ο
[0037]在Β104,可進一步確定情感的強度。
[0038]例如,情感的強度可以從格式化信息得出。例如,可以假定加下劃線大寫的文本意在表達強烈的情感。相應(yīng)地,醒目的顏色或字體大小的使用或重復(fù)的標點符號(諸如“ ?。?! ”)的使用也可以是強烈情感的標志??梢约俣ǚ治鲫P(guān)于其內(nèi)容的文本的讀者或某人對帶有強烈情感的文本的部分特別感興趣。
[0039]在Β106,可以基于情感和/或情感的強度來確定文本的部分的重要性級別。
[0040]如上文所概述,帶有情感或甚至強烈情感的部分相比不帶有任何情感的部分對讀者來說可以有著更高的重要性。因此,基于格式化信息的情感分析可以有助于以快速高效的方式識別重要的段落。例如,基于重要性級別,可以首先對文本的最重要的部分進行語義分析,并且只有如果需要時才對文本的其余部分進行語義分析。
[0041]在圖2中,示出了確定情感的方法的另一實施方式。在該實施方式中,為文本的多個部分的每一個確定相應(yīng)情感和/或重要性的相應(yīng)級別。此外,根據(jù)賦予文本的多個部分的每一個的相應(yīng)情感的值確定分數(shù)。因此,確定與文本相關(guān)的總輸出分數(shù)。
[0042]在B200,初始化分數(shù),例如,分數(shù)被設(shè)置為零。
[0043]在B202,選擇文本的第一部分作為待分析的部分,并分析與該部分相關(guān)的格式化信息。
[0044]在B204,例如,通過關(guān)于圖1描述的一種方法,該部分所表達的情感取決于格式化信息。
[0045]例如,如在B206所示的,可以確定關(guān)于該部分的內(nèi)容的情感是否對應(yīng)作者的正面的或負面的情緒。
[0046]進一步地,如在B208所示的,如上所述,可以確定該部分的情感的強度。
[0047]更進一步地,如在B210所示的,可以基于情感和/或情感的強度確定該部分的重要性級別。
[0048]在B212,根據(jù)針對文本的各部分所確定的相應(yīng)的情感賦予的值修改分數(shù)。例如,根據(jù)作者的情緒是正面的或負面的可增加或減少值。因而,對反應(yīng)作者正面的情緒的情感可賦予正值,而對對應(yīng)作者負面的情緒的情感可賦予負值。可以利用對應(yīng)情感的相應(yīng)強度和/或文本的部分的重要性級別的權(quán)重因子選擇性地權(quán)衡這些值。然后相應(yīng)地修改分數(shù)。因而,通過確定多個部分的每一個的相應(yīng)情感的加權(quán)和確定分數(shù),其中,基于重要性的相應(yīng)級別和/或相應(yīng)情感的相應(yīng)強度來確定相應(yīng)情感的權(quán)重。
[0049]在B214,選擇文本的下一部分作為待分析的部分,并且在B204繼續(xù)分析。
[0050]當達到文本的結(jié)尾時,在B216輸出與文本相關(guān)的分數(shù)。
[0051]因此,我的理解:因此,如圖2所示的方法的實施方式可以通過使用微處理器自動執(zhí)行的分析幫助用戶自動地分析包括關(guān)于作者的總體情緒是正面或負面的格式化信息的文本。分析的結(jié)果可輸出為分數(shù)或可以形象化分數(shù)的方式任意地編碼,諸如色彩編碼(綠色為正面的分數(shù)、紅色為負面的分數(shù)以及黃色為中間的分數(shù))。
[0052]圖3示出了圖2中示出的實施方式在質(zhì)量評論網(wǎng)站應(yīng)用中的應(yīng)用。對于該實例,假定訪問網(wǎng)站300的用戶對類型WM001的洗衣機感興趣并且想要分析對于該類可以獲取關(guān)于該洗衣機的大量信息,對于用戶來說通過個人檢查去搜索并評估這些型的洗衣機給出的消費者評論。由于在因特網(wǎng)中,信息是一項繁重的任務(wù)。應(yīng)注意所述信息可包括消費者排序分配,例如,產(chǎn)品的零到五星,也包括來自用戶博客或個人網(wǎng)站的文件。
[0053]為了分析這些大量的信息,用戶可使用如圖2所示的方法的實施方式。該實施方式可基于在文本中使用的格式化信息幫助每一個發(fā)布的文本建立快速的總分。
[0054]在該實例中,分別通過正面的、負面的或中性的笑容符號302-2、304-2、306-2、308-2形象化自動確定的總分對四個文件302-1、304-1、306-1、308-1進行了分析和概括。因此,用戶可以獲得每一個文本的總體情感的第一印象并可選擇某些特別感興趣的文本用于進一步的檢驗。[0055]應(yīng)注意除了形象化分數(shù)以外,還確定了文件302-1、304-1、306-1、308-1的最重要部分并將其呈現(xiàn)為關(guān)鍵字,關(guān)鍵字概括了已經(jīng)斷定為對在文本中所表達的整體觀點起決定作用的事實。因此,自動支持用戶迅速獲得對例如從因特網(wǎng)上的全部文本中收集的文本的概述。
[0056]在圖4中,示出了確定情感的方法的進一步的實施方式。在該實施方式中,確定了文本的至少一部分的語義內(nèi)容并且評估了關(guān)于語義內(nèi)容的情感。示出了對于多個文本,通過使用統(tǒng)計法可為每一個文本的至少一個相應(yīng)部分評估關(guān)于語義內(nèi)容的相應(yīng)情感。
[0057]在B400,通過網(wǎng)絡(luò)(例如,因特網(wǎng))從可訪問的存儲裝置中收集與預(yù)定主題(例如,預(yù)定產(chǎn)品或產(chǎn)品的特征)相關(guān)的文本。
[0058]在B402,例如,關(guān)于預(yù)定的主題初始化分數(shù)。
[0059]在B404,確定第一文本的具有與主題相關(guān)的語義內(nèi)容的第一部分。
[0060]在B406,根據(jù)與該部分相關(guān)的格式化信息自動地確定該部分所表達的情感。這可通過使用例如在圖1中描述的方法的實施方式來執(zhí)行。
[0061]在B408,確定關(guān)于該部分的語義內(nèi)容的情感是否對應(yīng)文本的作者的正面的或負面的情緒。
[0062]進一步地,在B410確定該部分的情感的強度。
[0063]在B412,基于情感和/或情感的強度確定該部分的重要性級別。
[0064]在B414,為情感賦值,可根據(jù)的作者的情緒是正面的或負面的從分數(shù)中增加或減少該值??蛇x地,可利用該部分的有關(guān)強度和/或重要性級別權(quán)衡該值。因此,通過增加或減少賦予情感的值(可選擇地根據(jù)文本的情感的相應(yīng)強度和/或重要性級別對其進行權(quán)衡)來更新分數(shù)。
[0065]在B416,選擇文本的下一部分,或如果到了文本的結(jié)尾,選擇下一文本的第一部分。只要可對另一部分進行分析,在B406繼續(xù)分析。
[0066]通過重復(fù)程序B406至B416,確定了賦予文本中具有與主題相關(guān)的語義內(nèi)容的部分的相應(yīng)情感的值的加權(quán)和。在總和內(nèi),反映了文本中具有與主題相關(guān)的語義內(nèi)容的所有部分,其利用情感的相應(yīng)的強度和/或重要性級別來權(quán)衡。
[0067]然后在B418可輸出分數(shù)。提供了在文本內(nèi)關(guān)于預(yù)定主題所表達的情感的簡要的數(shù)字概括。因此該方法的實施方式允許對在電子網(wǎng)絡(luò)中可訪問的關(guān)于主題的任意文本的自動分析,并提供關(guān)于分析結(jié)果的簡要概述。
[0068]圖5示出了圖4中描述的方法的應(yīng)用的實例。實例示出了提供洗衣機WMOO1、WM002和WM003的出售商的網(wǎng)址。這些洗衣機中的每一個可用作在圖4中示出的方法的實施方式中的預(yù)定的主題。因此,可能對具有與這些產(chǎn)品之一或這些產(chǎn)品之一的特征相關(guān)的語義內(nèi)容的任意文本有興趣??梢运阉麟娮泳W(wǎng)絡(luò)(諸如因特網(wǎng))查詢相應(yīng)的文本,例如,通過分析與這些主題相關(guān)的博客或消費者評論。
[0069]根據(jù)圖4描述的實施方式,可為洗衣機WM001、WM002和WM003中的每一個確定反映在與相應(yīng)洗衣機相關(guān)的文本中所表達的整體觀點的分數(shù)。如上所述,通過參考格式化信息可自動并高效地確定分數(shù)。
[0070]可形象化分析的結(jié)果,例如,通過使用正面的、中性的或負面的笑容符號500、502、504。此外,參考給出相應(yīng)正面的、負面的或中立的觀點的文本,每一個產(chǎn)品的總分可分成條目500-l、500-2、500-3...504_1、5042、504_3??稍L問這些文本的關(guān)鍵字(例如通過鼠標點擊條目500-1、500-2、500-3...504-1、504-2、504_3的其中一個)以允許對每一個被掃描文件(例如,文本中帶有格式化信息的部分)的更加精密的分析,從而允許用戶對相應(yīng)文本的快速訪問以進行精確的分析。
[0071]因此,網(wǎng)址提供了對在關(guān)于預(yù)定主題的可訪問的文本中借助格式化信息所表達的情感的自動生成的概述。因此,當關(guān)于預(yù)定主題進行廣泛的搜索和情感分析時,用戶被高效地支持。
[0072]在圖6中,示出了關(guān)于相機模型XYZ的博客。如上所述,博客包括格式化信息并且因此可通過上述方法的實施方式的其中一個對其進行分析。
[0073]在第一來稿600中,用戶A詢問公眾關(guān)于相機的白平衡的體驗。在結(jié)束段落中,用戶A表達了他對白平衡的不滿。由于這個段落排列在中間,用粗體打出并用斜體的格式化的驚嘆號引入,在博客中可容易地識別該段。因此,如圖1示出的方法能夠容易地識別該段落為對相機模型XYZ的白平衡帶有強烈情感,并且對博客來稿的總論題具有高度的重要性。文本的語義分析可進一步允許確定該情感是負面的(弄壞的照片)。
[0074]隨后的用戶B的來稿602包括較少的格式化信息??傊?,標點符號和段落組織的分析允許識別末尾的句子為帶有某種強度的正面情感以及對來稿的重要性。
[0075]在隨后的用戶A的來稿604中,由于字符的大寫,可容易地確定文本的最重要的部分。從該部分看,可容易地理解菜單的位置是博客的核心問題。
[0076]在來稿606中,用戶C發(fā)表了意見并表達了他的個人觀點,由于其是通過縮寫“ΙΜΗ0”引入的,因此可容易地被識別。
[0077]在詢問用戶A的結(jié)束來稿608中,可參考標點符號再一次確定最重要的和情感傾向的部分。此外,在排列在中間、用斜體打印并進一步通過呼喊“emoticon”引入的結(jié)束段落中,概括了用戶A的觀點,并且用戶A的觀點與產(chǎn)品的復(fù)雜度有關(guān)。
[0078]在該實例中,格式化信息可被用于識別情感傾向和文本的重要部分。因而,基于格式化信息的情感的提取可有助于精確并高效地分析例如關(guān)于預(yù)定主題的文本。
[0079]在圖7中,示出了相機模型XYZ的產(chǎn)品評估。產(chǎn)品評估包括三個列表700、702和704,其每一個都通過反映列表的每一個條目的主題的標題而引入。此外,每一個列表包括以概述發(fā)布者的觀點的正(+ )或負(-)逐項化字符為首的條目。在產(chǎn)品評估的結(jié)尾,通過跟隨有粗體打出的總結(jié)性短語的符號“一”引入總體概述706。使用例如圖1中描述的方法的產(chǎn)品評估的詳細分析允許識別發(fā)布者發(fā)現(xiàn)的正面或負面的特征。
[0080]如果獲取了關(guān)于相機模型XYZ的大量的相應(yīng)產(chǎn)品評估,則可以執(zhí)行該相機模型的各種特征的消費者的評價的詳細分析。例如,在每一個文本中,基于格式化信息可識別重要部分和用戶的情感傾向的陳述。然后,可分析重要部分和情感傾向的陳述的相應(yīng)語義內(nèi)容。例如,如關(guān)于B212所述的,可為反映作者的觀點的部分賦值。在此基礎(chǔ)上,可執(zhí)行關(guān)于每一個特征的統(tǒng)計分析,例如,確定對在文本中所表達的意見所賦予的值的平均值和標準差。因此,例如,關(guān)于預(yù)定的產(chǎn)品或關(guān)于預(yù)定產(chǎn)品的特征,可執(zhí)行消費者評論的自動統(tǒng)計分析。
[0081]圖8中示出了相應(yīng)分析的評估結(jié)果。在實例中,概括了對出售商ABC的德國所在地給出的消費者評論800和對出售商DEF的日本所在地給出的消費者評論802并且將其輸出以用于直接的比較。作為預(yù)定主題,確定了筆記本電腦模型XYZ及其鍵盤、電池、外殼和排風(fēng)扇。
[0082]關(guān)于鍵盤,對出售商ABC的德國所在地給出了十個正面的觀點,而對出售商DEF的日本所在地只給出了六個正面的反饋和八個負面的反饋。這可能是只影響日本的鍵盤的問題的暗示,其可需要對給出的反饋的更詳細的分析。
[0083]當分析反饋時,可以考慮相應(yīng)作者的不同的文化背景。因此,必須根據(jù)文本的作者的文化背景確定情感。例如,如果分析對日本所在地的反饋,應(yīng)當記住通常最后一段包含了真實的意在的含義,而開始可能包括對主題禮貌性的引入。
[0084]此外,帶有情感的短語可取決于文化背景。例如,如果在對日本所在地的反饋中,陳述了某事可能是困難的,這可以表示嚴重的問題,然而在源于美國或歐洲背景的反饋中的相同陳述意指可能潛在地出現(xiàn)某些困難。
[0085]如圖8所示的評估結(jié)果可引起可能考慮到的幾個不同的結(jié)果。
[0086]例如,出售商DEF的日本所在地的負面的反饋可報告給產(chǎn)品研發(fā)部門,其將為下一代模型考慮所有的容易達到的所要求的功能。此外,作品研發(fā)部門可提供修復(fù)軟件以供下載。
[0087]進一步地,可根據(jù)評估結(jié)果適配(adapt,調(diào)整)產(chǎn)品分配。例如,來自出售商DEF的日本所在地的負面的陳述可能導(dǎo)致確保對于日本市場只分配適于相應(yīng)需求的筆記本電腦模型的變形的產(chǎn)品分配規(guī)則。
[0088]進一步地,可根據(jù)結(jié)果適配供應(yīng)鏈管理。
[0089]更進一步地,也可針對單個作者分析包括個人觀點的產(chǎn)品評估。因此,可收集關(guān)于作者的描述他的或她的個人品味的個人資料的信息。
[0090]例如,可以為對他的相機的各種用戶設(shè)置非常肯定的用戶提供同樣允許各種用戶設(shè)置的其他產(chǎn)品(諸如筆記本電腦或移動電話)的個人推薦。相反,抱怨他的復(fù)雜產(chǎn)品的用戶可接收具有簡單的用戶界面的產(chǎn)品的推薦。
[0091]因此,從根據(jù)如上所述的方法的實施方式的其中一個的用戶的反饋的自動評估,可衍生出描述他的個人喜好和品位的個人資料。進一步地,可為用戶提供對應(yīng)該個人資料的個人推薦。
[0092]在圖9中,示出了例如根據(jù)圖1、圖2和圖4示出的實施方式的自動化文本評估的裝置900。裝置900包括用作適用于經(jīng)由網(wǎng)絡(luò)(諸如因特網(wǎng))從可訪問的存儲裝置中收集與預(yù)定主題相關(guān)的文本的收集單元的網(wǎng)絡(luò)爬蟲902。在描述的實例中,網(wǎng)絡(luò)爬蟲902有權(quán)訪問服務(wù)器904、第一存儲器906、文件908和910、包括文本的數(shù)據(jù)庫912以及第二存儲器914。因此,可通過網(wǎng)絡(luò)爬蟲902訪問包括與預(yù)定主題相關(guān)的格式化信息的各種文本。
[0093]這些文本可被提供至適用于確定文本中包括與文本的部分相關(guān)的相應(yīng)格式化信息的部分的掃描單元916。
[0094]這些部分可被提供至適用于為文本的每一個部分確定相應(yīng)的情感和相應(yīng)語義內(nèi)容的確定單元918,其中,相應(yīng)的情感的確定取決于通過掃描單元916確定的相應(yīng)格式化信息。確定單元918可例如通過如圖1所示的方法確定情感。
[0095]確定單元918的結(jié)果可被提供給適用于為文本的每一個部分統(tǒng)計地評估關(guān)于相應(yīng)情感(例如,如關(guān)于圖8所述的)的相應(yīng)語義內(nèi)容的評估單元920。
[0096]然后,結(jié)果可顯示在顯示器922上。如所示出的,可針對不同的子主題(例如,筆記本電腦模型XYZ的鍵盤、電池、顏色和排風(fēng)扇)分離結(jié)果。
[0097]如果預(yù)定的主題與產(chǎn)品或產(chǎn)品的特征有關(guān),可提供進一步的結(jié)果。
[0098]例如,可以根據(jù)其中一個結(jié)果適配產(chǎn)品的技術(shù)特征。例如,可以根據(jù)用戶的需求改進被發(fā)現(xiàn)是低劣的特征(諸如電池容量)。
[0099]此外,也可提供修復(fù)產(chǎn)品故障的方法。例如,如果軟件版本引起例如菜單的故障,可以例如經(jīng)由支持網(wǎng)站提供并散布修復(fù)版本。
[0100]此外,可根據(jù)評估單元920的結(jié)果適配產(chǎn)品分配和/或供應(yīng)鏈。例如,如果一個出售商在出售產(chǎn)品上特別成功,則可以為該出售商提供待出售的較大數(shù)量的條目,并且進一步為其提供喚起更多的消費者的興趣的額外推廣材料。如果產(chǎn)品在國家市場中特別成功,則可最優(yōu)化供應(yīng)鏈從而使在該市場的出售商被提供有足夠的待出售的部分。
[0101]此外,也可針對作者分析評估結(jié)果。在這種情況下,選擇作者而不是產(chǎn)品作為預(yù)定的主題。當評估作者對不同產(chǎn)品的反饋時,可把握關(guān)于他的喜好的有價值的信息。可將這類信息添加至例如作者的個人資料中。因此,例如,可提供作者可能感興趣的產(chǎn)品的個人推薦。
[0102]因此,由于所聲明的用于自動的文本評估的方法和裝置基于格式化信息,可以緩慢的行進并掃描大量文本,從而快速地識別描述作者的情感和觀點的部分。因此,可得到有助于根據(jù)消費者的需求發(fā)展、優(yōu)化并最優(yōu)分配市場上的產(chǎn)品的有價值信息??勺詣訄?zhí)行這些分析,并且由于參考了格式化信息減少了投入,這可有助于精確地識別文本的情感傾向的和重要段落。
【權(quán)利要求】
1.一種用于確定情感的方法,包括: 從包括與文本的各部分相關(guān)的格式化信息的所述文本中確定由至少一個部分表達的情感,其中 所述情感使用微處理器自動地確定,并且取決于與所述至少一個部分相關(guān)的所述格式化信息。
2.根據(jù)權(quán)利要求1所述的方法,還包括: 確定所述情感是否對應(yīng)于所述文本的作者關(guān)于所述至少一個部分的語義內(nèi)容的正面或負面情緒。
3.根據(jù)權(quán)利要求1或2所述的方法,還包括: 確定所述情感的強度。
4.根據(jù)前述權(quán)利要求中任一項所述的方法,還包括: 基于所述情感和/或所述情感的強度確定所述至少一個部分的重要性級別。
5.根據(jù)前述權(quán)利要求中任一項所述的方法,其中, 針對多個所述部分中的每一個確定相應(yīng)情感和/或相應(yīng)重要性級別,并且 根據(jù)賦予給所述文本的所述多個部分中的每一個的所述相應(yīng)情感的值來確定分數(shù)。
6.根據(jù)權(quán)利要求5所述的方法,其中, 通過確定所述多個部分中的每一個的所述相應(yīng)情感的加權(quán)和來確定所述分數(shù),其中 基于重要性的相應(yīng)級別和/或所述相應(yīng)情感的相應(yīng)強度來確定相應(yīng)情感的權(quán)重。
7.根據(jù)前述權(quán)利要求中任一項所述的方法,還包括 確定所述至少一個部分的語義內(nèi)容;以及 評估關(guān)于所述語義內(nèi)容的所述情感。
8.根據(jù)前述權(quán)利要求中任一項所述的方法,還包括 針對多個文本通過使用統(tǒng)計法評估關(guān)于每一個所述文本的至少一個相應(yīng)部分的語義內(nèi)容的相應(yīng)情感。
9.根據(jù)權(quán)利要求7或8所述的方法,其中, 所述語義內(nèi)容與產(chǎn)品或所述產(chǎn)品的特征有關(guān)。
10.根據(jù)前述權(quán)利要求中任一項所述的方法,其中, 所述格式化信息包括在所述文本中使用的大寫、下劃線、字體類型、字體大小、粗體、斜體、顏色、段落對齊、段落邊距、逐項化字符、標點字符、情感表達的縮寫、段落的編號和順序中的至少一個。
11.根據(jù)前述權(quán)利要求中任一項所述的方法,其中, 所述情感的所述確定進一步取決于所述文本的作者的文化背景。
12.一種用于自動化文本評估的裝置,包括: 收集單元,適于經(jīng)由網(wǎng)絡(luò)從所述收集單元可訪問的存儲裝置中收集與預(yù)定主題相關(guān)的文本; 掃描單元,適于確定包括與所述文本的各部分相關(guān)的相應(yīng)格式化信息的所述文本的所述各部分; 確定單元,適于針對所述文本的每個所述部分確定相應(yīng)情感和相應(yīng)語義內(nèi)容,其中,所述相應(yīng)情感的所述確定取決于所述相應(yīng)格式化信息;以及評估單元,適于針對所述文本的每個所述部分評估關(guān)于所述相應(yīng)情感的所述相應(yīng)語義內(nèi)容。
13.根據(jù)權(quán)利要求12所述的裝置,其中, 所述預(yù)定主題與產(chǎn)品或所述產(chǎn)品的特征有關(guān)。
14.根據(jù)權(quán)利要求13所述的裝置,其中, 所述產(chǎn)品的技術(shù)特征根據(jù)所述評估單元的評估結(jié)果被適配。
15.根據(jù)權(quán)利要求13或14所述的裝置,其中, 根據(jù)所述評估單元的所述評估結(jié)果,提供用于修復(fù)所述產(chǎn)品的故障的方法。
16.根據(jù)前述權(quán)利要求中任一項所述的裝置,其中, 根據(jù)所述評估單元的所述評估結(jié)果,適配產(chǎn)品分配和/或供應(yīng)鏈。
17.根據(jù)前述權(quán)利要求中任一項所述的裝置,其中, 根據(jù)所述評估單元的所述評估結(jié)果適配所述文本的作者的用戶個人資料。
18.根據(jù)權(quán)利要求17所述的裝置,其中, 基于經(jīng)適配的所述用`戶個人資料,為所述作者提供推薦。
【文檔編號】G06F17/27GK103493040SQ201280019285
【公開日】2014年1月1日 申請日期:2012年3月12日 優(yōu)先權(quán)日:2011年4月21日
【發(fā)明者】亞娜·埃金克, 托馬斯·克姆普, 尼科·申克, 丹尼爾·杜蘭 申請人:索尼公司