本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤其是一種信息處理方法和裝置。
背景技術(shù):
當前,汽車已成為大眾出行、貨物運輸?shù)闹饕\載工具。針對各種品牌、型號的汽車,互聯(lián)網(wǎng)上存在并不斷涌現(xiàn)海量的評價信息,如何快速獲取這些互聯(lián)網(wǎng)上對汽車的評價信息并對其進行分析研究,對汽車生產(chǎn)廠商和行業(yè)研究人員而言,都是一項具有巨大挑戰(zhàn)、但卻非常有價值的工作。對汽車廠商而言,可以從用戶的評論信息中掌握其產(chǎn)品的使用優(yōu)缺點、以及在市場上的評價排序。同時,汽車口碑對消費者也非常重要,為消費者選擇汽車品牌、型號提供了參考。
在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn),現(xiàn)有技術(shù)中,尚不存在一種全面了解汽車口碑的方式,汽車廠商、行業(yè)研究人員、消費者只能針對特定品牌、型號的汽車,從各汽車論壇搜索其評價信息,信息了解不全面,信息獲取效率低下。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例所要解決的一個技術(shù)問題是:提供一種信息處理方法和裝置,以使用戶可以全面了解汽車的評價信息。
根據(jù)本發(fā)明實施例的一個方面,提供的一種信息處理方法,包括:
基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息;
根據(jù)預(yù)先獲得的信息判斷模型,分別針對爬取到的各用戶評述信息,獲取用戶評述信息對應(yīng)的評價等級并對用戶評論信息標注獲取到的評價等級;
在信息系統(tǒng)中存儲所述指定產(chǎn)品及其標注評價等級的用戶評價信息。
在本發(fā)明另一實施例的信息處理方法中,還包括獲取所述爬取規(guī)則的操作;
所述爬取規(guī)則具體為基于用戶對互聯(lián)網(wǎng)上指定產(chǎn)品的用戶評述信息進行分析后設(shè)定的關(guān)鍵詞設(shè)置的爬取標準;所述關(guān)鍵詞包括指定產(chǎn)品的指標參數(shù)。
在本發(fā)明另一實施例的信息處理方法中,所述從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息包括:
利用網(wǎng)絡(luò)爬蟲,對第三方平臺網(wǎng)站的口碑專欄里的任意一個或多個版塊進行定向爬取,獲得用戶評述信息;
所述口碑專欄里的版塊包括:車型、空間、動力、操控性、舒適度、外觀、內(nèi)飾、性價比、配置、油耗。
在本發(fā)明另一實施例的信息處理方法中,還包括:
響應(yīng)于檢測到新建語料包,對新建語料包進行學(xué)習(xí),形成所述信息判斷模型;所述語料包基于對各種評價等級的特征的總結(jié)形成,所述特征包括關(guān)鍵詞和/或關(guān)鍵句型;或者
響應(yīng)于檢測到語料包被更新,對更新后的語料包進行學(xué)習(xí),并對所述信息判斷模型進行更新。
在本發(fā)明另一實施例的信息處理方法中,所述獲取用戶評述信息對應(yīng)的評價等級并對用戶評論信息標注獲取到的評價等級包括:
獲取用戶評述信息中各特征對應(yīng)的評價等級,所述特征包括關(guān)鍵詞和/或關(guān)鍵句型;
響應(yīng)于所述用戶評述信息中包含同時對應(yīng)多個不同評價等級的無效特征,去除同時對應(yīng)多個不同評價等級的無效特征;
對所述用戶評述信息中特征去除無效特征后得到的各有效特征分別標注相應(yīng)的評價等級。
在本發(fā)明另一實施例的信息處理方法中,所述將標注評價等級的用戶評價信息存儲到信息系統(tǒng)中之前,還包括:
根據(jù)分類要素對用戶評述信息進行分類,獲得用戶評述信息的類別;所述指定產(chǎn)品為汽車時,所述分類要素包括車型、空間、動力、操控性、舒適度、外觀、內(nèi)飾、性價比、配置與油耗中的任意一種或多種;
所述在信息系統(tǒng)中存儲所述指定產(chǎn)品及其標注評價等級的用戶評價信息包括:根據(jù)用戶評述信息的類別,在信息系統(tǒng)中的相應(yīng)位置存儲所述指定產(chǎn)品及其標注評價等級的用戶評價信息。
在本發(fā)明另一實施例的信息處理方法中,所述獲取用戶評述信息對應(yīng)的評價等級之后,還包括:
判斷是否獲取到用戶評述信息對應(yīng)的評價等級;
響應(yīng)于獲取到用戶評述信息對應(yīng)的評價等級,執(zhí)行所述對用戶評論信息標注獲取到的評價等級的操作;
否則,響應(yīng)于未獲取到用戶評述信息對應(yīng)的評價等級,輸出未獲取到評價等級的用戶評述信息,并接收用戶針對未獲取到評價等級的用戶評述信息反饋的評價等級;對未獲取到評價等級的用戶評述信息標注用戶反饋的評價等級。
在本發(fā)明另一實施例的信息處理方法中,基于預(yù)先設(shè)置的爬取周期或用戶輸入的爬取指令,執(zhí)行所述基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息的操作。
根據(jù)本發(fā)明實施例的另一個方面,提供的一種信息處理裝置,包括:
獲取單元,用于基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息;
標注單元,用于根據(jù)預(yù)先獲得的信息判斷模型,分別針對爬取到的各用 戶評述信息,獲取用戶評述信息對應(yīng)的評價等級并對用戶評論信息標注獲取到的評價等級;
存儲處理單元,用于在信息系統(tǒng)中存儲所述指定產(chǎn)品及其標注評價等級的用戶評價信息。
在本發(fā)明另一實施例的信息處理裝置中,還包括:
第一存儲單元,用于存儲所述爬取規(guī)則;所述爬取規(guī)則具體為基于用戶對互聯(lián)網(wǎng)上指定產(chǎn)品的用戶評述信息進行分析后設(shè)定的關(guān)鍵詞設(shè)置的爬取標準;所述關(guān)鍵詞包括指定產(chǎn)品的指標參數(shù)。
基于本發(fā)明上述實施例提供的信息處理方法和裝置,基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品(例如但不限于汽車)的用戶評述信息;根據(jù)預(yù)先獲得的信息判斷模型,分別獲取各用戶評述信息對應(yīng)的評價等級并對其標注評價等級,之后,將標注評價等級的用戶評價信息匯總到信息系統(tǒng)中,通過信息系統(tǒng)全面收錄指定產(chǎn)品各種評價等級的用戶信息,形成了一個用戶口碑評價體系,使用戶從信息系統(tǒng)可以方便、全面地查詢產(chǎn)品各方面的口碑信息,解決了現(xiàn)有技術(shù)用戶對產(chǎn)品信息了解不全面、信息獲取效率低下等問題,為產(chǎn)品廠商、行業(yè)研究人員、消費者提供了諸多便利。
下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。
附圖說明
構(gòu)成說明書的一部分的附圖描述了本發(fā)明的實施例,并且連同描述一起用于解釋本發(fā)明的原理。
參照附圖,根據(jù)下面的詳細描述,可以更加清楚地理解本發(fā)明,其中:
圖1為本發(fā)明信息處理方法一個實施例的流程圖。
圖2為本發(fā)明實施例中形成語料包的一個實施例的流程圖。
圖3為本發(fā)明信息處理方法另一個實施例的流程圖。
圖4為本發(fā)明信息處理裝置一個實施例的結(jié)構(gòu)示意圖。
圖5為本發(fā)明信息處理裝置另一個實施例的結(jié)構(gòu)示意圖。
具體實施方式
現(xiàn)在將參照附圖來詳細描述本發(fā)明的各種示例性實施例。應(yīng)注意到:除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對布置、數(shù)字表達式和數(shù)值不限制本發(fā)明的范圍。
同時,應(yīng)當明白,為了便于描述,附圖中所示出的各個部分的尺寸并不是按照實際的比例關(guān)系繪制的。
以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應(yīng)用或使用的任何限制。
對于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細討論,但在適當情況下,所述技術(shù)、方法和設(shè)備應(yīng)當被視為說明書的一部分。
應(yīng)注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步討論。
圖1為本發(fā)明信息處理方法一個實施例的流程圖。如圖1所示,該實施例的信息處理方法包括:
102,基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息。
本發(fā)明實施例中的指定產(chǎn)品例如可以是汽車、電動車、手機終端、房產(chǎn)等任意產(chǎn)品。
104,根據(jù)預(yù)先獲得的信息判斷模型,分別針對爬取到的各用戶評述信息,獲取用戶評述信息對應(yīng)的評價等級并對用戶評論信息標注獲取到的評價等級。
其中的評價等級用于反映用戶對該指定產(chǎn)品的評價,例如根據(jù)用戶對產(chǎn)品的評價好壞可以將評價等級分為包括正性(+1)、中性(0)、負性(-1)三 個評價等級,正性(+1)表示用戶對該產(chǎn)品的評價為正面評價,中性(0)表示用戶對該產(chǎn)品評價一般,不好不差,負性(-1)用戶對該產(chǎn)品的評價為負面評價。
106,在信息系統(tǒng)中存儲上述指定產(chǎn)品及其標注評價等級的用戶評價信息,即:在信息系統(tǒng)中進行上述指定產(chǎn)品及其標注評價等級的用戶評價信息的關(guān)聯(lián)性存儲,在信息系統(tǒng)中便可基于指定產(chǎn)品獲取其標注評價等級的用戶評價信息。
具體地,本發(fā)明各實施例中的操作102可以根據(jù)實際需求,基于預(yù)先設(shè)置的爬取周期或用戶輸入的爬取指令觸發(fā),即可以周期性地或者在用戶有需求時觸發(fā)執(zhí)行本發(fā)明實施例的信息處理方法,來形成匯總有關(guān)于該指定產(chǎn)品標注評價等級的用戶評價信息的信息系統(tǒng),或者對信息系統(tǒng)中的用戶評價信息進行更新。
基于本發(fā)明上述實施例提供的信息處理方法,基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品(例如但不限于汽車)的用戶評述信息;根據(jù)預(yù)先獲得的信息判斷模型,分別獲取各用戶評述信息對應(yīng)的評價等級并對其標注評價等級,之后,將標注評價等級的用戶評價信息匯總到信息系統(tǒng)中,通過信息系統(tǒng)全面收錄指定產(chǎn)品各種評價等級的用戶信息,形成了一個用戶口碑評價體系,使用戶從信息系統(tǒng)可以方便、全面地查詢產(chǎn)品各方面的口碑信息,為產(chǎn)品廠商、行業(yè)研究人員、消費者提供了諸多便利。
在本發(fā)明信息處理方法的另一個實施例中,還包括獲取爬取規(guī)則的操作,包括但不限于接收用戶臨時輸入的爬取規(guī)則,或者獲取用戶預(yù)先設(shè)置的爬取規(guī)則。其中,爬取規(guī)則具體為基于用戶對互聯(lián)網(wǎng)上指定產(chǎn)品的用戶評述信息進行分析后設(shè)定的關(guān)鍵詞設(shè)置的爬取標準。
例如,在一個具體示例中,可以通過如下方式獲取爬取規(guī)則:針對互聯(lián)網(wǎng)上的用戶評述信息(即:評論性語句)進行人工分析,確定可能反映用戶體驗、影響產(chǎn)品口碑的詞匯并提取出來設(shè)定為關(guān)鍵詞,例如,對用戶評述信 息“SelectShift6速手自一體變速箱有著不錯的響應(yīng)速度,換擋邏輯也很清晰,能夠快”分析獲知,其中的關(guān)鍵詞“響應(yīng)速度”、“換擋邏輯”會影響汽車產(chǎn)品的口碑,因此提取關(guān)鍵詞“響應(yīng)速度”、“換擋邏輯”;根據(jù)分析結(jié)果設(shè)定后續(xù)從互聯(lián)網(wǎng)爬取用戶評述信息的爬取規(guī)則,該爬取規(guī)則可以是,只爬取包括用戶設(shè)定的關(guān)鍵詞的用戶評述信息。
為了實現(xiàn)對指定產(chǎn)品信息的全面獲取,在另一個具體示例中,爬取規(guī)則的關(guān)鍵詞中除了可能反映用戶體驗、影響產(chǎn)品口碑的詞匯,還可以根據(jù)該指定產(chǎn)品的產(chǎn)品特點,設(shè)置該指定產(chǎn)品的指標參數(shù),并設(shè)置爬取規(guī)則中的關(guān)鍵詞包括該指定產(chǎn)品的指標參數(shù)。例如,針對汽車產(chǎn)品,可以設(shè)置爬取規(guī)則中的關(guān)鍵詞包括品牌、型號、排量等各項指標參數(shù),在用戶評述信息“詳細車型情況表如下:奇駿車型最新價格變化報價車型指導(dǎo)...”就屬于要爬取的信息范圍。
其中,為了獲得比較權(quán)威的用戶評述信息,建立客觀、嚴謹?shù)漠a(chǎn)品口碑體系,在本發(fā)明信息處理方法的另一個實施例中,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息時,可以利用網(wǎng)絡(luò)爬蟲,對第三方平臺權(quán)威網(wǎng)站的口碑專欄進行定向爬取,例如,分別針對口碑專欄里的車型、空間、動力、操控性、舒適度、外觀、內(nèi)飾、性價比、配置、油耗等任意一個或多個版塊中的用戶評述信息進行爬取,獲得用戶評述信息。其中的網(wǎng)絡(luò)爬蟲(簡稱:爬蟲),是一種自動獲取網(wǎng)頁內(nèi)容的程序,是搜索引擎的一個重要組成部分。
在本發(fā)明信息處理方法的又一個實施例中,還包括:檢測到新建語料包時,對新建語料包進行學(xué)習(xí),形成信息判斷模型。其中的語料包基于對各種評價等級的特征的總結(jié)形成,該特征可以包括關(guān)鍵詞和/或關(guān)鍵句型。另外,在檢測到語料包被更新時,還可以對更新后的語料包進行學(xué)習(xí),并根據(jù)學(xué)習(xí)結(jié)果對信息判斷模型進行更新。
其中的句型也即句式,一個句子必須按照一定的模式來組織,這個模式 稱為句式,句式可以包括:陳述句、疑問句、祈使句、感嘆句、被字句、把字句、反問句、設(shè)問句、肯定句、否定句等。根據(jù)句子的表述方式結(jié)合句末情感詞,可以確定句子的句式,例如,“…多好啊”為感嘆句,“難道…好嗎?”為反問句,“…不…”為否定句。可以總結(jié)各種評價等級的特征,例如,正性(+1)、中性(0)、負性(-1)三個評價等級分別對應(yīng)的關(guān)鍵詞和/或關(guān)鍵句型,形成語料包。裝置對該語料包進行學(xué)習(xí),便可以形成信息判斷模型,后續(xù)爬取到用戶評述信息時,分析其特征,并基于信息判斷模型分析其特征對應(yīng)的評價等級,從而實現(xiàn)對用戶評述信息評價等級的確定。
圖2為本發(fā)明實施例中形成語料包的一個實施例的流程圖。如圖2所示,可以通過如下操作形成語料包:
202,針對互聯(lián)網(wǎng)上的用戶評述信息進行人工分析,確定可能反映用戶體驗、影響產(chǎn)品口碑的詞匯并提取出來設(shè)定為關(guān)鍵詞。
204,根據(jù)分析結(jié)果設(shè)定爬取規(guī)則,該爬取規(guī)則包括:爬取包括用戶設(shè)定的關(guān)鍵詞的用戶評述信息。
即:根據(jù)該爬取規(guī)則,當識別出一條用戶評述信息中包括用戶設(shè)定的關(guān)鍵詞時,則利用網(wǎng)絡(luò)爬蟲爬取該條用戶評述信息;當識別出一條用戶評述信息未包括用戶設(shè)定的關(guān)鍵詞時,爬蟲將其忽略,不進行爬取。
例如,用戶設(shè)定的關(guān)鍵詞包括“響應(yīng)速度”、“換擋邏輯”,則用戶評述信息“SelectShift6速手自一體變速箱有著不錯的響應(yīng)速度,換擋邏輯也很清晰,能夠快”就屬于網(wǎng)絡(luò)爬蟲爬取的對象。
206,利用網(wǎng)絡(luò)爬蟲,對第三方平臺權(quán)威網(wǎng)站的口碑專欄進行定向爬取,獲得一定數(shù)量的用戶評述信息。
其中,用戶評述信息的具體數(shù)量多少,應(yīng)該使這些用戶評述信息支持或基本支持獲得各種評價等級可能對應(yīng)的特征。
之后,分別針對每一條用戶評述信息,執(zhí)行操作208~210。
208,根據(jù)預(yù)先設(shè)置的分類要素對用戶評述信息進行分類,獲得用戶評述 信息的類別。
例如,汽車產(chǎn)品的類別可以為:車型分類(寶馬、蘭博基尼、豐田、大眾)、排量分類(1.6排、1.3排)、空間分類、動力分類等。
210,根據(jù)用戶評述信息的類別,確定用戶評述信息對應(yīng)的評價等級并對用戶評論信息標注評價等級。
212,根據(jù)各用戶評論信息的評價等級,人工總結(jié)各種評價等級對應(yīng)的特征,包括關(guān)鍵詞和/或關(guān)鍵句型,形成語料包。
先人工對足夠多用戶評述信息進行評價等級判定,并標注評價等級,例如,正性(+1)、中性(0)、負性(-1);分別總結(jié)各種評價等級(中性、正性、負性)的關(guān)鍵詞及句型形成語料包,例如“不舒服、太慢”就屬于負性語料。
對語料包進行學(xué)習(xí),形成信息判斷模型便可判定用戶評述信息的評價等級。例如,根據(jù)學(xué)習(xí)語料包形成的信息判斷模型,對用戶評述信息“作為多用途汽車的MPV車型,以往留給人們的印象是寬敞、實用,算得上是家庭用車的好選擇”便可以判定其評價等級為正性,判斷依據(jù)具體為信息判斷模型中“算得上是…的好選擇”這個關(guān)鍵句型對應(yīng)正性。
在實際應(yīng)用中,一條用戶評述信息中可能包括多個由關(guān)鍵詞和/或關(guān)鍵句型形成的特征,不同特征可能對應(yīng)于對指定產(chǎn)品不同指標參數(shù)的評價,例如,用戶評述信息“AA牌1.6排汽車外觀非常漂亮,但是空間太小,裝飾也不是特別好”,就包含了三個特征“外觀…漂亮”、“空間…小”、“裝飾也不…好”,分別對汽車產(chǎn)品外觀、空間、裝飾三方面指標參數(shù)進行了評價。則在本發(fā)明上述實施例的操作104中,獲取一條用戶評述信息對應(yīng)的評價等級時,具體可以分別獲取該用戶評述信息中各特征對應(yīng)的評價等級。如果用戶評述信息中的某個特征同時對應(yīng)多個不同評價等級,例如,若特征“空間大…小…其實也還算可以”即同時對應(yīng)了正性(+1)、中性(0)、負性(-1)三個評價等級,則該特征無法反映用戶對該產(chǎn)品的評價傾向,本發(fā)明實施例中將 該類特征稱為無效特征,先去除用戶評述信息包括的特征中同時對應(yīng)多個不同評價等級的無效特征,然后再其余的各有效特征分別標注相應(yīng)的評價等級。
另外,為了使用戶可以方便地了解產(chǎn)品某方面的用戶口碑,在執(zhí)行操作106前,可以根據(jù)預(yù)先設(shè)置的分類要素對用戶評述信息進行分類,獲得用戶評述信息的類別,這樣,操作106中,具體根據(jù)用戶評述信息的類別,例如汽車產(chǎn)品可以按照車型、空間、動力、操控性、舒適度、外觀、內(nèi)飾、性價比、配置、油耗等分類要素分類,在信息系統(tǒng)中的相應(yīng)位置存儲上述指定產(chǎn)品及其標注評價等級的用戶評價信息,這樣,用戶在信息系統(tǒng)中,針對上述指定產(chǎn)品便可以分類獲取各用戶評述信息及其評價等級,并可以獲知其評價等級的總體情況,例如正性、負性、中性用戶評述信息的數(shù)量,并了解競爭產(chǎn)品在各方面的評價等級優(yōu)劣,即口碑好壞。例如,在一個具體應(yīng)用中,可以從信息系統(tǒng)方便地檢索出1.6排量的所有車型的口碑排序,以及各種性能(空間、動力、操控性等)的口碑排序。
具體示例中,可以先根據(jù)預(yù)先設(shè)置的分類要素對用戶評述信息進行分類,然后再根據(jù)用戶評述信息的類別獲取根據(jù)用戶評述信息對應(yīng)的評價等級;也可以在獲取根據(jù)用戶評述信息對應(yīng)的評價等級后,再根據(jù)預(yù)先設(shè)置的分類要素對用戶評述信息進行分類并進行評價等級標注;另外,還可以在對用戶評論信息標注獲取到的評價等級后再對用戶評述信息進行分類。
圖3為本發(fā)明信息處理方法另一個實施例的流程圖。如圖3所示,該實施例的信息處理方法包括:
302,利用網(wǎng)絡(luò)爬蟲,基于預(yù)先設(shè)置的爬取規(guī)則,對第三方平臺權(quán)威網(wǎng)站的口碑專欄進行定向爬取,獲得指定產(chǎn)品的用戶評述信息,并分別針對爬取到的每一條用戶評述信息,執(zhí)行操作304。
本發(fā)明實施例中的指定產(chǎn)品例如可以是汽車、電動車、手機終端、房產(chǎn)等任意產(chǎn)品。指定產(chǎn)品為汽車時,具體可以分別針對口碑專欄里的車型、空 間、動力、操控性、舒適度、外觀、內(nèi)飾、性價比、配置、油耗等任意一個或多個版塊中的用戶評述信息進行爬取,分別獲得指定產(chǎn)品在各方面的用戶評述信息。
304,根據(jù)預(yù)先設(shè)置的分類要素對用戶評述信息進行分類,獲得用戶評述信息的類別。
306,根據(jù)信息判斷模型,獲取用戶評述信息在相應(yīng)類別下的評價等級。
其中的評價等級用于反映用戶對該指定產(chǎn)品的評價,例如根據(jù)用戶對產(chǎn)品的評價好壞可以將評價等級分為包括正性(+1)、中性(0)、負性(-1)三個評價等級,正性(+1)表示用戶對該產(chǎn)品的評價為正面評價,中性(0)表示用戶對該產(chǎn)品評價一般,不好不差,負性(-1)用戶對該產(chǎn)品的評價為負面評價。
308,判斷是否獲取到用戶評述信息對應(yīng)的評價等級。
若獲取到用戶評述信息對應(yīng)的評價等級,執(zhí)行操作,310。否則,若未獲取到用戶評述信息對應(yīng)的評價等級,執(zhí)行操作312。
310,對用戶評論信息標注獲取到的評價等級。
之后,執(zhí)行操作316。
312,輸出未獲取到評價等級的用戶評述信息,并接收用戶針對該未獲取到評價等級的用戶評述信息反饋的評價等級。
對于無法獲取到用戶評述信息對應(yīng)評價等級的用戶評述信息,反饋給用戶進行人工確定,有效保證了對用戶評述信息評價等級確定的準確率。
314,對該未獲取到評價等級的用戶評述信息標注用戶反饋的評價等級。
316,信息系統(tǒng)中該用戶評價信息所屬類別的相應(yīng)位置存儲上述指定產(chǎn)品及其標注評價等級的用戶評價信息。
進一步地,在上述實施例中,通過操作312獲得該用戶評述信息的評價等級后,可以對該用戶評述信息進行分析,總結(jié)該用戶評述信息的特征和評價等級,據(jù)此對語料包進行更新,并對更新后的語料包進行學(xué)習(xí),然后根據(jù) 學(xué)習(xí)結(jié)果對信息判斷模型進行更新,以便在后續(xù)爬取到具有同樣特征的用戶評述信息時,可以獲取到具有同樣特征的用戶評述信息的評價等級。
本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
圖4為本發(fā)明信息處理裝置一個實施例的結(jié)構(gòu)示意圖。該實施例的信息處理裝置可用于實現(xiàn)本發(fā)明上述各信息處理方法實施例。如圖4所示,該實施例的信息處理裝置包括獲取單元、標注單元和存儲處理單元。其中:
獲取單元,用于基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息。
本發(fā)明實施例中的指定產(chǎn)品例如可以是汽車、電動車、手機終端、房產(chǎn)等任意產(chǎn)品。在一個具體示例中,獲取單元可以具體利用網(wǎng)絡(luò)爬蟲,對第三方平臺網(wǎng)站的口碑專欄進行定向爬取,例如,指定產(chǎn)品為汽車時,分別針對口碑專欄里的車型、空間、動力、操控性、舒適度、外觀、內(nèi)飾、性價比、配置、油耗等任意一個或多個版塊中的用戶評述信息進行爬取,獲得用戶評述信息。
在另一個具體示例中,獲取單元具體可基于預(yù)先設(shè)置的爬取周期或用戶輸入的爬取指令,執(zhí)行基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息的操作。
標注單元,用于根據(jù)預(yù)先獲得的信息判斷模型,分別針對獲取單元爬取到的各用戶評述信息,獲取用戶評述信息對應(yīng)的評價等級并對用戶評論信息標注獲取到的評價等級。
存儲處理單元,用于在信息系統(tǒng)中存儲上述指定產(chǎn)品及其標注評價等級的用戶評價信息。
基于本發(fā)明上述實施例提供的信息處理裝置,基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品(例如但不限于汽車)的用戶評述信息;根據(jù)預(yù)先獲得的信息判斷模型,分別獲取各用戶評述信息對應(yīng)的評價等級并對其標注評價等級,之后,將標注評價等級的用戶評價信息匯總到信息系統(tǒng)中,通過信息系統(tǒng)全面收錄指定產(chǎn)品各種評價等級的用戶信息,形成了一個用戶口碑評價體系,使用戶從信息系統(tǒng)可以方便、全面地查詢產(chǎn)品各方面的口碑信息,為產(chǎn)品廠商、行業(yè)研究人員、消費者提供了諸多便利。
圖5為本發(fā)明信息處理裝置另一個實施例的結(jié)構(gòu)示意圖。如圖5所示,與圖4所示的實施例相比,該實施例的信息處理裝置還包括第一存儲單元,用于存儲上述預(yù)先設(shè)置的爬取規(guī)則,該爬取規(guī)則具體可以是基于用戶對互聯(lián)網(wǎng)上指定產(chǎn)品的用戶評述信息進行分析后設(shè)定的關(guān)鍵詞設(shè)置的爬取標準。其中的關(guān)鍵詞可以包括指定產(chǎn)品的指標參數(shù)。
另外,再參見圖5,在本發(fā)明信息處理裝置的又一個實施例中,還可以包括學(xué)習(xí)單元、第二存儲單元和第三存儲單元。其中:
學(xué)習(xí)單元,用于在檢測到新建語料包時,對新建語料包進行學(xué)習(xí),形成信息判斷模型;或者,在檢測到語料包被更新時,對更新后的語料包進行學(xué)習(xí),并對信息判斷模型進行更新;。其中,語料包基于對各種評價等級的特征的總結(jié)形成,該特征包括關(guān)鍵詞和/或關(guān)鍵句型。
第二存儲單元,用于存儲語料包。
第三存儲單元,用于存儲信息判斷模型。
在本發(fā)明上述各信息處理裝置實施例的一個具體示例中,標注單元具體可以獲取用戶評述信息中各特征對應(yīng)的評價等級,特征包括關(guān)鍵詞和/或關(guān)鍵句型;在用戶評述信息中包含同時對應(yīng)多個不同評價等級的無效特征時,去除同時對應(yīng)多個不同評價等級的無效特征,然后對用戶評述信息中特征去除無效特征后得到的各有效特征分別標注相應(yīng)的評價等級。
另外,再參見圖5,在本發(fā)明信息處理裝置的又一個實施例中,還可以 包括分類單元,用于根據(jù)分類要素對用戶評述信息進行分類,獲得用戶評述信息的類別。指定產(chǎn)品為汽車時,其中的分類要素例如可以是車型、空間、動力、操控性、舒適度、外觀、內(nèi)飾、性價比、配置與油耗中的任意一種或多種。相應(yīng)地,該實施例中,存儲處理單元具體根據(jù)用戶評述信息的類別,在信息系統(tǒng)中的相應(yīng)位置存儲上述指定產(chǎn)品及其標注評價等級的用戶評價信息。
再參見圖5,在本發(fā)明信息處理裝置的再一個實施例中,還可以包括判斷單元和交互單元。其中:
判斷單元,用于判斷標注單元是否獲取到用戶評述信息對應(yīng)的評價等級。
交互單元,用于根據(jù)判斷單元的判斷結(jié)果,在標注單元未獲取到用戶評述信息對應(yīng)的評價等級時,輸出未獲取到評價等級的用戶評述信息,并接收用戶針對未獲取到評價等級的用戶評述信息反饋的評價等級。
相應(yīng)地,標注單元對未獲取到評價等級的用戶評述信息標注交互單元接收到的、用戶反饋的評價等級。
本發(fā)明上述實施例的信息處理裝置包括處理器和存儲器,上述獲取單元、標注單元、存儲處理單元、第一存儲單元、學(xué)習(xí)單元、第二存儲單元、第三存儲單元、分類單元、判斷單元和交互單元等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應(yīng)的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上,通過調(diào)整內(nèi)核參數(shù)來全面收錄指定產(chǎn)品各種評價等級的用戶信息,形成一個用戶口碑評價體系,使用戶從信息系統(tǒng)可以方便、全面地查詢產(chǎn)品各方面的口碑信息。
存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flashRAM),存儲器包括至少一個存儲芯片。
本申請還提供了一種計算機程序產(chǎn)品,當在數(shù)據(jù)處理設(shè)備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息;根據(jù)預(yù)先獲得的信息判斷模型,分別針對爬取到的各用戶評述信息,獲取用戶評述信息對應(yīng)的評價等級并對用戶評論信息標注獲取到的評價等級;將標注評價等級的用戶評價信息存儲到信息系統(tǒng)中。
另外,本發(fā)明實施例還提供了一種信息系統(tǒng),用于存儲基于本發(fā)明上述任一信息處理方法或裝置標注評價等級后的用戶評價信息。該信息系統(tǒng)全面收錄了指定產(chǎn)品各種評價等級的用戶信息,形成了一個用戶口碑評價體系,使用戶從信息系統(tǒng)可以方便、全面地查詢產(chǎn)品各方面的口碑信息,為產(chǎn)品廠商、行業(yè)研究人員、消費者提供了諸多便利。
本發(fā)明實施例公開了以下技術(shù)方案:
1、一種信息處理方法,包括:
基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息;
根據(jù)預(yù)先獲得的信息判斷模型,分別針對爬取到的各用戶評述信息,獲取用戶評述信息對應(yīng)的評價等級并對用戶評論信息標注獲取到的評價等級;
在信息系統(tǒng)中存儲所述指定產(chǎn)品及其標注評價等級的用戶評價信息。
2、根據(jù)1所述的方法,還包括獲取所述爬取規(guī)則的操作;
所述爬取規(guī)則具體為基于用戶對互聯(lián)網(wǎng)上指定產(chǎn)品的用戶評述信息進行分析后設(shè)定的關(guān)鍵詞設(shè)置的爬取標準;所述關(guān)鍵詞包括指定產(chǎn)品的指標參數(shù)。
3、根據(jù)1或2所述的方法,所述從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息包括:
利用網(wǎng)絡(luò)爬蟲,對第三方平臺網(wǎng)站的口碑專欄里的任意一個或多個版塊進行定向爬取,獲得用戶評述信息;所述口碑專欄里的版塊包括:車型、空間、動力、操控性、舒適度、外觀、內(nèi)飾、性價比、配置、油耗。
4、根據(jù)1至3任意一項所述的方法,還包括:
響應(yīng)于檢測到新建語料包,對新建語料包進行學(xué)習(xí),形成所述信息判斷模型;所述語料包基于對各種評價等級的特征的總結(jié)形成,所述特征包括關(guān)鍵詞和/或關(guān)鍵句型;或者
響應(yīng)于檢測到語料包被更新,對更新后的語料包進行學(xué)習(xí),并對所述信息判斷模型進行更新。
5、根據(jù)1至4任意一項所述的方法,所述獲取用戶評述信息對應(yīng)的評價等級并對用戶評論信息標注獲取到的評價等級包括:
獲取用戶評述信息中各特征對應(yīng)的評價等級,所述特征包括關(guān)鍵詞和/或關(guān)鍵句型;
響應(yīng)于所述用戶評述信息中包含同時對應(yīng)多個不同評價等級的無效特征,去除同時對應(yīng)多個不同評價等級的無效特征;
對所述用戶評述信息中特征去除無效特征后得到的各有效特征分別標注相應(yīng)的評價等級。
6、根據(jù)1至5任意一項所述的方法,所述將標注評價等級的用戶評價信息存儲到信息系統(tǒng)中之前,還包括:
根據(jù)分類要素對用戶評述信息進行分類,獲得用戶評述信息的類別;所述指定產(chǎn)品為汽車時,所述分類要素包括車型、空間、動力、操控性、舒適度、外觀、內(nèi)飾、性價比、配置與油耗中的任意一種或多種;
所述在信息系統(tǒng)中存儲所述指定產(chǎn)品及其標注評價等級的用戶評價信息包括:根據(jù)用戶評述信息的類別,在信息系統(tǒng)中的相應(yīng)位置存儲所述指定產(chǎn)品及其標注評價等級的用戶評價信息。
7、根據(jù)1至6任意一項所述的方法,所述獲取用戶評述信息對應(yīng)的評價等級之后,還包括:
判斷是否獲取到用戶評述信息對應(yīng)的評價等級;
響應(yīng)于獲取到用戶評述信息對應(yīng)的評價等級,執(zhí)行所述對用戶評論信息 標注獲取到的評價等級的操作;
否則,響應(yīng)于未獲取到用戶評述信息對應(yīng)的評價等級,輸出未獲取到評價等級的用戶評述信息,并接收用戶針對未獲取到評價等級的用戶評述信息反饋的評價等級;對未獲取到評價等級的用戶評述信息標注用戶反饋的評價等級。
8、根據(jù)1至7任意一項所述的方法,基于預(yù)先設(shè)置的爬取周期或用戶輸入的爬取指令,執(zhí)行所述基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息的操作。
9、一種信息處理裝置,包括:
獲取單元,用于基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息;
標注單元,用于根據(jù)預(yù)先獲得的信息判斷模型,分別針對爬取到的各用戶評述信息,獲取用戶評述信息對應(yīng)的評價等級并對用戶評論信息標注獲取到的評價等級;
存儲處理單元,用于在信息系統(tǒng)中存儲所述指定產(chǎn)品及其標注評價等級的用戶評價信息。
10、根據(jù)9所述的裝置,還包括:
第一存儲單元,用于存儲所述爬取規(guī)則;所述爬取規(guī)則具體為基于用戶對互聯(lián)網(wǎng)上指定產(chǎn)品的用戶評述信息進行分析后設(shè)定的關(guān)鍵詞設(shè)置的爬取標準;所述關(guān)鍵詞包括指定產(chǎn)品的指標參數(shù)。
11、根據(jù)9或10所述的裝置,所述獲取單元,具體利用網(wǎng)絡(luò)爬蟲,對第三方平臺網(wǎng)站的口碑專欄里的任意一個或多個版塊進行定向爬取,獲得用戶評述信息;所述口碑專欄里的版塊包括:車型、空間、動力、操控性、舒適度、外觀、內(nèi)飾、性價比、配置、油耗。
12、根據(jù)9至11任意一項所述的裝置,還包括:
學(xué)習(xí)單元,用于在檢測到新建語料包時,對新建語料包進行學(xué)習(xí),形成 所述信息判斷模型;所述語料包基于對各種評價等級的特征的總結(jié)形成,所述特征包括關(guān)鍵詞和/或關(guān)鍵句型;或者,在檢測到語料包被更新時,對更新后的語料包進行學(xué)習(xí),并對所述信息判斷模型進行更新;
第二存儲單元,用于存儲語料包;
第三存儲單元,用于存儲信息判斷模型。
13、根據(jù)9至12任意一項所述的裝置,所述標注單元,具體用于:
獲取用戶評述信息中各特征對應(yīng)的評價等級,所述特征包括關(guān)鍵詞和/或關(guān)鍵句型;
響應(yīng)于所述用戶評述信息中包含同時對應(yīng)多個不同評價等級的無效特征,去除同時對應(yīng)多個不同評價等級的無效特征;
對所述用戶評述信息中特征去除無效特征后得到的各有效特征分別標注相應(yīng)的評價等級。
14、根據(jù)9至13任意一項所述的裝置,還包括:
分類單元,用于在存儲處理單元將標注評價等級的用戶評價信息存儲到信息系統(tǒng)中之前,根據(jù)分類要素對用戶評述信息進行分類,獲得用戶評述信息的類別;所述指定產(chǎn)品為汽車時,所述分類要素包括車型、空間、動力、操控性、舒適度、外觀、內(nèi)飾、性價比、配置與油耗中的任意一種或多種;
所述存儲處理單元,具體根據(jù)用戶評述信息的類別,信息系統(tǒng)中的相應(yīng)位置存儲所述指定產(chǎn)品及其標注評價等級的用戶評價信息。
15、根據(jù)9至14任意一項所述的裝置,還包括:
判斷單元,用于判斷所述標注單元是否獲取到用戶評述信息對應(yīng)的評價等級;
交互單元,用于根據(jù)所述判斷單元的判斷結(jié)果,在所述標注單元未獲取到用戶評述信息對應(yīng)的評價等級時,輸出未獲取到評價等級的用戶評述信息,并接收用戶針對未獲取到評價等級的用戶評述信息反饋的評價等級;
所述標注單元對未獲取到評價等級的用戶評述信息標注用戶反饋的評價 等級。
16、根據(jù)9至15任意一項所述的裝置,所述獲取單元,基于預(yù)先設(shè)置的爬取周期或用戶輸入的爬取指令,執(zhí)行所述基于預(yù)先設(shè)置的爬取規(guī)則,從互聯(lián)網(wǎng)爬取指定產(chǎn)品的用戶評述信息的操作。
本說明書中各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其它實施例的不同之處,各個實施例之間相同或相似的部分相互參見即可。對于裝置、系統(tǒng)實施例而言,由于其與方法實施例基本對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
可能以許多方式來實現(xiàn)本發(fā)明的方法、裝置和系統(tǒng)。例如,可通過軟件、硬件、固件或者軟件、硬件、固件的任何組合來實現(xiàn)本發(fā)明的方法、裝置和系統(tǒng)。用于所述方法的步驟的上述順序僅是為了進行說明,本發(fā)明的方法的步驟不限于以上具體描述的順序,除非以其它方式特別說明。此外,在一些實施例中,還可將本發(fā)明實施為記錄在記錄介質(zhì)中的程序,這些程序包括用于實現(xiàn)根據(jù)本發(fā)明的方法的機器可讀指令。因而,本發(fā)明還覆蓋存儲用于執(zhí)行根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。
本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實施例是為了更好說明本發(fā)明的原理和實際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計適于特定用途的帶有各種修改的各種實施例。