亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法及系統(tǒng)與流程

文檔序號(hào):12719588閱讀:243來源:國知局
一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法及系統(tǒng)與流程

本發(fā)明涉及一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法及系統(tǒng)。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)無時(shí)無刻地不在影響著人們的生產(chǎn)、生活乃至社會(huì)發(fā)展。根據(jù)IDC(網(wǎng)絡(luò)數(shù)據(jù)中心)預(yù)測,全球數(shù)據(jù)的額總量每兩年就增加一倍,估計(jì)到2020年會(huì)達(dá)到35ZB,而且絕大部分?jǐn)?shù)據(jù)具有非結(jié)構(gòu)或半結(jié)構(gòu)化的特點(diǎn),人們對大數(shù)據(jù)的關(guān)注程度也日益升高。

同時(shí),互聯(lián)網(wǎng)的發(fā)展也帶動(dòng)了以微博為主導(dǎo)的社交媒體的迅猛發(fā)展,不論是國外以Twitter為代表的社交媒體,還是國內(nèi)以騰訊微博和新浪微博為代表社交媒體,其用戶都在不斷增長。如此巨大的用戶基數(shù),產(chǎn)生了巨大的數(shù)據(jù),而這些數(shù)據(jù)蘊(yùn)含著巨大的價(jià)值。網(wǎng)絡(luò)社交文本大數(shù)據(jù)呈現(xiàn)出數(shù)量巨大、增長速度快、結(jié)構(gòu)多樣化等特點(diǎn),傳統(tǒng)的數(shù)據(jù)處理方式是總體中抽取樣本來進(jìn)行有關(guān)領(lǐng)域的分析,這樣分析出來的結(jié)果并不是對真實(shí)數(shù)據(jù)的描述,只有采用新的數(shù)據(jù)處理方式才能獲得大數(shù)據(jù)更加全面有效的信息。正如前文所述,微博文本數(shù)據(jù)也有非結(jié)構(gòu)化或半結(jié)構(gòu)化的特點(diǎn),將其結(jié)構(gòu)化處理對數(shù)據(jù)價(jià)值發(fā)掘具有重大意義。

早期對于大數(shù)據(jù)的處理由于受到計(jì)算機(jī)硬件及技術(shù)的影響發(fā)展緩慢,巨大的信息資源并沒有完全被發(fā)掘出來。目前的關(guān)于大數(shù)據(jù)的研究主要集中在云計(jì)算、視覺分析、數(shù)據(jù)挖掘等方面,大數(shù)據(jù)的處理技術(shù)中的分布式計(jì)算在大型集群中的簡化數(shù)據(jù)處理技術(shù),該技術(shù)需要通過計(jì)算機(jī)相互連接組成分散系統(tǒng),比較復(fù)雜,技術(shù)實(shí)現(xiàn)較為困難。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的就是為了解決上述問題,提供一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法及系統(tǒng),本發(fā)明技術(shù)提出相應(yīng)的網(wǎng)絡(luò)社交文本非結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)如何轉(zhuǎn)化為結(jié)構(gòu)性的數(shù)據(jù),對網(wǎng)絡(luò)社交文本大數(shù)據(jù)分析價(jià)值的挖掘,以及網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理的方法與技術(shù)。采用集中式計(jì)算的方法,將半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),本發(fā)明主要是對半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行處理,通過對有代表性的樣本微博中抽取相關(guān)的心理品質(zhì)關(guān)鍵詞,通過人工評判與問卷調(diào)查來刪減詞匯,構(gòu)建某種心理品質(zhì)的用戶詞典?;谀:ヅ浼皺?quán)重設(shè)置(程度級別詞語與否定詞)對微博文本消息中的關(guān)鍵詞進(jìn)行頻數(shù)統(tǒng)計(jì)。

為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:

一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理方法,包括:

步驟(1):網(wǎng)絡(luò)社交文本大數(shù)據(jù)的獲取:在新浪微博開放平臺(tái)上獲取新浪微博用戶的微博文本,由于微博文本數(shù)據(jù)存儲(chǔ)空間大以及為了保證大數(shù)據(jù)的獲取速度,從網(wǎng)上下載了文本壓縮文件;然后對文本壓縮文件解壓縮處理得到包含微博數(shù)據(jù)的txt文件,對包含微博數(shù)據(jù)的txt文件進(jìn)行數(shù)據(jù)信息初步的提?。?/p>

步驟(2):用戶詞典的構(gòu)建:從微博數(shù)據(jù)中篩選符合待研究心里品質(zhì)的詞匯,對該詞匯進(jìn)行預(yù)處理,根據(jù)預(yù)處理后的詞匯編制調(diào)查問卷,根據(jù)調(diào)查問卷的問卷題目篩選結(jié)果,構(gòu)建用戶詞典;

步驟(3):將微博文本消息與用戶詞典中的關(guān)鍵詞進(jìn)行模糊匹配,對關(guān)鍵詞詞頻進(jìn)行統(tǒng)計(jì):

步驟(31):根據(jù)微博發(fā)布的時(shí)間點(diǎn)來劃分微博片段,同時(shí)將用戶詞典中待匹配的關(guān)鍵詞分解為單個(gè)字;

步驟(32):判斷關(guān)鍵詞當(dāng)中的每一個(gè)字是否均在微博片段的文本消息中出現(xiàn)一次,若是,則關(guān)鍵詞詞頻加一;若不是則關(guān)鍵詞詞頻不變;對所有微博片段進(jìn)行分析,找出用戶詞典中的各個(gè)關(guān)鍵詞在每個(gè)月份的詞頻。

統(tǒng)計(jì)每個(gè)月份含有各個(gè)關(guān)鍵詞的頻數(shù),以csv文件格式進(jìn)行保存;詞頻統(tǒng)計(jì)csv文件的第一列是關(guān)鍵詞,第一行是含有該關(guān)鍵詞的月份。

根據(jù)各個(gè)關(guān)鍵詞在每個(gè)月份的詞頻,判斷被研究人員的待研究心理品質(zhì)。

若某個(gè)微博片段中含有多個(gè)關(guān)鍵詞,則該微博片段的內(nèi)容會(huì)同時(shí)與不同關(guān)鍵詞進(jìn)行模糊匹配。

由于微博文本中的程度級別詞語和否定詞會(huì)影響到關(guān)鍵詞的模糊匹配,將程度級別詞語設(shè)置不同的權(quán)重;沒有出現(xiàn)程度級別詞語的權(quán)值記為1;否定詞權(quán)重奇數(shù)次出現(xiàn)記為-1,偶數(shù)次出現(xiàn)記為1;每個(gè)關(guān)鍵詞的詞頻=程度級別詞語權(quán)值*否定詞權(quán)重+名詞詞頻。

所述步驟(1)中進(jìn)行數(shù)據(jù)信息初步的提取是指采用文本遍歷和文本過濾的方法過濾掉無用的信息,保留有用的信息,將有用的信息另存為txt文件。

所述無用的信息包括:網(wǎng)絡(luò)連接或表情符號(hào);

所述有用的信息包括:用戶創(chuàng)建微博的時(shí)間、省份、微博內(nèi)容以及用戶性別。

將程度詞分為四個(gè)等級并賦予相應(yīng)權(quán)重(2,1.75,1.5,0.5)。

所述步驟(2)的步驟為:

步驟(21):確定待研究心理品質(zhì)的維度;待研究心理品質(zhì)指的是使用者的所研究的心理主題,待研究心理品質(zhì)包括:生涯適應(yīng)力或大五人格;

步驟(22):從微博排名前設(shè)定個(gè)數(shù)的用戶的原創(chuàng)微博的微博文本內(nèi)容中抽取符合待研究心理品質(zhì)的詞匯;抽取的詞匯必須包括名詞和趨勢詞;所述趨勢詞是指能表述事物發(fā)展動(dòng)向的詞,對抽取的詞匯進(jìn)行匯總整理,刪除重復(fù)詞匯,對含同義詞或近義詞進(jìn)行合并處理;

步驟(23):問卷編制:問卷包括若干個(gè)題目,每個(gè)題目包括五個(gè)選項(xiàng);每個(gè)題目對應(yīng)一個(gè)待研究的心理品質(zhì)維度;將合并處理的詞作為題目,一個(gè)詞匯對應(yīng)一個(gè)題目,隨機(jī)抽取人群作為被試人員,問卷采用Likert 5點(diǎn)計(jì)分,從非常同意"、"同意"、"不一定"、"不同意"到"非常不同意"五種選項(xiàng),分別記為5、4、3、2、1分;被試人員對某個(gè)題目的選項(xiàng)越集中,說明該題目對應(yīng)的詞匯越具有代表性。按照集中程度來進(jìn)行問卷題目的刪除:計(jì)算問卷中每個(gè)題目中各個(gè)選項(xiàng)的百分比,參考一致性系數(shù)的數(shù)值標(biāo)準(zhǔn),保留單個(gè)選項(xiàng)百分比大于等于60%和兩個(gè)選項(xiàng)百分比之和大于等于60%或且相鄰三個(gè)選項(xiàng)中兩兩相鄰選項(xiàng)百分比不能同時(shí)大于等于60%的詞匯;

步驟(24):形成用戶詞典;按照步驟(23)的按照集中程度來進(jìn)行問卷題目的刪除方法,刪除被試人員難以達(dá)成一致的詞匯,保留被試人員能達(dá)成一致的詞匯,構(gòu)成了最終的待研究心理品質(zhì)的用戶詞典,保留被試人員能達(dá)成一致的詞匯就是用戶詞典的關(guān)鍵詞;所述用戶詞典的關(guān)鍵詞個(gè)數(shù)人為設(shè)定。

例如:對于研究消費(fèi)者信心指數(shù)來說,我們尋找工薪階層,具有一定的購買力,請被試人員評價(jià)這些詞匯在多大程度上符合他對當(dāng)前(或未來一年)相關(guān)經(jīng)濟(jì)狀況的看法。

一種基于用戶詞典的網(wǎng)絡(luò)社交文本大數(shù)據(jù)處理系統(tǒng),包括:

網(wǎng)絡(luò)社交文本大數(shù)據(jù)的獲取單元:在新浪微博開放平臺(tái)上獲取新浪微博用戶的微博文本,由于微博文本數(shù)據(jù)存儲(chǔ)空間大以及為了保證大數(shù)據(jù)的獲取速度,從網(wǎng)上下載了文本壓縮文件;然后對文本壓縮文件解壓縮處理得到包含微博數(shù)據(jù)的txt文件,對包含微博數(shù)據(jù)的txt文件進(jìn)行數(shù)據(jù)信息初步的提取;

用戶詞典的構(gòu)建單元,用于從微博數(shù)據(jù)中篩選符合待研究心里品質(zhì)的詞匯,對該詞匯進(jìn)行預(yù)處理,根據(jù)預(yù)處理后的詞匯編制調(diào)查問卷,根據(jù)調(diào)查問卷的問卷題目篩選結(jié)果,構(gòu)建用戶詞典;

微博文本消息中的關(guān)鍵詞模糊匹配,關(guān)鍵詞詞頻統(tǒng)計(jì)單元:

根據(jù)微博發(fā)布的時(shí)間點(diǎn)來劃分微博片段,將用戶詞典中待匹配的關(guān)鍵詞分解為單個(gè)字,

判斷關(guān)鍵詞當(dāng)中的每一個(gè)字是否均在微博片段的文本消息中出現(xiàn)一次,若是,則關(guān)鍵詞詞頻加一;若不是則關(guān)鍵詞詞頻不變;

對所有微博片段進(jìn)行分析,找出用戶詞典中的各個(gè)關(guān)鍵詞在每個(gè)月份的詞頻。

本發(fā)明的有益效果為:

1、將半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),具體的來說是二維的數(shù)據(jù)結(jié)構(gòu),轉(zhuǎn)換數(shù)據(jù)結(jié)構(gòu)之后更加地便于對數(shù)據(jù)進(jìn)行分析;

2、基于大數(shù)據(jù)來對數(shù)據(jù)的總體進(jìn)行分析,全面進(jìn)行描述真實(shí)的數(shù)據(jù),克服了傳統(tǒng)數(shù)據(jù)分析的一些弊端,例如:用樣本估計(jì)總體,難以描述客觀的世界,處理的誤差小于傳統(tǒng)數(shù)據(jù)等。

3、微博數(shù)據(jù)可以實(shí)時(shí)地被獲取到,經(jīng)過此種處理的方法速度快,經(jīng)過處理過后得到的數(shù)據(jù)具有時(shí)效性;

4、大數(shù)據(jù)處理過程簡潔,一臺(tái)計(jì)算機(jī)就可以處理,無需構(gòu)建計(jì)算機(jī)集群。

附圖說明

圖1是用戶詞典構(gòu)建的過程;

圖2是程序處理的過程。

具體實(shí)施方式

下面結(jié)合附圖與實(shí)施例對本發(fā)明作進(jìn)一步說明。

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

如圖1-2所示,整個(gè)數(shù)據(jù)處理的過程主要分為用戶詞典構(gòu)建,否定詞的獲取,程度級別詞語的獲取,程序處理。

為了保證所選詞匯具有代表性,選取相關(guān)研究心理品質(zhì)領(lǐng)域的熱門微博排名前50位博主與前10位媒體的所有原創(chuàng)微博(剔除轉(zhuǎn)發(fā)以及圖片、視頻、音頻等),從這些微博信息中篩選符合相關(guān)研究心理品質(zhì)的詞匯。

必須和相關(guān)研究心理品質(zhì)的詞匯,或者屬于某個(gè)心理品質(zhì)維度的詞匯。例如,基于消費(fèi)者信心指數(shù)的理論維度,篩選的詞匯必須與經(jīng)濟(jì)有關(guān),并且屬于或類屬于消費(fèi)者滿意指數(shù)與消費(fèi)者預(yù)期指數(shù)以及滿意指數(shù)的七個(gè)維度;要求篩選的詞匯是實(shí)質(zhì)詞和趨勢詞的組合(例如:股票上漲)。滿意指數(shù)的七個(gè)維度包括:經(jīng)濟(jì)形勢、利率、物價(jià)、消費(fèi)、就業(yè)、收入、生活質(zhì)量水平。

在Excel表格內(nèi)匯總篩選出的全部詞匯→刪除重復(fù)詞匯→為保證詞匯的普適性和代表性,根據(jù)各個(gè)詞匯在微博的搜索量,刪除搜索頻次在1000以下的詞匯→通過小組評定、專家評定等方式(按照少數(shù)服從多數(shù)的原則)合并意義相近或相似的詞匯(如股票上漲,股價(jià)上漲)。

將匯總的詞匯分到若干個(gè)所研究的心理品質(zhì)維度中,隨機(jī)抽取符合研究人群作為被試若干名(視情況而定),請被試評價(jià)這些詞匯在多大程度上符合他對當(dāng)前(或未來一年)相關(guān)經(jīng)濟(jì)狀況的看法。問卷采用Likert 5點(diǎn)計(jì)分,從“1-完全不符合”到“5-完全符合”。

與傳統(tǒng)問卷不同,用戶詞典問卷旨在考察我們刪選出的目標(biāo)詞的有效性。例如,每個(gè)選項(xiàng)代表的是被試對該目標(biāo)詞能否代表現(xiàn)在或未來經(jīng)濟(jì)形勢的看法。因此,被試對某個(gè)目標(biāo)詞的選項(xiàng)越集中,說明他們對這個(gè)目標(biāo)詞的看法越接近,即這個(gè)目標(biāo)詞越具有代表性。計(jì)算每個(gè)詞匯各個(gè)選項(xiàng)的百分比,參考一致性系數(shù)的數(shù)值標(biāo)準(zhǔn)(>0.6),保留單個(gè)選項(xiàng)百分比大于等于60%和相鄰兩個(gè)選項(xiàng)百分比之和大于等于60%且相鄰三個(gè)選項(xiàng)中兩兩相鄰選項(xiàng)百分比不能同時(shí)大于等于60%的詞匯。按照集中程度來進(jìn)行刪除問卷題目。

按照以上刪題標(biāo)準(zhǔn),共刪除被試難以達(dá)成一致的詞匯,保留被試較能達(dá)成一致的詞匯,構(gòu)成了最終的相關(guān)研究心理品質(zhì)的用戶詞典。

文本消息中的關(guān)鍵詞模糊匹配包括:基于程序出現(xiàn)目標(biāo)詞的每一個(gè)字,則次數(shù)算一次。例:“利率終于下降了”則算“利率下降”關(guān)鍵詞出現(xiàn)一次。對所有微博片段進(jìn)行分析,找出每個(gè)月份含有各個(gè)關(guān)鍵詞的微博片段,若某個(gè)片段中含有多個(gè)關(guān)鍵詞詞,則這條微博內(nèi)容會(huì)同時(shí)保留在不同關(guān)鍵詞相應(yīng)的文件中。統(tǒng)計(jì)每個(gè)月份含有各個(gè)關(guān)鍵詞的頻數(shù),以csv文件格式進(jìn)行保存。

在Excel表格內(nèi)匯總篩選出的全部詞匯、刪除重復(fù)詞匯,為保證詞匯的普適性和代表性,根據(jù)各個(gè)詞匯在新浪微博的搜索量,刪除搜索頻次在1000以下的詞匯→通過小組評定、專家評定等方式(按照少數(shù)服從多數(shù)的原則)合并意義相近或相似的詞匯。

獲得新浪微博用戶2009年8月-2012年9月的微博文本。共包括10個(gè)文件夾,每個(gè)文件夾包括多個(gè)壓縮包,壓縮包以weibo_datas_XX_XX.rar命名。每個(gè)壓縮包解壓縮之后可以找到名為“SinaNormalRobot”的文件夾,內(nèi)含“Status”文件夾,打開“Status”即可看到多個(gè).txt格式的文本文件,每個(gè)文本文件均包括多條微博內(nèi)容及其相關(guān)信息。共計(jì)207個(gè)壓縮包,總文件大小約580G。在分析之初,利用Python編程調(diào)用電腦的WinRar解壓縮軟件對文件進(jìn)行自動(dòng)解壓,因此,要求電腦里安裝了WinRar解壓縮軟件,并將winrar.exe的路徑添加至系統(tǒng)環(huán)境變量PATH中。

首先利用Python編程對微博文本進(jìn)行批處理,遍歷所有文本,過濾文本中的無用信息,保留用戶的基本信息、發(fā)表時(shí)間和微博正文等有用信息,將過濾后的信息保存為txt文件,微博原始數(shù)據(jù)形式及過濾后的微博數(shù)據(jù)形式。之后的頻數(shù)分析均在過濾后的微博文本基礎(chǔ)上進(jìn)行。

微博消息最多只有140字的短文本信息,由于一條微博可能含有多個(gè)文本片段,每個(gè)片段中都有可能包括一個(gè)或多個(gè)關(guān)鍵詞詞,以“,”、“?!?、“!”、“?”、“;”等標(biāo)點(diǎn)符號(hào)作為微博片段分割的依據(jù),利用Python編程將每條過濾后的微博文本分割為n個(gè)片段S1、S2、S3……Sn,在存儲(chǔ)微博文本片段時(shí)采用一個(gè)一行的方式。

在分割后的每個(gè)微博片段中,若同時(shí)出現(xiàn)目標(biāo)詞的每一個(gè)字,則次數(shù)算一次。例:“房子價(jià)格上漲的真厲害”,同時(shí)出現(xiàn)關(guān)鍵詞中的每一個(gè)字“房”、“價(jià)”、“上”和“漲”;則算“房價(jià)上漲”目標(biāo)詞出現(xiàn)一次。對所有微博片段進(jìn)行分析,找出每個(gè)月份含有各個(gè)目標(biāo)詞的微博片段,若某個(gè)片段中含有多個(gè)目標(biāo)詞,則這條微博內(nèi)容會(huì)同時(shí)保留在不同目標(biāo)詞相應(yīng)的文件中。統(tǒng)計(jì)每個(gè)月份含有各個(gè)目標(biāo)詞的頻數(shù),以csv格式進(jìn)行保存。關(guān)鍵詞包括名詞和趨勢動(dòng)詞。

知網(wǎng)(HowNet,www.keenage.com)在其官網(wǎng)發(fā)布了“情感分析用詞語集(beta版)”,共有12個(gè)文件。其中“中文情感分析用詞語集”與“英文情感分析用詞語集”各為6個(gè),一共包含詞語17887個(gè)。采用知網(wǎng)情感詞典中的“中文程度級別詞語”,共219詞。根據(jù)“中文程度級別詞語”已有的情感強(qiáng)弱標(biāo)注,將“極其|extreme/最|most”與“超|over”合并為“極量”;“很|very”為“高量”;“較|more”為“中量”;“稍|-ish”與“欠|insufficiently”合并為“低量”,并分別賦予這四個(gè)等級相應(yīng)的權(quán)值(2,1.75,1.5,0.5)(見表1)。參考多篇文獻(xiàn)使用的否定詞情況,單獨(dú)構(gòu)建了一個(gè)否定詞詞庫(見表2),共包括49個(gè)詞匯,并將權(quán)重設(shè)置為-1,程度級別詞語庫仍采用上面介紹的219個(gè)詞匯。

表1程度級別詞語詞庫

表2否定詞詞庫

實(shí)際應(yīng)用中,含有目標(biāo)詞的微博片段存在兩種情況,即可能包含程度級別詞語,也可能沒有包含程度級別詞語。若某條微博片段中沒有搜索到程度級別詞語,則該微博片段仍記為1。若搜索到某個(gè)程度級別詞語,則記為該程度級別詞語的相應(yīng)權(quán)重(如:在某條微博片段中搜索到一個(gè)“最”,則該微博片段記為2;搜索到一個(gè)“最”,一個(gè)“不過”,則該微博片段記為3.75)。最后把所有微博片段的值相加,得到一個(gè)數(shù),這個(gè)數(shù)就是某個(gè)目標(biāo)詞在某個(gè)月份上的頻數(shù)。

每個(gè)用戶的詞頻=程度級別詞語權(quán)值*否定詞權(quán)重,詞頻為微博用戶在該月發(fā)布的內(nèi)容出現(xiàn)關(guān)鍵詞的累加。

Python程序分為兩個(gè)部分,第一部分進(jìn)行模糊匹配統(tǒng)計(jì)出每個(gè)月的用戶微博內(nèi)容中出現(xiàn)的關(guān)鍵詞頻數(shù),其核心是采用遍歷的方法處理數(shù)據(jù),其中包括遍歷文件夾與文件,遍歷文本,遍歷字符串,以達(dá)到匹配、處理數(shù)據(jù)的目的。第二部分基于第一部分執(zhí)行完之后再進(jìn)行執(zhí)行,依舊進(jìn)行遍歷的算法來進(jìn)行加權(quán),加權(quán)后生成三種不同文件名的csv,分別為無權(quán)重?zé)o權(quán)值、有權(quán)重?zé)o權(quán)值、有權(quán)重有權(quán)值。最后在將三種文件的數(shù)據(jù)進(jìn)行不同算法的處理,整合到總的數(shù)據(jù)處理結(jié)果的csv文件中。用戶詞典、程度級別詞語詞庫與否定詞詞庫都存儲(chǔ)在txt文件中,格式為一行一個(gè),便于python程序讀取并保存在列表中。

上述雖然結(jié)合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行了描述,但并非對本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動(dòng)即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1