海量文本中企業(yè)行為或事件的抽取方法與流程

文檔序號：11063576閱讀：324來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域，特別涉及一種海量文本中企業(yè)行為或事件的抽取方法。
背景技術(shù)：
：隨著信息技術(shù)和計算機(jī)科學(xué)的飛速發(fā)展，社交媒體(又稱社會化媒體)展示出巨大的潛力，以微博為例，普通用戶可以在平臺上進(jìn)行關(guān)注、點贊、分享、轉(zhuǎn)發(fā)等行為，而許多企業(yè)更是充分利用官方微博進(jìn)行信息發(fā)布、營銷推廣、粉絲互動等，從海量數(shù)據(jù)中挖掘商業(yè)信息，從而制定出更好的商業(yè)策略，同時企業(yè)的官方微博也包含了企業(yè)的相關(guān)行為信息，這些行為信息同樣具有潛在的商業(yè)價值和應(yīng)用研究價值，因此從海量數(shù)據(jù)中提取企業(yè)行為信息并將這些應(yīng)用到商業(yè)領(lǐng)域是一件非常有意義的研究主題。最近幾年，越來越多的企業(yè)利用社交媒體平臺發(fā)布、獲取信息，以及溝通、合作、建立關(guān)系，同時也有很多學(xué)者研究企業(yè)微博，然而，大多數(shù)學(xué)者關(guān)注于企業(yè)微博的商業(yè)價值、企業(yè)微博的營銷推廣對用戶的影響、以及影響企業(yè)營銷的因素；僅僅少數(shù)的學(xué)者通過數(shù)據(jù)挖掘提取企業(yè)行為，但是選擇分類方法效果并不理想。由于微博提供了豐富的、及時的企業(yè)微博信息，這也可用于研究企業(yè)微博信息與企業(yè)當(dāng)前情況的影響關(guān)系，同時，這些組織的企業(yè)行為信息可以用于商業(yè)戰(zhàn)略制定、粉絲關(guān)系維系以及預(yù)測企業(yè)未來方向等，比如，趨勢預(yù)測、內(nèi)容推薦等。然而，在虛擬的社交媒體中確定企業(yè)事件，提取企業(yè)行為，仍然存在一些挑戰(zhàn)，主要包括以下兩個問題，第一，數(shù)據(jù)存在噪音、且形式種類多樣；第二，許多信息摻雜多個主題，分類器難以確定標(biāo)簽。技術(shù)實現(xiàn)要素：【要解決的技術(shù)問題】本發(fā)明的目的是提供一種海量文本中企業(yè)行為或事件的抽取方法，以有效的從海量數(shù)據(jù)中提取企業(yè)的行為標(biāo)簽。【技術(shù)方案】本發(fā)明是通過以下技術(shù)方案實現(xiàn)的。本發(fā)明涉及一種海量文本中企業(yè)行為或事件的抽取方法，其包括以下步驟：A、數(shù)據(jù)預(yù)處理從網(wǎng)絡(luò)中獲取目標(biāo)數(shù)據(jù)，并將這些數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理形成數(shù)據(jù)集；B、詞表征將預(yù)處理形成的數(shù)據(jù)集中的單詞映射到k維的空間向量中，k為預(yù)設(shè)的維度范圍；C、事件向量計算從預(yù)處理后的數(shù)據(jù)集中抽取動詞序列，計算所有動詞序列的平均詞向量，人工標(biāo)注若干條種子標(biāo)簽，計算同一標(biāo)簽相同事件的平均種子向量；D、事件提取分類通過計算剩余數(shù)據(jù)集和事件向量的相似度來確定每一條微博數(shù)據(jù)記錄的分類。作為一種優(yōu)選的實施方式，所述步驟B將預(yù)處理后形成的數(shù)據(jù)集放入word2vec模型中訓(xùn)練得到k維空間向量。作為另一種優(yōu)選的實施方式，所述步驟C中采用cosine相似度計算法計算剩余數(shù)據(jù)集和事件向量的相似度。作為另一種優(yōu)選的實施方式，所述步驟A中的預(yù)處理至少包括分詞處理和數(shù)據(jù)清理。作為另一種優(yōu)選的實施方式，所述分詞處理包括通過文本中的句號、問號和感嘆號進(jìn)行文本切分。作為另一種優(yōu)選的實施方式，所述數(shù)據(jù)清理包括刪除一字詞、停用詞、以及刪除重復(fù)的記錄。作為另一種優(yōu)選的實施方式，所述步驟A中的目標(biāo)數(shù)據(jù)采用爬蟲技術(shù)爬取得到。下面將對本發(fā)明進(jìn)行詳細(xì)說明。企業(yè)的官方微博通過社交媒體平臺發(fā)布相關(guān)信息，這些企業(yè)的微博記錄大部分都包含了企業(yè)的事件。由于微博的140字的長度限制(現(xiàn)已取消)，本發(fā)明假設(shè)每一條微博記錄最多包含一類事件，即假設(shè)企業(yè)行為事件有n類，表示為E＝{e1,e2,…,en}式(1)在上述這些事件中，第i類事件都能被一組向量表示，即表示為ei＝(vi1,vi2,…,vim).式(2)在本發(fā)明中，目標(biāo)是提供一個能夠自動提取企業(yè)事件的模型框架，這些企業(yè)事件信息被隱含在企業(yè)的官方微博中，即表示為Weibo＝{weibo1,weibo2,…,weibol}，因此，本發(fā)明需要解決的問題是，如何確定一篇新的微博文章weiboi屬于E中的哪一類行為事件。為了解決上述問題，本發(fā)明提供的方法主要包括如下四個部分：數(shù)據(jù)預(yù)處理、詞表征訓(xùn)練、事件聚類、事件識別。數(shù)據(jù)預(yù)處理是將微博爬取的數(shù)據(jù)集進(jìn)行分詞、刪除一字詞停用詞以及數(shù)據(jù)清理。詞表征訓(xùn)練，將詞當(dāng)做特征，用Word2vec把特征訓(xùn)練位高維空間向量。計算事件向量，利用種子數(shù)據(jù)集和動詞詞向量進(jìn)行每一事件類型的向量計算。最后，利用分類器將剩余數(shù)據(jù)集進(jìn)行分類。下面分別對上述四個部分進(jìn)行介紹。(一)數(shù)據(jù)預(yù)處理由于微博數(shù)據(jù)具有強(qiáng)噪音和模糊性，且數(shù)據(jù)類型多樣等特點，因此，數(shù)據(jù)預(yù)處理是實驗過程中非常重要的一個步驟，這里包括了3個預(yù)處理步驟：爬取微博數(shù)據(jù)、分詞處理、數(shù)據(jù)清理。爬取微博數(shù)據(jù)。對于這個環(huán)節(jié)，爬取的對象可以是國產(chǎn)手機(jī)市場占有率前十的企業(yè)的官方微博(華為、小米、魅族、中興、聯(lián)想、酷派、OPPO、VIVO、HTC、TCL)，除此之外，很多工具都可以用于在開發(fā)信息網(wǎng)絡(luò)下的數(shù)據(jù)爬取。分詞處理。由于中文不像英文，每個詞都是自動分開，所以需要對文檔進(jìn)行分詞處理，這樣可以確定詞的詞性，也便于后續(xù)實驗的進(jìn)行，在分詞之后，微博記錄集被表示為Weiboi＝{wi1,wi2,…,wik}式(3)數(shù)據(jù)清理。由于中文文本中經(jīng)常包含大量無意義的詞，所以非常有必要進(jìn)行數(shù)據(jù)清理。數(shù)據(jù)清理是發(fā)生在分詞之后，這個過程主要包括刪除一字詞、停用詞、以及刪除重復(fù)的記錄，以便于獲得更好是抽取結(jié)果。最后wij表示文檔weiboi中在數(shù)據(jù)預(yù)處理后第j個位置上的詞，而爬取的所有文檔形成的數(shù)據(jù)集則用weibos表示。(二)詞表征對于詞表征WE，即即表示，將wi單詞映射到k維空間向量(維度范圍：50—500)，近年來很多研究提供了大量的詞表征實現(xiàn)方法，尤其是Mikolov發(fā)表的CBOW模型(ContinuousBag-of-WordModel)和Skip-gram模型(ContinuousSkip-gramModel)。具體地，可以使用Skip-gram模型，假定訓(xùn)練的詞ws＝(ws1,ws2,…,wsT)，訓(xùn)練目標(biāo)為最大化概率其中wsi表示ws中第i個詞，p(wsj|wsi)表示出現(xiàn)詞wsi條件下出現(xiàn)wsj的概率。將所有數(shù)據(jù)預(yù)處理后的原始數(shù)據(jù)集放入word2vec模型中訓(xùn)練，因為這種方法不僅僅能夠捕獲詞之間的位置關(guān)系，還包括詞的語義關(guān)系。(三)事件向量計算由于行為事件用動詞表示，所以在計算事件向量之前，本發(fā)明從預(yù)處理后的數(shù)據(jù)集抽取了動詞序列，則Weiboi可簡化表示為Weiboi＝{vi1,vi2,…,vik′}式(6)其中vij(j＝1,2,...,k′)是weiboi中第j個動詞。而被訓(xùn)練的詞向量有一個有趣的線性性質(zhì)，例如，用有效的向量空間向量表示詞，計算向量等等，因此本發(fā)明通過計算單詞的平均詞向量來表示一條微博，由于本發(fā)明需要計算事件向量，所以本發(fā)明選擇了所有動詞的平均詞向量來表示一個微博，計算方法如下：其中Qi表示weiboi中動詞的總量。為了表示事件，需要人工標(biāo)注若干條種子標(biāo)簽，每條數(shù)據(jù)記錄最多包含一種事件類型，在人工標(biāo)注完成后，獲得了兩組種子事件數(shù)據(jù)集，然后計算同一標(biāo)簽相同事件的平均種子向量，表示為其中i表示標(biāo)簽類型，Ri表示i類標(biāo)簽的種子總數(shù)，seedij表示i類標(biāo)簽第j條種子微博記錄。(四)事件提取分類在計算出每一類事件的向量ei后，將完成分類任務(wù)，通過計算剩余數(shù)據(jù)集和事件向量的相似度來確定每一條微博數(shù)據(jù)記錄的分類，而本發(fā)明選擇的相似度計算方法可以是cosine相似度計算法，表示為基于cosine相似度計算，用i*事件提取后應(yīng)該給微博記錄打上的標(biāo)簽，給sim(weibok,ei)設(shè)定一閾值用u表示，如果sim(weibok,ei)的最大值小于閾值u，這將此條微博記錄標(biāo)為其他類(NULL)，表示此微博記錄沒有包含事件。如果sim(weibok,ei)高于閾值u，將此微博標(biāo)簽為相似度最高的事件的標(biāo)簽?！居幸嫘Ч勘景l(fā)明提出的技術(shù)方案具有以下有益效果：本發(fā)明使用向量表示事件和微博，所以基于事件的相似度，本發(fā)明能夠有效地計算相似度和分類一條新的微博數(shù)據(jù)。同時，本發(fā)明檢測微博事件的精確度、召回率、和F值要遠(yuǎn)優(yōu)于現(xiàn)有技術(shù)中的方法。附圖說明圖1為本發(fā)明的實施例一提供的海量文本中企業(yè)行為或事件的抽取方法的流程圖。具體實施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面將對本發(fā)明的具體實施方式進(jìn)行清楚、完整的描述。實施例一圖1為本發(fā)明實施例一提供的海量文本中企業(yè)行為或事件的抽取方法的流程圖。如圖1所示，該方法包括數(shù)據(jù)預(yù)處理、詞表征、事件向量計算和事件提取分類，下面對各個步驟進(jìn)行詳細(xì)說明。(1)數(shù)據(jù)預(yù)處理從網(wǎng)絡(luò)中獲取目標(biāo)數(shù)據(jù)，并將這些數(shù)據(jù)內(nèi)容進(jìn)行預(yù)處理形成數(shù)據(jù)集，具體地，本實施例爬取的對象是國產(chǎn)手機(jī)市場占有率前十的企業(yè)的官方微博(華為、小米、魅族、中興、聯(lián)想、酷派、OPPO、VIVO、HTC、TCL)，一共爬取了88874條微博。其中，通過采用爬蟲技術(shù)從網(wǎng)絡(luò)中爬取目標(biāo)數(shù)據(jù)，預(yù)處理包括分詞處理和數(shù)據(jù)清理，分詞處理包括通過文本中的句號、問號和感嘆號進(jìn)行文本切分，數(shù)據(jù)清理包括刪除一字詞、停用詞、以及刪除重復(fù)的記錄。(2)詞表征將預(yù)處理形成的數(shù)據(jù)集中的單詞映射到k維的空間向量中，k為預(yù)設(shè)的維度范圍，其取值為50～500。具體地，該步驟將預(yù)處理后形成的數(shù)據(jù)集放入word2vec模型中訓(xùn)練得到k維空間向量。(3)事件向量計算在計算事件向量之前，首先從預(yù)處理后的數(shù)據(jù)集抽取了動詞序列，則Weiboi可簡化表示為Weiboi＝{vi1,vi2,…,vik′}其中vij(j＝1,2,...,k′)是weiboi中第j個動詞。然后計算單詞的平均詞向量來表示一條微博，由于本發(fā)明實施例需要計算事件向量，所以本發(fā)明實施例選擇了所有動詞的平均詞向量來表示一個微博，計算方法如下：其中Qi表示weiboi中動詞的總量。為了表示事件，需要人工標(biāo)注若干條種子標(biāo)簽，本實施例通過邀請一名志愿者根據(jù)自身的理解人工標(biāo)注了1000條種子標(biāo)簽，每條數(shù)據(jù)記錄最多包含一種事件類型，在人工標(biāo)注完成后，獲得了兩組種子事件數(shù)據(jù)集，然后計算同一標(biāo)簽相同事件的平均種子向量，表示為其中i表示標(biāo)簽類型，Ri表示i類標(biāo)簽的種子總數(shù)，seedij表示i類標(biāo)簽第j條種子微博記錄。(4)事件提取分類通過采用cosine相似度計算法計算剩余數(shù)據(jù)集和事件向量的相似度來確定每一條微博數(shù)據(jù)記錄的分類。具體地，在計算出每一類事件的向量ei后，將完成分類任務(wù)，通過計算剩余數(shù)據(jù)集和事件向量的相似度來確定每一條微博數(shù)據(jù)記錄的分類，而本發(fā)明實施例選擇的相似度計算方法可以是cosine相似度計算法，表示為基于cosine相似度計算，用i*事件提取后應(yīng)該給微博記錄打上的標(biāo)簽，給sim(weibok,ei)設(shè)定一閾值用u表示，如果sim(weibok,ei)的最大值小于閾值u，這將此條微博記錄標(biāo)為其他類(NULL)，表示此微博記錄沒有包含事件。如果sim(weibok,ei)高于閾值u，將此微博標(biāo)簽為相似度最高的事件的標(biāo)簽。驗證實驗本次實驗的數(shù)據(jù)集來自于微博網(wǎng)站http：//weibo.com，數(shù)據(jù)對象是國內(nèi)知名手機(jī)企業(yè)官方微博(企業(yè)包括華為、小米、魅族、中興、聯(lián)想、酷派、OPPO、Vivo、HTC和TCL)，爬取數(shù)據(jù)記錄總共有88874條，數(shù)據(jù)具體信息如表1所示。表1.微博爬取數(shù)據(jù)集統(tǒng)計表2.語料庫中詞相關(guān)數(shù)據(jù)統(tǒng)計邀請一名志愿者隨機(jī)讀取微博數(shù)據(jù)記錄，并根據(jù)他對微博內(nèi)容的理解給其打標(biāo)簽，選擇兩組已經(jīng)打好標(biāo)簽的數(shù)據(jù)集，第一組包含了五類，分別是推廣、發(fā)售、研發(fā)、合作、招募，另一組數(shù)據(jù)包括四類，分別是推廣、銷售、研發(fā)和合作，每一組種子數(shù)據(jù)集包括1000條微博記錄，每一類型總數(shù)一樣。采用實施例二中的方法進(jìn)行抽簽，其中采用word2vec訓(xùn)練詞表征，在訓(xùn)練過程中，word2vec不需要預(yù)置標(biāo)簽，它能將詞表征映射到k維的空間向量中。在Python3.5環(huán)境中運行word2vec，參數(shù)選擇如下所示：向量維度Vectordimension＝1000；內(nèi)容的窗口大小size＝5；選擇模型：Skip-gram。將實施例二中的方法與詞袋(BOW)，TFIDF(termfrequency–inversedocumentfrequency)+BOW、TFIDF加權(quán)以及LDA(LatentDirichletAllocation)進(jìn)行對比實驗。BOW:選擇了高頻詞形成詞袋向量，在實驗中，選擇了前100個高頻詞。TFIDF+BOW:計算數(shù)據(jù)集中每個詞的TFIDF值，選擇其中100個最高的TFIDF值的詞去形成詞袋向量。.TFIDF_weighted:選擇的詞方式與TFIDF+BOW一致，但是向量每一維的值等于對應(yīng)詞語在該句中的TFIDF值。LDA:將所有的種子數(shù)據(jù)集放入到LDA模型中運行，每組實驗數(shù)據(jù)都得到10個主題，然后以最高的比例作為其類相關(guān)的主題，比例計算如下所示當(dāng)一篇新的文檔被投入到LDA模型中，根據(jù)種子訓(xùn)練的模型計算該文檔的話題分布，然后將該微博分類到概率最大的話題下。由于本發(fā)明實施例分別計算了兩組事件向量，使用微博中所有動詞平均向量去表示一條微博記錄，然后計算每個事件向量與剩余每一條數(shù)據(jù)集的cosine相似度，取其中的最大值，以最大值的事件標(biāo)注這一條數(shù)據(jù)集的事件，如果cosine最大值也低于0.2，即此條數(shù)據(jù)集不包含事件行為，被標(biāo)為其他類。邀請先前的志愿者隨機(jī)標(biāo)注了2組微博數(shù)據(jù)，每組數(shù)據(jù)均為300條，作為每一組的基準(zhǔn)數(shù)據(jù)集，并將精確度(precision)、召回率(recall)、F值(F_value)作為分類器的評價指標(biāo)，計算方法如下表。四種可能的分類計算結(jié)果如下(表3)，具體地，按照以下方式計算精確度(9)、召回率(10)和F值(11):表3.第i種方法對應(yīng)第j種事件的預(yù)測結(jié)果在實驗中，如果其中的微博數(shù)據(jù)的相似度沒有超過閾值，將給這條微博標(biāo)為空類，其他類意味著，這條微博數(shù)據(jù)不包含事件，在本發(fā)明中，閾值被設(shè)為0.2，分類結(jié)果如下表所示。表4.第一組六類標(biāo)簽的精確度類別Word2VecBag_of_WordsTFIDFTFIDF_WeightedLDA(10)發(fā)售0.7441860.250.2083330.1384620.089552合作0.6595740.3103450.3333330.2857140推廣0.4235290.20.2105260.2413790研發(fā)0.5362320.2894740.2352940.280招募0.7037040.0588240.1923080.250空類00.1666670.1491230.1588790.058824表5.第一組六類標(biāo)簽的召回率表4和表5展示第一組數(shù)據(jù)結(jié)構(gòu)，從兩張表中可以看出，對于精確度和召回率，本發(fā)明方法在前五類標(biāo)簽都明顯優(yōu)于其他四種方法，尤其是發(fā)售和招募的精度都超過70％，即使是推廣類精度僅有42.35％也遠(yuǎn)超于其他四種方法，而對于召回率，前五類召回率都超過50％，招募類甚至達(dá)到了70.37％。在第一組實驗中，對于前五類標(biāo)簽的精確度和召回率本發(fā)明方法明顯優(yōu)于其他四種方法。表6和表7是第二組實驗結(jié)果，盡管第二組實驗結(jié)果的總體效果不如第一組結(jié)果，但是本發(fā)明提供的方法在前四類標(biāo)簽仍然明顯優(yōu)于其他四種方法，除了推廣類標(biāo)簽，其他三類標(biāo)簽的精確度都超過50％，而對于召回率，除了合作類，其他三類標(biāo)簽頁都超過50％，最高的甚至達(dá)到了66.67％表6.第二組五類標(biāo)簽的精確度類別Word2VecBag_of_WordsTFIDFTFIDF_WeightedLDA(10)合作0.5862070.2121210.30.250.240741推廣0.4631580.3285710.4242420.3709680.25銷售0.6034480.1750.2352940.3333330研發(fā)0.5454550.3225810.224490.2352940.363636空類00.1052630.0961540.1274510.064039表7.第二組五類標(biāo)簽的召回率類別Word2VecBag_of_WordsTFIDFTFIDF_WeightedLDA(10)合作0.4788730.0985920.1267610.0985920.183099推廣0.6666670.3484850.4242420.3484850.015152銷售0.5072460.1014490.1739130.2753620研發(fā)0.6486490.270270.1486490.1621620.054054空類00.50.50.650.65綜合來看，本發(fā)明方法的平均結(jié)果在五類分類方法中效果最優(yōu)，指標(biāo)為精確度(precision)、召回率(recall)、和F值(F_value)。根據(jù)來自于微博數(shù)據(jù)的實驗結(jié)果，本發(fā)明方法遠(yuǎn)優(yōu)于其他四類方法。綜上，由于本發(fā)明使用向量表示事件和微博，所以基于事件的相似度，本發(fā)明能夠有效地計算相似度和分類一條新的微博數(shù)據(jù)。同時，本發(fā)明檢測微博事件的精確度、召回率、和F值要遠(yuǎn)優(yōu)于其他方法。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：袁華;錢宇;鄧雄文;鄧文君;
技術(shù)所有人：電子科技大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本信息抽取相關(guān)技術(shù)

事件抽取相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

海量文本中企業(yè)行為或事件的抽取方法與流程