本發(fā)明屬于自然語言處理技術(shù)領域,尤其涉及一種基于腦電信號的詞向量計算方法及裝置。
背景技術(shù):
在自然語言處理任務中,通常使用詞向量作為原有文本中的詞語的表示,以便數(shù)值化的機器學習算法能應用于文本數(shù)據(jù)。詞向量模型的基本思想是:通過大量語料庫訓練,將某種語言中的每個詞語映射成一個固定長度的向量,一般而言這個長度遠小于該語言詞典的大小,通常在幾十到幾百維。所有這些向量構(gòu)成了詞向量空間,而每一個向量就可為該空間中的一個點。在這個空間上引入“距離”的度量,就可以據(jù)詞向量的距離來判斷對應詞語之間在句法、語義上的相似性。傳統(tǒng)的詞向量計算方法都是試圖通過當前文本向量來盡可能準確地預測其上下文的向量來優(yōu)化其表示的。
在傳統(tǒng)的詞向量計算過程中,通過當前文本預測上下文是訓練的首要目標。這種方法的主要缺陷有以下三點:
1、只考慮到了詞語的語法級別的屬性,沒有考慮到詞語語義級別的屬性,故通常訓練得到的詞向量只能表達詞語之間較為淺層的關系;
2、缺乏對人類語言認知過程的建模,忽略了重要的認知神經(jīng)科學以及心理學特征;
3、由于人類語言認識機制的復雜性,通過簡單預測上下文得到的詞向量無法體現(xiàn)不同自然語言處理任務的特性,普適性較差。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于腦電信號的詞向量計算方法及裝置,旨在提高詞向量計算的準確性。
本發(fā)明是這樣實現(xiàn)的,一種基于腦電信號的詞向量計算方法,所述方法包括以下步驟:
步驟S1,收集文本語料庫,對文本語料庫中的語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料;
步驟S2,將所述連續(xù)短語格式的語料呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀每一詞組時的腦電信號;
步驟S3,將采集到的詞組對應的腦電信號作為預測目標,訓練詞向量,以當前詞組的詞向量表示為特征預測其上下文的腦電信號,構(gòu)建基于腦電信號的詞向量表示模型。
本發(fā)明的進一步的技術(shù)方案是,所述步驟S1包括以下子步驟:
步驟S11,收集文本語料庫,所述文本語料庫中的語料為句子或者篇章級別;
步驟S12,去除所述文本語料庫中長度超過第一預設值或長度小于第二預設值的語料,得到預處理語料;
步驟S13,將所述預處理語料進行分詞處理得到詞;
步驟S14,利用組塊分析技術(shù),將所述詞轉(zhuǎn)化為詞組,得到以連續(xù)短語格式的語料。
本發(fā)明的進一步的技術(shù)方案是,所述步驟S3包括以下子步驟:
步驟S31,對采集到的腦電信號進行降噪處理,得到降噪后的腦電信號;
步驟S32,對所述降噪后的腦電信號進行空間投影和降維處理;
步驟S33,將所述預處理語料中的所有詞組初始化為詞向量表示;
步驟S34,遍歷所述預處理語料中的所有詞組,以當前詞組的詞向量表示為特征,使用神經(jīng)網(wǎng)絡回歸模型預測其上下文的腦電信號,將預測的上下文的腦電信號與實際腦電信號進行對比,獲取預測誤差,根據(jù)預測誤差調(diào)整當前詞組的詞向量表示,其中,所述實際腦電信號為標注者閱讀所述上下文時的腦電信號;重復本步驟,直至預測誤差小于預設閾值。
本發(fā)明的進一步的技術(shù)方案是,所述步驟S31包括:
對所述采集到的腦電信號進行處理,得到信噪比高于第三預設值的腦電信號;
所述步驟S32包括:
使用共空間模式算法對所述信噪比高于第三預設值的腦電信號進行空間投影和降維,得到維度低于第四預設值的腦電信號。
本發(fā)明的進一步的技術(shù)方案是,對所述采集到的腦電信號進行降噪處理采用FASTICA算法。
本發(fā)明還提供了一種基于腦電信號的詞向量計算裝置,所述裝置包括:
收集模塊,用于收集文本語料庫,對文本語料庫中的語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料;
采集模塊,用于將所述連續(xù)短語格式的語料呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀每一詞組時的腦電信號;
構(gòu)建模塊,用于將采集到的詞組對應的腦電信號作為預測目標,訓練詞向量,以當前詞組的詞向量表示為特征預測其上下文的腦電信號,構(gòu)建基于腦電信號的詞向量表示模型。
本發(fā)明的進一步的技術(shù)方案是,所述收集模塊包括:
收集單元,用于收集文本語料庫,所述文本語料庫中的語料為句子或者篇章級別;
預處理單元,用于去除所述文本語料庫中長度超過第一預設值或長度小于第二預設值的語料,得到預處理語料;
分詞單元,用于將所述預處理語料進行分詞處理得到詞;
轉(zhuǎn)化單元,用于利用組塊分析技術(shù),將所述詞轉(zhuǎn)化為詞組,得到以連續(xù)短語格式的語料。
本發(fā)明的進一步的技術(shù)方案是,所述構(gòu)建模塊包括:
降噪單元,用于對采集到的腦電信號進行降噪處理,得到降噪后的腦電信號;
降維單元,用于對所述降噪后的腦電信號進行空間投影和降維處理;
初始化單元,用于將所述預處理語料中的所有詞組初始化為詞向量表示;
構(gòu)建單元,用于遍歷所述預處理語料中的所有詞組,以當前詞組的詞向量表示為特征,使用神經(jīng)網(wǎng)絡回歸模型預測其上下文的腦電信號,將預測的上下文的腦電信號與實際腦電信號進行對比,獲取預測誤差,根據(jù)預測誤差調(diào)整當前詞組的詞向量表示,其中,所述實際腦電信號為標注者閱讀所述上下文時的腦電信號;重復本步驟,直至預測誤差小于預設閾值。
本發(fā)明的進一步的技術(shù)方案是,所述降噪單元還用于,對所述采集到的腦電信號進行處理,得到信噪比高于第三預設值的腦電信號;
所述降維單元還用于,使用共空間模式算法對所述信噪比高于第三預設值的腦電信號進行空間投影和降維,得到維度低于第四預設值的腦電信號。
本發(fā)明的進一步的技術(shù)方案是,所述降噪模塊還用于采用FASTICA算法對所述采集到的腦電信號進行降噪處理。
本發(fā)明的有益效果是:本發(fā)明提供的基于腦電信號的詞向量計算方法及裝置,通過上述方案:收集文本語料庫,對文本語料庫中的語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料;將連續(xù)短語格式的語料呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀每一詞組時的腦電信號;將采集到的詞組對應的腦電信號作為預測目標,訓練詞向量,以當前詞組為特征預測其上下文的腦電信號,構(gòu)建基于腦電信號的詞向量表示模型,提高了詞向量計算的準確性。
附圖說明
圖1是本發(fā)明基于腦電信號的詞向量計算方法第一實施例的流程示意圖;
圖2是本發(fā)明基于腦電信號的詞向量計算方法第二實施例步驟S1的細化流程示意圖;
圖3是本發(fā)明基于腦電信號的詞向量計算方法第三實施例步驟S3的細化流程示意圖;
圖4是本發(fā)明基于腦電信號的詞向量計算裝置第一實施例的功能模塊示意圖;
圖5是本發(fā)明基于腦電信號的詞向量計算裝置第二實施例采集模塊的細化功能模塊示意圖;
圖6是本發(fā)明基于腦電信號的詞向量計算裝置第三實施例構(gòu)建模塊的細化功能模塊示意圖。
附圖標記:
收集模塊-10:收集單元-101;預處理單元-102;分詞單元-103;轉(zhuǎn)化單元-104;
采集模塊-20;
構(gòu)建模塊-30:降噪單元-301;降維單元-302;初始化單元-303;構(gòu)建單元-304。
具體實施方式
本發(fā)明實施例的解決方案主要是:收集文本語料庫,對文本語料庫中的語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料;將所述連續(xù)短語格式的語料呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀每一詞組時的腦電信號;將采集到的詞組對應的腦電信號作為預測目標,訓練詞向量,以當前詞組為特征預測其上下文的腦電信號,構(gòu)建基于腦電信號的詞向量表示模型。
請參照圖1,圖1是本發(fā)明基于腦電信號的詞向量計算方法第一實施例的流程示意圖,如圖1所示,本發(fā)明基于腦電信號的詞向量計算方法第一實施例包括以下步驟:
步驟S1,收集文本語料庫,對文本語料庫中的語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料;
具體地,語料是指在語言的實際使用過程中真實出現(xiàn)過的語言材料,語料通常儲存在語料庫中,語料庫是以電子計算機為載體承載語料的數(shù)據(jù)庫,真實語料一般需要經(jīng)過分析和處理才能夠成為有用的資源。
目前,中國語料庫主要為現(xiàn)代漢語通用語料庫、《人民日報》標注語料庫、用于語言教學和研究的現(xiàn)代漢語語料庫、面向語音信息處理的現(xiàn)代漢語語料庫等,人們在需要語料時,可以從這些建好的語料庫中直接獲取語料。當然,本發(fā)明的實現(xiàn)還可以從其他的語料庫中獲取語料,比如獲取互聯(lián)網(wǎng)網(wǎng)頁中的語料。
由于詞向量的訓練是以詞組為訓練數(shù)據(jù),而語料庫中的語料通常為句子或者文章,因此,需要對語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料。例如,語料為句子“我愛北京,北京是我國的首都”,將其處理為以詞組為單位的連續(xù)短語為“我/愛/北京/北京/是/我國/的/首都”。
步驟S2,將連續(xù)短語格式的語料呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀每一詞組時的腦電信號;其中,標注者為閱讀以連續(xù)短語格式呈現(xiàn)的語料的用戶。
具體地,本發(fā)明是通過腦電信號表示詞向量,在標注者閱讀以連續(xù)短語格式呈現(xiàn)的語料時,需佩戴腦電信號采集裝置,以獲得標注者閱讀每一詞組時的腦電信號。獲得標注者閱讀每一詞組時的腦電信號后,將采集到的腦電信號與相應詞組成對存儲。
步驟S3,將采集到的詞組對應的腦電信號作為預測目標,訓練詞向量,以當前詞組的詞向量表示為特征預測其上下文的腦電信號,構(gòu)建基于腦電信號的詞向量表示模型。
具體地,可以將所述預處理語料中的所有詞組初始化為詞向量表示;然后,遍歷所述預處理語料中的所有詞組,以當前詞組的詞向量表示為特征,使用神經(jīng)網(wǎng)絡回歸模型預測其上下文的腦電信號,將預測的上下文的腦電信號與實際腦電信號進行對比,獲取預測誤差,根據(jù)預測誤差調(diào)整當前詞組的詞向量表示,其中,所述實際腦電信號為標注者閱讀所述上下文時的腦電信號;重復本步驟,直至預測誤差小于預設閾值。
本實施例中上下文窗口可以為三個,以當前詞組的詞向量表示為特征,使用神經(jīng)網(wǎng)絡回歸模型預測其上文三個詞組及下文三個詞組的腦電信號,將預測的上下文的腦電信號與實際腦電信號進行對比,獲取預測誤差,對每次產(chǎn)生的誤差反向傳播,調(diào)整當前詞組的向量表示。
本實施例通過上述方案:收集文本語料庫,對文本語料庫中的語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料;將連續(xù)短語格式的語料呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀每一詞組時的腦電信號;將采集到的詞組對應的腦電信號作為預測目標,訓練詞向量,以當前詞組為特征預測其上下文的腦電信號,構(gòu)建基于腦電信號的詞向量表示模型,提高了詞向量計算的準確性。
作為本發(fā)明的第二實施例,請參照圖2,圖2是基于圖1描述的基于腦電信號的詞向量計算方法中的步驟S1的細化流程示意圖。所述步驟S1,收集文本語料庫,對文本語料庫中的語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料的步驟可以包括:
步驟S11,收集文本語料庫,文本語料庫中的語料為句子或者篇章級別;
步驟S12,去除文本語料庫中長度超過第一預設值或長度小于第二預設值的語料,得到預處理語料;
步驟S13,將預處理語料進行分詞處理得到詞;
步驟S14,利用組塊分析技術(shù),將詞轉(zhuǎn)化為詞組,得到以連續(xù)短語格式的語料。
具體地,收集到的文本語料庫中的語料通常是句子或者文章,由于句子的長度可能過長或過短,因此,可以根據(jù)經(jīng)驗預設一個句子長度范圍值,去除語料庫中長度超過第一預設值或者長度小于第二預設值的語料,得到預處理語料,其中,第一預設值及第二預設值可以通過經(jīng)驗設定。
由于詞向量的訓練是以詞組為訓練數(shù)據(jù),而語料庫中的語料通常為句子或者文章,因此,需要對語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料。例如,語料為句子“我愛北京,北京是我國的首都”,將其處理為以詞組為單位的連續(xù)短語為“我/愛/北京/北京/是/我國/的/首都”。
在本實施例中,可以先將預處理語料進行分詞處理,得到詞,然后采用組塊分析技術(shù),將詞轉(zhuǎn)化為詞組,得到以連續(xù)短語格式的語料。
分詞處理主要是依賴于分詞詞庫實現(xiàn)的,分詞詞庫的質(zhì)量直接決定了分詞處理的質(zhì)量,目前通常采用的分詞詞庫是通過《新華詞典》或者其他類似的出版書籍為基礎而建立的詞庫,在本實施例中,也可以依賴其他的分詞詞庫來進行分詞處理。
語言組塊分析技術(shù)是淺層語法分析中常用的技術(shù),語言組塊技術(shù)能根據(jù)預定的模型將句子分解為組分,這些組分主要是短語以及較長的詞組,從而使得計算機對于句子的理解可以從單個字、詞的層面上升到信息量更大的短語、詞組,更加接近自然語言。
作為本發(fā)明的第三實施例,請參照圖3,圖3是基于圖1描述的基于腦電信號的詞向量計算方法中的步驟S3的細化流程示意圖。所述步驟S3,將采集到的詞組對應的腦電信號作為預測目標,訓練詞向量,以當前詞組為特征預測其上下文的腦電信號,構(gòu)建基于腦電信號的詞向量表示模型步驟可以包括:
步驟S31,對采集到的腦電信號進行降噪處理,得到降噪后的腦電信號;
采集標注者閱讀以連續(xù)短語格式呈現(xiàn)的語料時的腦電信號的過程中,容易受到設備噪聲信號及肌電信號和眼電信號等因素的影響,因此需要對標注者閱讀以連續(xù)短語格式呈現(xiàn)的語料時的腦電信號進行去噪處理,得到降噪后的高信噪比的腦電信號。
信噪比,英文名稱叫做SNR或S/N(SIGNAL-NOISE RATIO),又稱為訊噪比。是指一個電子設備或者電子系統(tǒng)中信號與噪聲的比例。這里面的信號指的是來自設備外部需要通過這臺設備進行處理的電子信號,噪聲是指經(jīng)過該設備后產(chǎn)生的原信號中并不存在的無規(guī)則的額外信號(或稱為信息),并且這種信號并不隨原信號的變化而變化。信噪比的計量單位是dB,其計算方法是10lg(PS/PN),其中PS和PN分別代表信號和噪聲的有效功率,信噪比越高,說明噪聲越小。
在本實施例中,采用FASTICA算法將采集到的標注者閱讀以連續(xù)短語格式呈現(xiàn)的語料時的腦電信號投影為多個獨立分量,再采用頻譜特征或者高階交叉特征等判別噪音,然后從采集到的標注者閱讀以連續(xù)短語格式呈現(xiàn)的語料時的腦電信號中除去噪音分量,得到降噪后的高信噪比的腦電信號,本實施例中降噪后的高信噪比的腦電信號為優(yōu)選為信噪比高于15db的腦電信號。
獨立成分分析(簡稱ICA)是非常有效的數(shù)據(jù)分析工具,它主要用來從混合數(shù)據(jù)中提取出原始的獨立信號。它作為信號分離的一種有效方法而受到廣泛的關注。在諸多ICA算法中,固定點算法(簡稱FASTICA)以其收斂速度快、分離效果好被廣泛應用于信號處理領域。該算法能很好地從觀測信號中估計出相互統(tǒng)計獨立的、被未知因素混合的原始信號。
步驟S32,對降噪后的腦電信號進行空間投影和降維處理;
具體地,本實施例中,使用共空間模式算法(CSP)將不同信道的降噪后的高信噪比的腦電信號根據(jù)其空間位置進行投影和降維,得到降維后的腦電信號,本實施例中降維后的腦電信號優(yōu)選為維度低于300維度的腦電信號。
步驟S33,將預處理語料中的所有詞組初始化為詞向量表示;
步驟S34,遍歷預處理語料中的所有詞組,以當前詞組的詞向量表示為特征,使用神經(jīng)網(wǎng)絡回歸模型預測其上下文的腦電信號,將預測的上下文的腦電信號與實際腦電信號進行對比,獲取預測誤差,根據(jù)預測誤差調(diào)整當前詞組的詞向量表示,其中,所述實際腦電信號為標注者閱讀所述上下文時的腦電信號;重復本步驟,直至總體預測誤差小于預設閾值。
本實施例中上下文窗口可以為三個,以當前詞組的詞向量表示為特征,使用神經(jīng)網(wǎng)絡回歸模型預測其上文三個詞組及下文三個詞組的腦電信號,將預測的上下文的腦電信號與實際腦電信號進行對比,獲取預測誤差,對每次產(chǎn)生的誤差反向傳播,調(diào)整當前詞組的向量表示,直至預設誤差閾值可以根據(jù)經(jīng)驗設定為10-5。
綜上所述,本發(fā)明通過上述方案,收集文本語料庫,對文本語料庫中的語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料;將連續(xù)短語格式的語料呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀每一詞組時的腦電信號;將采集到的詞組對應的腦電信號作為預測目標,訓練詞向量,以當前詞組為特征預測其上下文的腦電信號,構(gòu)建基于腦電信號的詞向量表示模型,提高了詞向量計算的準確性。
與上述基于腦電信號的詞向量計算方法相對應的,本發(fā)明還提供了基于腦電信號的詞向量計算裝置。
請參照圖4,圖4是本發(fā)明基于腦電信號的詞向量計算裝置第一實施例的功能模塊示意圖,如圖4所示,本發(fā)明基于腦電信號的詞向量計算裝置第一實施例包括:收集模塊10、采集模塊20及構(gòu)建模塊30。
其中,收集模塊10用于收集文本語料庫,對文本語料庫中的語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料;
具體地,語料是指在語言的實際使用過程中真實出現(xiàn)過的語言材料,語料通常儲存在語料庫中,語料庫是以電子計算機為載體承載語料的數(shù)據(jù)庫,真實語料一般需要經(jīng)過分析和處理才能夠成為有用的資源。
目前,中國語料庫主要為現(xiàn)代漢語通用語料庫、《人民日報》標注語料庫、用于語言教學和研究的現(xiàn)代漢語語料庫、面向語音信息處理的現(xiàn)代漢語語料庫等,人們在需要語料時,可以從這些建好的語料庫中直接獲取語料。當然,本發(fā)明的實現(xiàn)還可以從其他的語料庫中獲取語料,比如獲取互聯(lián)網(wǎng)網(wǎng)頁中的語料。
由于詞向量的訓練是以詞組為訓練數(shù)據(jù),而語料庫中的語料通常為句子或者文章,因此,需要對語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料。例如,語料為句子“我愛北京,北京是我國的首都”,將其處理為以詞組為單位的連續(xù)短語為“我/愛/北京/北京/是/我國/的/首都”。
采集模塊20用于將連續(xù)短語格式的語料呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀每一詞組時的腦電信號。
具體地,本發(fā)明是通過腦電信號表示詞向量,在標注者閱讀以連續(xù)短語格式呈現(xiàn)的語料時,需佩戴腦電信號采集裝置,以獲得標注者閱讀每一詞組時的腦電信號。獲得標注者閱讀每一詞組時的腦電信號后,將采集到的腦電信號與相應詞組成對存儲。
構(gòu)建模塊30用于將采集到的詞組對應的腦電信號作為預測目標,訓練詞向量,以當前詞組為特征預測其上下文的腦電信號,構(gòu)建基于腦電信號的詞向量表示模型。
本實施例中上下文窗口可以為三個,以當前詞組的詞向量表示為特征,使用神經(jīng)網(wǎng)絡回歸模型預測其上文三個詞組及下文三個詞組的腦電信號,將預測的上下文的腦電信號與實際腦電信號進行對比,獲取預測誤差,對每次產(chǎn)生的誤差反向傳播,調(diào)整當前詞組的向量表示,直至總體預設誤差閾值可以根據(jù)經(jīng)驗設定為10-5。
本實施例通過上述方案:收集模塊10收集文本語料庫,對文本語料庫中的語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料;采集模塊20將連續(xù)短語格式的語料呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀每一詞組時的腦電信號;將采集到的詞組對應的腦電信號作為預測目標,訓練詞向量,以當前詞組為特征預測其上下文的腦電信號,構(gòu)建基于腦電信號的詞向量表示模型,提高了詞向量計算的準確性。
作為本發(fā)明的第二實施例,請參照圖5,圖5是基于圖4描述的基于腦電信號的詞向量計算裝置中的收集模塊10的細化功能模塊示意圖。在本實施例中,收集模塊10可以包括:收集單元101、預處理單元102、分詞單元103及轉(zhuǎn)化單元104。
其中,收集單元101用于收集文本語料庫,所述文本語料庫中的語料為句子或者篇章級別;
預處理單元102用于去除文本語料庫中長度超過第一預設值或長度小于第二預設值的語料,得到預處理語料,其中,第一預設值及第二預設值可以通過經(jīng)驗設定。
分詞單元103用于將預處理語料進行分詞處理得到詞;
轉(zhuǎn)化單元104用于利用組塊分析技術(shù),將詞轉(zhuǎn)化為詞組,得到以連續(xù)短語格式的語料。
具體地,收集模塊10收集到的文本語料庫中的語料通常是句子或者文章,由于句子的長度可能過長或過短,因此,可以根據(jù)經(jīng)驗預設一個句子長度范圍值,去除語料庫中長度超過第一預設值或者長度小于第二預設值的語料,得到預處理語料。
由于詞向量的訓練是以詞組為訓練數(shù)據(jù),而語料庫中的語料通常為句子或者文章,因此,需要對語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料。例如,語料為句子“我愛北京,北京是我國的首都”,將其處理為以詞組為單位的連續(xù)短語為“我/愛/北京/北京/是/我國/的/首都”。
在本實施例中,可以先通過預處理單元102將預處理語料進行分詞處理,得到詞,然后通過轉(zhuǎn)化單元104采用組塊分析技術(shù),將詞轉(zhuǎn)化為詞組,得到以連續(xù)短語格式的語料。
分詞處理主要是依賴于分詞詞庫實現(xiàn)的,分詞詞庫的質(zhì)量直接決定了分詞處理的質(zhì)量,目前通常采用的分詞詞庫是通過《新華詞典》或者其他類似的出版書籍為基礎而建立的詞庫,在本實施例中,也可以依賴其他的分詞詞庫來進行分詞處理。
語言組塊分析技術(shù)是淺層語法分析中常用的技術(shù),語言組塊技術(shù)能根據(jù)預定的模型將句子分解為組分,這些組分主要是短語以及較長的詞組,從而使得計算機對于句子的理解可以從單個字、詞的層面上升到信息量更大的短語、詞組,更加接近自然語言。
作為本發(fā)明的第三實施例,請參照圖6,圖6是基于圖4描述的基于腦電信號的詞向量計算裝置中的構(gòu)建模塊30的細化功能模塊示意圖。在本實施例中,構(gòu)建模塊30可以包括:降噪單元301、降維單元302、初始化單元303及構(gòu)建單元304。
其中,降噪單元301用于對采集到的腦電信號進行降噪處理,得到降噪后的腦電信號;
采集標注者閱讀以連續(xù)短語格式呈現(xiàn)的語料時的腦電信號的過程中,容易受到設備噪聲信號及肌電信號和眼電信號等因素的影響,因此需要對標注者閱讀以連續(xù)短語格式呈現(xiàn)的語料時的腦電信號進行去噪處理,得到降噪后的高信噪比的腦電信號。
信噪比,英文名稱叫做SNR或S/N(SIGNAL-NOISE RATIO),又稱為訊噪比。是指一個電子設備或者電子系統(tǒng)中信號與噪聲的比例。這里面的信號指的是來自設備外部需要通過這臺設備進行處理的電子信號,噪聲是指經(jīng)過該設備后產(chǎn)生的原信號中并不存在的無規(guī)則的額外信號(或稱為信息),并且這種信號并不隨原信號的變化而變化。信噪比的計量單位是dB,其計算方法是10lg(PS/PN),其中PS和PN分別代表信號和噪聲的有效功率,信噪比越高,說明噪聲越小。
在本實施例中,降噪單元301采用FASTICA算法將采集到的標注者閱讀以連續(xù)短語格式呈現(xiàn)的語料時的腦電信號投影為多個獨立分量,再采用頻譜特征或者高階交叉特征等判別噪音,然后從采集到的標注者閱讀以連續(xù)短語格式呈現(xiàn)的語料時的腦電信號中除去噪音分量,得到降噪后的高信噪比的腦電信號,本實施例中降噪后的高信噪比的腦電信號優(yōu)選為信噪比高于15db的腦電信號。
獨立成分分析(簡稱ICA)是非常有效的數(shù)據(jù)分析工具,它主要用來從混合數(shù)據(jù)中提取出原始的獨立信號。它作為信號分離的一種有效方法而受到廣泛的關注。在諸多ICA算法中,固定點算法(簡稱FASTICA)以其收斂速度快、分離效果好被廣泛應用于信號處理領域。該算法能很好地從觀測信號中估計出相互統(tǒng)計獨立的、被未知因素混合的原始信號。
降維單元302用于對降噪后的腦電信號進行空間投影和降維處理;
具體地,本實施例中,降維單元302使用共空間模式算法(CSP)將不同信道的降噪后的高信噪比的腦電信號根據(jù)其空間位置進行投影和降維,得到降維后的腦電信號,本實施例中降維后的腦電信號優(yōu)選為維度低于300維度的腦電信號。
初始化單元303用于將預處理語料中的所有詞組初始化為詞向量表示;
構(gòu)建單元304用于遍歷預處理語料中的所有詞組,以當前詞組的詞向量表示為特征,使用神經(jīng)網(wǎng)絡回歸模型預測其上下文的腦電信號,將預測的上下文的腦電信號與實際腦電信號進行對比,獲取預測誤差,根據(jù)預測誤差調(diào)整當前詞組的詞向量表示,其中,實際腦電信號為標注者閱讀上下文時的腦電信號;重復本步驟,直至預測誤差小于預設閾值。
本實施例中上下文窗口可以為三個,以當前詞組的詞向量表示為特征,使用神經(jīng)網(wǎng)絡回歸模型預測其上文三個詞組及下文三個詞組的腦電信號,將預測的上下文的腦電信號與實際腦電信號進行對比,獲取預測誤差,對每次產(chǎn)生的誤差反向傳播,調(diào)整當前詞組的向量表示,直至總體預設誤差閾值可以根據(jù)經(jīng)驗設定為10-5。
綜上所述,本發(fā)明通過上述方案,收集模塊10收集文本語料庫,對文本語料庫中的語料進行處理,得到以詞組為單位的連續(xù)短語格式的語料;采集模塊20將連續(xù)短語格式的語料呈現(xiàn)給標注者,供標注者閱讀,采集標注者閱讀每一詞組時的腦電信號;構(gòu)建模塊30將采集到的詞組對應的腦電信號作為預測目標,訓練詞向量,以當前詞組為特征預測其上下文的腦電信號,構(gòu)建基于腦電信號的詞向量表示模型,提高了詞向量計算的準確性。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。