本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種詞向量的生成方法和裝置。
背景技術(shù):
隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,研究者們希望把機(jī)器學(xué)習(xí)算法用在語(yǔ)言模型中,用以提高語(yǔ)言模型研究和應(yīng)用的進(jìn)展,Word2Vec就是這樣一種技術(shù),使用Word2Vec可以將單詞/詞語(yǔ)轉(zhuǎn)換成為一個(gè)指定維度的向量,稱(chēng)為詞向量,這樣,就可以把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,計(jì)算出向量在向量空間中的相似度,用來(lái)表示單詞/詞語(yǔ)在語(yǔ)義上的相似度。
然而,在現(xiàn)有的Word2Vec算法訓(xùn)練模型時(shí),是一次性讀入所有訓(xùn)練集數(shù)據(jù),經(jīng)過(guò)很長(zhǎng)時(shí)間的訓(xùn)練,得到一個(gè)模型,該模型收集訓(xùn)練集合中的所有詞匯,給每個(gè)詞匯生成一個(gè)詞向量。但是,訓(xùn)練集中缺少某個(gè)詞時(shí),就無(wú)法生成該詞對(duì)應(yīng)的詞向量,那么,需要生成一個(gè)新詞的詞向量時(shí),需要將含有新詞的訓(xùn)練文本數(shù)據(jù)加入原有的訓(xùn)練集,重新訓(xùn)練,才能得到新詞的詞向量,這種方法重新訓(xùn)練需要較大的運(yùn)算量并且非常耗時(shí)。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的主要目的在于提出一種詞向量的生成方法和裝置,旨在避免新分詞加入時(shí)重新訓(xùn)練所需的運(yùn)算量,縮短了新分詞加入時(shí)生成詞向量的時(shí)間。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:
第一方面,本發(fā)明實(shí)施例提供了一種詞向量的生成方法,所述方法包括:對(duì)獲取到的第一訓(xùn)練分詞集進(jìn)行文本深度表示模型word2vec處理,得到所述第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;接收新分詞;其中,所述新分詞不存在于所述第一訓(xùn)練分詞集中;獲取所述新分詞的訓(xùn)練文本,對(duì)所述新分詞的訓(xùn)練文本進(jìn)行分詞處理,得到所述新分詞的訓(xùn)練分詞,利用所述新分詞和所述新分詞的訓(xùn)練分詞組成第二訓(xùn)練分詞集;對(duì)所述第二訓(xùn)練分詞集進(jìn)行word2vec處理,得到所述第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;根據(jù)所述第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量和所述第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,確定出所述新分詞加入至所述第一訓(xùn)練分詞集中的詞向量。
進(jìn)一步地,所述根據(jù)所述第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量和所述第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,確定出所述新分詞加入至所述第一訓(xùn)練分詞集中的詞向量,包括:從所述第二訓(xùn)練分詞集中,選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞;根據(jù)所述滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在所述第一訓(xùn)練分詞集中的詞向量和所述滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在所述第二訓(xùn)練分詞集中的詞向量,確定出所述新分詞加入至所述第一訓(xùn)練分詞集中的詞向量。
進(jìn)一步地,所述從所述第二訓(xùn)練分詞集中,選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞,包括:在所述第二訓(xùn)練分詞集中,計(jì)算每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度;根據(jù)所述每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度,按照從大到小的順序從所述第二訓(xùn)練分詞集中選取出預(yù)設(shè)數(shù)目的訓(xùn)練分詞。
進(jìn)一步地,所述從所述第二訓(xùn)練分詞集中,選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞,包括:從所述第二訓(xùn)練分詞集中,按照訓(xùn)練分詞選取策略選取訓(xùn)練分詞;其中,所述訓(xùn)練分詞選取策略為:選取的訓(xùn)練分詞的詞向量與所述新分詞的詞向量之間的相似度大于預(yù)設(shè)值。
進(jìn)一步地,所述根據(jù)所述滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在所述第一訓(xùn)練分詞集中的詞向量和所述滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在所述第二訓(xùn)練分詞集中的詞向量,確定出所述新分詞加入至所述第一訓(xùn)練分詞集中的詞向量,包括:對(duì)所述滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在所述第二訓(xùn)練分詞集中的詞向量進(jìn)行加權(quán)平均計(jì)算,得到第一加權(quán)中心向量;計(jì)算所述新分詞的詞向量與所述第一加權(quán)中心向量之間的相似度;對(duì)所述滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在所述第一訓(xùn)練分詞集中的詞向量進(jìn)行加權(quán)平均計(jì)算,得到第二加權(quán)中心向量;基于相似度相等規(guī)則,根據(jù)所述新分詞的詞向量與所述第一加權(quán)中心向量之間的相似度和所述第二加權(quán)中心向量,確定出所述新分詞加入至所述第一訓(xùn)練分詞集中的詞向量;其中,所述相似度相等規(guī)則為:所述新分詞的詞向量與所述第一加權(quán)中心向量之間的相似度等于所述新分詞加入至所述第一訓(xùn)練分詞集中的詞向量與所述第二加權(quán)中心向量之間的相似度。
第二方面,本發(fā)明實(shí)施例提供了一種詞向量的生成裝置,所述裝置包括:第一處理模塊,用于對(duì)獲取到的第一訓(xùn)練分詞集進(jìn)行文本深度表示模型word2vec處理,得到所述第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;接收模塊,用于接收新分詞;其中,所述新分詞不存在于所述第一訓(xùn)練分詞集中;獲取模塊,用于獲取所述新分詞的訓(xùn)練文本,對(duì)所述新分詞的訓(xùn)練文本進(jìn)行分詞處理,得到所述新分詞的訓(xùn)練分詞,利用所述新分詞和所述新分詞的訓(xùn)練分詞組成第二訓(xùn)練分詞集;第二處理模塊,用于對(duì)所述第二訓(xùn)練分詞集進(jìn)行word2vec處理,得到所述第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;確定模塊,用于根據(jù)所述第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量和所述第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,確定出所述新分詞加入至所述第一訓(xùn)練分詞集中的詞向量。
進(jìn)一步地,所述確定模塊,包括:選取子模塊,用于從所述第二訓(xùn)練分詞集中,選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞;確定子模塊,用于根據(jù)所述滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在所述第一訓(xùn)練分詞集中的詞向量和所述滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在所述第二訓(xùn)練分詞集中的詞向量,確定出所述新分詞加入至所述第一訓(xùn)練分詞集中的詞向量。
進(jìn)一步地,所述選取子模塊,具體用于在所述第二訓(xùn)練分詞集中,計(jì)算每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度;根據(jù)所述每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度,按照從大到小的順序從所述第二訓(xùn)練分詞集中選取出預(yù)設(shè)數(shù)目的訓(xùn)練分詞。
進(jìn)一步地,所述選取子模塊,具體用于從所述第二訓(xùn)練分詞集中,按照訓(xùn)練分詞選取策略選取訓(xùn)練分詞;其中,所述訓(xùn)練分詞選取策略為:選取的訓(xùn)練分詞的詞向量與所述新分詞的詞向量之間的相似度大于預(yù)設(shè)值。
進(jìn)一步地,所述確定子模塊,具體用于:對(duì)所述滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在所述第二訓(xùn)練分詞集中的詞向量進(jìn)行加權(quán)平均計(jì)算,得到第一加權(quán)中心向量;計(jì)算所述新分詞的詞向量與所述第一加權(quán)中心向量之間的相似度;對(duì)所述滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在所述第一訓(xùn)練分詞集中的詞向量進(jìn)行加權(quán)平均計(jì)算,得到第二加權(quán)中心向量;基于相似度相等規(guī)則,根據(jù)所述新分詞的詞向量與所述第一加權(quán)中心向量之間的相似度和所述第二加權(quán)中心向量,確定出所述新分詞加入至所述第一訓(xùn)練分詞集中的詞向量;其中,所述相似度相等規(guī)則為:所述新分詞的詞向量與所述第一加權(quán)中心向量之間的相似度等于所述新分詞加入至所述第一訓(xùn)練分詞集中的詞向量與所述第二加權(quán)中心向量之間的相似度。
本發(fā)明實(shí)施例所提供的一種詞向量的生成方法和裝置,對(duì)獲取到的第一訓(xùn)練分詞集進(jìn)行word2vec處理,得到第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;接收新分詞;其中,新分詞不存在于第一訓(xùn)練分詞集中;那么,為了將新分詞加入第一訓(xùn)練分詞集中,先獲取新分詞的訓(xùn)練文本,對(duì)新分詞的訓(xùn)練文本進(jìn)行分詞處理,得到新分詞的訓(xùn)練分詞,利用新分詞和新分詞的訓(xùn)練分詞組成第二訓(xùn)練分詞集;然后對(duì)第二訓(xùn)練分詞集進(jìn)行word2vec處理,得到第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;這樣,得到了第二訓(xùn)練分詞集,最后,根據(jù)第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量和第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量,也就是說(shuō),在本發(fā)明實(shí)施例中,不需要將新分詞加入至第一訓(xùn)練分詞集中重新進(jìn)行訓(xùn)練處理,只需要根據(jù)新分詞得到第二訓(xùn)練分詞集,就可以根據(jù)第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量和第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量,這樣,避免新分詞加入時(shí)重新訓(xùn)練所需的運(yùn)算量,不用丟失原有的訓(xùn)練信息,縮短了新分詞加入時(shí)生成詞向量的時(shí)間,進(jìn)而提高了word2vec的魯棒性。
附圖說(shuō)明
圖1為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的一種可選的終端的硬件結(jié)構(gòu)示意圖;
圖2為如圖1所示的移動(dòng)終端的無(wú)線(xiàn)通信系統(tǒng)示意圖;
圖3為本發(fā)明實(shí)施例一中的詞向量的生成方法的流程示意圖;
圖4為本發(fā)明實(shí)施例二中的詞向量的生成方法的一種可選的流程示意圖;
圖5為本發(fā)明實(shí)施例二中的詞向量的生成方法的另一種可選的流程示意圖;
圖6為本發(fā)明實(shí)施例三中的詞向量的生成裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。
現(xiàn)在將參考附圖1來(lái)描述實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的終端。在后續(xù)的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說(shuō)明,其本身并沒(méi)有特定的意義。因此,"模塊"與"部件"可以混合地使用。
終端可以以各種形式來(lái)實(shí)施。例如,本發(fā)明中描述的終端可以包括諸如移動(dòng)電話(huà)、智能電話(huà)、筆記本電腦、數(shù)字廣播接收器、個(gè)人數(shù)字助理(PDA)、平板電腦(PAD)、便攜式多媒體播放器(PMP)、導(dǎo)航裝置等等的終端以及諸如數(shù)字TV、臺(tái)式計(jì)算機(jī)等等的固定終端。下面,假設(shè)終端是終端。然而,本領(lǐng)域技術(shù)人員將理解的是,除了特別用于移動(dòng)目的的元件之外,根據(jù)本發(fā)明的實(shí)施方式的構(gòu)造也能夠應(yīng)用于固定類(lèi)型的終端。
圖1為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的一種可選的終端的硬件結(jié)構(gòu)示意圖。
如圖1所示,終端100可以包括無(wú)線(xiàn)通信單元110、音頻/視頻(A/V)輸入單元120、用戶(hù)輸入單元130、感測(cè)單元140、輸出單元150、存儲(chǔ)器160、接口單元170、控制器180和電源單元190等等。圖1示出了具有各種組件的終端,但是應(yīng)理解的是,并不要求實(shí)施所有示出的組件,可以替代地實(shí)施更多或更少的組件,將在下面詳細(xì)描述終端的元件。
無(wú)線(xiàn)通信單元110通常包括一個(gè)或多個(gè)組件,其允許終端100與無(wú)線(xiàn)通信系統(tǒng)或網(wǎng)絡(luò)之間的無(wú)線(xiàn)電通信。例如,無(wú)線(xiàn)通信單元可以包括廣播接收模塊111、移動(dòng)通信模塊112、無(wú)線(xiàn)互聯(lián)網(wǎng)模塊113、短程通信模塊114和位置信息模塊115中的至少一個(gè)。
廣播接收模塊111經(jīng)由廣播信道從外部廣播管理服務(wù)器接收廣播信號(hào)和/或廣播相關(guān)信息。廣播信道可以包括衛(wèi)星信道和/或地面信道。廣播管理服務(wù)器可以是生成并發(fā)送廣播信號(hào)和/或廣播相關(guān)信息的服務(wù)器或者接收之前生成的廣播信號(hào)和/或廣播相關(guān)信息并且將其發(fā)送給終端的服務(wù)器。廣播信號(hào)可以包括TV廣播信號(hào)、無(wú)線(xiàn)電廣播信號(hào)、數(shù)據(jù)廣播信號(hào)等等。而且,廣播信號(hào)可以進(jìn)一步包括與TV或無(wú)線(xiàn)電廣播信號(hào)組合的廣播信號(hào)。廣播相關(guān)信息也可以經(jīng)由移動(dòng)通信網(wǎng)絡(luò)提供,并且在該情況下,廣播相關(guān)信息可以由移動(dòng)通信模塊112來(lái)接收。廣播信號(hào)可以以各種形式存在,例如,其可以以數(shù)字多媒體廣播(DMB)的電子節(jié)目指南(EPG)、數(shù)字視頻廣播手持(DVB-H)的電子服務(wù)指南(ESG)等等的形式而存在。廣播接收模塊111可以通過(guò)使用各種類(lèi)型的廣播系統(tǒng)接收信號(hào)廣播。特別地,廣播接收模塊111可以通過(guò)使用諸如多媒體廣播-地面(DMB-T)、數(shù)字多媒體廣播-衛(wèi)星(DMB-S)、數(shù)字視頻廣播-手持(DVB-H),前向鏈路媒體(MediaFLO@)的數(shù)據(jù)廣播系統(tǒng)、地面數(shù)字廣播綜合服務(wù)(ISDB-T)等等的數(shù)字廣播系統(tǒng)接收數(shù)字廣播。廣播接收模塊111可以被構(gòu)造為適合提供廣播信號(hào)的各種廣播系統(tǒng)以及上述數(shù)字廣播系統(tǒng)。經(jīng)由廣播接收模塊111接收的廣播信號(hào)和/或廣播相關(guān)信息可以存儲(chǔ)在存儲(chǔ)器160(或者其它類(lèi)型的存儲(chǔ)介質(zhì))中。
移動(dòng)通信模塊112將無(wú)線(xiàn)電信號(hào)發(fā)送到基站(例如,接入點(diǎn)、節(jié)點(diǎn)B等等)、外部終端以及服務(wù)器中的至少一個(gè)和/或從其接收無(wú)線(xiàn)電信號(hào)。這樣的無(wú)線(xiàn)電信號(hào)可以包括語(yǔ)音通話(huà)信號(hào)、視頻通話(huà)信號(hào)、或者根據(jù)文本和/或多媒體消息發(fā)送和/或接收的各種類(lèi)型的數(shù)據(jù)。
無(wú)線(xiàn)互聯(lián)網(wǎng)模塊113支持終端的無(wú)線(xiàn)互聯(lián)網(wǎng)接入。該模塊可以?xún)?nèi)部或外部地耦接到終端。該模塊所涉及的無(wú)線(xiàn)互聯(lián)網(wǎng)接入技術(shù)可以包括WLAN(無(wú)線(xiàn)LAN)(Wi-Fi)、Wibro(無(wú)線(xiàn)寬帶)、Wimax(全球微波互聯(lián)接入)、HSDPA(高速下行鏈路分組接入)等等。
短程通信模塊114是用于支持短程通信的模塊。短程通信技術(shù)的一些示例包括藍(lán)牙TM、射頻識(shí)別(RFID)、紅外數(shù)據(jù)協(xié)會(huì)(IrDA)、超寬帶(UWB)、紫蜂TM等等。
位置信息模塊115是用于檢查或獲取終端的位置信息的模塊。位置信息模塊115的典型示例是GPS。根據(jù)當(dāng)前的技術(shù),作為GPS的位置信息模塊115計(jì)算來(lái)自三個(gè)或更多衛(wèi)星的距離信息和準(zhǔn)確的時(shí)間信息并且對(duì)于計(jì)算的信息應(yīng)用三角測(cè)量法,從而根據(jù)經(jīng)度、緯度和高度準(zhǔn)確地計(jì)算三維當(dāng)前位置信息。當(dāng)前,用于計(jì)算位置和時(shí)間信息的方法使用三顆衛(wèi)星并且通過(guò)使用另外的一顆衛(wèi)星校正計(jì)算出的位置和時(shí)間信息的誤差。此外,GPS模塊115能夠通過(guò)實(shí)時(shí)地連續(xù)計(jì)算當(dāng)前位置信息來(lái)計(jì)算速度信息。
A/V輸入單元120用于接收音頻或視頻信號(hào)。A/V輸入單元120可以包括相機(jī)121和麥克風(fēng)122,相機(jī)121對(duì)在視頻捕獲模式或圖像捕獲模式中由圖像捕獲裝置獲得的靜態(tài)圖片或視頻的圖像數(shù)據(jù)進(jìn)行處理。處理后的圖像幀可以顯示在顯示單元151上。經(jīng)相機(jī)121處理后的圖像幀可以存儲(chǔ)在存儲(chǔ)器160(或其它存儲(chǔ)介質(zhì))中或者經(jīng)由無(wú)線(xiàn)通信單元110進(jìn)行發(fā)送,可以根據(jù)終端的構(gòu)造提供兩個(gè)或更多相機(jī)121。麥克風(fēng)122可以在電話(huà)通話(huà)模式、記錄模式、語(yǔ)音識(shí)別模式等等運(yùn)行模式中經(jīng)由麥克風(fēng)122接收聲音(音頻數(shù)據(jù)),并且能夠?qū)⑦@樣的聲音處理為音頻數(shù)據(jù)。處理后的音頻(語(yǔ)音)數(shù)據(jù)可以在電話(huà)通話(huà)模式的情況下轉(zhuǎn)換為可經(jīng)由移動(dòng)通信模塊112發(fā)送到移動(dòng)通信基站的格式輸出。麥克風(fēng)122可以實(shí)施各種類(lèi)型的噪聲消除(或抑制)算法以消除(或抑制)在接收和發(fā)送音頻信號(hào)的過(guò)程中產(chǎn)生的噪聲或者干擾。
用戶(hù)輸入單元130可以根據(jù)用戶(hù)輸入的命令生成鍵輸入數(shù)據(jù)以控制終端的各種操作。用戶(hù)輸入單元130允許用戶(hù)輸入各種類(lèi)型的信息,并且可以包括鍵盤(pán)、鍋?zhàn)衅?、觸摸板(例如,檢測(cè)由于被接觸而導(dǎo)致的電阻、壓力、電容等等的變化的觸敏組件)、滾輪、搖桿等等。特別地,當(dāng)觸摸板以層的形式疊加在顯示單元151上時(shí),可以形成觸摸屏。
感測(cè)單元140檢測(cè)終端100的當(dāng)前狀態(tài),(例如,終端100的打開(kāi)或關(guān)閉狀態(tài))、終端100的位置、用戶(hù)對(duì)于終端100的接觸(即,觸摸輸入)的有無(wú)、終端100的取向、終端100的加速或減速移動(dòng)和方向等等,并且生成用于控制終端100的操作的命令或信號(hào)。例如,當(dāng)終端100實(shí)施為滑動(dòng)型移動(dòng)電話(huà)時(shí),感測(cè)單元140可以感測(cè)該滑動(dòng)型電話(huà)是打開(kāi)還是關(guān)閉。另外,感測(cè)單元140能夠檢測(cè)電源單元190是否提供電力或者接口單元170是否與外部裝置耦接。感測(cè)單元140可以包括接近傳感器141將在下面結(jié)合觸摸屏來(lái)對(duì)此進(jìn)行描述。
接口單元170用作至少一個(gè)外部裝置與終端100連接可以通過(guò)的接口。例如,外部裝置可以包括有線(xiàn)或無(wú)線(xiàn)頭戴式耳機(jī)端口、外部電源(或電池充電器)端口、有線(xiàn)或無(wú)線(xiàn)數(shù)據(jù)端口、存儲(chǔ)卡端口、用于連接具有識(shí)別模塊的裝置的端口、音頻輸入/輸出(I/O)端口、視頻I/O端口、耳機(jī)端口等等。識(shí)別模塊可以是存儲(chǔ)用于驗(yàn)證用戶(hù)使用終端100的各種信息并且可以包括用戶(hù)識(shí)別模塊(UIM)、客戶(hù)識(shí)別模塊(SIM)、通用客戶(hù)識(shí)別模塊(USIM)等等。另外,具有識(shí)別模塊的裝置(下面稱(chēng)為"識(shí)別裝置")可以采取智能卡的形式,因此,識(shí)別裝置可以經(jīng)由端口或其它連接裝置與終端100連接。接口單元170可以用于接收來(lái)自外部裝置的輸入(例如,數(shù)據(jù)信息、電力等等)并且將接收到的輸入傳輸?shù)浇K端100內(nèi)的一個(gè)或多個(gè)元件或者可以用于在終端和外部裝置之間傳輸數(shù)據(jù)。
另外,當(dāng)終端100與外部底座連接時(shí),接口單元170可以用作允許通過(guò)其將電力從底座提供到終端100的路徑或者可以用作允許從底座輸入的各種命令信號(hào)通過(guò)其傳輸?shù)浇K端的路徑。從底座輸入的各種命令信號(hào)或電力可以用作用于識(shí)別終端是否準(zhǔn)確地安裝在底座上的信號(hào)。輸出單元150被構(gòu)造為以視覺(jué)、音頻和/或觸覺(jué)方式提供輸出信號(hào)(例如,音頻信號(hào)、視頻信號(hào)、警報(bào)信號(hào)、振動(dòng)信號(hào)等等)。輸出單元150可以包括顯示單元151、音頻輸出模塊152、警報(bào)單元153等等。
顯示單元151可以顯示在終端100中處理的信息。例如,當(dāng)終端100處于電話(huà)通話(huà)模式時(shí),顯示單元151可以顯示與通話(huà)或其它通信(例如,文本消息收發(fā)、多媒體文件下載等等)相關(guān)的用戶(hù)界面(UI)或圖形用戶(hù)界面(GUI)。當(dāng)終端100處于視頻通話(huà)模式或者圖像捕獲模式時(shí),顯示單元151可以顯示捕獲的圖像和/或接收的圖像、示出視頻或圖像以及相關(guān)功能的UI或GUI等等。
同時(shí),當(dāng)顯示單元151和觸摸板以層的形式彼此疊加以形成觸摸屏?xí)r,顯示單元151可以用作輸入裝置和輸出裝置。顯示單元151可以包括液晶顯示器(LCD)、薄膜晶體管LCD(TFT-LCD)、有機(jī)發(fā)光二極管(OLED)顯示器、柔性顯示器、三維(3D)顯示器等等中的至少一種。這些顯示器中的一些可以被構(gòu)造為透明狀以允許用戶(hù)從外部觀看,這可以稱(chēng)為透明顯示器,典型的透明顯示器可以例如為T(mén)OLED(透明有機(jī)發(fā)光二極管)顯示器等等。根據(jù)特定想要的實(shí)施方式,終端100可以包括兩個(gè)或更多顯示單元(或其它顯示裝置),例如,終端可以包括外部顯示單元(未示出)和內(nèi)部顯示單元(未示出)。觸摸屏可用于檢測(cè)觸摸輸入壓力以及觸摸輸入位置和觸摸輸入面積。
音頻輸出模塊152可以在終端處于呼叫信號(hào)接收模式、通話(huà)模式、記錄模式、語(yǔ)音識(shí)別模式、廣播接收模式等等模式下時(shí),將無(wú)線(xiàn)通信單元110接收的或者在存儲(chǔ)器160中存儲(chǔ)的音頻數(shù)據(jù)轉(zhuǎn)換音頻信號(hào)并且輸出為聲音。而且,音頻輸出模塊152可以提供與終端100執(zhí)行的特定功能相關(guān)的音頻輸出(例如,呼叫信號(hào)接收聲音、消息接收聲音等等)。音頻輸出模塊152可以包括揚(yáng)聲器、蜂鳴器等等。
存儲(chǔ)器160可以存儲(chǔ)由控制器180執(zhí)行的處理和控制操作的軟件程序等等,或者可以暫時(shí)地存儲(chǔ)已經(jīng)輸出或?qū)⒁敵龅臄?shù)據(jù)(例如,電話(huà)簿、消息、靜態(tài)圖像、視頻等等)。而且,存儲(chǔ)器160可以存儲(chǔ)關(guān)于當(dāng)觸摸施加到觸摸屏?xí)r輸出的各種方式的振動(dòng)和音頻信號(hào)的數(shù)據(jù)。
存儲(chǔ)器160可以包括至少一種類(lèi)型的存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)包括閃存、硬盤(pán)、多媒體卡、卡型存儲(chǔ)器(例如,SD或DX存儲(chǔ)器等等)、隨機(jī)訪(fǎng)問(wèn)存儲(chǔ)器(RAM)、靜態(tài)隨機(jī)訪(fǎng)問(wèn)存儲(chǔ)器(SRAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、可編程只讀存儲(chǔ)器(PROM)、磁性存儲(chǔ)器、磁盤(pán)、光盤(pán)等等。而且,終端100可以與通過(guò)網(wǎng)絡(luò)連接執(zhí)行存儲(chǔ)器160的存儲(chǔ)功能的網(wǎng)絡(luò)存儲(chǔ)裝置協(xié)作。
控制器180通??刂平K端的總體操作。例如,控制器180執(zhí)行與語(yǔ)音通話(huà)、數(shù)據(jù)通信、視頻通話(huà)等等相關(guān)的控制和處理。另外,控制器180可以包括用于再現(xiàn)(或回放)多媒體數(shù)據(jù)的多媒體模塊181,多媒體模塊181可以構(gòu)造在控制器180內(nèi),或者可以構(gòu)造為與控制器180分離??刂破?80可以執(zhí)行模式識(shí)別處理,以將在觸摸屏上執(zhí)行的手寫(xiě)輸入或者圖片繪制輸入識(shí)別為字符或圖像。
電源單元190在控制器180的控制下接收外部電力或內(nèi)部電力并且提供操作各元件和組件所需的適當(dāng)?shù)碾娏Α?/p>
這里描述的各種實(shí)施方式可以以使用例如計(jì)算機(jī)軟件、硬件或其任何組合的計(jì)算機(jī)可讀介質(zhì)來(lái)實(shí)施。對(duì)于硬件實(shí)施,這里描述的實(shí)施方式可以通過(guò)使用特定用途集成電路(ASIC)、數(shù)字信號(hào)處理器(DSP)、數(shù)字信號(hào)處理裝置(DSPD)、可編程邏輯裝置(PLD)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)、處理器、控制器、微控制器、微處理器、被設(shè)計(jì)為執(zhí)行這里描述的功能的電子單元中的至少一種來(lái)實(shí)施,在一些情況下,這樣的實(shí)施方式可以在控制器180中實(shí)施。對(duì)于軟件實(shí)施,諸如過(guò)程或功能的實(shí)施方式可以與允許執(zhí)行至少一種功能或操作的單獨(dú)的軟件模塊來(lái)實(shí)施。軟件代碼可以由以任何適當(dāng)?shù)木幊陶Z(yǔ)言編寫(xiě)的軟件應(yīng)用程序(或程序)來(lái)實(shí)施,軟件代碼可以存儲(chǔ)在存儲(chǔ)器160中并且由控制器180執(zhí)行。
至此,已經(jīng)按照其功能描述了終端。下面,為了簡(jiǎn)要起見(jiàn),將描述諸如折疊型、直板型、擺動(dòng)型、滑動(dòng)型終端等等的各種類(lèi)型的終端中的滑動(dòng)型終端作為示例。因此,本發(fā)明能夠應(yīng)用于任何類(lèi)型的終端,并且不限于滑動(dòng)型終端。
如圖1中所示的終端100可以被構(gòu)造為利用經(jīng)由幀或分組發(fā)送數(shù)據(jù)的諸如有線(xiàn)和無(wú)線(xiàn)通信系統(tǒng)以及基于衛(wèi)星的通信系統(tǒng)來(lái)操作。
現(xiàn)在將參考圖2描述其中根據(jù)本發(fā)明的移動(dòng)終端能夠操作的通信系統(tǒng)。
這樣的通信系統(tǒng)可以使用不同的空中接口和/或物理層。例如,由通信系統(tǒng)使用的空中接口包括例如頻分多址(FDMA)、時(shí)分多址(TDMA)、碼分多址(CDMA)和通用移動(dòng)通信系統(tǒng)(UMTS)(特別地,長(zhǎng)期演進(jìn)(LTE))、全球移動(dòng)通信系統(tǒng)(GSM)等等。作為非限制性示例,下面的描述涉及CDMA通信系統(tǒng),但是這樣的教導(dǎo)同樣適用于其它類(lèi)型的系統(tǒng)。
參考圖2,CDMA無(wú)線(xiàn)通信系統(tǒng)可以包括多個(gè)移動(dòng)終端100、多個(gè)基站(BS)270、基站控制器(BSC)275和移動(dòng)交換中心(MSC)280。MSC280被構(gòu)造為與公共電話(huà)交換網(wǎng)絡(luò)(PSTN)290形成接口。MSC280還被構(gòu)造為與可以經(jīng)由回程線(xiàn)路耦接到基站270的BSC275形成接口?;爻叹€(xiàn)路可以根據(jù)若干已知的接口中的任一種來(lái)構(gòu)造,所述接口包括例如E1/T1、ATM,IP、PPP、幀中繼、HDSL、ADSL或xDSL。將理解的是,如圖2中所示的系統(tǒng)可以包括多個(gè)BSC275。
每個(gè)BS270可以服務(wù)一個(gè)或多個(gè)分區(qū)(或區(qū)域),由多向天線(xiàn)或指向特定方向的天線(xiàn)覆蓋的每個(gè)分區(qū)放射狀地遠(yuǎn)離BS270?;蛘?,每個(gè)分區(qū)可以由用于分集接收的兩個(gè)或更多天線(xiàn)覆蓋。每個(gè)BS270可以被構(gòu)造為支持多個(gè)頻率分配,并且每個(gè)頻率分配具有特定頻譜(例如,1.25MHz,5MHz等等)。
分區(qū)與頻率分配的交叉可以被稱(chēng)為CDMA信道。BS270也可以被稱(chēng)為基站收發(fā)器子系統(tǒng)(BTS)或者其它等效術(shù)語(yǔ)。在這樣的情況下,術(shù)語(yǔ)“基站”可以用于籠統(tǒng)地表示單個(gè)BSC275和至少一個(gè)BS270。基站也可以被稱(chēng)為“蜂窩站”?;蛘?,特定BS270的各分區(qū)可以被稱(chēng)為多個(gè)蜂窩站。
如圖2中所示,廣播發(fā)射器(BT)295將廣播信號(hào)發(fā)送給在系統(tǒng)內(nèi)操作的移動(dòng)終端100。如圖1中所示的廣播接收模塊111被設(shè)置在移動(dòng)終端100處以接收由BT295發(fā)送的廣播信號(hào)。在圖2中,示出了幾個(gè)全球定位系統(tǒng)(GPS)衛(wèi)星300。衛(wèi)星300幫助定位多個(gè)移動(dòng)終端100中的至少一個(gè)。
在圖2中,描繪了多個(gè)衛(wèi)星300,但是理解的是,可以利用任何數(shù)目的衛(wèi)星獲得有用的定位信息。如圖1中所示的GPS模塊115通常被構(gòu)造為與衛(wèi)星300配合以獲得想要的定位信息。替代GPS跟蹤技術(shù)或者在GPS跟蹤技術(shù)之外,可以使用可以跟蹤移動(dòng)終端的位置的其它技術(shù)。另外,至少一個(gè)GPS衛(wèi)星300可以選擇性地或者額外地處理衛(wèi)星DMB傳輸。
作為無(wú)線(xiàn)通信系統(tǒng)的一個(gè)典型操作,BS270接收來(lái)自各種移動(dòng)終端100的反向鏈路信號(hào)。移動(dòng)終端100通常參與通話(huà)、消息收發(fā)和其它類(lèi)型的通信。特定基站270接收的每個(gè)反向鏈路信號(hào)被在特定BS270內(nèi)進(jìn)行處理。獲得的數(shù)據(jù)被轉(zhuǎn)發(fā)給相關(guān)的BSC275。BSC提供通話(huà)資源分配和包括BS270之間的軟切換過(guò)程的協(xié)調(diào)的移動(dòng)管理功能。BSC275還將接收到的數(shù)據(jù)路由到MSC280,其提供用于與PSTN290形成接口的額外的路由服務(wù)。類(lèi)似地,PSTN290與MSC280形成接口,MSC與BSC275形成接口,并且BSC275相應(yīng)地控制BS270以將正向鏈路信號(hào)發(fā)送到移動(dòng)終端100。
下面將基于上述終端硬件結(jié)構(gòu)以及通信系統(tǒng),提出本發(fā)明方法各個(gè)實(shí)施例。
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)一步詳細(xì)闡述。
實(shí)施例一
基于前述的實(shí)施例,本發(fā)明實(shí)施例提供一種詞向量的生成方法,該方法應(yīng)用于詞向量的生成裝置,其中,該裝置可以為設(shè)置于上述終端中,該詞向量的生成方法所實(shí)現(xiàn)的功能可以通過(guò)終端中的處理器調(diào)用程序代碼來(lái)實(shí)現(xiàn),當(dāng)然程序代碼可以保存在計(jì)算機(jī)存儲(chǔ)介質(zhì)中,可見(jiàn),該終端至少包括處理器和存儲(chǔ)介質(zhì)。
本實(shí)施例提供一種詞向量的生成方法,圖3為本發(fā)明實(shí)施例一中的詞向量的生成方法的流程示意圖,參考圖3所示,上述詞向量的生成方法包括:
S301:對(duì)獲取到的第一訓(xùn)練分詞集進(jìn)行word2vec處理,得到第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;
具體來(lái)說(shuō),首先,采集現(xiàn)有的訓(xùn)練文本,現(xiàn)有的訓(xùn)練文本可以是從網(wǎng)頁(yè)、貼吧、論壇等中采集到的,這里,盡可能多且廣泛地采集現(xiàn)有訓(xùn)練文本,使得能夠采集到涵蓋盡可能大的現(xiàn)有的訓(xùn)練文本。
在獲取到盡可能大的現(xiàn)有的訓(xùn)練文本之后,對(duì)現(xiàn)有的訓(xùn)練文本使用分詞工具進(jìn)行分詞,得到現(xiàn)有訓(xùn)練文本的訓(xùn)練分詞,利用現(xiàn)有訓(xùn)練文本的訓(xùn)練分詞組成第一訓(xùn)練分詞集,其中,之所以采集盡可能大的現(xiàn)有的訓(xùn)練文本,是因?yàn)橹挥斜M可能大的現(xiàn)有的訓(xùn)練文本,才能夠保證得到的第一訓(xùn)練分詞集中的訓(xùn)練分詞盡可能多。
另外,在獲取到包含有足夠多的訓(xùn)練分詞的第一訓(xùn)練分詞集之后,對(duì)第一訓(xùn)練分詞集進(jìn)行word2vec處理,可以得到第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,這樣,第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞都可以用一個(gè)詞向量來(lái)表示,那么,可以通過(guò)計(jì)算訓(xùn)練分詞的詞向量之間的相似度來(lái)表示單詞/詞語(yǔ)在語(yǔ)義上的相似度。
這里,需要說(shuō)明的是,第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量均為n維的向量。
S302:接收新分詞;
在具體實(shí)施過(guò)程中,經(jīng)過(guò)S301之后,就獲取到了第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,那么,當(dāng)出現(xiàn)一個(gè)新分詞時(shí),由于新分詞不存在于第一訓(xùn)練分詞集中,所以,在接收到新分詞之后,通過(guò)查找發(fā)現(xiàn)該新分詞不存在于第一訓(xùn)練分詞集中時(shí),需要將新出現(xiàn)的新分詞加入至第一訓(xùn)練分詞集中,從而完善第一訓(xùn)練分詞集。
S303:獲取新分詞的訓(xùn)練文本,對(duì)新分詞的訓(xùn)練文本進(jìn)行分詞處理,得到新分詞的訓(xùn)練分詞,利用新分詞和新分詞的訓(xùn)練分詞組成第二訓(xùn)練分詞集;
在具體實(shí)施過(guò)程中,為了避免加入新分詞時(shí)的重新訓(xùn)練,仍然能夠達(dá)到將新分詞加入至第一訓(xùn)練分詞集的目的,在S303中,首先,根據(jù)新分詞使用爬蟲(chóng)工具從網(wǎng)絡(luò)服務(wù)器上抓取與新分詞相關(guān)的語(yǔ)料庫(kù),將與新分詞相關(guān)的語(yǔ)料庫(kù)作為新分詞的訓(xùn)練文本,然后,對(duì)新分詞的訓(xùn)練文本使用分詞工具進(jìn)行分詞處理,從而得到新分詞的訓(xùn)練分詞。
這樣,新分詞和新分詞的訓(xùn)練分詞便組成了第二訓(xùn)練分詞集。
其中,上述分詞工具包括:StandardAnalyzer,或者ChineseAnalyzer,或者CJKAnalyzer,這里,本發(fā)明實(shí)施例不限于此。
至此,便獲取到包含有新分詞的第二訓(xùn)練分詞集。
S304:對(duì)第二訓(xùn)練分詞集進(jìn)行word2vec處理,得到第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;
在具體實(shí)施過(guò)程中,通過(guò)S303,獲取到了包含有新分詞的第二訓(xùn)練分詞集,為了得到第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,那么,采用與對(duì)第一訓(xùn)練分詞集相同的處理方式,對(duì)第二訓(xùn)練分詞集進(jìn)行word2vec處理,從而得到了第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;
也就是說(shuō),第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量包括有新分詞的詞向量。
其中,第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量均為n維的向量,可見(jiàn),第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量的維度與第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量的維度是相等的。
S305:根據(jù)第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量和第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量。
具體來(lái)說(shuō),在獲取到上述第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量和第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量之后,可以采用以下任意一種方式來(lái)確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量:
舉例來(lái)說(shuō),可以通過(guò)篩選的方式篩選出第二訓(xùn)練分詞集中的部分訓(xùn)練分詞,基于上述第二訓(xùn)練分詞集中的部分訓(xùn)練分詞的詞向量和該部分訓(xùn)練分詞在第一訓(xùn)練分詞集中的詞向量來(lái)確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量,也可以基于上述第二訓(xùn)練分詞集中的全部訓(xùn)練分詞的詞向量和該全部訓(xùn)練分詞在第一訓(xùn)練分詞集中的詞向量來(lái)確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量;這里,本發(fā)明實(shí)施例不做具體限定。
這樣,便確定出了新分詞加入至第一訓(xùn)練分詞集中的詞向量,從而將新分詞加入至第一訓(xùn)練分詞集中,進(jìn)而完善了第一訓(xùn)練分詞集。
本發(fā)明實(shí)施例所提供的一種詞向量的生成方法,對(duì)獲取到的第一訓(xùn)練分詞集進(jìn)行word2vec處理,得到第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;接收新分詞;其中,新分詞不存在于第一訓(xùn)練分詞集中;那么,為了將新分詞加入第一訓(xùn)練分詞集中,先獲取新分詞的訓(xùn)練文本,對(duì)新分詞的訓(xùn)練文本進(jìn)行分詞處理,得到新分詞的訓(xùn)練分詞,利用新分詞和新分詞的訓(xùn)練分詞組成第二訓(xùn)練分詞集;然后對(duì)第二訓(xùn)練分詞集進(jìn)行word2vec處理,得到第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;這樣,得到了第二訓(xùn)練分詞集,最后,根據(jù)第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量和第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量,也就是說(shuō),在本發(fā)明實(shí)施例中,不需要將新分詞加入至第一訓(xùn)練分詞集中重新進(jìn)行訓(xùn)練處理,只需要根據(jù)新分詞得到第二訓(xùn)練分詞集,就可以根據(jù)第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量和第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量,這樣,避免新分詞加入時(shí)重新訓(xùn)練所需的運(yùn)算量,不用丟失原有的訓(xùn)練信息,縮短了新分詞加入時(shí)生成詞向量的時(shí)間,進(jìn)而提高了word2vec的魯棒性。
實(shí)施例二
基于前述的實(shí)施例,本實(shí)施例提供一種詞向量的生成方法,該方法可以應(yīng)用于終端,該詞向量的生成方法所實(shí)現(xiàn)的功能可以通過(guò)終端中的處理器調(diào)用程序代碼來(lái)實(shí)現(xiàn),當(dāng)然程序代碼可以保存在計(jì)算機(jī)存儲(chǔ)介質(zhì)中,可見(jiàn),該終端至少包括處理器和存儲(chǔ)介質(zhì)。
在上述實(shí)施例一的基礎(chǔ)上,圖4為本發(fā)明實(shí)施例二中的詞向量的生成方法的一種可選的流程示意圖,參考圖4所示,S305可以包括:
S401:從第二訓(xùn)練分詞集中,選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞;
具體來(lái)說(shuō),針對(duì)從第二訓(xùn)練分詞集中選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞的方式有多種,這里,為了選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞,在一種可選的實(shí)施例中,S401可以包括:
在第二訓(xùn)練分詞集中,計(jì)算每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度;根據(jù)每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度,按照從大到小的順序從第二訓(xùn)練分詞集中選取出預(yù)設(shè)數(shù)目的訓(xùn)練分詞。
具體來(lái)說(shuō),首先,采用余弦相似度算法,計(jì)算出第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度,得到第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度;然后,將得到的各相似度按照從大到小的順序進(jìn)行排序,然后按照從大到小的順序選取出預(yù)設(shè)數(shù)目N的相似度對(duì)應(yīng)的訓(xùn)練分詞。
在另一種可選的實(shí)施例中,為了選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞,S401還可以包括:
從第二訓(xùn)練分詞集中,按照訓(xùn)練分詞選取策略選取訓(xùn)練分詞;
其中,訓(xùn)練分詞選取策略為:選取的訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度大于預(yù)設(shè)值。
在具體實(shí)施過(guò)程中,同樣地,采用余弦相似度算法,計(jì)算出第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度,得到第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度;然后,將得到的各相似度與預(yù)設(shè)值進(jìn)行比較,將相似度大于預(yù)設(shè)值所對(duì)應(yīng)的訓(xùn)練分詞選取出來(lái)。
這樣,通過(guò)上述實(shí)施例就可以從第二訓(xùn)練分詞集中選取出與新分詞最相關(guān)的訓(xùn)練分詞,那么利用這些訓(xùn)練分詞來(lái)確定新分詞加入至第一訓(xùn)練分詞集中的詞向量,不僅可以減少運(yùn)算量,還可以提高word2vec的魯棒性。
S402:根據(jù)滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在第一訓(xùn)練分詞集中的詞向量和滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在第二訓(xùn)練分詞集中的詞向量,確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量。
通過(guò)S401選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞之后,可以在第一訓(xùn)練分詞集中查找出該滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞,并確定出該滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在第一訓(xùn)練分詞中的詞向量。
這里,需要說(shuō)明的是,當(dāng)上述滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞僅僅有一部分存在于第一訓(xùn)練分詞集中時(shí),可以基于該部分在第一訓(xùn)練分詞集中的詞向量和該部分在第二訓(xùn)練分詞集中的詞向量來(lái)確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量。
在S402中,為了確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量,在一種可選的實(shí)施例中,S402可以包括:
對(duì)滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在第二訓(xùn)練分詞集中的詞向量進(jìn)行加權(quán)平均計(jì)算,得到第一加權(quán)中心向量;計(jì)算新分詞的詞向量與第一加權(quán)中心向量之間的相似度;對(duì)滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在第一訓(xùn)練分詞集中的詞向量進(jìn)行加權(quán)平均計(jì)算,得到第二加權(quán)中心向量;基于相似度相等規(guī)則,根據(jù)新分詞的詞向量與第一加權(quán)中心向量之間的相似度和第二加權(quán)中心向量,確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量;
其中,上述相似度相等規(guī)則為:新分詞的詞向量與第一加權(quán)中心向量之間的相似度等于新分詞加入至第一訓(xùn)練分詞集中的詞向量與第二加權(quán)中心向量之間的相似度。
下面舉實(shí)例來(lái)對(duì)上述詞向量的生成方法中的一個(gè)或多個(gè)實(shí)施例進(jìn)行說(shuō)明。
圖5為本發(fā)明實(shí)施例二中的詞向量的生成方法的另一種可選的流程示意圖,參考圖5所示,該詞向量的生成方法包括:
S501:對(duì)現(xiàn)有的訓(xùn)練集T1(盡可能大),使用分詞工具分詞,并訓(xùn)練得到每個(gè)詞的word2vec詞向量,形成一個(gè)模型M1。
S502:當(dāng)出現(xiàn)一個(gè)新詞W(即在模型M1中不存在的詞)時(shí),使用爬蟲(chóng)工具,在網(wǎng)頁(yè)上抓取與新詞相關(guān)的語(yǔ)料庫(kù)。
S503:將步驟S502抓取的新語(yǔ)料庫(kù)作為新的訓(xùn)練集T2,使用分詞工具分詞(確保新詞不被分詞器切分),訓(xùn)練得到T2中的每個(gè)詞的詞向量,形成一個(gè)模型M2。
S504:在訓(xùn)練好的模型M2中,使用余弦相似度算法,計(jì)算M2中各個(gè)詞的詞向量與新詞的詞向量W之間的相似度,并選取出相似度大于相似度閾值的詞,假設(shè)選取出N個(gè)詞,N的取值取決于相似度閾值的設(shè)定大小,例如,設(shè)定閾值為p時(shí),在M2中找出所有與新詞的詞向量W相近的詞的詞向量W'必須滿(mǎn)足如下公式:
{Similarity(W,W')>p,W'∈M2} (1)
其中,n為詞向量的維度,Wi表示新詞的詞向量W的第i維坐標(biāo),Wi'為M2中每個(gè)詞的第i維坐標(biāo)。
由上述公式(1)和公式(2)可以得到大于p的詞向量W'有N個(gè)。
S505:保存N個(gè)詞向量W'。
S506:按照下述公式計(jì)算N個(gè)詞向量W'的加權(quán)中心向量(該向量是在模型M2中的詞向量):
其中,N個(gè)詞在模型M2中的向量分別為ω1,ω2,…,ωN。
S507:按照下述公式計(jì)算新詞的W與加權(quán)中心向量的相似度q:
S508:按照下述公式計(jì)算模型M1中相同的N個(gè)詞的加權(quán)中心向量:
其中,N個(gè)相近詞在模型M1中的向量分別為ω1',ω2',…,ωN',每個(gè)向量的權(quán)重采用步驟S506中的權(quán)重;
S509:從滿(mǎn)足下述公式的模型M1中找到任意一個(gè)向量D:
其中,q為S507中計(jì)算得到的相似度,而此時(shí)得到的向量D即為新詞在模型M1中的詞向量。
實(shí)施例三
基于前述的方法實(shí)施例,本實(shí)施例提供一種詞向量的生成裝置,該裝置可以設(shè)置于終端中,該裝置中的第一處理模塊、接收模塊、獲取模塊、第二處理模塊和確定模塊,都可以通過(guò)終端中的處理器來(lái)實(shí)現(xiàn),當(dāng)然也可通過(guò)具體的邏輯電路實(shí)現(xiàn);在具體實(shí)施例的過(guò)程中,處理器可以為中央處理器(CPU)、微處理器(MPU)、數(shù)字信號(hào)處理器(DSP)或現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)等。
本實(shí)施例所提供的詞向量的生成裝置,圖6為本發(fā)明實(shí)施例三中的詞向量的生成裝置的結(jié)構(gòu)示意圖,如圖6所示,該終端包括第一處理模塊61、接收模塊62、獲取模塊63、第二處理模塊64和確定模塊65,
其中,第一處理模塊61,用于對(duì)獲取到的第一訓(xùn)練分詞集進(jìn)行word2vec處理,得到第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;接收模塊62,用于接收新分詞;其中,新分詞不存在于第一訓(xùn)練分詞集中;獲取模塊63,用于獲取新分詞的訓(xùn)練文本,對(duì)新分詞的訓(xùn)練文本進(jìn)行分詞處理,得到新分詞的訓(xùn)練分詞,利用新分詞和新分詞的訓(xùn)練分詞組成第二訓(xùn)練分詞集;第二處理模塊64,用于對(duì)第二訓(xùn)練分詞集進(jìn)行word2vec處理,得到第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量;確定模塊65,用于根據(jù)第一訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量和第二訓(xùn)練分詞集中每個(gè)訓(xùn)練分詞的詞向量,確定出新分詞加入至所述第一訓(xùn)練分詞集中的詞向量。
為了確定出新分詞加入至所述第一訓(xùn)練分詞集中的詞向量,在一種可選的實(shí)施例中,上述確定模塊65,包括:選取子模塊,用于從第二訓(xùn)練分詞集中,選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞;確定子模塊,用于根據(jù)滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在第一訓(xùn)練分詞集中的詞向量和滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在第二訓(xùn)練分詞集中的詞向量,確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量。
為了從第二訓(xùn)練分詞集中選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞,在一種可選的實(shí)施例中,上述選取子模塊,具體用于在第二訓(xùn)練分詞集中,計(jì)算每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度;根據(jù)每個(gè)訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度,按照從大到小的順序從第二訓(xùn)練分詞集中選取出預(yù)設(shè)數(shù)目的訓(xùn)練分詞。
為了從第二訓(xùn)練分詞集中選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞,在一種可選的實(shí)施例中,上述選取子模塊,具體用于從第二訓(xùn)練分詞集中,按照訓(xùn)練分詞選取策略選取訓(xùn)練分詞;其中,訓(xùn)練分詞選取策略為:選取的訓(xùn)練分詞的詞向量與新分詞的詞向量之間的相似度大于預(yù)設(shè)值。
在從第二訓(xùn)練分詞集中選取出滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞之后,為了基于滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量,在一種可選的實(shí)施例中,上述確定子模塊,具體用于:對(duì)滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在第二訓(xùn)練分詞集中的詞向量進(jìn)行加權(quán)平均計(jì)算,得到第一加權(quán)中心向量;計(jì)算新分詞的詞向量與第一加權(quán)中心向量之間的相似度;對(duì)滿(mǎn)足預(yù)設(shè)條件的訓(xùn)練分詞在第一訓(xùn)練分詞集中的詞向量進(jìn)行加權(quán)平均計(jì)算,得到第二加權(quán)中心向量;基于相似度相等規(guī)則,根據(jù)新分詞的詞向量與第一加權(quán)中心向量之間的相似度和第二加權(quán)中心向量,確定出新分詞加入至第一訓(xùn)練分詞集中的詞向量;其中,上述相似度相等規(guī)則為:新分詞的詞向量與第一加權(quán)中心向量之間的相似度等于新分詞加入至第一訓(xùn)練分詞集中的詞向量與第二加權(quán)中心向量之間的相似度。
這里需要指出的是:以上裝置實(shí)施例項(xiàng)的描述,與上述方法描述是類(lèi)似的,具有同方法實(shí)施例相同的有益效果,因此不做贅述。對(duì)于本發(fā)明裝置實(shí)施例中未披露的技術(shù)細(xì)節(jié),本領(lǐng)域的技術(shù)人員請(qǐng)參照本發(fā)明方法實(shí)施例的描述而理解,為節(jié)約篇幅,這里不再贅述。
這里需要指出的是:
應(yīng)理解,說(shuō)明書(shū)通篇中提到的“一個(gè)實(shí)施例”或“一實(shí)施例”意味著與實(shí)施例有關(guān)的特定特征、結(jié)構(gòu)或特性包括在本發(fā)明的至少一個(gè)實(shí)施例中。因此,在整個(gè)說(shuō)明書(shū)各處出現(xiàn)的“在一個(gè)實(shí)施例中”或“在一實(shí)施例中”未必一定指相同的實(shí)施例。此外,這些特定的特征、結(jié)構(gòu)或特性可以任意適合的方式結(jié)合在一個(gè)或多個(gè)實(shí)施例中。應(yīng)理解,在本發(fā)明的各種實(shí)施例中,上述各過(guò)程的序號(hào)的大小并不意味著執(zhí)行順序的先后,各過(guò)程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對(duì)本發(fā)明實(shí)施例的實(shí)施過(guò)程構(gòu)成任何限定。上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
需要說(shuō)明的是,在本文中,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者裝置不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者裝置所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括該要素的過(guò)程、方法、物品或者裝置中還存在另外的相同要素。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的設(shè)備和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。以上所描述的設(shè)備實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,如:多個(gè)單元或組件可以結(jié)合,或可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的各組成部分相互之間的耦合、或直接耦合、或通信連接可以是通過(guò)一些接口,設(shè)備或單元的間接耦合或通信連接,可以是電性的、機(jī)械的或其它形式的。
上述作為分離部件說(shuō)明的單元可以是、或也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是、或也可以不是物理單元;既可以位于一個(gè)地方,也可以分布到多個(gè)網(wǎng)絡(luò)單元上;可以根據(jù)實(shí)際的需要選擇其中的部分或全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各實(shí)施例中的各功能單元可以全部集成在一個(gè)處理單元中,也可以是各單元分別單獨(dú)作為一個(gè)單元,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)單元中;上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過(guò)程序指令相關(guān)的硬件來(lái)完成,前述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:移動(dòng)存儲(chǔ)設(shè)備、只讀存儲(chǔ)器(Read Only Memory,ROM)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
或者,本發(fā)明上述集成的單元如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明實(shí)施例的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分。而前述的存儲(chǔ)介質(zhì)包括:移動(dòng)存儲(chǔ)設(shè)備、ROM、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。