一種文本表示方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理技術(shù),尤其涉及一種文本表示方法及裝置。
【背景技術(shù)】
[0002]在信息處理技術(shù)領(lǐng)域,往往會涉及到文本處理。文本處理是指對經(jīng)過文本表示后的文本內(nèi)容,進(jìn)行文本檢索、文本分類、文本分析等處理,其中,文本表示是指將原始的文本內(nèi)容變成計算機(jī)內(nèi)部表示結(jié)構(gòu),該內(nèi)部表示結(jié)構(gòu)是計算機(jī)程序可分析的結(jié)構(gòu),例如,可以用文本內(nèi)容中的詞語、短語等形成計算機(jī)可分析的向量結(jié)構(gòu)。
[0003]文本表示的準(zhǔn)確性越高,就越能準(zhǔn)確表達(dá)當(dāng)前文本的內(nèi)涵,文本處理的效果越好、效率就越高,反之,文本表示的準(zhǔn)確性越低,表達(dá)出的文本的內(nèi)涵就越偏離文本的實(shí)際內(nèi)涵,文本處理的效果就越差、效率也就越低。
[0004]在現(xiàn)有技術(shù)中,文本表示方法主要基于向量空間模型。向量空間模型表示文本的方法為:針對某一個文本,首先對該文本進(jìn)行分詞,得到多個詞語,然后再根據(jù)這些詞語在文本中出現(xiàn)的頻率,選取頻率大于預(yù)設(shè)值的詞語作為表達(dá)該文本的特征詞,并計算每一個特征詞的權(quán)重,最后將這些特征詞和對應(yīng)的權(quán)重構(gòu)成文本向量,該文本向量就是該文本的表示形式。例如,對于某一個文本,第i個特征詞為fi,該特征詞的權(quán)重為wi,則文本表示形式為:{〈Π:wl>、〈f2:w2>、......、〈f1:wi>、......},其中,i = 1、2、3、......。
[0005]上述現(xiàn)有技術(shù)提供的文本表示方法中,在選取特征詞時,并沒有考慮特征詞在句子中的語義,也沒有考慮句子之間的相關(guān)性,只是機(jī)械的從文本中提取頻率大于預(yù)設(shè)值的詞語作為特征詞,此外,由于文本向量中的特征詞為文本中的詞語,由于獨(dú)立的詞語可能存在多層含義,無法準(zhǔn)確表達(dá)文本的內(nèi)涵,因此,文本向量表達(dá)文本的準(zhǔn)確性就較低,相應(yīng)的,文本處理的準(zhǔn)確性也就較低。
【發(fā)明內(nèi)容】
[0006]本發(fā)明實(shí)施例提供一種文本表示方法及裝置,用以提高文本表示的準(zhǔn)確性,從而還可提高文本處理的準(zhǔn)確性。
[0007]本發(fā)明實(shí)施例提供的一種文本表示方法,包括:
[0008]確定構(gòu)成當(dāng)前文本的各詞語;
[0009]確定各詞語的詞向量;
[0010]對各詞向量進(jìn)行聚類;
[0011]根據(jù)聚類結(jié)果,在各詞語中確定出當(dāng)前文本的特征詞以及該特征詞的權(quán)重;
[0012]根據(jù)各特征詞的詞向量和權(quán)重確定當(dāng)前文本的文本向量。
[0013]本發(fā)明實(shí)施例提供的一種文本表示裝置,包括:
[0014]第一確定模塊,用于確定構(gòu)成當(dāng)前文本的各詞語;
[0015]第二確定模塊,用于確定各詞語的詞向量;
[0016]聚類模塊,用于對各詞向量進(jìn)行聚類;
[0017]第三確定模塊,用于根據(jù)聚類結(jié)果,在各詞語中確定出當(dāng)前文本的特征詞以及該特征詞的權(quán)重;
[0018]第四確定模塊,用于根據(jù)各特征詞的詞向量和權(quán)重確定當(dāng)前文本的文本向量。
[0019]本發(fā)明實(shí)施例提供的一種文本表示方法及裝置,該方法確定構(gòu)成當(dāng)前文本的各詞語,確定每個詞語的詞向量,對各詞向量進(jìn)行聚類,根據(jù)聚類結(jié)果確定當(dāng)前文本的特征詞和該特征詞的權(quán)重,根據(jù)每個詞語的特征詞對應(yīng)的詞向量和權(quán)重確定當(dāng)前文本的文本向量??梢?,本發(fā)明中的詞語是由詞向量來表示的,詞向量相比較詞語可以從多個維度對該詞語進(jìn)行描述,可更加準(zhǔn)確的表示詞語的語義信息,此外,聚類的過程已經(jīng)考慮了特征詞在句子中的語義以及句子之間的相關(guān)性,因此,本發(fā)明通過對詞向量進(jìn)行聚類確定特征詞,可有效提尚確定當(dāng)如文本的特征詞的準(zhǔn)確性,進(jìn)而可有效提尚文本處理的準(zhǔn)確性。
【附圖說明】
[0020]此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本發(fā)明的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0021]圖1為本發(fā)明實(shí)施例提供的一種文本表示方法流程示意圖;
[0022]圖2為本發(fā)明實(shí)施例提供的一種預(yù)設(shè)詞向量庫的方法流程示意圖;
[0023]圖3為本發(fā)明實(shí)施例提供的一種文本表示裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0024]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下將結(jié)合本發(fā)明具體實(shí)施例及相應(yīng)的附圖對本發(fā)明技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0025]參見圖1,為本發(fā)明實(shí)施例提供的一種文本表示方法流程示意圖,包括:
[0026]SlOl:確定構(gòu)成當(dāng)前文本的各詞語。
[0027]在本發(fā)明實(shí)施例中,所述的當(dāng)前本文是服務(wù)器獲取的需要進(jìn)行文本表示的文本,該文本可以是中文形式的句子、段落或篇章等,該文本可以是txt、doc、pdf、wps等格式的文本。
[0028]在本發(fā)明實(shí)施例中,服務(wù)器可以但不限于從預(yù)設(shè)存儲區(qū)域(如語料庫)中獲取文本,或者在線獲取用戶當(dāng)前上傳的文本,并將獲取的文本作為當(dāng)前文本。
[0029]本發(fā)明實(shí)施例在獲取當(dāng)前文本之后,可以對該當(dāng)前文本進(jìn)行分詞,得到構(gòu)成當(dāng)前文本的各詞語。在分詞過程中,采用的分詞方法可包括但不限于:逐詞遍歷法、機(jī)械分詞法等。例如,假設(shè)服務(wù)器獲取一篇文章,將該文章作為當(dāng)前文本后,對該文章內(nèi)容進(jìn)行預(yù)處理,然后對預(yù)處理后的文章內(nèi)容進(jìn)行分詞,分詞后得到的各詞語包括:顯示、平板、液晶、照明、器件這五個詞語,可將這五個詞語確定為構(gòu)成當(dāng)前文本的各詞語。
[0030]為了降低分詞時服務(wù)器的計算量并避免一些詞語的干擾,本發(fā)明實(shí)施例在分詞之前,可以對當(dāng)前文本進(jìn)行預(yù)處理,比如,去除當(dāng)前文本中的超文本標(biāo)記語言(HypertextMarkup Language, HTML)、將當(dāng)前文本中的繁體字轉(zhuǎn)化為簡體字、將全角字符轉(zhuǎn)化為半角字符等等。
[0031]考慮到在實(shí)際應(yīng)用場景中,分詞后得到的各詞語中除了包含具有實(shí)際意義的詞語之外,還可能包含一些無實(shí)際意義的詞語,而特征詞一般均為具有實(shí)際意義的詞語,因此,本發(fā)明實(shí)施例在確定構(gòu)成當(dāng)前文本的各詞語時,具體的,對當(dāng)前文本進(jìn)行分詞,得到多個詞語之后,還可以在各詞語中確定出指定類型的詞語,為了避免篩選出相同的詞語,還可以進(jìn)一步對指定類型的詞語進(jìn)行去重處理,將去重處理后的各詞語作為構(gòu)成當(dāng)前文本的各詞語;其中,所述的指定類型的詞語具體可以是具有實(shí)際意義的詞語,具有實(shí)際意義的詞語可包括但不限于:名詞、動詞、形容詞等,則不具有實(shí)際意義的詞語通常為助詞、副詞、虛詞等。
[0032]S102:確定各詞語的詞向量。
[0033]在本發(fā)明實(shí)施例中,為了更詳細(xì)地表達(dá)一個詞語的含義(即語義信息),可采用包括N個元素的N維向量來表示一個詞語,該N維向量為該詞語的詞向量。該詞向量的N個元素中,每個元素為該詞語對應(yīng)的文本類別的權(quán)重值,其中文本類別可包括:計算機(jī)、交通、教育、經(jīng)濟(jì)、軍事、體育、醫(yī)藥、藝術(shù)、政治、環(huán)境等。
[0034]例如,假設(shè)詞向量的文本類別可表示為N維向量{計算機(jī)、交通、教育、經(jīng)濟(jì)}4,其中,N = 4。假設(shè)顯示、平板、液晶、照明、器件這五個詞語為構(gòu)成當(dāng)前文本的各詞語,則“液晶”這一詞語的詞向量可以表示為:{0.175,0.095,0.185,0.041}4,其中,該詞向量表示的含義為:“液晶”對應(yīng)于計算機(jī)、交通、教育、經(jīng)濟(jì)這四個文本類別的權(quán)重值分別為0.175、0.095,0.185,0.041。
[0035]在本發(fā)明實(shí)施例中,服務(wù)器在確定各詞語的詞向量時,可以根據(jù)詞向量確定工具直接在線確定詞向量。可選的,服務(wù)器可采用word2vec計算工具,來確定各詞語的詞向量。
[0036]為了提高確定各詞語的詞向量的效率,優(yōu)選的,在本發(fā)明實(shí)施例中,還可以預(yù)先確定各詞語的詞向量,在需要確定各詞語的詞向量時,在預(yù)設(shè)的詞向量庫中,確定(如,查找)與各詞語對應(yīng)的詞向量??梢?,在預(yù)設(shè)的詞向量庫中確定與各詞語對應(yīng)的詞向量,方便快捷,可有效提尚服務(wù)器的處理效率。
[003