一種文本信息處理方法及裝置的制造方法【專利摘要】本發(fā)明公開(kāi)了一種文本信息處理裝置,所述裝置包括:獲取單元,用于獲取待分析文本;預(yù)處理單元,用于對(duì)所述待分析文本進(jìn)行預(yù)處理;確定單元,用于確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息;其中,所述權(quán)重信息包括所述詞的權(quán)重以及所述詞在所述待分析文本中的權(quán)重;構(gòu)建單元,用于根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈。本發(fā)明還同時(shí)公開(kāi)了一種文本信息處理方法。采用本發(fā)明的技術(shù)方案,能在對(duì)文本進(jìn)行分析處理時(shí)放寬對(duì)文本的要求,提高處理速度?!緦@f(shuō)明】一種文本信息處理方法及裝置
技術(shù)領(lǐng)域:
[0001]本發(fā)明涉及信息處理技術(shù),尤其涉及一種文本信息處理方法及裝置?!?br>背景技術(shù):
】[0002]詞匯鏈目前主要應(yīng)用于自然語(yǔ)言處理。最初引進(jìn)詞匯鏈的目的是用于文本分割,即分析文本的結(jié)構(gòu)。其基本想法是:詞匯鏈?zhǔn)且幌盗邢嚓P(guān)的詞所組成的,這些詞表達(dá)的是同一件事情或意思,找到這些詞匯鏈就得到了文本的結(jié)構(gòu)。后來(lái),這一基本想法在很多方面得到了應(yīng)用,比如文本檢索、信息抽取、檢查文本的用詞不當(dāng)?shù)?。但是,尚未看到基于詞匯鏈對(duì)應(yīng)用服務(wù)器記錄的用戶行為日志進(jìn)行統(tǒng)計(jì)分析的研究報(bào)告。[0003]對(duì)用戶行為進(jìn)行統(tǒng)計(jì)分析需要依賴于日志格式的規(guī)范化。比如目前國(guó)內(nèi)最大的移動(dòng)應(yīng)用統(tǒng)計(jì)分析平臺(tái)一一友盟,它需要在用戶的客戶端進(jìn)行埋點(diǎn),調(diào)用軟件開(kāi)發(fā)工具包(SDK,SoftwareDevelopmentKit)上傳友盟特定格式的數(shù)據(jù)。對(duì)于不規(guī)范的或者不符合友盟規(guī)范的歷史日志,要使用同一套分析系統(tǒng),就必須先對(duì)雜亂的數(shù)據(jù)進(jìn)行清理轉(zhuǎn)化,才能進(jìn)行分析處理,這部分工作量相當(dāng)大;而且,日志格式一般是英文字段,對(duì)于中文字段的日志也無(wú)法處理?!?br/>發(fā)明內(nèi)容】[0004]有鑒于此,本發(fā)明的主要目的在于提供一種文本信息處理方法及裝置,在對(duì)文本進(jìn)行分析處理時(shí)放寬了對(duì)文本的要求,提高了處理速度。[0005]為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:[0006]本發(fā)明提供了一種文本信息處理裝置,所述裝置包括:[0007]獲取單元,用于獲取待分析文本;[0008]預(yù)處理單元,用于對(duì)所述待分析文本進(jìn)行預(yù)處理;[0009]確定單元,用于確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息;其中,所述權(quán)重信息包括所述詞的權(quán)重以及所述詞在所述待分析文本中的權(quán)重;[0010]構(gòu)建單元,用于根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈。[0011]上述方案中,優(yōu)選地,所述裝置還包括:分析單元,用于:[0012]確定所述待分析文本中各個(gè)詞匯鏈的權(quán)重;[0013]對(duì)所述各個(gè)詞匯鏈的權(quán)重進(jìn)行排序;[0014]對(duì)排名滿足第一預(yù)設(shè)條件的詞匯鏈進(jìn)行分析;[0015]基于分析結(jié)果統(tǒng)計(jì)所述待分析文本所表征的用戶行為信息。[0016]上述方案中,優(yōu)選地,所述預(yù)處理單元,還用于:[0017]判斷所述待分析文本是否為用中文表示的待分析文本;如果是,先進(jìn)行詞語(yǔ)切分,然后對(duì)切分后的詞進(jìn)行詞性標(biāo)注;如果否,直接進(jìn)行詞性標(biāo)注;[0018]過(guò)濾掉經(jīng)過(guò)詞性標(biāo)注后的待分析文本中的第一類詞,以使所述待分析文本中的文本內(nèi)容僅保留第二類詞。[0019]上述方案中,優(yōu)選地,所述確定單元,還用于:[0020]讀取所述經(jīng)預(yù)處理后的待分析文本中的每個(gè)詞;[0021]分析每個(gè)詞的詞性,為不同詞性的詞賦予不同的權(quán)重系數(shù);[0022]根據(jù)每個(gè)詞是否符合第二預(yù)設(shè)條件為其賦予附加權(quán)重系數(shù);[0023]基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、以及附加權(quán)重系數(shù)計(jì)算每個(gè)詞的權(quán)重;[0024]分析每個(gè)詞的信息熵,為不同信息熵的詞賦予不同的權(quán)重系數(shù);[0025]基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、附加權(quán)重系數(shù)以及信息熵對(duì)應(yīng)的權(quán)重系數(shù)計(jì)算每個(gè)詞在所述待分析文本中的權(quán)重。[0026]上述方案中,優(yōu)選地,所述構(gòu)建單元,還用于:[0027]預(yù)先確定至少一個(gè)詞匯鏈的中心詞;[0028]接收當(dāng)前輸入的所述待分析文本中的帶有權(quán)重信息的詞;[0029]按照預(yù)設(shè)規(guī)則對(duì)當(dāng)前輸入的帶有權(quán)重信息的詞進(jìn)行判斷處理;處理完畢后繼續(xù)接收下一個(gè)帶有權(quán)重信息的詞,直至處理完所述待分析文本中的最后一個(gè)詞;[0030]其中,所述預(yù)設(shè)規(guī)則,包括:[0031]判斷當(dāng)前輸入的帶有權(quán)重信息的詞是否與已存在的詞匯鏈的中心詞有關(guān)聯(lián);[0032]如果有關(guān)聯(lián),計(jì)算所述當(dāng)前輸入的帶有權(quán)重信息的詞與已存在的詞匯鏈的中心詞的關(guān)聯(lián)度,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞插入到與其關(guān)聯(lián)度最大的詞匯鏈中;同時(shí),判斷所述當(dāng)前輸入的帶有權(quán)重信息的詞在所述待分析文本中的權(quán)重是否大于其所插入的詞匯鏈的中心詞在所述待分析文本中的權(quán)重,如果是,將所述當(dāng)前輸入的帶有權(quán)重信息的詞確定為其所插入的詞匯鏈的中心詞,并對(duì)所插入的詞匯鏈中的各個(gè)詞的權(quán)重進(jìn)行排序,從所插入的詞匯鏈中剔除滿足第三預(yù)設(shè)條件的詞;[0033]如果沒(méi)有關(guān)聯(lián),新建一條詞匯鏈,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞作為新建詞匯鏈的中心詞。[0034]本發(fā)明還提供了一種文本信息處理方法,所述方法包括:[0035]獲取待分析文本;[0036]對(duì)所述待分析文本進(jìn)行預(yù)處理;[0037]確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息;其中,所述權(quán)重信息包括所述詞的權(quán)重以及所述詞在所述待分析文本中的權(quán)重;[0038]根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈。[0039]上述方案中,優(yōu)選地,所述方法還包括:[0040]確定所述待分析文本中各個(gè)詞匯鏈的權(quán)重;[0041]對(duì)所述各個(gè)詞匯鏈的權(quán)重進(jìn)行排序;[0042]對(duì)排名滿足第一預(yù)設(shè)條件的詞匯鏈進(jìn)行分析;[0043]基于分析結(jié)果統(tǒng)計(jì)所述待分析文本所表征的用戶行為信息。[0044]上述方案中,優(yōu)選地,所述對(duì)所述待分析文本進(jìn)行預(yù)處理,包括:[0045]判斷所述待分析文本是否為用中文表示的待分析文本;如果是,先進(jìn)行詞語(yǔ)切分,然后對(duì)切分后的詞進(jìn)行詞性標(biāo)注;如果否,直接進(jìn)行詞性標(biāo)注;[0046]過(guò)濾掉經(jīng)過(guò)詞性標(biāo)注后的待分析文本中的第一類詞,以使所述待分析文本中的文本內(nèi)容僅保留第二類詞。[0047]上述方案中,優(yōu)選地,所述確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息,包括:[0048]讀取所述經(jīng)預(yù)處理后的待分析文本中的每個(gè)詞;[0049]分析每個(gè)詞的詞性,為不同詞性的詞賦予不同的權(quán)重系數(shù);[0050]根據(jù)每個(gè)詞是否符合第二預(yù)設(shè)條件為其賦予附加權(quán)重系數(shù);[0051]基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、以及附加權(quán)重系數(shù)計(jì)算每個(gè)詞的權(quán)重;[0052]分析每個(gè)詞的信息熵,為不同信息熵的詞賦予不同的權(quán)重系數(shù);[0053]基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、附加權(quán)重系數(shù)以及信息熵對(duì)應(yīng)的權(quán)重系數(shù)計(jì)算每個(gè)詞在所述待分析文本中的權(quán)重。[0054]上述方案中,優(yōu)選地,所述根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈,包括:[0055]預(yù)先確定至少一個(gè)詞匯鏈的中心詞;[0056]接收當(dāng)前輸入的所述待分析文本中的帶有權(quán)重信息的詞;[0057]按照預(yù)設(shè)規(guī)則對(duì)當(dāng)前輸入的帶有權(quán)重信息的詞進(jìn)行判斷處理;處理完畢后繼續(xù)接收下一個(gè)帶有權(quán)重信息的詞,直至處理完所述待分析文本中的最后一個(gè)詞;[0058]其中,所述預(yù)設(shè)規(guī)則,包括:[0059]判斷當(dāng)前輸入的帶有權(quán)重信息的詞是否與已存在的詞匯鏈的中心詞有關(guān)聯(lián);[0060]如果有關(guān)聯(lián),計(jì)算所述當(dāng)前輸入的帶有權(quán)重信息的詞與已存在的詞匯鏈的中心詞的關(guān)聯(lián)度,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞插入到與其關(guān)聯(lián)度最大的詞匯鏈中;同時(shí),判斷所述當(dāng)前輸入的帶有權(quán)重信息的詞在所述待分析文本中的權(quán)重是否大于其所插入的詞匯鏈的中心詞在所述待分析文本中的權(quán)重,如果是,將所述當(dāng)前輸入的帶有權(quán)重信息的詞確定為其所插入的詞匯鏈的中心詞,并對(duì)所插入的詞匯鏈中的各個(gè)詞的權(quán)重進(jìn)行排序,從所插入的詞匯鏈中剔除滿足第三預(yù)設(shè)條件的詞;[0061]如果沒(méi)有關(guān)聯(lián),新建一條詞匯鏈,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞作為新建詞匯鏈的中心詞。[0062]本發(fā)明所提供的實(shí)施例的技術(shù)方案中,獲取待分析文本;對(duì)所述待分析文本進(jìn)行預(yù)處理;確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息;其中,所述權(quán)重信息包括所述詞的權(quán)重以及所述詞在所述待分析文本中的權(quán)重;根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈。通過(guò)對(duì)本發(fā)明實(shí)施例技術(shù)方案的實(shí)施,在對(duì)文本進(jìn)行分析處理時(shí)放寬了對(duì)文本的要求,提高了處理速度。【附圖說(shuō)明】[0063]圖1為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的移動(dòng)終端的硬件結(jié)構(gòu)示意圖;[0064]圖2為如圖1所示的移動(dòng)終端的無(wú)線通信系統(tǒng)示意圖;[0065]圖3為本發(fā)明實(shí)施例提供的文本信息處理方法的流程示意圖;[0066]圖4為本發(fā)明實(shí)施例提供的計(jì)算詞的權(quán)重的實(shí)現(xiàn)流程示意圖;[0067]圖5為本發(fā)明實(shí)施例提供的詞匯鏈生成流程示意圖;[0068]圖6為本發(fā)明實(shí)施例提供的文本信息處理裝置的組成結(jié)構(gòu)示意圖?!揪唧w實(shí)施方式】[0069]現(xiàn)在將參考附圖描述實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的移動(dòng)終端。在后續(xù)的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明實(shí)施例的說(shuō)明,其本身并沒(méi)有特定的意義。因此,"模塊"與"部件"可以混合地使用。[0070]移動(dòng)終端可以以各種形式來(lái)實(shí)施。例如,本發(fā)明實(shí)施例中描述的終端可以包括諸如移動(dòng)電話、智能電話、筆記本電腦、數(shù)字廣播接收器、個(gè)人數(shù)字助理(PDA,PersonalDigitalAssistant)、平板電腦(PAD,PortableAndroidDevice)、便攜式多媒體播放器(PMP,PortableMediaPlayer)、導(dǎo)航裝置等等的移動(dòng)終端以及諸如數(shù)字TV、臺(tái)式計(jì)算機(jī)等等的固定終端。下面,假設(shè)終端是移動(dòng)終端。然而,本領(lǐng)域技術(shù)人員將理解的是,除了特別用于移動(dòng)目的的元件之外,根據(jù)本發(fā)明的實(shí)施方式的構(gòu)造也能夠應(yīng)用于固定類型的終端。[0071]圖1為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的移動(dòng)終端的硬件結(jié)構(gòu)示意。[0072]移動(dòng)終端100可以包括無(wú)線通信單元110、音頻/視頻(A/V)輸入單元120、用戶輸入單元130、感測(cè)單元140、輸出單元150、存儲(chǔ)器160、接口單元170、控制器180和電源單元190等等。圖1示出了具有各種組件的移動(dòng)終端,但是應(yīng)理解的是,并不要求實(shí)施所有示出的組件??梢蕴娲貙?shí)施更多或更少的組件。將在下面詳細(xì)描述移動(dòng)終端的元件。[0073]無(wú)線通信單元110通常包括一個(gè)或多個(gè)組件,其允許移動(dòng)終端100與無(wú)線通信系統(tǒng)或網(wǎng)絡(luò)之間的無(wú)線電通信。例如,無(wú)線通信單元可以包括廣播接收模塊111、移動(dòng)通信模塊112、無(wú)線互聯(lián)網(wǎng)模塊113、短程通信模塊114和位置信息模塊115中的至少一個(gè)。[0074]廣播接收模塊111經(jīng)由廣播信道從外部廣播管理服務(wù)器接收廣播信號(hào)和/或廣播相關(guān)信息。廣播信道可以包括衛(wèi)星信道和/或地面信道。廣播管理服務(wù)器可以是生成并發(fā)送廣播信號(hào)和/或廣播相關(guān)信息的服務(wù)器或者接收之前生成的廣播信號(hào)和/或廣播相關(guān)信息并且將其發(fā)送給終端的服務(wù)器。廣播信號(hào)可以包括TV廣播信號(hào)、無(wú)線電廣播信號(hào)、數(shù)據(jù)廣播信號(hào)等等。而且,廣播信號(hào)可以進(jìn)一步包括與TV或無(wú)線電廣播信號(hào)組合的廣播信號(hào)。廣播相關(guān)信息也可以經(jīng)由移動(dòng)通信網(wǎng)絡(luò)提供,并且在該情況下,廣播相關(guān)信息可以由移動(dòng)通信模塊112來(lái)接收。廣播信號(hào)可以以各種形式存在,例如,其可以以數(shù)字多媒體廣播(DMB,DigitalMultimediaBroadcasting)的電子節(jié)目指南(EPG,ElectronicProgramGuide)、數(shù)字視頻廣播手持(DVB-H,DigitalVideoBroadcasting-Handheld)的電子服務(wù)指南(ESG,ElectronicServiceGuide)等等的形式而存在。廣播接收模塊111可以通過(guò)使用各種類型的廣播系統(tǒng)接收信號(hào)廣播。特別地,廣播接收模塊111可以通過(guò)使用諸如多媒體廣播-地面(DMB_T,DigitalMultimediaBroadcasting-Terrestrial)、數(shù)字多媒體廣播-衛(wèi)星(DMB-S,DigitalMultimediaBroadcasting-Satellite)、數(shù)字視頻廣播手持(DVB-H),前向鏈路媒體(MediaFL0,MediaForwardLinkOnly)的數(shù)據(jù)廣播系統(tǒng)、地面數(shù)字廣播綜合服務(wù)(ISDB-T,IntegratedServicesDigitalBroadcasting-Terrestrial)等等的數(shù)字廣播系統(tǒng)接收數(shù)字廣播。廣播接收模塊ill可以被構(gòu)造為適合提供廣播信號(hào)的各種廣播系統(tǒng)以及上述數(shù)字廣播系統(tǒng)。經(jīng)由廣播接收模塊111接收的廣播信號(hào)和/或廣播相關(guān)信息可以存儲(chǔ)在存儲(chǔ)器160(或者其它類型的存儲(chǔ)介質(zhì))中。[0075]移動(dòng)通信模塊112將無(wú)線電信號(hào)發(fā)送到基站(例如,接入點(diǎn)、節(jié)點(diǎn)B等等)、外部終端以及服務(wù)器中的至少一個(gè)和/或從其接收無(wú)線電信號(hào)。這樣的無(wú)線電信號(hào)可以包括語(yǔ)音通話信號(hào)、視頻通話信號(hào)、或者根據(jù)文本和/或多媒體消息發(fā)送和/或接收的各種類型的數(shù)據(jù)。[0076]無(wú)線互聯(lián)網(wǎng)模塊113支持移動(dòng)終端的無(wú)線互聯(lián)網(wǎng)接入。該模塊可以內(nèi)部或外部地耦接到終端。該模塊所涉及的無(wú)線互聯(lián)網(wǎng)接入技術(shù)可以包括無(wú)線局域網(wǎng)絡(luò)(W1-Fi,WLAN,WirelessLocalAreaNetworks)、無(wú)線寬帶(Wibro)、全球微波互聯(lián)接入(Wimax)、高速下行鏈路分組接入(HSDPA,HighSpeedDownlinkPacketAccess)等等。[0077]短程通信模塊114是用于支持短程通信的模塊。短程通信技術(shù)的一些示例包括藍(lán)牙、射頻識(shí)別(RFID,Rad1FrequencyIdentificat1n)、紅外數(shù)據(jù)協(xié)會(huì)(IrDA,InfraredDataAssociat1n)、超寬帶(UWB,UltraWideband)、紫蜂等等。[0078]位置信息模塊115是用于檢查或獲取移動(dòng)終端的位置信息的模塊。位置信息模塊的典型示例是全球定位系統(tǒng)(GPS,GlobalPosit1ningSystem)。根據(jù)當(dāng)前的技術(shù),GPS模塊115計(jì)算來(lái)自三個(gè)或更多衛(wèi)星的距離信息和準(zhǔn)確的時(shí)間信息并且對(duì)于計(jì)算的信息應(yīng)用三角測(cè)量法,從而根據(jù)經(jīng)度、瑋度和高度準(zhǔn)確地計(jì)算三維當(dāng)前位置信息。當(dāng)前,用于計(jì)算位置和時(shí)間信息的方法使用三顆衛(wèi)星并且通過(guò)使用另外的一顆衛(wèi)星校正計(jì)算出的位置和時(shí)間信息的誤差。此外,GPS模塊115能夠通過(guò)實(shí)時(shí)地連續(xù)計(jì)算當(dāng)前位置信息來(lái)計(jì)算速度信息。[0079]A/V輸入單元120用于接收音頻或視頻信號(hào)。A/V輸入單元120可以包括相機(jī)121和麥克風(fēng)1220,相機(jī)121對(duì)在視頻捕獲模式或圖像捕獲模式中由圖像捕獲裝置獲得的靜態(tài)圖片或視頻的圖像數(shù)據(jù)進(jìn)行處理。處理后的圖像幀可以顯示在顯示單元151上。經(jīng)相機(jī)121處理后的圖像幀可以存儲(chǔ)在存儲(chǔ)器160(或其它存儲(chǔ)介質(zhì))中或者經(jīng)由無(wú)線通信單元110進(jìn)行發(fā)送,可以根據(jù)移動(dòng)終端的構(gòu)造提供兩個(gè)或更多相機(jī)1210。麥克風(fēng)122可以在電話通話模式、記錄模式、語(yǔ)音識(shí)別模式等等運(yùn)行模式中經(jīng)由麥克風(fēng)接收聲音(音頻數(shù)據(jù)),并且能夠?qū)⑦@樣的聲音處理為音頻數(shù)據(jù)。處理后的音頻(語(yǔ)音)數(shù)據(jù)可以在電話通話模式的情況下轉(zhuǎn)換為可經(jīng)由移動(dòng)通信模塊112發(fā)送到移動(dòng)通信基站的格式輸出。麥克風(fēng)122可以實(shí)施各種類型的噪聲消除(或抑制)算法以消除(或抑制)在接收和發(fā)送音頻信號(hào)的過(guò)程中產(chǎn)生的噪聲或者干擾。[0080]用戶輸入單元130可以根據(jù)用戶輸入的命令生成鍵輸入數(shù)據(jù)以控制移動(dòng)終端的各種操作。用戶輸入單元130允許用戶輸入各種類型的信息,并且可以包括鍵盤、鍋?zhàn)衅?、觸摸板(例如,檢測(cè)由于被接觸而導(dǎo)致的電阻、壓力、電容等等的變化的觸敏組件)、滾輪、搖桿等等。特別地,當(dāng)觸摸板以層的形式疊加在顯示單元151上時(shí),可以形成觸摸屏。[0081]感測(cè)單元140檢測(cè)移動(dòng)終端100的當(dāng)前狀態(tài),(例如,移動(dòng)終端100的打開(kāi)或關(guān)閉狀態(tài))、移動(dòng)終端100的位置、用戶對(duì)于移動(dòng)終端100的接觸(S卩,觸摸輸入)的有無(wú)、移動(dòng)終端100的取向、移動(dòng)終端100的加速或減速移動(dòng)和方向等等,并且生成用于控制移動(dòng)終端100的操作的命令或信號(hào)。例如,當(dāng)移動(dòng)終端100實(shí)施為滑動(dòng)型移動(dòng)電話時(shí),感測(cè)單元140可以感測(cè)該滑動(dòng)型電話是打開(kāi)還是關(guān)閉。另外,感測(cè)單元140能夠檢測(cè)電源單元190是否提供電力或者接口單元170是否與外部裝置耦接。感測(cè)單元140可以包括接近傳感器141。[0082]接口單元170用作至少一個(gè)外部裝置與移動(dòng)終端100連接可以通過(guò)的接口。例如,外部裝置可以包括有線或無(wú)線頭戴式耳機(jī)端口、外部電源(或電池充電器)端口、有線或無(wú)線數(shù)據(jù)端口、存儲(chǔ)卡端口、用于連接具有識(shí)別模塊的裝置的端口、音頻輸入/輸出(1/0)端口、視頻1/0端口、耳機(jī)端口等等。識(shí)別模塊可以是存儲(chǔ)用于驗(yàn)證用戶使用移動(dòng)終端100的各種信息并且可以包括用戶識(shí)別模塊(UIM,UserIdentifyModule)、客戶識(shí)別模塊(SIM,SubscriberIdentityModule)、通用客戶識(shí)別模塊(USIM,UniversalSubscriberIdentityModule)等等。另外,具有識(shí)別模塊的裝置(下面稱為"識(shí)別裝置")可以采取智能卡的形式,因此,識(shí)別裝置可以經(jīng)由端口或其它連接裝置與移動(dòng)終端100連接。接口單元170可以用于接收來(lái)自外部裝置的輸入(例如,數(shù)據(jù)信息、電力等等)并且將接收到的輸入傳輸?shù)揭苿?dòng)終端100內(nèi)的一個(gè)或多個(gè)元件或者可以用于在移動(dòng)終端和外部裝置之間傳輸數(shù)據(jù)。[0083]另外,當(dāng)移動(dòng)終端100與外部底座連接時(shí),接口單元170可以用作允許通過(guò)其將電力從底座提供到移動(dòng)終端100的路徑或者可以用作允許從底座輸入的各種命令信號(hào)通過(guò)其傳輸?shù)揭苿?dòng)終端的路徑。從底座輸入的各種命令信號(hào)或電力可以用作用于識(shí)別移動(dòng)終端是否準(zhǔn)確地安裝在底座上的信號(hào)。輸出單元150被構(gòu)造為以視覺(jué)、音頻和/或觸覺(jué)方式提供輸出信號(hào)(例如,音頻信號(hào)、視頻信號(hào)、警報(bào)信號(hào)、振動(dòng)信號(hào)等等)。輸出單元150可以包括顯示單元151、音頻輸出模塊152、警報(bào)單元153等等。[0084]顯示單元151可以顯示在移動(dòng)終端100中處理的信息。例如,當(dāng)移動(dòng)終端100處于電話通話模式時(shí),顯示單元151可以顯示與通話或其它通信(例如,文本消息收發(fā)、多媒體文件下載等等)相關(guān)的用戶界面(UI,UserInterface)或圖形用戶界面(GUI,GraphicalUserInterface)。當(dāng)移動(dòng)終端100處于視頻通話模式或者圖像捕獲模式時(shí),顯示單元151可以顯示捕獲的圖像和/或接收的圖像、示出視頻或圖像以及相關(guān)功能的UI或GUI等等。[0085]同時(shí),當(dāng)顯示單元151和觸摸板以層的形式彼此疊加以形成觸摸屏?xí)r,顯示單元151可以用作輸入裝置和輸出裝置。顯示單元151可以包括液晶顯示器(LCD,LiquidCrystalDisplay)、薄膜晶體管LCD(TFT_LCD,ThinFilmTransistor-LCD)、有機(jī)發(fā)光二極管(OLED,OrganicLight-EmittingD1de)顯示器、柔性顯示器、三維(3D)顯示器等等中的至少一種。這些顯示器中的一些可以被構(gòu)造為透明狀以允許用戶從外部觀看,這可以稱為透明顯示器,典型的透明顯示器可以例如為透明有機(jī)發(fā)光二極管(TOLED)顯示器等等。根據(jù)特定想要的實(shí)施方式,移動(dòng)終端100可以包括兩個(gè)或更多顯示單元(或其它顯示裝置),例如,移動(dòng)終端可以包括外部顯示單元(未示出)和內(nèi)部顯示單元(未示出)。觸摸屏可用于檢測(cè)觸摸輸入壓力以及觸摸輸入位置和觸摸輸入面積。[0086]音頻輸出模塊152可以在移動(dòng)終端處于呼叫信號(hào)接收模式、通話模式、記錄模式、語(yǔ)音識(shí)別模式、廣播接收模式等等模式下時(shí),將無(wú)線通信單元110接收的或者在存儲(chǔ)器160中存儲(chǔ)的音頻數(shù)據(jù)轉(zhuǎn)換音頻信號(hào)并且輸出為聲音。而且,音頻輸出模塊152可以提供與移動(dòng)終端100執(zhí)行的特定功能相關(guān)的音頻輸出(例如,呼叫信號(hào)接收聲音、消息接收聲音等等)。音頻輸出模塊152可以包括揚(yáng)聲器、蜂鳴器等等。[0087]警報(bào)單元153可以提供輸出以將事件的發(fā)生通知給移動(dòng)終端100。典型的事件可以包括呼叫接收、消息接收、鍵信號(hào)輸入、觸摸輸入等等。除了音頻或視頻輸出之外,警報(bào)單元153可以以不同的方式提供輸出以通知事件的發(fā)生。例如,警報(bào)單元153可以以振動(dòng)的形式提供輸出,當(dāng)接收到呼叫、消息或一些其它進(jìn)入通信(incomingcommunicat1n)時(shí),警報(bào)單元153可以提供觸覺(jué)輸出(S卩,振動(dòng))以將其通知給用戶。通過(guò)提供這樣的觸覺(jué)輸出,即使在用戶的移動(dòng)電話處于用戶的口袋中時(shí),用戶也能夠識(shí)別出各種事件的發(fā)生。警報(bào)單元153也可以經(jīng)由顯示單元151或音頻輸出模塊152提供通知事件的發(fā)生的輸出。[0088]存儲(chǔ)器160可以存儲(chǔ)由控制器180執(zhí)行的處理和控制操作的軟件程序等等,或者可以暫時(shí)地存儲(chǔ)已經(jīng)輸出或?qū)⒁敵龅臄?shù)據(jù)(例如,電話簿、消息、靜態(tài)圖像、視頻等等)。而且,存儲(chǔ)器160可以存儲(chǔ)關(guān)于當(dāng)觸摸施加到觸摸屏?xí)r輸出的各種方式的振動(dòng)和音頻信號(hào)的數(shù)據(jù)。[0089]存儲(chǔ)器160可以包括至少一種類型的存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)包括閃存、硬盤、多媒體卡、卡型存儲(chǔ)器(例如,SD或DX存儲(chǔ)器等等)、隨機(jī)訪問(wèn)存儲(chǔ)器(RAM,RandomAccessMemory)、靜態(tài)隨機(jī)訪問(wèn)存儲(chǔ)器(SRAM,StaticRandomAccessMemory)、只讀存儲(chǔ)器(ROM,ReadOnlyMemory)、電可擦除可編程只讀存儲(chǔ)器(EEPROM,ElectricalIyErasableProgrammableReadOnlyMemory)、可編程只讀存儲(chǔ)器(PROM,ProgrammableReadOnlyMemory)、磁性存儲(chǔ)器、磁盤、光盤等等。而且,移動(dòng)終端100可以與通過(guò)網(wǎng)絡(luò)連接執(zhí)行存儲(chǔ)器160的存儲(chǔ)功能的網(wǎng)絡(luò)存儲(chǔ)裝置協(xié)作。[0090]控制器180通常控制移動(dòng)終端的總體操作。例如,控制器180執(zhí)行與語(yǔ)音通話、數(shù)據(jù)通信、視頻通話等等相關(guān)的控制和處理。另外,控制器180可以包括用于再現(xiàn)(或回放)多媒體數(shù)據(jù)的多媒體模塊181,多媒體模塊181可以構(gòu)造在控制器180內(nèi),或者可以構(gòu)造為與控制器180分離??刂破?80可以執(zhí)行模式識(shí)別處理,以將在觸摸屏上執(zhí)行的手寫輸入或者圖片繪制輸入識(shí)別為字符或圖像。[0091]電源單元190在控制器180的控制下接收外部電力或內(nèi)部電力并且提供操作各元件和組件所需的適當(dāng)?shù)碾娏?。[0092]這里描述的各種實(shí)施方式可以以使用例如計(jì)算機(jī)軟件、硬件或其任何組合的計(jì)算機(jī)可讀介質(zhì)來(lái)實(shí)施。對(duì)于硬件實(shí)施,這里描述的實(shí)施方式可以通過(guò)使用特定用途集成電路(ASIC,Applicat1nSpecificIntegratedCircuit)、數(shù)字信號(hào)處理器(DSP,DigitalSignalProcessing)、數(shù)字信號(hào)處理裝置(DSPD,DigitalSignalProcessingDevice)、可編程邏輯裝置(PLD,ProgrammableLogicDevice)、現(xiàn)場(chǎng)可編程門陣列(FPGA,FieldProgrammableGateArray)、處理器、控制器、微控制器、微處理器、被設(shè)計(jì)為執(zhí)行這里描述的功能的電子單元中的至少一種來(lái)實(shí)施,在一些情況下,這樣的實(shí)施方式可以在控制器180中實(shí)施。對(duì)于軟件實(shí)施,諸如過(guò)程或功能的實(shí)施方式可以與允許執(zhí)行至少一種功能或操作的單獨(dú)的軟件模塊來(lái)實(shí)施。軟件代碼可以由以任何適當(dāng)?shù)木幊陶Z(yǔ)言編寫的軟件應(yīng)用程序(或程序)來(lái)實(shí)施,軟件代碼可以存儲(chǔ)在存儲(chǔ)器160中并且由控制器180執(zhí)行。[0093]至此,已經(jīng)按照其功能描述了移動(dòng)終端。下面,為了簡(jiǎn)要起見(jiàn),將描述諸如折疊型、直板型、擺動(dòng)型、滑動(dòng)型移動(dòng)終端等等的各種類型的移動(dòng)終端中的滑動(dòng)型移動(dòng)終端作為示例。因此,本發(fā)明能夠應(yīng)用于任何類型的移動(dòng)終端,并且不限于滑動(dòng)型移動(dòng)終端。[0094]如圖1中所示的移動(dòng)終端100可以被構(gòu)造為利用經(jīng)由幀或分組發(fā)送數(shù)據(jù)的諸如有線和無(wú)線通信系統(tǒng)以及基于衛(wèi)星的通信系統(tǒng)來(lái)操作。[0095]現(xiàn)在將參考圖2描述其中根據(jù)本發(fā)明實(shí)施例的移動(dòng)終端能夠操作的通信系統(tǒng)。[0096]這樣的通信系統(tǒng)可以使用不同的空中接口和/或物理層。例如,由通信系統(tǒng)使用的空中接口包括例如頻分多址(FDMA,F(xiàn)requencyDivis1nMultipleAccess)、時(shí)分多址(TDMA,TimeDivis1nMultipleAccess)、碼分多址(CDMA,CodeDivis1nMultipleAccess)和通用移動(dòng)通信系統(tǒng)(UMTS,UniversalMobileTelecommunicat1nsSystem)(特別地,長(zhǎng)期演進(jìn)(LTE,LongTermEvolut1n))、全球移動(dòng)通信系統(tǒng)(GSM)等等。作為非限制性示例,下面的描述涉及CDMA通信系統(tǒng),但是這樣的教導(dǎo)同樣適用于其它類型的系統(tǒng)。[0097]參考圖2,001^無(wú)線通信系統(tǒng)可以包括多個(gè)移動(dòng)終端100、多個(gè)基站(83,8&86Stat1n)270、基站控制器(BSC,BaseStat1nControlIer)275和移動(dòng)交換中心(MSC,MobileSwitchingCenterWSOJSCSSO被構(gòu)造為與公共電話交換網(wǎng)絡(luò)(PSTN,PublicSwitchedTelephoneNetwork)290形成接口。]\^0280還被構(gòu)造為與可以經(jīng)由回程線路親接到基站270的BSC275形成接口。回程線路可以根據(jù)若干己知的接口中的任一種來(lái)構(gòu)造,所述接口包括例如El/Tl、ATM,IP、PPP、幀中繼、HDSL、ADSL或xDSL。將理解的是,如圖2中所示的系統(tǒng)可以包括多個(gè)BSC275。[0098]每個(gè)BS270可以服務(wù)一個(gè)或多個(gè)分區(qū)(或區(qū)域),由多向天線或指向特定方向的天線覆蓋的每個(gè)分區(qū)放射狀地遠(yuǎn)離BS270?;蛘撸總€(gè)分區(qū)可以由用于分集接收的兩個(gè)或更多天線覆蓋。每個(gè)BS270可以被構(gòu)造為支持多個(gè)頻率分配,并且每個(gè)頻率分配具有特定頻譜(例如,1.25MHz,5MHz等等)。[0099]分區(qū)與頻率分配的交叉可以被稱為CDMA信道。BS270也可以被稱為基站收發(fā)器子系統(tǒng)(BTS,BaseTransceiverStat1n)或者其它等效術(shù)語(yǔ)。在這樣的情況下,術(shù)語(yǔ)〃基站〃可以用于籠統(tǒng)地表示單個(gè)BSC275和至少一個(gè)BS270?;疽部梢员环Q為〃蜂窩站〃?;蛘?,特定BS270的各分區(qū)可以被稱為多個(gè)蜂窩站。[0?00]如圖2中所示,廣播發(fā)射器(BT,BroadcastTransmitter)295將廣播信號(hào)發(fā)送給在系統(tǒng)內(nèi)操作的移動(dòng)終端100。如圖1中所示的廣播接收模塊111被設(shè)置在移動(dòng)終端100處以接收由BT295發(fā)送的廣播信號(hào)。在圖2中,示出了幾個(gè)全球定位系統(tǒng)(GPS)衛(wèi)星300。衛(wèi)星300幫助定位多個(gè)移動(dòng)終端100中的至少一個(gè)。[0101]在圖2中,描繪了多個(gè)衛(wèi)星300,但是理解的是,可以利用任何數(shù)目的衛(wèi)星獲得有用的定位信息。如圖1中所示的GPS模塊115通常被構(gòu)造為與衛(wèi)星300配合以獲得想要的定位信息。替代GPS跟蹤技術(shù)或者在GPS跟蹤技術(shù)之外,可以使用可以跟蹤移動(dòng)終端的位置的其它技術(shù)。另外,至少一個(gè)GPS衛(wèi)星300可以選擇性地或者額外地處理衛(wèi)星DMB傳輸。[0102]作為無(wú)線通信系統(tǒng)的一個(gè)典型操作,BS270接收來(lái)自各種移動(dòng)終端100的反向鏈路信號(hào)。移動(dòng)終端100通常參與通話、消息收發(fā)和其它類型的通信。特定基站270接收的每個(gè)反向鏈路信號(hào)被在特定BS270內(nèi)進(jìn)行處理。獲得的數(shù)據(jù)被轉(zhuǎn)發(fā)給相關(guān)的BSC275ASC提供通話資源分配和包括BS270之間的軟切換過(guò)程的協(xié)調(diào)的移動(dòng)管理功能。BSC275還將接收到的數(shù)據(jù)路由到MSC280,其提供用于與PSTN290形成接口的額外的路由服務(wù)。類似地,PSTN290與MSC280形成接口,MSC與BSC275形成接口,并且BSC275相應(yīng)地控制BS270以將正向鏈路信號(hào)發(fā)送到移動(dòng)終端100。[0103]圖3為本發(fā)明實(shí)施例提供的文本信息處理方法的實(shí)現(xiàn)流程示意圖,本實(shí)施例中的文本信息處理方法可應(yīng)用于服務(wù)器側(cè),如圖3所示,該文本信息處理方法主要包括以下步驟:[0104]步驟301:獲取待分析文本。[0105]在一實(shí)施例中,所述獲取待分析文本,可以包括:[0106]選取預(yù)設(shè)時(shí)間段的日志;[0107]按照時(shí)間順序?qū)⑺鲱A(yù)設(shè)時(shí)間段的日志拼接成待分析文本。[0108]這里,所述預(yù)設(shè)時(shí)間段可以為默認(rèn)設(shè)置,或由工作人員根據(jù)實(shí)際情況進(jìn)行設(shè)定。[0109]這里,所述時(shí)間順序可以是按照時(shí)間升序或時(shí)間降序方式。優(yōu)選地,所述時(shí)間順序?yàn)闀r(shí)間升序方式。[0110]在一【具體實(shí)施方式】中,所述獲取待分析文本,包括:[0111]服務(wù)器主動(dòng)從終端側(cè)讀取預(yù)設(shè)時(shí)間段的日志。[0112]其中,所述服務(wù)器與所述終端能夠進(jìn)行通信;在終端本地設(shè)置有存儲(chǔ)設(shè)備,或在終端側(cè)設(shè)置有與所述終端連接的存儲(chǔ)設(shè)備,所述的存儲(chǔ)設(shè)備用于存儲(chǔ)終端的日志文件。[0113]在一【具體實(shí)施方式】中,所述獲取待分析文本,包括:[0114]服務(wù)器接收并存儲(chǔ)終端側(cè)上報(bào)的日志文件;[0115]從所存儲(chǔ)的日志文件中選取預(yù)設(shè)時(shí)間段的日志。[0116]這里,需要說(shuō)明的是,所述待分析文本可以是一個(gè),也可以是多個(gè)。另外,所述待分析文本可以是由一個(gè)用戶的終端的日志組成的文本,也可以是由多個(gè)用戶的終端的日志組成的文本。[0117]步驟302:對(duì)所述待分析文本進(jìn)行預(yù)處理。[0118]優(yōu)選地,在一實(shí)施例中,所述對(duì)所述待分析文本進(jìn)行預(yù)處理,包括:[0119]判斷所述待分析文本是否為用中文表示的待分析文本;如果是,先進(jìn)行詞語(yǔ)切分,然后對(duì)切分后的詞進(jìn)行詞性標(biāo)注;如果否,直接進(jìn)行詞性標(biāo)注;[0120]過(guò)濾掉經(jīng)過(guò)詞性標(biāo)注后的待分析文本中的第一類詞,以使所述待分析文本中的文本內(nèi)容僅保留第二類詞。[0121]也就是說(shuō),對(duì)于用中文表示的待分析文本,需要先進(jìn)行詞語(yǔ)切分,然后再進(jìn)行詞性標(biāo)注;這是因?yàn)橹形氖且环N沒(méi)有明顯的形態(tài)界限可以作為分詞依據(jù)的表意語(yǔ)言,因而,在對(duì)用中文表示的待分析文本的處理中進(jìn)行詞語(yǔ)的切分是必需的。而由于用英文表示的待分析文本,是有一個(gè)一個(gè)的單詞組成的,直接進(jìn)行詞性標(biāo)注即可。[0122]其中,所述第一類詞不含有實(shí)質(zhì)性的內(nèi)容,對(duì)步驟304中所述的構(gòu)建詞匯鏈不起作用或者所起的作用可以忽略不計(jì)。例如,所述第一類詞,包括但不限于:“have/有、is/是、Iet/讓、say/說(shuō)、go/去,,等。[0123]其中,所述第二類詞含有實(shí)質(zhì)性的內(nèi)容,對(duì)步驟304中所述的構(gòu)建詞匯鏈起重要作用或者所起的作用不可忽略。這里,所述第二類詞,包括但不限于:[0124]名詞、動(dòng)詞、用戶名、形容詞、時(shí)間。[0125]在一【具體實(shí)施方式】中,對(duì)待分析文本進(jìn)行預(yù)處理,可以應(yīng)用知網(wǎng)(HowNet)作為詞匯鏈的分析詞典,提取HowNet中的W_C和DEF兩項(xiàng)內(nèi)容。對(duì)英文的日志進(jìn)行詞性標(biāo)注(可利用StanfordLog-linearPart-Of-SpeechTagger),對(duì)中文日志進(jìn)行分詞(可利用中科院計(jì)算所漢語(yǔ)詞匯分析系統(tǒng))和詞性標(biāo)注(可利用stanford-postagger)。[0126]其中,知網(wǎng)(英文名稱為HowNet)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以解釋概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。知網(wǎng)中的概念是對(duì)詞匯語(yǔ)義的描述。概念的定義及與之相關(guān)的各類關(guān)系均描述于記錄的DEF項(xiàng)中。DEF被稱為一個(gè)語(yǔ)義表達(dá)式,其中用于描述概念的最小語(yǔ)義單位被稱為義原。[0127]①重復(fù)或同義,如:mobile、phone0[0128]②上下位關(guān)系,如:mobile(手機(jī))'electronicdevices(電子設(shè)備)。[0129]③同一個(gè)祖先,如:mobilesleeve手機(jī)套、mobileheadset手機(jī)專用耳機(jī)(都是mobilederivatives手機(jī)衍生產(chǎn)品)。[0130]④反義詞,如:buy、sale。[0131]⑤同一個(gè)環(huán)境,如:電商、手機(jī)、買手機(jī)一一都在一個(gè)環(huán)境中發(fā)生的。[0132]HowNet對(duì)于①、③這些表達(dá)出詞之間的關(guān)系能力較強(qiáng),對(duì)⑤這類詞之間的關(guān)聯(lián)能力中等,對(duì)②這類詞之間的關(guān)聯(lián)能力較弱,對(duì)④反義詞關(guān)聯(lián)能力最弱。[0133]舉例來(lái)說(shuō),員工與雇員均是人,那么,在一條日志中,不僅出現(xiàn)了員工,還出現(xiàn)了雇傭者,那么,DEF(員工)=DEF(雇傭者)=人。[0134]步驟303:確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息;其中,所述權(quán)重信息包括所述詞的權(quán)重以及所述詞在所述待分析文本中的權(quán)重。[0135]優(yōu)選地,在一實(shí)施例中,所述確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息,包括:[0136]讀取所述經(jīng)預(yù)處理后的待分析文本中的每個(gè)詞;[0137]分析每個(gè)詞的詞性,為不同詞性的詞賦予不同的權(quán)重系數(shù);[0138]根據(jù)每個(gè)詞是否符合第二預(yù)設(shè)條件為其賦予附加權(quán)重系數(shù);[0139]基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、以及附加權(quán)重系數(shù)計(jì)算每個(gè)詞的權(quán)重;[0140]分析每個(gè)詞的信息熵,為不同信息熵的詞賦予不同的權(quán)重系數(shù);[0141]基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、附加權(quán)重系數(shù)以及信息熵對(duì)應(yīng)的權(quán)重系數(shù)計(jì)算每個(gè)詞在所述待分析文本中的權(quán)重。[0142]這里,所述第二預(yù)設(shè)條件是指:指定的內(nèi)容;其中,所述指定的內(nèi)容能夠表示分析人員關(guān)心的內(nèi)容。例如,分析人員關(guān)心某款產(chǎn)品的情況,可以將“某款產(chǎn)品”賦予附加權(quán)重系數(shù)。[0143]在一實(shí)施例中,根據(jù)每個(gè)詞是否符合第二預(yù)設(shè)條件為其賦予附加權(quán)重系數(shù),包括:[0144]對(duì)于符合第二預(yù)設(shè)條件的詞為其賦予第一類附加權(quán)重系數(shù),此時(shí),第一類附加權(quán)重系數(shù)大于I;[0145]對(duì)于符不合第二預(yù)設(shè)條件的詞為其第二類賦予附加權(quán)重系數(shù),此時(shí),第二類附加權(quán)重系數(shù)等于I。[0146]在一實(shí)施例中,基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、以及附加權(quán)重系數(shù)計(jì)算每個(gè)詞的權(quán)重,包括:[0147]每個(gè)詞的權(quán)重=aXb;[0148]其中,a表示詞性對(duì)應(yīng)的權(quán)重系數(shù),b表示附加權(quán)重系數(shù)。[0149]例如,對(duì)于一條日志來(lái)說(shuō),由于動(dòng)詞是一條日志的中心,動(dòng)詞獲得的權(quán)重就比較大;副詞在一條日志中所起的作用較小,副詞獲得的權(quán)重就比較小。[0150]在一實(shí)施例中,基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、附加權(quán)重系數(shù)以及信息熵對(duì)應(yīng)的權(quán)重系數(shù)計(jì)算每個(gè)詞在所述待分析文本中的權(quán)重,包括:[0151]每個(gè)詞在所述待分析文本中的權(quán)重=aXbXentropy;[0152]其中,a表示詞性對(duì)應(yīng)的權(quán)重系數(shù),b表示附加權(quán)重系數(shù),entropy表示信息熵。[ΟΙ53]其中,信息熵entropy的計(jì)算公式為:[0154]entropy=-Σfreq*log(freq):其中,freq表示某個(gè)詞在待分析文本中出顯得頻率。[0155]這里,可以通過(guò)記錄詞在日志文本的某時(shí)間段位置來(lái)分析其信息熵,如果某個(gè)詞只集中出現(xiàn)在某一個(gè)時(shí)間段,表明這個(gè)詞只能跟這段時(shí)間關(guān)系比較大,與整天的關(guān)系較小。[0156]步驟304:根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈。[0157]優(yōu)選地,在一實(shí)施例中,所述根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈,包括:[0158]預(yù)先確定至少一個(gè)詞匯鏈的中心詞;[0159]接收當(dāng)前輸入的所述待分析文本中的帶有權(quán)重信息的詞;[0160]按照預(yù)設(shè)規(guī)則對(duì)當(dāng)前輸入的帶有權(quán)重信息的詞進(jìn)行判斷處理;處理完畢后繼續(xù)接收下一個(gè)帶有權(quán)重信息的詞,直至處理完所述待分析文本中的最后一個(gè)詞;[0161]其中,所述預(yù)設(shè)規(guī)則,包括:[0162]判斷當(dāng)前輸入的帶有權(quán)重信息的詞是否與已存在的詞匯鏈的中心詞有關(guān)聯(lián);[0163]如果有關(guān)聯(lián),計(jì)算所述當(dāng)前輸入的帶有權(quán)重信息的詞與已存在的詞匯鏈的中心詞的關(guān)聯(lián)度,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞插入到與其關(guān)聯(lián)度最大的詞匯鏈中;同時(shí),判斷所述當(dāng)前輸入的帶有權(quán)重信息的詞在所述待分析文本中的權(quán)重是否大于其所插入的詞匯鏈的中心詞在所述待分析文本中的權(quán)重,如果是,將所述當(dāng)前輸入的帶有權(quán)重信息的詞確定為其所插入的詞匯鏈的中心詞,并對(duì)所插入的詞匯鏈中的各個(gè)詞的權(quán)重進(jìn)行排序,從所插入的詞匯鏈中剔除滿足第三預(yù)設(shè)條件的詞;[0164]如果沒(méi)有關(guān)聯(lián),新建一條詞匯鏈,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞作為新建詞匯鏈的中心詞。[0165]這里,所述第三預(yù)設(shè)條件是指在詞匯鏈中各個(gè)詞的權(quán)重排名為后x%,這里,所述X可以根據(jù)實(shí)際情況進(jìn)行設(shè)定;或者,所述第三預(yù)設(shè)條件是指在詞匯鏈中各個(gè)詞的權(quán)重排名為后M名;其中,M為大于或等于I的正整數(shù)。從所插入的詞匯鏈中剔除滿足第三預(yù)設(shè)條件的詞,能夠使得最終構(gòu)建出的各個(gè)詞匯鏈中含有較高信息量的信息。[0166]也就是說(shuō),由最先進(jìn)入詞匯鏈的詞作為該詞匯鏈的中心詞,進(jìn)來(lái)一個(gè)新詞要判斷是否與已存在的詞匯鏈的中心詞有關(guān)聯(lián)。如果有,則計(jì)算其關(guān)聯(lián)度,并把新來(lái)的詞加入到關(guān)聯(lián)度最大的那條詞匯鏈中。這樣做的目的使得關(guān)聯(lián)越密切的詞越容易在一條詞匯鏈中出現(xiàn)。將詞匯鏈中的各個(gè)詞排序,重新確定每一條詞匯鏈的中心詞,并將所有權(quán)重小于某一個(gè)閾值踢出詞匯鏈中。[0167]假設(shè)新詞記為wl、已經(jīng)存在的詞匯鏈的中心詞記為w2,那么,wl與w2的關(guān)聯(lián)度為:η+m;其中,η表示DEF(wl)與DEF(w2)在概念解釋中重復(fù)的次數(shù);m表示wl和w2同時(shí)出現(xiàn)在一條日志的次數(shù)。[0168]wl與w2的關(guān)聯(lián)度分為三大類,即強(qiáng)關(guān)聯(lián)、次關(guān)聯(lián)、無(wú)關(guān)聯(lián);具體地,[0169]強(qiáng)關(guān)聯(lián)是指wl與w2的名稱重復(fù)或DEF重復(fù),強(qiáng)關(guān)聯(lián)分為兩種,一種是wl與w2的名稱重復(fù)、DEF重復(fù),可表示為:wl=w2,DEF(wl)=DEF(w2);另一種是wl與w2的名稱不重復(fù),但DEF重復(fù),可表示為:wl在w2且DEF(wl)=DEF(w2)。例如,員工在雇傭者,DEF(員工)=DEF(雇傭者)=人。[0170]次關(guān)聯(lián)是指wl與w2的DEF不重復(fù),但是二者的DEF的交集不為空??杀硎緸?DEF(wl)^DEF(w2),且DEF(wl)ΠDEF(w2)在null,說(shuō)明wl和w2存在上下義、反義、同義、同一個(gè)環(huán)境關(guān)系中的一種。例如,DEF(CPU)=部件,DEF(電腦)=設(shè)備,但是,部件和設(shè)備二者存在一定的關(guān)系。[0171]無(wú)關(guān)聯(lián)是指wl與w2既不滿足強(qiáng)關(guān)聯(lián)標(biāo)準(zhǔn),又不滿足次關(guān)聯(lián)標(biāo)準(zhǔn)。當(dāng)wl與w2無(wú)關(guān)聯(lián)時(shí),則重新建立一條詞匯鏈,并將《I確定為新建的條詞匯鏈的中心詞。[0172]在步驟304之后,所述方法還可以包括:[0173]確定所述待分析文本中各個(gè)詞匯鏈的權(quán)重;[0174]對(duì)所述各個(gè)詞匯鏈的權(quán)重進(jìn)行排序;[0175]對(duì)排名滿足第一預(yù)設(shè)條件的詞匯鏈進(jìn)行分析;[0176]基于分析結(jié)果統(tǒng)計(jì)所述待分析文本所表征的用戶行為信息。[0177]其中,每條詞匯鏈的權(quán)重為該條詞匯鏈中各個(gè)詞的權(quán)重相加。[0178]需要說(shuō)明的是,所述待分析文本中各個(gè)詞匯鏈可能包括多個(gè)同一詞性的詞匯鏈,此情況下,可以分別針對(duì)同一詞性的詞匯鏈進(jìn)行排序;然后在進(jìn)行統(tǒng)計(jì)分析時(shí),優(yōu)先選出不同詞性詞匯鏈中權(quán)重均為最大的詞匯鏈進(jìn)行分析。[0179]例如,所述待分析文本中各個(gè)詞匯鏈中包括3個(gè)名詞詞匯鏈、2個(gè)動(dòng)詞詞匯鏈、I個(gè)副詞詞匯鏈,那么,首先,對(duì)所述2個(gè)名詞詞匯鏈按照權(quán)重大小進(jìn)行排序,同時(shí),對(duì)2個(gè)動(dòng)詞詞匯鏈按照權(quán)重大小進(jìn)行排序;然后,選出權(quán)重最大的名詞詞匯鏈、權(quán)重最大的動(dòng)詞詞匯鏈;最后,根據(jù)權(quán)重最大的名詞詞匯鏈、權(quán)重最大的動(dòng)詞詞匯鏈、I個(gè)副詞詞匯鏈所包含的信息分析用戶行為信息。[0180]如此,能夠根據(jù)構(gòu)建的待分析本本中的詞匯鏈統(tǒng)計(jì)用戶行為信息,如獲取用戶群在某段時(shí)間做了什么事件以及事件的分布情況,進(jìn)而根據(jù)用戶行為信息分析結(jié)果為用戶提供更好的服務(wù)支持或技術(shù)支持等。[0181]在本發(fā)明實(shí)施例中,獲取待分析文本;對(duì)所述待分析文本進(jìn)行預(yù)處理;確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息;其中,所述權(quán)重信息包括所述詞的權(quán)重以及所述詞在所述待分析文本中的權(quán)重;根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈。通過(guò)對(duì)本發(fā)明實(shí)施例技術(shù)方案的實(shí)施,在對(duì)文本進(jìn)行分析處理時(shí)放寬了對(duì)文本的要求,對(duì)不規(guī)范化的日志數(shù)據(jù)不需要規(guī)范化,照樣可分析處理;對(duì)中文的日志也可進(jìn)行分析處理;同時(shí),相對(duì)于在進(jìn)行文本處理時(shí)必須先對(duì)文本進(jìn)行規(guī)范化處理才能繼續(xù)進(jìn)行分析的現(xiàn)有技術(shù)而言,還提高了處理速度。[0182]實(shí)施例二[0183]圖4為本發(fā)明實(shí)施例提供的計(jì)算詞的權(quán)重的實(shí)現(xiàn)流程示意圖,如圖4所示,該計(jì)算詞的權(quán)重主要包括以下步驟:[0184]步驟401:選取某時(shí)間段日志;[0185]步驟402:將日志按照時(shí)間前后順序排列,生成待分析文本;[0186]步驟403:判斷待分析文本是否為用中文表示的文本,如果是,執(zhí)行步驟404;否則,執(zhí)行步驟405;[0187]步驟404:進(jìn)行分詞處理,然后執(zhí)行步驟405;[0188]步驟405:進(jìn)行詞性標(biāo)注處理,然后執(zhí)行步驟406;[0189]步驟406:過(guò)濾掉第一類詞,以使所述待分析文本中的文本內(nèi)容僅保留第二類詞;依次讀取每一個(gè)第二類詞,對(duì)所述每一個(gè)第二類詞均進(jìn)行下述處理。[0190]其中,所述第一類詞不含有實(shí)質(zhì)性的內(nèi)容,對(duì)構(gòu)建詞匯鏈不起作用或者所起的作用可以忽略不計(jì)。例如,所述第一類詞,包括但不限于:“have/有、is/是、let/讓、say/說(shuō)、go/去,,等。[0191]其中,所述第二類詞含有實(shí)質(zhì)性的內(nèi)容,對(duì)構(gòu)建詞匯鏈起重要作用或者所起的作用不可忽略。這里,所述第二類詞,包括但不限于:[0192]名詞、動(dòng)詞、用戶名、形容詞、時(shí)間。[0193]步驟407a:計(jì)算某個(gè)詞出現(xiàn)的次數(shù),然后執(zhí)行步驟408;[0194]步驟407b;計(jì)算詞的DEF(詞)重復(fù)出現(xiàn)的次數(shù);[0195]步驟407c:根據(jù)詞性計(jì)算權(quán)重,然后進(jìn)入步驟411;[0196]例如,d表示標(biāo)準(zhǔn)權(quán)重,對(duì)于此行為動(dòng)詞的詞來(lái)說(shuō),a=1.5d。[0197]步驟408:計(jì)算該詞的熵,然后執(zhí)行步驟409;[0198]步驟409:判斷該詞是否為符合第二預(yù)設(shè)條件的詞,如果是執(zhí)行步驟410,否則,進(jìn)入步驟411;[0199]這里,所述第二預(yù)設(shè)條件是指:預(yù)先指定的;其中,所述符合第二預(yù)設(shè)條件的詞能夠表示分析人員關(guān)心的內(nèi)容。例如,分析人員關(guān)心某款產(chǎn)品的情況,可以將“某款產(chǎn)品”名稱確定為符合第二預(yù)設(shè)條件的詞。[0200]步驟410:為該詞賦予附加權(quán)重系數(shù),然后進(jìn)入步驟411;[0201]這里,需要說(shuō)明的是,將不符合第二預(yù)設(shè)條件的詞,其賦予附加權(quán)重系數(shù)默認(rèn)設(shè)置為I;因此,僅需要對(duì)符合第二預(yù)設(shè)條件的詞賦予附加權(quán)重系數(shù);且符合第二預(yù)設(shè)條件的詞的附加權(quán)重系數(shù)大于I。[0202]當(dāng)然,賦予附加權(quán)重系數(shù)的方式并不僅僅限于以上列舉的這種形式,在此不列舉。[0203]步驟411:計(jì)算該詞在待分析文本中的權(quán)重。[0204]在計(jì)算該詞在待分析文本中的權(quán)重之后,還可以包括:將所計(jì)算出的該詞在待分析文本中的權(quán)重存儲(chǔ)到指定位置。[0205]具體地,每個(gè)詞在所述待分析文本中的權(quán)重=aXbXentropy;[0206]其中,a表示詞性對(duì)應(yīng)的權(quán)重系數(shù),b表示附加權(quán)重系數(shù),entropy表示信息熵。[0207]如此,根據(jù)每個(gè)詞在待分析文本中的權(quán)重可生成帶有權(quán)重?cái)?shù)據(jù)的待分析文本,為進(jìn)行詞匯鏈的構(gòu)建打下了很好的基礎(chǔ),能夠?yàn)闃?gòu)建詞匯鏈提供依據(jù)。[0208]實(shí)施例三[0209]圖5為本發(fā)明實(shí)施例提供的詞匯鏈生成流程示意圖,如圖5所示,該流程主要包括以下步驟:[0210]步驟501:輸入帶有權(quán)重信息的詞;[0211]步驟502:判斷該詞是否為用于表示待分析文本末尾的詞,如果是,詞匯鏈生成流程結(jié)束;如果否,執(zhí)行步驟503;[0212]這里,所述用于表示待分析文本末尾的詞可以是以特殊符號(hào)。當(dāng)然,所述用于表示待分析文本末尾的詞在所述待分析文本中有且只有一個(gè)。[0213]步驟503:判斷詞匯鏈?zhǔn)欠駷榭眨绻?,?zhí)行步驟504;如果否,執(zhí)行步驟505;[0214]步驟504:加入詞匯鏈,將該詞確定為該詞匯鏈的中心詞,然后進(jìn)入步驟514;[0215]步驟505:判斷該詞是否與已經(jīng)存在的各大詞匯鏈的中心詞有關(guān)聯(lián),如果有關(guān)聯(lián),執(zhí)行步驟507;如果無(wú)關(guān)聯(lián),執(zhí)行步驟506;[0216]步驟506:新建一詞匯鏈,且將該詞確定為新建的詞匯鏈的中心詞;然后進(jìn)入步驟514;[0217]步驟507:計(jì)算該詞和與其有關(guān)聯(lián)的各大詞匯鏈的中心詞的關(guān)聯(lián)度;然后執(zhí)行步驟508;[0218]具體地,根據(jù)該詞計(jì)數(shù)數(shù)據(jù)以及DEF計(jì)數(shù)數(shù)據(jù)計(jì)算關(guān)聯(lián)度。[0219]假設(shè)將該詞記為wl、某一詞匯鏈的中心詞記為w2,那么,Wl與w2的關(guān)聯(lián)度為:n+m;其中,n表示DEF(wl)與DEF(w2)在概念解釋中重復(fù)的次數(shù);m表示wl和w2同時(shí)出現(xiàn)在一條日志的次數(shù)。[0220]步驟508:確定與其有關(guān)聯(lián)的且關(guān)聯(lián)度最大的詞匯鏈;然后執(zhí)行步驟509;[0221]步驟509:將該詞加入到與其有關(guān)聯(lián)的且關(guān)聯(lián)度最大的詞匯鏈中;然后執(zhí)行步驟510;[0222]步驟510:對(duì)加入該詞后的與其有關(guān)聯(lián)的且關(guān)聯(lián)度最大的詞匯鏈進(jìn)行權(quán)重排序,然后執(zhí)彳丁步驟513:[0223]如此,使得關(guān)聯(lián)越密切的詞越容易在一條詞匯鏈中出現(xiàn)。[0224]步驟511:判斷該詞在該詞匯鏈中的權(quán)重是否最大,如果是,執(zhí)行步驟512;如果否,執(zhí)行步驟514;[0225]步驟512:將該詞確定為該詞匯鏈中的新的中心詞,然后執(zhí)行步驟514;[0226]步驟513:保留權(quán)重高的P個(gè)詞,刪除該詞匯鏈中剩余的詞;[0227]這里,所述P為正整數(shù)。[0228]也就是說(shuō),在本實(shí)施例中,詞匯鏈中詞的個(gè)數(shù)有上限要求;當(dāng)詞匯鏈中的詞已達(dá)到上限時(shí),若加入一個(gè)詞,一定有一個(gè)詞被剔除掉,能夠使得詞匯鏈中存在的詞均是權(quán)重值較高的詞,如此,能夠使得詞匯鏈中的詞含有較高的信息。[0229]步驟514;計(jì)算詞匯鏈的權(quán)重,然后返回步驟501。[0230]在整個(gè)待分析文本的詞匯鏈生成流程結(jié)束之后,確定所述待分析文本中各個(gè)詞匯鏈的權(quán)重;其中,每條詞匯鏈的權(quán)重為該條詞匯鏈中各個(gè)詞的權(quán)重相加;對(duì)所述各個(gè)詞匯鏈的權(quán)重進(jìn)行排序;可以有選擇性的針對(duì)排序靠前的詞匯鏈優(yōu)先進(jìn)行分析;基于分析結(jié)果統(tǒng)計(jì)所述待分析文本所表征的用戶行為信息。[0231]如此,能夠根據(jù)構(gòu)建的待分析本本中的詞匯鏈統(tǒng)計(jì)用戶行為信息,如從中來(lái)獲取用戶群在某段時(shí)間做了什么事件,以及事件的分布情況;進(jìn)而根據(jù)用戶行為信息分析結(jié)果為用戶提供更好的服務(wù)支持或技術(shù)支持等。[0232]舉例來(lái)說(shuō),根據(jù)用戶日志分析出在11點(diǎn)到11點(diǎn)半之間某一公司的90%以上的員工用手機(jī)訂餐,那么,可以商家可以在該時(shí)間段為這些員工推送手機(jī)訂餐鏈接服務(wù)。[0233]實(shí)施例四[0234]圖6為本發(fā)明實(shí)施例提供的文本信息處理裝置的組成結(jié)構(gòu)示意圖,如圖6所示,所述文本信息處理裝置包括獲取單元61、預(yù)處理單元62、確定單元63、和構(gòu)建單元64;其中,[0235]獲取單元61,用于獲取待分析文本;[0236]預(yù)處理單元62,用于對(duì)所述待分析文本進(jìn)行預(yù)處理;[0237]確定單元63,用于確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息;其中,所述權(quán)重信息包括所述詞的權(quán)重以及所述詞在所述待分析文本中的權(quán)重;[0238]構(gòu)建單元64,用于根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈。[0239]可選地,所述裝置還包括:分析單元65,用于:[0240]確定所述待分析文本中各個(gè)詞匯鏈的權(quán)重;[0241]對(duì)所述各個(gè)詞匯鏈的權(quán)重進(jìn)行排序;[0242]對(duì)排名滿足第一預(yù)設(shè)條件的詞匯鏈進(jìn)行分析;[0243]基于分析結(jié)果統(tǒng)計(jì)所述待分析文本所表征的用戶行為信息。[0244]優(yōu)選地,所述預(yù)處理單元62,還用于:[0245]判斷所述待分析文本是否為用中文表示的待分析文本;如果是,先進(jìn)行詞語(yǔ)切分,然后對(duì)切分后的詞進(jìn)行詞性標(biāo)注;如果否,直接進(jìn)行詞性標(biāo)注;[0246]過(guò)濾掉經(jīng)過(guò)詞性標(biāo)注后的待分析文本中的第一類詞,以使所述待分析文本中的文本內(nèi)容僅保留第二類詞。[0247]優(yōu)選地,所述確定單元63,還用于:[0248]讀取所述經(jīng)預(yù)處理后的待分析文本中的每個(gè)詞;[0249]分析每個(gè)詞的詞性,為不同詞性的詞賦予不同的權(quán)重系數(shù);[0250]根據(jù)每個(gè)詞是否符合第二預(yù)設(shè)條件為其賦予附加權(quán)重系數(shù);[0251]基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、以及附加權(quán)重系數(shù)計(jì)算每個(gè)詞的權(quán)重;[0252]分析每個(gè)詞的信息熵,為不同信息熵的詞賦予不同的權(quán)重系數(shù);[0253]基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、附加權(quán)重系數(shù)以及信息熵對(duì)應(yīng)的權(quán)重系數(shù)計(jì)算每個(gè)詞在所述待分析文本中的權(quán)重。[0254]優(yōu)選地,所述構(gòu)建單元64,還用于:[0255]預(yù)先確定至少一個(gè)詞匯鏈的中心詞;[0256]接收當(dāng)前輸入的所述待分析文本中的帶有權(quán)重信息的詞;[0257]按照預(yù)設(shè)規(guī)則對(duì)當(dāng)前輸入的帶有權(quán)重信息的詞進(jìn)行判斷處理;處理完畢后繼續(xù)接收下一個(gè)帶有權(quán)重信息的詞,直至處理完所述待分析文本中的最后一個(gè)詞;[0258]其中,所述預(yù)設(shè)規(guī)則,包括:[0259]判斷當(dāng)前輸入的帶有權(quán)重信息的詞是否與已存在的詞匯鏈的中心詞有關(guān)聯(lián);[0260]如果有關(guān)聯(lián),計(jì)算所述當(dāng)前輸入的帶有權(quán)重信息的詞與已存在的詞匯鏈的中心詞的關(guān)聯(lián)度,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞插入到與其關(guān)聯(lián)度最大的詞匯鏈中;同時(shí),判斷所述當(dāng)前輸入的帶有權(quán)重信息的詞在所述待分析文本中的權(quán)重是否大于其所插入的詞匯鏈的中心詞在所述待分析文本中的權(quán)重,如果是,將所述當(dāng)前輸入的帶有權(quán)重信息的詞確定為其所插入的詞匯鏈的中心詞,并對(duì)所插入的詞匯鏈中的各個(gè)詞的權(quán)重進(jìn)行排序,從所插入的詞匯鏈中剔除滿足第三預(yù)設(shè)條件的詞;[0261]如果沒(méi)有關(guān)聯(lián),新建一條詞匯鏈,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞作為新建詞匯鏈的中心詞。[0262]本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,圖6中所示的文本信息處理裝置中的各處理單元的實(shí)現(xiàn)功能,可參照前述文本信息處理方法的相關(guān)描述而理解。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,圖6所示的文本信息處理裝置中各處理單元,可通過(guò)運(yùn)行于處理器上的程序而實(shí)現(xiàn),也可通過(guò)具體地邏輯電路而實(shí)現(xiàn)。[0263]在實(shí)際應(yīng)用中,所述的文本信息處理裝置中的獲取單元61、預(yù)處理單元62、確定單元63、構(gòu)建單元64、分析單元65的具體結(jié)構(gòu)均可對(duì)應(yīng)于處理器。所述處理器具體的結(jié)構(gòu)可以為中央處理器(CI3U,CentralProcessingUnit)、數(shù)字信號(hào)處理器(DSP,DigitalSignalProcessor)或可編程門陣列(FPGA,F(xiàn)ield—ProgrammableGateArray)等具有處理功能的電子元器件或電子元器件的集合。其中,所述處理器包括可執(zhí)行代碼,所述可執(zhí)行代碼存儲(chǔ)在存儲(chǔ)介質(zhì)中,所述處理器可以通過(guò)總線等通信接口與所述存儲(chǔ)介質(zhì)中相連,在執(zhí)行具體的各模塊的對(duì)應(yīng)功能時(shí),從所述存儲(chǔ)介質(zhì)中讀取并運(yùn)行所述可執(zhí)行代碼。所述存儲(chǔ)介質(zhì)用于存儲(chǔ)所述可執(zhí)行代碼的部分優(yōu)選為非瞬間存儲(chǔ)介質(zhì)。[0264]所述獲取單元61、預(yù)處理單元62、確定單元63、構(gòu)建單元64、分析單元65可以集成對(duì)應(yīng)于同一處理器,或分別對(duì)應(yīng)不同的處理器;當(dāng)集成對(duì)應(yīng)于同一處理器時(shí),所述處理器采用時(shí)分處理所述獲取單元61、預(yù)處理單元62、確定單元63、構(gòu)建單元64、分析單元65對(duì)應(yīng)的功能。[0265]需要說(shuō)明的是,在本文中,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者裝置不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者裝置所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括該要素的過(guò)程、方法、物品或者裝置中還存在另外的相同要素。[0266]上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。[0267]通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)(如R0M/RAM、磁碟、光盤)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī),月艮務(wù)器,空調(diào)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。[0268]以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說(shuō)明書(shū)及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的
技術(shù)領(lǐng)域:
,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)?!局鳈?quán)項(xiàng)】1.一種文本信息處理裝置,其特征在于,所述裝置包括:獲取單元,用于獲取待分析文本;預(yù)處理單元,用于對(duì)所述待分析文本進(jìn)行預(yù)處理;確定單元,用于確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息;其中,所述權(quán)重信息包括所述詞的權(quán)重以及所述詞在所述待分析文本中的權(quán)重;構(gòu)建單元,用于根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈。2.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述裝置還包括:分析單元,用于:確定所述待分析文本中各個(gè)詞匯鏈的權(quán)重;對(duì)所述各個(gè)詞匯鏈的權(quán)重進(jìn)行排序;對(duì)排名滿足第一預(yù)設(shè)條件的詞匯鏈進(jìn)行分析;基于分析結(jié)果統(tǒng)計(jì)所述待分析文本所表征的用戶行為信息。3.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述預(yù)處理單元,還用于:判斷所述待分析文本是否為用中文表示的待分析文本;如果是,先進(jìn)行詞語(yǔ)切分,然后對(duì)切分后的詞進(jìn)行詞性標(biāo)注;如果否,直接進(jìn)行詞性標(biāo)注;過(guò)濾掉經(jīng)過(guò)詞性標(biāo)注后的待分析文本中的第一類詞,以使所述待分析文本中的文本內(nèi)容僅保留第二類詞。4.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述確定單元,還用于:讀取所述經(jīng)預(yù)處理后的待分析文本中的每個(gè)詞;分析每個(gè)詞的詞性,為不同詞性的詞賦予不同的權(quán)重系數(shù);根據(jù)每個(gè)詞是否符合第二預(yù)設(shè)條件為其賦予附加權(quán)重系數(shù);基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、以及附加權(quán)重系數(shù)計(jì)算每個(gè)詞的權(quán)重;分析每個(gè)詞的信息熵,為不同信息熵的詞賦予不同的權(quán)重系數(shù);基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、附加權(quán)重系數(shù)以及信息熵對(duì)應(yīng)的權(quán)重系數(shù)計(jì)算每個(gè)詞在所述待分析文本中的權(quán)重。5.根據(jù)權(quán)利要求1所述的裝置,其特征在于,所述構(gòu)建單元,還用于:預(yù)先確定至少一個(gè)詞匯鏈的中心詞;接收當(dāng)前輸入的所述待分析文本中的帶有權(quán)重信息的詞;按照預(yù)設(shè)規(guī)則對(duì)當(dāng)前輸入的帶有權(quán)重信息的詞進(jìn)行判斷處理;處理完畢后繼續(xù)接收下一個(gè)帶有權(quán)重信息的詞,直至處理完所述待分析文本中的最后一個(gè)詞;其中,所述預(yù)設(shè)規(guī)則,包括:判斷當(dāng)前輸入的帶有權(quán)重信息的詞是否與已存在的詞匯鏈的中心詞有關(guān)聯(lián);如果有關(guān)聯(lián),計(jì)算所述當(dāng)前輸入的帶有權(quán)重信息的詞與已存在的詞匯鏈的中心詞的關(guān)聯(lián)度,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞插入到與其關(guān)聯(lián)度最大的詞匯鏈中;同時(shí),判斷所述當(dāng)前輸入的帶有權(quán)重信息的詞在所述待分析文本中的權(quán)重是否大于其所插入的詞匯鏈的中心詞在所述待分析文本中的權(quán)重,如果是,將所述當(dāng)前輸入的帶有權(quán)重信息的詞確定為其所插入的詞匯鏈的中心詞,并對(duì)所插入的詞匯鏈中的各個(gè)詞的權(quán)重進(jìn)行排序,從所插入的詞匯鏈中剔除滿足第三預(yù)設(shè)條件的詞;如果沒(méi)有關(guān)聯(lián),新建一條詞匯鏈,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞作為新建詞匯鏈的中心詞。6.一種文本信息處理方法,其特征在于,所述方法包括:獲取待分析文本;對(duì)所述待分析文本進(jìn)行預(yù)處理;確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息;其中,所述權(quán)重信息包括所述詞的權(quán)重以及所述詞在所述待分析文本中的權(quán)重;根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:確定所述待分析文本中各個(gè)詞匯鏈的權(quán)重;對(duì)所述各個(gè)詞匯鏈的權(quán)重進(jìn)行排序;對(duì)排名滿足第一預(yù)設(shè)條件的詞匯鏈進(jìn)行分析;基于分析結(jié)果統(tǒng)計(jì)所述待分析文本所表征的用戶行為信息。8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對(duì)所述待分析文本進(jìn)行預(yù)處理,包括:判斷所述待分析文本是否為用中文表示的待分析文本;如果是,先進(jìn)行詞語(yǔ)切分,然后對(duì)切分后的詞進(jìn)行詞性標(biāo)注;如果否,直接進(jìn)行詞性標(biāo)注;過(guò)濾掉經(jīng)過(guò)詞性標(biāo)注后的待分析文本中的第一類詞,以使所述待分析文本中的文本內(nèi)容僅保留第二類詞。9.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述確定經(jīng)預(yù)處理后的待分析文本中每個(gè)詞的權(quán)重信息,包括:讀取所述經(jīng)預(yù)處理后的待分析文本中的每個(gè)詞;分析每個(gè)詞的詞性,為不同詞性的詞賦予不同的權(quán)重系數(shù);根據(jù)每個(gè)詞是否符合第二預(yù)設(shè)條件為其賦予附加權(quán)重系數(shù);基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、以及附加權(quán)重系數(shù)計(jì)算每個(gè)詞的權(quán)重;分析每個(gè)詞的信息熵,為不同信息熵的詞賦予不同的權(quán)重系數(shù);基于詞性對(duì)應(yīng)的權(quán)重系數(shù)、附加權(quán)重系數(shù)以及信息熵對(duì)應(yīng)的權(quán)重系數(shù)計(jì)算每個(gè)詞在所述待分析文本中的權(quán)重。10.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)每個(gè)詞的權(quán)重信息構(gòu)建所述待分析文本的詞匯鏈,包括:預(yù)先確定至少一個(gè)詞匯鏈的中心詞;接收當(dāng)前輸入的所述待分析文本中的帶有權(quán)重信息的詞;按照預(yù)設(shè)規(guī)則對(duì)當(dāng)前輸入的帶有權(quán)重信息的詞進(jìn)行判斷處理;處理完畢后繼續(xù)接收下一個(gè)帶有權(quán)重信息的詞,直至處理完所述待分析文本中的最后一個(gè)詞;其中,所述預(yù)設(shè)規(guī)則,包括:判斷當(dāng)前輸入的帶有權(quán)重信息的詞是否與已存在的詞匯鏈的中心詞有關(guān)聯(lián);如果有關(guān)聯(lián),計(jì)算所述當(dāng)前輸入的帶有權(quán)重信息的詞與已存在的詞匯鏈的中心詞的關(guān)聯(lián)度,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞插入到與其關(guān)聯(lián)度最大的詞匯鏈中;同時(shí),判斷所述當(dāng)前輸入的帶有權(quán)重信息的詞在所述待分析文本中的權(quán)重是否大于其所插入的詞匯鏈的中心詞在所述待分析文本中的權(quán)重,如果是,將所述當(dāng)前輸入的帶有權(quán)重信息的詞確定為其所插入的詞匯鏈的中心詞,并對(duì)所插入的詞匯鏈中的各個(gè)詞的權(quán)重進(jìn)行排序,從所插入的詞匯鏈中剔除滿足第三預(yù)設(shè)條件的詞;如果沒(méi)有關(guān)聯(lián),新建一條詞匯鏈,并將所述當(dāng)前輸入的帶有權(quán)重信息的詞作為新建詞匯鏈的中心詞。【文檔編號(hào)】G06F17/27GK105868182SQ201610252015【公開(kāi)日】2016年8月17日【申請(qǐng)日】2016年4月21日【發(fā)明人】高宋俤【申請(qǐng)人】努比亞技術(shù)有限公司