一種文檔分類(lèi)方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種文檔分類(lèi)方法及裝置。一種文檔分類(lèi)方法包括以下步驟:提取目標(biāo)文檔的特征文本,利用所述特征文本構(gòu)成搜索條件;利用所述搜索條件進(jìn)行搜索,得到相應(yīng)的搜索結(jié)果;計(jì)算所述目標(biāo)文檔與搜索結(jié)果的文本相似度;根據(jù)計(jì)算得到的文本相似度以及搜索結(jié)果的分類(lèi)信息,得到所述目標(biāo)文檔的分類(lèi)結(jié)果。本發(fā)明方案基于文本之間的相似性,利用已有的文檔分類(lèi)信息對(duì)新文檔進(jìn)行分類(lèi),由于文本內(nèi)容相似的文檔屬于相同分類(lèi)的概率很大,因此通過(guò)對(duì)與當(dāng)前文本內(nèi)容相似的文本所屬類(lèi)別進(jìn)行統(tǒng)計(jì),可以得到置信度較高的分類(lèi)結(jié)果。
【專(zhuān)利說(shuō)明】一種文檔分類(lèi)方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】,特別是涉及一種文檔分類(lèi)方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的信息量呈爆炸式增長(zhǎng)。為了更好地應(yīng)用這些信息,需要對(duì)這些信息數(shù)據(jù)進(jìn)行有效的管理。其中,文檔分類(lèi)(document classification)是目前應(yīng)用較為廣泛的一種管理技術(shù)。文檔分類(lèi)是指按照根據(jù)文檔的內(nèi)容或某種屬性,對(duì)文檔集合中的每一個(gè)文檔確定一個(gè)類(lèi)別。這樣,用戶不但能夠方便地在特定的類(lèi)別瀏覽文檔,而且可以通過(guò)限制搜索范圍來(lái)使文檔的查找更為容易。
[0003]對(duì)于海量的文檔資源,采用完全人工的分類(lèi)方法進(jìn)行分類(lèi)顯然是不現(xiàn)實(shí)的。目前,在一些UGC (User Generated Content,用戶生成內(nèi)容)平臺(tái)上,常用的文檔分類(lèi)方法是讓用戶直接參與分類(lèi),具體方案是,平臺(tái)側(cè)的管理人員預(yù)先建立一套分類(lèi)體系,當(dāng)用戶上傳或?yàn)g覽文檔時(shí),要求用戶自行選擇當(dāng)前文檔的分類(lèi)。這種方式的缺點(diǎn)在于:要求用戶完全理解分類(lèi)體系才能提供準(zhǔn)確的分類(lèi)信息,這提高了用戶的操作成本,而且在實(shí)際應(yīng)用中,有些用戶并不會(huì)認(rèn)真提供分類(lèi)信息,系統(tǒng)側(cè)又無(wú)法辨識(shí)這一狀況,這樣反而對(duì)分類(lèi)系統(tǒng)的準(zhǔn)確性造成影響。
[0004]目前另一種常用文檔分類(lèi)方法是:基于有監(jiān)督學(xué)習(xí)的方案,人工構(gòu)建語(yǔ)料、訓(xùn)練分類(lèi)模型,然后利用分類(lèi)模型對(duì)海量的文檔進(jìn)行分類(lèi)。采用這種方案,提升文檔分類(lèi)系統(tǒng)性能的一個(gè)有效途徑是收集高質(zhì)量標(biāo)注語(yǔ)料作為分類(lèi)依據(jù)。目前,語(yǔ)料的收集工作,主要采用的方式是隨機(jī)抽取一定數(shù)量的樣本、然后由人工對(duì)樣本進(jìn)行標(biāo)注,抽取樣本的數(shù)量將直接影響文檔分類(lèi)性能。然而在實(shí)際應(yīng)用中,出于人力成本的考慮,選取的標(biāo)注樣本規(guī)模往往也會(huì)受到限制,從而導(dǎo)致分類(lèi)特征提取不準(zhǔn)確,在一定程度上會(huì)影響分類(lèi)的效果。另一方面,面對(duì)信息的快速更新,標(biāo)注語(yǔ)料也應(yīng)該相應(yīng)進(jìn)行更新以保證分類(lèi)效果,但是要持續(xù)獲得標(biāo)注語(yǔ)料,同樣需要消耗大量的人力成本。
【發(fā)明內(nèi)容】
[0005]為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供一種文檔分類(lèi)方法及裝置,以解決/以實(shí)現(xiàn),技術(shù)方案如下:
[0006]一種文檔分類(lèi)方法,其特征在于,包括:
[0007]提取目標(biāo)文檔的特征文本,利用所述特征文本構(gòu)成搜索條件;
[0008]利用所述搜索條件進(jìn)行搜索,得到相應(yīng)的搜索結(jié)果;
[0009]計(jì)算所述目標(biāo)文檔與搜索結(jié)果的文本相似度;
[0010]根據(jù)計(jì)算得到的文本相似度以及搜索結(jié)果的分類(lèi)信息,得到所述目標(biāo)文檔的分類(lèi)結(jié)果。
[0011]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,所述提取目標(biāo)文檔的特征文本,利用所述特征文本構(gòu)成搜索條件,包括:[0012]提取目標(biāo)文檔的標(biāo)題作為搜索關(guān)鍵詞。
[0013]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,所述計(jì)算所述目標(biāo)文檔與搜索結(jié)果的文本相似度,包括:
[0014]計(jì)算所述目標(biāo)文檔標(biāo)題與搜索結(jié)果標(biāo)題的文本相似度。
[0015]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,所述計(jì)算所述目標(biāo)文檔與搜索結(jié)果的文本相似度,包括:
[0016]計(jì)算所述目標(biāo)文檔與排名前N位搜索結(jié)果的文本相似度,其中N為預(yù)設(shè)的正整數(shù)。
[0017]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,所述根據(jù)計(jì)算得到的文本相似度以及搜索結(jié)果的分類(lèi)信息,得到所述目標(biāo)文檔的分類(lèi)結(jié)果,包括:
[0018]計(jì)算各個(gè)類(lèi)別搜索結(jié)果對(duì)應(yīng)的相似度之和,將相似度之和最高的搜索結(jié)果的所屬類(lèi)別,確定為所述目標(biāo)文檔的類(lèi)別。
[0019]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,所述根據(jù)計(jì)算得到的文本相似度以及搜索結(jié)果的分類(lèi)信息,確定所述目標(biāo)文檔的分類(lèi)結(jié)果,包括:
[0020]計(jì)算各個(gè)類(lèi)別搜索結(jié)果對(duì)應(yīng)的相似度之和,根據(jù)計(jì)算結(jié)果得到所述目標(biāo)文檔屬于各個(gè)類(lèi)別的概率。
[0021]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,該方法還包括:
[0022]利用所得到的文檔分類(lèi)結(jié)果作為語(yǔ)料,訓(xùn)練文檔自動(dòng)分類(lèi)模型;
[0023]或
[0024]利用所得到的文檔分類(lèi)結(jié)果作為語(yǔ)料,對(duì)已有的文檔自動(dòng)分類(lèi)模型進(jìn)行修正。
[0025]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,該方法還包括:
[0026]將所得到的文檔分類(lèi)結(jié)果發(fā)送給用戶,供用戶選擇或修改。
[0027]本發(fā)明實(shí)施例還提供一種文檔分類(lèi)裝置,包括:
[0028]特征提取單元,用于提取目標(biāo)文檔的特征文本,利用所述特征文本構(gòu)成搜索條件;
[0029]搜索單元,用于利用所述搜索條件進(jìn)行搜索,得到相應(yīng)的搜索結(jié)果;
[0030]相似度計(jì)算單元,用于計(jì)算所述目標(biāo)文檔與搜索結(jié)果的文本相似度;
[0031]分類(lèi)單元,用于根據(jù)計(jì)算得到的文本相似度以及搜索結(jié)果的分類(lèi)信息,得到所述目標(biāo)文檔的分類(lèi)結(jié)果。
[0032]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,所述特征提取單元,具體用于:
[0033]提取目標(biāo)文檔的標(biāo)題作為搜索關(guān)鍵詞。
[0034]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,所述相似度計(jì)算單元,具體用于:
[0035]計(jì)算所述目標(biāo)文檔標(biāo)題與搜索結(jié)果標(biāo)題的文本相似度。
[0036]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,所述相似度計(jì)算單元,具體用于:
[0037]計(jì)算所述目標(biāo)文檔與排名前N位搜索結(jié)果的文本相似度,其中N為預(yù)設(shè)的正整數(shù)。
[0038]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,所述分類(lèi)單元,具體用于:
[0039]計(jì)算各個(gè)類(lèi)別搜索結(jié)果對(duì)應(yīng)的相似度之和,將相似度之和最高的搜索結(jié)果的所屬類(lèi)別,確定為所述目標(biāo)文檔的類(lèi)別。
[0040]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,所述分類(lèi)單元,具體用于:
[0041]計(jì)算各個(gè)類(lèi)別搜索結(jié)果對(duì)應(yīng)的相似度之和,根據(jù)計(jì)算結(jié)果得到所述目標(biāo)文檔屬于各個(gè)類(lèi)別的概率。
[0042]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,該裝置還包括分類(lèi)模型管理單元,用于
[0043]利用所得到的文檔分類(lèi)結(jié)果作為語(yǔ)料,訓(xùn)練文檔自動(dòng)分類(lèi)模型;
[0044]或
[0045]利用所得到的文檔分類(lèi)結(jié)果作為語(yǔ)料,對(duì)已有的文檔自動(dòng)分類(lèi)模型進(jìn)行修正。
[0046]根據(jù)本發(fā)明的一種【具體實(shí)施方式】,該裝置還包括:
[0047]分類(lèi)結(jié)果反饋單元,用于將所得到的文檔分類(lèi)結(jié)果發(fā)送給用戶,供用戶選擇或修改。
[0048]本發(fā)明實(shí)施例所提供的技術(shù)方案,基于文本之間的相似性,利用已有的文檔分類(lèi)信息對(duì)新文檔進(jìn)行分類(lèi),由于文本內(nèi)容相似的文檔屬于相同分類(lèi)的概率很大,因此通過(guò)對(duì)與當(dāng)前文本內(nèi)容相似的文本所屬類(lèi)別進(jìn)行統(tǒng)計(jì),可以得到置信度較高的分類(lèi)結(jié)果。應(yīng)用本發(fā)明實(shí)施例所提供的技術(shù)方案,既不需要用戶參與,也不需要消耗系統(tǒng)側(cè)的人力成本,分類(lèi)結(jié)果不會(huì)受到人為因素的影響。此外,如果進(jìn)一步利用本發(fā)明的分類(lèi)結(jié)果作為依據(jù)訓(xùn)練分類(lèi)模型,也能夠有效提升分類(lèi)模型的適應(yīng)性,從而可以在不增加系統(tǒng)側(cè)人力成本的情況下,使模型分類(lèi)系統(tǒng)的分類(lèi)性能得到持續(xù)的提升。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0049]為了更清楚地說(shuō) 明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,還可以根據(jù)這些附圖獲得其他的附圖。
[0050]圖1為本發(fā)明實(shí)施例文檔分類(lèi)方法的一種流程圖;
[0051]圖2為本發(fā)明實(shí)施例文檔分類(lèi)裝置的一種結(jié)構(gòu)示意圖;
[0052]圖3為本發(fā)明實(shí)施例文檔分類(lèi)裝置的第二種結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0053]首先對(duì)本發(fā)明實(shí)施例所提供的一種文檔分類(lèi)方法進(jìn)行說(shuō)明,該方法可以包括以下步驟:
[0054]提取目標(biāo)文檔的特征文本,利用所述特征文本構(gòu)成搜索條件;
[0055]利用所述搜索條件進(jìn)行搜索,得到相應(yīng)的搜索結(jié)果;
[0056]計(jì)算所述目標(biāo)文檔與搜索結(jié)果的文本相似度;
[0057]根據(jù)計(jì)算得到的文本相似度以及搜索結(jié)果的分類(lèi)信息,得到所述目標(biāo)文檔的分類(lèi)結(jié)果。
[0058]本發(fā)明實(shí)施例方案基于這樣一種實(shí)現(xiàn)前提:當(dāng)前已經(jīng)具有一些文檔(文檔可以位于應(yīng)用平臺(tái)內(nèi)部或外部),這些文檔本身已經(jīng)被分類(lèi),即具有置信度較高的分類(lèi)信息。那么,對(duì)于待分類(lèi)的目標(biāo)文檔A,如果可以找到和A具有相同或相似內(nèi)容的已分類(lèi)文檔B1、B2、…Bn,就可以根據(jù)文檔B1、B2、…Bn的所屬類(lèi)別,確定文檔A的所屬類(lèi)別。
[0059]本發(fā)明實(shí)施例方案,可以適用于各種具有文檔文類(lèi)需求的應(yīng)用環(huán)境。其中的文檔也可以表現(xiàn)為多種形式,例如文庫(kù)平臺(tái)中的TXT、DOC、PDF等形式的文檔、問(wèn)答平臺(tái)中的問(wèn)題主題、百科平臺(tái)中的百科詞條等等,這些并不影響本發(fā)明方案的實(shí)現(xiàn)。
[0060]本發(fā)明實(shí)施例所提供的技術(shù)方案,基于文本之間的相似性,利用已有的文檔分類(lèi)信息對(duì)新文檔進(jìn)行分類(lèi),由于文本內(nèi)容相似的文檔屬于相同分類(lèi)的概率很大,因此通過(guò)對(duì)與當(dāng)前文本內(nèi)容相似的文本所屬類(lèi)別進(jìn)行統(tǒng)計(jì),可以得到置信度較高的分類(lèi)結(jié)果。應(yīng)用本發(fā)明實(shí)施例所提供的技術(shù)方案,既不需要用戶參與,也不需要消耗系統(tǒng)側(cè)的人力成本,分類(lèi)結(jié)果不會(huì)受到人為因素的影響。
[0061]本發(fā)明實(shí)施例所提供的文檔分類(lèi)方案,從分類(lèi)效果上看,分類(lèi)準(zhǔn)確率高,且有自適應(yīng)性;從分類(lèi)效率上看,輔之以檢索手段,減少了不必要的相似度計(jì)算,使此方法可以應(yīng)用于實(shí)時(shí)分類(lèi)系統(tǒng)。此外,如果進(jìn)一步利用本發(fā)明的分類(lèi)結(jié)果作為依據(jù)訓(xùn)練分類(lèi)模型,也能夠有效提升分類(lèi)模型的適應(yīng)性,從而可以在不增加系統(tǒng)側(cè)人力成本的情況下,使模型分類(lèi)系統(tǒng)的分類(lèi)性能得到持續(xù)的提升。
[0062]為了使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行詳細(xì)地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
[0063]圖1所示為本發(fā)明實(shí)施例所提供的一種文檔分類(lèi)方法的流程圖,該方法可以包括以下步驟:
[0064]S101,提取目標(biāo)文檔的特征文本,利用所述特征文本構(gòu)成搜索條件;
[0065]搜索引擎的基本功能,就是根據(jù)給定的搜索條件,找出與該搜索條件內(nèi)容相匹配的其他網(wǎng)絡(luò)資源。根據(jù)搜索引擎的基本功能,在本發(fā)明中,可以利用待分類(lèi)目標(biāo)文檔的部分內(nèi)容構(gòu)成搜索條件輸入搜索引擎,在一定的文檔集合范圍內(nèi)進(jìn)行搜索,然后根據(jù)搜索結(jié)果的分類(lèi)信息確定當(dāng)前目標(biāo)文檔的所屬類(lèi)別。
[0066]由短文本構(gòu)成的搜索關(guān)鍵詞,是一種最為常見(jiàn)的搜索條件形式,而對(duì)于一篇文檔而言,最能夠體現(xiàn)文檔特征的短文本一般是該文檔的標(biāo)題,因此,本發(fā)明的一種最基本的實(shí)現(xiàn)方案是:可以將文檔A的標(biāo)題直接作為搜索條件輸入搜索引擎??梢岳斫獾氖?,在不同的應(yīng)用環(huán)境中,“標(biāo)題”所指代的具體內(nèi)容不同,除了狹義上的文檔標(biāo)題之外,還可以是詞條名稱(chēng),問(wèn)題的題干內(nèi)容,等等。
[0067]當(dāng)然,在實(shí)際應(yīng)用過(guò)程中,除了標(biāo)題之外,目標(biāo)文檔的其他部分都可以用于構(gòu)成檢索條件,例如作者、發(fā)布者、摘要內(nèi)容、單位等等。這些部分可以用來(lái)單獨(dú)構(gòu)成搜索關(guān)鍵詞,也可以彼此結(jié)合構(gòu)成復(fù)合檢索條件。
[0068]此外,在構(gòu)成搜索條件的過(guò)程中,還可以進(jìn)行如分詞、去除停用詞等等預(yù)處理。當(dāng)然,目前很多搜索引擎已經(jīng)非常智能,例如搜索引擎本身會(huì)自動(dòng)進(jìn)行分詞、去除停用詞等預(yù)處理,因此對(duì)于本發(fā)明而言,上述預(yù)處理操作并不是必須的。
[0069]S102,利用所述搜索條件進(jìn)行搜索,得到相應(yīng)的搜索結(jié)果;
[0070]構(gòu)成搜索條件之后,將搜索條件發(fā)送至搜索引擎,并且得到搜索引擎所返回的一個(gè)或多個(gè)搜索結(jié)果。
[0071]本發(fā)明方案,是直接利用已有的搜索引擎進(jìn)行搜索,本身不需要對(duì)搜索引擎進(jìn)行改動(dòng)。當(dāng)然,在實(shí)際應(yīng)用過(guò)程中,對(duì)于不同的應(yīng)用環(huán)境,可能分別有著不同的分類(lèi)體系,而只有在搜索結(jié)果中包含特定的分類(lèi)體系信息時(shí),該搜索結(jié)果才是有意義的。因此,一般會(huì)根據(jù)在具體應(yīng)用環(huán)境的文檔分類(lèi)需求,將文檔發(fā)送至特定的搜索引擎進(jìn)行搜索。
[0072]例如,對(duì)于文庫(kù)平臺(tái),將搜索條件直接輸入該文庫(kù)平臺(tái)的搜索引擎,得到的搜索結(jié)果以文件為單位,每條搜索結(jié)果對(duì)應(yīng)該文庫(kù)平臺(tái)中的一個(gè)文檔文件(例如TXT、DOC、PDF等格式);對(duì)于問(wèn)答平臺(tái),將搜索條件直接輸入該問(wèn)答平臺(tái)的搜索引擎,得到的搜索結(jié)果以“問(wèn)答對(duì)”為單位返回,每條搜索結(jié)果對(duì)應(yīng)該問(wèn)答平臺(tái)中的一個(gè)問(wèn)答對(duì)。對(duì)于百科平臺(tái),將搜索條件直接輸入該百科平臺(tái)的搜索引擎,得到的搜索結(jié)果以詞條為單位返回,每條搜索結(jié)果對(duì)應(yīng)該百科平臺(tái)中的一個(gè)詞條。
[0073]在實(shí)際應(yīng)用中,由于不同應(yīng)用平臺(tái)的管理策略不同,有些平臺(tái)可能要求文檔資源必須具有一個(gè)明確的分類(lèi),有些平臺(tái)則不然??梢岳斫獾氖?,對(duì)于后面一種情況,如果不具有分類(lèi)信息的文檔出現(xiàn)在了搜索結(jié)果中,那么這些搜索結(jié)果對(duì)于本發(fā)明的“文檔分類(lèi)”而言,也是沒(méi)有實(shí)際意義的,可以進(jìn)行濾除處理。
[0074]另外,對(duì)于搜索引擎而言,根據(jù)搜索策略的不同,可能會(huì)返回大量的搜索結(jié)果,而且搜索結(jié)果一般也都會(huì)根據(jù)與關(guān)鍵詞的相關(guān)(相似)程度進(jìn)行排序,排名靠后的搜索結(jié)果可能和搜索條件的匹配程度已經(jīng)比較低,這類(lèi)搜索結(jié)果對(duì)后續(xù)的分類(lèi)處理貢獻(xiàn)度較小,因此在本發(fā)明的一種實(shí)施方式中,可以對(duì)搜索結(jié)果做適當(dāng)?shù)慕財(cái)嗵幚?,例?僅選取排名前N位(N為預(yù)設(shè)的正整數(shù),例如N=5、N=IO, N=20等等)的搜索結(jié)果,用于后續(xù)處理,從而提高處理效率。
[0075]S103,計(jì)算所述目標(biāo)文檔與搜索結(jié)果的文本相似度;
[0076]對(duì)于搜索得到的全部或經(jīng)過(guò)濾/截?cái)嗵幚砗蟮乃阉鹘Y(jié)果,分別計(jì)算目標(biāo)文檔與搜索結(jié)果的文本相似度。
[0077]對(duì)于文本相似度的計(jì)算方法,從大的方面分類(lèi),可以分為字面相似與語(yǔ)義相似。字面相似,最基本的方法是利用“公共字串長(zhǎng)度/當(dāng)前文本總長(zhǎng)度”的公式計(jì)算,當(dāng)然也可以引入歐式距離等其他更復(fù)雜的算法計(jì)算。。語(yǔ)義相似,則需要在字面相似的基礎(chǔ)上,引入一些同義資源,對(duì)同義詞進(jìn)行替換歸一,然后再計(jì)算,如“電能轉(zhuǎn)換”與“電能轉(zhuǎn)化”歸一為“電能轉(zhuǎn)化”,然后再進(jìn)行字面相似度計(jì)算。字面相似在很多情況下,可以近似估計(jì)出語(yǔ)義相似,且不需要額外資源;語(yǔ)義相似則需要額外資源,但也會(huì)帶來(lái)比字面相似更準(zhǔn)確的效果。根據(jù)實(shí)際應(yīng)用需求,本領(lǐng)域技術(shù)人員可以靈活選擇各種文本相似的具體計(jì)算方法,本發(fā)明對(duì)此并不需要進(jìn)行限定。
[0078]本發(fā)明的一種最基本的實(shí)現(xiàn)方案是:分別計(jì)算目標(biāo)文檔的標(biāo)題與每條搜索結(jié)果文檔標(biāo)題的文本相似度。根據(jù)之前的描述可姐,在不同的應(yīng)用環(huán)境中,“標(biāo)題”所指代的具體內(nèi)容不同,除了狹義上的文檔標(biāo)題之外,還可以是詞條名稱(chēng),問(wèn)題的題干內(nèi)容,等等。
[0079]當(dāng)然在實(shí)際應(yīng)用中,也可以利用目標(biāo)文檔和搜索結(jié)果文檔的任意部分進(jìn)行文本相似度計(jì)算,例如,計(jì)算目標(biāo)文檔的標(biāo)題與搜索結(jié)果文檔摘要的文本相似度、計(jì)算目標(biāo)文檔的摘要與搜索結(jié)果文檔摘要的文本相似度,等等,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際應(yīng)用需求和應(yīng)用場(chǎng)景,靈活設(shè)置相似度計(jì)算的源數(shù)據(jù)本發(fā)明對(duì)此并不需要進(jìn)行限定。
[0080]S104,根據(jù)計(jì)算得到的文本相似度以及搜索結(jié)果的分類(lèi)信息,得到所述目標(biāo)文檔的分類(lèi)結(jié)果。
[0081]對(duì)于搜索得到的全部或經(jīng)過(guò)濾/截?cái)嗵幚砗蟮乃阉鹘Y(jié)果,首先獲取其分類(lèi)信息,然后根據(jù)這些已有的分類(lèi)信息和計(jì)算得到的文本相似度結(jié)果,對(duì)目標(biāo)文檔進(jìn)行分類(lèi)。[0082]一種最簡(jiǎn)單的實(shí)現(xiàn)方式是:對(duì)每條搜索結(jié)果的文本相似度進(jìn)行排序,選擇與當(dāng)前文檔相似度最高的搜索結(jié)果,將該條搜索結(jié)果所在的分類(lèi)確定為當(dāng)前文檔的分類(lèi)。
[0083]可以理解的是,對(duì)于N條搜索結(jié)果,所對(duì)應(yīng)的類(lèi)別最多有N種,然而在實(shí)際應(yīng)用中,往往N條結(jié)果對(duì)應(yīng)的類(lèi)別只有M (M< N)種,也就是說(shuō),有若干搜索結(jié)果的所述類(lèi)別是相同的。在本發(fā)明的一種實(shí)施方式中,可以分別計(jì)算M個(gè)類(lèi)別下的搜索結(jié)果的相似度之和,將相似度之和最高的搜索結(jié)果的所屬類(lèi)別,確定為所述目標(biāo)文檔的類(lèi)別。
[0084]例如,對(duì)于待分類(lèi)的目標(biāo)文檔A,其對(duì)應(yīng)5條搜索結(jié)果(可以是全部的搜索結(jié)果,也可以是截?cái)嗪蟮乃阉鹘Y(jié)果)分別為B1、B2、B3、B4、B5,其中,每條搜索結(jié)果與A的文本相似度以及所對(duì)應(yīng)的類(lèi)別如表1所示:
[0085]
【權(quán)利要求】
1.一種文檔分類(lèi)方法,其特征在于,包括: 提取目標(biāo)文檔的特征文本,利用所述特征文本構(gòu)成搜索條件; 利用所述搜索條件進(jìn)行搜索,得到相應(yīng)的搜索結(jié)果; 計(jì)算所述目標(biāo)文檔與搜索結(jié)果的文本相似度; 根據(jù)計(jì)算得到的文本相似度以及搜索結(jié)果的分類(lèi)信息,得到所述目標(biāo)文檔的分類(lèi)結(jié)果O
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述提取目標(biāo)文檔的特征文本,利用所述特征文本構(gòu)成搜索條件,包括: 提取目標(biāo)文檔的標(biāo)題作為搜索關(guān)鍵詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算所述目標(biāo)文檔與搜索結(jié)果的文本相似度,包括: 計(jì)算所述目標(biāo)文檔標(biāo)題與搜索結(jié)果標(biāo)題的文本相似度。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算所述目標(biāo)文檔與搜索結(jié)果的文本相似度,包括: 計(jì)算所述目標(biāo)文檔與排名前N位搜索結(jié)果的文本相似度,其中N為預(yù)設(shè)的正整數(shù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)計(jì)算得到的文本相似度以及搜索結(jié)果的分類(lèi)信息,得到所述目標(biāo)文檔的分類(lèi)結(jié)果,包括: 計(jì)算各個(gè)類(lèi)別搜索結(jié)果對(duì)應(yīng)的相似度之和,將相似度之和最高的搜索結(jié)果的所屬類(lèi)另IJ,確定為所述目標(biāo)文檔的類(lèi)別。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)計(jì)算得到的文本相似度以及搜索結(jié)果的分類(lèi)信息,確定所述目標(biāo)文檔的分類(lèi)結(jié)果,包括: 計(jì)算各個(gè)類(lèi)別搜索結(jié)果對(duì)應(yīng)的相似度之和,根據(jù)計(jì)算結(jié)果得到所述目標(biāo)文檔屬于各個(gè)類(lèi)別的概率。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 利用所得到的文檔分類(lèi)結(jié)果作為語(yǔ)料,訓(xùn)練文檔自動(dòng)分類(lèi)模型; 或 利用所得到的文檔分類(lèi)結(jié)果作為語(yǔ)料,對(duì)已有的文檔自動(dòng)分類(lèi)模型進(jìn)行修正。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 將所得到的文檔分類(lèi)結(jié)果發(fā)送給用戶,供用戶選擇或修改。
9.一種文檔分類(lèi)裝置,其特征在于,包括: 特征提取單元,用于提取目標(biāo)文檔的特征文本,利用所述特征文本構(gòu)成搜索條件; 搜索單元,用于利用所述搜索條件進(jìn)行搜索,得到相應(yīng)的搜索結(jié)果; 相似度計(jì)算單元,用于計(jì)算所述目標(biāo)文檔與搜索結(jié)果的文本相似度; 分類(lèi)單元,用于根據(jù)計(jì)算得到的文本相似度以及搜索結(jié)果的分類(lèi)信息,得到所述目標(biāo)文檔的分類(lèi)結(jié)果。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述特征提取單元,具體用于: 提取目標(biāo)文檔的標(biāo)題作為搜索關(guān)鍵詞。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述相似度計(jì)算單元,具體用于: 計(jì)算所述目標(biāo)文檔標(biāo)題與搜索結(jié)果標(biāo)題的文本相似度。
12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述相似度計(jì)算單元,具體用于: 計(jì)算所述目標(biāo)文檔與排名前N位搜索結(jié)果的文本相似度,其中N為預(yù)設(shè)的正整數(shù)。
13.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述分類(lèi)單元,具體用于: 計(jì)算各個(gè)類(lèi)別搜索結(jié)果對(duì)應(yīng)的相似度之和,將相似度之和最高的搜索結(jié)果的所屬類(lèi)另IJ,確定為所述目標(biāo)文檔的類(lèi)別。
14.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述分類(lèi)單元,具體用于: 計(jì)算各個(gè)類(lèi)別搜索結(jié)果對(duì)應(yīng)的相似度之和,根據(jù)計(jì)算結(jié)果得到所述目標(biāo)文檔屬于各個(gè)類(lèi)別的概率。
15.根據(jù)權(quán)利要求9所述的裝置,其特征在于,該裝置還包括分類(lèi)模型管理單元,用于 利用所得到的文檔分類(lèi)結(jié)果作為語(yǔ)料,訓(xùn)練文檔自動(dòng)分類(lèi)模型; 或 利用所得到的文檔分類(lèi)結(jié)果作為語(yǔ)料,對(duì)已有的文檔自動(dòng)分類(lèi)模型進(jìn)行修正。
16.根據(jù)權(quán)利要求9所述的裝置,其特征在于,該裝置還包括: 分類(lèi)結(jié)果反饋單元,用于將 所得到的文檔分類(lèi)結(jié)果發(fā)送給用戶,供用戶選擇或修改。
【文檔編號(hào)】G06F17/30GK103577462SQ201210273212
【公開(kāi)日】2014年2月12日 申請(qǐng)日期:2012年8月2日 優(yōu)先權(quán)日:2012年8月2日
【發(fā)明者】徐興軍 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司