學(xué)術(shù)文章處理方法和學(xué)術(shù)文章的搜索處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種學(xué)術(shù)文章處理方法和學(xué)術(shù)文章的搜索處理方法及裝置。
【背景技術(shù)】
[0002]隨著電子出版物(論文、書籍、專利等)的數(shù)量迅速增加,同一作者以多個(gè)姓名(別名、簡(jiǎn)寫等)出現(xiàn),以及多個(gè)作者同名的情況也越來(lái)越嚴(yán)重。
[0003]設(shè)想如下場(chǎng)景:某個(gè)領(lǐng)域的研宄生在閱讀該領(lǐng)域的相關(guān)文獻(xiàn)時(shí),發(fā)現(xiàn)一篇特別感興趣的文章,文章的第一作者是“張三”,該研宄生想把這個(gè)“張三”的其他文章也都找來(lái)閱讀。但是即使在科研領(lǐng)域,名叫“張三”的學(xué)者可能就會(huì)數(shù)量眾多,甚至在相同的一個(gè)細(xì)分領(lǐng)域,都會(huì)有不少重名的情況。那么,如何在大量作者(包括了“張三”這個(gè)姓名)的文獻(xiàn)中,找出所有這個(gè)研宄生感興趣的“張三”發(fā)表的文章呢?這時(shí)就需要進(jìn)行作者消歧的工作。
[0004]簡(jiǎn)而言之,作者消歧的目標(biāo)就是為每一個(gè)作者實(shí)體(可能重名),例如這個(gè)研宄生感興趣的“張三”,確立一個(gè)唯一的標(biāo)識(shí)方式,然后將每一篇文章對(duì)應(yīng)到一個(gè)或者多個(gè)特定的作者實(shí)體上。
[0005]現(xiàn)有技術(shù)中,通常采用分類器和聚類的方法對(duì)學(xué)術(shù)作者進(jìn)行消歧處理。具體的,根據(jù)多篇文章的標(biāo)注數(shù)據(jù)訓(xùn)練一個(gè)分類器,用以判斷兩篇文章是否出自同一個(gè)作者實(shí)體,同時(shí)給出一個(gè)打分;然后,根據(jù)兩兩文章間的打分進(jìn)行聚類,通常是采用層次聚類,聚類完成后每個(gè)類別下的文章即為屬于某個(gè)特定作者實(shí)體的全部文章。
[0006]在實(shí)現(xiàn)上述對(duì)學(xué)術(shù)作者進(jìn)行消歧的過(guò)程中,至少存在如下問(wèn)題:因?yàn)橄绲碾y度和各個(gè)文章的來(lái)源質(zhì)量參差不齊,一般準(zhǔn)確率和召回率位于70% -90%之間,并且很難同時(shí)達(dá)到很高的準(zhǔn)確率和召回率。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的在于提供一種學(xué)術(shù)文章處理方法和學(xué)術(shù)文章的搜索處理方法及裝置,提高對(duì)應(yīng)一個(gè)作者實(shí)體的文章的準(zhǔn)確率和召回率。
[0008]根據(jù)本發(fā)明的一方面,本發(fā)明提供一種通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的學(xué)術(shù)文章處理方法,所述方法包括:獲取作者姓名特征相同的多篇文章;根據(jù)文章的作者所屬機(jī)構(gòu)特征對(duì)所述多篇文章進(jìn)行聚類,得到多個(gè)第一簇;根據(jù)文章的合作者特征和第一語(yǔ)義特征對(duì)所述多個(gè)第一簇進(jìn)行聚類,得到多個(gè)第二簇;根據(jù)文章的所述作者所屬機(jī)構(gòu)特征和第二語(yǔ)義特征對(duì)所述多個(gè)第二簇進(jìn)行聚類,得到多個(gè)第三簇,所述第二語(yǔ)義特征的集合為所述第一語(yǔ)義特征的集合的子集。
[0009]進(jìn)一步地,所述合作者特征包括至少一個(gè)以下特征:合作者姓名特征和合作者所屬機(jī)構(gòu)特征,并且所述第一語(yǔ)義特征包括至少一個(gè)以下特征:發(fā)表期刊名特征、發(fā)表會(huì)議名特征、文章標(biāo)題特征和文章關(guān)鍵詞特征。
[0010]優(yōu)選地,所述方法還包括:為所述第三簇分別設(shè)定唯一的簇標(biāo)識(shí),并且為所述第三簇中的文章標(biāo)注其所屬的所述第三簇的簇標(biāo)識(shí)。
[0011]優(yōu)選地,所述根據(jù)文章的合作者特征和第一語(yǔ)義特征對(duì)所述多個(gè)第一簇進(jìn)行聚類,得到多個(gè)第二簇的處理包括:對(duì)于所述多個(gè)第一簇當(dāng)中的第一待聚類簇和第二待聚類簇,其中,所述第一待聚類簇中文章的數(shù)量大于所述第二待聚類簇中文章的數(shù)量,執(zhí)行如下聚類處理:分別計(jì)算所述第一待聚類簇和所述第二待聚類簇之間所述合作者特征的第一相似度和所述第一語(yǔ)義特征的第二相似度;根據(jù)所述第一相似度的值和所述第二相似度的值計(jì)算所述第一待聚類簇和所述第二待聚類簇之間的第三相似度;如果所述第三相似度的值大于第一聚類閾值,則將所述第二待聚類簇聚類到所述第一待聚類簇中;將對(duì)所述多個(gè)第一簇經(jīng)過(guò)前述聚類處理后得到的多個(gè)所述第一待聚類簇和所述第二待聚類簇作為所述多個(gè)第二簇。
[0012]優(yōu)選地,所述根據(jù)文章的所述作者所屬機(jī)構(gòu)特征和第二語(yǔ)義特征對(duì)所述多個(gè)第二簇進(jìn)行聚類,得到多個(gè)第三簇的處理包括:對(duì)于所述多個(gè)第二簇當(dāng)中的第三待聚類簇和第四待聚類簇,其中,所述第三待聚類簇中文章的數(shù)量大于所述第四待聚類簇中文章的數(shù)量,執(zhí)行如下聚類處理:計(jì)算所述第三待聚類簇和所述第四待聚類簇之間所述作者所屬機(jī)構(gòu)特征的第四相似度;當(dāng)所述第四相似度的值大于第二聚類閾值時(shí),計(jì)算所述第三待聚類簇和所述第四待聚類簇之間所述第二語(yǔ)義特征的第五相似度;如果所述第五相似度的值大于第三聚類閾值,則將所述第四待聚類簇聚類到所述第三待聚類簇中;將對(duì)所述多個(gè)第二簇經(jīng)過(guò)前述聚類處理后得到的多個(gè)所述第三待聚類簇和所述第四待聚類簇作為所述多個(gè)第三簇。
[0013]優(yōu)選地,所述對(duì)于所述多個(gè)第一簇當(dāng)中的第一待聚類簇和第二待聚類簇執(zhí)行的聚類處理還包括:如果所述第三相似度的值小于或者等于所述第一聚類閾值,且大于第一候選閾值,則將所述第二待聚類簇作為所述第一待聚類簇所屬的所述第二簇的第一候選簇。
[0014]優(yōu)選地,所述對(duì)于所述多個(gè)第二簇當(dāng)中的第三待聚類簇和第四待聚類簇執(zhí)行的聚類處理還包括:如果所述第五相似度的值小于或者等于所述第三聚類閾值,且大于第二候選閾值,則將所述第四待聚類簇作為所述第三待聚類簇所屬的所述第三簇的第二候選簇;將所述第四待聚類簇的所述第一候選簇作為所述第四待聚類簇所屬的所述第三簇的第二候選簇,并且將所述第三待聚類簇的所述第一候選簇作為所述第三待聚類簇所屬的所述第三簇的第二候選簇。
[0015]優(yōu)選地,所述方法還包括:根據(jù)文章的所述合作者特征和所述第二語(yǔ)義特征對(duì)所述第三簇的多個(gè)所述第二候選簇進(jìn)行聚類,得到多個(gè)所述第三簇的認(rèn)領(lǐng)候選簇。
[0016]優(yōu)選地,所述方法還包括:如果所述第三簇具有認(rèn)領(lǐng)候選簇,則為所述認(rèn)領(lǐng)候選簇分別設(shè)定唯一的認(rèn)領(lǐng)候選簇標(biāo)識(shí),并且為所述認(rèn)領(lǐng)候選簇中的文章標(biāo)注其所屬的認(rèn)領(lǐng)候選簇的認(rèn)領(lǐng)候選簇標(biāo)識(shí),并且為所述第三簇存儲(chǔ)其所述認(rèn)領(lǐng)候選簇的認(rèn)領(lǐng)候選簇標(biāo)識(shí)。
[0017]進(jìn)一步地,所述第二語(yǔ)義特征包括至少一個(gè)以下特征:所述文章標(biāo)題特征和所述文章關(guān)鍵詞特征。
[0018]根據(jù)本發(fā)明的另一方面,本發(fā)明還提供一種學(xué)術(shù)文章的搜索處理方法,所述方法包括:將用戶用于學(xué)術(shù)文章的搜索詞發(fā)送給服務(wù)器;從所述服務(wù)器接收多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標(biāo)題、作者信息以及所述文章對(duì)應(yīng)的簇標(biāo)識(shí);在用戶界面上顯示所述學(xué)術(shù)文章搜索結(jié)果條目;響應(yīng)于用戶在所述用戶界面上對(duì)所述作者信息的操作,將特定文章對(duì)應(yīng)的簇標(biāo)識(shí)發(fā)送至服務(wù)器;從所述服務(wù)器接收與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的簇中的文章;在所述用戶界面上顯示所述簇中的文章。
[0019]優(yōu)選地,所述方法還包括:從所述服務(wù)器接收與認(rèn)領(lǐng)候選簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇中的文章,所述認(rèn)領(lǐng)候選簇標(biāo)識(shí)為與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇標(biāo)識(shí);在所述用戶界面上顯示所述認(rèn)領(lǐng)候選簇中的文章。
[0020]根據(jù)本發(fā)明的另一方面,本發(fā)明還提供一種學(xué)術(shù)文章的搜索處理方法,所述方法包括:從客戶端接收用戶用于學(xué)術(shù)文章的搜索詞;根據(jù)所述搜索詞獲取與所述搜索詞對(duì)應(yīng)的多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標(biāo)題、作者信息以及所述文章對(duì)應(yīng)的簇標(biāo)識(shí);向所述客戶端發(fā)送所述多條學(xué)術(shù)文章搜索結(jié)果條目;從所述客戶端接收特定文章對(duì)應(yīng)的簇標(biāo)識(shí);根據(jù)所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)獲取與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的簇中的文章;將所述簇中的文章發(fā)送至所述客戶端。
[0021]優(yōu)選地,所述方法還包括:根據(jù)所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)獲取與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇標(biāo)識(shí);根據(jù)所述認(rèn)領(lǐng)候選簇標(biāo)識(shí)獲取與所述認(rèn)領(lǐng)候選簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇中的文章;將所述認(rèn)領(lǐng)候選簇中的文章發(fā)送至所述客戶端。
[0022]根據(jù)本發(fā)明的另一方面,本發(fā)明還提供一種用于學(xué)術(shù)文章處理的裝置,所述裝置包括:文章獲取單元,用于獲取作者姓名特征相同的多篇文章;第一聚類單元,用于根據(jù)文章的作者所屬機(jī)構(gòu)特征對(duì)所述多篇文章進(jìn)行聚類,得到多個(gè)第一簇;第二聚類單元,用于根據(jù)文章的合作者特征和第一語(yǔ)義特征對(duì)所述多個(gè)第一簇進(jìn)行聚類,得到多個(gè)第二簇;第三聚類單元,用于根據(jù)文章的所述作者所屬機(jī)構(gòu)特征和第二語(yǔ)義特征對(duì)所述多個(gè)第二簇進(jìn)行聚類,得到多個(gè)第三簇,所述第二語(yǔ)義特征的集合為所述第一語(yǔ)義特征的集合的子集。
[0023]優(yōu)選地,所述裝置還包括:簇標(biāo)識(shí)標(biāo)注單元,用于為所述第三簇分別設(shè)定唯一的簇標(biāo)識(shí),并且為所述第三簇中的文章標(biāo)注其所屬的所述第三簇的簇標(biāo)識(shí)。
[0024]根據(jù)本發(fā)明的另一方面,本發(fā)明還提供一種用于學(xué)術(shù)文章的搜索處理裝置,所述搜索處理裝置包括:搜索詞發(fā)送單元,用于將用戶用于學(xué)術(shù)文章的搜索詞發(fā)送給服務(wù)器;搜索結(jié)果條目接收單元,用于從所述服務(wù)器接收多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標(biāo)題、作者信息以及所述文章對(duì)應(yīng)的簇標(biāo)識(shí);搜索結(jié)果條目顯示單元,用于在用戶界面上顯示所述學(xué)術(shù)文章搜索結(jié)果條目;簇標(biāo)識(shí)發(fā)送單元,用于響應(yīng)于用戶在所述用戶界面上對(duì)所述作者信息的操作,將特定文章對(duì)應(yīng)的簇標(biāo)識(shí)發(fā)送至服務(wù)器;簇文章接收單元,用于從所述服務(wù)器接收與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的簇中的文章;簇文章顯示單元,用于在所述用戶界面上顯示所述簇中的文章。
[0025]優(yōu)選地,所述搜索處理裝置還包括:認(rèn)領(lǐng)候選簇文章接收單元,用于從所述服務(wù)器接收與認(rèn)領(lǐng)候選簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇中的文章,所述認(rèn)領(lǐng)候選簇標(biāo)識(shí)為與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇標(biāo)識(shí);認(rèn)領(lǐng)候選簇文章顯示單元,用于在所述用戶界面上顯示所述認(rèn)領(lǐng)候選簇中的文章。
[0026]根據(jù)本發(fā)明的另一方面,本發(fā)明還提供一種用于學(xué)術(shù)文章的搜索處理裝置,所述搜索處理裝置包括:搜索詞接收單元,用于從客戶端接收用戶用于學(xué)術(shù)文章的搜索詞;搜索結(jié)果條目獲取單元,用于根據(jù)所述搜索詞獲取與所述搜索詞對(duì)應(yīng)的多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標(biāo)題、作者信息以及所述文章對(duì)應(yīng)的簇標(biāo)識(shí);搜索結(jié)果條目發(fā)送單元,用于向所述客戶端發(fā)送