的文章。
[0105]實(shí)施例四
[0106]圖4是示出本發(fā)明示例性實(shí)施例用于學(xué)術(shù)文章處理的裝置的結(jié)構(gòu)示意圖。
[0107]參照圖4,本實(shí)施例的用于學(xué)術(shù)文章處理的裝置可執(zhí)行實(shí)施例一的通過計(jì)算機(jī)實(shí)現(xiàn)的學(xué)術(shù)文章處理方法。本實(shí)施例的用于學(xué)術(shù)文章處理的裝置具體包括:文章獲取單元410、第一聚類單元420、第二聚類單元430和第三聚類單元440。
[0108]文章獲取單元410用于獲取作者姓名特征相同的多篇文章。
[0109]第一聚類單元420用于根據(jù)文章的作者所屬機(jī)構(gòu)特征對所述多篇文章進(jìn)行聚類,得到多個(gè)第一簇。
[0110]第二聚類單元430用于根據(jù)文章的合作者特征和第一語義特征對所述多個(gè)第一簇進(jìn)行聚類,得到多個(gè)第二簇。
[0111]第三聚類單元440用于根據(jù)文章的所述作者所屬機(jī)構(gòu)特征和第二語義特征對所述多個(gè)第二簇進(jìn)行聚類,得到多個(gè)第三簇,所述第二語義特征的集合為所述第一語義特征的集合的子集。
[0112]進(jìn)一步地,所述合作者特征包括至少一個(gè)以下特征:合作者姓名特征和合作者所屬機(jī)構(gòu)特征,并且所述第一語義特征包括至少一個(gè)以下特征:發(fā)表期刊名特征、發(fā)表會(huì)議名特征、文章標(biāo)題特征和文章關(guān)鍵詞特征。
[0113]優(yōu)選地,所述裝置還包括:簇標(biāo)識標(biāo)注單元,用于為所述第三簇分別設(shè)定唯一的簇標(biāo)識,并且為所述第三簇中的文章標(biāo)注其所屬的所述第三簇的簇標(biāo)識。
[0114]優(yōu)選地,第二聚類單元430具體用于:對于所述多個(gè)第一簇當(dāng)中的第一待聚類簇和第二待聚類簇,其中,所述第一待聚類簇中文章的數(shù)量大于所述第二待聚類簇中文章的數(shù)量,執(zhí)行如下聚類處理:分別計(jì)算所述第一待聚類簇和所述第二待聚類簇之間所述合作者特征的第一相似度和所述第一語義特征的第二相似度,根據(jù)所述第一相似度的值和所述第二相似度的值計(jì)算所述第一待聚類簇和所述第二待聚類簇之間的第三相似度,如果所述第三相似度的值大于第一聚類閾值,則將所述第二待聚類簇聚類到所述第一待聚類簇中。將對所述多個(gè)第一簇經(jīng)過前述聚類處理后得到的多個(gè)所述第一待聚類簇和所述第二待聚類簇作為所述多個(gè)第二簇。
[0115]優(yōu)選地,第三聚類單元440具體用于:對于所述多個(gè)第二簇當(dāng)中的第三待聚類簇和第四待聚類簇,其中,所述第三待聚類簇中文章的數(shù)量大于所述第四待聚類簇中文章的數(shù)量,執(zhí)行如下聚類處理:計(jì)算所述第三待聚類簇和所述第四待聚類簇之間所述作者所屬機(jī)構(gòu)特征的第四相似度,當(dāng)所述第四相似度的值大于第二聚類閾值時(shí),計(jì)算所述第三待聚類簇和所述第四待聚類簇之間所述第二語義特征的第五相似度,如果所述第五相似度的值大于第三聚類閾值,則將所述第四待聚類簇聚類到所述第三待聚類簇中。將對所述多個(gè)第二簇經(jīng)過前述聚類處理后得到的多個(gè)所述第三待聚類簇和所述第四待聚類簇作為所述多個(gè)第三簇。
[0116]優(yōu)選地,第二聚類單元430還用于:如果所述第三相似度的值小于或者等于所述第一聚類閾值,且大于第一候選閾值,則將所述第二待聚類簇作為所述第一待聚類簇所屬的所述第二簇的第一候選簇。
[0117]優(yōu)選地,第三聚類單元440還用于:如果所述第五相似度的值小于或者等于所述第三聚類閾值,且大于第二候選閾值,則將所述第四待聚類簇作為所述第三待聚類簇所屬的所述第三簇的第二候選簇。將所述第四待聚類簇的所述第一候選簇作為所述第四待聚類簇所屬的所述第三簇的第二候選簇,并且將所述第三待聚類簇的所述第一候選簇作為所述第三待聚類簇所屬的所述第三簇的第二候選簇。
[0118]優(yōu)選地,所述裝置還包括:第四聚類單元,用于根據(jù)文章的所述合作者特征和所述第二語義特征對所述第三簇的多個(gè)所述第二候選簇進(jìn)行聚類,得到多個(gè)所述第三簇的認(rèn)領(lǐng)候選簇。
[0119]優(yōu)選地,所述裝置還包括:認(rèn)領(lǐng)候選簇標(biāo)識標(biāo)注單元,用于如果所述第三簇具有認(rèn)領(lǐng)候選簇,則為所述認(rèn)領(lǐng)候選簇分別設(shè)定唯一的認(rèn)領(lǐng)候選簇標(biāo)識,并且為所述認(rèn)領(lǐng)候選簇中的文章標(biāo)注其所屬的認(rèn)領(lǐng)候選簇的認(rèn)領(lǐng)候選簇標(biāo)識,并且為所述第三簇存儲(chǔ)其所述認(rèn)領(lǐng)候選簇的認(rèn)領(lǐng)候選簇標(biāo)識。
[0120]進(jìn)一步地,所述第二語義特征具體可包括至少一個(gè)以下特征:所述文章標(biāo)題特征和所述文章關(guān)鍵詞特征。
[0121]本發(fā)明實(shí)施例的用于學(xué)術(shù)文章處理的裝置,根據(jù)文章的作者所屬機(jī)構(gòu)特征對作者姓名特征相同的多篇文章進(jìn)行第一次聚類,根據(jù)文章的合作者特征和第一語義特征對第一次聚類得到的多個(gè)第一簇進(jìn)行第二次聚類,根據(jù)文章的作者所屬機(jī)構(gòu)特征和第二語義特征對第二次聚類得到的多個(gè)第二簇進(jìn)行聚類,得到多個(gè)第三簇。每個(gè)第三簇中的文章即召回的某個(gè)作者實(shí)體的文章,將每篇文章與某個(gè)作者實(shí)體對應(yīng),提高了對應(yīng)一個(gè)作者實(shí)體的文章的準(zhǔn)確率和召回率。
[0122]實(shí)施例五
[0123]圖5是示出本發(fā)明示例性實(shí)施例用于學(xué)術(shù)文章的搜索處理裝置的結(jié)構(gòu)示意圖。
[0124]參照圖5,本實(shí)施例的用于學(xué)術(shù)文章的搜索處理裝置可執(zhí)行實(shí)施例二的學(xué)術(shù)文章的搜索處理方法。本實(shí)施例的用于學(xué)術(shù)文章的搜索處理裝置具體包括:搜索詞發(fā)送單元510、搜索結(jié)果條目接收單元520、搜索結(jié)果條目顯示單元530、簇標(biāo)識發(fā)送單元540、簇文章接收單元550和簇文章顯示單元560。
[0125]搜索詞發(fā)送單元510用于將用戶用于學(xué)術(shù)文章的搜索詞發(fā)送給服務(wù)器。
[0126]搜索結(jié)果條目接收單元520用于從所述服務(wù)器接收多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標(biāo)題、作者信息以及所述文章對應(yīng)的簇標(biāo)識。
[0127]搜索結(jié)果條目顯示單元530用于在用戶界面上顯示所述學(xué)術(shù)文章搜索結(jié)果條目。
[0128]簇標(biāo)識發(fā)送單元540用于響應(yīng)于用戶在所述用戶界面上對所述作者信息的操作,將特定文章對應(yīng)的簇標(biāo)識發(fā)送至服務(wù)器。
[0129]簇文章接收單元550用于從所述服務(wù)器接收與所述特定文章對應(yīng)的簇標(biāo)識對應(yīng)的簇中的文章。
[0130]簇文章顯示單元560用于在所述用戶界面上顯示所述簇中的文章。
[0131]優(yōu)選地,本實(shí)施例的搜索處理裝置還包括:認(rèn)領(lǐng)候選簇文章接收單元,用于從所述服務(wù)器接收與認(rèn)領(lǐng)候選簇標(biāo)識對應(yīng)的認(rèn)領(lǐng)候選簇中的文章,所述認(rèn)領(lǐng)候選簇標(biāo)識為與所述特定文章對應(yīng)的簇標(biāo)識對應(yīng)的認(rèn)領(lǐng)候選簇標(biāo)識。認(rèn)領(lǐng)候選簇文章顯示單元,用于在所述用戶界面上顯示所述認(rèn)領(lǐng)候選簇中的文章。
[0132]本發(fā)明實(shí)施例的用于學(xué)術(shù)文章的搜索處理裝置中,學(xué)術(shù)文章搜索結(jié)果條目中的簇標(biāo)識以及與特定文章對應(yīng)的簇標(biāo)識對應(yīng)的簇中的文章基于上述實(shí)施例四中為文章標(biāo)注的第二族的族標(biāo)識得到。
[0133]實(shí)施例六
[0134]圖6是示出本發(fā)明示例性實(shí)施例用于學(xué)術(shù)文章的搜索處理裝置的結(jié)構(gòu)示意圖。
[0135]參照圖6,本實(shí)施例的用于學(xué)術(shù)文章的搜索處理裝置可執(zhí)行實(shí)施例三的學(xué)術(shù)文章的搜索處理方法。本實(shí)施例的用于學(xué)術(shù)文章的搜索處理裝置具體包括:搜索詞接收單元610、搜索結(jié)果條目獲取單元620、搜索結(jié)果條目發(fā)送單元630、簇標(biāo)識接收單元640、簇文章獲取單元650和簇文章發(fā)送單元660。
[0136]搜索詞接收單元610用于從客戶端接收用戶用于學(xué)術(shù)文章的搜索詞。
[0137]搜索結(jié)果條目獲取單元620用于根據(jù)所述搜索詞獲取與所述搜索詞對應(yīng)的多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標(biāo)題、作者信息以及所述文章對應(yīng)的簇標(biāo)識。
[0138]搜索結(jié)果條目發(fā)送單元630用于向所述客戶端發(fā)送所述多條學(xué)術(shù)文章搜索結(jié)果條目。
[0139]簇標(biāo)識接收單元640用于從所述客戶端接收特定文章對應(yīng)的簇標(biāo)識。
[0140]簇文章獲取單元650用于根據(jù)所述特定文章對應(yīng)的簇標(biāo)識獲取與所述特定文章對應(yīng)的簇標(biāo)識對應(yīng)的簇中的文章。
[0141]簇文章發(fā)送單元660用于將所述簇中的文章發(fā)送至所述客戶端。
[0142]優(yōu)選地,本實(shí)施例的搜索處理裝置還包括:認(rèn)領(lǐng)候選簇標(biāo)識獲取單元,用于根據(jù)所述特定文章對應(yīng)的簇標(biāo)識獲取與所述特定文章對應(yīng)的簇標(biāo)識對應(yīng)的認(rèn)領(lǐng)候選簇標(biāo)識。認(rèn)領(lǐng)候選簇文章獲取單元,用于根據(jù)所述認(rèn)領(lǐng)候選簇標(biāo)識獲取與所述認(rèn)領(lǐng)候選簇標(biāo)識對應(yīng)的認(rèn)領(lǐng)候選簇中的文章。認(rèn)領(lǐng)候選簇文章發(fā)送單元,用于將所述認(rèn)領(lǐng)候選簇中的文章發(fā)送至所述客戶端。
[0143]本發(fā)明實(shí)施例的用于學(xué)術(shù)文章的搜索處理裝置中,學(xué)術(shù)文章搜索結(jié)果條目中的簇標(biāo)識以及與特定文章對應(yīng)的簇標(biāo)識對應(yīng)的簇中的文章基于上述實(shí)施例四中為文章標(biāo)注的第二族的族標(biāo)識得到。
[0144]需要指出,根據(jù)實(shí)施的需要,可將本申請中描述的各個(gè)步驟拆分為更多步驟,也可將兩個(gè)或多個(gè)步驟或者步驟的部分操作組合成新的步驟,以實(shí)現(xiàn)本發(fā)明的目的。
[0145]上述根據(jù)本發(fā)明的方法可在硬件、固件中實(shí)現(xiàn),或者被實(shí)現(xiàn)為可存儲(chǔ)在記錄介質(zhì)(諸如CD ROM、RAM、軟盤、硬盤或磁光盤)中的軟件或計(jì)算機(jī)代碼,或者被實(shí)現(xiàn)通過網(wǎng)絡(luò)下載的原始存儲(chǔ)在遠(yuǎn)程記錄介質(zhì)或非暫時(shí)機(jī)器可讀介質(zhì)中并將被存儲(chǔ)在本地記錄介質(zhì)中的計(jì)算機(jī)代碼,從而在此描述的方法可被存儲(chǔ)在使用通用計(jì)算機(jī)、專用處理器或者可編程或?qū)S糜布?諸如ASIC或FPGA)的記錄介質(zhì)上的這樣的軟件處理??梢岳斫?,計(jì)算機(jī)、處理器、微處理器控制器或可編程硬件包括可存儲(chǔ)或接收軟件或計(jì)算機(jī)代碼的存儲(chǔ)組件(例如,RAM、R0M、閃存等),當(dāng)所述軟件或計(jì)算機(jī)代碼被計(jì)算機(jī)、處理器或硬件訪問且執(zhí)行時(shí),實(shí)現(xiàn)在此描述的處理方法。此外,當(dāng)通用計(jì)算機(jī)訪問用于實(shí)現(xiàn)在此示出的處理的代碼時(shí),代碼的執(zhí)行將通用計(jì)算機(jī)轉(zhuǎn)換為用于執(zhí)行在此示出的處理的專用計(jì)算機(jī)。
[0146]以上所述,僅為本發(fā)明的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換