,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【主權(quán)項(xiàng)】
1.一種通過(guò)計(jì)算機(jī)實(shí)現(xiàn)的學(xué)術(shù)文章處理方法,其特征在于,所述方法包括: 獲取作者姓名特征相同的多篇文章; 根據(jù)文章的作者所屬機(jī)構(gòu)特征對(duì)所述多篇文章進(jìn)行聚類(lèi),得到多個(gè)第一簇; 根據(jù)文章的合作者特征和第一語(yǔ)義特征對(duì)所述多個(gè)第一簇進(jìn)行聚類(lèi),得到多個(gè)第二簇; 根據(jù)文章的所述作者所屬機(jī)構(gòu)特征和第二語(yǔ)義特征對(duì)所述多個(gè)第二簇進(jìn)行聚類(lèi),得到多個(gè)第三簇,所述第二語(yǔ)義特征的集合為所述第一語(yǔ)義特征的集合的子集。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述合作者特征包括至少一個(gè)以下特征:合作者姓名特征和合作者所屬機(jī)構(gòu)特征,并且 所述第一語(yǔ)義特征包括至少一個(gè)以下特征:發(fā)表期刊名特征、發(fā)表會(huì)議名特征、文章標(biāo)題特征和文章關(guān)鍵詞特征。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括: 為所述第三簇分別設(shè)定唯一的簇標(biāo)識(shí),并且為所述第三簇中的文章標(biāo)注其所屬的所述第三簇的簇標(biāo)識(shí)。4.根據(jù)權(quán)利要求1?3中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)文章的合作者特征和第一語(yǔ)義特征對(duì)所述多個(gè)第一簇進(jìn)行聚類(lèi),得到多個(gè)第二簇的處理包括: 對(duì)于所述多個(gè)第一簇當(dāng)中的第一待聚類(lèi)簇和第二待聚類(lèi)簇,其中,所述第一待聚類(lèi)簇中文章的數(shù)量大于所述第二待聚類(lèi)簇中文章的數(shù)量,執(zhí)行如下聚類(lèi)處理: 分別計(jì)算所述第一待聚類(lèi)簇和所述第二待聚類(lèi)簇之間所述合作者特征的第一相似度和所述第一語(yǔ)義特征的第二相似度; 根據(jù)所述第一相似度的值和所述第二相似度的值計(jì)算所述第一待聚類(lèi)簇和所述第二待聚類(lèi)簇之間的第三相似度; 如果所述第三相似度的值大于第一聚類(lèi)閾值,則將所述第二待聚類(lèi)簇聚類(lèi)到所述第一待聚類(lèi)簇中; 將對(duì)所述多個(gè)第一簇經(jīng)過(guò)前述聚類(lèi)處理后得到的多個(gè)所述第一待聚類(lèi)簇和所述第二待聚類(lèi)簇作為所述多個(gè)第二簇。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)文章的所述作者所屬機(jī)構(gòu)特征和第二語(yǔ)義特征對(duì)所述多個(gè)第二簇進(jìn)行聚類(lèi),得到多個(gè)第三簇的處理包括: 對(duì)于所述多個(gè)第二簇當(dāng)中的第三待聚類(lèi)簇和第四待聚類(lèi)簇,其中,所述第三待聚類(lèi)簇中文章的數(shù)量大于所述第四待聚類(lèi)簇中文章的數(shù)量,執(zhí)行如下聚類(lèi)處理: 計(jì)算所述第三待聚類(lèi)簇和所述第四待聚類(lèi)簇之間所述作者所屬機(jī)構(gòu)特征的第四相似度; 當(dāng)所述第四相似度的值大于第二聚類(lèi)閾值時(shí),計(jì)算所述第三待聚類(lèi)簇和所述第四待聚類(lèi)簇之間所述第二語(yǔ)義特征的第五相似度; 如果所述第五相似度的值大于第三聚類(lèi)閾值,則將所述第四待聚類(lèi)簇聚類(lèi)到所述第三待聚類(lèi)簇中; 將對(duì)所述多個(gè)第二簇經(jīng)過(guò)前述聚類(lèi)處理后得到的多個(gè)所述第三待聚類(lèi)簇和所述第四待聚類(lèi)簇作為所述多個(gè)第三簇。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述對(duì)于所述多個(gè)第一簇當(dāng)中的第一待聚類(lèi)簇和第二待聚類(lèi)簇執(zhí)行的聚類(lèi)處理還包括:如果所述第三相似度的值小于或者等于所述第一聚類(lèi)閾值,且大于第一候選閾值,則將所述第二待聚類(lèi)簇作為所述第一待聚類(lèi)簇所屬的所述第二簇的第一候選簇。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對(duì)于所述多個(gè)第二簇當(dāng)中的第三待聚類(lèi)簇和第四待聚類(lèi)簇執(zhí)行的聚類(lèi)處理還包括:如果所述第五相似度的值小于或者等于所述第三聚類(lèi)閾值,且大于第二候選閾值,則將所述第四待聚類(lèi)簇作為所述第三待聚類(lèi)簇所屬的所述第三簇的第二候選簇;將所述第四待聚類(lèi)簇的所述第一候選簇作為所述第四待聚類(lèi)簇所屬的所述第三簇的第二候選簇,并且將所述第三待聚類(lèi)簇的所述第一候選簇作為所述第三待聚類(lèi)簇所屬的所述第三簇的第二候選簇。8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括:根據(jù)文章的所述合作者特征和所述第二語(yǔ)義特征對(duì)所述第三簇的多個(gè)所述第二候選簇進(jìn)行聚類(lèi),得到多個(gè)所述第三簇的認(rèn)領(lǐng)候選簇。9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述方法還包括:如果所述第三簇具有認(rèn)領(lǐng)候選簇,則為所述認(rèn)領(lǐng)候選簇分別設(shè)定唯一的認(rèn)領(lǐng)候選簇標(biāo)識(shí),并且為所述認(rèn)領(lǐng)候選簇中的文章標(biāo)注其所屬的認(rèn)領(lǐng)候選簇的認(rèn)領(lǐng)候選簇標(biāo)識(shí),并且為所述第三簇存儲(chǔ)其所述認(rèn)領(lǐng)候選簇的認(rèn)領(lǐng)候選簇標(biāo)識(shí)。10.根據(jù)權(quán)利要求1?3中任一項(xiàng)所述的方法,其特征在于,所述第二語(yǔ)義特征包括至少一個(gè)以下特征:所述文章標(biāo)題特征和所述文章關(guān)鍵詞特征。11.一種學(xué)術(shù)文章的搜索處理方法,其特征在于,所述方法包括:將用戶(hù)用于學(xué)術(shù)文章的搜索詞發(fā)送給服務(wù)器;從所述服務(wù)器接收多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標(biāo)題、作者信息以及所述文章對(duì)應(yīng)的簇標(biāo)識(shí);在用戶(hù)界面上顯示所述學(xué)術(shù)文章搜索結(jié)果條目;響應(yīng)于用戶(hù)在所述用戶(hù)界面上對(duì)所述作者信息的操作,將特定文章對(duì)應(yīng)的簇標(biāo)識(shí)發(fā)送至服務(wù)器;從所述服務(wù)器接收與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的簇中的文章;在所述用戶(hù)界面上顯示所述簇中的文章。12.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述方法還包括:從所述服務(wù)器接收與認(rèn)領(lǐng)候選簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇中的文章,所述認(rèn)領(lǐng)候選簇標(biāo)識(shí)為與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇標(biāo)識(shí);在所述用戶(hù)界面上顯示所述認(rèn)領(lǐng)候選簇中的文章。13.—種學(xué)術(shù)文章的搜索處理方法,其特征在于,所述方法包括:從客戶(hù)端接收用戶(hù)用于學(xué)術(shù)文章的搜索詞;根據(jù)所述搜索詞獲取與所述搜索詞對(duì)應(yīng)的多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標(biāo)題、作者信息以及所述文章對(duì)應(yīng)的簇標(biāo)識(shí);向所述客戶(hù)端發(fā)送所述多條學(xué)術(shù)文章搜索結(jié)果條目;從所述客戶(hù)端接收特定文章對(duì)應(yīng)的簇標(biāo)識(shí);根據(jù)所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)獲取與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的簇中的文 早; 將所述簇中的文章發(fā)送至所述客戶(hù)端。14.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述方法還包括: 根據(jù)所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)獲取與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇標(biāo)識(shí); 根據(jù)所述認(rèn)領(lǐng)候選簇標(biāo)識(shí)獲取與所述認(rèn)領(lǐng)候選簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇中的文章; 將所述認(rèn)領(lǐng)候選簇中的文章發(fā)送至所述客戶(hù)端。15.一種用于學(xué)術(shù)文章處理的裝置,其特征在于,所述裝置包括: 文章獲取單元,用于獲取作者姓名特征相同的多篇文章; 第一聚類(lèi)單元,用于根據(jù)文章的作者所屬機(jī)構(gòu)特征對(duì)所述多篇文章進(jìn)行聚類(lèi),得到多個(gè)第一簇; 第二聚類(lèi)單元,用于根據(jù)文章的合作者特征和第一語(yǔ)義特征對(duì)所述多個(gè)第一簇進(jìn)行聚類(lèi),得到多個(gè)第二簇; 第三聚類(lèi)單元,用于根據(jù)文章的所述作者所屬機(jī)構(gòu)特征和第二語(yǔ)義特征對(duì)所述多個(gè)第二簇進(jìn)行聚類(lèi),得到多個(gè)第三簇,所述第二語(yǔ)義特征的集合為所述第一語(yǔ)義特征的集合的子集。16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述裝置還包括: 簇標(biāo)識(shí)標(biāo)注單元,用于為所述第三簇分別設(shè)定唯一的簇標(biāo)識(shí),并且為所述第三簇中的文章標(biāo)注其所屬的所述第三簇的簇標(biāo)識(shí)。17.一種用于學(xué)術(shù)文章的搜索處理裝置,其特征在于,所述搜索處理裝置包括: 搜索詞發(fā)送單元,用于將用戶(hù)用于學(xué)術(shù)文章的搜索詞發(fā)送給服務(wù)器; 搜索結(jié)果條目接收單元,用于從所述服務(wù)器接收多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標(biāo)題、作者信息以及所述文章對(duì)應(yīng)的簇標(biāo)識(shí); 搜索結(jié)果條目顯示單元,用于在用戶(hù)界面上顯示所述學(xué)術(shù)文章搜索結(jié)果條目; 簇標(biāo)識(shí)發(fā)送單元,用于響應(yīng)于用戶(hù)在所述用戶(hù)界面上對(duì)所述作者信息的操作,將特定文章對(duì)應(yīng)的簇標(biāo)識(shí)發(fā)送至服務(wù)器; 簇文章接收單元,用于從所述服務(wù)器接收與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的簇中的文章; 簇文章顯示單元,用于在所述用戶(hù)界面上顯示所述簇中的文章。18.根據(jù)權(quán)利要求17所述的搜索處理裝置,其特征在于,所述搜索處理裝置還包括: 認(rèn)領(lǐng)候選簇文章接收單元,用于從所述服務(wù)器接收與認(rèn)領(lǐng)候選簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇中的文章,所述認(rèn)領(lǐng)候選簇標(biāo)識(shí)為與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇標(biāo)識(shí); 認(rèn)領(lǐng)候選簇文章顯示單元,用于在所述用戶(hù)界面上顯示所述認(rèn)領(lǐng)候選簇中的文章。19.一種用于學(xué)術(shù)文章的搜索處理裝置,其特征在于,所述搜索處理裝置包括: 搜索詞接收單元,用于從客戶(hù)端接收用戶(hù)用于學(xué)術(shù)文章的搜索詞; 搜索結(jié)果條目獲取單元,用于根據(jù)所述搜索詞獲取與所述搜索詞對(duì)應(yīng)的多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標(biāo)題、作者信息以及所述文章對(duì)應(yīng)的簇標(biāo)識(shí);搜索結(jié)果條目發(fā)送單元,用于向所述客戶(hù)端發(fā)送所述多條學(xué)術(shù)文章搜索結(jié)果條目;簇標(biāo)識(shí)接收單元,用于從所述客戶(hù)端接收特定文章對(duì)應(yīng)的簇標(biāo)識(shí);簇文章獲取單元,用于根據(jù)所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)獲取與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的簇中的文章;簇文章發(fā)送單元,用于將所述簇中的文章發(fā)送至所述客戶(hù)端。20.根據(jù)權(quán)利要求19所述的搜索處理裝置,其特征在于,所述搜索處理裝置還包括:認(rèn)領(lǐng)候選簇標(biāo)識(shí)獲取單元,用于根據(jù)所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)獲取與所述特定文章對(duì)應(yīng)的簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇標(biāo)識(shí);認(rèn)領(lǐng)候選簇文章獲取單元,用于根據(jù)所述認(rèn)領(lǐng)候選簇標(biāo)識(shí)獲取與所述認(rèn)領(lǐng)候選簇標(biāo)識(shí)對(duì)應(yīng)的認(rèn)領(lǐng)候選簇中的文章;認(rèn)領(lǐng)候選簇文章發(fā)送單元,用于將所述認(rèn)領(lǐng)候選簇中的文章發(fā)送至所述客戶(hù)端。
【專(zhuān)利摘要】本發(fā)明提供一種學(xué)術(shù)文章處理方法和學(xué)術(shù)文章的搜索處理方法及裝置。所述學(xué)術(shù)文章處理方法包括:獲取作者姓名特征相同的多篇文章;根據(jù)文章的作者所屬機(jī)構(gòu)特征對(duì)所述多篇文章進(jìn)行聚類(lèi),得到多個(gè)第一簇;根據(jù)文章的合作者特征和第一語(yǔ)義特征對(duì)所述多個(gè)第一簇進(jìn)行聚類(lèi),得到多個(gè)第二簇;根據(jù)文章的所述作者所屬機(jī)構(gòu)特征和第二語(yǔ)義特征對(duì)所述多個(gè)第二簇進(jìn)行聚類(lèi),得到多個(gè)第三簇,所述第二語(yǔ)義特征的集合為所述第一語(yǔ)義特征的集合的子集。本發(fā)明提供的學(xué)術(shù)文章處理方法和學(xué)術(shù)文章的搜索處理方法及裝置,提高了對(duì)應(yīng)一個(gè)作者實(shí)體的文章的準(zhǔn)確率和召回率。
【IPC分類(lèi)】G06F17/30
【公開(kāi)號(hào)】CN104899281
【申請(qǐng)?zhí)枴緾N201510293626
【發(fā)明人】高一鳴, 李 浩, 張曉婧
【申請(qǐng)人】百度在線(xiàn)網(wǎng)絡(luò)技術(shù)(北京)有限公司
【公開(kāi)日】2015年9月9日
【申請(qǐng)日】2015年6月1日