亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

學(xué)術(shù)文章處理方法和學(xué)術(shù)文章的搜索處理方法及裝置的制造方法_2

文檔序號:8922648閱讀:來源:國知局
所述多條學(xué)術(shù)文章搜索結(jié)果條目;簇標(biāo)識接收單元,用于從所述客戶端接收特定文章對應(yīng)的簇標(biāo)識;簇文章獲取單元,用于根據(jù)所述特定文章對應(yīng)的簇標(biāo)識獲取與所述特定文章對應(yīng)的簇標(biāo)識對應(yīng)的簇中的文章;簇文章發(fā)送單元,用于將所述簇中的文章發(fā)送至所述客戶端。
[0027]優(yōu)選地,所述搜索處理裝置還包括:認(rèn)領(lǐng)候選簇標(biāo)識獲取單元,用于根據(jù)所述特定文章對應(yīng)的簇標(biāo)識獲取與所述特定文章對應(yīng)的簇標(biāo)識對應(yīng)的認(rèn)領(lǐng)候選簇標(biāo)識;認(rèn)領(lǐng)候選簇文章獲取單元,用于根據(jù)所述認(rèn)領(lǐng)候選簇標(biāo)識獲取與所述認(rèn)領(lǐng)候選簇標(biāo)識對應(yīng)的認(rèn)領(lǐng)候選簇中的文章;認(rèn)領(lǐng)候選簇文章發(fā)送單元,用于將所述認(rèn)領(lǐng)候選簇中的文章發(fā)送至所述客戶端。
[0028]本發(fā)明提供的學(xué)術(shù)文章處理方法和學(xué)術(shù)文章的搜索處理方法及裝置,根據(jù)文章的作者所屬機構(gòu)特征對作者姓名特征相同的多篇文章進行第一次聚類,根據(jù)文章的合作者特征和第一語義特征對第一次聚類得到的多個第一簇進行第二次聚類,根據(jù)文章的作者所屬機構(gòu)特征和第二語義特征對第二次聚類得到的多個第二簇進行聚類,得到多個第三簇。每個第三簇中的文章即召回的某個作者實體的文章,將每篇文章與某個作者實體對應(yīng),提高了對應(yīng)一個作者實體的文章的準(zhǔn)確率和召回率。
【附圖說明】
[0029]圖1是示出本發(fā)明示例性實施例通過計算機實現(xiàn)的學(xué)術(shù)文章處理方法的流程示意圖;
[0030]圖2是示出本發(fā)明示例性實施例學(xué)術(shù)文章的搜索處理方法的流程示意圖;
[0031]圖3是示出本發(fā)明示例性實施例學(xué)術(shù)文章的搜索處理方法的流程示意圖;
[0032]圖4是示出本發(fā)明示例性實施例用于學(xué)術(shù)文章處理的裝置的結(jié)構(gòu)示意圖;
[0033]圖5是示出本發(fā)明示例性實施例用于學(xué)術(shù)文章的搜索處理裝置的結(jié)構(gòu)示意圖;
[0034]圖6是示出本發(fā)明示例性實施例用于學(xué)術(shù)文章的搜索處理裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0035]本發(fā)明的基本構(gòu)思是:對于作者姓名特征相同的多篇文章,根據(jù)文章的作者所屬機構(gòu)特征、合作者特征和第一語義特征對多篇文章進行聚類,聚類結(jié)果中的每個簇中的文章即召回的某個作者實體的文章,將每篇文章與某個作者實體對應(yīng),以提高對應(yīng)一個作者實體的文章的準(zhǔn)確率和召回率。
[0036]下面結(jié)合附圖對本發(fā)明示例性實施例的學(xué)術(shù)文章處理方法和學(xué)術(shù)文章的搜索處理方法及裝置進行詳細(xì)描述。
[0037]實施例一
[0038]圖1是示出本發(fā)明示例性實施例通過計算機實現(xiàn)的學(xué)術(shù)文章處理方法的流程示意圖。
[0039]參照圖1,本實施例的通過計算機實現(xiàn)的學(xué)術(shù)文章處理方法具體包括:
[0040]在步驟SI 10,獲取作者姓名特征相同的多篇文章。
[0041]具體地,本步驟的目的在于將同一作者姓名(可能重名)的多篇文章提取出來聚到一起。
[0042]在步驟S120,根據(jù)文章的作者所屬機構(gòu)特征對所述多篇文章進行聚類,得到多個第一簇。
[0043]具體地,本步驟的目的在于將作者所屬機構(gòu)相同或相似的文章聚到一起?!白髡咝彰?作者所屬機構(gòu)”作為一個作者實體的標(biāo)識方式,但是因為存在機構(gòu)變更、一個作者同時在多個機構(gòu)掛職等情況,因此可能導(dǎo)致同一個作者發(fā)表的文章對應(yīng)多個機構(gòu)名。第一次聚類的目標(biāo)是將一個作者在同一個機構(gòu)下發(fā)表的文章都聚到一起,一方面為了防止遺漏,另一方面將多篇文章聚集到一個簇中后,以簇為單位計算特征會更加準(zhǔn)確。本步驟具體可包括以下步驟S1201-S1202:
[0044]在步驟S1201,對于作者姓名特征相同的多篇文章當(dāng)中的第一待聚類文章和第二待聚類文章,執(zhí)行如下聚類處理:分別計算所述第一待聚類文章和所述第二待聚類文章之間作者所屬機構(gòu)特征的相似度,如果所述作者所屬機構(gòu)特征的相似度的值大于聚類閾值,則將所述第一待聚類文章和所述第二待聚類文章聚到一個簇中。
[0045]具體地,本步驟中相似度的計算基于兩篇文章(即第一待聚類文章和第二待聚類文章)的作者所屬機構(gòu)特征。相似度計算一般基于字符串的相似度,但本步驟中作者所屬機構(gòu)特征的相似度并不適用這種基于字符串的比較,例如“海南省國稅局”和“湖南省國稅局”,這兩個字符串只有一字之差,但卻是完全不同的兩個機構(gòu)。因此我們將作者所屬機構(gòu)特征進一步劃分為地名詞特征和非地名詞特征,分別計算兩篇文章之間地名詞特征的相似度和非地名詞特征的相似度,并為所述地名詞特征和所述非地名詞特征分別設(shè)定對應(yīng)的權(quán)重,根據(jù)兩篇文章之間地名詞特征的相似度和非地名詞特征的相似度以及對應(yīng)的權(quán)重計算兩篇文章之間作者所屬機構(gòu)特征的相似度,例如余弦相似度。如果兩篇文章之間作者所屬機構(gòu)特征的相似度的值大于聚類閾值,則將這兩篇文章聚到一個簇中。如果兩篇文章分別與某一文章之間作者所屬機構(gòu)特征的相似度的值大于聚類閾值,則無論這兩篇文章之間作者所屬機構(gòu)特征的相似度的值是否大于聚類閾值,都將這兩篇文章與所述某一文章聚到一個簇中。
[0046]在步驟S1202,將對所述多篇文章經(jīng)過前述聚類處理后得到的多個簇或未聚到簇中的單個文章作為所述多個第一簇。
[0047]在步驟S130,根據(jù)文章的合作者特征和第一語義特征對所述多個第一簇進行聚類,得到多個第二簇。
[0048]具體地,本步驟的目的在于將同一作者在不同機構(gòu)下發(fā)表的文章聚到一起,提高召回率。本步驟具體可包括以下步驟S1301-S1302:
[0049]在步驟S1301,對于所述多個第一簇當(dāng)中的第一待聚類簇和第二待聚類簇,其中,所述第一待聚類簇中文章的數(shù)量大于所述第二待聚類簇中文章的數(shù)量,執(zhí)行如下聚類處理:分別計算所述第一待聚類簇和所述第二待聚類簇之間所述合作者特征的第一相似度和所述第一語義特征的第二相似度,根據(jù)所述第一相似度的值和所述第二相似度的值計算所述第一待聚類簇和所述第二待聚類簇之間的第三相似度,如果所述第三相似度的值大于第一聚類閾值,則將所述第二待聚類簇聚類到所述第一待聚類簇中。
[0050]在本步驟中,基于兩個第一簇(即第一待聚類簇和第二待聚類簇)中的文章的合作者特征和第一語義特征執(zhí)行相似度的計算。其中,合作者特征具體可包括至少一個以下特征:合作者姓名特征和合作者所屬機構(gòu)特征,第一語義特征具體可包括至少一個以下特征:發(fā)表期刊名特征、發(fā)表會議名特征、文章標(biāo)題特征和文章關(guān)鍵詞特征。
[0051]具體地,分別計算兩個第一簇之間合作者特征的第一相似度和第一語義特征的第二相似度,并為所述合作者特征和所述第一語義特征分別設(shè)定對應(yīng)的權(quán)重,根據(jù)兩個第一簇之間合作者特征的第一相似度和第一語義特征的第二相似度以及對應(yīng)的權(quán)重計算兩個第一簇之間的第三相似度,例如余弦相似度。如果兩個第一簇之間第三相似度的值大于第一聚類閾值,則將這兩個第一簇中包含文章數(shù)較少的第一簇(即第二待聚類簇)聚到另一個包含文章數(shù)較多的第一簇(即第一待聚類簇)中。如果兩個第一簇分別與某一第一簇之間第三相似度的值大于第一聚類閾值,則無論這兩個第一簇之間第三相似度的值是否大于第一聚類閾值,都將這兩個第一簇與所述某一第一簇聚到一個簇中。
[0052]在步驟S1302,將對所述多個第一簇經(jīng)過前述聚類處理后得到的多個所述第一待聚類簇和所述第二待聚類簇作為所述多個第二簇。
[0053]在步驟S140,根據(jù)文章的所述作者所屬機構(gòu)特征和第二語義特征對所述多個第二簇進行聚類,得到多個第三簇,所述第二語義特征的集合為所述第一語義特征的集合的子集。
[0054]在前兩次聚類完成后,準(zhǔn)確率能達(dá)到95%以上,召回率等達(dá)到80%左右,但仍然存在一些因為特征不全面或者特征不明顯的文章或文章簇未被召回,導(dǎo)致召回率偏低。本步驟的目的在于基于作者所屬機構(gòu)相似和語義相似,將前兩次聚類中明顯未召回的文章或文章簇召回,提高召回率。
[0055]因此,第三次聚類本質(zhì)上是為第二簇之間尋找更多的作者所屬機構(gòu)相似度交集,以及更寬泛的語義特征。本步驟中作者所屬機構(gòu)特征的相似度的計算方式與步驟S120中作者所屬機構(gòu)特征的相似度的計算方式不同,采用帶權(quán)的最長公共子串相似度來計算本步驟中作者所屬機構(gòu)特征的相似度。本步驟具體可包括以下步驟S1401-S1402:
[0056]在步驟S1401,對于所述多個第二簇當(dāng)中的第三待聚類簇和第四待聚類簇,其中,所述第三待聚類簇中文章的數(shù)量大于所述第四待聚類簇中文章的數(shù)量,執(zhí)行如下聚類處理:計算所述第三待聚類簇和所述第四待聚類簇之間所述作者所屬機構(gòu)特征的第四相似度,當(dāng)所述第四相似度的值大于第二聚類閾值時,計算所述第三待聚類簇和所述第四待聚類簇之間所述第二語義特征的第五相似度,如果所述第五相似度的值大于第三聚類閾值,則將所述第四待聚類簇聚類到所述第三待聚類簇中。
[0057]在本步驟中基于兩個第二簇(即第三待聚類簇和第四待聚類簇)中的文章的作者所屬機構(gòu)特征和第二語義特征執(zhí)行相似度的計算。其中,第二語義特征具體可包括以下特征中的至少一種:文章標(biāo)題特征和文章關(guān)鍵詞特征。
[0058]具體地,首先計算兩個第二簇之間作者所屬機構(gòu)特征的第四相似度,當(dāng)這兩個第二簇之間的第四相似度大于第二聚類閾值時,進一步計算這兩個第二簇之間第二語義特征的的第五相似度,如果第五相似度的值大于第三聚類閾值,則將這兩個第二簇中包含文章數(shù)較少的第二簇(即第四待聚類簇)聚到另一個包含文章數(shù)較多的第二簇(即第三待聚類簇)中。如果兩個第二簇分別與某一第二簇之間第五相似度的值大于第三聚類閾值,則無論這兩個第二簇之間第五相似度的值是否大于第三聚類閾值,都將這兩個第二簇與所述某一第二簇聚到一個簇中。
[0059]在步驟S1402,將對所述多個第二簇經(jīng)過前述聚類處理后得到的多個所述第三待聚類簇和所述第四待聚類簇作為所述多個第三簇。
[0060]
當(dāng)前第2頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1