亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

學(xué)術(shù)文章處理方法和學(xué)術(shù)文章的搜索處理方法及裝置的制造方法_3

文檔序號:8922648閱讀:來源:國知局
本發(fā)明實施例的通過計算機實現(xiàn)的學(xué)術(shù)文章處理方法,根據(jù)文章的作者所屬機構(gòu)特征對作者姓名特征相同的多篇文章進行第一次聚類,根據(jù)文章的合作者特征和第一語義特征對第一次聚類得到的多個第一簇進行第二次聚類,根據(jù)文章的作者所屬機構(gòu)特征和第二語義特征對第二次聚類得到的多個第二簇進行聚類,得到多個第三簇。每個第三簇中的文章即召回的某個作者實體的文章,將每篇文章與某個作者實體對應(yīng),提高了對應(yīng)一個作者實體的文章的準確率和召回率。
[0061]優(yōu)選地,本實施例的通過計算機實現(xiàn)的學(xué)術(shù)文章處理方法還可包括:為所述第三簇分別設(shè)定唯一的簇標識,并且為所述第三簇中的文章標注其所屬的所述第三簇的簇標識。
[0062]具體地,為所述第三簇中的文章標注其所屬的所述第三簇的簇標識,一方面在用戶搜索時,向用戶展示特定文章及所屬的第三簇的簇標識,并在用戶想要獲取與特定文章對應(yīng)的作者實體相同的其他文章時,根據(jù)所述簇標識獲取標注有所述簇標識的文章即獲取特定文章所屬的第三簇中的文章,實現(xiàn)向用戶展示與特定文章對應(yīng)的作者實體相同的全部文章。
[0063]優(yōu)選地,本實施例的步驟S130還可包括:
[0064]在步驟S1303,如果所述第三相似度的值小于或者等于所述第一聚類閾值,且大于第一候選閾值,則將所述第二待聚類簇作為所述第一待聚類簇所屬的所述第二簇的第一候選簇。
[0065]具體地,在第二次聚類過程中,對于兩個第一簇(即第一待聚類簇和第二待聚類簇)之間第三相似度小于或者等于所述第一聚類閾值,且大于第一候選閾值的情況,將兩個第一簇中包含文章較少的第一簇(即第二待聚類簇)作為另一個包含文章較多的第一簇(即第一待聚類簇)所屬的第二簇的第一候選簇。
[0066]優(yōu)選地,本實施例的步驟S140還可包括:
[0067]在步驟S1403,如果所述第五相似度的值小于或者等于所述第三聚類閾值,且大于第二候選閾值,則將所述第四待聚類簇作為所述第三待聚類簇所屬的所述第三簇的第二候選簇。
[0068]在步驟S1404,將所述第四待聚類簇的所述第一候選簇作為所述第四待聚類簇所屬的所述第三簇的第二候選簇,并且將所述第三待聚類簇的所述第一候選簇作為所述第三待聚類簇所屬的所述第三簇的第二候選簇。
[0069]具體地,在第三次聚類過程中,對于兩個第二簇(即第三待聚類簇和第四待聚類簇)之間第五相似度小于或者等于所述第三聚類閾值,且大于第二候選閾值的情況,將兩個第二簇中包含文章較少的第二簇(即第四待聚類簇)作為另一個包含文章較多的第二簇(即第一待聚類簇)所屬的第三簇的第二候選簇。并將第二簇的第一候選簇作為第二簇所屬的第三簇的第二候選簇,即將第四待聚類簇的第一候選簇作為第四待聚類簇所屬的第三簇的第二候選簇,并且將第三待聚類簇的第一候選簇作為第三待聚類簇所屬的第三簇的第二候選簇。
[0070]步驟S1303、S1403和S1404的目的在于獲取第三簇的第二候選簇,即獲取同一作者實體的第二候選簇,以供用戶認領(lǐng),進一步提高召回率和準確率。
[0071]優(yōu)選地,本實施例的通過計算機實現(xiàn)的學(xué)術(shù)文章處理方法還可包括:根據(jù)文章的所述合作者特征和所述第二語義特征對所述第三簇的多個所述第二候選簇進行聚類,得到多個所述第三簇的認領(lǐng)候選簇。
[0072]具體地,在第三次聚類完成后,部分第三簇可能具有多個第二候選簇,但如果給用戶提供多個第二候選簇,每個第二候選簇中文章數(shù)量較少的話,會給用戶帶來較大的負擔(dān)。本步驟的目的在于對每個第三簇的多個第二候選簇進行合并,以為用戶提供較少數(shù)量的認領(lǐng)候選簇,每個認領(lǐng)候選簇中文章數(shù)量盡可能多并且保證準確。本步驟中相似度的計算基于同一第三簇的兩個第二候選簇中的文章的合作者特征(第二次聚類中用到過)和第二語義特征(第三次聚類中用到過)。分別計算同一第三簇的兩個第二候選簇之間合作者特征的相似度和第二語義特征的相似度,并為合作者特征和第二語義特征分別設(shè)定對應(yīng)的權(quán)重,根據(jù)同一第三簇的兩個第二候選簇之間合作者特征的相似度和第二語義特征的相似度以及對應(yīng)的權(quán)重計算同一第三簇的兩個第二候選簇之間的相似度,例如余弦相似度。如果同一第三簇的兩個第二候選簇之間相似度的值大于聚類閾值,則將這兩個第二候選簇中包含文章數(shù)較少的第二候選簇聚到另一個包含文章數(shù)較多的第二候選簇中。如果兩個第二候選簇分別與某一第二候選簇之間相似度的值大于聚類閾值,則無論這兩個第二候選簇之間相似度的值是否大于聚類閾值,都將這兩個第二候選簇與所述某一第二候選簇聚到一個簇中。將對第三簇的多個第二候選簇經(jīng)過前述聚類處理后得到的多個第二候選簇作為所述第三簇的認領(lǐng)候選簇。
[0073]優(yōu)選地,本實施例的通過計算機實現(xiàn)的學(xué)術(shù)文章處理方法還可包括:如果所述第三簇具有認領(lǐng)候選簇,則為所述認領(lǐng)候選簇分別設(shè)定唯一的認領(lǐng)候選簇標識,并且為所述認領(lǐng)候選簇中的文章標注其所屬的認領(lǐng)候選簇的認領(lǐng)候選簇標識,并且為所述第三簇存儲其所述認領(lǐng)候選簇的認領(lǐng)候選簇標識。
[0074]具體地,為所述第三簇的認領(lǐng)候選簇中的文章標注其所屬的認領(lǐng)候選簇的認領(lǐng)候選簇標識,并且為所述第三簇存儲其所述認領(lǐng)候選簇的認領(lǐng)候選簇標識,一方面在用戶想要獲取與特定文章對應(yīng)的作者實體相同的其他文章時,根據(jù)第三簇的簇標識獲取其認領(lǐng)候選簇的認領(lǐng)候選簇標識,并根據(jù)認領(lǐng)候選簇標識獲取標注有所述認領(lǐng)候選簇標識的文章即獲取特定文章所屬的第三簇的認領(lǐng)候選簇中的文章,實現(xiàn)向用戶展示特定文章對應(yīng)的作者實體的全部認領(lǐng)候選文章。
[0075]實施例二
[0076]圖2是示出本發(fā)明示例性實施例學(xué)術(shù)文章的搜索處理方法的流程示意圖。
[0077]參照圖2,本實施例的學(xué)術(shù)文章的搜索處理方法具體包括:
[0078]在步驟S210,將用戶用于學(xué)術(shù)文章的搜索詞發(fā)送給服務(wù)器。
[0079]在步驟S220,從所述服務(wù)器接收多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標題、作者信息以及所述文章對應(yīng)的簇標識。
[0080]具體地,作者信息可包括作者姓名、作者所屬機構(gòu)等。所述簇標識即實施例一中的第三簇的簇標識。
[0081]在步驟S230,在用戶界面上顯示所述學(xué)術(shù)文章搜索結(jié)果條目;
[0082]在步驟S240,響應(yīng)于用戶在所述用戶界面上對所述作者信息的操作,將特定文章對應(yīng)的簇標識發(fā)送至服務(wù)器。
[0083]具體地,特定文章即用戶所述操作對應(yīng)的文章,也即用戶感興趣的文章。
[0084]在步驟S250,從所述服務(wù)器接收與所述特定文章對應(yīng)的簇標識對應(yīng)的簇中的文早。
[0085]具體地,與所述特定文章對應(yīng)的簇標識對應(yīng)的簇中的文章,即實施例一中標注有所述特定文章對應(yīng)的第三簇簇標識的文章,也即根據(jù)實施例一的方法得到的與所述特定文章的作者實體相同的文章。
[0086]在步驟S260,在所述用戶界面上顯示所述簇中的文章。
[0087]本發(fā)明實施例的學(xué)術(shù)文章的搜索處理方法中,學(xué)術(shù)文章搜索結(jié)果條目中的簇標識以及與特定文章對應(yīng)的簇標識對應(yīng)的簇中的文章基于上述實施例一中為文章標注的第三簇的簇標識得到。
[0088]優(yōu)選地,本實施例的學(xué)術(shù)文章的搜索處理方法還可包括:從所述服務(wù)器接收與認領(lǐng)候選簇標識對應(yīng)的認領(lǐng)候選簇中的文章,所述認領(lǐng)候選簇標識為與所述特定文章對應(yīng)的簇標識對應(yīng)的認領(lǐng)候選簇標識。在所述用戶界面上顯示所述認領(lǐng)候選簇中的文章。
[0089]具體地,參見實施例一中的相關(guān)描述,根據(jù)第三簇的簇標識獲取對應(yīng)的認領(lǐng)候選簇標識,根據(jù)認領(lǐng)候選簇標識獲取標注有認領(lǐng)候選簇標識的文章。
[0090]實施例三
[0091]圖3是示出本發(fā)明示例性實施例學(xué)術(shù)文章的搜索處理方法的流程示意圖。
[0092]參照圖3,本實施例的學(xué)術(shù)文章的搜索處理方法具體包括:
[0093]在步驟S310,從客戶端接收用戶用于學(xué)術(shù)文章的搜索詞。
[0094]在步驟S320,根據(jù)所述搜索詞獲取與所述搜索詞對應(yīng)的多條學(xué)術(shù)文章搜索結(jié)果條目,所述學(xué)術(shù)文章搜索結(jié)果條目包括文章標題、作者信息以及所述文章對應(yīng)的簇標識。
[0095]具體地,作者信息可包括作者姓名、作者所屬機構(gòu)等。所述簇標識即圖1所示實施例中的第三簇的簇標識。
[0096]在步驟S330,向所述客戶端發(fā)送所述多條學(xué)術(shù)文章搜索結(jié)果條目。
[0097]在步驟S340,從所述客戶端接收特定文章對應(yīng)的簇標識。
[0098]具體地,特定文章即用戶在客戶端的操作對應(yīng)的文章,也即用戶感興趣的文章。
[0099]在步驟S350,根據(jù)所述特定文章對應(yīng)的簇標識獲取與所述特定文章對應(yīng)的簇標識對應(yīng)的簇中的文章。
[0100]具體地,與所述特定文章對應(yīng)的簇標識對應(yīng)的簇中的文章,即實施例一中標注有所述特定文章對應(yīng)的第三簇簇標識的文章,也即根據(jù)實施例一的方法得到的與所述特定文章的作者實體相同的文章。
[0101]在步驟S360,將所述簇中的文章發(fā)送至所述客戶端。
[0102]本發(fā)明實施例的學(xué)術(shù)文章的搜索處理方法中,學(xué)術(shù)文章搜索結(jié)果條目中的簇標識以及與特定文章對應(yīng)的簇標識對應(yīng)的簇中的文章基于上述實施例一中為文章標注的第三簇的簇標識得到。
[0103]優(yōu)選地,本實施例的學(xué)術(shù)文章的搜索處理方法還可包括:根據(jù)所述特定文章對應(yīng)的簇標識獲取與所述特定文章對應(yīng)的簇標識對應(yīng)的認領(lǐng)候選簇標識。根據(jù)所述認領(lǐng)候選簇標識獲取與所述認領(lǐng)候選簇標識對應(yīng)的認領(lǐng)候選簇中的文章。將所述認領(lǐng)候選簇中的文章發(fā)送至所述客戶端。
[0104]具體地,參見實施例一中的相關(guān)描述,根據(jù)第三簇的簇標識獲取對應(yīng)的認領(lǐng)候選簇標識,根據(jù)認領(lǐng)候選簇標識獲取標注有認領(lǐng)候選簇標識
當前第3頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1