一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法
【專利摘要】本發(fā)明公開了一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法,包括以下步驟:預(yù)先建立聚類特征集N;獲得原始數(shù)據(jù)集A,對原始數(shù)據(jù)集A進(jìn)行中文分詞并提取關(guān)鍵詞,得到關(guān)鍵詞數(shù)據(jù)集B;以關(guān)鍵詞作為基礎(chǔ)特征,采用k-means算法進(jìn)行聚類,得到聚類集C;根據(jù)聚類集C與聚類特征集N的主題相關(guān)性,對原始數(shù)據(jù)集A進(jìn)行數(shù)據(jù)源歸類;根據(jù)聚類特征集N與關(guān)鍵詞數(shù)據(jù)集B的相關(guān)性,提取相應(yīng)的結(jié)構(gòu)化數(shù)據(jù)集Q;對結(jié)構(gòu)化數(shù)據(jù)集Q進(jìn)行分析、優(yōu)化,得到結(jié)構(gòu)化數(shù)據(jù)Q2;根據(jù)關(guān)鍵詞數(shù)據(jù)集B與結(jié)構(gòu)化數(shù)據(jù)集Q2的比對結(jié)果,進(jìn)行關(guān)鍵詞權(quán)重標(biāo)記,獲得權(quán)重集W。本發(fā)明提高了垂直搜索的準(zhǔn)確度,使得用戶更容易獲取符合實(shí)際需求的信息。
【專利說明】一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息檢索【技術(shù)領(lǐng)域】,具體的說是一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法。
【背景技術(shù)】
[0002]垂直搜索引擎是針對某一個(gè)行業(yè)的專業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對網(wǎng)頁庫中的某類專門的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶。
[0003]對于現(xiàn)有的垂直搜索引擎而言,其呈現(xiàn)給用戶的搜索結(jié)果,一般是按文檔與查詢關(guān)鍵詞的相關(guān)程度、時(shí)間、引用次數(shù)等單一條件進(jìn)行排序,而沒有充分考慮到文檔自身的內(nèi)容,搜索結(jié)果準(zhǔn)確的不高,用戶需要在搜索結(jié)果中進(jìn)一步查找和選取與自己要搜索的內(nèi)容實(shí)際相關(guān)或有用的文檔,有時(shí)用戶需要重復(fù)進(jìn)行多次檢索,才能獲得期望看到的信息。
[0004]另外,隨著互聯(lián)網(wǎng)的迅猛發(fā)展,互聯(lián)網(wǎng)上的信息越來越多,返回給用戶的搜索結(jié)果通常是成百上千個(gè)文檔,文檔質(zhì)量、真實(shí)性參差不齊的文檔羅列在一起,很容易掩蓋對用戶有用的文檔。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于提供一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法,其提高了垂直搜索的準(zhǔn)確度,使得用戶更容易獲取符合實(shí)際需求的信息。
[0006]為實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
[0007]—種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法,包括以下步驟:
[0008]S1、預(yù)先建立聚類特征集N,所述聚類特征集N包括一組命名實(shí)體以及與每個(gè)命名實(shí)體對應(yīng)的特征信息知識庫;
[0009]S2、獲得原始數(shù)據(jù)集A,對原始數(shù)據(jù)集A進(jìn)行中文分詞并提取關(guān)鍵詞,得到關(guān)鍵詞數(shù)據(jù)集B ;
[0010]S3、以關(guān)鍵詞作為基礎(chǔ)特征,采用k-means算法進(jìn)行聚類,得到聚類集C ;
[0011]S4、根據(jù)聚類集C與聚類特征集N的主題相關(guān)性,對原始數(shù)據(jù)集A進(jìn)行數(shù)據(jù)源歸類;
[0012]S5、根據(jù)聚類特征集N與關(guān)鍵詞數(shù)據(jù)集B的相關(guān)性,提取相應(yīng)的結(jié)構(gòu)化數(shù)據(jù)集Q ;
[0013]S6、對結(jié)構(gòu)化數(shù)據(jù)集Q進(jìn)行分析、優(yōu)化,得到結(jié)構(gòu)化數(shù)據(jù)Q2 ;
[0014]S7、根據(jù)關(guān)鍵詞數(shù)據(jù)集B與結(jié)構(gòu)化數(shù)據(jù)集Q2的比對結(jié)果,進(jìn)行關(guān)鍵詞權(quán)重標(biāo)記,獲得權(quán)重集W,權(quán)重集W用于垂直搜索結(jié)果的排序。
[0015]進(jìn)一步地,所述步驟S4具體通過以下方法實(shí)現(xiàn):對于聚類集C中的單個(gè)聚類,在特征信息知識庫搜索與該個(gè)聚類的特征關(guān)鍵詞對應(yīng)的匹配結(jié)果,以該匹配結(jié)果對應(yīng)的命名實(shí)體作為歸類類型,將原始數(shù)據(jù)集A中與該個(gè)聚類對應(yīng)的數(shù)據(jù)劃分到該歸類類型下,遍歷聚類集C中的所有聚類,從而實(shí)現(xiàn)對原始數(shù)據(jù)集A的所有數(shù)據(jù)進(jìn)行歸類。[0016]進(jìn)一步地,所述步驟S5具體通過以下方法實(shí)現(xiàn):對于關(guān)鍵詞數(shù)據(jù)集B中的單個(gè)關(guān)鍵詞,在特征信息知識庫搜索與該關(guān)鍵詞對應(yīng)的匹配結(jié)果,將該匹配結(jié)果對應(yīng)的命名實(shí)體作為屬性索引項(xiàng)添加到結(jié)構(gòu)化數(shù)據(jù)表,將該關(guān)鍵詞作為屬性值添加到結(jié)構(gòu)化數(shù)據(jù)表,遍歷關(guān)鍵詞數(shù)據(jù)集B中的所有關(guān)鍵詞,得到結(jié)構(gòu)化數(shù)據(jù)集Q。
[0017]進(jìn)一步地,所述步驟S6包括以下分步驟:
[0018]S61、預(yù)先設(shè)定相似度閾值;
[0019]S62、采用相似度算法分析結(jié)構(gòu)化數(shù)據(jù)集Q,計(jì)算數(shù)據(jù)相似度值;
[0020]S63、對結(jié)構(gòu)化數(shù)據(jù)集Q進(jìn)行數(shù)據(jù)篩選,剔除相似度值小于相似度閾值的數(shù)據(jù),得到結(jié)構(gòu)化數(shù)據(jù)集Ql ;
[0021]S64、對結(jié)構(gòu)化數(shù)據(jù)集Ql中的相似數(shù)據(jù)合并去重,得到結(jié)構(gòu)化數(shù)據(jù)集Q2。
[0022]優(yōu)選地,所述相似度算法為歐式距離相似度算法或余弦相似度算法。
[0023]優(yōu)選地,所述命名實(shí)體具體為人名、地域、工作單位、職稱、研究方向等。
[0024]優(yōu)選地,步驟S2中所述中文分詞采用字符串匹配、上下文理解及詞頻統(tǒng)計(jì)相結(jié)合的方法。
[0025]采用上述技術(shù)方案后,本發(fā)明與【背景技術(shù)】相比,具有如下優(yōu)點(diǎn):本發(fā)明通過引入聚類特征的參數(shù),將原始數(shù)據(jù)集A的異構(gòu)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,實(shí)現(xiàn)了對原始數(shù)據(jù)源A的數(shù)據(jù)歸類和權(quán)重標(biāo)記,從而提高了垂直搜索的準(zhǔn)確度,使得用戶更容易獲取符合實(shí)際需求的信肩、O
【專利附圖】
【附圖說明】
[0026]圖1為本發(fā)明的工作流程圖。
【具體實(shí)施方式】
[0027]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0028]實(shí)施例
[0029]請參閱圖1,本發(fā)明公開了一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法,包括以下步驟:
[0030]S1、預(yù)先建立聚類特征集N,所述聚類特征集N包括一組命名實(shí)體以及與每個(gè)命名實(shí)體對應(yīng)的特征信息知識庫,該組命名實(shí)體具體包括人名、地域、工作單位、職稱和研究方向,特征信息知識庫收錄了與命名實(shí)體對應(yīng)的信息。為了便于理解,舉例加以說明,以其中
的一個(gè)命名實(shí)體“工作單位”為例,特征信息知識庫收錄了“廈門大學(xué)、中國科學(xué)院.......”
等信息;以另外一個(gè)命名實(shí)體“職稱”為例,特征信息知識庫收錄了“高級工程師、教授、副教授.......”等信息。
[0031]S2、獲得原始數(shù)據(jù)集A,對原始數(shù)據(jù)集A進(jìn)行中文分詞并提取關(guān)鍵詞,得到關(guān)鍵詞數(shù)據(jù)集B。需要說明的是,這里提到的“原始數(shù)據(jù)集A”指的是垂直搜索引擎系統(tǒng)的網(wǎng)頁庫中的數(shù)據(jù),其存在形式為漢字序列。舉例加以說明,原始數(shù)據(jù)集A中的一條數(shù)據(jù)為“張三現(xiàn)為廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院副教授,主要研究興趣是數(shù)據(jù)挖掘、互聯(lián)網(wǎng)運(yùn)用與移動商務(wù)”,中文分詞后得到的關(guān)鍵詞數(shù)據(jù)集B中則包含了 “張三/廈門大學(xué)/信息科學(xué)與技術(shù)學(xué)院/副教授/數(shù)據(jù)挖掘/互聯(lián)網(wǎng)運(yùn)用/移動商務(wù)”的分詞結(jié)果。
[0032]在本實(shí)施中,中文分詞采用字符串匹配、上下文理解及詞頻統(tǒng)計(jì)相結(jié)合的方法。本發(fā)明也可采用其他方式進(jìn)行中文分詞,只要能夠?qū)崿F(xiàn)將漢字序列切分成符合要求的單獨(dú)的詞即可,在此不做具體限定。
[0033]S3、以關(guān)鍵詞作為基礎(chǔ)特征,采用k-means算法進(jìn)行聚類,得到聚類集C。由于原始數(shù)據(jù)集A通常包含了眾多數(shù)據(jù)信息,得到的關(guān)鍵詞數(shù)據(jù)集B也就包含了相應(yīng)數(shù)量的分詞結(jié)果,如果其中的多個(gè)分詞結(jié)果包含有相同的關(guān)鍵詞,則將其作為一個(gè)聚類,如有50個(gè)分詞結(jié)果均包含了關(guān)鍵詞“廈門大學(xué)”,則將其作為一個(gè)聚類。采用k-means算法對關(guān)鍵詞數(shù)據(jù)集B進(jìn)行聚類,就得到了聚類集C。
[0034]S4、根據(jù)聚類集C與聚類特征集N的主題相關(guān)性,對原始數(shù)據(jù)集A進(jìn)行數(shù)據(jù)源歸類。該步驟的具體實(shí)現(xiàn)過程如下:
[0035]對于聚類集C中的單個(gè)聚類,在特征信息知識庫搜索與該個(gè)聚類的特征關(guān)鍵詞對應(yīng)的匹配結(jié)果,以該匹配結(jié)果對應(yīng)的命名實(shí)體作為歸類類型,將原始數(shù)據(jù)集A中與該個(gè)聚類對應(yīng)的數(shù)據(jù)劃分到該歸類類型下,遍歷聚類集C中的所有聚類,從而實(shí)現(xiàn)對原始數(shù)據(jù)集A的所有數(shù)據(jù)進(jìn)行歸類。
[0036]舉例說明,聚類集C中的某個(gè)聚類是以“廈門大學(xué)”作為基礎(chǔ)特征的,則“廈門大學(xué)”就是該個(gè)聚類的特征關(guān)鍵詞,在特征信息知識庫搜索與“廈門大學(xué)”匹配的詞,“廈門大學(xué)”在特征信息知識庫中對應(yīng)的命名實(shí)體是“工作單位”,以“工作單位”作為歸類類型,將將原始數(shù)據(jù)集A中與該個(gè)聚類對應(yīng)的數(shù)據(jù)劃分到“工作單位”的類型下,對聚類集C中的每個(gè)聚類重復(fù)上述過程,就可以完成原始數(shù)據(jù)集A的所有數(shù)據(jù)歸類。
[0037]S5、根據(jù)聚類特征集N與關(guān)鍵詞數(shù)據(jù)集B的相關(guān)性,提取相應(yīng)的結(jié)構(gòu)化數(shù)據(jù)集Q。該步驟的具體實(shí)現(xiàn)過程如下:
[0038]對于關(guān)鍵詞數(shù)據(jù)集B中的單個(gè)關(guān)鍵詞,在特征信息知識庫搜索與該關(guān)鍵詞對應(yīng)的匹配結(jié)果,將該匹配結(jié)果對應(yīng)的命名實(shí)體作為屬性索引項(xiàng)添加到結(jié)構(gòu)化數(shù)據(jù)表,將該關(guān)鍵詞作為屬性值添加到結(jié)構(gòu)化數(shù)據(jù)表,遍歷關(guān)鍵詞數(shù)據(jù)集B中的所有關(guān)鍵詞,得到結(jié)構(gòu)化數(shù)據(jù)集Q。
[0039]舉例說明,鍵詞數(shù)據(jù)集B中的某個(gè)關(guān)鍵詞為“副教授”,在特征信息知識庫搜索與“副教授”匹配的詞,“副教授”在特征信息知識庫中對應(yīng)的命名實(shí)體是“職稱”,則將“職稱”作為屬性索引項(xiàng)添加到結(jié)構(gòu)化數(shù)據(jù)表,將“副教授”作為屬性值添加到結(jié)構(gòu)化數(shù)據(jù)表,對鍵詞數(shù)據(jù)集B中的每個(gè)關(guān)鍵詞重復(fù)上述過程,就得到了結(jié)構(gòu)化數(shù)據(jù)集Q。
[0040]S6、對結(jié)構(gòu)化數(shù)據(jù)集Q進(jìn)行分析、優(yōu)化,得到結(jié)構(gòu)化數(shù)據(jù)Q2。該步驟具體通過以下分步驟實(shí)現(xiàn):
[0041]S61、預(yù)先設(shè)定相似度閾值,對于單個(gè)數(shù)據(jù)而言,若其相似度值大于相似度閾值,則為相似數(shù)據(jù),若其相似度值小于于相似度閾值,則為離散數(shù)據(jù)。
[0042]S62、采用相似度算法分析結(jié)構(gòu)化數(shù)據(jù)集Q,計(jì)算數(shù)據(jù)相似度值。相似度算法可以采用歐式距離、余弦等可用于計(jì)算數(shù)據(jù)相似度值的算法,在本實(shí)施例中采用余弦相似度算法來計(jì)算數(shù)據(jù)相似度值。
[0043]S63、對結(jié)構(gòu)化數(shù)據(jù)集Q進(jìn)行數(shù)據(jù)篩選,剔除相似度值小于相似度閾值的數(shù)據(jù),SP剔除離散數(shù)據(jù),得到結(jié)構(gòu)化數(shù)據(jù)集Ql。
[0044]S64、對結(jié)構(gòu)化數(shù)據(jù)集Ql中的相似數(shù)據(jù)合并去重,得到結(jié)構(gòu)化數(shù)據(jù)集Q2。
[0045]通過對結(jié)構(gòu)化數(shù)據(jù)集Q進(jìn)行離散數(shù)據(jù)剔除及相似數(shù)據(jù)合并去重的處理,這樣得到的結(jié)構(gòu)化數(shù)據(jù)集Q2的準(zhǔn)確性和真實(shí)性大大提高,可在后續(xù)步驟中作為基準(zhǔn)去衡量原始數(shù)據(jù)的質(zhì)量。
[0046]S7、根據(jù)關(guān)鍵詞數(shù)據(jù)集B與結(jié)構(gòu)化數(shù)據(jù)集Q2的比對結(jié)果,進(jìn)行關(guān)鍵詞權(quán)重標(biāo)記,獲得權(quán)重集W,權(quán)重集W用于垂直搜索結(jié)果的排序,這樣可以將權(quán)重值較高的搜索結(jié)果優(yōu)先展示給用戶。
[0047]通過以上描述可以看出,本發(fā)明預(yù)先引入聚類特征集N,然后對原始數(shù)據(jù)集A進(jìn)行中文分詞,得到關(guān)鍵詞數(shù)據(jù)集B,通過對關(guān)鍵詞數(shù)據(jù)集B進(jìn)行聚類得到聚類集C,進(jìn)行實(shí)現(xiàn)了對原始數(shù)據(jù)集A的歸類和關(guān)鍵詞數(shù)據(jù)集B的權(quán)重標(biāo)記,從而提高了垂直搜索的準(zhǔn)確度,使得用戶更容易獲取符合實(shí)際需求的信息。
[0048]以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法,其特征在于,包括以下步驟: 51、預(yù)先建立聚類特征集N,所述聚類特征集N包括一組命名實(shí)體以及與每個(gè)命名實(shí)體對應(yīng)的特征信息知識庫; 52、獲得原始數(shù)據(jù)集A,對原始數(shù)據(jù)集A進(jìn)行中文分詞并提取關(guān)鍵詞,得到關(guān)鍵詞數(shù)據(jù)集B ; 53、以關(guān)鍵詞作為基礎(chǔ)特征,采用k-means算法進(jìn)行聚類,得到聚類集C; 54、根據(jù)聚類集C與聚類特征集N的主題相關(guān)性,對原始數(shù)據(jù)集A進(jìn)行數(shù)據(jù)源歸類; 55、根據(jù)聚類特征集N與關(guān)鍵詞數(shù)據(jù)集B的相關(guān)性,提取相應(yīng)的結(jié)構(gòu)化數(shù)據(jù)集Q; 56、對結(jié)構(gòu)化數(shù)據(jù)集Q進(jìn)行分析、優(yōu)化,得到結(jié)構(gòu)化數(shù)據(jù)Q2; 57、根據(jù)關(guān)鍵詞數(shù)據(jù)集B與結(jié)構(gòu)化數(shù)據(jù)集Q2的比對結(jié)果,進(jìn)行關(guān)鍵詞權(quán)重標(biāo)記,獲得權(quán)重集W,權(quán)重集W用于垂直搜索結(jié)果的排序。
2.如權(quán)利要求1所述的一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法,其特征在于,所述步驟S4具體通過以下方法實(shí)現(xiàn):對于聚類集C中的單個(gè)聚類,在特征信息知識庫搜索與該個(gè)聚類的特征關(guān)鍵詞對應(yīng)的匹配結(jié)果,以該匹配結(jié)果對應(yīng)的命名實(shí)體作為歸類類型,將原始數(shù)據(jù)集A中與該個(gè)聚類對應(yīng)的數(shù)據(jù)劃分到該歸類類型下,遍歷聚類集C中的所有聚類,從而實(shí)現(xiàn)對原始數(shù)據(jù)集A的所有數(shù)據(jù)進(jìn)行歸類。
3.如權(quán)利要求2所述的一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法,其特征在于,所述步驟S5具體通過以下方法實(shí)現(xiàn):對于關(guān)鍵詞數(shù)據(jù)集B中的單個(gè)關(guān)鍵詞,在特征信息知識庫搜索與該關(guān)鍵詞對應(yīng)的匹配結(jié)果,將該匹配結(jié)果對應(yīng)的命名實(shí)體作為屬性索引項(xiàng)添加到結(jié)構(gòu)化數(shù)據(jù)表,將該關(guān)鍵詞作為屬性值添加到結(jié)構(gòu)化數(shù)據(jù)表,遍歷關(guān)鍵詞數(shù)據(jù)集B中的所有關(guān)鍵詞,得到結(jié)構(gòu)化數(shù)據(jù)集Q。
4.如權(quán)利要求1-3任一項(xiàng)所述的一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法,其特征在于,所述步驟S6包括以下分步驟: 561、預(yù)先設(shè)定相似度閾值; 562、采用相似度算法分析結(jié)構(gòu)化數(shù)據(jù)集Q,計(jì)算數(shù)據(jù)相似度值; 563、對結(jié)構(gòu)化數(shù)據(jù)集Q進(jìn)行數(shù)據(jù)篩選,剔除相似度值小于相似度閾值的數(shù)據(jù),得到結(jié)構(gòu)化數(shù)據(jù)集Ql ; 564、對結(jié)構(gòu)化數(shù)據(jù)集Ql中的相似數(shù)據(jù)合并去重,得到結(jié)構(gòu)化數(shù)據(jù)集Q2。
5.如權(quán)利要求4所述的一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法,其特征在于:所述相似度算法為歐式距離相似度算法或余弦相似度算法。
6.如權(quán)利要求5所述的一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法,其特征在于:所述命名實(shí)體具體為人名、地域、工作單位、職稱、研究方向等。
7.如權(quán)利要求5所述的一種用于科技信息垂直搜索的異構(gòu)數(shù)據(jù)分析方法,其特征在于:步驟S2中所述中文分詞采用字符串匹配、上下文理解及詞頻統(tǒng)計(jì)相結(jié)合的方法。
【文檔編號】G06F17/30GK103984700SQ201410150100
【公開日】2014年8月13日 申請日期:2014年4月15日 優(yōu)先權(quán)日:2014年4月15日
【發(fā)明者】曾爾曼, 洪文興, 朱順痣, 林清懷 申請人:廈門產(chǎn)業(yè)技術(shù)研究院