一種用于垂直領域的概念關系構建方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據處理領域,更為具體而言,涉及一種用于垂直領域的概念關系構 建方法和裝置。
【背景技術】
[0002] 垂直領域是相對于通用領域而言的,主要指非綜合的、對某一特定領域的專業(yè)、深 入的細分,諸如教育、特賣、醫(yī)療之類的非標準化消費品領域都屬于垂直領域。各個垂直領 域包括其對應的概念集合,例如,醫(yī)療垂直領域可包括糖尿病、內科、盤尼西林、人民醫(yī)院等 概念。概念作為構成垂直領域的基本元素,是表述用戶在該領域需求的基礎。
[0003] 對于垂直領域內數(shù)據檢索,現(xiàn)有技術大多數(shù)利用知識圖譜描述垂直領域中概念和 概念之間的定性關系,以語言培訓為例,語言培訓下一層包括描述它的屬性,例如,培訓機 構、培訓地址、培訓語種等屬性,在屬性的下一層包括該屬性下的概念,例如,培訓機構包括 機構A、機構B、機構C等概念,培訓地址包括朝陽、海淀、北京、天津等概念,培訓語種包括英 語、小語種等概念。然而,現(xiàn)有的對概念之間的關系描述較為固定,在概念關系的刻畫描述 方面存在不足。
【發(fā)明內容】
[0004] 為解決上述技術問題,本發(fā)明提供了一種用于垂直領域的概念關系構建方法和裝 置,根據垂直領域知識中的概念層級關系和概念同位關系、用戶的搜索行為、用戶的點擊行 為中的一者或一者以上確定概念的緊密性關系,能夠從用戶需求角度刻畫同一屬性下兩個 概念之間的相關性,擴展了垂直領域內對概念之間關系的描述方式。
[0005] 根據本發(fā)明實施方式的第一方法,提供了一種用于垂直領域的概念關系構建方 法,該方法可包括:
[0006] 根據垂直領域知識中的概念層級關系和概念同位關系、用戶的搜索行為、用戶的 點擊行為中的一者或一者以上確定概念的緊密性關系,其中,所述概念的緊密性關系用于 描述垂直領域內同一屬性下的兩兩概念之間在滿足用戶需求方面的關聯(lián)度。
[0007] 在本發(fā)明的一些實施方式中,根據垂直領域知識中的概念層級關系和概念同位關 系、用戶的搜索行為、用戶的點擊行為中的一者或一者以上確定概念的緊密性關系可包括: 通過概念a和概念b之間的概念路徑距離 r〇Ute_dis倒數(shù)的自然對數(shù)表述所述概念層級關 系,進一步確定出與所述概念層級關系正相關的概念層級維度上的緊密性關系的取值,其 中,對于無轉折路徑,概念路徑距離r 〇ute_diS為單邊距離e_dis的累加 Σ e_dis,對于帶 轉折路徑,概念路徑距離r〇ute_diS為單邊距離e_dis的累加2e_dis與路徑轉折懲罰t_ penalty的乘積,單邊距離e_dis為概念細化距離g_dis與概念層級懲罰g_penalty的乘積 或概念泛化距離:r_dis與概念層級懲罰g_penalty的乘積,其中,單邊距離e_dis為一個屬 性層級關系樹中兩個直接相連的概念之間的路徑距離,概念細化距離g_dis為按方向的上 層概念到下層概念的路徑距離,概念泛化距離r_dis為下層概念到上層概念的路徑距離, 概念層級懲罰g_penalty用于表征單邊距離的概念細化和概念泛化程度,根據層級關系樹 中每層的概念數(shù)η確定,路徑轉折懲罰t_penaI ty用于表征概念間的轉意程度,根據層級關 系樹深度H和路徑最高層級節(jié)點深度h確定。
[0008] 在本發(fā)明的一些實施方式中,根據垂直領域知識中的概念層級關系和概念同位關 系、用戶的搜索行為、用戶的點擊行為中的一者或一者以上確定概念的緊密性關系可包括: 根據領域文本中同一屬性下的概念a和概念b的并列共現(xiàn)頻次C parami(a,b)通過下述公式 計算概念同位維度上的緊密性關系的取值:
【主權項】
1. 一種用于垂直領域的概念關系構建方法,其特征在于,包括: 根據垂直領域知識中的概念層級關系和概念同位關系、用戶的捜索行為、用戶的點擊 行為中的一者或一者W上確定概念的緊密性關系, 其中,所述概念的緊密性關系用于描述垂直領域內同一屬性下的兩兩概念之間在滿足 用戶需求方面的關聯(lián)度。
2. 根據權利要求1所述的方法,其特征在于,根據垂直領域知識中的概念層級關系和 概念同位關系、用戶的捜索行為、用戶的點擊行為中的一者或一者W上確定概念的緊密性 關系包括: 通過概念a和概念b之間的概念路徑距離route_dis倒數(shù)的自然對數(shù)表述所述概念 層級關系,進一步確定出與所述概念層級關系正相關的概念層級維度上的緊密性關系的取 值, 其中,對于無轉折路徑,概念路徑距離route_dis為單邊距離e_dis的累加2e_dis, 對于帶轉折路徑,概念路徑距離route_dis為單邊距離e_dis的累加2e_dis與路徑轉折 懲罰t_penalty的乘積,單邊距離e_dis為概念細化距離g_dis與概念層級懲罰g_penalty 的乘積或概念泛化距離r_dis與概念層級懲罰g_penalty的乘積, 其中,單邊距離e_dis為一個屬性層級關系樹中兩個直接相連的概念之間的路徑距 離,概念細化距離g_dis為按方向的上層概念到下層概念的路徑距離,概念泛化距離r_dis 為下層概念到上層概念的路徑距離,概念層級懲罰g_penalty用于表征單邊距離的概念細 化和概念泛化程度,根據層級關系樹中每層的概念數(shù)n確定,路徑轉折懲罰t_penalty用于 表征概念間的轉意程度,根據層級關系樹深度H和路徑最高層級節(jié)點深度h確定。
3. 根據權利要求1所述的方法,其特征在于,根據垂直領域知識中的概念層級關系和 概念同位關系、用戶的捜索行為、用戶的點擊行為中的一者或一者W上確定概念的緊密性 關系包括: 根據領域文本中同一屬性下的概念a和概念b的并列共現(xiàn)頻次Cpauiw (a,b)通過下述 公式計算概念同位維度上的緊密性關系的取值:
p_score (a, b)為概念a和概念b在概念同位維度的緊密性關系的取值,C (a)為概念a 在領域文本中的出現(xiàn)次數(shù),N為置性度懲罰因子。
4. 根據權利要求1至3中任意一項所述的方法,其特征在于,根據垂直領域知識中的概 念層級關系和概念同位關系、用戶的捜索行為、用戶的點擊行為中的一者或一者W上確定 概念的緊密性關系包括: 獲取單個用戶捜索行為的先后查詢序列,形成一個或一個W上第一類二元組< 查詢1, 查詢2〉,并將所述一個或一個W上第一類二元組合并形成第二類二元組 < 句子1,句子2〉, 確定所述第二類二元組中句子1包含概念a且不包含與a同一屬性的其他概念、句子2包 含概念b且不包含與b同一屬性的其他概念的次數(shù),作為概念a和概念b的在單用戶捜索 行為維度的緊密共現(xiàn)頻次Cp (a, b),并根據所述單用戶捜索行為維度的緊密共現(xiàn)頻次確定 單用戶捜索行為維度的緊密性關系的取值;和/或
獲取多個用戶捜索行為中多用戶點擊到同一檢索結果的查詢集合,將所述查詢集合中 的兩兩查詢形成一個或一個W上的第=類二元組 < 查詢3,查詢4〉,并將所述一個或一個W 上第=類二元組合并形成第四類二元組 < 句子3,句子4〉,確定所述第四類二元組中句子3 包含概念a且不包含與a同一屬性的其他概念、句子4包含概念b且不包含與b同一屬性的 其他概念的次數(shù),作為概念a和概念