一種挖掘?qū)傩悦麖?fù)述的方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種挖掘?qū)傩悦麖?fù)述的方法和裝置,其中方法包括:S1、從搜索日志中獲取Q-Q、Q-T和T-T中的至少一種資源作為候選句對,Q-Q為用戶在一個(gè)會話中搜索的兩個(gè)query構(gòu)成的句對,Q-T為query與對應(yīng)的被點(diǎn)擊網(wǎng)頁標(biāo)題構(gòu)成的句對,T-T為同一個(gè)query對應(yīng)的兩個(gè)被點(diǎn)擊標(biāo)題構(gòu)成的句對;S2、從各候選句對中抽取具有相同上下文語境的短語對作為候選復(fù)述短語對;S3、從候選復(fù)述短語對中抽取存在至少一個(gè)短語屬于屬性名列表的候選復(fù)述短語對;S4、從步驟S3抽取出的候選復(fù)述短語對進(jìn)行噪聲過濾后,得到屬性名復(fù)述短語對。本發(fā)明能夠獲取屬性名所具有的表達(dá)形式,從而更好地匹配用戶靈活多樣的查詢表述。
【專利說明】一種挖掘?qū)傩悦麖?fù)述的方法和裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】,特別涉及一種挖掘?qū)傩悦麖?fù)述的方法和裝置?!尽颈尘凹夹g(shù)】】
[0002]在網(wǎng)絡(luò)信息領(lǐng)域中,一條三元組數(shù)據(jù)可以表示成(e,a, V),其中e為實(shí)體名(entity), a為屬性名(attribute), V為屬性值(value),例如(姚明,身高,2.26米)即為一條三元組。三元組數(shù)據(jù)在很多方面都存在應(yīng)用,尤其在搜索引擎中,三元組數(shù)據(jù)被存儲在結(jié)構(gòu)化數(shù)據(jù)庫中為垂直搜索提供數(shù)據(jù)來源,當(dāng)用戶搜索實(shí)體屬性時(shí),搜索引擎可以直接向用戶返回對應(yīng)的屬性值,例如,用戶搜索“姚明的身高是多少”時(shí),能夠直接返回精確答案“2.26 米”。
[0003]然而在用戶進(jìn)行實(shí)際搜索的過程中,采用的語言表述可能與結(jié)構(gòu)化數(shù)據(jù)庫中的表述存在差異,反映在屬性名上尤其明顯。對于上述的例子,用戶可能會搜索“姚明的高度”、“姚明高多少”、“姚明有多高”等等,雖然這些查詢的意圖都是要獲取姚明的身高,但由于屬性名的表述不同,可能無法命中結(jié)構(gòu)化數(shù)據(jù)庫中的內(nèi)容,因此,有必要對結(jié)構(gòu)化數(shù)據(jù)庫中的屬性名進(jìn)行復(fù)述挖掘,即挖掘出每個(gè)屬性名所具有的表達(dá)形式,從而更好地匹配用戶靈活多樣的查詢表述。
【
【發(fā)明內(nèi)容】
】
[0004]有鑒于此,本發(fā)明提供了一種挖掘?qū)傩悦麖?fù)述的方法和裝置,以便于挖掘?qū)傩悦哂械谋磉_(dá)形式,從而更好地匹配用戶靈活多樣的查詢表述。
[0005]具體技術(shù)方案如下:
[0006]一種挖掘?qū)傩悦麖?fù)述的方法,該方法包括以下步驟:
[0007]S1、從搜索日志中獲取Q-Q、Q_T和T-T中的至少一種資源作為候選句對,所述Q-Q為用戶在一個(gè)會話session中搜索的兩個(gè)query構(gòu)成的句對,所述Q-T為query與對應(yīng)的被點(diǎn)擊網(wǎng)頁標(biāo)題title構(gòu)成的句對,所述T-T為同一個(gè)query對應(yīng)的兩個(gè)被點(diǎn)擊title構(gòu)成的句對;
[0008]S2、從各候選句對中抽取具有相同上下文語境的短語對作為候選復(fù)述短語對;
[0009]S3、從候選復(fù)述短語對中抽取存在至少一個(gè)短語屬于屬性名列表的候選復(fù)述短語對;
[0010]S4、從所述步驟S3抽取出的候選復(fù)述短語對進(jìn)行噪聲過濾后,得到屬性名復(fù)述短語對,屬性名復(fù)述短語對中的兩短語互為屬性名復(fù)述。
[0011]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S2中按照如下短語抽取規(guī)則抽取短語對作為候選復(fù)述短語對:兩個(gè)短語的前一個(gè)詞相同且后一個(gè)詞相同,但兩個(gè)短語本身不相同。
[0012]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述短語抽取規(guī)則還包括:兩短語的長度在預(yù)設(shè)的長度范圍內(nèi),兩短語中不包含標(biāo)點(diǎn)且不能完全由停用詞構(gòu)成,或者兩短語之前和之后不能是標(biāo)點(diǎn)中的至少一種。[0013]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟S2中還包括:統(tǒng)計(jì)各候選復(fù)述短語對分別從Q-Q> Q-T和T-T抽取出來的次數(shù),將總次數(shù)小于預(yù)設(shè)次數(shù)閾值的候選復(fù)述短語對過濾掉。
[0014]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,步驟S4中所述噪聲過濾包括以下至少一種:
[0015]如果候選復(fù)述短語對中兩個(gè)短語的長度比大于預(yù)設(shè)長度比閾值,則將該候選復(fù)述短語對過濾掉;
[0016]如果候選復(fù)述短語對中兩個(gè)短語的差別僅在于停用詞,則將該候選復(fù)述短語對過濾掉;
[0017]如果候選復(fù)述短語對中未包含在屬性名列表中的短語中存在數(shù)字或英文字母,則將該候選復(fù)述短語對過濾掉;
[0018]如果候選復(fù)述短語對中未包含在屬性名列表中的短語的首詞或尾詞出現(xiàn)在預(yù)設(shè)的過濾詞表中,則將該候選復(fù)述短語對過濾掉;
[0019]如果候選復(fù)述短語對中未包含在屬性名列表中的短語包含地名,則將該候選復(fù)述短語對過濾掉;
[0020]確定同一短語所在的各候選復(fù)述短語對的詞頻分值,將詞頻分值排在前N個(gè)之外的候選復(fù)述短語對過濾掉,所述N為預(yù)設(shè)的正整數(shù)。
[0021]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,候選復(fù)述短語對<pl,p2>的詞頻分值score (p2 I pi)采用如下公式計(jì)算:
[0022]
【權(quán)利要求】
1.一種挖掘?qū)傩悦麖?fù)述的方法,其特征在于,該方法包括以下步驟: 51、從搜索日志中獲取Q-Q、Q-T和T-T中的至少一種資源作為候選句對,所述Q-Q為用戶在一個(gè)會話session中搜索的兩個(gè)query構(gòu)成的句對,所述Q-T為query與對應(yīng)的被點(diǎn)擊網(wǎng)頁標(biāo)題title構(gòu)成的句對,所述T-T為同一個(gè)query對應(yīng)的兩個(gè)被點(diǎn)擊title構(gòu)成的句對; 52、從各候選句對中抽取具有相同上下文語境的短語對作為候選復(fù)述短語對; 53、從候選復(fù)述短語對中抽取存在至少一個(gè)短語屬于屬性名列表的候選復(fù)述短語對; 54、從所述步驟S3抽取出的候選復(fù)述短語對進(jìn)行噪聲過濾后,得到屬性名復(fù)述短語對,屬性名復(fù)述短語對中的兩短語互為屬性名復(fù)述。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S2中按照如下短語抽取規(guī)則抽取短語對作為候選復(fù)述短語對:兩個(gè)短語的前一個(gè)詞相同且后一個(gè)詞相同,但兩個(gè)短語本身不相同。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述短語抽取規(guī)則還包括以下至少一種:兩短語的長度在預(yù)設(shè)的長度范圍內(nèi),兩短語中不包含標(biāo)點(diǎn)且不能完全由停用詞構(gòu)成,或者兩短語之前和之后不能是標(biāo)點(diǎn)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2中還包括:統(tǒng)計(jì)各候選復(fù)述短語對分別從Q-Q、Q-T和T-T抽取出來的次數(shù),將總次數(shù)小于預(yù)設(shè)次數(shù)閾值的候選復(fù)述短語對過濾掉。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S4中所述噪聲過濾包括以下至少一種: 如果候選復(fù)述短語對中兩個(gè)短語的長度比大于預(yù)設(shè)長度比閾值,則將該候選復(fù)述短語對過濾掉; 如果候選復(fù)述短語對中兩個(gè)短語的差別僅在于停用詞,則將該候選復(fù)述短語對過濾掉; 如果候選復(fù)述短語對中未包含在屬性名列表中的短語中存在數(shù)字或英文字母,則將該候選復(fù)述短語對過濾掉; 如果候選復(fù)述短語對中未包含在屬性名列表中的短語的首詞或尾詞出現(xiàn)在預(yù)設(shè)的過濾詞表中,則將該候選復(fù)述短語對過濾掉; 如果候選復(fù)述短語對中未包含在屬性名列表中的短語包含地名,則將該候選復(fù)述短語對過濾掉; 確定同一短語所在的各候選復(fù)述短語對的詞頻分值,將詞頻分值排在前N個(gè)之外的候選復(fù)述短語對過濾掉,所述N為預(yù)設(shè)的正整數(shù)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,候選復(fù)述短語對<pl,p2>的詞頻分值score (p2 I pi)采用如下公式計(jì)算:
score (p2 | pi) = λ (ρ2 | pi) + λ "P" (ρ2 | ρ?) + λ t_tPt_t (ρ2 ρ?); 所述
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述λ"大于和λΜ。
8.一種挖掘?qū)傩悦麖?fù)述的裝置,其特征在于,該裝置包括: 候選句對獲取單元,用于從搜索日志中獲取Q-Q、Q-T和T-T中的至少一種資源作為候選句對,所述Q-Q為用戶在一個(gè)會話session中搜索的兩個(gè)query構(gòu)成的句對,所述Q-T為query與對應(yīng)的被點(diǎn)擊網(wǎng)頁標(biāo)題title構(gòu)成的句對,所述T-T為同一個(gè)query對應(yīng)的兩個(gè)被點(diǎn)擊title構(gòu)成的句對; 第一短語對抽取單元,用于從各候選句對中抽取具有相同上下文語境的短語對作為候選復(fù)述短語對; 第二短語對抽取單元,用于從候選復(fù)述短語對中抽取存在至少一個(gè)短語屬于屬性名列表的候選復(fù)述短語對; 噪聲過濾單元,用于從所述第二短語對抽取單元抽取出的候選復(fù)述短語對進(jìn)行噪聲過濾后,得到屬性名復(fù)述短語對,屬性名復(fù)述短語對中的兩短語互為屬性名復(fù)述。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第一短語對抽取單元按照如下短語抽取規(guī)則抽取短語對作為候選復(fù)述短語對:兩個(gè)短語的前一個(gè)詞相同且后一個(gè)詞相同,但兩個(gè)短語本身不相同。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述短語抽取規(guī)則還包括以下至少一種:兩短語的長度在預(yù)設(shè)的長度范圍內(nèi),兩短語中不包含標(biāo)點(diǎn)且不能完全由停用詞構(gòu)成,或者兩短語之前和之后不能是標(biāo)點(diǎn)。
11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,該裝置還包括: 候選過濾單元,用于統(tǒng)計(jì)所述第一短語對抽取單元抽取出的各候選復(fù)述短語對分別從Q-Q>Q-T和T-T抽取出來的次數(shù),將總次數(shù)小于預(yù)設(shè)次數(shù)閾值的候選復(fù)述短語對過濾掉,將過濾后的候選復(fù)述短語對提供給所述第二短語對抽取單元。
12.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述噪聲過濾單元進(jìn)行的噪聲過濾包括以下至少一種: 如果候選復(fù)述短語對中兩個(gè)短語的長度比大于預(yù)設(shè)長度比閾值,則將該候選復(fù)述短語對過濾掉;如果候選復(fù)述短語對中兩個(gè)短語的差別僅在于停用詞,則將該候選復(fù)述短語對過濾掉; 如果候選復(fù)述短語對中未包含在屬性名列表中的短語中存在數(shù)字或英文字母,則將該候選復(fù)述短語對過濾掉; 如果候選復(fù)述短語對中未包含在屬性名列表中的短語的首詞或尾詞出現(xiàn)在預(yù)設(shè)的過濾詞表中,則將該候選復(fù)述短語對過濾掉; 如果候選復(fù)述短語對中未包含在屬性名列表中的短語包含地名,則將該候選復(fù)述短語對過濾掉; 確定同一短語所在的各候選復(fù)述短語對的詞頻分值,將詞頻分值排在前N個(gè)之外的候選復(fù)述短語對過濾掉,所述N為預(yù)設(shè)的正整數(shù)。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述噪聲過濾單元確定候選復(fù)述短語對<pl,p2>的詞頻分值score (p2 I pi)時(shí),采用如下公式計(jì)算:
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述Atrt大于和λΜ。
【文檔編號】G06F17/30GK103631817SQ201210307150
【公開日】2014年3月12日 申請日期:2012年8月24日 優(yōu)先權(quán)日:2012年8月24日
【發(fā)明者】趙世奇 申請人:北京百度網(wǎng)訊科技有限公司