一種挖掘?qū)傩悦麖?fù)述的方法和裝置制造方法

文檔序號：6488183閱讀：94來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種挖掘?qū)傩悦麖?fù)述的方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種挖掘?qū)傩悦麖?fù)述的方法和裝置，其中方法包括：S1、從搜索日志中獲取Q-Q、Q-T和T-T中的至少一種資源作為候選句對，Q-Q為用戶在一個(gè)會話中搜索的兩個(gè)query構(gòu)成的句對，Q-T為query與對應(yīng)的被點(diǎn)擊網(wǎng)頁標(biāo)題構(gòu)成的句對，T-T為同一個(gè)query對應(yīng)的兩個(gè)被點(diǎn)擊標(biāo)題構(gòu)成的句對；S2、從各候選句對中抽取具有相同上下文語境的短語對作為候選復(fù)述短語對；S3、從候選復(fù)述短語對中抽取存在至少一個(gè)短語屬于屬性名列表的候選復(fù)述短語對；S4、從步驟S3抽取出的候選復(fù)述短語對進(jìn)行噪聲過濾后，得到屬性名復(fù)述短語對。本發(fā)明能夠獲取屬性名所具有的表達(dá)形式，從而更好地匹配用戶靈活多樣的查詢表述。
【專利說明】一種挖掘?qū)傩悦麖?fù)述的方法和裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】，特別涉及一種挖掘?qū)傩悦麖?fù)述的方法和裝置?！尽颈尘凹夹g(shù)】】
[0002]在網(wǎng)絡(luò)信息領(lǐng)域中，一條三元組數(shù)據(jù)可以表示成(e，a, V)，其中e為實(shí)體名(entity), a為屬性名(attribute), V為屬性值(value),例如(姚明，身高,2.26米)即為一條三元組。三元組數(shù)據(jù)在很多方面都存在應(yīng)用，尤其在搜索引擎中，三元組數(shù)據(jù)被存儲在結(jié)構(gòu)化數(shù)據(jù)庫中為垂直搜索提供數(shù)據(jù)來源，當(dāng)用戶搜索實(shí)體屬性時(shí)，搜索引擎可以直接向用戶返回對應(yīng)的屬性值，例如，用戶搜索“姚明的身高是多少”時(shí)，能夠直接返回精確答案“2.26 米”。
[0003]然而在用戶進(jìn)行實(shí)際搜索的過程中，采用的語言表述可能與結(jié)構(gòu)化數(shù)據(jù)庫中的表述存在差異，反映在屬性名上尤其明顯。對于上述的例子，用戶可能會搜索“姚明的高度”、“姚明高多少”、“姚明有多高”等等，雖然這些查詢的意圖都是要獲取姚明的身高，但由于屬性名的表述不同，可能無法命中結(jié)構(gòu)化數(shù)據(jù)庫中的內(nèi)容，因此，有必要對結(jié)構(gòu)化數(shù)據(jù)庫中的屬性名進(jìn)行復(fù)述挖掘，即挖掘出每個(gè)屬性名所具有的表達(dá)形式，從而更好地匹配用戶靈活多樣的查詢表述。
【
【發(fā)明內(nèi)容】
】
[0004]有鑒于此，本發(fā)明提供了一種挖掘?qū)傩悦麖?fù)述的方法和裝置，以便于挖掘?qū)傩悦哂械谋磉_(dá)形式，從而更好地匹配用戶靈活多樣的查詢表述。
[0005]具體技術(shù)方案如下:
[0006]一種挖掘?qū)傩悦麖?fù)述的方法，該方法包括以下步驟:
[0007]S1、從搜索日志中獲取Q-Q、Q_T和T-T中的至少一種資源作為候選句對，所述Q-Q為用戶在一個(gè)會話session中搜索的兩個(gè)query構(gòu)成的句對,所述Q-T為query與對應(yīng)的被點(diǎn)擊網(wǎng)頁標(biāo)題title構(gòu)成的句對,所述T-T為同一個(gè)query對應(yīng)的兩個(gè)被點(diǎn)擊title構(gòu)成的句對；
[0008]S2、從各候選句對中抽取具有相同上下文語境的短語對作為候選復(fù)述短語對；
[0009]S3、從候選復(fù)述短語對中抽取存在至少一個(gè)短語屬于屬性名列表的候選復(fù)述短語對；
[0010]S4、從所述步驟S3抽取出的候選復(fù)述短語對進(jìn)行噪聲過濾后，得到屬性名復(fù)述短語對，屬性名復(fù)述短語對中的兩短語互為屬性名復(fù)述。
[0011]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，在所述步驟S2中按照如下短語抽取規(guī)則抽取短語對作為候選復(fù)述短語對:兩個(gè)短語的前一個(gè)詞相同且后一個(gè)詞相同，但兩個(gè)短語本身不相同。
[0012]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述短語抽取規(guī)則還包括:兩短語的長度在預(yù)設(shè)的長度范圍內(nèi)，兩短語中不包含標(biāo)點(diǎn)且不能完全由停用詞構(gòu)成，或者兩短語之前和之后不能是標(biāo)點(diǎn)中的至少一種。[0013]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，所述步驟S2中還包括:統(tǒng)計(jì)各候選復(fù)述短語對分別從Q-Q> Q-T和T-T抽取出來的次數(shù)，將總次數(shù)小于預(yù)設(shè)次數(shù)閾值的候選復(fù)述短語對過濾掉。
[0014]根據(jù)本發(fā)明一優(yōu)選實(shí)施例，步驟S4中所述噪聲過濾包括以下至少一種:
[0015]如果候選復(fù)述短語對中兩個(gè)短語的長度比大于預(yù)設(shè)長度比閾值，則將該候選復(fù)述短語對過濾掉；
[0016]如果候選復(fù)述短語對中兩個(gè)短語的差別僅在于停用詞，則將該候選復(fù)述短語對過濾掉；
[0017]如果候選復(fù)述短語對中未包含在屬性名列表中的短語中存在數(shù)字或英文字母，則將該候選復(fù)述短語對過濾掉；
[0018]如果候選復(fù)述短語對中未包含在屬性名列表中的短語的首詞或尾詞出現(xiàn)在預(yù)設(shè)的過濾詞表中，則將該候選復(fù)述短語對過濾掉；
[0019]如果候選復(fù)述短語對中未包含在屬性名列表中的短語包含地名，則將該候選復(fù)述短語對過濾掉；
[0020]確定同一短語所在的各候選復(fù)述短語對的詞頻分值，將詞頻分值排在前N個(gè)之外的候選復(fù)述短語對過濾掉，所述N為預(yù)設(shè)的正整數(shù)。
[0021]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,候選復(fù)述短語對<pl,p2>的詞頻分值score (p2 I pi)采用如下公式計(jì)算:
[0022]
【權(quán)利要求】
1.一種挖掘?qū)傩悦麖?fù)述的方法，其特征在于，該方法包括以下步驟: 51、從搜索日志中獲取Q-Q、Q-T和T-T中的至少一種資源作為候選句對，所述Q-Q為用戶在一個(gè)會話session中搜索的兩個(gè)query構(gòu)成的句對,所述Q-T為query與對應(yīng)的被點(diǎn)擊網(wǎng)頁標(biāo)題title構(gòu)成的句對,所述T-T為同一個(gè)query對應(yīng)的兩個(gè)被點(diǎn)擊title構(gòu)成的句對； 52、從各候選句對中抽取具有相同上下文語境的短語對作為候選復(fù)述短語對； 53、從候選復(fù)述短語對中抽取存在至少一個(gè)短語屬于屬性名列表的候選復(fù)述短語對； 54、從所述步驟S3抽取出的候選復(fù)述短語對進(jìn)行噪聲過濾后，得到屬性名復(fù)述短語對，屬性名復(fù)述短語對中的兩短語互為屬性名復(fù)述。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述步驟S2中按照如下短語抽取規(guī)則抽取短語對作為候選復(fù)述短語對:兩個(gè)短語的前一個(gè)詞相同且后一個(gè)詞相同，但兩個(gè)短語本身不相同。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述短語抽取規(guī)則還包括以下至少一種:兩短語的長度在預(yù)設(shè)的長度范圍內(nèi)，兩短語中不包含標(biāo)點(diǎn)且不能完全由停用詞構(gòu)成，或者兩短語之前和之后不能是標(biāo)點(diǎn)。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S2中還包括:統(tǒng)計(jì)各候選復(fù)述短語對分別從Q-Q、Q-T和T-T抽取出來的次數(shù)，將總次數(shù)小于預(yù)設(shè)次數(shù)閾值的候選復(fù)述短語對過濾掉。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，步驟S4中所述噪聲過濾包括以下至少一種: 如果候選復(fù)述短語對中兩個(gè)短語的長度比大于預(yù)設(shè)長度比閾值，則將該候選復(fù)述短語對過濾掉；如果候選復(fù)述短語對中兩個(gè)短語的差別僅在于停用詞，則將該候選復(fù)述短語對過濾掉；如果候選復(fù)述短語對中未包含在屬性名列表中的短語中存在數(shù)字或英文字母，則將該候選復(fù)述短語對過濾掉；如果候選復(fù)述短語對中未包含在屬性名列表中的短語的首詞或尾詞出現(xiàn)在預(yù)設(shè)的過濾詞表中，則將該候選復(fù)述短語對過濾掉；如果候選復(fù)述短語對中未包含在屬性名列表中的短語包含地名，則將該候選復(fù)述短語對過濾掉；確定同一短語所在的各候選復(fù)述短語對的詞頻分值，將詞頻分值排在前N個(gè)之外的候選復(fù)述短語對過濾掉，所述N為預(yù)設(shè)的正整數(shù)。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，候選復(fù)述短語對<pl，p2>的詞頻分值score (p2 I pi)采用如下公式計(jì)算:
score (p2 | pi) = λ (ρ2 | pi) + λ "P" (ρ2 | ρ?) + λ t_tPt_t (ρ2 ρ?)；所述
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述λ"大于和λΜ。
8.一種挖掘?qū)傩悦麖?fù)述的裝置，其特征在于，該裝置包括: 候選句對獲取單元，用于從搜索日志中獲取Q-Q、Q-T和T-T中的至少一種資源作為候選句對，所述Q-Q為用戶在一個(gè)會話session中搜索的兩個(gè)query構(gòu)成的句對,所述Q-T為query與對應(yīng)的被點(diǎn)擊網(wǎng)頁標(biāo)題title構(gòu)成的句對,所述T-T為同一個(gè)query對應(yīng)的兩個(gè)被點(diǎn)擊title構(gòu)成的句對；第一短語對抽取單元，用于從各候選句對中抽取具有相同上下文語境的短語對作為候選復(fù)述短語對；第二短語對抽取單元，用于從候選復(fù)述短語對中抽取存在至少一個(gè)短語屬于屬性名列表的候選復(fù)述短語對；噪聲過濾單元，用于從所述第二短語對抽取單元抽取出的候選復(fù)述短語對進(jìn)行噪聲過濾后，得到屬性名復(fù)述短語對，屬性名復(fù)述短語對中的兩短語互為屬性名復(fù)述。
9.根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述第一短語對抽取單元按照如下短語抽取規(guī)則抽取短語對作為候選復(fù)述短語對:兩個(gè)短語的前一個(gè)詞相同且后一個(gè)詞相同，但兩個(gè)短語本身不相同。
10.根據(jù)權(quán)利要求9所述的裝置，其特征在于，所述短語抽取規(guī)則還包括以下至少一種:兩短語的長度在預(yù)設(shè)的長度范圍內(nèi)，兩短語中不包含標(biāo)點(diǎn)且不能完全由停用詞構(gòu)成，或者兩短語之前和之后不能是標(biāo)點(diǎn)。
11.根據(jù)權(quán)利要求8所述的裝置，其特征在于，該裝置還包括: 候選過濾單元，用于統(tǒng)計(jì)所述第一短語對抽取單元抽取出的各候選復(fù)述短語對分別從Q-Q>Q-T和T-T抽取出來的次數(shù)，將總次數(shù)小于預(yù)設(shè)次數(shù)閾值的候選復(fù)述短語對過濾掉，將過濾后的候選復(fù)述短語對提供給所述第二短語對抽取單元。
12.根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述噪聲過濾單元進(jìn)行的噪聲過濾包括以下至少一種: 如果候選復(fù)述短語對中兩個(gè)短語的長度比大于預(yù)設(shè)長度比閾值，則將該候選復(fù)述短語對過濾掉；如果候選復(fù)述短語對中兩個(gè)短語的差別僅在于停用詞，則將該候選復(fù)述短語對過濾掉；如果候選復(fù)述短語對中未包含在屬性名列表中的短語中存在數(shù)字或英文字母，則將該候選復(fù)述短語對過濾掉；如果候選復(fù)述短語對中未包含在屬性名列表中的短語的首詞或尾詞出現(xiàn)在預(yù)設(shè)的過濾詞表中，則將該候選復(fù)述短語對過濾掉；如果候選復(fù)述短語對中未包含在屬性名列表中的短語包含地名，則將該候選復(fù)述短語對過濾掉；確定同一短語所在的各候選復(fù)述短語對的詞頻分值，將詞頻分值排在前N個(gè)之外的候選復(fù)述短語對過濾掉，所述N為預(yù)設(shè)的正整數(shù)。
13.根據(jù)權(quán)利要求12所述的裝置，其特征在于，所述噪聲過濾單元確定候選復(fù)述短語對<pl,p2>的詞頻分值score (p2 I pi)時(shí),采用如下公式計(jì)算:
14.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述Atrt大于和λΜ。
【文檔編號】G06F17/30GK103631817SQ201210307150
【公開日】2014年3月12日申請日期:2012年8月24日優(yōu)先權(quán)日:2012年8月24日
【發(fā)明者】趙世奇申請人:北京百度網(wǎng)訊科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙世奇
技術(shù)所有人：北京百度網(wǎng)訊科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

lenovo定點(diǎn)裝置屬性相關(guān)技術(shù)

聯(lián)想定點(diǎn)裝置屬性相關(guān)技術(shù)

定點(diǎn)裝置屬性相關(guān)技術(shù)

挖掘機(jī)回轉(zhuǎn)裝置相關(guān)技術(shù)

挖掘機(jī)工作裝置設(shè)計(jì)相關(guān)技術(shù)

挖掘機(jī)工作裝置相關(guān)技術(shù)

挖掘機(jī)行走裝置相關(guān)技術(shù)

挖掘機(jī)快換裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種挖掘?qū)傩悦麖?fù)述的方法和裝置制造方法