專利名稱:基于表單特征的松弛搜索與優(yōu)化排序方法
技術領域:
本發(fā)明涉及一種信息檢索的優(yōu)化方法,尤其涉及基于表單特征的松弛搜索與優(yōu)化 排序方法。
背景技術:
隨著hternet的不斷發(fā)展,用戶通過網絡去獲取自己所感興趣的信息已經變得 越來越平常。而在互聯(lián)網所包含的信息中,相對于靜態(tài)信息而言De印Web中所包含的信息 更受用戶的青睞。因為Deep Web中的信息一般存儲在數(shù)據庫中,通常由各個組織不斷的 維護和更新,其具有更好的實時性和更高的結構化程度。同時據2000年的研究,De印Web 信息是surface web信息的500倍,google 2007年的估計De印Web包含的數(shù)據源達25, 000,000個;所以De印Web中所包含的信息量也更為豐富。
然而這些De印Web通常只是給用戶提供一個查詢接口,用戶要獲取這些高質量的 結構化信息必須通過自己提交查詢詞來獲取。但用戶并不了解數(shù)據庫內數(shù)據之間的關系, 而且通常由于輸入條件相互約束、查詢條件過強等原因,往往會導致查詢失敗,即獲取不到 查詢結果。通常對于這類問題的解決辦法是對查詢條件進行松弛,即放大搜索,提供給用戶 與其輸入的查詢條件最為相近的一些結果供用戶選擇。相對而言,目前對于數(shù)據庫的松弛 方法研究的比較多,但針對Deep Web集成領域的松弛方法卻比較少。
在將基于屬性松弛的方法應用于Deep Web集成領域時,由于眾多數(shù)據源的異構 性,原有的松弛順序判定方法不能很好的適用。
目前,關于查詢松弛的方法的研究主要集中在數(shù)據庫方面。大致有如下三類1) 通過對屬性匹配進行研究的基礎上對查詢進行泛化,比較有代表性的是feasterland ;2) 基于樣本的查詢松弛,Muslea提出了一種LOQR算法,首先對目標數(shù)據庫進行采樣,然后在 樣本中尋找出與失敗查詢最為接近的記錄并與查詢條件求交集,從而得到松弛后的查詢表 達式;幻基于減弱屬性的松弛方法,Nambiar等人通過對數(shù)據庫的探測得到一個隨機的樣 本,然后利用機器學習的方法來獲取屬性之間的函數(shù)依賴關系,以此來判定屬性的重要程 度從而決定屬性松弛的順序,繼而以此順序來松弛查詢條件的屬性。發(fā)明內容
本發(fā)明的目的是克服現(xiàn)有技術存在的不足,提供一種基于表單特征的松弛搜索與 優(yōu)化排序方法。
本發(fā)明的目的通過以下技術方案來實現(xiàn)
基于表單特征的松弛搜索與優(yōu)化排序方法,其特征在于包括以下步驟
(1)利用表單收集器收集大量的查詢表單信息,并記錄每個表單的所有與屬性記 錄排名相關的三元組信息OI = {DB_ID, Attribute, Order};
三元組信息OI = {DB_ID, Attribute, Order};
其中,DB_ID指系統(tǒng)給定的某表單所在數(shù)據源的標識符,用于唯一標識一個查詢接口 ;Attribute指某一屬性的名字,用于標識某一屬性;Order標名屬性在表單內的排名,即 其在位置上的順序;
(2)采用基于模式匹配的方法,將屬性名不同但表達同一語義的屬性映射到同一 屬性上;
(3)定位查詢接口所包含的屬性;
(4)計算每個屬性的綜合排名;
4-1)取出步驟(3)定位后的一個屬性,根據其出現(xiàn)次數(shù)AC及對應的排名相關信 息,利用下式計算屬性的綜合排名C0,并放入表COS中,
權利要求
1.基于表單特征的松弛搜索與優(yōu)化排序方法,其特征在于包括以下步驟(1)利用表單收集器收集大量的查詢表單信息,并記錄每個表單的所有與屬性記錄排 名相關的三元組信息OI = {DB_ID, Attribute, Order};三元組信息 OI = {DB_ID, Attribute, Order};其中,DB_ID指系統(tǒng)給定的某表單所在數(shù)據源的標識符,用于唯一標識一個查詢接口 ; Attribute指某一屬性的名字,用于標識某一屬性;Order標名屬性在表單內的排名,即其 在位置上的順序;(2)采用基于模式匹配的方法,將屬性名不同但表達同一語義的屬性映射到同一屬性上;(3)定位查詢接口所包含的屬性;(4)計算每個屬性的綜合排名;4-1)取出步驟(3)定位后的一個屬性,根據其出現(xiàn)次數(shù)AC及對應的排名相關信息,利 用下式計算屬性的綜合排名C0,并放入表COS中, count
2.根據權利要求1所述的基于表單特征的松弛搜索與優(yōu)化排序方法,其特征在于所 述定位查詢接口所包含的屬性的步驟是 3-1)設定屬性次數(shù)閾值;3-2)在步驟( 獲得的屬性中取出一個屬性并統(tǒng)計其出現(xiàn)的次數(shù); 3-3)若屬性出現(xiàn)次數(shù)大于設定的屬性次數(shù)閾值,則標記該屬性為查詢接口區(qū)域,否則 檢測下一個屬性;3-4)重復步驟3- 、3-3),完成定位查詢接口所包含的屬性。
全文摘要
本發(fā)明涉及基于表單特征的松弛搜索與優(yōu)化排序方法,首先利用表單信息收集器獲取大量相關的查詢表單信息;構建與每個屬性排名相關的三元組信息;根據模式匹配的相關方法,將屬性名不同但語義相同的屬性映射到同一屬性上;過濾掉只在某個特定數(shù)據源出現(xiàn)的屬性;再利用提出的公式計算每個屬性的綜合排名;根據所有屬性的綜合排名進行重新排序;對松弛結果信息排名進行過濾。對排序過濾方法的改進,能夠只對影響相似性的屬性進行距離值的計算,提高了對松弛結果排名處理的效率。
文檔編號G06F17/30GK102043866SQ20111002599
公開日2011年5月4日 申請日期2011年1月25日 優(yōu)先權日2011年1月25日
發(fā)明者孫涌, 崔志明, 張書奎, 趙朋朋, 陳明 申請人:蘇州普達新信息技術有限公司