基于表單特征的松弛搜索與優(yōu)化排序方法

文檔序號：6650708閱讀：324來源：國知局

專利名稱：基于表單特征的松弛搜索與優(yōu)化排序方法
技術領域：
本發(fā)明涉及一種信息檢索的優(yōu)化方法，尤其涉及基于表單特征的松弛搜索與優(yōu)化排序方法。
背景技術：
隨著hternet的不斷發(fā)展，用戶通過網絡去獲取自己所感興趣的信息已經變得越來越平常。而在互聯(lián)網所包含的信息中，相對于靜態(tài)信息而言De印Web中所包含的信息更受用戶的青睞。因為Deep Web中的信息一般存儲在數(shù)據庫中，通常由各個組織不斷的維護和更新，其具有更好的實時性和更高的結構化程度。同時據2000年的研究，De印Web 信息是surface web信息的500倍，google 2007年的估計De印Web包含的數(shù)據源達25， 000,000個；所以De印Web中所包含的信息量也更為豐富。
然而這些De印Web通常只是給用戶提供一個查詢接口，用戶要獲取這些高質量的結構化信息必須通過自己提交查詢詞來獲取。但用戶并不了解數(shù)據庫內數(shù)據之間的關系，而且通常由于輸入條件相互約束、查詢條件過強等原因，往往會導致查詢失敗，即獲取不到查詢結果。通常對于這類問題的解決辦法是對查詢條件進行松弛，即放大搜索，提供給用戶與其輸入的查詢條件最為相近的一些結果供用戶選擇。相對而言，目前對于數(shù)據庫的松弛方法研究的比較多，但針對Deep Web集成領域的松弛方法卻比較少。
在將基于屬性松弛的方法應用于Deep Web集成領域時，由于眾多數(shù)據源的異構性，原有的松弛順序判定方法不能很好的適用。
目前，關于查詢松弛的方法的研究主要集中在數(shù)據庫方面。大致有如下三類1) 通過對屬性匹配進行研究的基礎上對查詢進行泛化，比較有代表性的是feasterland ；2) 基于樣本的查詢松弛，Muslea提出了一種LOQR算法，首先對目標數(shù)據庫進行采樣，然后在樣本中尋找出與失敗查詢最為接近的記錄并與查詢條件求交集，從而得到松弛后的查詢表達式；幻基于減弱屬性的松弛方法，Nambiar等人通過對數(shù)據庫的探測得到一個隨機的樣本，然后利用機器學習的方法來獲取屬性之間的函數(shù)依賴關系，以此來判定屬性的重要程度從而決定屬性松弛的順序，繼而以此順序來松弛查詢條件的屬性。發(fā)明內容
本發(fā)明的目的是克服現(xiàn)有技術存在的不足，提供一種基于表單特征的松弛搜索與優(yōu)化排序方法。
本發(fā)明的目的通過以下技術方案來實現(xiàn)
基于表單特征的松弛搜索與優(yōu)化排序方法，其特征在于包括以下步驟
(1)利用表單收集器收集大量的查詢表單信息，并記錄每個表單的所有與屬性記錄排名相關的三元組信息OI = {DB_ID, Attribute, Order}；
三元組信息OI = {DB_ID, Attribute, Order}；
其中，DB_ID指系統(tǒng)給定的某表單所在數(shù)據源的標識符，用于唯一標識一個查詢接口；Attribute指某一屬性的名字，用于標識某一屬性；Order標名屬性在表單內的排名，即其在位置上的順序；
(2)采用基于模式匹配的方法，將屬性名不同但表達同一語義的屬性映射到同一屬性上；
(3)定位查詢接口所包含的屬性；
(4)計算每個屬性的綜合排名；
4-1)取出步驟(3)定位后的一個屬性，根據其出現(xiàn)次數(shù)AC及對應的排名相關信息，利用下式計算屬性的綜合排名C0，并放入表COS中，
權利要求
1.基于表單特征的松弛搜索與優(yōu)化排序方法，其特征在于包括以下步驟(1)利用表單收集器收集大量的查詢表單信息，并記錄每個表單的所有與屬性記錄排名相關的三元組信息OI = {DB_ID, Attribute, Order}；三元組信息 OI = {DB_ID, Attribute, Order}；其中，DB_ID指系統(tǒng)給定的某表單所在數(shù)據源的標識符，用于唯一標識一個查詢接口； Attribute指某一屬性的名字，用于標識某一屬性；Order標名屬性在表單內的排名，即其在位置上的順序；(2)采用基于模式匹配的方法，將屬性名不同但表達同一語義的屬性映射到同一屬性上；(3)定位查詢接口所包含的屬性；(4)計算每個屬性的綜合排名；4-1)取出步驟(3)定位后的一個屬性，根據其出現(xiàn)次數(shù)AC及對應的排名相關信息，利用下式計算屬性的綜合排名C0，并放入表COS中， count
2.根據權利要求1所述的基于表單特征的松弛搜索與優(yōu)化排序方法，其特征在于所述定位查詢接口所包含的屬性的步驟是 3-1)設定屬性次數(shù)閾值；3-2)在步驟( 獲得的屬性中取出一個屬性并統(tǒng)計其出現(xiàn)的次數(shù)； 3-3)若屬性出現(xiàn)次數(shù)大于設定的屬性次數(shù)閾值，則標記該屬性為查詢接口區(qū)域，否則檢測下一個屬性；3-4)重復步驟3- 、3-3)，完成定位查詢接口所包含的屬性。
全文摘要
本發(fā)明涉及基于表單特征的松弛搜索與優(yōu)化排序方法，首先利用表單信息收集器獲取大量相關的查詢表單信息；構建與每個屬性排名相關的三元組信息；根據模式匹配的相關方法，將屬性名不同但語義相同的屬性映射到同一屬性上；過濾掉只在某個特定數(shù)據源出現(xiàn)的屬性；再利用提出的公式計算每個屬性的綜合排名；根據所有屬性的綜合排名進行重新排序；對松弛結果信息排名進行過濾。對排序過濾方法的改進，能夠只對影響相似性的屬性進行距離值的計算，提高了對松弛結果排名處理的效率。
文檔編號G06F17/30GK102043866SQ20111002599
公開日2011年5月4日申請日期2011年1月25日優(yōu)先權日2011年1月25日
發(fā)明者孫涌, 崔志明, 張書奎, 趙朋朋, 陳明申請人:蘇州普達新信息技術有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：張書奎;崔志明;陳明;趙朋朋;孫涌
技術所有人：蘇州普達新信息技術有限公司
我是此專利的發(fā)明人

上一篇：電磁感應的狀態(tài)識別的信號處理方法
上一篇：壓縮感知框架下的多策略圖像融合方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯(lián)網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯(lián)網安全、大數(shù)據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

按物體的特征排序相關技術

按物體的特征排序ppt相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于表單特征的松弛搜索與優(yōu)化排序方法