專利名稱:互聯(lián)網人物信息的搜索方法及系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及互聯(lián)網信息檢索領域,特別地,涉及ー種互聯(lián)網人物信息的捜索方法及系統(tǒng)。
背景技術:
隨著互聯(lián)網的高速發(fā)展和Web技術的不斷改進,網絡應用及信息傳播途徑日益多樣化和便利,任何一個可以接觸互聯(lián)網的人都能夠成為信息內容的生產者,每天新生成的網頁數(shù)量不斷上漲,互聯(lián)網已經成為了ー個巨大的可共享的“信息倉庫”。由于網絡的開放性、不確定性、虛擬性和超越時空性等特點,人們在網絡活動中不需要任何信息驗證,完全匿名,往往會在不同的時間地點產生很多不同的虛擬身份。如何在浩如煙海的充斥著大量的廣告、導航及版本聲明等信息的網頁中尋找與捜索目標人物有關的、有價值的網頁,從中 提取網絡用戶的身份及活動相關的線索信息,并將人物線索信息進行歸納匯總后得到虛擬人物身份與現(xiàn)實身份的映射關系,方便網絡用戶相互間的聯(lián)系、溝通和發(fā)現(xiàn),成為擺在人們面前的ー個需要解決的重要問題。目前,互聯(lián)網信息檢索的主要方法是通過搜索引擎技術進行初歩信息檢索,結合web信息抽取技術進行特定信息的提取后生成固定格式的檢索結果,其最終仍需要用戶來人工進行最終的確認和分析。公共搜索引擎因其普適性,和查全率真等因素的影響,對于專門的人物檢索需求效果并不理想,因此需要專門的應用系統(tǒng)來解決目前人物捜索面臨的難題。人物捜索系統(tǒng)就是解決互聯(lián)網人物捜索難題的專用搜索系統(tǒng),通過人物捜索系統(tǒng)可以獲得待捜索人物的相關信息,以及與之相關聯(lián)的其它人物的信息及其人物間的相互關系,極大的降低了人工檢索時的耗時,提高檢索效率?,F(xiàn)有的人物捜索系統(tǒng)基本上可以分為三大類通用的知名人物捜索系統(tǒng)、特定網站的專有人物捜索系統(tǒng)、百科式的人物捜索系統(tǒng)?,F(xiàn)有的人物捜索系統(tǒng)基本上以網頁捜索為基礎,結合傳統(tǒng)搜索的信息挖掘技木,將人物之間的關系提取出來,給出與人物有關的包括人物簡介、人物關系等豐富信息,其中,百科式的人物捜索系統(tǒng)主要由用戶手工編輯相關人物信息。雖然現(xiàn)有的人物捜索系統(tǒng)都表現(xiàn)出一定的實用價值,但是其應用的局限性也相當明顯。對于非知名的普通現(xiàn)實人物和網絡虛擬人物、只有網絡呢稱的網絡人物、非特定網站和特定領域的人物等人物信息搜索需求,如果要檢索出目標人物的詳細的網絡身份信息和并與現(xiàn)實人物進行映射,現(xiàn)有的人物捜索系統(tǒng)已經不能很好的滿足應用需求??傊?,需要本領域技術人員迫切解決的ー個技術問題就是如何能夠從海量的互聯(lián)網數(shù)據(jù)中快速有效地搜索出目標人物的信息。
發(fā)明內容
本發(fā)明所要解決的技術問題是提供ー種互聯(lián)網人物信息的捜索方法及系統(tǒng),能夠既節(jié)約用戶的存儲成本,又能快速準確地檢索出目標人物的身份信息。為了解決上述問題,一方面提供了ー種互聯(lián)網人物信息的捜索方法,包括獲取目標人物信息的查詢關鍵詞;將上述查詢關鍵詞處理成元搜索系統(tǒng)所需的搜索請求參數(shù);啟動元捜索系統(tǒng)集成的搜索引擎進行捜索;提取搜索結果集合的摘要線索;下載上述捜索結果集合的相關頁面;提取下載頁面的正文線索;優(yōu)選由上述摘要線索和上述正文線索組成的線索集合;將優(yōu)選線索集合作為下ー輪搜索的入口參數(shù),重復上述步驟,進行迭代搜索、線索收集;對經過多次迭代搜索、優(yōu)選后的線索集合進行關聯(lián)分析,生成虛擬人物的身份信息。優(yōu)選的,上述互聯(lián)網人物信息的捜索方法還包括對搜索結果進行排重和優(yōu)選處理。優(yōu)選的,上述優(yōu)選由上述摘要線索和上述正文線索組成的線索集合的步驟,進ー步為優(yōu)選由上述摘要線索和上述正文線索組成的線索集合以及外部接ロ提供的人物資源線索數(shù)據(jù)庫。
優(yōu)選的,上述對經過多次迭代搜索、優(yōu)選后的線索集合進行關聯(lián)分析,生成虛擬人物的身份信息的步驟,進ー步為
對經過多次迭代搜索、優(yōu)選后的線索集合,結合外部接ロ提供的人物資源庫線索數(shù)據(jù)進行關聯(lián)分析,生成虛擬人物的身份信息。優(yōu)選的,上述搜索結果的記錄格式為Record (RID, title, url, urlID, inTime,docTime, docSummaryノ。另ー方面,本發(fā)明還提供了ー種互聯(lián)網人物信息的捜索系統(tǒng),包括系統(tǒng)參數(shù)配置管理模塊、頁面信息收集模塊、線索搜集模塊、關聯(lián)分析模塊;其中,
上述系統(tǒng)參數(shù)配置管理模塊,用于提供可定制的參數(shù)管理,為其它模塊提供參數(shù)接ロ服務;
上述頁面信息收集模塊具體包括關鍵詞管理単元,用于獲取和管理捜索關鍵詞;關鍵詞處理單元,用于將上述捜索關鍵詞處理成元捜索系統(tǒng)所需的捜索請求參數(shù);搜索單元,用于啟動元捜索系統(tǒng)集成的搜索引擎進行捜索;搜索結果存儲單元,用于存儲捜索結果;上述線索搜集模塊具體包括第一提取單元,用于提取捜索結果集合的摘要線索;頁面下載單元,用于下載上述捜索結果集合的相關頁面;第二提取單元,用于提取下載頁面的正文線索;線索優(yōu)化單元,用于優(yōu)選由上述摘要線索和上述正文線索組成的線索集合;線索存儲單元,用于存儲優(yōu)化線索集合;迭代搜索請求單元,用于將上述優(yōu)化線索集合作為下一輪搜索的入口參數(shù),請求上述頁面信息收集模塊進行迭代搜索;
上述關聯(lián)分析模塊,用于對經過多次迭代搜索、優(yōu)選后的線索集合進行關聯(lián)分析,生成虛擬人物的身份信息。優(yōu)選的,上述互聯(lián)網人物信息的捜索系統(tǒng)還包括插件接ロ模塊,用于為外部資源系統(tǒng)的調用提供接ロ。優(yōu)選的,上述頁面信息收集模塊還包括捜索結果優(yōu)化単元,用于對上述捜索結果進行排重和優(yōu)選處理,得到優(yōu)化的捜索結果。優(yōu)選的,上述線索收集模塊的線索優(yōu)化單元進ー步為用于對上述摘要線索和上述正文線索組成的線索集合以及外部接ロ提供的人物資源線索數(shù)據(jù)庫進行優(yōu)選,得到優(yōu)先線索集合。優(yōu)選的,上述關聯(lián)分析模塊進ー步為用于對經過多次迭代搜索、優(yōu)選后的線索集合,結合外部接ロ提供的人物資源庫線索數(shù)據(jù)進行關聯(lián)分析,生成虛擬人物的身份信息。優(yōu)選的,上述搜索單元獲取的搜索結果的記錄格式為Record (RID, title, url,uriiD, inTime, docTime, docSummary)。優(yōu)選的,上述關聯(lián)分析模塊采用基于FP-Tree (頻繁模式樹)增長算法的關聯(lián)規(guī)則對線索集合進行關聯(lián)分析。與現(xiàn)有技術相比,上述技術方案中的一個技術方案具有以下優(yōu)點
本發(fā)明提供了ー種互聯(lián)網人物捜索方法,利用智能優(yōu)選的迭代搜索技術和可定制關聯(lián)分析技術,通過元搜索系統(tǒng)集成的網絡公用搜索引擎和各類站內搜索引擎進行多重的檢索和分析,并結合各種資源庫進行多維度關聯(lián)分析,最終有效提取線索之間的關系,勾畫出目標人物的多方位信息。在每輪的迭代過程中,可以由用戶進行線索的優(yōu)選和加入有價值的新線索,也可以由系統(tǒng)自動進行迭代,同時可方便地集成外部人物身份數(shù)據(jù)庫和使用系統(tǒng) 建立的線索庫,降低復雜度,提高效率。
圖I是本發(fā)明互聯(lián)網人物信息的捜索方法實施例一的流程 圖2是本發(fā)明互聯(lián)網人物信息的捜索方法實施例ニ的流程 圖3是本發(fā)明互聯(lián)網人物信息的捜索方法實施例三的流程 圖4是本發(fā)明互聯(lián)網人物信息的捜索系統(tǒng)實施例ー的結構框 圖5是本發(fā)明互聯(lián)網人物信息的捜索系統(tǒng)實施例ニ的結構框 圖6是本發(fā)明頁面信息收集模塊實施例ー的結構框 圖7是本發(fā)明頁面信息收集模塊實施例ニ的結構框 圖8是本發(fā)明線索搜集模塊實施例的結構框 圖9是本發(fā)明實施例得到的與首次捜索關鍵詞相關的線索集合。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本發(fā)明作進ー步詳細的說明。參照圖1,示出了本發(fā)明ー種互聯(lián)網人物信息的捜索方法實施例一的流程圖,可以包括以下步驟
步驟11、獲取目標人物信息的查詢關鍵詞;
該步驟11中,初始執(zhí)行捜索任務時,上述查詢關鍵詞可以是由用戶輸入的與目標人物相關的已知信息。對于后續(xù)的迭代捜索,可以將經過ー輪捜索與線索收集得到的優(yōu)選線索集合作為查詢關鍵詞,也可以將經過ー輪捜索和線索收集后得到的優(yōu)選線索集合與外部提供的人物線索相關的資源庫結合的優(yōu)化線索庫作為新一輪迭代捜索的查詢關鍵詞。步驟13、將所述查詢關鍵詞處理成元捜索系統(tǒng)所需的捜索請求參數(shù);
由于元搜索系統(tǒng)采用參數(shù)化配置管理方式集成了各個公共搜索引擎和定制的站內搜索引擎,而不同搜索引擎需要的捜索條件不一樣,所以需將查詢關鍵詞處理成適應各捜索引擎的搜索請求參數(shù)。例如,對用戶的請求進行自然語言處理。具體處理過程可以通過語法分析,結合搜索時間范圍、站內捜索、關鍵詞邏輯等參數(shù),生成各個搜索引擎的搜索請求參數(shù),對搜索弓I擎進行初始化。步驟15、啟動元捜索系統(tǒng)集成的搜索引擎進行捜索;
具體為啟動元捜索系統(tǒng)以系統(tǒng)服務模式運行,進行與上述關鍵詞相關的信息收集,得到搜索結果集合。步驟15的具體實施方式
可以是
啟動各個搜索引擎爬蟲,爬蟲以多線程的方式模擬瀏覽器對搜索引擎進行請求。每個搜索引擎由首頁開始請求,每次請求先判斷請求的當前頁是否超出的分頁總數(shù)。如果當前頁小于分頁總數(shù),則搜索引擎下載當前頁,否則該搜索引擎的搜索任務結束。其中,上述分頁總數(shù)是根據(jù)關鍵詞相關度可以人為設置的經驗值,設置分頁總數(shù)可以避免捜索分頁的過量下載,提聞檢索效率。 各搜索引擎對下載分頁進行解析,提取并格式化捜索結果。其中,捜索結果可以但不限于米用以下記錄格式Record(RID, title,url,urlID, inTime, docTime, docSummary)。其中,RID代表一條搜索結果的記錄編號,Title代表上述搜索結果的標題,url代表搜索結果的統(tǒng)ー資源定位符,urlID代表上述統(tǒng)ー資源定位符的卩隹ー編號,docTime代表文檔的發(fā)布時間,docSummary代表文檔的內容摘要。對搜索引擎下載分頁的解析結果,經過URL排重分析、排除廣告等無關內容等優(yōu)化選擇處理后保存于數(shù)據(jù)庫中。搜索引擎開始進行下一頁的請求。步驟17、提取搜索結果集合的摘要線索;該步驟優(yōu)選采用并行方式對搜索結果集合進行摘要提取,得到摘要線索。步驟19、下載所述捜索結果集合的相關頁面;該步驟可以具體采用并行方式下載捜索結果集合的相關頁面,得到每條搜索結果的全文信息。步驟111、提取下載頁面的正文線索;
具體為從步驟19下載的全文信息中解析出與目標人物身份信息相關的線索,得到正文線索。
具體實施方式
可以是對下載的網頁經過去除Javascript、css、導航、版權、廣告等噪聲處理后,使用語義分析和規(guī)則匹配的技術方法獲取正文線索信息。步驟113、優(yōu)選由所述摘要線索和所述正文線索組成的線索集合;
該步驟113具體為對步驟17得到的摘要線索集合和步驟111提取的正文線索集合綜合得到的線索集合進行權值計算、統(tǒng)計分析、優(yōu)化選擇,得到優(yōu)選線索集合,存入線索庫。步驟115、將優(yōu)選線索集合作為下ー輪搜索的入口參數(shù),重復執(zhí)行步驟11至113,進行迭代捜索;
步驟117、對經過多次迭代搜索、優(yōu)選后的線索集合進行關聯(lián)分析,生成虛擬人物的身份信息。在本發(fā)明互聯(lián)網人物信息的捜索方法實施例一的基礎上,本發(fā)明還提供了另外ー實施例,參照圖2,示出了本發(fā)明ー種互聯(lián)網人物信息的捜索方法實施例ニ的流程圖,在圖I所示實施例一的基礎上,増加了步驟16、對搜索結果進行排重和優(yōu)選處理。其余步驟與實施例一相同或相似,相互參見即可。如果將步驟15得到的捜索結果集合稱為原始捜索結果集合,那么,步驟16具體為對步驟15得到的原始捜索結果進行排重和優(yōu)選處理,得到優(yōu)化搜索結果。
對應的,后續(xù)線索收集步驟17、111、113均是在步驟16得到的優(yōu)化搜索結果的基礎上進行的。本實施例増加的步驟16,可以有效減少后續(xù)線索收集步驟的工作量和復雜度,能夠有效提高系統(tǒng)的工作效率。此外,本發(fā)明還提供了ー種互聯(lián)網人物信息的捜索方法優(yōu)選實施例,參照圖3。圖3示出了本發(fā)明ー種互聯(lián)網人物信息的捜索方法實施例三的流程圖,包括以下步驟
步驟31、獲取目標人物信息的查詢關鍵詞;
步驟33、將所述查詢關鍵詞處理成元捜索系統(tǒng)所需的捜索請求參數(shù);
步驟35、啟動元捜索系統(tǒng)集成的搜索引擎進行捜索;
步驟36、對搜索結果進行排重和優(yōu)選處理。步驟37、提取搜索結果集合的摘要線索;
步驟39、下載所述捜索結果集合的相關頁面;
步驟311、提取下載頁面的正文線索;
上述步驟31至311與上述實施例ニ中的步驟11至111相似,此處不再贅述。步驟313、優(yōu)選由所述摘要線索和所述正文線索組成的線索集合以及外部接ロ提供的人物資源線索數(shù)據(jù)庫,得到優(yōu)選線索集合;
步驟313即對所述摘要線索和所述正文線索組成的線索集合進行優(yōu)選,并結合外部接ロ提供的人物資源線索數(shù)據(jù)庫,得到優(yōu)先線索集合。該優(yōu)選線索集合可以作為下一輪迭代捜索的入口參數(shù)值。步驟313中増加了外部接ロ提供的人物資源線索數(shù)據(jù)庫作為優(yōu)選線索的基礎,方便用戶加入有價值的新線索,使系統(tǒng)進行更全面、更有價值的搜索。步驟315、將優(yōu)選線索集合作為下ー輪搜索的入口參數(shù),重復執(zhí)行步驟31至313,進行迭代捜索、線索收集;
步驟317、對經過多次迭代搜索、優(yōu)選后的線索集合,結合外部接ロ提供的人物資源庫線索數(shù)據(jù)進行關聯(lián)分析,生成虛擬人物的身份信息。本實施例中對經過多次迭代搜索分析、智能優(yōu)化選擇后的所有線索,結合外部接ロ提供的人物線索相關的資源庫進行關聯(lián)分析,生成虛擬人物的身份信息。在每輪的迭代過程中,可以由用戶進行線索的優(yōu)選和加入有價值的新線索,也可以由系統(tǒng)自動進行迭代,同時可方便的集成外部人物身份數(shù)據(jù)庫和使用系統(tǒng)建立的線索庫,降低復雜度,提高效率。在步驟117或317中可以采用基于FP-Tree (頻繁模式樹)增長算法的關聯(lián)規(guī)則對線索集合進行關聯(lián)分析。對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。對應上述各實施例提供的網絡人物信息的捜索方法,本發(fā)明還提供了ー種互聯(lián)網人物信息的捜索系統(tǒng)。下面結合圖Γ7對本發(fā)明互聯(lián)網人物信息的捜索系統(tǒng)實施例進行詳細說明。參照圖4,示出了本發(fā)明互聯(lián)網人物信息的捜索系統(tǒng)實施例ー的結構框圖,包括系統(tǒng)參數(shù)配置管理模塊41、頁面信息收集模塊42、線索搜集模塊43、關聯(lián)分析模塊44。
其中,系統(tǒng)參數(shù)配置管理模塊41,用于提供可定制的參數(shù)管理,為其它模塊提供參數(shù)接ロ服務。頁面信息收集模塊42,主要用于關鍵詞搜索。參照圖6所示的頁面信息收集模塊實施例的結構框圖,具體包括
關鍵詞管理単元61,用于獲取和管理搜索關鍵詞。關鍵詞處理單元63,用于將關鍵詞管理単元61獲取的捜索關鍵詞處理成元捜索系統(tǒng)所需的捜索請求參數(shù)。搜索單元65,用于啟動元捜索系統(tǒng)集成的搜索引擎進行捜索,得到捜索結果。其中,搜索單元65獲取的捜索結果可以但不限于采用以下記錄格式ReCOrd(RID, title,url, urlID,inTime,docTime, docSummary)。 搜索結果存儲單元67,用于存儲搜索結果。參照圖7所示的頁面信息收集模塊實施例ニ的結構框圖。優(yōu)選的,頁面信息收集模塊42還可以包括
捜索結果優(yōu)化単元66,用于對搜索単元65獲得的捜索結果進行排重和優(yōu)選處理,得到優(yōu)化的捜索結果。線索搜集模塊43,主要用于從頁面信息收集模塊42獲得的捜索結果中進行線索捜索。參見圖8所示的線索搜集模塊實施例的結構框圖,具體包括
第一提取單元71,用于提取捜索結果集合的摘要線索;
頁面下載單元72,用于下載捜索結果集合的相關頁面;
第二提取單元73,用于提取下載頁面的正文線索;
線索優(yōu)化単元74,用于優(yōu)選由所述摘要線索和所述正文線索組成的線索集合;
優(yōu)選的,線索優(yōu)化単元74進ー步為用于對摘要線索和正文線索組成的線索集合以及外部接ロ提供的人物資源線索數(shù)據(jù)庫進行優(yōu)選,得到優(yōu)先線索集合。線索存儲單元75,用于存儲優(yōu)化線索集合;
迭代搜索請求單元76,用于將優(yōu)化線索集合作為下ー輪搜索的入口參數(shù),請求頁面信息收集模塊42進行迭代捜索。在本發(fā)明實施例提供的互聯(lián)網人物信息的搜索系統(tǒng)中,線索是ー個核心概念,正是通過人物線索之間的相互聯(lián)系勾畫出一個虛擬人物的多方位身份信息。人物線索特指電話號碼、QQ號碼、電子郵箱、網絡賬號等可識別虛擬人物身份的關鍵屬性及URL (Uniform /Universal Resource Locator, URL,同一資源定位符,也稱網頁地址)、時間、地址等輔助定位用的屬性。比如2011年10月10號mop論壇ID為“瘋狂的石頭”的用戶發(fā)表的ー個帖子中提到自己的QQ號碼是860**322,這就是“瘋狂的石頭”這個虛擬人物的ー個線索。在系統(tǒng)中人物線索以結構化的形式表示并存儲在數(shù)據(jù)庫表中。關聯(lián)分析模塊44,用于對經過多次迭代搜索、優(yōu)選后的線索集合進行關聯(lián)分析,生成虛擬人物的身份信息。在本發(fā)明互聯(lián)網人物信息的捜索系統(tǒng)優(yōu)選實施例中,關聯(lián)分析模塊44進ー步用于對經過多次迭代搜索、優(yōu)選后的線索集合結合外部接ロ提供的人物線索合進行關聯(lián)分析,生成虛擬人物的身份信息。在本發(fā)明實施例中,關聯(lián)分析模塊44可以但不限于采用基于FP-Tree (頻繁模式樹)增長算法的關聯(lián)規(guī)則對線索集合進行關聯(lián)分析。圖5示出了本發(fā)明互聯(lián)網人物信息的捜索系統(tǒng)實施例ニ的結構框圖,在圖4所示互聯(lián)網人物信息的搜索系統(tǒng)實施例一的基礎上,還包括
插件接ロ模塊45,用于為外部資源系統(tǒng)的調用提供接ロ。本發(fā)明提供的互聯(lián)網人物信息的捜索系統(tǒng)實施例中,線索搜集模塊43的關鍵技術在于線索的抽取、優(yōu)化與多輪迭代捜索。技術人員在長期的人工排查過程中,通過模擬人的行為模式,發(fā)現(xiàn)有些線索呈現(xiàn)的形式是有規(guī)律、可復制、可直接利用的。例如郵箱,此類信息呈現(xiàn)形式有關聯(lián)能直接利用。有些個人從實戰(zhàn)當中發(fā)現(xiàn)的ー些固定的檢索技巧等,系統(tǒng)通過可定制的關聯(lián)策略,跟線索關聯(lián)識別技術合井。更好的把個人實戰(zhàn)當中得到的檢索技巧合成到系統(tǒng)中,讓識別更貼近實際所需線索。 系統(tǒng)中線索抽取采用基于預定義抽取規(guī)則模式的Web包裝器技術實現(xiàn),通過解析規(guī)則配置文件來完成線索定位與線索提取,即線索識別可定制,同時總結出ー些可以通過程序實現(xiàn)的優(yōu)選技木基本統(tǒng)計模式排除廣告版權等無關內容自動抽取網頁正文,進行上下文關聯(lián)分析,相似線索統(tǒng)計等為線索設定優(yōu)先級,根據(jù)優(yōu)先級選出最好的線索集。由關鍵詞捜索、收集線索是個呈現(xiàn)無限擴展的趨勢,可以從一條線索無限擴展出無數(shù)不同的線索線路,本發(fā)明提供的互網絡人物信息的捜索系統(tǒng)經過多輪的迭代捜索和線索收集后,會形成如圖9所示的與首次搜索關鍵詞相關的線索集合。由圖9可以看出,線索集合是ー個帶環(huán)的有向圖,盡管已經進行了線索優(yōu)化選擇,集合中仍然可能存著與虛擬人物真實身份信息無關的線索或者過期的線索,此時需要系統(tǒng)通過關聯(lián)分析模塊完成對迭代捜索線索收集之后的線索集合,結合外部人物資源庫線索數(shù)據(jù),采用基于FP-Tree (頻繁模式樹)增長算法的關聯(lián)規(guī)則進行關聯(lián)規(guī)則分析,挖掘出雜亂數(shù)據(jù)中真實有效的線索,形成一個清晰準確的虛擬人物身份。綜上,本發(fā)明互聯(lián)網人物信息的捜索方法和系統(tǒng)實施例使用元捜索技術可以充分利用公共搜索引擎的強大數(shù)據(jù)收集能力,盡可能的擴大有效數(shù)據(jù)來源的覆蓋面,同時降低用戶的存儲成本。迭代技術的應用使用戶即使知道的信息有限也可以進行人物的搜索發(fā)現(xiàn),從中一步步挖掘出有效的數(shù)據(jù)進行下ー步迭代,最終得出準確有效的人物信息。關聯(lián)分析、優(yōu)化技術、可定制線索識別技術可以幫助用戶獲取更加豐富的人物線索信息,同時去除大量的噪聲信息,極大的降低了用戶的使用難度,節(jié)約用戶時間。系統(tǒng)對搜索結果及線索結果進行存儲,通過增量捜索技術使得可以得到最新的新出現(xiàn)的線索信息,同時對過期失效的線索進行處理,得到人物信息的變化狀態(tài),插件式接ロ及參數(shù)化配置管理,使集成外部人物資源庫十分方便,可充分利用現(xiàn)有資源,不僅降低用戶的成本,同時也可以提高系統(tǒng)效率。另外,本系統(tǒng)所需資源較少,可以進行即時搜索獲取人物信息,同時方便外部資源接入,可定制化的線索識別讓用戶的人物信息更豐富多祥化。對于檢索網絡人物的豐富信息,或者捜索現(xiàn)實人物在網絡上的活動情況都有極大的實用性。本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于系統(tǒng)實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
以上對本發(fā)明所提供的ー種互聯(lián)網人物信息的捜索方法以及ー種互聯(lián)網人物信息的捜索系統(tǒng)進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了 闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。
權利要求
1.一種互聯(lián)網人物信息的搜索方法,其特征在于,包括 獲取目標人物彳目息的查詢關鍵詞; 將所述查詢關鍵詞處理成元搜索系統(tǒng)所需的搜索請求參數(shù); 啟動元搜索系統(tǒng)集成的搜索引擎進行搜索; 提取搜索結果集合的摘要線索; 下載所述搜索結果集合的相關頁面; 提取下載頁面的正文線索; 優(yōu)選由所述摘要線索和所述正文線索組成的線索集合; 將優(yōu)選線索集合作為下一輪搜索的入口參數(shù),重復上述步驟,進行迭代搜索、線索收集; 對經過多次迭代搜索、優(yōu)選后的線索集合進行關聯(lián)分析,生成虛擬人物的身份信息。
2.根據(jù)權利要求I所述的互聯(lián)網人物信息的搜索方法,其特征在于,還包括對搜索結果進行排重和優(yōu)選處理。
3.根據(jù)權利要求I所述的互聯(lián)網人物信息的搜索方法,其特征在于,所述優(yōu)選由所述摘要線索和所述正文線索組成的線索集合的步驟,進一步為 優(yōu)選由所述摘要線索和所述正文線索組成的線索集合以及外部接口提供的人物資源線索數(shù)據(jù)庫。
4.根據(jù)權利要求I所述的互聯(lián)網人物信息的搜索方法,其特征在于,所述對經過多次迭代搜索、優(yōu)選后的線索集合進行關聯(lián)分析,生成虛擬人物的身份信息的步驟,進一步為 對經過多次迭代搜索、優(yōu)選后的線索集合,結合外部接口提供的人物資源庫線索數(shù)據(jù)進行關聯(lián)分析,生成虛擬人物的身份信息。
5.根據(jù)權利要求I所述的互聯(lián)網人物信息的搜索方法,其特征在于,所述搜索結果的記錄格式為Record (RID, title, url, urlID, inTime, docTime, docSummary)。
6.一種互聯(lián)網人物信息的搜索系統(tǒng),其特征在于,包括系統(tǒng)參數(shù)配置管理模塊、頁面信息收集模塊、線索搜集模塊、關聯(lián)分析模塊;其中, 所述系統(tǒng)參數(shù)配置管理模塊,用于提供可定制的參數(shù)管理,為其它模塊提供參數(shù)接口服務; 所述頁面信息收集模塊具體包括 關鍵詞管理單元,用于獲取和管理搜索關鍵詞; 關鍵詞處理單元,用于將所述搜索關鍵詞處理成元搜索系統(tǒng)所需的搜索請求參數(shù); 搜索單元,用于啟動元搜索系統(tǒng)集成的搜索引擎進行搜索; 搜索結果存儲單元,用于存儲搜索結果; 所述線索搜集模塊具體包括 第一提取單元,用于提取搜索結果集合的摘要線索; 頁面下載單元,用于下載所述搜索結果集合的相關頁面; 第二提取單元,用于提取下載頁面的正文線索; 線索優(yōu)化單元,用于優(yōu)選由所述摘要線索和所述正文線索組成的線索集合; 線索存儲單元,用于存儲優(yōu)化線索集合; 迭代搜索請求單元,用于將所述優(yōu)化線索集合作為下一輪搜索的入口參數(shù),請求所述頁面信息收集模塊進行迭代搜索; 所述關聯(lián)分析模塊,用于對經過多次迭代搜索、優(yōu)選后的線索集合進行關聯(lián)分析,生成虛擬人物的身份信息。
7.根據(jù)權利要求6所述的互聯(lián)網人物信息的搜索系統(tǒng),其特征在于,還包括 插件接口模塊,用于為外部資源系統(tǒng)的調用提供接口。
8.根據(jù)權利要求6所述的互聯(lián)網人物信息的搜索系統(tǒng),其特征在于,所述頁面信息收集模塊還包括 搜索結果優(yōu)化單元,用于對所述搜索結果進行排重和優(yōu)選處理,得到優(yōu)化的搜索結果。
9.根據(jù)權利要求6所述的互聯(lián)網人物信息的搜索系統(tǒng),其特征在于,所述線索收集模塊的線索優(yōu)化單元進一步為用于對所述摘要線索和所述正文線索組成的線索集合以及外部接口提供的人物資源線索數(shù)據(jù)庫進行優(yōu)選,得到優(yōu)先線索集合。
10.根據(jù)權利要求6所述的互聯(lián)網人物信息的搜索系統(tǒng),其特征在于,所述關聯(lián)分析模塊進一步為用于對經過多次迭代搜索、優(yōu)選后的線索集合,結合外部接口提供的人物資源庫線索數(shù)據(jù)進行關聯(lián)分析,生成虛擬人物的身份信息。
11.根據(jù)權利要求6所述的互聯(lián)網人物信息的搜索系統(tǒng),其特征在于,所述搜索單元獲取的搜索結果的記錄格式為Record (RID, title, url, urlID, inTime, docTime,docSummary)。
12.根據(jù)權利要求6所述的互聯(lián)網人物信息的搜索系統(tǒng),其特征在于,所述關聯(lián)分析模塊采用基于頻繁模式樹增長算法的關聯(lián)規(guī)則對線索集合進行關聯(lián)分析。
全文摘要
本發(fā)明提供了一種互聯(lián)網人物信息的搜索方法及系統(tǒng),其中上述方法包括獲取目標人物信息的查詢關鍵詞;將查詢關鍵詞處理成元搜索系統(tǒng)所需的搜索請求參數(shù);啟動元搜索系統(tǒng)集成的搜索引擎進行搜索;提取搜索結果集合的摘要線索;下載搜索結果集合的相關頁面;提取下載頁面的正文線索;優(yōu)選由摘要線索和正文線索組成的線索集合;將優(yōu)選線索集合作為下一輪搜索的入口參數(shù),重復上述步驟,進行迭代搜索、線索收集;對經過多次迭代搜索、優(yōu)選后的線索集合進行關聯(lián)分析,生成虛擬人物的身份信息。本發(fā)明提供的基于迭代搜索和關聯(lián)分析的互聯(lián)網人物信息搜索方法,能充分利用公共搜索引擎的強大數(shù)據(jù)收集能力,擴大有效數(shù)據(jù)的覆蓋面,得到準確虛擬人物信息。
文檔編號G06F17/30GK102968510SQ20121056006
公開日2013年3月13日 申請日期2012年12月21日 優(yōu)先權日2012年12月21日
發(fā)明者王慧昌, 楊宏輝, 林勝通, 鄭漢軍 申請人:廈門市美亞柏科信息股份有限公司