一種針對(duì)證券行業(yè)的實(shí)時(shí)垂直搜索引擎的搜索方法
【專利摘要】本發(fā)明涉及一種針對(duì)證券行業(yè)的實(shí)時(shí)垂直搜索引擎的搜索方法,包括有:首先服務(wù)器高頻定向抓取新聞網(wǎng)頁,接著對(duì)抓取的新聞網(wǎng)頁的新聞內(nèi)容進(jìn)行格式化處理,然后對(duì)格式化后的新聞內(nèi)容與相關(guān)關(guān)鍵字的相關(guān)性,以及該新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算,最后存入數(shù)據(jù)庫,用戶搜索數(shù)據(jù)時(shí),系統(tǒng)將根據(jù)多項(xiàng)參數(shù)計(jì)算搜索結(jié)果的權(quán)值并排序顯示。這樣,即可實(shí)現(xiàn)搜索引擎信息與信息源頭的被動(dòng)同步,解決了采用傳統(tǒng)搜索方法的通用搜索引擎的時(shí)效性差、信息重復(fù)的問題,且本方法僅針對(duì)互聯(lián)網(wǎng)具有行業(yè)代表性的財(cái)經(jīng)新聞發(fā)布源頭進(jìn)行定向采集,效率高,搜索結(jié)果更及時(shí)、更精準(zhǔn);另外,本發(fā)明結(jié)合輿情分析技術(shù),搜索結(jié)果可采用多種方式排序,顯示效果更具人性化。
【專利說明】一種針對(duì)證券行業(yè)的實(shí)時(shí)垂直搜索引擎的搜索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)搜索引擎【技術(shù)領(lǐng)域】,尤其涉及一種針對(duì)證券行業(yè)的實(shí)時(shí)垂直搜索引擎的搜索方法。
【背景技術(shù)】
[0002]目前,互聯(lián)網(wǎng)上的主流搜索引擎覆蓋率高、數(shù)據(jù)量大,但由于多種技術(shù)原因,對(duì)時(shí)間敏感度極高的證券行業(yè)信息搜索無法具備時(shí)效性、同步性。
[0003]雖然目前也有幾款號(hào)稱面向證券行業(yè)的垂直搜索引擎,但目前這幾款搜索引擎僅僅是某門戶網(wǎng)站的站內(nèi)搜索,遠(yuǎn)沒達(dá)到行業(yè)搜索的條件。而一些財(cái)經(jīng)新聞的聚合網(wǎng)站,又不具備標(biāo)準(zhǔn)的搜索引擎功能。
[0004]證券行業(yè)對(duì)新聞資訊的時(shí)效性要求極高,比如若A網(wǎng)站發(fā)布了一則有關(guān)B上市公司的財(cái)經(jīng)新聞,一般的通用搜索引擎至少要延遲10分鐘甚至數(shù)天,才能把這條新聞索引至搜索結(jié)果,這樣對(duì)想了解B公司最新情況的投資者來說就不具備實(shí)用意義了。
[0005]另一方面,證券行業(yè)對(duì)新聞資訊也有一定的輿情分析需求,由于證券投資行為具有“羊群效應(yīng)”,對(duì)公眾影響力較大、傳播較廣的新聞資訊,往往會(huì)對(duì)相關(guān)投資品種的價(jià)格造成更大的波動(dòng);而傳播范圍小,消息呈中性的新聞資訊,則難以對(duì)相關(guān)投資品種的價(jià)格造成波動(dòng)。
[0006]針對(duì)證券行業(yè)來說,現(xiàn)有的搜索引擎技術(shù)的缺點(diǎn):
一方面是信息索引的滯后嚴(yán)重影響了搜索引擎的實(shí)用性、時(shí)效性;
二是相同的新聞常常會(huì)轉(zhuǎn)發(fā)在多個(gè)網(wǎng)站,但目前的通用搜索引擎技術(shù)未把類似文章過濾,經(jīng)常導(dǎo)致相同的信息被多次索引,并多次顯示內(nèi)容相同、網(wǎng)址不同的搜索結(jié)果,嚴(yán)重影響用戶體驗(yàn);
三是目前搜索引擎技術(shù)的新聞搜索只能根據(jù)時(shí)間或關(guān)鍵詞相關(guān)性排序,未能通過輿情分析技術(shù),為某條新聞資訊設(shè)定一個(gè)影響力的評(píng)估值,從而很可能讓用戶錯(cuò)過一些對(duì)上市公司影響深遠(yuǎn)的新聞消息或公告,或?qū)е掠脩舯淮罅繜o關(guān)緊要的消息影響對(duì)投資品種的調(diào)研和判斷。
【發(fā)明內(nèi)容】
[0007]為解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明結(jié)合網(wǎng)絡(luò)輿情分析技術(shù),提供了一種專門針對(duì)證券行業(yè)的時(shí)效性高、無重復(fù),并可對(duì)抓取新聞網(wǎng)頁內(nèi)容進(jìn)行關(guān)鍵字相關(guān)性和新聞?dòng)绊懥τ?jì)算,且搜索結(jié)果可根據(jù)需要進(jìn)行多種顯示排序方式的實(shí)時(shí)垂直搜索方法。
[0008]為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
一種針對(duì)證券行業(yè)的實(shí)時(shí)垂直搜索引擎的搜索方法,包括有:首先通過服務(wù)器高頻定向抓取新聞網(wǎng)頁,接著對(duì)抓取的新聞網(wǎng)頁內(nèi)容進(jìn)行格式化處理,然后對(duì)格式化后的新聞內(nèi)容與相關(guān)關(guān)鍵字的相關(guān)性和/或該新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算,最后存入數(shù)據(jù)庫,用戶搜索數(shù)據(jù)時(shí),服務(wù)器將根據(jù)多項(xiàng)參數(shù)計(jì)算搜索結(jié)果的權(quán)值并排序顯示。[0009]進(jìn)一步地,本搜索方法包括有以下步驟:
S1.通過服務(wù)器高頻定向抓取新聞網(wǎng)頁的URL;
52.根據(jù)抓取新聞網(wǎng)頁的URL判斷是否已抓取過;
53.對(duì)抓取的新聞網(wǎng)頁的新聞內(nèi)容進(jìn)行格式化處理,將來自各個(gè)網(wǎng)站的新聞內(nèi)容格式化成統(tǒng)一的格式和呈現(xiàn)方式;
54.對(duì)格式化后的新聞內(nèi)容與相關(guān)關(guān)鍵字的相關(guān)性進(jìn)行計(jì)算;
55.對(duì)格式化后的新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算;
56.將有關(guān)新聞內(nèi)容的關(guān)鍵字相關(guān)性數(shù)值、新聞內(nèi)容的影響力數(shù)值存入數(shù)據(jù)庫,用戶搜索數(shù)據(jù)時(shí),查詢服務(wù)器將根據(jù)相關(guān)關(guān)鍵字的相關(guān)性數(shù)值、相關(guān)新聞內(nèi)容的影響力數(shù)值、以及相關(guān)新聞內(nèi)容的發(fā)布時(shí)間計(jì)算搜索結(jié)果的權(quán)值并排序顯示。
[0010]進(jìn)一步地,所述對(duì)格式化后的新聞內(nèi)容與相關(guān)關(guān)鍵字的相關(guān)性進(jìn)行計(jì)算,具體為:首先在格式化后的新聞內(nèi)容中查找事先已設(shè)定好的、證券行業(yè)內(nèi)搜索頻率較高的專有詞匯,若該新聞內(nèi)容有出現(xiàn)這些詞匯,則將這些詞匯作為該新聞內(nèi)容的關(guān)鍵字,并為各個(gè)關(guān)鍵字設(shè)定一個(gè)相關(guān)性初始值,然后分析各個(gè)關(guān)鍵字在該新聞內(nèi)容中出現(xiàn)的位置、形式狀態(tài)、出現(xiàn)次數(shù),根據(jù)預(yù)先設(shè)定好各個(gè)位置、形式狀態(tài)、出現(xiàn)次數(shù)對(duì)應(yīng)的加成值進(jìn)行相應(yīng)加成,計(jì)算出各個(gè)關(guān)鍵字的相關(guān)性基礎(chǔ)值;最后將各個(gè)關(guān)鍵字的相關(guān)性基礎(chǔ)值在所有關(guān)鍵字的相關(guān)性基礎(chǔ)值之和中的占比,得到各個(gè)關(guān)鍵字的相關(guān)性數(shù)值。
[0011]進(jìn)一步地,所述對(duì)格式化后的新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算,具體為:首先根據(jù)定向抓取新聞網(wǎng)頁的網(wǎng)站的周平均訪問流量,預(yù)先設(shè)定好各個(gè)網(wǎng)站對(duì)應(yīng)的影響力基準(zhǔn)數(shù)值,且所抓取新聞網(wǎng)頁的新聞內(nèi)容的`影響力數(shù)值為該網(wǎng)站的影響力基準(zhǔn)數(shù)值,若抓取同一新聞內(nèi)容在多個(gè)網(wǎng)站發(fā)布,則該新聞內(nèi)容的影響力數(shù)值為其在各抓取網(wǎng)站所對(duì)應(yīng)的影響力數(shù)值之和。
[0012]進(jìn)一步地,在所述對(duì)格式化后的新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算過程中,當(dāng)抓取新聞網(wǎng)頁的新聞內(nèi)容的主題是預(yù)先設(shè)定好有加成值的特定主題時(shí),所述抓取新聞網(wǎng)頁的新聞內(nèi)容的影響力數(shù)值為其發(fā)布網(wǎng)站的影響力基準(zhǔn)數(shù)值加成該特定主題對(duì)應(yīng)的加成值。
[0013]進(jìn)一步地,所述通過服務(wù)器高頻定向抓取新聞網(wǎng)頁,具體為:首先設(shè)置包括財(cái)經(jīng)網(wǎng)站、證監(jiān)會(huì)指定的上市公司公告發(fā)布網(wǎng)站、財(cái)經(jīng)報(bào)章雜志媒體網(wǎng)站、證據(jù)研究機(jī)構(gòu)網(wǎng)站在內(nèi)的多個(gè)財(cái)經(jīng)網(wǎng)站作為信息源頭,然后通過服務(wù)器對(duì)這些財(cái)經(jīng)網(wǎng)站進(jìn)行實(shí)時(shí)高頻抓取,以獲得最新發(fā)布的新聞網(wǎng)頁的URL。
[0014]進(jìn)一步地,所述供用戶通過查詢服務(wù)器進(jìn)行搜索、排序顯示,具體為:當(dāng)用戶需要搜索某關(guān)鍵字的新聞時(shí),查詢服務(wù)器將會(huì)從新聞索引數(shù)據(jù)庫中找出相關(guān)新聞作為搜索結(jié)果以時(shí)間排列方式、相關(guān)性-影響力排列方式、或時(shí)間-相關(guān)性-影響力排列方式排序顯示。
[0015]進(jìn)一步地,所述搜索結(jié)果以時(shí)間排列方式、相關(guān)性-影響力排列方式或時(shí)間-相關(guān)性-影響力排列方式中搜索結(jié)果的相關(guān)性-影響力排列方式,具體為:首先于數(shù)據(jù)庫查詢所有包含用戶所搜索的關(guān)鍵字的新聞內(nèi)容,根據(jù)每一篇新聞內(nèi)容與用戶所搜索的關(guān)鍵字的相關(guān)性數(shù)值和該新聞內(nèi)容的影響力數(shù)值相乘,得出搜索結(jié)果中每一新聞內(nèi)容的排名權(quán)重,并設(shè)定一個(gè)相關(guān)性和影響力的閥值,過濾掉相關(guān)性數(shù)值和影響力數(shù)值都較低的搜索結(jié)果,最后按照排名權(quán)重從高至低進(jìn)行排列顯示; 所述時(shí)間-相關(guān)性-影響力排列方式,具體為:把時(shí)間作為一個(gè)具有線性特征的參數(shù)加入到相關(guān)性-影響力搜索結(jié)果的權(quán)重排名計(jì)算中,讓“最近一段時(shí)間內(nèi)”影響力高的新聞排列靠前,即根據(jù)每一新聞內(nèi)容與用戶所搜索的關(guān)鍵字的相關(guān)性數(shù)值和該新聞內(nèi)容的影響力數(shù)值相乘,再乘以每一新聞的發(fā)布時(shí)間對(duì)應(yīng)的加成值,得出搜索結(jié)果中每一新聞內(nèi)容的排名權(quán)重,最后按排名權(quán)重從高至低進(jìn)行排列顯示。
[0016]進(jìn)一步地,在所述根據(jù)抓取新聞網(wǎng)頁的URL判斷是否已抓取后,將新URL保存至待抓取新聞列表數(shù)據(jù)庫,并多線程對(duì)所述新聞網(wǎng)頁的新聞內(nèi)容進(jìn)行抓取。
[0017]進(jìn)一步地,本搜索方法還包括步驟:對(duì)抓取的格式化處理后的新聞內(nèi)容從標(biāo)題、日期、關(guān)鍵字頻率、關(guān)鍵字分布情況、新聞?wù)?、文章字?jǐn)?shù)等多方面特征與數(shù)據(jù)庫中的已有新聞內(nèi)容進(jìn)行對(duì)比,經(jīng)過對(duì)比如果數(shù)據(jù)庫中沒有新聞內(nèi)容與之類似則歸類為“首發(fā)”,將該新聞內(nèi)容及其相關(guān)性數(shù)值和影響力數(shù)值寫入到新聞索引表數(shù)據(jù)庫中;如果發(fā)現(xiàn)本新聞內(nèi)容已經(jīng)存在于數(shù)據(jù)庫或與新聞索引表數(shù)據(jù)庫中某篇新聞內(nèi)容極為相似,則歸類為“轉(zhuǎn)載”,將該新聞內(nèi)容及其相關(guān)性數(shù)值寫入到類似新聞索引表數(shù)據(jù)庫中,同時(shí)將該“轉(zhuǎn)載”的新聞內(nèi)容的影響力數(shù)值疊加到新聞索引表數(shù)據(jù)庫中對(duì)應(yīng)的“首發(fā)”的新聞內(nèi)容的“影響力數(shù)值”字段上。
[0018]本發(fā)明的有益效果是:
本發(fā)明通過上述技術(shù)方案,即可實(shí)現(xiàn)搜索引擎信息與信息源頭的被動(dòng)同步,解決了采用傳統(tǒng)搜索方法的通用搜索引擎的時(shí)效性差、信息重復(fù)的問題,且本方法僅針對(duì)互聯(lián)網(wǎng)中定向的主要財(cái)經(jīng)新聞發(fā)布源頭進(jìn)行定向采集,效率高,搜索結(jié)果更及時(shí)、更精準(zhǔn),另外,本發(fā)明結(jié)合輿情分析技術(shù),可根據(jù)新聞的影響力等多種方式排序,顯示效果更具人性化。
【專利附圖】
【附圖說明】
[0019]圖1是本發(fā)明所述的一種針對(duì)證券行業(yè)的實(shí)時(shí)垂直搜索引擎的搜索方法實(shí)施例一的流程圖;
圖2是本發(fā)明所述的一種針對(duì)證券行業(yè)的實(shí)時(shí)垂直搜索引擎的搜索方法實(shí)施例二的流程圖。
【具體實(shí)施方式】
[0020]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0021]參見圖1,本發(fā)明所述的一種針對(duì)證券行業(yè)的實(shí)時(shí)垂直搜索引擎的搜索方法,包括有:首先通過服務(wù)器高頻定向抓取新聞網(wǎng)頁,接著對(duì)抓取的新聞網(wǎng)頁內(nèi)容進(jìn)行格式化處理,然后對(duì)格式化后的新聞內(nèi)容與相關(guān)關(guān)鍵字的相關(guān)性和/或該新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算,最后存入數(shù)據(jù)庫,用戶搜索數(shù)據(jù)時(shí),服務(wù)器將根據(jù)多項(xiàng)參數(shù)計(jì)算搜索結(jié)果的權(quán)值并排序顯示。
[0022]參見圖2,本發(fā)明實(shí)施例所述的一種針對(duì)證券行業(yè)的實(shí)時(shí)垂直搜索引擎的搜索方法包括有以下步驟:
步驟1.通過服務(wù)器高頻定向抓取新聞網(wǎng)頁的URL;
步驟2.根據(jù)抓取新聞網(wǎng)頁的URL判斷是否已抓取過; 步驟3.對(duì)抓取的新聞網(wǎng)頁的新聞內(nèi)容進(jìn)行格式化處理,將來自各個(gè)網(wǎng)站的新聞內(nèi)容格式化成統(tǒng)一的格式和呈現(xiàn)方式;
步驟4.對(duì)格式化后的新聞內(nèi)容與相關(guān)關(guān)鍵字的相關(guān)性進(jìn)行計(jì)算;
步驟5.對(duì)格式化后的新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算;
步驟6.將有關(guān)新聞內(nèi)容的關(guān)鍵字相關(guān)性數(shù)值、新聞內(nèi)容的影響力數(shù)值存入數(shù)據(jù)庫,用戶搜索數(shù)據(jù)時(shí),查詢服務(wù)器將根據(jù)相關(guān)關(guān)鍵字的相關(guān)性數(shù)值、相關(guān)新聞內(nèi)容的影響力數(shù)值、以及相關(guān)新聞內(nèi)容的發(fā)布時(shí)間計(jì)算搜索結(jié)果的權(quán)值并排序顯示。其中,
所述通過服務(wù)器高頻定向抓取新聞網(wǎng)頁,具體為:首先根據(jù)目前證券行業(yè)的發(fā)展情況,精心挑選設(shè)置多個(gè)相關(guān)財(cái)經(jīng)網(wǎng)站(所取樣本均為國內(nèi)瀏覽量較大并具有行業(yè)代表性的相關(guān)財(cái)經(jīng)網(wǎng)站,這些網(wǎng)站能采集到的新聞樣本已經(jīng)覆蓋了證券行業(yè)99.9%的新聞,并足以分析相關(guān)的輿情狀況。)作為信息源頭,包括財(cái)經(jīng)網(wǎng)站、證監(jiān)會(huì)指定的上市公司公告發(fā)布網(wǎng)站、財(cái)經(jīng)報(bào)章雜志媒體網(wǎng)站、證據(jù)研究機(jī)構(gòu)網(wǎng)站等,然后通過服務(wù)器對(duì)這些網(wǎng)站進(jìn)行實(shí)時(shí)高頻抓取,以獲得最新發(fā)布的新聞網(wǎng)頁的URL。
[0023]在所述根據(jù)抓取新聞網(wǎng)頁的URL判斷是否已抓取后,將新URL保存至待抓取新聞列表數(shù)據(jù)庫,然后服務(wù)器多線程對(duì)所述新聞網(wǎng)頁內(nèi)容進(jìn)行抓取,從HTML格式的網(wǎng)頁中分析并抓取新聞內(nèi)容、發(fā)布時(shí)間、作者、來源等信息,并將數(shù)據(jù)傳送給新聞網(wǎng)頁內(nèi)容處理專用服務(wù)器。
[0024]所述對(duì)格式化后的新聞網(wǎng)頁內(nèi)容與相關(guān)關(guān)鍵字的相關(guān)性進(jìn)行計(jì)算,具體可以為:首先在格式化后的新聞內(nèi)容中查找事先已設(shè)定好的、證券行業(yè)內(nèi)搜索頻率最高的專有詞匯(如股票簡稱、行業(yè)名稱、大宗商品名稱、題材概念名稱等),若該新聞內(nèi)容有出現(xiàn)這些詞匯,則將這些詞匯作為該新聞內(nèi)容的關(guān)鍵字,并為各個(gè)關(guān)鍵字設(shè)定一個(gè)相關(guān)性初始值,然后分析各個(gè)關(guān)鍵字在該新聞內(nèi)容中出現(xiàn)的位置(如:于標(biāo)題出現(xiàn)、于小標(biāo)題出現(xiàn)、于段落頭部出現(xiàn)、于段落尾部出現(xiàn))、形式狀態(tài)(如:字體被加粗、字體標(biāo)有下劃線、分布率均勻,以并列的方式連續(xù)出現(xiàn)多個(gè)關(guān)鍵字)、出現(xiàn)次數(shù),根據(jù)預(yù)先設(shè)定好各個(gè)位置、形式狀態(tài)、出現(xiàn)次數(shù)對(duì)應(yīng)的加成值進(jìn)行相應(yīng)加成,計(jì)算出各個(gè)關(guān)鍵字的相關(guān)性基礎(chǔ)值;最后將各個(gè)關(guān)鍵字的相關(guān)性基礎(chǔ)值在所有關(guān)鍵字的相關(guān)性基礎(chǔ)值之和中的占比,得到各個(gè)關(guān)鍵字的相關(guān)性數(shù)值。
[0025]例如:一篇新聞網(wǎng)頁內(nèi)容有三個(gè)關(guān)鍵字A、B、C,先設(shè)定關(guān)鍵字相關(guān)性的初始值為1,每符合一次判斷條件就乘一個(gè)加成,當(dāng)關(guān)鍵字在文中出現(xiàn)的加成為* 1.1,關(guān)鍵字在標(biāo)題出現(xiàn)的加成為*1.8,關(guān)鍵字以并列方式連續(xù)出現(xiàn)的關(guān)鍵字加成為*0.6等等,經(jīng)過一輪計(jì)算后得出A、B、C三個(gè)關(guān)鍵字的相關(guān)性基礎(chǔ)值,分別為1.7、1.9、6.6,則一篇新聞網(wǎng)頁內(nèi)容的關(guān)鍵字基礎(chǔ)值之和為1.7+1.9+6.6=10.2,其中,關(guān)鍵字A的相關(guān)性為1.7/10.2=16.6%, B為1.9/10.2=18.6%,C為6.6/10.2=64.7%,由此可以得出結(jié)論該新聞內(nèi)容與關(guān)鍵字C最為相關(guān),該新聞內(nèi)容提及到關(guān)鍵字A和B。
[0026]所述對(duì)格式化后的新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算,具體可以為:首先根據(jù)定向抓取新聞網(wǎng)頁的網(wǎng)站的周平均訪問流量(網(wǎng)站的周平均訪問流量的評(píng)估基于國際權(quán)威的ALEXA數(shù)據(jù)),預(yù)先設(shè)定好各個(gè)網(wǎng)站對(duì)應(yīng)的影響力基準(zhǔn)數(shù)值,且所抓取新聞網(wǎng)頁的新聞內(nèi)容的影響力數(shù)值為該網(wǎng)站的影響力基準(zhǔn)數(shù)值,若抓取同一新聞內(nèi)容在多個(gè)網(wǎng)站發(fā)布,則該新聞內(nèi)容的影響力數(shù)值為其在各抓取網(wǎng)站所對(duì)應(yīng)的影響力數(shù)值之和;而且在對(duì)格式化后的新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算過程中,當(dāng)抓取新聞網(wǎng)頁的新聞內(nèi)容的主題是預(yù)先設(shè)定好有加成值的特定主題時(shí),所述抓取新聞網(wǎng)頁的新聞內(nèi)容的影響力數(shù)值為其發(fā)布網(wǎng)站的影響力基準(zhǔn)數(shù)值加成該特定主題對(duì)應(yīng)的加成值。
[0027]例如:影響力基準(zhǔn)數(shù)值為100的A網(wǎng)站首發(fā)了一篇新聞X,一分鐘后影響力基準(zhǔn)數(shù)值為200的B網(wǎng)站轉(zhuǎn)載了一篇相同的新聞X,則此時(shí)新聞X的影響力數(shù)值為100+200=300,一天后影響力基準(zhǔn)數(shù)值為50的C網(wǎng)站轉(zhuǎn)載了一篇相同的新聞X,則此時(shí)新聞X的影響力數(shù)值為 100+200+50=350。
[0028]本搜索方法還包括步驟:對(duì)抓取的格式化處理后新聞內(nèi)容從其形成的標(biāo)題、日期、關(guān)鍵字頻率、關(guān)鍵字分布情況、新聞?wù)⑽恼伦謹(jǐn)?shù)等半結(jié)構(gòu)化數(shù)據(jù)的多方面特征與數(shù)據(jù)庫中的已有新聞內(nèi)容進(jìn)行對(duì)比,經(jīng)過對(duì)比如果數(shù)據(jù)庫中沒有新聞內(nèi)容與之類似則歸類為“首發(fā)”,將該新聞內(nèi)容及其相關(guān)性數(shù)值和影響力數(shù)值寫入到新聞索引表數(shù)據(jù)庫中;如果發(fā)現(xiàn)本新聞內(nèi)容已經(jīng)存在于數(shù)據(jù)庫或與新聞索引表數(shù)據(jù)庫中某篇新聞內(nèi)容極為相似,則歸類為“轉(zhuǎn)載”,將該新聞內(nèi)容及其相關(guān)性數(shù)值寫入到類似新聞索引表數(shù)據(jù)庫中,同時(shí)將該“轉(zhuǎn)載”的新聞內(nèi)容的影響力數(shù)值疊加到新聞索引表數(shù)據(jù)庫中對(duì)應(yīng)的“首發(fā)”的新聞內(nèi)容的“影響力數(shù)值”字段上。
[0029]所述供用戶通過查詢服務(wù)器進(jìn)行搜索、排序顯示,具體可以為:用戶需要搜索某關(guān)鍵字的新聞時(shí),查詢服務(wù)器將會(huì)從新聞索引數(shù)據(jù)庫中找出相關(guān)新聞作為搜索結(jié)果以時(shí)間排列方式、相關(guān)性-影響力排列方式或時(shí)間-相關(guān)性-影響力排列方式排序顯示;其中,所述搜索結(jié)果以時(shí)間排列方式、相關(guān)性-影響力排列方式或時(shí)間-相關(guān)性-影響力排列方式排序顯示中的相關(guān)性-影響力排列方式,具體可以為:首先于數(shù)據(jù)庫查詢所有包含用戶所搜索的關(guān)鍵字的新聞內(nèi)容,根據(jù)每一新聞內(nèi)容與用戶所搜索的關(guān)鍵字的相關(guān)性數(shù)值和該新聞內(nèi)容的影響力數(shù)值相乘,得出搜索結(jié)果中每一新聞內(nèi)容的排名權(quán)重,并設(shè)定一個(gè)相關(guān)性數(shù)值和影響力數(shù)值的閥值,過濾掉相關(guān)性和影響力都較低的搜索結(jié)果,最后按照排名權(quán)重從高至低進(jìn)行排列顯示;所述時(shí)間-相關(guān)性-影響力排列方式,具體可以為:把時(shí)間作為一個(gè)具有線性特征的參數(shù)加入到相關(guān)性-影響力搜索結(jié)果的權(quán)重排名計(jì)算中,讓“最近一段時(shí)間內(nèi)”影響力高的新聞排列靠前,即根據(jù)每一新聞內(nèi)容與用戶所搜索的關(guān)鍵字的相關(guān)性數(shù)值和該新聞內(nèi)容的影響力數(shù)值相乘,再乘以每一新聞最近發(fā)布時(shí)間對(duì)應(yīng)的加成值,得出搜索結(jié)果中每一新聞內(nèi)容的排名權(quán)重,最后按排名權(quán)重從高至低進(jìn)行排列顯示;例如:假如I分鐘前發(fā)布的一篇A新聞的相關(guān)性數(shù)值為0.5,影響力數(shù)值為100,時(shí)間影響系數(shù)(I分鐘)為1,則此時(shí)排名權(quán)重為0.5*100*1=50 ;—天前的一篇B新聞相關(guān)性數(shù)值為1,影響力數(shù)值為1000,時(shí)間影響系數(shù)(24小時(shí))為0.5,則個(gè)結(jié)果的排名權(quán)重為1*1000*0.5=500 ;新聞B將會(huì)排在A前面。
[0030]這樣,通過本發(fā)明所述的實(shí)時(shí)垂直搜索方法即可實(shí)現(xiàn)搜索引擎信息與信息源頭的被動(dòng)同步,解決了采用傳統(tǒng)搜索方法的通用搜索引擎的時(shí)效性差、信息重復(fù)的問題,且僅針對(duì)互聯(lián)網(wǎng)中定向的主要財(cái)經(jīng)新聞發(fā)布源頭進(jìn)行定向采集,效率高,搜索結(jié)果更及時(shí)、更精準(zhǔn);另外,本發(fā)明結(jié)合輿情分析技術(shù),可根據(jù)新聞的影響力等多種方式排序,顯示效果更具人性化。
[0031]以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也視為本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.一種針對(duì)證券行業(yè)的實(shí)時(shí)垂直搜索引擎的搜索方法,其特征在于,包括有:首先通過服務(wù)器高頻定向抓取新聞網(wǎng)頁,接著對(duì)抓取的新聞網(wǎng)頁的新聞內(nèi)容進(jìn)行格式化處理,然后對(duì)格式化后的新聞內(nèi)容與相關(guān)關(guān)鍵字的相關(guān)性和/或該新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算,最后存入數(shù)據(jù)庫,用戶搜索數(shù)據(jù)時(shí),服務(wù)器將根據(jù)多項(xiàng)參數(shù)計(jì)算搜索結(jié)果的權(quán)值并排序顯示。
2.根據(jù)權(quán)利要求1所述的實(shí)時(shí)垂直搜索引擎的搜索方法,其特征在于,本搜索方法包括有以下步驟: 51.通過服務(wù)器高頻定向抓取新聞網(wǎng)頁的URL; 52.根據(jù)抓取新聞網(wǎng)頁的URL判斷是否已抓取過; 53.對(duì)抓取的新聞網(wǎng)頁的新聞內(nèi)容進(jìn)行格式化處理,將來自各個(gè)網(wǎng)站的新聞內(nèi)容格式化成統(tǒng)一的格式和呈現(xiàn)方式; 54.對(duì)格式化后的新聞內(nèi)容與相關(guān)關(guān)鍵字的相關(guān)性進(jìn)行計(jì)算; 55.對(duì)格式化后的新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算; 56.將有關(guān)新聞內(nèi)容的關(guān)鍵字相關(guān)性數(shù)值、新聞內(nèi)容的影響力數(shù)值存入數(shù)據(jù)庫,用戶搜索數(shù)據(jù)時(shí),查詢服務(wù)器將根據(jù)相關(guān)關(guān)鍵字的相關(guān)性數(shù)值、相關(guān)新聞內(nèi)容的影響力數(shù)值、以及相關(guān)新聞內(nèi)容的發(fā)布時(shí)間計(jì)算搜索結(jié)果的權(quán)值并排序顯示。
3.根據(jù)權(quán)利要求2所述的實(shí)時(shí)垂直搜索引擎的搜索方法,其特征在于,所述對(duì)格式化后的新聞內(nèi)容與相關(guān)關(guān)鍵字的相關(guān)性進(jìn)行計(jì)算,具體為:首先在格式化后的新聞內(nèi)容中查找事先已設(shè)定好的、證券行業(yè)內(nèi)搜索頻率較高的專有詞匯,若該新聞內(nèi)容有出現(xiàn)這些詞匯,則將這些詞匯作為該新聞內(nèi)容的關(guān)鍵字,并為各個(gè)關(guān)鍵字設(shè)定一個(gè)相關(guān)性初始值然后分析各個(gè)關(guān)鍵字在該新聞內(nèi)容中出 現(xiàn)的位置、形式狀態(tài)、出現(xiàn)次數(shù),根據(jù)預(yù)先設(shè)定好各個(gè)位置、形式狀態(tài)、出現(xiàn)次數(shù)對(duì)應(yīng)的加成值進(jìn)行相應(yīng)加成,計(jì)算出各個(gè)關(guān)鍵字的相關(guān)性基礎(chǔ)值;最后將各個(gè)關(guān)鍵字的相關(guān)性基礎(chǔ)值在所有關(guān)鍵字的相關(guān)性基礎(chǔ)值之和中的占比,得到各個(gè)關(guān)鍵字的相關(guān)性數(shù)值。
4.根據(jù)權(quán)利要求3所述的實(shí)時(shí)垂直搜索引擎的搜索方法,其特征在于,所述對(duì)格式化后的新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算,具體為:首先根據(jù)定向抓取新聞網(wǎng)頁的網(wǎng)站的周平均訪問流量,預(yù)先設(shè)定好各個(gè)網(wǎng)站對(duì)應(yīng)的影響力基準(zhǔn)數(shù)值,且所抓取新聞網(wǎng)頁的新聞內(nèi)容的影響力數(shù)值為該網(wǎng)站的影響力基準(zhǔn)數(shù)值,若抓取同一新聞內(nèi)容在多個(gè)網(wǎng)站發(fā)布,則該新聞內(nèi)容的影響力數(shù)值為其在各抓取網(wǎng)站所對(duì)應(yīng)的影響力數(shù)值之和。
5.根據(jù)權(quán)利要求4所述的實(shí)時(shí)垂直搜索引擎的搜索方法,其特征在于,在所述對(duì)格式化后的新聞內(nèi)容對(duì)公眾的影響力進(jìn)行評(píng)估計(jì)算過程中,當(dāng)抓取新聞網(wǎng)頁的新聞內(nèi)容的主題是預(yù)先設(shè)定好有加成值的特定主題時(shí),所述抓取新聞網(wǎng)頁的新聞內(nèi)容的影響力數(shù)值為其發(fā)布網(wǎng)站的影響力基準(zhǔn)數(shù)值加成該特定主題對(duì)應(yīng)的加成值。
6.根據(jù)權(quán)利要求5所述的實(shí)時(shí)垂直搜索引擎的搜索方法,其特征在于,所述通過服務(wù)器高頻定向抓取新聞網(wǎng)頁,具體為:首先設(shè)置包括財(cái)經(jīng)網(wǎng)站、證監(jiān)會(huì)指定的上市公司公告發(fā)布網(wǎng)站、財(cái)經(jīng)報(bào)章雜志媒體網(wǎng)站、證據(jù)研究機(jī)構(gòu)網(wǎng)站在內(nèi)的多個(gè)財(cái)經(jīng)網(wǎng)站作為信息源頭,然后通過服務(wù)器對(duì)這些財(cái)經(jīng)網(wǎng)站進(jìn)行實(shí)時(shí)高頻抓取,以獲得最新發(fā)布的新聞網(wǎng)頁的URL。
7.根據(jù)權(quán)利要求6所述的實(shí)時(shí)垂直搜索引擎的搜索方法,其特征在于,所述用戶搜索數(shù)據(jù)時(shí),查詢服務(wù)器將根據(jù)相關(guān)關(guān)鍵字的相關(guān)性數(shù)值、相關(guān)新聞內(nèi)容的影響力數(shù)值、以及相關(guān)新聞內(nèi)容的發(fā)布時(shí)間計(jì)算搜索結(jié)果的權(quán)值并排序顯示,具體為:當(dāng)用戶需要搜索某關(guān)鍵字的新聞時(shí),系統(tǒng)將會(huì)從新聞索引數(shù)據(jù)庫中計(jì)算相關(guān)新聞的權(quán)值,作為搜索結(jié)果以時(shí)間排列方式、相關(guān)性-影響力排列方式、或時(shí)間-相關(guān)性-影響力排列方式排序顯示。
8.根據(jù)權(quán)利要求7所述的實(shí)時(shí)垂直搜索引擎的搜索方法,其特征在于,所述搜索結(jié)果以時(shí)間排列方式、相關(guān)性-影響力排列方式或時(shí)間-相關(guān)性-影響力排列方式中搜索結(jié)果的相關(guān)性-影響力排列方式,具體為:首先于數(shù)據(jù)庫查詢所有包含用戶所搜索的關(guān)鍵字的新聞內(nèi)容,根據(jù)每一篇新聞內(nèi)容與用戶所搜索的關(guān)鍵字的相關(guān)性數(shù)值和該新聞內(nèi)容的影響力數(shù)值相乘,得出搜索結(jié)果中每一新聞內(nèi)容的排名權(quán)重,并設(shè)定一個(gè)相關(guān)性和影響力的閥值,過濾掉相關(guān)性數(shù)值和影響力數(shù)值都較低的搜索結(jié)果,最后按照排名權(quán)重從高至低進(jìn)行排列顯示; 所述時(shí)間-相關(guān)性-影響力排列方式,具體為:把時(shí)間作為一個(gè)具有線性特征的參數(shù)加入到相關(guān)性-影響力搜索結(jié)果的權(quán)重排名計(jì)算中,讓“最近一段時(shí)間內(nèi)”影響力高的新聞排列靠前,即根據(jù)每一新聞內(nèi)容與用戶所搜索的關(guān)鍵字的相關(guān)性數(shù)值和該新聞內(nèi)容的影響力數(shù)值相乘,再乘以每一新聞迪發(fā)布時(shí)間對(duì)應(yīng)的加成值,得出搜索結(jié)果中每一新聞內(nèi)容的排名權(quán)重,最后按排名權(quán)重從高至低進(jìn)行排列顯示。
9.根據(jù)權(quán)利要求2至8任何一項(xiàng)所述的實(shí)時(shí)垂直搜索引擎的搜索方法,其特征在于,在所述根據(jù)抓取新聞網(wǎng)頁的URL判斷是否已抓取后,將新URL保存至待抓取新聞列表數(shù)據(jù)庫,并多線程對(duì)所述新聞網(wǎng)頁的新聞內(nèi)容進(jìn)行抓取。
10.根據(jù)權(quán)利要求2至8任何一項(xiàng)所述的實(shí)時(shí)垂直搜索引擎的搜索方法,其特征在于,本搜索方法還包括步驟:對(duì)抓取的格式化處理后的新聞內(nèi)容從標(biāo)題、日期、關(guān)鍵字頻率、關(guān)鍵字分布情況、新聞?wù)?、文章字?jǐn)?shù)等多方面特征與數(shù)據(jù)庫中的已有新聞內(nèi)容進(jìn)行對(duì)比,經(jīng)過對(duì)比如果數(shù)據(jù)庫中沒有新聞內(nèi)容與之類似則歸類為“首發(fā)”,將該新聞內(nèi)容及其相關(guān)性數(shù)值和影響力數(shù)值寫入到新聞索引表數(shù)據(jù)庫中;如果發(fā)現(xiàn)本新聞內(nèi)容已經(jīng)存在于數(shù)據(jù)庫或與新聞索引表數(shù)據(jù)庫中某篇新聞內(nèi)容極為相似,則歸類為“轉(zhuǎn)載”,將該新聞內(nèi)容及其相關(guān)性數(shù)值寫入到類似新聞索引表`數(shù)據(jù)庫中,同時(shí)將該“轉(zhuǎn)載”的新聞內(nèi)容的影響力數(shù)值疊加到新聞索引表數(shù)據(jù)庫中對(duì)應(yīng)的“首發(fā)”的新聞內(nèi)容的“影響力數(shù)值”字段上。
【文檔編號(hào)】G06F17/30GK103793418SQ201210426552
【公開日】2014年5月14日 申請(qǐng)日期:2012年10月31日 優(yōu)先權(quán)日:2012年10月31日
【發(fā)明者】黃拓 申請(qǐng)人:珠海富訊網(wǎng)絡(luò)科技有限公司