專利名稱:用于電信信息臺(tái)的信息采集和搜索系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息采集和查詢系統(tǒng),確切地說(shuō),涉及一種用于 號(hào)碼百亊通業(yè)務(wù)的這類電信信息臺(tái)的信息采集和搜索系統(tǒng)的體系架 構(gòu)。
背景技術(shù):
互聯(lián)網(wǎng)智能信息采集(通常稱之為網(wǎng)絡(luò)爬蟲(chóng))和信息搜索(通常 稱之為搜索引擎)技術(shù)目前僅在互聯(lián)網(wǎng)的搜索服務(wù)中得到了比較好的 應(yīng)用,該技術(shù)主要用來(lái)搜集并保存網(wǎng)頁(yè)內(nèi)容數(shù)據(jù),并對(duì)網(wǎng)頁(yè)一類的非 結(jié)構(gòu)化文本信息進(jìn)行索引和查詢。通過(guò)輸入關(guān)鍵詞等查詢條件,系統(tǒng) 在索引數(shù)據(jù)庫(kù)中查找滿足條件的信息,并按照預(yù)先設(shè)定的規(guī)則進(jìn)行排 序顯示。電信信息臺(tái)的主要業(yè)務(wù)功能是向撥打信息臺(tái)接入號(hào)碼的用戶準(zhǔn)確 提供所需要的信息,因此只有采用具有強(qiáng)大的信息采集和搜索功能的 系統(tǒng)才能滿足其要求。與網(wǎng)頁(yè)搜索不同的是,在業(yè)務(wù)接入方式上,信 息臺(tái)采用單一的接入號(hào)碼,通過(guò)呼叫中心處理用戶的呼入,并在排隊(duì)機(jī)上將呼叫分發(fā)到坐席。在信息索引和查詢上,號(hào)碼百亊通具有大量 的結(jié)構(gòu)化信息(指按照一定格式和要求保存的數(shù)據(jù)),以及相對(duì)少的 非結(jié)構(gòu)化信息(文本數(shù)據(jù)),結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息之間可以通 過(guò)關(guān)鍵詞來(lái)實(shí)現(xiàn)關(guān)聯(lián)。目前移動(dòng)、固定電話已經(jīng)非常普及,因此,通 過(guò)對(duì)現(xiàn)有的號(hào)碼百亊通的業(yè)務(wù)系統(tǒng)進(jìn)行改造,采用更具靈活性和擴(kuò)展 性的體系結(jié)構(gòu)來(lái)建設(shè)新的信息采集和搜索系統(tǒng),可以滿足號(hào)碼百亊通 在信息運(yùn)營(yíng)方面的需求。信息采集和搜索系統(tǒng)是電信信息臺(tái)業(yè)務(wù)支撐系統(tǒng)的一個(gè)重要組成 部分,對(duì)豐富信息臺(tái)的業(yè)務(wù)信息、提高查詢的效率和準(zhǔn)確度、降低查
無(wú)率以及開(kāi)展行業(yè)首查類等新業(yè)務(wù)具有重要作用。因此,電信信息臺(tái) 的信息采集和搜索系統(tǒng)需要具備信息采集、加工、存儲(chǔ)、發(fā)布、索引、 查詢、業(yè)務(wù)規(guī)則管理等必要的功能。要實(shí)現(xiàn)上述功能,系統(tǒng)就必須支 持從各種信息源獲取數(shù)據(jù),支持協(xié)作式的內(nèi)容加工流程定義,需要實(shí) 現(xiàn)對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的聯(lián)合搜索,并且將搜索的結(jié)果按照 業(yè)務(wù)規(guī)則的要求進(jìn)行排序顯示。因此,該軟件系統(tǒng)需要設(shè)計(jì)良好的體 系結(jié)構(gòu),以滿足信息臺(tái)業(yè)務(wù)發(fā)展的需求。 一個(gè)設(shè)計(jì)合理的軟件系統(tǒng)結(jié) 構(gòu),對(duì)整個(gè)系統(tǒng)的實(shí)際運(yùn)行具有重大作用。發(fā)明內(nèi)容本發(fā)明的目的是為號(hào)碼百亊通的語(yǔ)音信息查詢服務(wù)提供一種新穎 的信息采集和信息搜索系統(tǒng),該系統(tǒng)的體系結(jié)構(gòu)和功能劃分比較具體、 合理,易于實(shí)現(xiàn),而且具備比較好的擴(kuò)展性和靈活性。為實(shí)現(xiàn)本發(fā)明的目的,提供了一種用于號(hào)碼百事通業(yè)務(wù)的信息采 集和查詢系統(tǒng)。所述系統(tǒng)至少包括信息采集服務(wù)器、數(shù)據(jù)存儲(chǔ)服務(wù)器 以及信息管理及運(yùn)營(yíng)服務(wù)器,其中,所述信息采集服務(wù)器用于處理各種信息源輸入的信息,并通過(guò)IP網(wǎng)采用TCP協(xié)議與信息管理和運(yùn)營(yíng) 服務(wù)器相連接;所述信息管理和運(yùn)營(yíng)服務(wù)器用于對(duì)信息、關(guān)鍵詞表和 業(yè)務(wù)規(guī)則進(jìn)行管理并提供信息查詢服務(wù),并通過(guò)IP網(wǎng)采用TCP協(xié)議 與數(shù)據(jù)存儲(chǔ)服務(wù)器和信息采集服務(wù)器相連接;所述數(shù)據(jù)存儲(chǔ)服務(wù)器用 于存儲(chǔ)系統(tǒng)的各種數(shù)據(jù);以及所述系統(tǒng)通過(guò)信息采集服務(wù)器、數(shù)據(jù)存 儲(chǔ)服務(wù)器、信息管理和運(yùn)營(yíng)服務(wù)器對(duì)多個(gè)信息源進(jìn)行統(tǒng)一采集和處理、 對(duì)結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息進(jìn)行聯(lián)合搜索,并對(duì)搜索的結(jié)果按照業(yè) 務(wù)規(guī)則進(jìn)行排隊(duì)顯示,以根據(jù)用戶的查詢需求進(jìn)行信息采集和查詢.優(yōu)選地,所述信息采集和查詢系統(tǒng)中的所述信息管理和運(yùn)營(yíng)服務(wù) 器可以和多個(gè)信息采集服務(wù)器連接,并通過(guò)TCP協(xié)議將信息采集的相 關(guān)配置參數(shù)發(fā)給信息采集服務(wù)器;所迷信息采集服務(wù)器還包括互聯(lián) 網(wǎng)信息采集模塊,由信息采集服務(wù)器根據(jù)接收到的參數(shù)進(jìn)行配置,用 于按照所設(shè)定的參數(shù)對(duì)互聯(lián)網(wǎng)上網(wǎng)站的內(nèi)容進(jìn)行抓取并通過(guò)TCP協(xié)議 將數(shù)據(jù)傳送給信息管理和運(yùn)營(yíng)服務(wù)器;綜合業(yè)務(wù)支撐系統(tǒng)IBSS碼號(hào)信 息變更處理模塊,用于處理從IBSS送過(guò)來(lái)的發(fā)生變更的號(hào)碼及單位名 稱、地址等信息,并對(duì)這些信息進(jìn)行格式化處理;表單輸入模塊,用 于處理手工輸入的結(jié)構(gòu)化信息,該模塊可以按照行業(yè)定義輸入的字段, 并對(duì)輸入的內(nèi)容進(jìn)行格式檢查;任務(wù)輸入模塊,輸入信息采集人員的 信息搜集任務(wù)的具體內(nèi)容;以及SP/CP信息輸入接口模塊,用于處理 從SP/CP的系統(tǒng)送過(guò)來(lái)的信息,并將數(shù)據(jù)格式轉(zhuǎn)換為XML格式.其中,所述互聯(lián)網(wǎng)信息采集模塊所運(yùn)行參數(shù)包括統(tǒng)一資源定位 符URL、采集時(shí)間、搜索深度、搜索廣度、網(wǎng)站的登錄參數(shù)、信息分 類關(guān)鍵詞等等;以及所述的互聯(lián)網(wǎng)信息采集模塊還用于實(shí)時(shí)動(dòng)態(tài)搜集 互聯(lián)網(wǎng)上各行業(yè)網(wǎng)站的信息,并通過(guò)其余模塊添加補(bǔ)充信息來(lái)源,對(duì) 原有的碼號(hào)信息進(jìn)行擴(kuò)展,補(bǔ)充相關(guān)的增值信息,建立號(hào)碼百事通業(yè)務(wù)信息數(shù)據(jù)庫(kù)。優(yōu)選地,所述信息采集和查詢系統(tǒng)中的所述數(shù)據(jù)存儲(chǔ)服務(wù)器還包 括業(yè)務(wù)信息數(shù)據(jù)庫(kù),其是標(biāo)準(zhǔn)的關(guān)系型數(shù)據(jù)庫(kù),用于存儲(chǔ)信息臺(tái)業(yè) 務(wù)所需的所有數(shù)據(jù)、關(guān)鍵詞表和業(yè)務(wù)規(guī)則,并實(shí)現(xiàn)相關(guān)的檢索功能; 數(shù)據(jù)轉(zhuǎn)換/同步網(wǎng)關(guān),用于將業(yè)務(wù)信息數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化和非結(jié)構(gòu)化內(nèi) 容數(shù)據(jù)同步復(fù)制到全文索引數(shù)據(jù)庫(kù);以及全文索引數(shù)據(jù)庫(kù),用于對(duì)同 步過(guò)來(lái)的結(jié)構(gòu)化和非結(jié)構(gòu)化內(nèi)容數(shù)據(jù)進(jìn)行全文索引,并提供關(guān)鍵詞檢 索接口。優(yōu)選地,所述信息采集和查詢系統(tǒng)中的所述信息管理和運(yùn)營(yíng)服務(wù) 器還包括信息采編模塊,用于對(duì)信息采集服務(wù)器傳送過(guò)來(lái)的信息進(jìn) 行處理;系統(tǒng)管理模塊,用于設(shè)置系統(tǒng)訪問(wèn)權(quán)限、信息處理流程管理 和信息內(nèi)容的管理;關(guān)鍵詞管理模塊,用于管理關(guān)鍵詞表的內(nèi)容以及 與關(guān)鍵詞相關(guān)的業(yè)務(wù)規(guī)則,實(shí)現(xiàn)關(guān)鍵詞與業(yè)務(wù)規(guī)則的綁定,以及對(duì)關(guān) 鍵詞銷售情況的管理;統(tǒng)計(jì)分析模塊,用于按預(yù)定規(guī)則分別對(duì)綜合信 息數(shù)據(jù)庫(kù)中的信息進(jìn)行統(tǒng)計(jì);用戶查詢歷史模塊,用于顯示某個(gè)用戶最近查詢過(guò)的問(wèn)題,以幫助坐席對(duì)用戶的需求進(jìn)行分析,以及該模塊 還用于所有用戶查詢過(guò)的問(wèn)題進(jìn)行分析,挖掘出用戶的需求和熱門查
詢;以及關(guān)鍵詞檢索模塊,用于根據(jù)關(guān)鍵詞進(jìn)行檢索.其中,所述信息采編模塊引入信息可信度模型,該模型根據(jù)信息 的所屬行業(yè)、發(fā)布時(shí)間、所屬網(wǎng)站的重要程度、網(wǎng)頁(yè)的連接數(shù)量等參 數(shù)評(píng)估該信息的可信程度,并優(yōu)先對(duì)可信程度高的信息進(jìn)行處理。其中,所述信息可信度模型是一個(gè)對(duì)信息的可信度進(jìn)行評(píng)價(jià)的處 理模塊,是信息采編模塊的前置處理模塊,用于對(duì)進(jìn)入信息采編模塊 的信息的可信度進(jìn)行評(píng)價(jià)并打分,以方便信息采編人員對(duì)重要信息進(jìn) 行優(yōu)先處理。優(yōu)選地,所述信息采編模塊對(duì)信息進(jìn)行的處理包括信息自動(dòng)化 智能處理,包括自動(dòng)分類、自動(dòng)排重、字段分析;以及信息的人工處理。其中,所述關(guān)鍵詞檢索模塊還包括第二業(yè)務(wù)信息數(shù)據(jù)庫(kù),對(duì)應(yīng) 于所述系統(tǒng)中的所述業(yè)務(wù)信息數(shù)據(jù)庫(kù),用于存儲(chǔ)和管理各本地網(wǎng)的關(guān) 鍵詞表、業(yè)務(wù)規(guī)則、商家合同(商家ID、關(guān)鍵詞ID、權(quán)值)和用戶查 詢行為記錄;以及全文數(shù)據(jù)庫(kù),對(duì)應(yīng)于所述系統(tǒng)中的所述全文索引數(shù) 據(jù)庫(kù),用于存儲(chǔ)經(jīng)過(guò)審核的各本地網(wǎng)商家信息和互聯(lián)網(wǎng)增值信息。其中,所迷關(guān)鍵詞檢索模塊還包括業(yè)務(wù)規(guī)則引擎模塊,用于將 用戶提交的查詢進(jìn)行標(biāo)準(zhǔn)化分詞處理,并結(jié)合存儲(chǔ)業(yè)務(wù)信息數(shù)據(jù)庫(kù)中 的業(yè)務(wù)規(guī)則生成查詢條件,然后用該查詢條件對(duì)全文數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn) 行搜索;以及檢索排序引擎模塊,用于對(duì)搜索的結(jié)果按照業(yè)務(wù)規(guī)則進(jìn) 行排序顯示。本發(fā)明的優(yōu)點(diǎn)是(l)獨(dú)立于呼叫中心的語(yǔ)音處理設(shè)備,因?yàn)樵?系統(tǒng)實(shí)現(xiàn)的是對(duì)信息內(nèi)容的處理和搜索,而將語(yǔ)音處理的功能留給呼 叫中心平臺(tái)去實(shí)現(xiàn)。因此該系統(tǒng)可以方便地和各種呼叫中心平臺(tái)進(jìn)行 集成使用,適用面廣、通用性強(qiáng)。(2)可以支持多個(gè)信息采集服務(wù)器 和靈活配置在本發(fā)明的信息采集和查詢系統(tǒng)中,每個(gè)信息管理和運(yùn) 營(yíng)服務(wù)器可以支持一個(gè)或多個(gè)信息釆集服務(wù)器,這樣,隨著業(yè)務(wù)發(fā)展 對(duì)信息量需求的增加和對(duì)互聯(lián)網(wǎng)的接入情況,可以靈活進(jìn)行信息采集 服務(wù)器進(jìn)行配置。例如,本發(fā)明可以根據(jù)用戶的需求,隨時(shí)增加(或
去掉)相應(yīng)的信息采集服務(wù)器。(3)良好的可維護(hù)性在本發(fā)明的信 息采集和查詢系統(tǒng)中,若需要修改某類信息處理的流程,只需要修改 這一類信息的處理流程即可,而且這種修改不會(huì)影響其它類別信息的 處理流程。如果需要新增某類信息的處理流程,也可以在系統(tǒng)中通過(guò) 配置就可以完成。(4)信息釆集和搜索性能的可擴(kuò)展性本發(fā)明可以 根據(jù)具體的情況,將信息采集服務(wù)器、數(shù)據(jù)存儲(chǔ)服務(wù)器、信息管理和 運(yùn)營(yíng)服務(wù)器的軟件模塊設(shè)置在不同的計(jì)算上運(yùn)行,以實(shí)現(xiàn)整個(gè)系統(tǒng)處 理容量的可伸縮部署。該系統(tǒng)的實(shí)施對(duì)豐富號(hào)碼百事通信息臺(tái)的信息資源具有重要作 用,同時(shí)可以增強(qiáng)號(hào)碼百事通的信息運(yùn)營(yíng)水平,促進(jìn)號(hào)碼百亊通業(yè)務(wù) 由以號(hào)碼信息為主向號(hào)碼+多媒體資訊服務(wù)轉(zhuǎn)變,為號(hào)碼百亊通業(yè)務(wù) 的發(fā)展提供信息支持。
從下面對(duì)以非限制性例子的方式提供的本發(fā)明優(yōu)選實(shí)施例的描述 以及從附隨附圖中,會(huì)更加清楚本發(fā)明的這些和其他特點(diǎn)、優(yōu)點(diǎn)和有 益效果,其中圖1是根據(jù)本發(fā)明的用于電信信息臺(tái)的信息釆集和搜索系統(tǒng)的組 成結(jié)構(gòu)示意圖;圖2是根據(jù)本發(fā)明的信息搜索及結(jié)果處理模塊組成結(jié)構(gòu)示意困, 是圖1的關(guān)鍵詞檢索模塊的具體實(shí)現(xiàn);圖3是根據(jù)本發(fā)明的用于電信信息臺(tái)的信息釆集和搜索系統(tǒng)的信 息處理總體流程示意圖。
具體實(shí)施方式
以下通過(guò)結(jié)合附圖,對(duì)本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行描述,應(yīng)該理 解,在這里描述的優(yōu)選實(shí)施方式并不是限制性的說(shuō)明,本領(lǐng)域技術(shù)人 員可以根據(jù)本發(fā)明的原理,對(duì)本發(fā)明作出各種修改、改進(jìn)而不會(huì)脫離 隨附權(quán)利要求所限定保護(hù)范圍。本發(fā)明的目的是為號(hào)碼百亊通的語(yǔ)音信息查詢服務(wù)提供一種新潁 的信息釆集和信息搜索系統(tǒng),該系統(tǒng)的體系結(jié)構(gòu)和功能劃分比較具體、 合理,易于實(shí)現(xiàn),而且具備比較好的擴(kuò)展性和靈活性。從技術(shù)上來(lái)講,根據(jù)本發(fā)明的用于諸如號(hào)碼百事通的語(yǔ)音信息查 詢服務(wù)的電信信息臺(tái)的信息采集和搜索系統(tǒng),屬于互聯(lián)網(wǎng)智能信息采集和信息搜索技術(shù)領(lǐng)域,是一種利用智能Web信息釆集服務(wù)器自動(dòng)搜 索互聯(lián)網(wǎng)上信息臺(tái)所需的內(nèi)容,然后通過(guò)信息采編服務(wù)器定義對(duì)內(nèi)容 的處理流程并對(duì)內(nèi)容進(jìn)行加工、管理、存儲(chǔ)、發(fā)布,話務(wù)員利用搜索 引擎查詢撥打信息臺(tái)的用戶所需信息的系統(tǒng)。本發(fā)明在該信息采集和查詢系統(tǒng)結(jié)構(gòu)框架的基礎(chǔ)上,還提供了一 種將結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息進(jìn)行統(tǒng)一存儲(chǔ)和索引的方法。該方法 是通過(guò)將結(jié)構(gòu)化信息放到XML (Extensible Markup Language,可擴(kuò) 展標(biāo)記語(yǔ)言)文件中,與非結(jié)構(gòu)化信息統(tǒng)一存儲(chǔ)在中心信息庫(kù)中,然 后對(duì)這些信息進(jìn)行統(tǒng)一索引生成。下面結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行描述,以具體說(shuō)明本 發(fā)明的實(shí)現(xiàn)方法。參見(jiàn)圖1,其中示出了根據(jù)本發(fā)明的用于電信信息臺(tái)的信息采集 和搜索系統(tǒng)的組成結(jié)構(gòu)示意圖。優(yōu)選地,本發(fā)明是一種應(yīng)用于號(hào)碼百 事通這類電信信息臺(tái)的信息采集和搜索系統(tǒng)。所述系統(tǒng)包括用于處理各種信息源輸入的信息采集服務(wù)器101,該信息采集服 務(wù)器101通過(guò)IP網(wǎng)與信息管理和運(yùn)營(yíng)服務(wù)器103相連接。信息管理和 運(yùn)營(yíng)服務(wù)器103通過(guò)IP (Internet Protocol,網(wǎng)際協(xié)議)網(wǎng)采用TCP (Transfer Control Protocol,傳輸控制協(xié)議)將信息采集的相關(guān)配置 參數(shù)發(fā)給信息采集服務(wù)器101,信息采集服務(wù)器101根據(jù)接收到的參數(shù) 對(duì)互聯(lián)網(wǎng)信息采集模塊1011進(jìn)行參數(shù)配置,互聯(lián)網(wǎng)信息采集模塊1011 按照所設(shè)定的參數(shù)對(duì)互聯(lián)網(wǎng)上網(wǎng)站的內(nèi)容進(jìn)行抓取并通過(guò)TCP協(xié)議將 數(shù)據(jù)傳送給信息管理和運(yùn)營(yíng)服務(wù)器103。所述的互聯(lián)網(wǎng)信息采集模塊 1011用于實(shí)時(shí)動(dòng)態(tài)搜集互聯(lián)網(wǎng)上各行業(yè)網(wǎng)站的信息,并通過(guò)其余模塊 添加補(bǔ)充信息來(lái)源,對(duì)原有的碼號(hào)信息進(jìn)行擴(kuò)展,補(bǔ)充相關(guān)的增值信
息,建立號(hào)碼百事通業(yè)務(wù)信息數(shù)據(jù)庫(kù)。除了互聯(lián)網(wǎng)信息采集模塊1011外,信息采集服務(wù)器101還包括 IBSS (Integrated Business Support System,綜合業(yè)務(wù)支撐系統(tǒng))碼號(hào) 信息變更處理模塊1012、表單輸入模塊1013、任務(wù)輸入模塊1014、 SP/CP ( Service Provider/ Content Provider,服務(wù)提供商/內(nèi)容提供商) 信息輸入接口模塊1015。 IBSS碼號(hào)信息變更處理模塊1012用于處理 從IBSS送過(guò)來(lái)的發(fā)生變更的號(hào)碼及單位名稱、地址等信息,并對(duì)這些 信息進(jìn)行格式化處理。表單輸入模塊1013用于處理手工輸入的結(jié)構(gòu)化 信息,該模塊可以按照行業(yè)定義輸入的字段,并對(duì)輸入的內(nèi)容進(jìn)行格 式檢查。任務(wù)輸入模塊1014用于輸入信息采集人員的信息搜集任務(wù)的 具體內(nèi)容,例如,某某信息采集員的信息收集任務(wù)是在某個(gè)時(shí)間內(nèi)完 成某某社區(qū)的餐飲商家信息調(diào)查。SP/CP信息輸入接口模塊1015用于 處理從SP/CP的系統(tǒng)送過(guò)來(lái)的信息,并將數(shù)據(jù)格式轉(zhuǎn)換為XML格式 (如下所示)。上述模塊將處理結(jié)果通過(guò)TCP協(xié)議將數(shù)據(jù)傳送給信息 管理和運(yùn)營(yíng)服務(wù)器103。上述采用XML格式來(lái)實(shí)現(xiàn)數(shù)據(jù)的封裝并通過(guò)標(biāo)準(zhǔn)的TCP協(xié)議傳 輸,具體如下< xml version="1.0" >〈contentdata version=,'1.0" timestamp='",><structure><imitimmc><namestring></iianiestring> <alias></alias> <level></level> </imitnamc><callnumber> <first></dirst>
<second></secon.d> </callnumber><address></address><linkman></linkman> </ structure ><expand><trade></trade><comment></comment>< general situation ></general situation></ expand > </contentdata>用于對(duì)信息、關(guān)鍵詞表和業(yè)務(wù)規(guī)則進(jìn)行管理并提供信息查詢服務(wù) 的信息管理和運(yùn)營(yíng)服務(wù)器103,通過(guò)IP網(wǎng)與數(shù)據(jù)存儲(chǔ)服務(wù)器102和信 息采集服務(wù)器101相連接。信息管理和運(yùn)營(yíng)服務(wù)器103將信息采集服 務(wù)器101傳送過(guò)來(lái)的數(shù)據(jù)通過(guò)網(wǎng)絡(luò)保存在數(shù)據(jù)存儲(chǔ)服務(wù)器102中。信 息管理和運(yùn)營(yíng)服務(wù)器103的功能模塊對(duì)數(shù)據(jù)存儲(chǔ)服務(wù)器102中的數(shù)據(jù) 進(jìn)行處理,并將結(jié)果也保存在數(shù)據(jù)存儲(chǔ)服務(wù)器102中。該信息管理和 運(yùn)營(yíng)服務(wù)器103可以與一個(gè)或多個(gè)信息采集服務(wù)器101相連接。如果 不部署集群,信息管理和運(yùn)營(yíng)服務(wù)器103只與一個(gè)數(shù)據(jù)存儲(chǔ)服務(wù)器102 連接,否則與多個(gè)數(shù)據(jù)存儲(chǔ)服務(wù)器102連接。信息管理和運(yùn)營(yíng)服務(wù)器 103包括以下模塊信息采編模塊1031、系統(tǒng)管理模塊1032、關(guān)鍵詞 管理模塊1033、統(tǒng)計(jì)分析模塊1034、用戶查詢歷史模塊1035、以及關(guān) 鍵詞檢索模塊1036。信息采編模塊1031用于對(duì)信息采集服務(wù)器101傳送過(guò)來(lái)的信息進(jìn) 行處理。具體地,所述信息采編模塊1031引入信息可信度模型,該模
型根據(jù)信息的所屬行業(yè)(由關(guān)鍵詞判斷)、發(fā)布時(shí)間、所屬網(wǎng)站的重 要程度、網(wǎng)頁(yè)的連接數(shù)量等參數(shù)評(píng)估該信息的可信程度,并優(yōu)先對(duì)可 信程度高的信息進(jìn)行處理。其中,所述信息可信度模型是一個(gè)對(duì)信息 的可信度進(jìn)行評(píng)價(jià)的處理模塊,是信息采編模塊的前置處理模塊,用 于對(duì)進(jìn)入信息采編模塊的信息的可信度進(jìn)行評(píng)價(jià)并打分,以方便信息 采編人員對(duì)重要信息進(jìn)行優(yōu)先處理。信息采編模塊對(duì)信息進(jìn)行的處理具體如下a) 信息的自動(dòng)化智能處理 *自動(dòng)分類系統(tǒng)支持兩種分類方法基于統(tǒng)計(jì)原理的自動(dòng)分類和基于語(yǔ)義規(guī) 則的規(guī)則分類。自動(dòng)分類技術(shù)適用于用戶基于內(nèi)容的分類需求,規(guī)則 分類技術(shù)適用于用戶基于關(guān)鍵詞的分類需求,通過(guò)兩者的結(jié)合,為用 戶提供多級(jí)分類支持。用戶可以根據(jù)具體需求選擇一種或者"兩種結(jié) 合"的方式進(jìn)行分類支持。第一種基于內(nèi)容、不需人工干預(yù)的文本自動(dòng)分類技術(shù).系統(tǒng)提 供分類訓(xùn)練工具,允許用戶自行根據(jù)自己的分類需求和數(shù)據(jù)特點(diǎn)設(shè)定 分類結(jié)構(gòu),自動(dòng)生成特征模板,進(jìn)行分類訓(xùn)練。該自動(dòng)分類支持反饋 學(xué)習(xí)機(jī)制,可以根據(jù)用戶的反饋?zhàn)詣?dòng)對(duì)分類模板進(jìn)行完善,從而逐步增加分類的準(zhǔn)確率。第二種基于規(guī)則的文本分類技術(shù)。規(guī)則的書(shū)寫(xiě)滿足與、或、非 等邏輯運(yùn)算規(guī)則,具有設(shè)定詞頻數(shù)功能。同時(shí)系統(tǒng)提供方便的規(guī)則定 義界面,用戶可以根據(jù)需求書(shū)寫(xiě)和調(diào)整規(guī)則,達(dá)到預(yù)期的分類目標(biāo)。*自動(dòng)排重利用內(nèi)容的相似性進(jìn)行排重判斷,可以設(shè)定排重的標(biāo)準(zhǔn),比如剔 除內(nèi)容80%—樣的信息。 *字段分析對(duì)互聯(lián)網(wǎng)采集的信息進(jìn)行字段分析,根據(jù)信息結(jié)構(gòu)的要求,將有用的信息填入記錄的相應(yīng)字段。b) 信息的人工處理功能
信息人工處理功能主要是指信息工作人員通過(guò)系統(tǒng)的WEB界面, 進(jìn)行信息篩選、編輯、加工整理,以及審核簽發(fā)等,將處理后的信息 從原始資料庫(kù)加入到綜合信息數(shù)據(jù)庫(kù)。其中審核簽發(fā)過(guò)程以信息工作 流的方式實(shí)現(xiàn)。系統(tǒng)管理模塊1032用于設(shè)置系統(tǒng)訪問(wèn)權(quán)限、信息處理流程管理和 信息內(nèi)容的管理,具體如下a) 用戶權(quán)限管理該項(xiàng)功能主要是對(duì)系統(tǒng)的用戶進(jìn)行管理,包括用戶的角色設(shè)定、 及相應(yīng)的用戶權(quán)限分配。系統(tǒng)用戶角色分為系統(tǒng)管理員、信息工作人 員、服務(wù)代表三種,用戶身份可以重疊。*系統(tǒng)管理員又分為省公司系統(tǒng)管理員和分公司系統(tǒng)管理員,其 中省公司系統(tǒng)管理員擁有對(duì)整個(gè)系統(tǒng)進(jìn)行管理的權(quán)限和職責(zé), 分公司系統(tǒng)管理員擁有對(duì)分公司子系統(tǒng)進(jìn)行管理的權(quán)限和職 責(zé)。具體包括系統(tǒng)及數(shù)據(jù)的維護(hù)及系統(tǒng)使用狀況控制及用戶 信息管理及權(quán)限分配;*信息工作人員包括信息加工處理人員及信息采集人員,信息加 工處理人員擁有對(duì)指定分類(主題)和密級(jí)的信息進(jìn)行處理以 及情報(bào)信息瀏覽和存儲(chǔ)的功能,信息采集人員則主要是錄入信 息,及瀏覽部分信息的權(quán)限。*服務(wù)代表和其他業(yè)務(wù)人員則可以瀏覽查詢系統(tǒng)信息。*系統(tǒng)管理員能修改用戶的秘級(jí)、瀏覽信息類目等信息。b) 流程管理系統(tǒng)提供平臺(tái)方便信息工作人員對(duì)信息按工作流程 進(jìn)行管理。通過(guò)工作流定制功能,信息工作人員可以通過(guò)可視化編輯 制作工作流程,并可以指定流程節(jié)點(diǎn)的動(dòng)作,每個(gè)信息結(jié)點(diǎn)可以指定 獨(dú)立的工作流程??梢詫⒉煌ぷ魅蝿?wù)定義為不同的工作流,工作流上的節(jié)點(diǎn)代表 用戶、組織機(jī)構(gòu)或角色,從開(kāi)始到結(jié)束遵循設(shè)定的流程,在不同的信 息點(diǎn)之間控制流轉(zhuǎn)方向。節(jié)點(diǎn)的定義和工作流程的安排可以通過(guò)可視 化界面進(jìn)行編輯。 c) 內(nèi)容管理i. 設(shè)置系統(tǒng)的具體分類樹(shù)視圖ii. 為每一個(gè)分類樹(shù)可選擇設(shè)置采集的規(guī)則,例如學(xué)習(xí)集、信 息過(guò)濾等。d) 采集管理采集的來(lái)源、周期及各種其它參數(shù)的設(shè)置.主要來(lái) 源類型包括互聯(lián)網(wǎng)、局域網(wǎng)、指定目錄掃描、郵箱采集、BBSi. 互聯(lián)網(wǎng)采集設(shè)置設(shè)定下栽的網(wǎng)址組,為每一網(wǎng)址組設(shè)定 下栽間隔時(shí)間,下栽層數(shù)等參數(shù),可為網(wǎng)址組添加、刪除、 修改下栽的網(wǎng)址ii. 局域網(wǎng)采集設(shè)置設(shè)定企業(yè)內(nèi)網(wǎng)組或域。每組或域可自動(dòng) 生成計(jì)算機(jī)列表,可具體設(shè)定那些計(jì)算機(jī)需要采集。注只能采集共享信息。iii. 指定目錄掃描設(shè)定掃描目錄組,可為每一組添加、修改、 刪除掃描目錄。iv. 郵箱采集設(shè)定采集郵箱組,可為每一組增加、修改、刪 除要采集的郵箱。v. BBS論壇采集定制要采集的論壇。 關(guān)鍵詞管理模塊1033用于管理關(guān)鍵詞表的內(nèi)容以及與關(guān)鍵詞相關(guān)的業(yè)務(wù)規(guī)則,實(shí)現(xiàn)關(guān)鍵詞與業(yè)務(wù)規(guī)則的綁定,以及對(duì)關(guān)鍵詞銷售情 況的管理。統(tǒng)計(jì)分析模塊1034用于按預(yù)定規(guī)則分別對(duì)綜合信息數(shù)據(jù)庫(kù)中的 信息進(jìn)行統(tǒng)計(jì),例如,所述預(yù)定規(guī)則可以是*曰期按總數(shù)、年、月來(lái)統(tǒng)計(jì)系統(tǒng)所有文章及各類別文章的數(shù) 量*來(lái)源按以下幾種來(lái)源統(tǒng)計(jì)分別進(jìn)行按總數(shù)、年和月的統(tǒng)計(jì)*上傳人按不同的上傳人員的統(tǒng)計(jì)*編輯者按編輯者統(tǒng)計(jì)信息數(shù)量,按總數(shù)、年和月,*查詢按被奎詢信息的數(shù)量排名,按總的、年和月排名,用戶查詢歷史模塊1035用于顯示某個(gè)用戶最近查詢過(guò)的問(wèn)題,以 幫助坐席對(duì)用戶的需求進(jìn)行分析。另外,該模塊也可以對(duì)所有用戶查 詢過(guò)的問(wèn)題進(jìn)行分析,挖掘出用戶的需求和熱門查詢。關(guān)鍵詞檢索模塊1036用于根據(jù)關(guān)鍵詞進(jìn)行檢索,其具體實(shí)現(xiàn)參見(jiàn) 圖2。該關(guān)鍵詞檢索模塊可以進(jìn)一步包括業(yè)務(wù)信息數(shù)據(jù)庫(kù)203,其對(duì) 應(yīng)于圖1中的業(yè)務(wù)信息數(shù)據(jù)庫(kù)1021;全文數(shù)據(jù)庫(kù)204,其對(duì)應(yīng)于圖1 中的全文索引數(shù)據(jù)庫(kù)1023。業(yè)務(wù)信息數(shù)據(jù)庫(kù)203存儲(chǔ)和管理各本地網(wǎng) 的關(guān)鍵詞表、業(yè)務(wù)規(guī)則、商家合同(商家ID、關(guān)鍵詞ID、權(quán)值)和用 戶查詢行為記錄;全文數(shù)據(jù)庫(kù)204中存儲(chǔ)經(jīng)過(guò)審核的各本地網(wǎng)商家信 息和互聯(lián)網(wǎng)增值信息,并維護(hù)統(tǒng)一的檢索關(guān)鍵詞表,該檢索關(guān)鍵詞表 與業(yè)務(wù)規(guī)則沒(méi)有聯(lián)系,只是為了提高檢索的效率。該關(guān)鍵詞檢索模塊還包括業(yè)務(wù)規(guī)則引擎1和業(yè)務(wù)規(guī)則引擎2. 其中,業(yè)務(wù)規(guī)則引擎l,用于將用戶提交的查詢進(jìn)行標(biāo)準(zhǔn)化分詞處理, 并結(jié)合存儲(chǔ)業(yè)務(wù)信息數(shù)據(jù)庫(kù)203中的業(yè)務(wù)規(guī)則生成查詢條件,然后用 該查詢條件對(duì)全文數(shù)據(jù)庫(kù)204的數(shù)據(jù)進(jìn)行搜索,并通過(guò)檢索排序引擎2 對(duì)搜索的結(jié)果按照業(yè)務(wù)規(guī)則(比如按照購(gòu)買該關(guān)鍵字的金額排序)進(jìn) 行排序顯示。檢索過(guò)程如下1) 話務(wù)員輸入關(guān)鍵詞編碼;2) 在業(yè)務(wù)邏輯引擎中判斷,如果存在多個(gè)關(guān)鍵詞,話務(wù)員選擇一個(gè);3) 如果存在關(guān)鍵詞的定購(gòu)信息,返回排好序的商家ID和區(qū)域信 息,并根據(jù)業(yè)務(wù)規(guī)則修改關(guān)鍵詞的權(quán)值;4) 返回查詢歷史紀(jì)錄;5) 在檢索排序引擎中,通過(guò)區(qū)域信息和商家ID返回商家的具體信息;6) 利用關(guān)鍵詞進(jìn)行全文檢索,返回增值信息。 用于存儲(chǔ)系統(tǒng)各種數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)服務(wù)器102,通過(guò)標(biāo)準(zhǔn)的關(guān)系型數(shù)據(jù)庫(kù)來(lái)保存號(hào)碼百事通的業(yè)務(wù)信息數(shù)據(jù),然后通過(guò)數(shù)據(jù)同步網(wǎng)關(guān) 將數(shù)據(jù)同步復(fù)制到全文索引數(shù)據(jù)庫(kù)(搜索引擎),然后在全文索引數(shù) 據(jù)庫(kù)對(duì)數(shù)據(jù)生成全文索引,坐席可采用關(guān)鍵字進(jìn)行查詢。 參見(jiàn)圖3,本發(fā)明對(duì)信息的總體處理流程主要包括信息收集、信 息處理和信息服務(wù)幾大環(huán)節(jié)(見(jiàn)圖1),主要實(shí)現(xiàn)互聯(lián)網(wǎng)信息及其他來(lái) 源信息搜集、整理的自動(dòng)化、智能化,并提供信息處理、管理和服務(wù) 的平臺(tái)。號(hào)碼百亊通傳統(tǒng)的信息錄入和搜索過(guò)程是通過(guò)IBSS( Integrated Business Support System,綜合業(yè)務(wù)支撐系統(tǒng))系統(tǒng)接口送過(guò)來(lái)的碼號(hào) 信息進(jìn)入114系統(tǒng)的人工處理的號(hào)線臺(tái),號(hào)線臺(tái)主要的處理內(nèi)容是對(duì) 單位名稱、地址名稱等進(jìn)行規(guī)范化處理,處理完成的信息輸入114系 統(tǒng)的數(shù)據(jù)庫(kù).當(dāng)用戶成功呼入114系統(tǒng)后,坐席根據(jù)用戶的需求在系 統(tǒng)上利用關(guān)鍵字對(duì)數(shù)據(jù)庫(kù)的字段進(jìn)行查詢,并將查詢結(jié)果反饋給用戶。本方法通過(guò)對(duì)原有的信息錄入和搜索過(guò)程進(jìn)行完善和擴(kuò)充,分為 信息收集、信息處理和信息服務(wù)三個(gè)環(huán)節(jié),信息收集環(huán)節(jié)負(fù)責(zé)處理各 種信息源輸入的信息,然后將這些信息放到原始信息庫(kù)301中。其中, 所述信息采集例如包括;通過(guò)將員工錄入的信息進(jìn)行WEB錄入而存儲(chǔ) 在原始信息庫(kù)301中;或者通過(guò)對(duì)互聯(lián)網(wǎng)信息進(jìn)行信息自動(dòng)采集、自 動(dòng)分類和自動(dòng)去重后的信息存儲(chǔ)在原始信息庫(kù)301中;或者將SP/CP 信息或已有數(shù)據(jù)庫(kù)中的信息通過(guò)數(shù)據(jù)接口模塊而存儲(chǔ)在原始信息庫(kù) 301中。然后,信息處理環(huán)節(jié)對(duì)原始信息庫(kù)301中的信息進(jìn)行編輯加工 處理,通過(guò)審核后發(fā)布到綜合信息數(shù)據(jù)庫(kù)302中,以供坐席搜索使用。 另外,綜合信息數(shù)據(jù)庫(kù)302中的數(shù)據(jù)被同步到號(hào)碼百亊通業(yè)務(wù)平臺(tái)數(shù) 據(jù)庫(kù)303,以供全省各個(gè)本地網(wǎng)共享使用。信息服務(wù)環(huán)節(jié)則根據(jù)用戶需 求,例如通過(guò)自動(dòng)發(fā)布、多途徑檢索、信息推送定制等方式為用戶/服 務(wù)代表提供正確的信息。根據(jù)本發(fā)明的一個(gè)實(shí)施例,圖3中原始信息庫(kù)301和綜合信息數(shù) 據(jù)庫(kù)302中的數(shù)據(jù)優(yōu)選地保存在圖1中的軟據(jù)存儲(chǔ)服務(wù)器102的業(yè)務(wù) 信息數(shù)據(jù)庫(kù)1021中(不同的數(shù)據(jù)表),圖3中號(hào)碼百亊通業(yè)務(wù)平臺(tái)數(shù) 據(jù)庫(kù)303中的數(shù)據(jù)保存在圖1中的數(shù)據(jù)存儲(chǔ)服務(wù)器102的全文索引數(shù) 據(jù)庫(kù)1023中。
以上通過(guò)結(jié)合附圖對(duì)根據(jù)本發(fā)明的號(hào)碼百事通業(yè)務(wù)的倌息采集及 搜索系統(tǒng)進(jìn)行了闡述,但本發(fā)明并不限于此。本領(lǐng)域技術(shù)人員知道, 依據(jù)本發(fā)明原理,可以對(duì)本發(fā)明做出各種修改、改進(jìn),而不脫離本發(fā) 明隨附權(quán)利要求的范圍。
權(quán)利要求
1、 一種用于號(hào)碼百亊通業(yè)務(wù)的信息采集和查詢系統(tǒng),所述系統(tǒng)至 少包括信息釆集服務(wù)器、數(shù)據(jù)存儲(chǔ)服務(wù)器以及倌息管理及運(yùn)營(yíng)服務(wù)器, 其中,所述信息采集服務(wù)器用于處理各種信息源輸入的信息,并通過(guò)IP網(wǎng)采用TCP協(xié)議與信息管理和運(yùn)營(yíng)服務(wù)器相連接;所述信息管理和運(yùn)營(yíng)服務(wù)器用于對(duì)信息、關(guān)鍵詞表和業(yè)務(wù)規(guī)則進(jìn)行管理并提供信息查詢服務(wù),并通過(guò)IP網(wǎng)釆用TCP協(xié)議與數(shù)據(jù)存儲(chǔ)服務(wù)器和信息采集服務(wù)器相連接;所述數(shù)據(jù)存儲(chǔ)服務(wù)器用于存儲(chǔ)系統(tǒng)的各種數(shù)據(jù);以及 所述系統(tǒng)通過(guò)信息采集服務(wù)器、數(shù)據(jù)存儲(chǔ)服務(wù)器、信息管理和運(yùn)營(yíng)服務(wù)器對(duì)多個(gè)信息源進(jìn)行統(tǒng)一釆集和處理、對(duì)結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息進(jìn)行聯(lián)合搜索,并對(duì)搜索的結(jié)果按照業(yè)務(wù)規(guī)則進(jìn)行排隊(duì)顯示,以根據(jù)用戶的查詢需求進(jìn)行信息采集和查詢。
2、 如權(quán)利要求l所述的信息采集和查詢系統(tǒng),其中, 所述信息管理和運(yùn)營(yíng)服務(wù)器可以和多個(gè)信息采集服務(wù)器連接,并通過(guò)TCP協(xié)議將信息采集的相關(guān)配置參數(shù)發(fā)給信息采集服務(wù)器; 所述信息采集服務(wù)器還包括互聯(lián)網(wǎng)信息釆集模塊,由信息采集服務(wù)器根據(jù)接收到的參數(shù)進(jìn)行 配置,用于按照所設(shè)定的參數(shù)對(duì)互聯(lián)網(wǎng)上網(wǎng)站的內(nèi)容進(jìn)行抓取并通過(guò) TCP協(xié)議將數(shù)據(jù)傳送給信息管理和運(yùn)營(yíng)服務(wù)器;綜合業(yè)務(wù)支撐系統(tǒng)IBSS碼號(hào)信息變更處理模塊,用于處理從 IBSS送過(guò)來(lái)的發(fā)生變更的號(hào)碼及單位名稱、地址等信息,并對(duì)這些信 息進(jìn)行格式化處理;表單輸入模塊,用于處理手工輸入的結(jié)構(gòu)化信息,該模塊可以按照行業(yè)定義輸入的字段,并對(duì)輸入的內(nèi)容進(jìn)行格式檢查;任務(wù)輸入模塊,輸入信息采集人員的信息搜集任務(wù)的具體內(nèi)容;以及 SP/CP信息輸入接口模塊,用于處理從SP/CP的系統(tǒng)送過(guò)來(lái)的信 息,并將數(shù)據(jù)格式轉(zhuǎn)換為XML格式。
3、 如權(quán)利要求2所述的信息采集和查詢系統(tǒng),其中, 所述互聯(lián)網(wǎng)信息采集模塊所運(yùn)行參數(shù)包括統(tǒng)一資源定位符URL、采集時(shí)間、搜索深度、搜索廣度、網(wǎng)站的登錄參數(shù)、信息分類 關(guān)鍵詞等等;以及所述的互聯(lián)網(wǎng)信息采集模塊還用于實(shí)時(shí)動(dòng)態(tài)搜集互聯(lián)網(wǎng)上各行業(yè) 網(wǎng)站的信息,并通過(guò)其余模塊添加補(bǔ)充信息來(lái)源,對(duì)原有的碼號(hào)信息 進(jìn)行擴(kuò)展,補(bǔ)充相關(guān)的增值信息,建立號(hào)碼百亊通業(yè)務(wù)信息數(shù)據(jù)庫(kù)。
4、 如權(quán)利要求l所述的信息釆集和查詢系統(tǒng),其中,所述數(shù)據(jù)存 儲(chǔ)服務(wù)器還包括業(yè)務(wù)信息數(shù)據(jù)庫(kù),其是標(biāo)準(zhǔn)的關(guān)系型數(shù)據(jù)庫(kù),用于存儲(chǔ)信息臺(tái)業(yè) 務(wù)所需的所有數(shù)據(jù)、關(guān)鍵詞表和業(yè)務(wù)規(guī)則,并實(shí)現(xiàn)相關(guān)的檢索功能;數(shù)據(jù)轉(zhuǎn)換/同步網(wǎng)關(guān),用于將業(yè)務(wù)信息數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化和非結(jié)構(gòu) 化內(nèi)容數(shù)據(jù)同步復(fù)制到全文索引數(shù)據(jù)庫(kù);以及全文索引數(shù)據(jù)庫(kù),用于對(duì)同步過(guò)來(lái)的結(jié)構(gòu)化和非結(jié)構(gòu)化內(nèi)容數(shù)據(jù) 進(jìn)行全文索引,并提供關(guān)鍵詞檢索接口。
5、 如權(quán)利要求l所述的信息采集和查詢系統(tǒng),其中,所述信息管 理和運(yùn)營(yíng)服務(wù)器還包括信息采編模塊,用于對(duì)信息采集服務(wù)器傳送過(guò)來(lái)的信息進(jìn)行處理; 系統(tǒng)管理模塊,用于設(shè)置系統(tǒng)訪問(wèn)權(quán)限、信息處理流程管理和信 息內(nèi)容的管理;關(guān)鍵詞管理模塊,用于管理關(guān)鍵詞表的內(nèi)容以及與關(guān)鍵詞相關(guān)的 業(yè)務(wù)規(guī)則,實(shí)現(xiàn)關(guān)鍵詞與業(yè)務(wù)規(guī)則的綁定,以及對(duì)關(guān)鍵詞銷售情況的 管理;統(tǒng)計(jì)分析模塊,用于按預(yù)定規(guī)則分別對(duì)綜合信息數(shù)據(jù)庫(kù)中的信息 進(jìn)行統(tǒng)計(jì);用戶查詢歷史模塊,用于顯示某個(gè)用戶最近查詢過(guò)的問(wèn)趙,以幫 助坐席對(duì)用戶的需求進(jìn)行分析,以及該模塊還用于所有用戶查詢過(guò)的 問(wèn)趙進(jìn)行分析,挖掘出用戶的需求和熱門查詢;以及 關(guān)鍵詞檢索模塊,用于根據(jù)關(guān)鍵詞進(jìn)行檢索。
6、 如權(quán)利要求5所述的信息采集和查詢系統(tǒng),其中, 所述信息采編模塊引入信息可信度模型,該模型根據(jù)信息的所屬行業(yè)、發(fā)布時(shí)間、所屬網(wǎng)站的重要程度、網(wǎng)頁(yè)的連接數(shù)量等參數(shù)評(píng)估 該信息的可信程度,并優(yōu)先對(duì)可信程度高的信息進(jìn)行處理。
7、 如權(quán)利要求6所述的信息采集和查詢系統(tǒng),其中, 所述信息可信度模型是一個(gè)對(duì)信息的可倌度進(jìn)行評(píng)價(jià)的處理模塊,是信息采編模塊的前置處理模塊,用于對(duì)進(jìn)入信息采編模塊的信 息的可信度進(jìn)行評(píng)價(jià)并打分,以方便信息采編人員對(duì)重要信息進(jìn)行優(yōu) 先處理。
8、 如權(quán)利要求6所述的信息采集和查詢系統(tǒng),其中,所述信息采 編模塊對(duì)信息進(jìn)行的處理包括信息自動(dòng)化智能處理,包括自動(dòng)分類、自動(dòng)排重、字段分析;以及信息的人工處理。
9、 如權(quán)利要求5所述的信息采集和查詢系統(tǒng),其中,所述關(guān)鍵詞檢索模塊還包括第二業(yè)務(wù)信息數(shù)據(jù)庫(kù),對(duì)應(yīng)于所述系統(tǒng)中的所述業(yè)務(wù)信息數(shù)據(jù)庫(kù), 用于存儲(chǔ)和管理各本地網(wǎng)的關(guān)鍵詞表、業(yè)務(wù)規(guī)則、商家合同(商家ID、 關(guān)鍵詞ID、權(quán)值)和用戶查詢行為記錄;以及全文數(shù)據(jù)庫(kù),對(duì)應(yīng)于所述系統(tǒng)中的所述全文索引數(shù)據(jù)庫(kù),用于存 儲(chǔ)經(jīng)過(guò)審核的各本地網(wǎng)商家信息和互聯(lián)網(wǎng)增值信息。
10、 如權(quán)利要求5所述的信息采集和查詢系統(tǒng),其中,所述關(guān)鍵詞檢索模塊還包括業(yè)務(wù)規(guī)則引擎模塊,用于將用戶提交的查詢進(jìn)行標(biāo)準(zhǔn)化分詞處理, 并結(jié)合存儲(chǔ)業(yè)務(wù)信息數(shù)據(jù)庫(kù)中的業(yè)務(wù)規(guī)則生成查詢條件,然后用該查 詢條件對(duì)全文數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行搜索;以及檢索排序引擎模塊,用于對(duì)搜索的結(jié)果按照業(yè)^SL則進(jìn)行排序顯示,
全文摘要
本發(fā)明涉及一種用于號(hào)碼百事通業(yè)務(wù)的信息采集和查詢系統(tǒng),包括用于處理各種信息源輸入的信息的信息采集服務(wù)器、用于存儲(chǔ)系統(tǒng)的各種數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)服務(wù)器,以及用于對(duì)信息、關(guān)鍵詞表和業(yè)務(wù)規(guī)則進(jìn)行管理并提供信息查詢服務(wù)的信息管理及運(yùn)營(yíng)服務(wù)器。其中,所述信息采集服務(wù)器、數(shù)據(jù)存儲(chǔ)服務(wù)器和信息管理和運(yùn)營(yíng)服務(wù)器通過(guò)IP網(wǎng)采用TCP協(xié)議彼此相連,對(duì)多個(gè)信息源進(jìn)行統(tǒng)一采集和處理、對(duì)結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息進(jìn)行聯(lián)合搜索,并對(duì)搜索的結(jié)果按照業(yè)務(wù)規(guī)則進(jìn)行排隊(duì)顯示,以根據(jù)用戶的查詢需求進(jìn)行信息采集和查詢。該系統(tǒng)的體系結(jié)構(gòu)和功能劃分比較具體、合理,易于實(shí)現(xiàn),而且具備比較好的擴(kuò)展性和靈活性。
文檔編號(hào)H04M3/42GK101146152SQ20061015420
公開(kāi)日2008年3月19日 申請(qǐng)日期2006年9月14日 優(yōu)先權(quán)日2006年9月14日
發(fā)明者林立宇, 申紅梅, 童小兵, 兵 鐵, 陳云海 申請(qǐng)人:中國(guó)電信股份有限公司