亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于用電信息采集系統(tǒng)的客戶互動(dòng)信息搜索引擎系統(tǒng)的制作方法

文檔序號(hào):12748003閱讀:384來(lái)源:國(guó)知局
一種基于用電信息采集系統(tǒng)的客戶互動(dòng)信息搜索引擎系統(tǒng)的制作方法與工藝

本發(fā)明涉及一種電力系統(tǒng)領(lǐng)域的方法,具體講涉及一種基于用電信息采集系統(tǒng)的客戶互動(dòng)信息搜索引擎系統(tǒng)。



背景技術(shù):

根據(jù)中國(guó)智能電網(wǎng)發(fā)展規(guī)劃,2011—2015年,中國(guó)的智能電網(wǎng)進(jìn)入全面建設(shè)階段。2015年,將完成41項(xiàng)智能電網(wǎng)創(chuàng)新示范工程建設(shè)任務(wù),智能電網(wǎng)中用電信息采集系統(tǒng)用戶互動(dòng)的功能基本實(shí)現(xiàn),包括信息互動(dòng)、電能和業(yè)務(wù)互動(dòng)。在互動(dòng)信息的基礎(chǔ)上通過(guò)“分時(shí)電價(jià)”、“階梯電價(jià)”和“雙向調(diào)度”等手段“削峰填谷”作用明顯,并實(shí)現(xiàn)了在不停電情況下對(duì)用戶負(fù)荷進(jìn)行控制進(jìn)而推進(jìn)了有序用電。結(jié)構(gòu)化的客戶互動(dòng)信息存儲(chǔ)采用服務(wù)器數(shù)據(jù)庫(kù)存儲(chǔ)模式,非結(jié)構(gòu)化互動(dòng)信息的未來(lái)的發(fā)展趨勢(shì)是基于Hadoop架構(gòu)的電力數(shù)據(jù)中心。一般大中城市的接入電用戶數(shù)達(dá)到百萬(wàn)數(shù)量級(jí),隨之而來(lái)的是海量互動(dòng)信息,高效、準(zhǔn)確及全面查找信息成為提高工作效率、充分利用數(shù)據(jù)資源的瓶頸。



技術(shù)實(shí)現(xiàn)要素:

為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種基于用電信息采集系統(tǒng)的客戶互動(dòng)信息搜索引擎系統(tǒng),可實(shí)現(xiàn)用于現(xiàn)階段存儲(chǔ)于單機(jī)或企業(yè)局域網(wǎng)共享文件內(nèi)容的搜索,從而實(shí)現(xiàn)對(duì)客戶信息的準(zhǔn)確查找。

實(shí)現(xiàn)上述目的所采用的解決方案為:

一種基于用電信息采集系統(tǒng)的客戶互動(dòng)信息搜索引擎系統(tǒng),其中,所述搜索引擎系統(tǒng)基于開(kāi)源搜索引擎solr構(gòu)建,包括電力詞庫(kù)模塊、文檔解析模塊、中文分詞模塊、索引庫(kù)模塊和檢索接口模塊。

優(yōu)選的,所述電力詞庫(kù)模塊的內(nèi)容有兩方面來(lái)源,其一參考國(guó)家和電力行業(yè)標(biāo)準(zhǔn)以及國(guó)際電網(wǎng)技術(shù)委員會(huì)的標(biāo)準(zhǔn),將用戶互動(dòng)信息中常用專業(yè)詞匯歸入詞庫(kù);其二將核心刊物關(guān)鍵詞和采用正規(guī)化分布熵的領(lǐng)域術(shù)語(yǔ)抽取算法抽取“中國(guó)電機(jī)工程學(xué)報(bào)”等摘要中的相關(guān)術(shù)語(yǔ)歸入詞庫(kù)。

優(yōu)選的,所述文檔解析模塊負(fù)責(zé)解析文件,從非結(jié)構(gòu)化數(shù)據(jù)如PDF、Word、Excel和PowerPoint等格式的文檔中提取描述文檔的文字,這些描述性的信息包括文檔標(biāo)題、作者、主要內(nèi)容等,在進(jìn)一步進(jìn)行語(yǔ)法分析和語(yǔ)言處理即使用TF—IDF(term frequency-inverse document frequency)加權(quán)算法對(duì)正文中的詞進(jìn)行評(píng)估,選取權(quán)值大于閾值的詞抽取為文檔的 核心詞匯并進(jìn)一步應(yīng)用信息增益方法(Information Gain)優(yōu)選核心詞匯進(jìn)而形成包含內(nèi)容及核心詞匯的文本文件。

利用開(kāi)源庫(kù)中多種資源完成不同格式的文檔處理。例如,Apache POI程序能完成Microsoft Office格式文檔讀和寫(xiě)的功能。其結(jié)構(gòu)包括:HSSF提供讀寫(xiě)Microsoft Excel XLS格式檔案的功能;XSSF提供讀寫(xiě)Microsoft Excel OOXML XLSX格式檔案的功能;HWPF提供讀寫(xiě)Microsoft Word DOC格式檔案的功能;HSLF提供讀寫(xiě)Microsoft PowerPoint格式檔案的功能;HDGF提供讀寫(xiě)Microsoft Visio格式檔案的功能等。PDFBox提供PDF文檔的創(chuàng)建、處理以及文檔內(nèi)容提取功能。

優(yōu)選的,所述中文分詞模塊負(fù)責(zé)運(yùn)用中文分詞算法,將文本文件內(nèi)容進(jìn)行全文分詞,將分詞結(jié)果逐個(gè)和電力詞庫(kù)中標(biāo)準(zhǔn)化術(shù)語(yǔ)比對(duì),刪除詞庫(kù)中沒(méi)有的分詞,使用電力詞庫(kù)的標(biāo)準(zhǔn)詞語(yǔ),形成索引文件,中文分詞采用“IK Analyzer”工具包,建立索引數(shù)據(jù)庫(kù)和搜索時(shí)分詞時(shí),都需要和電力詞庫(kù)標(biāo)準(zhǔn)庫(kù)比對(duì),這樣建立起來(lái)的索引數(shù)據(jù)庫(kù)容易被使用相同標(biāo)準(zhǔn)詞庫(kù)的搜索引擎搜索到。

優(yōu)選的,所述索引庫(kù)模塊通過(guò)互動(dòng)信息數(shù)據(jù)預(yù)處理使用數(shù)字簽名算法消重,使用相量空間模型(VSM:Vector Space Model)表示文本的特征信息,建立索引數(shù)據(jù)庫(kù),為用戶搜索提供檢索源;

所述索引庫(kù)模塊的索引文件包含索引詞及索引目錄。

有別于其他專題搜索引擎,本系統(tǒng)在形成索引庫(kù)時(shí)的特點(diǎn)是,索引詞是基于電力詞庫(kù)建立,從而形成標(biāo)準(zhǔn)化的索引庫(kù)。

優(yōu)選的,所述檢索接口模塊是用戶使用的接口,接受用戶的輸入并輸出查詢結(jié)果。檢索時(shí)將輸入的檢索詞分詞后形成關(guān)鍵詞,分詞器分析關(guān)鍵詞,進(jìn)行解析并同電力詞庫(kù)對(duì)照,形成多個(gè)搜索詞,然后對(duì)索引文件進(jìn)行搜索,并對(duì)結(jié)果進(jìn)行排序輸出給用戶。

有別于其他搜索引擎,本系統(tǒng)在檢索時(shí)的特點(diǎn)是,分詞后的關(guān)鍵詞與電力詞庫(kù)比對(duì),從而形成標(biāo)準(zhǔn)化的檢索詞。

優(yōu)選的,所述檢索包括:1)建立特征項(xiàng):對(duì)文檔的字、詞、句子建立特征項(xiàng),Document=D(t1,t2,…tk,…tn),表示為一個(gè)維度,其中tk表示第k個(gè)特征項(xiàng);

2)計(jì)算特征項(xiàng)的權(quán)重:在一個(gè)待檢索對(duì)象中,每個(gè)特征項(xiàng)都被賦予一個(gè)權(quán)重cj,以表示特征項(xiàng)在該文本中的重要程度;

3)建立向量空間模型:在舍棄了各個(gè)特征項(xiàng)之間的順序信息之后,一個(gè)文本就表示成向 量,即特征空間的一個(gè)點(diǎn);文本d1的表示:V(d1)=(wi1,wi2,……wik,…wim),其中,wik=f(tk,cj)為權(quán)重函數(shù),反映權(quán)重為cj的特征相tk決定文檔di屬于特征集的程度;

4)相似度計(jì)算:向量空間模型將所有文檔映射為此文檔的向量空間,從而將文檔信息的匹配問(wèn)題轉(zhuǎn)化為向量空間中的矢量匹配問(wèn)題,n維空間中點(diǎn)的距離用向量之間的余弦?jiàn)A角來(lái)度量,即表示了文檔間的相似程度,假設(shè)目標(biāo)文檔為U,查找時(shí)和目標(biāo)文檔U比對(duì)的某個(gè)未知文檔為Vi,夾角越小說(shuō)明文檔的相似度越高,相似計(jì)算公式(1):

其中,wik是未知文檔Vi中第k個(gè)特征項(xiàng)的權(quán)重函數(shù),wk是目標(biāo)文檔U中第k個(gè)特征項(xiàng)的權(quán)重函數(shù),特征項(xiàng)共有m個(gè)即k的取值從1到m;采用詞頻計(jì)算權(quán)重函數(shù)即wik=tfk(di)1/2,進(jìn)行歸一化處理:tfk(di)表示第k個(gè)特征項(xiàng)在未知文檔Vi中出現(xiàn)的頻率,j的取值從1到m即遍歷所有特征項(xiàng);dj表示第j項(xiàng)文檔;Wk的計(jì)算方法和Wik相同,在目標(biāo)文檔U中采用詞頻計(jì)算權(quán)重函數(shù)即wk=tfk(d)1/2,并進(jìn)行歸一化處理:tfk(d)表示第k個(gè)特征項(xiàng)在目標(biāo)文檔U中出現(xiàn)的頻率,j的取值從1到m即遍歷所有特征項(xiàng)。

在返回用戶檢索信息時(shí),把相似度從高到低進(jìn)行排序,給出檢索條目。

與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:

本發(fā)明中文分詞技術(shù)和電力詞庫(kù)相結(jié)合,建立起標(biāo)準(zhǔn)的索引,搜索時(shí)分詞后的關(guān)鍵詞與電力詞庫(kù)比對(duì),從而形成標(biāo)準(zhǔn)化的檢索詞,使搜索準(zhǔn)確、全面和快速。

附圖說(shuō)明

圖1為本發(fā)明的搜索引擎框架圖;

圖2為本發(fā)明的索引框架圖;

圖3為本發(fā)明的檢索框架圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式做進(jìn)一步的詳細(xì)說(shuō)明。

本發(fā)明基于開(kāi)源搜索引擎solr工具包,構(gòu)建一種搜索硬盤(pán)文件內(nèi)容的檢索工具,包括電力詞庫(kù)模塊、文檔解析模塊、中文分詞模塊、索引庫(kù)模塊和檢索接口模塊。電力詞庫(kù)模塊建立行業(yè)規(guī)范用語(yǔ),特別是將用戶互動(dòng)信息中常用專業(yè)詞庫(kù)歸類。文檔解析模塊負(fù)責(zé)解析文件;中文分詞模塊負(fù)責(zé)運(yùn)用中文分詞算法,將文件內(nèi)容進(jìn)行全文分詞,結(jié)合電力詞庫(kù),建立全文索引。索引庫(kù)存儲(chǔ)數(shù)據(jù);檢索接口模塊是用戶使用的接口,接受用戶的輸入并輸出查詢結(jié)果。系統(tǒng)框架如圖1。

文件解析模塊中,從非結(jié)構(gòu)化數(shù)據(jù)如PDF、Word、Excel和PowerPoint等格式的文檔中提取描述文檔的文字,這些描述性的信息包括文檔標(biāo)題、作者、主要內(nèi)容等,在進(jìn)一步進(jìn)行語(yǔ)法分析和語(yǔ)言處理進(jìn)而形成索引。利用開(kāi)源庫(kù)中多種資源完成不同格式的文檔處理。例如,Apache POI程序能完成Microsoft Office格式文檔讀和寫(xiě)的功能。其結(jié)構(gòu)包括:HSSF提供讀寫(xiě)Microsoft Excel XLS格式檔案的功能;XSSF提供讀寫(xiě)Microsoft Excel OOXML XLSX格式檔案的功能;HWPF提供讀寫(xiě)Microsoft Word DOC格式檔案的功能;HSLF提供讀寫(xiě)Microsoft PowerPoint格式檔案的功能;HDGF提供讀寫(xiě)Microsoft Visio格式檔案的功能等。PDFBox提供PDF文檔的創(chuàng)建、處理以及文檔內(nèi)容提取功能。

電力詞庫(kù)的內(nèi)容主要參考國(guó)家和電力行業(yè)標(biāo)準(zhǔn),以及國(guó)際電網(wǎng)技術(shù)委員會(huì)的標(biāo)準(zhǔn)。由于智能電網(wǎng)是新生事物在不斷完善中,其中的一些常用詞匯需要搜集單獨(dú)加入。

中文分詞采用“IK Analyzer”工具包,建立索引數(shù)據(jù)庫(kù)和搜索時(shí)分詞時(shí),都需要和電力詞庫(kù)標(biāo)準(zhǔn)庫(kù)比對(duì),這樣建立起來(lái)的索引數(shù)據(jù)庫(kù)容易被使用相同標(biāo)準(zhǔn)詞庫(kù)的搜索引擎搜索到。

索引框架如圖2。Word,Excel,Txt,Pdf等硬盤(pán)中存儲(chǔ)的不同類型的文件應(yīng)用相應(yīng)的工具包從文件中提取文件內(nèi)容形成文本文件送給分詞器,分詞器結(jié)合電力專業(yè)詞庫(kù)建立索引文件,索引文件中包含的是文本中提取的關(guān)鍵信息并和電力詞庫(kù)比對(duì)而建立的關(guān)鍵詞。

有別于其他專題搜索引擎,本系統(tǒng)在形成索引庫(kù)時(shí)的特點(diǎn)是,索引詞是基于電力詞庫(kù)建立,從而形成標(biāo)準(zhǔn)化的索引庫(kù)。

檢索框架如圖3。用戶輸入關(guān)鍵詞后,分詞器分析關(guān)鍵詞,進(jìn)行解析并同電力詞庫(kù)對(duì)照,形成多個(gè)搜索詞,然后對(duì)索引文件進(jìn)行搜索,并對(duì)結(jié)果進(jìn)行排序輸出給用戶。

有別于其他搜索引擎,本系統(tǒng)在檢索時(shí)的特點(diǎn)是,分詞后的關(guān)鍵詞與電力詞庫(kù)比對(duì),從而形成標(biāo)準(zhǔn)化的檢索詞。

具體實(shí)現(xiàn)如下:

1)建立特征項(xiàng):對(duì)文檔的字、詞、句子等建立特征項(xiàng),Document=D(t1,t2,…tk,…tn),其中tk表示第k個(gè)特征項(xiàng),表示為一個(gè)維度。具體地,可以將某個(gè)客戶用電繳費(fèi)信息的付款 單位、付款金額、用戶號(hào)碼、客戶地址、項(xiàng)目名稱、電費(fèi)月份、本次實(shí)收、合計(jì)人民幣等詞分別作為D(t1,t2,…tk,…tn)中的一個(gè)特征項(xiàng)。

2)計(jì)算特征項(xiàng)的權(quán)重:在一個(gè)待檢索對(duì)象中(例如文本),每個(gè)特征項(xiàng)都被賦予一個(gè)權(quán)重cj,以表示特征項(xiàng)在該文本中的重要程度。具體地,對(duì)于用戶關(guān)心的特征項(xiàng):電費(fèi)月份、項(xiàng)目名稱、應(yīng)收費(fèi)用、賬戶余額等賦予較重的權(quán)重,而對(duì)于與本次檢索關(guān)系較為稀疏的其他特征項(xiàng):客戶地址、流水號(hào)、委托單位等賦予較少的權(quán)重。

3)建立向量空間模型:在舍棄了各個(gè)特征項(xiàng)之間的順序信息之后,一個(gè)文本就表示成向量,即特征空間的一個(gè)點(diǎn)。如文本d1的表示:V(d1)=(wi1,wi2,……wik,…wim)。其中,wik=f(tk,cj)為權(quán)重函數(shù),反映特征tk決定文檔di是否屬于cj的重要性。

4)相似度計(jì)算:向量空間模型將所有文檔映射為此文檔的向量空間,從而將文檔信息的匹配問(wèn)題轉(zhuǎn)化為向量空間中的矢量匹配問(wèn)題。n維空間中點(diǎn)的距離用向量之間的余弦?jiàn)A角來(lái)度量,也即表示了文檔間的相似程度。假設(shè)目標(biāo)文檔向量為U,未知文檔為Vi,夾角越小說(shuō)明文檔的相似度越高,相似計(jì)算公式(1):

其中的權(quán)重wik是特征項(xiàng)在文檔中所出現(xiàn)頻率的函數(shù),用tfk(di)表示tk在文檔di中出現(xiàn)的頻率,采用詞頻wik=tfk(di)1/2計(jì)算權(quán)重函數(shù),并進(jìn)行歸一化后處理:

在返回用戶檢索信息時(shí),以相似度進(jìn)行排序,給出檢索條目。

最后應(yīng)當(dāng)說(shuō)明的是:以上實(shí)施例僅用于說(shuō)明本申請(qǐng)的技術(shù)方案而非對(duì)其保護(hù)范圍的限制,盡管參照上述實(shí)施例對(duì)本申請(qǐng)進(jìn)行了詳細(xì)的說(shuō)明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:本領(lǐng)域技術(shù)人員閱讀本申請(qǐng)后依然可對(duì)申請(qǐng)的具體實(shí)施方式進(jìn)行種種變更、修改或者等同替換,但這些變更、修改或者等同替換,均在申請(qǐng)待批的權(quán)利要求保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1