本發(fā)明涉及數(shù)據(jù)獲取技術(shù)領(lǐng)域,更具體地,涉及企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法和系統(tǒng)。
背景技術(shù):
關(guān)于質(zhì)量信用中國(guó)產(chǎn)品質(zhì)量協(xié)會(huì)對(duì)質(zhì)量信用給出較為權(quán)威的定義。質(zhì)量信用是指企業(yè)在產(chǎn)品(服務(wù))質(zhì)量方面的信用狀況,既是企業(yè)履行其產(chǎn)品(服務(wù))質(zhì)量承諾的能力和程度,又表達(dá)了顧客的需求,這就要求必須具有法律規(guī)定的可靠性,能滿足法律規(guī)定的信用原則,包括滿足《產(chǎn)品質(zhì)量法》和《合同法》等有關(guān)法律法規(guī)的要求。企業(yè)質(zhì)量信用是我國(guó)企業(yè)在生產(chǎn)經(jīng)營(yíng)活動(dòng)中遵守我國(guó)相關(guān)的質(zhì)量法律法規(guī)、貫徹執(zhí)行相關(guān)的標(biāo)準(zhǔn)、兌現(xiàn)質(zhì)量承諾的能力成熟度。
海量的企業(yè)質(zhì)量信用評(píng)價(jià)數(shù)據(jù)依靠人工上報(bào)來(lái)獲取,效率低下,費(fèi)時(shí)費(fèi)力,并且數(shù)據(jù)質(zhì)量與人工知識(shí)和經(jīng)驗(yàn)有很大關(guān)系,無(wú)法確保數(shù)據(jù)獲取的一致性、準(zhǔn)確性和全面性。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的一個(gè)目的是解決至少上述問題,并提供至少后面將說明的優(yōu)點(diǎn)。
本發(fā)明還有一個(gè)目的是提供一種從互聯(lián)網(wǎng)抓取各自相關(guān)信息,并基于詞匯之間的語(yǔ)法和邏輯關(guān)系獲得的企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法和系統(tǒng)。
為了實(shí)現(xiàn)根據(jù)本發(fā)明的這些目的和其它優(yōu)點(diǎn),提供了一種企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法,包括:
S1、對(duì)與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理,得到語(yǔ)料數(shù)據(jù);
S2、對(duì)所述語(yǔ)料數(shù)據(jù)進(jìn)行知識(shí)挖掘,得到模板數(shù)據(jù);以及
S3、從所述語(yǔ)料數(shù)據(jù)中提取與所述模板數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵數(shù)據(jù),作為企業(yè)質(zhì)量信用數(shù)據(jù)。
優(yōu)選地,所述步驟S1具體包括:
S1.1、從網(wǎng)絡(luò)資源中獲取各技術(shù)領(lǐng)域中與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù);
S1.2、抓取所述數(shù)據(jù)中的文檔轉(zhuǎn)換為xml格式文檔;以及
S1.3、對(duì)所述xml格式文檔進(jìn)行去噪,獲得所述語(yǔ)料數(shù)據(jù)。
優(yōu)選地,所述步驟S1.1具體包括:
S1.1.1、基于爬蟲框架,根據(jù)設(shè)定的種子請(qǐng)求一個(gè)頁(yè)面,并將有效的URL添加到隊(duì)列中等候處理;
S1.1.2、提取隊(duì)列中等候的第一個(gè)鏈接對(duì)其進(jìn)行頁(yè)面解析,并根據(jù)user-defined-extractor自定義的抽取器提取出有效的文本信息,以鏡像存儲(chǔ)結(jié)構(gòu)存儲(chǔ)到本地;以及
S1.1.3、將頁(yè)面中有效的URL再次加入隊(duì)列等候處理,如此不斷地分析下去,直到最后一個(gè)鏈接無(wú)任何有效鏈接為止,完成一次任務(wù)的抓取,如此不斷循環(huán)往復(fù),直至抓取完所需的預(yù)定網(wǎng)上資源。
其中,所述步驟S1.2中的文檔為pdf文檔、doc文檔、ppt文檔、html文檔、excel文檔以及txt文檔中的一種或多種。
優(yōu)選地,所述步驟S2具體包括:
S2.1、將所述語(yǔ)料數(shù)據(jù)中的句子分解為多個(gè)單詞,并對(duì)所述單詞進(jìn)行詞性批注;
S2.2、基于所述單詞以及詞性批注獲取每個(gè)句子中單詞間的語(yǔ)法修飾關(guān)系,對(duì)滿足獨(dú)立句子結(jié)構(gòu)且符合名詞與名詞搭配、形容詞與名詞搭配、形容詞與兩個(gè)名詞搭配、動(dòng)詞與名詞搭配、名詞與動(dòng)詞搭配、三個(gè)名詞搭配、動(dòng)詞與兩個(gè)名詞搭配、形容詞與動(dòng)詞和名詞搭配以及名詞與動(dòng)詞和名詞搭配的詞組作為備選組合;
S2.3、統(tǒng)計(jì)所有單詞和備選組合在各技術(shù)領(lǐng)域出現(xiàn)的頻率和在所有技術(shù)領(lǐng)域出現(xiàn)的總頻率,并轉(zhuǎn)化為每個(gè)單詞或備選組合的每百萬(wàn)字節(jié)中的標(biāo)準(zhǔn)頻率和總標(biāo)準(zhǔn)頻率;
S2.4、基于所述標(biāo)準(zhǔn)頻率和總標(biāo)準(zhǔn)頻率,對(duì)所有單詞或備選組合進(jìn)行分類,分類項(xiàng)中至少包括領(lǐng)域單詞和領(lǐng)域組合;以及
S2.5、基于語(yǔ)句中領(lǐng)域單詞和/或領(lǐng)域組合間的語(yǔ)法關(guān)系和繼承關(guān)系,從所述語(yǔ)料數(shù)據(jù)中獲得所述模板數(shù)據(jù)。
優(yōu)選地,所述步驟S2.4至少包括:
當(dāng)某單詞的總標(biāo)準(zhǔn)頻率高于一定值Fmax,且在總標(biāo)準(zhǔn)頻率中標(biāo)準(zhǔn)頻率的分布較為均勻,標(biāo)準(zhǔn)差S小于Smin,則認(rèn)定該單詞為常用詞;
當(dāng)某單詞的總標(biāo)準(zhǔn)頻率高于Fmin,且在總標(biāo)準(zhǔn)頻率中,集中分布于個(gè)別領(lǐng)域,則認(rèn)定詞為該個(gè)別領(lǐng)域的所述領(lǐng)域單詞;或
當(dāng)某備選組合不含有常用詞,且該備選組合在語(yǔ)料數(shù)據(jù)中出現(xiàn)的總標(biāo)準(zhǔn)頻率大于Fmax,且在總標(biāo)準(zhǔn)頻率中,集中分布于個(gè)別領(lǐng)域,則認(rèn)定該備選組合為該個(gè)別領(lǐng)域的所述領(lǐng)域組合。
優(yōu)選地,所述步驟S3具體包括:
S3.1、基于正則表達(dá)式遍歷所述語(yǔ)料數(shù)據(jù),獲得含有所述模板數(shù)據(jù)中繼承關(guān)系的句子,并映射到所述模板數(shù)據(jù)中的基礎(chǔ)關(guān)系概念對(duì);
S3.2、對(duì)所述步驟S3.1獲得的每一個(gè)句子進(jìn)行分詞并抽取在語(yǔ)料數(shù)據(jù)中經(jīng)常出現(xiàn)的單詞、備選組合和表達(dá)方式,計(jì)算每種表達(dá)方式在所有語(yǔ)句中所占比率,選取比率大于一定值F的表達(dá)方式,作為備選句;
S3.3、返回語(yǔ)料數(shù)據(jù)驗(yàn)證所述備選句用于表達(dá)繼承關(guān)系的句子所占概率,若概率超過閾值,則認(rèn)定該備選句為可作為企業(yè)質(zhì)量信用數(shù)據(jù)的所述關(guān)鍵數(shù)據(jù);以及
S3.4、集合所有所述關(guān)鍵數(shù)據(jù)作為企業(yè)質(zhì)量信用數(shù)據(jù)。
本發(fā)明還提供一種企業(yè)質(zhì)量信用數(shù)據(jù)獲取系統(tǒng),包括:
語(yǔ)料獲取裝置,對(duì)與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理,得到語(yǔ)料數(shù)據(jù);
模板獲取裝置,與所述語(yǔ)料獲取裝置連接,對(duì)所述語(yǔ)料數(shù)據(jù)進(jìn)行知識(shí)挖掘,得到模板數(shù)據(jù);以及
信用數(shù)據(jù)獲取裝置,與所述語(yǔ)料獲取裝置和模板獲取裝置連接,從所述語(yǔ)料數(shù)據(jù)中提取與所述模板數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵數(shù)據(jù),作為企業(yè)質(zhì)量信用數(shù)據(jù)。
優(yōu)選地,所述語(yǔ)料獲取裝置包括:
搜集模塊,從網(wǎng)絡(luò)資源中獲取各技術(shù)領(lǐng)域中與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù);
抓取模塊,與所述搜集模塊連接,抓取所述數(shù)據(jù)中的文檔轉(zhuǎn)換為xml格式文檔;以及
語(yǔ)料模塊,對(duì)所述xml格式文檔進(jìn)行去噪,獲得所述語(yǔ)料數(shù)據(jù)。
本發(fā)明至少包括以下有益效果:本發(fā)明克服了依靠人工獲取企業(yè)質(zhì)量信用信息的方式,效率高,并且數(shù)據(jù)從整個(gè)互聯(lián)網(wǎng)獲得,具有一致性、準(zhǔn)確性以及全面性。通過計(jì)算機(jī)自動(dòng)提取相關(guān)信息并基于語(yǔ)法關(guān)系、邏輯關(guān)系進(jìn)行二次抽取和重新組織,使得企業(yè)質(zhì)量信用信息的有效內(nèi)容更多,更精確。
本發(fā)明的其它優(yōu)點(diǎn)、目標(biāo)和特征將部分通過下面的說明體現(xiàn),部分還將通過對(duì)本發(fā)明的研究和實(shí)踐而為本領(lǐng)域的技術(shù)人員所理解。
具體實(shí)施方式
下面結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。
需要說明的是,下述實(shí)施方案中所述實(shí)驗(yàn)方法,如無(wú)特殊說明,均為常規(guī)方法,不能理解為對(duì)本發(fā)明的限制。
本發(fā)明提供一種海量的企業(yè)質(zhì)量信用評(píng)價(jià)數(shù)據(jù)依靠人工上報(bào)來(lái)獲取,效率低下,費(fèi)時(shí)費(fèi)力,并且數(shù)據(jù)質(zhì)量與人工知識(shí)和經(jīng)驗(yàn)有很大關(guān)系,無(wú)法確保數(shù)據(jù)獲取的一致性、準(zhǔn)確性和全面性。本課題采用了一種計(jì)算機(jī)自動(dòng)化提取處理和和人工校核完善相結(jié)合的方法進(jìn)行提取,提高了技術(shù)指標(biāo)提取效率,節(jié)省了大量人力,確保項(xiàng)目按時(shí)完成。
該方法主要包括企業(yè)質(zhì)量信用數(shù)據(jù)和資料預(yù)處理(語(yǔ)料收集、信息抽取、信息去噪)、知識(shí)挖掘(領(lǐng)域概念識(shí)別、概念關(guān)系抽取和數(shù)據(jù)模板生成)和關(guān)鍵數(shù)據(jù)提取(文本識(shí)別、內(nèi)容提取)。
首先通過本地資源和互聯(lián)網(wǎng)信息抓取等多種途徑獲取企業(yè)質(zhì)量信用數(shù)據(jù)和資料;第二,對(duì)所獲得的領(lǐng)域資料進(jìn)行預(yù)處理,去除標(biāo)簽、亂碼、頁(yè)眉和頁(yè)腳等無(wú)用信息,同時(shí)確保有用信息被完整保留;第三,對(duì)經(jīng)過預(yù)處理的語(yǔ)料信息進(jìn)行知識(shí)挖掘,包括領(lǐng)域概念的識(shí)別、領(lǐng)域關(guān)系抽取、摘要關(guān)鍵詞抽取和關(guān)鍵信息,第四,對(duì)知識(shí)挖掘獲得的概念、屬性、關(guān)系和規(guī)則等進(jìn)行處理,形成海量的質(zhì)量信用檔案數(shù)據(jù)庫(kù)。
資料預(yù)處理包括:數(shù)據(jù)收集、信息抽取、信息去噪。
(1)數(shù)據(jù)收集
系統(tǒng)分析所需語(yǔ)料通過本地資源和網(wǎng)絡(luò)資源兩種途徑獲得。本地資源:主要指用戶本地電腦或服務(wù)器存儲(chǔ)的和互聯(lián)網(wǎng)等各類文檔資源;網(wǎng)絡(luò)資源:通過網(wǎng)絡(luò)爬蟲工具從互聯(lián)網(wǎng)抓取的標(biāo)準(zhǔn)相關(guān)技術(shù)領(lǐng)域的文檔資料。
網(wǎng)絡(luò)資源獲取采用爬蟲框架,根據(jù)設(shè)定的種子去請(qǐng)求一個(gè)頁(yè)面,并將有效的URL添加到隊(duì)列中等候處理,然后提取隊(duì)列中等候的第一個(gè)鏈接對(duì)其進(jìn)行頁(yè)面解析,并根據(jù)user-defined-extractor自定義的抽取器提取出有效的文本信息,以鏡像存儲(chǔ)結(jié)構(gòu)存儲(chǔ)到本地。同時(shí)將頁(yè)面中有效的URL再次加入隊(duì)列等候處理,如此不斷地分析下去,直到最后一個(gè)鏈接無(wú)任何有效鏈接為止,完成一次任務(wù)的抓取,如此不斷循環(huán)往復(fù),直至抓取完所需的預(yù)定網(wǎng)上資源。
(2)信息抽取
信息抽取模塊能夠?qū)崿F(xiàn)對(duì)本地資源和網(wǎng)絡(luò)抓取的語(yǔ)料庫(kù)中的Web頁(yè)面、pdf、doc、ppt、html、excel、txt等常見的文檔文件中信息進(jìn)行抽取,轉(zhuǎn)化為xml格式文檔,如下示例:(在“<抽取信息>”與“</抽取信息>”之間部分)。
<抽取信息>
…
<p>2015年下半年,根據(jù)LV集團(tuán)提供的線索,發(fā)現(xiàn)阿里巴巴集團(tuán)旗下平臺(tái)在售的一批國(guó)際品牌“LV”圍巾涉嫌為假冒產(chǎn)品。電商12365中心啟動(dòng)網(wǎng)上執(zhí)法抽樣,會(huì)同阿里巴巴大數(shù)據(jù)分析。國(guó)家質(zhì)檢總局執(zhí)法督查司在經(jīng)過電商12365中心聯(lián)系阿里巴巴集團(tuán)、LV集團(tuán)中國(guó)區(qū)進(jìn)行真?zhèn)舞b定后,組織杭州市質(zhì)量技術(shù)監(jiān)督局對(duì)涉案的一家名為杭州姿特服飾有限公司的生產(chǎn)場(chǎng)所和四個(gè)倉(cāng)庫(kù)開展突擊執(zhí)法檢查?,F(xiàn)場(chǎng)查獲涉嫌仿冒LV、Burberry、Hermes、Chanel等國(guó)際品牌圍巾23966條、標(biāo)簽2994套,認(rèn)定涉案貨值60萬(wàn)元(市場(chǎng)價(jià)約數(shù)百萬(wàn)元,按真品價(jià)格計(jì)約1.67億元)。質(zhì)監(jiān)部門已移送當(dāng)?shù)毓矙C(jī)關(guān)處理。阿里巴巴集團(tuán)據(jù)此對(duì)其旗下平臺(tái)上的網(wǎng)店內(nèi)銷售的假冒偽劣產(chǎn)品作出主動(dòng)下架處理。</p>
</div>
…
</抽取信息>。
(3)信息去噪
信息去噪模塊能夠?qū)⒊槿〉男畔⑦M(jìn)行去噪處理,解決標(biāo)題與下一行粘接、一個(gè)句子被分為多個(gè)部分、亂碼、數(shù)字等問題的識(shí)別規(guī)則函數(shù)集,用以識(shí)別處理,梳理出完整規(guī)范的句子結(jié)構(gòu)。并保存為經(jīng)統(tǒng)一命名的文件。例如對(duì)以上示例信息抽取,獲得如下信息:經(jīng)去噪處理后的結(jié)果如下(在“<去噪結(jié)果>”與“</去噪結(jié)果>”之間部分):
<去噪結(jié)果>
國(guó)家質(zhì)檢總局執(zhí)法督查司在經(jīng)過電商12365中心聯(lián)系阿里巴巴集團(tuán)、LV集團(tuán)中國(guó)區(qū)進(jìn)行真?zhèn)舞b定后,組織杭州市質(zhì)量技術(shù)監(jiān)督局對(duì)涉案的一家名為杭州姿特服飾有限公司的生產(chǎn)場(chǎng)所和四個(gè)倉(cāng)庫(kù)開展突擊執(zhí)法檢查?,F(xiàn)場(chǎng)查獲涉嫌仿冒LV、Burberry、Hermes、Chanel等國(guó)際品牌圍巾23966條、標(biāo)簽2994套,認(rèn)定涉案貨值60萬(wàn)元(市場(chǎng)價(jià)約數(shù)百萬(wàn)元,按真品價(jià)格計(jì)約1.67億元)。質(zhì)監(jiān)部門已移送當(dāng)?shù)毓矙C(jī)關(guān)處理。阿里巴巴集團(tuán)據(jù)此對(duì)其旗下平臺(tái)上的網(wǎng)店內(nèi)銷售的假冒偽劣產(chǎn)品作出主動(dòng)下架處理。
關(guān)鍵詞:執(zhí)法抽樣仿冒偽劣
</去噪結(jié)果>。
4.3.2基于知識(shí)挖掘分析的數(shù)據(jù)清洗
知識(shí)挖掘分析包括概念識(shí)別、概念關(guān)系抽取和智能識(shí)別。
(1)概念識(shí)別
概念識(shí)別主要包括企業(yè)語(yǔ)料庫(kù)、信息預(yù)處理、智能分詞、句法分析、遺傳規(guī)劃和半監(jiān)督學(xué)習(xí)相結(jié)合的企業(yè)質(zhì)量信用評(píng)估研究報(bào)告詞匯統(tǒng)計(jì)、詞類識(shí)別。
企業(yè)語(yǔ)料庫(kù)
企業(yè)語(yǔ)料庫(kù)指從網(wǎng)絡(luò)獲取的質(zhì)量信用可能有關(guān)的文字信息。
信息預(yù)處理
用于對(duì)企業(yè)語(yǔ)料庫(kù)中的文本進(jìn)行信息抽取、信息去噪等簡(jiǎn)單處理,并以句為單位進(jìn)行下一步處理。
③智能分詞
調(diào)用分詞工具,對(duì)通過第二步獲得的經(jīng)過信息去噪后的文檔進(jìn)行分詞和詞性標(biāo)注。
④句法分析
調(diào)用句法分析工具,獲取每個(gè)句子中詞與詞之間的句法修飾關(guān)系,對(duì)滿足獨(dú)立句子結(jié)構(gòu)塊且符合“/noun+/noun”、“/adj+/noun”、“/adj+/noun+/noun”、“/v+/noun”、“/noun+/v”、“/noun+/noun+/noun”、“/v+/noun+/noun”、“/adj+/v+/noun”、“/noun+/v+/noun”等組合詞結(jié)構(gòu)的詞組,標(biāo)記為備選組合概念。作為備選組合概念字?jǐn)?shù)也有一定限制,一般在3個(gè)與8個(gè)漢字之間。如“金融危機(jī)”、“次級(jí)貸款”、“貸款人”、“中國(guó)移動(dòng)”、“個(gè)人信用公司”、“抵押貸款公司”、“專業(yè)融資公司”、“貸款擔(dān)保公司”等。
獨(dú)立句子結(jié)構(gòu)塊即在一個(gè)句子中,該結(jié)構(gòu)塊內(nèi)的多個(gè)詞中有且僅有一個(gè)詞(被看作該句子結(jié)構(gòu)塊的中心詞)依存于該結(jié)構(gòu)塊外句子的其它詞,該結(jié)構(gòu)塊內(nèi)的其他詞直接或間接依存于該句子結(jié)構(gòu)塊的中心詞。如:“抵押貸款公司是一家獨(dú)立法人機(jī)構(gòu)?!?/p>
句法分析結(jié)果為:
“抵押/0/v/1/ATT貸款/1/n/2/ATT公司/2/n/3/SBV是
/3/v/ROOT/HED一/4/m/5/QUN家/5/q/8/ATT獨(dú)立/6/a/8/ATT法遺傳規(guī)劃和半監(jiān)督學(xué)習(xí)相結(jié)合的企業(yè)質(zhì)量信用評(píng)估研究報(bào)告
人/7/n/8/ATT機(jī)構(gòu)/8/n/3/VOB。/9/wp/-1”。
由斜杠“/”分開的各部分所代表的含義為:“詞/詞序/詞性/依存詞/依存關(guān)系”。其中v、n、m、q、a和wp分別代表動(dòng)詞、名詞、數(shù)詞、量詞、形容詞和標(biāo)點(diǎn)符號(hào),ATT、SBV、HED、QUN、VOB分別代表定語(yǔ)修飾語(yǔ)關(guān)系、主謂關(guān)系、句子中心詞、數(shù)量關(guān)系和動(dòng)賓關(guān)系。在該例句中抵押貸款公司和獨(dú)立法人機(jī)構(gòu)符合獨(dú)立句子結(jié)構(gòu)塊要求,且有相應(yīng)的組合詞結(jié)構(gòu)模版,因此標(biāo)記為備選組合概念。
⑤詞匯統(tǒng)計(jì)
通過對(duì)企業(yè)語(yǔ)料庫(kù)中各技術(shù)領(lǐng)域的語(yǔ)料進(jìn)行分析,統(tǒng)計(jì)出所有單詞詞匯和備選組合概念在各技術(shù)領(lǐng)域出現(xiàn)的頻率和總標(biāo)準(zhǔn)頻率,并轉(zhuǎn)化為每百萬(wàn)字節(jié)的標(biāo)準(zhǔn)頻率和總標(biāo)準(zhǔn)頻率。
⑥詞類識(shí)別
通過對(duì)單詞詞匯和備選組合概念的頻率和總標(biāo)準(zhǔn)頻率的相關(guān)計(jì)算,找出常用詞、稀有詞、一般詞、領(lǐng)域單詞概念、一般組合概念和領(lǐng)域組合概念等類別。
(2)領(lǐng)域關(guān)系抽取
“概念關(guān)系抽取”基于規(guī)則抽取核心語(yǔ)句中領(lǐng)域概念間的關(guān)系,包括主謂、動(dòng)賓、本體層次關(guān)系等,形成概念知識(shí)關(guān)系網(wǎng),并保存為Ajax支持的xml語(yǔ)法格式,通過統(tǒng)一數(shù)據(jù)訪問接口保存到知識(shí)提取庫(kù),包括
同義詞庫(kù)、提取規(guī)則庫(kù)、數(shù)量單位詞匯庫(kù)。
關(guān)系抽取,通過設(shè)定繼承關(guān)系、同義詞關(guān)系、屬性關(guān)系和實(shí)例關(guān)系等各類概念間關(guān)系和相關(guān)的模式匹配規(guī)則,對(duì)網(wǎng)絡(luò)抓取資料進(jìn)行處理,提取各網(wǎng)頁(yè)中蘊(yùn)含的概念關(guān)系。抽取的知識(shí)和關(guān)系具體包括層次繼承關(guān)系、同義詞關(guān)系、屬性關(guān)系和實(shí)例關(guān)系等。相關(guān)例句如下:
繼承關(guān)系:<核心語(yǔ)句>某些項(xiàng)目成果,如專利、論文、專著、標(biāo)準(zhǔn)、新產(chǎn)品、新技術(shù)等</核心語(yǔ)句>。
提取結(jié)果:<關(guān)系>專利is-a項(xiàng)目成果;論文is-a項(xiàng)目成果;專著is-a項(xiàng)目成果;標(biāo)準(zhǔn)is-a項(xiàng)目成果;新產(chǎn)品is-a項(xiàng)目成果;新技術(shù)is-a項(xiàng)目成果</關(guān)系>。
同義詞關(guān)系:<核心語(yǔ)句>項(xiàng)目進(jìn)度管理也稱為項(xiàng)目時(shí)間管理,工作分解結(jié)構(gòu)即WBS</核心語(yǔ)句>。
提取結(jié)果:<關(guān)系>項(xiàng)目進(jìn)度管理same-as項(xiàng)目時(shí)間管理;工作分解結(jié)構(gòu)same-as WBS</關(guān)系>。
同義詞關(guān)系抽取規(guī)則:A+簡(jiǎn)稱|又稱|又稱為|亦稱|又叫|也稱|也稱為|參見|見|亦作|全名|古之|今之|習(xí)稱|俗稱|稱之為|即為|故稱|原名|又名|即|謂之+B,其中A、B需符合一定規(guī)則要求,如字?jǐn)?shù)必須小于5個(gè),A和B需要有一個(gè)為用戶自定義詞典詞匯或領(lǐng)域識(shí)別詞匯。
繼承關(guān)系抽取規(guī)則有如下幾種:
1.<某些>N0<如>Nl N2,...,<及|或|和>Ni<等>。例句:“某些體育運(yùn)動(dòng),如籃球、排球、足球等,...,”。
2.N0<可以分為>Nl N2,…,<及|和>Ni<等>。例句:“金融危機(jī)可以分為貨幣危機(jī)、債務(wù)危機(jī)、銀行危機(jī)等類型?!?/p>
3.N0<包含|包括|含有>Nl N2,…,<及|和>Ni(等><幾|三|五..數(shù)詞><種|類|個(gè)組成部分...量詞>。
4.N0<有>Nl N2,…,<及|和>Ni(等><幾|三|五...數(shù)詞><種|類|個(gè)組成部分...量詞)。
5.NO<是由|由>N1N2,...,Ni<組成>。例句:“聯(lián)合王國(guó)是由大不列顛和北愛爾蘭組成”。
6.NO<是><一...數(shù)詞><個(gè)|種|條...量詞>.....N1。例句:“java是一種面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言”。
7.N1N2...Ni<組成了>N0。
企業(yè)質(zhì)量信用數(shù)據(jù)生成相關(guān)的算法的詳細(xì)處理流程包括:語(yǔ)料庫(kù)、語(yǔ)料預(yù)處理、相關(guān)語(yǔ)句提取、句式自動(dòng)聚類、驗(yàn)證等。該算法可以用于數(shù)據(jù)獲取學(xué)習(xí)、領(lǐng)域概念識(shí)別模版學(xué)習(xí)、繼承關(guān)系表達(dá)模版學(xué)習(xí)、同義詞表達(dá)模版學(xué)習(xí)、屬性表達(dá)模版學(xué)習(xí)等。
本算法的基本思想是首先有一個(gè)較為規(guī)范的企業(yè)質(zhì)量信用檔案庫(kù)和知識(shí)庫(kù);其次通過正則表達(dá)式找出語(yǔ)料庫(kù)中含有知識(shí)庫(kù)中相關(guān)知識(shí)關(guān)系的句子(如含有同義詞庫(kù)中同義詞對(duì)的所有表達(dá)句子);通過自動(dòng)聚類、統(tǒng)計(jì),找出漢語(yǔ)中表達(dá)此種關(guān)系(如同義詞關(guān)系)的所有表達(dá)方式(表達(dá)模版);由于每種表達(dá)方式可能表達(dá)多種意思,需要選擇出現(xiàn)概率較大的表達(dá)方式返回全景語(yǔ)料庫(kù)進(jìn)行驗(yàn)證,求出每種表達(dá)方式僅表達(dá)此一種關(guān)系(如同義詞關(guān)系)的概率,選擇概率較大的表達(dá)方法即為通過該規(guī)則模版統(tǒng)計(jì)算法自動(dòng)選出的模版?,F(xiàn)以繼承關(guān)系表達(dá)模版學(xué)習(xí)為例對(duì)該算法的執(zhí)行進(jìn)行詳細(xì)描述,具體如下:
企業(yè)語(yǔ)料庫(kù):企業(yè)語(yǔ)料庫(kù)為各個(gè)渠道獲取的含有企業(yè)質(zhì)量信用檔案評(píng)價(jià)所需的資料信息;知識(shí)庫(kù)為包含詞匯繼承關(guān)系層次樹庫(kù)、同義詞庫(kù)、數(shù)據(jù)提取規(guī)則庫(kù)在內(nèi)的知識(shí)庫(kù)。
語(yǔ)料預(yù)處理:對(duì)企業(yè)語(yǔ)料庫(kù)的處理和前文相同,在此不再累述;對(duì)知識(shí)庫(kù)的處理表現(xiàn)為提取規(guī)范知識(shí)庫(kù)中的所有概念和關(guān)系,建立一個(gè)關(guān)于知識(shí)關(guān)系的數(shù)據(jù)結(jié)構(gòu)隊(duì)列。
相關(guān)語(yǔ)句提?。翰捎谜齽t表達(dá)式遍歷經(jīng)語(yǔ)料預(yù)處理后的全景語(yǔ)料庫(kù)內(nèi)容,找出含有規(guī)范知識(shí)庫(kù)中繼承關(guān)系概念對(duì)的句子,統(tǒng)一保存,并映射到知識(shí)庫(kù)中的繼承關(guān)系概念對(duì)上。
句式自動(dòng)聚類:對(duì)抽取的相關(guān)語(yǔ)句進(jìn)行智能分詞、句法分析,識(shí)別并統(tǒng)計(jì)在相關(guān)語(yǔ)句中經(jīng)常出現(xiàn)的詞匯、詞組和表達(dá)式,計(jì)算出每種表達(dá)方式在所有相關(guān)語(yǔ)句中所占比率fj,選出比率大于一定值F的表達(dá)方式,作為表達(dá)該語(yǔ)義的備選句法模版。
模版編輯校正:對(duì)各備選句法模版進(jìn)行人工核實(shí)、編輯和校正,刪除干擾信息,保存提取的新的句法模版。
模版驗(yàn)證:由于每種表達(dá)方式可能用于表達(dá)多種意思,因此需要返遺傳規(guī)劃和半監(jiān)督學(xué)習(xí)相結(jié)合的企業(yè)質(zhì)量信用評(píng)估研究報(bào)告回全景語(yǔ)料庫(kù)驗(yàn)證該句法模版用來(lái)表達(dá)繼承關(guān)系的句子所占概率,如果概率較大,則可認(rèn)定該模版為通過該規(guī)則模版統(tǒng)計(jì)算法挖掘出的新的規(guī)則模版。
在一個(gè)實(shí)施例中,本發(fā)明提供一種企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法,包括:
S1、對(duì)與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理,得到語(yǔ)料數(shù)據(jù);
S2、對(duì)所述語(yǔ)料數(shù)據(jù)進(jìn)行知識(shí)挖掘,得到模板數(shù)據(jù);以及
S3、從所述語(yǔ)料數(shù)據(jù)中提取與所述模板數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵數(shù)據(jù),作為企業(yè)質(zhì)量信用數(shù)據(jù)。
在一個(gè)實(shí)施例中,所述步驟S1具體包括:
S1.1、從網(wǎng)絡(luò)資源中獲取各技術(shù)領(lǐng)域中與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù);
S1.2、抓取所述數(shù)據(jù)中的文檔轉(zhuǎn)換為xml格式文檔;以及
S1.3、對(duì)所述xml格式文檔進(jìn)行去噪,獲得所述語(yǔ)料數(shù)據(jù)。
通過網(wǎng)絡(luò)資源獲取與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)能保證所獲得的數(shù)據(jù)非常全面和及時(shí),再通過對(duì)文檔進(jìn)行去噪,便于后續(xù)步驟的處理,梳理出完整規(guī)范的句子結(jié)構(gòu)。
優(yōu)選地,所述步驟S1.1具體包括:
S1.1.1、基于爬蟲框架,根據(jù)設(shè)定的種子請(qǐng)求一個(gè)頁(yè)面,并將有效的URL添加到隊(duì)列中等候處理;
S1.1.2、提取隊(duì)列中等候的第一個(gè)鏈接對(duì)其進(jìn)行頁(yè)面解析,并根據(jù)user-defined-extractor自定義的抽取器提取出有效的文本信息,以鏡像存儲(chǔ)結(jié)構(gòu)存儲(chǔ)到本地;以及
S1.1.3、將頁(yè)面中有效的URL再次加入隊(duì)列等候處理,如此不斷地分析下去,直到最后一個(gè)鏈接無(wú)任何有效鏈接為止,完成一次任務(wù)的抓取,如此不斷循環(huán)往復(fù),直至抓取完所需的預(yù)定網(wǎng)上資源。
本方法能夠使爬蟲采集的速度更快,易于管理。
其中,所述步驟S1.2中的文檔為pdf文檔、doc文檔、ppt文檔、html文檔、excel文檔以及txt文檔中的一種或多種。
通過拓展文檔的類型,盡可能多的獲取互聯(lián)網(wǎng)上出現(xiàn)的相關(guān)數(shù)據(jù)。
在一個(gè)實(shí)施例中,所述步驟S2具體包括:
S2.1、將所述語(yǔ)料數(shù)據(jù)中的句子分解為多個(gè)單詞,并對(duì)所述單詞進(jìn)行詞性批注;
S2.2、基于所述單詞以及詞性批注獲取每個(gè)句子中單詞間的語(yǔ)法修飾關(guān)系,對(duì)滿足獨(dú)立句子結(jié)構(gòu)且符合名詞與名詞搭配、形容詞與名詞搭配、形容詞與兩個(gè)名詞搭配、動(dòng)詞與名詞搭配、名詞與動(dòng)詞搭配、三個(gè)名詞搭配、動(dòng)詞與兩個(gè)名詞搭配、形容詞與動(dòng)詞和名詞搭配以及名詞與動(dòng)詞和名詞搭配的詞組作為備選組合;
S2.3、統(tǒng)計(jì)所有單詞和備選組合在各技術(shù)領(lǐng)域出現(xiàn)的頻率和在所有技術(shù)領(lǐng)域出現(xiàn)的總頻率,并轉(zhuǎn)化為每個(gè)單詞或備選組合的每百萬(wàn)字節(jié)中的標(biāo)準(zhǔn)頻率和總標(biāo)準(zhǔn)頻率;
S2.4、基于所述標(biāo)準(zhǔn)頻率和總標(biāo)準(zhǔn)頻率,對(duì)所有單詞或備選組合進(jìn)行分類,分類項(xiàng)中至少包括領(lǐng)域單詞和領(lǐng)域組合;以及
S2.5、基于語(yǔ)句中領(lǐng)域單詞和/或領(lǐng)域組合間的語(yǔ)法關(guān)系和繼承關(guān)系,從所述語(yǔ)料數(shù)據(jù)中獲得所述模板數(shù)據(jù)。
通過把語(yǔ)料數(shù)據(jù)分解為一個(gè)個(gè)的單詞,再進(jìn)一步根據(jù)領(lǐng)域的不同獲得領(lǐng)域單詞和領(lǐng)域組合,使質(zhì)量信用數(shù)據(jù)的獲取更加精確。
在一個(gè)實(shí)施例中,所述步驟S2.4至少包括:
當(dāng)某單詞的總標(biāo)準(zhǔn)頻率高于一定值Fmax,且在總標(biāo)準(zhǔn)頻率中標(biāo)準(zhǔn)頻率的分布較為均勻,標(biāo)準(zhǔn)差S小于Smin,則認(rèn)定該單詞為常用詞;
當(dāng)某單詞的總標(biāo)準(zhǔn)頻率低于一定值Fmin,且在總標(biāo)準(zhǔn)頻率中標(biāo)準(zhǔn)頻率的分布較為均勻,標(biāo)準(zhǔn)差S小于Smin,則認(rèn)定該單詞為稀有詞;
當(dāng)某單詞的總標(biāo)準(zhǔn)頻率介于Fmin和Fmax之間,且標(biāo)準(zhǔn)頻率的分布較為均勻,標(biāo)準(zhǔn)差S小于Smin,則認(rèn)定該單詞為一般詞;
當(dāng)某單詞的總標(biāo)準(zhǔn)頻率高于Fmin,且在總標(biāo)準(zhǔn)頻率中,標(biāo)準(zhǔn)頻率集中分布于個(gè)別領(lǐng)域,則認(rèn)定詞為該個(gè)別領(lǐng)域的所述領(lǐng)域單詞;
當(dāng)某備選組合不含有常用詞,且該備選組合在第一數(shù)據(jù)中出現(xiàn)的總標(biāo)準(zhǔn)頻率大于Fmin,在各技術(shù)領(lǐng)域出現(xiàn)的標(biāo)準(zhǔn)頻率較為均勻,標(biāo)準(zhǔn)差S小于Smin,則認(rèn)定該備選組合為一般組合;或
當(dāng)某備選組合不含有常用詞,且該備選組合在第一數(shù)據(jù)中出現(xiàn)的總標(biāo)準(zhǔn)頻率大于Fmax,且在總標(biāo)準(zhǔn)頻率中,標(biāo)準(zhǔn)頻率集中分布于個(gè)別領(lǐng)域,則認(rèn)定該備選組合為該個(gè)別領(lǐng)域的所述領(lǐng)域?qū)S薪M合。
在一個(gè)實(shí)施例中,所述步驟S3具體包括:
S3.1、基于正則表達(dá)式遍歷所述語(yǔ)料數(shù)據(jù),獲得含有所述模板數(shù)據(jù)中繼承關(guān)系的句子,并映射到所述模板數(shù)據(jù)中的基礎(chǔ)關(guān)系概念對(duì);
S3.2、對(duì)所述步驟S3.1獲得的每一個(gè)句子進(jìn)行分詞并抽取在語(yǔ)料數(shù)據(jù)中經(jīng)常出現(xiàn)的單詞、備選組合和表達(dá)方式,計(jì)算每種表達(dá)方式在所有語(yǔ)句中所占比率,選取比率大于一定值F的表達(dá)方式,作為備選句;
S3.3、返回語(yǔ)料數(shù)據(jù)驗(yàn)證所述備選句用于表達(dá)繼承關(guān)系的句子所占概率,若概率超過閾值,則認(rèn)定該備選句為可作為企業(yè)質(zhì)量信用數(shù)據(jù)的所述關(guān)鍵數(shù)據(jù);以及
S3.4、集合所有所述關(guān)鍵數(shù)據(jù)作為企業(yè)質(zhì)量信用數(shù)據(jù)。
本發(fā)明還提供一種企業(yè)質(zhì)量信用數(shù)據(jù)獲取系統(tǒng),包括:
語(yǔ)料獲取裝置,對(duì)與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理,得到語(yǔ)料數(shù)據(jù);
模板獲取裝置,與所述語(yǔ)料獲取裝置連接,對(duì)所述語(yǔ)料數(shù)據(jù)進(jìn)行知識(shí)挖掘,得到模板數(shù)據(jù);以及
信用數(shù)據(jù)獲取裝置,與所述語(yǔ)料獲取裝置和模板獲取裝置連接,從所述語(yǔ)料數(shù)據(jù)中提取與所述模板數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵數(shù)據(jù),作為企業(yè)質(zhì)量信用數(shù)據(jù)。
在一個(gè)實(shí)施例中,所述語(yǔ)料獲取裝置包括:
搜集模塊,從網(wǎng)絡(luò)資源中獲取各技術(shù)領(lǐng)域中與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù);
抓取模塊,與所述搜集模塊連接,抓取所述數(shù)據(jù)中的文檔轉(zhuǎn)換為xml格式文檔;以及
語(yǔ)料模塊,對(duì)所述xml格式文檔進(jìn)行去噪,獲得所述語(yǔ)料數(shù)據(jù)。
本發(fā)明至少包括以下有益效果:本發(fā)明克服了依靠人工獲取企業(yè)質(zhì)量信用信息的方式,效率高,并且數(shù)據(jù)從整個(gè)互聯(lián)網(wǎng)獲得,具有一致性、準(zhǔn)確性以及全面性。通過計(jì)算機(jī)自動(dòng)提取相關(guān)信息并基于語(yǔ)法關(guān)系、邏輯關(guān)系進(jìn)行二次抽取和重新組織,使得企業(yè)質(zhì)量信用信息的有效內(nèi)容更多,更精確。
盡管本發(fā)明的實(shí)施方案已公開如上,但其并不僅僅限于說明書和實(shí)施方式中所列運(yùn)用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對(duì)于熟悉本領(lǐng)域的人員而言,可容易地實(shí)現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的實(shí)施例。