企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法和系統(tǒng)與流程

文檔序號(hào)：12465554閱讀：312來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)獲取技術(shù)領(lǐng)域，更具體地，涉及企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法和系統(tǒng)。

背景技術(shù)：

關(guān)于質(zhì)量信用中國(guó)產(chǎn)品質(zhì)量協(xié)會(huì)對(duì)質(zhì)量信用給出較為權(quán)威的定義。質(zhì)量信用是指企業(yè)在產(chǎn)品(服務(wù))質(zhì)量方面的信用狀況，既是企業(yè)履行其產(chǎn)品(服務(wù))質(zhì)量承諾的能力和程度，又表達(dá)了顧客的需求，這就要求必須具有法律規(guī)定的可靠性，能滿足法律規(guī)定的信用原則，包括滿足《產(chǎn)品質(zhì)量法》和《合同法》等有關(guān)法律法規(guī)的要求。企業(yè)質(zhì)量信用是我國(guó)企業(yè)在生產(chǎn)經(jīng)營(yíng)活動(dòng)中遵守我國(guó)相關(guān)的質(zhì)量法律法規(guī)、貫徹執(zhí)行相關(guān)的標(biāo)準(zhǔn)、兌現(xiàn)質(zhì)量承諾的能力成熟度。

海量的企業(yè)質(zhì)量信用評(píng)價(jià)數(shù)據(jù)依靠人工上報(bào)來(lái)獲取，效率低下，費(fèi)時(shí)費(fèi)力，并且數(shù)據(jù)質(zhì)量與人工知識(shí)和經(jīng)驗(yàn)有很大關(guān)系，無(wú)法確保數(shù)據(jù)獲取的一致性、準(zhǔn)確性和全面性。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的一個(gè)目的是解決至少上述問題，并提供至少后面將說明的優(yōu)點(diǎn)。

本發(fā)明還有一個(gè)目的是提供一種從互聯(lián)網(wǎng)抓取各自相關(guān)信息，并基于詞匯之間的語(yǔ)法和邏輯關(guān)系獲得的企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法和系統(tǒng)。

為了實(shí)現(xiàn)根據(jù)本發(fā)明的這些目的和其它優(yōu)點(diǎn)，提供了一種企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法，包括：

S1、對(duì)與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理，得到語(yǔ)料數(shù)據(jù)；

S2、對(duì)所述語(yǔ)料數(shù)據(jù)進(jìn)行知識(shí)挖掘，得到模板數(shù)據(jù)；以及

S3、從所述語(yǔ)料數(shù)據(jù)中提取與所述模板數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵數(shù)據(jù)，作為企業(yè)質(zhì)量信用數(shù)據(jù)。

優(yōu)選地，所述步驟S1具體包括：

S1.1、從網(wǎng)絡(luò)資源中獲取各技術(shù)領(lǐng)域中與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)；

S1.2、抓取所述數(shù)據(jù)中的文檔轉(zhuǎn)換為xml格式文檔；以及

S1.3、對(duì)所述xml格式文檔進(jìn)行去噪，獲得所述語(yǔ)料數(shù)據(jù)。

優(yōu)選地，所述步驟S1.1具體包括：

S1.1.1、基于爬蟲框架，根據(jù)設(shè)定的種子請(qǐng)求一個(gè)頁(yè)面，并將有效的URL添加到隊(duì)列中等候處理；

S1.1.2、提取隊(duì)列中等候的第一個(gè)鏈接對(duì)其進(jìn)行頁(yè)面解析，并根據(jù)user-defined-extractor自定義的抽取器提取出有效的文本信息，以鏡像存儲(chǔ)結(jié)構(gòu)存儲(chǔ)到本地；以及

S1.1.3、將頁(yè)面中有效的URL再次加入隊(duì)列等候處理，如此不斷地分析下去，直到最后一個(gè)鏈接無(wú)任何有效鏈接為止，完成一次任務(wù)的抓取，如此不斷循環(huán)往復(fù)，直至抓取完所需的預(yù)定網(wǎng)上資源。

其中，所述步驟S1.2中的文檔為pdf文檔、doc文檔、ppt文檔、html文檔、excel文檔以及txt文檔中的一種或多種。

優(yōu)選地，所述步驟S2具體包括：

S2.1、將所述語(yǔ)料數(shù)據(jù)中的句子分解為多個(gè)單詞，并對(duì)所述單詞進(jìn)行詞性批注；

S2.2、基于所述單詞以及詞性批注獲取每個(gè)句子中單詞間的語(yǔ)法修飾關(guān)系，對(duì)滿足獨(dú)立句子結(jié)構(gòu)且符合名詞與名詞搭配、形容詞與名詞搭配、形容詞與兩個(gè)名詞搭配、動(dòng)詞與名詞搭配、名詞與動(dòng)詞搭配、三個(gè)名詞搭配、動(dòng)詞與兩個(gè)名詞搭配、形容詞與動(dòng)詞和名詞搭配以及名詞與動(dòng)詞和名詞搭配的詞組作為備選組合；

S2.3、統(tǒng)計(jì)所有單詞和備選組合在各技術(shù)領(lǐng)域出現(xiàn)的頻率和在所有技術(shù)領(lǐng)域出現(xiàn)的總頻率，并轉(zhuǎn)化為每個(gè)單詞或備選組合的每百萬(wàn)字節(jié)中的標(biāo)準(zhǔn)頻率和總標(biāo)準(zhǔn)頻率；

S2.4、基于所述標(biāo)準(zhǔn)頻率和總標(biāo)準(zhǔn)頻率，對(duì)所有單詞或備選組合進(jìn)行分類，分類項(xiàng)中至少包括領(lǐng)域單詞和領(lǐng)域組合；以及

S2.5、基于語(yǔ)句中領(lǐng)域單詞和/或領(lǐng)域組合間的語(yǔ)法關(guān)系和繼承關(guān)系，從所述語(yǔ)料數(shù)據(jù)中獲得所述模板數(shù)據(jù)。

優(yōu)選地，所述步驟S2.4至少包括：

當(dāng)某單詞的總標(biāo)準(zhǔn)頻率高于一定值Fmax，且在總標(biāo)準(zhǔn)頻率中標(biāo)準(zhǔn)頻率的分布較為均勻，標(biāo)準(zhǔn)差S小于Smin，則認(rèn)定該單詞為常用詞；

當(dāng)某單詞的總標(biāo)準(zhǔn)頻率高于Fmin，且在總標(biāo)準(zhǔn)頻率中，集中分布于個(gè)別領(lǐng)域，則認(rèn)定詞為該個(gè)別領(lǐng)域的所述領(lǐng)域單詞；或

當(dāng)某備選組合不含有常用詞，且該備選組合在語(yǔ)料數(shù)據(jù)中出現(xiàn)的總標(biāo)準(zhǔn)頻率大于Fmax，且在總標(biāo)準(zhǔn)頻率中，集中分布于個(gè)別領(lǐng)域，則認(rèn)定該備選組合為該個(gè)別領(lǐng)域的所述領(lǐng)域組合。

優(yōu)選地，所述步驟S3具體包括：

S3.1、基于正則表達(dá)式遍歷所述語(yǔ)料數(shù)據(jù)，獲得含有所述模板數(shù)據(jù)中繼承關(guān)系的句子，并映射到所述模板數(shù)據(jù)中的基礎(chǔ)關(guān)系概念對(duì)；

S3.2、對(duì)所述步驟S3.1獲得的每一個(gè)句子進(jìn)行分詞并抽取在語(yǔ)料數(shù)據(jù)中經(jīng)常出現(xiàn)的單詞、備選組合和表達(dá)方式，計(jì)算每種表達(dá)方式在所有語(yǔ)句中所占比率，選取比率大于一定值F的表達(dá)方式，作為備選句；

S3.3、返回語(yǔ)料數(shù)據(jù)驗(yàn)證所述備選句用于表達(dá)繼承關(guān)系的句子所占概率，若概率超過閾值，則認(rèn)定該備選句為可作為企業(yè)質(zhì)量信用數(shù)據(jù)的所述關(guān)鍵數(shù)據(jù)；以及

S3.4、集合所有所述關(guān)鍵數(shù)據(jù)作為企業(yè)質(zhì)量信用數(shù)據(jù)。

本發(fā)明還提供一種企業(yè)質(zhì)量信用數(shù)據(jù)獲取系統(tǒng)，包括：

語(yǔ)料獲取裝置，對(duì)與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理，得到語(yǔ)料數(shù)據(jù)；

模板獲取裝置，與所述語(yǔ)料獲取裝置連接，對(duì)所述語(yǔ)料數(shù)據(jù)進(jìn)行知識(shí)挖掘，得到模板數(shù)據(jù)；以及

信用數(shù)據(jù)獲取裝置，與所述語(yǔ)料獲取裝置和模板獲取裝置連接，從所述語(yǔ)料數(shù)據(jù)中提取與所述模板數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵數(shù)據(jù)，作為企業(yè)質(zhì)量信用數(shù)據(jù)。

優(yōu)選地，所述語(yǔ)料獲取裝置包括：

搜集模塊，從網(wǎng)絡(luò)資源中獲取各技術(shù)領(lǐng)域中與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)；

抓取模塊，與所述搜集模塊連接，抓取所述數(shù)據(jù)中的文檔轉(zhuǎn)換為xml格式文檔；以及

語(yǔ)料模塊，對(duì)所述xml格式文檔進(jìn)行去噪，獲得所述語(yǔ)料數(shù)據(jù)。

本發(fā)明至少包括以下有益效果：本發(fā)明克服了依靠人工獲取企業(yè)質(zhì)量信用信息的方式，效率高，并且數(shù)據(jù)從整個(gè)互聯(lián)網(wǎng)獲得，具有一致性、準(zhǔn)確性以及全面性。通過計(jì)算機(jī)自動(dòng)提取相關(guān)信息并基于語(yǔ)法關(guān)系、邏輯關(guān)系進(jìn)行二次抽取和重新組織，使得企業(yè)質(zhì)量信用信息的有效內(nèi)容更多，更精確。

本發(fā)明的其它優(yōu)點(diǎn)、目標(biāo)和特征將部分通過下面的說明體現(xiàn)，部分還將通過對(duì)本發(fā)明的研究和實(shí)踐而為本領(lǐng)域的技術(shù)人員所理解。

具體實(shí)施方式

下面結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明，以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。

需要說明的是，下述實(shí)施方案中所述實(shí)驗(yàn)方法，如無(wú)特殊說明，均為常規(guī)方法，不能理解為對(duì)本發(fā)明的限制。

本發(fā)明提供一種海量的企業(yè)質(zhì)量信用評(píng)價(jià)數(shù)據(jù)依靠人工上報(bào)來(lái)獲取，效率低下，費(fèi)時(shí)費(fèi)力，并且數(shù)據(jù)質(zhì)量與人工知識(shí)和經(jīng)驗(yàn)有很大關(guān)系，無(wú)法確保數(shù)據(jù)獲取的一致性、準(zhǔn)確性和全面性。本課題采用了一種計(jì)算機(jī)自動(dòng)化提取處理和和人工校核完善相結(jié)合的方法進(jìn)行提取，提高了技術(shù)指標(biāo)提取效率，節(jié)省了大量人力，確保項(xiàng)目按時(shí)完成。

該方法主要包括企業(yè)質(zhì)量信用數(shù)據(jù)和資料預(yù)處理(語(yǔ)料收集、信息抽取、信息去噪)、知識(shí)挖掘(領(lǐng)域概念識(shí)別、概念關(guān)系抽取和數(shù)據(jù)模板生成)和關(guān)鍵數(shù)據(jù)提取(文本識(shí)別、內(nèi)容提取)。

首先通過本地資源和互聯(lián)網(wǎng)信息抓取等多種途徑獲取企業(yè)質(zhì)量信用數(shù)據(jù)和資料；第二，對(duì)所獲得的領(lǐng)域資料進(jìn)行預(yù)處理，去除標(biāo)簽、亂碼、頁(yè)眉和頁(yè)腳等無(wú)用信息，同時(shí)確保有用信息被完整保留；第三，對(duì)經(jīng)過預(yù)處理的語(yǔ)料信息進(jìn)行知識(shí)挖掘，包括領(lǐng)域概念的識(shí)別、領(lǐng)域關(guān)系抽取、摘要關(guān)鍵詞抽取和關(guān)鍵信息，第四，對(duì)知識(shí)挖掘獲得的概念、屬性、關(guān)系和規(guī)則等進(jìn)行處理，形成海量的質(zhì)量信用檔案數(shù)據(jù)庫(kù)。

資料預(yù)處理包括：數(shù)據(jù)收集、信息抽取、信息去噪。

(1)數(shù)據(jù)收集

系統(tǒng)分析所需語(yǔ)料通過本地資源和網(wǎng)絡(luò)資源兩種途徑獲得。本地資源：主要指用戶本地電腦或服務(wù)器存儲(chǔ)的和互聯(lián)網(wǎng)等各類文檔資源；網(wǎng)絡(luò)資源：通過網(wǎng)絡(luò)爬蟲工具從互聯(lián)網(wǎng)抓取的標(biāo)準(zhǔn)相關(guān)技術(shù)領(lǐng)域的文檔資料。

網(wǎng)絡(luò)資源獲取采用爬蟲框架，根據(jù)設(shè)定的種子去請(qǐng)求一個(gè)頁(yè)面，并將有效的URL添加到隊(duì)列中等候處理，然后提取隊(duì)列中等候的第一個(gè)鏈接對(duì)其進(jìn)行頁(yè)面解析，并根據(jù)user-defined-extractor自定義的抽取器提取出有效的文本信息，以鏡像存儲(chǔ)結(jié)構(gòu)存儲(chǔ)到本地。同時(shí)將頁(yè)面中有效的URL再次加入隊(duì)列等候處理，如此不斷地分析下去，直到最后一個(gè)鏈接無(wú)任何有效鏈接為止，完成一次任務(wù)的抓取，如此不斷循環(huán)往復(fù)，直至抓取完所需的預(yù)定網(wǎng)上資源。

(2)信息抽取

信息抽取模塊能夠?qū)崿F(xiàn)對(duì)本地資源和網(wǎng)絡(luò)抓取的語(yǔ)料庫(kù)中的Web頁(yè)面、pdf、doc、ppt、html、excel、txt等常見的文檔文件中信息進(jìn)行抽取，轉(zhuǎn)化為xml格式文檔，如下示例：(在“<抽取信息>”與“</抽取信息>”之間部分)。

<抽取信息>

…

<p>2015年下半年，根據(jù)LV集團(tuán)提供的線索，發(fā)現(xiàn)阿里巴巴集團(tuán)旗下平臺(tái)在售的一批國(guó)際品牌“LV”圍巾涉嫌為假冒產(chǎn)品。電商12365中心啟動(dòng)網(wǎng)上執(zhí)法抽樣，會(huì)同阿里巴巴大數(shù)據(jù)分析。國(guó)家質(zhì)檢總局執(zhí)法督查司在經(jīng)過電商12365中心聯(lián)系阿里巴巴集團(tuán)、LV集團(tuán)中國(guó)區(qū)進(jìn)行真?zhèn)舞b定后，組織杭州市質(zhì)量技術(shù)監(jiān)督局對(duì)涉案的一家名為杭州姿特服飾有限公司的生產(chǎn)場(chǎng)所和四個(gè)倉(cāng)庫(kù)開展突擊執(zhí)法檢查?，F(xiàn)場(chǎng)查獲涉嫌仿冒LV、Burberry、Hermes、Chanel等國(guó)際品牌圍巾23966條、標(biāo)簽2994套，認(rèn)定涉案貨值60萬(wàn)元(市場(chǎng)價(jià)約數(shù)百萬(wàn)元，按真品價(jià)格計(jì)約1.67億元)。質(zhì)監(jiān)部門已移送當(dāng)?shù)毓矙C(jī)關(guān)處理。阿里巴巴集團(tuán)據(jù)此對(duì)其旗下平臺(tái)上的網(wǎng)店內(nèi)銷售的假冒偽劣產(chǎn)品作出主動(dòng)下架處理。</p>

</div>

…

</抽取信息>。

(3)信息去噪

信息去噪模塊能夠?qū)⒊槿〉男畔⑦M(jìn)行去噪處理，解決標(biāo)題與下一行粘接、一個(gè)句子被分為多個(gè)部分、亂碼、數(shù)字等問題的識(shí)別規(guī)則函數(shù)集，用以識(shí)別處理，梳理出完整規(guī)范的句子結(jié)構(gòu)。并保存為經(jīng)統(tǒng)一命名的文件。例如對(duì)以上示例信息抽取，獲得如下信息：經(jīng)去噪處理后的結(jié)果如下(在“<去噪結(jié)果>”與“</去噪結(jié)果>”之間部分)：

<去噪結(jié)果>

國(guó)家質(zhì)檢總局執(zhí)法督查司在經(jīng)過電商12365中心聯(lián)系阿里巴巴集團(tuán)、LV集團(tuán)中國(guó)區(qū)進(jìn)行真?zhèn)舞b定后，組織杭州市質(zhì)量技術(shù)監(jiān)督局對(duì)涉案的一家名為杭州姿特服飾有限公司的生產(chǎn)場(chǎng)所和四個(gè)倉(cāng)庫(kù)開展突擊執(zhí)法檢查?，F(xiàn)場(chǎng)查獲涉嫌仿冒LV、Burberry、Hermes、Chanel等國(guó)際品牌圍巾23966條、標(biāo)簽2994套，認(rèn)定涉案貨值60萬(wàn)元(市場(chǎng)價(jià)約數(shù)百萬(wàn)元，按真品價(jià)格計(jì)約1.67億元)。質(zhì)監(jiān)部門已移送當(dāng)?shù)毓矙C(jī)關(guān)處理。阿里巴巴集團(tuán)據(jù)此對(duì)其旗下平臺(tái)上的網(wǎng)店內(nèi)銷售的假冒偽劣產(chǎn)品作出主動(dòng)下架處理。

關(guān)鍵詞：執(zhí)法抽樣仿冒偽劣

</去噪結(jié)果>。

4.3.2基于知識(shí)挖掘分析的數(shù)據(jù)清洗

知識(shí)挖掘分析包括概念識(shí)別、概念關(guān)系抽取和智能識(shí)別。

(1)概念識(shí)別

概念識(shí)別主要包括企業(yè)語(yǔ)料庫(kù)、信息預(yù)處理、智能分詞、句法分析、遺傳規(guī)劃和半監(jiān)督學(xué)習(xí)相結(jié)合的企業(yè)質(zhì)量信用評(píng)估研究報(bào)告詞匯統(tǒng)計(jì)、詞類識(shí)別。

企業(yè)語(yǔ)料庫(kù)

企業(yè)語(yǔ)料庫(kù)指從網(wǎng)絡(luò)獲取的質(zhì)量信用可能有關(guān)的文字信息。

信息預(yù)處理

用于對(duì)企業(yè)語(yǔ)料庫(kù)中的文本進(jìn)行信息抽取、信息去噪等簡(jiǎn)單處理，并以句為單位進(jìn)行下一步處理。

③智能分詞

調(diào)用分詞工具，對(duì)通過第二步獲得的經(jīng)過信息去噪后的文檔進(jìn)行分詞和詞性標(biāo)注。

④句法分析

調(diào)用句法分析工具，獲取每個(gè)句子中詞與詞之間的句法修飾關(guān)系，對(duì)滿足獨(dú)立句子結(jié)構(gòu)塊且符合“/noun+/noun”、“/adj+/noun”、“/adj+/noun+/noun”、“/v+/noun”、“/noun+/v”、“/noun+/noun+/noun”、“/v+/noun+/noun”、“/adj+/v+/noun”、“/noun+/v+/noun”等組合詞結(jié)構(gòu)的詞組，標(biāo)記為備選組合概念。作為備選組合概念字?jǐn)?shù)也有一定限制，一般在3個(gè)與8個(gè)漢字之間。如“金融危機(jī)”、“次級(jí)貸款”、“貸款人”、“中國(guó)移動(dòng)”、“個(gè)人信用公司”、“抵押貸款公司”、“專業(yè)融資公司”、“貸款擔(dān)保公司”等。

獨(dú)立句子結(jié)構(gòu)塊即在一個(gè)句子中，該結(jié)構(gòu)塊內(nèi)的多個(gè)詞中有且僅有一個(gè)詞(被看作該句子結(jié)構(gòu)塊的中心詞)依存于該結(jié)構(gòu)塊外句子的其它詞，該結(jié)構(gòu)塊內(nèi)的其他詞直接或間接依存于該句子結(jié)構(gòu)塊的中心詞。如：“抵押貸款公司是一家獨(dú)立法人機(jī)構(gòu)?！?/p>

句法分析結(jié)果為：

“抵押/0/v/1/ATT貸款/1/n/2/ATT公司/2/n/3/SBV是

/3/v/ROOT/HED一/4/m/5/QUN家/5/q/8/ATT獨(dú)立/6/a/8/ATT法遺傳規(guī)劃和半監(jiān)督學(xué)習(xí)相結(jié)合的企業(yè)質(zhì)量信用評(píng)估研究報(bào)告

人/7/n/8/ATT機(jī)構(gòu)/8/n/3/VOB。/9/wp/-1”。

由斜杠“/”分開的各部分所代表的含義為：“詞/詞序/詞性/依存詞/依存關(guān)系”。其中v、n、m、q、a和wp分別代表動(dòng)詞、名詞、數(shù)詞、量詞、形容詞和標(biāo)點(diǎn)符號(hào)，ATT、SBV、HED、QUN、VOB分別代表定語(yǔ)修飾語(yǔ)關(guān)系、主謂關(guān)系、句子中心詞、數(shù)量關(guān)系和動(dòng)賓關(guān)系。在該例句中抵押貸款公司和獨(dú)立法人機(jī)構(gòu)符合獨(dú)立句子結(jié)構(gòu)塊要求，且有相應(yīng)的組合詞結(jié)構(gòu)模版，因此標(biāo)記為備選組合概念。

⑤詞匯統(tǒng)計(jì)

通過對(duì)企業(yè)語(yǔ)料庫(kù)中各技術(shù)領(lǐng)域的語(yǔ)料進(jìn)行分析，統(tǒng)計(jì)出所有單詞詞匯和備選組合概念在各技術(shù)領(lǐng)域出現(xiàn)的頻率和總標(biāo)準(zhǔn)頻率，并轉(zhuǎn)化為每百萬(wàn)字節(jié)的標(biāo)準(zhǔn)頻率和總標(biāo)準(zhǔn)頻率。

⑥詞類識(shí)別

通過對(duì)單詞詞匯和備選組合概念的頻率和總標(biāo)準(zhǔn)頻率的相關(guān)計(jì)算，找出常用詞、稀有詞、一般詞、領(lǐng)域單詞概念、一般組合概念和領(lǐng)域組合概念等類別。

(2)領(lǐng)域關(guān)系抽取

“概念關(guān)系抽取”基于規(guī)則抽取核心語(yǔ)句中領(lǐng)域概念間的關(guān)系，包括主謂、動(dòng)賓、本體層次關(guān)系等，形成概念知識(shí)關(guān)系網(wǎng)，并保存為Ajax支持的xml語(yǔ)法格式，通過統(tǒng)一數(shù)據(jù)訪問接口保存到知識(shí)提取庫(kù)，包括

同義詞庫(kù)、提取規(guī)則庫(kù)、數(shù)量單位詞匯庫(kù)。

關(guān)系抽取，通過設(shè)定繼承關(guān)系、同義詞關(guān)系、屬性關(guān)系和實(shí)例關(guān)系等各類概念間關(guān)系和相關(guān)的模式匹配規(guī)則，對(duì)網(wǎng)絡(luò)抓取資料進(jìn)行處理，提取各網(wǎng)頁(yè)中蘊(yùn)含的概念關(guān)系。抽取的知識(shí)和關(guān)系具體包括層次繼承關(guān)系、同義詞關(guān)系、屬性關(guān)系和實(shí)例關(guān)系等。相關(guān)例句如下：

繼承關(guān)系：<核心語(yǔ)句>某些項(xiàng)目成果，如專利、論文、專著、標(biāo)準(zhǔn)、新產(chǎn)品、新技術(shù)等</核心語(yǔ)句>。

提取結(jié)果：<關(guān)系>專利is-a項(xiàng)目成果；論文is-a項(xiàng)目成果；專著is-a項(xiàng)目成果；標(biāo)準(zhǔn)is-a項(xiàng)目成果；新產(chǎn)品is-a項(xiàng)目成果；新技術(shù)is-a項(xiàng)目成果</關(guān)系>。

同義詞關(guān)系：<核心語(yǔ)句>項(xiàng)目進(jìn)度管理也稱為項(xiàng)目時(shí)間管理，工作分解結(jié)構(gòu)即WBS</核心語(yǔ)句>。

提取結(jié)果：<關(guān)系>項(xiàng)目進(jìn)度管理same-as項(xiàng)目時(shí)間管理；工作分解結(jié)構(gòu)same-as WBS</關(guān)系>。

同義詞關(guān)系抽取規(guī)則：A+簡(jiǎn)稱|又稱|又稱為|亦稱|又叫|也稱|也稱為|參見|見|亦作|全名|古之|今之|習(xí)稱|俗稱|稱之為|即為|故稱|原名|又名|即|謂之+B，其中A、B需符合一定規(guī)則要求，如字?jǐn)?shù)必須小于5個(gè)，A和B需要有一個(gè)為用戶自定義詞典詞匯或領(lǐng)域識(shí)別詞匯。

繼承關(guān)系抽取規(guī)則有如下幾種：

1.<某些>N0<如>Nl N2，...，<及|或|和>Ni<等>。例句:“某些體育運(yùn)動(dòng)，如籃球、排球、足球等，...，”。

2.N0<可以分為>Nl N2，…，<及|和>Ni<等>。例句:“金融危機(jī)可以分為貨幣危機(jī)、債務(wù)危機(jī)、銀行危機(jī)等類型?！?/p>

3.N0<包含|包括|含有>Nl N2，…，<及|和>Ni(等><幾|三|五..數(shù)詞><種|類|個(gè)組成部分...量詞>。

5.NO<是由|由>N1N2，...，Ni<組成>。例句:“聯(lián)合王國(guó)是由大不列顛和北愛爾蘭組成”。

6.NO<是><一...數(shù)詞><個(gè)|種|條...量詞>.....N1。例句:“java是一種面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言”。

7.N1N2...Ni<組成了>N0。

企業(yè)質(zhì)量信用數(shù)據(jù)生成相關(guān)的算法的詳細(xì)處理流程包括：語(yǔ)料庫(kù)、語(yǔ)料預(yù)處理、相關(guān)語(yǔ)句提取、句式自動(dòng)聚類、驗(yàn)證等。該算法可以用于數(shù)據(jù)獲取學(xué)習(xí)、領(lǐng)域概念識(shí)別模版學(xué)習(xí)、繼承關(guān)系表達(dá)模版學(xué)習(xí)、同義詞表達(dá)模版學(xué)習(xí)、屬性表達(dá)模版學(xué)習(xí)等。

本算法的基本思想是首先有一個(gè)較為規(guī)范的企業(yè)質(zhì)量信用檔案庫(kù)和知識(shí)庫(kù)；其次通過正則表達(dá)式找出語(yǔ)料庫(kù)中含有知識(shí)庫(kù)中相關(guān)知識(shí)關(guān)系的句子(如含有同義詞庫(kù)中同義詞對(duì)的所有表達(dá)句子)；通過自動(dòng)聚類、統(tǒng)計(jì)，找出漢語(yǔ)中表達(dá)此種關(guān)系(如同義詞關(guān)系)的所有表達(dá)方式(表達(dá)模版)；由于每種表達(dá)方式可能表達(dá)多種意思，需要選擇出現(xiàn)概率較大的表達(dá)方式返回全景語(yǔ)料庫(kù)進(jìn)行驗(yàn)證，求出每種表達(dá)方式僅表達(dá)此一種關(guān)系(如同義詞關(guān)系)的概率，選擇概率較大的表達(dá)方法即為通過該規(guī)則模版統(tǒng)計(jì)算法自動(dòng)選出的模版?，F(xiàn)以繼承關(guān)系表達(dá)模版學(xué)習(xí)為例對(duì)該算法的執(zhí)行進(jìn)行詳細(xì)描述，具體如下：

企業(yè)語(yǔ)料庫(kù)：企業(yè)語(yǔ)料庫(kù)為各個(gè)渠道獲取的含有企業(yè)質(zhì)量信用檔案評(píng)價(jià)所需的資料信息；知識(shí)庫(kù)為包含詞匯繼承關(guān)系層次樹庫(kù)、同義詞庫(kù)、數(shù)據(jù)提取規(guī)則庫(kù)在內(nèi)的知識(shí)庫(kù)。

語(yǔ)料預(yù)處理：對(duì)企業(yè)語(yǔ)料庫(kù)的處理和前文相同，在此不再累述；對(duì)知識(shí)庫(kù)的處理表現(xiàn)為提取規(guī)范知識(shí)庫(kù)中的所有概念和關(guān)系，建立一個(gè)關(guān)于知識(shí)關(guān)系的數(shù)據(jù)結(jié)構(gòu)隊(duì)列。

相關(guān)語(yǔ)句提?。翰捎谜齽t表達(dá)式遍歷經(jīng)語(yǔ)料預(yù)處理后的全景語(yǔ)料庫(kù)內(nèi)容，找出含有規(guī)范知識(shí)庫(kù)中繼承關(guān)系概念對(duì)的句子，統(tǒng)一保存，并映射到知識(shí)庫(kù)中的繼承關(guān)系概念對(duì)上。

句式自動(dòng)聚類：對(duì)抽取的相關(guān)語(yǔ)句進(jìn)行智能分詞、句法分析，識(shí)別并統(tǒng)計(jì)在相關(guān)語(yǔ)句中經(jīng)常出現(xiàn)的詞匯、詞組和表達(dá)式，計(jì)算出每種表達(dá)方式在所有相關(guān)語(yǔ)句中所占比率fj，選出比率大于一定值F的表達(dá)方式，作為表達(dá)該語(yǔ)義的備選句法模版。

模版編輯校正：對(duì)各備選句法模版進(jìn)行人工核實(shí)、編輯和校正，刪除干擾信息，保存提取的新的句法模版。

模版驗(yàn)證：由于每種表達(dá)方式可能用于表達(dá)多種意思，因此需要返遺傳規(guī)劃和半監(jiān)督學(xué)習(xí)相結(jié)合的企業(yè)質(zhì)量信用評(píng)估研究報(bào)告回全景語(yǔ)料庫(kù)驗(yàn)證該句法模版用來(lái)表達(dá)繼承關(guān)系的句子所占概率，如果概率較大，則可認(rèn)定該模版為通過該規(guī)則模版統(tǒng)計(jì)算法挖掘出的新的規(guī)則模版。

在一個(gè)實(shí)施例中，本發(fā)明提供一種企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法，包括：

S1、對(duì)與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理，得到語(yǔ)料數(shù)據(jù)；

S2、對(duì)所述語(yǔ)料數(shù)據(jù)進(jìn)行知識(shí)挖掘，得到模板數(shù)據(jù)；以及

S3、從所述語(yǔ)料數(shù)據(jù)中提取與所述模板數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵數(shù)據(jù)，作為企業(yè)質(zhì)量信用數(shù)據(jù)。

在一個(gè)實(shí)施例中，所述步驟S1具體包括：

S1.1、從網(wǎng)絡(luò)資源中獲取各技術(shù)領(lǐng)域中與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)；

S1.2、抓取所述數(shù)據(jù)中的文檔轉(zhuǎn)換為xml格式文檔；以及

S1.3、對(duì)所述xml格式文檔進(jìn)行去噪，獲得所述語(yǔ)料數(shù)據(jù)。

通過網(wǎng)絡(luò)資源獲取與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)能保證所獲得的數(shù)據(jù)非常全面和及時(shí)，再通過對(duì)文檔進(jìn)行去噪，便于后續(xù)步驟的處理，梳理出完整規(guī)范的句子結(jié)構(gòu)。

優(yōu)選地，所述步驟S1.1具體包括：

S1.1.1、基于爬蟲框架，根據(jù)設(shè)定的種子請(qǐng)求一個(gè)頁(yè)面，并將有效的URL添加到隊(duì)列中等候處理；

本方法能夠使爬蟲采集的速度更快，易于管理。

其中，所述步驟S1.2中的文檔為pdf文檔、doc文檔、ppt文檔、html文檔、excel文檔以及txt文檔中的一種或多種。

通過拓展文檔的類型，盡可能多的獲取互聯(lián)網(wǎng)上出現(xiàn)的相關(guān)數(shù)據(jù)。

在一個(gè)實(shí)施例中，所述步驟S2具體包括：

S2.1、將所述語(yǔ)料數(shù)據(jù)中的句子分解為多個(gè)單詞，并對(duì)所述單詞進(jìn)行詞性批注；

通過把語(yǔ)料數(shù)據(jù)分解為一個(gè)個(gè)的單詞，再進(jìn)一步根據(jù)領(lǐng)域的不同獲得領(lǐng)域單詞和領(lǐng)域組合，使質(zhì)量信用數(shù)據(jù)的獲取更加精確。

在一個(gè)實(shí)施例中，所述步驟S2.4至少包括：

當(dāng)某單詞的總標(biāo)準(zhǔn)頻率高于一定值F_max，且在總標(biāo)準(zhǔn)頻率中標(biāo)準(zhǔn)頻率的分布較為均勻，標(biāo)準(zhǔn)差S小于S_min，則認(rèn)定該單詞為常用詞；

當(dāng)某單詞的總標(biāo)準(zhǔn)頻率低于一定值F_min，且在總標(biāo)準(zhǔn)頻率中標(biāo)準(zhǔn)頻率的分布較為均勻，標(biāo)準(zhǔn)差S小于S_min，則認(rèn)定該單詞為稀有詞；

當(dāng)某單詞的總標(biāo)準(zhǔn)頻率介于F_min和F_max之間，且標(biāo)準(zhǔn)頻率的分布較為均勻，標(biāo)準(zhǔn)差S小于S_min，則認(rèn)定該單詞為一般詞；

當(dāng)某單詞的總標(biāo)準(zhǔn)頻率高于F_min，且在總標(biāo)準(zhǔn)頻率中，標(biāo)準(zhǔn)頻率集中分布于個(gè)別領(lǐng)域，則認(rèn)定詞為該個(gè)別領(lǐng)域的所述領(lǐng)域單詞；

當(dāng)某備選組合不含有常用詞，且該備選組合在第一數(shù)據(jù)中出現(xiàn)的總標(biāo)準(zhǔn)頻率大于F_min，在各技術(shù)領(lǐng)域出現(xiàn)的標(biāo)準(zhǔn)頻率較為均勻，標(biāo)準(zhǔn)差S小于S_min，則認(rèn)定該備選組合為一般組合；或

當(dāng)某備選組合不含有常用詞，且該備選組合在第一數(shù)據(jù)中出現(xiàn)的總標(biāo)準(zhǔn)頻率大于F_max，且在總標(biāo)準(zhǔn)頻率中，標(biāo)準(zhǔn)頻率集中分布于個(gè)別領(lǐng)域，則認(rèn)定該備選組合為該個(gè)別領(lǐng)域的所述領(lǐng)域?qū)Ｓ薪M合。

在一個(gè)實(shí)施例中，所述步驟S3具體包括：

S3.4、集合所有所述關(guān)鍵數(shù)據(jù)作為企業(yè)質(zhì)量信用數(shù)據(jù)。

本發(fā)明還提供一種企業(yè)質(zhì)量信用數(shù)據(jù)獲取系統(tǒng)，包括：

語(yǔ)料獲取裝置，對(duì)與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理，得到語(yǔ)料數(shù)據(jù)；

模板獲取裝置，與所述語(yǔ)料獲取裝置連接，對(duì)所述語(yǔ)料數(shù)據(jù)進(jìn)行知識(shí)挖掘，得到模板數(shù)據(jù)；以及

在一個(gè)實(shí)施例中，所述語(yǔ)料獲取裝置包括：

搜集模塊，從網(wǎng)絡(luò)資源中獲取各技術(shù)領(lǐng)域中與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)；

抓取模塊，與所述搜集模塊連接，抓取所述數(shù)據(jù)中的文檔轉(zhuǎn)換為xml格式文檔；以及

語(yǔ)料模塊，對(duì)所述xml格式文檔進(jìn)行去噪，獲得所述語(yǔ)料數(shù)據(jù)。

盡管本發(fā)明的實(shí)施方案已公開如上，但其并不僅僅限于說明書和實(shí)施方式中所列運(yùn)用，它完全可以被適用于各種適合本發(fā)明的領(lǐng)域，對(duì)于熟悉本領(lǐng)域的人員而言，可容易地實(shí)現(xiàn)另外的修改，因此在不背離權(quán)利要求及等同范圍所限定的一般概念下，本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的實(shí)施例。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王旻;王傲巍;司琳華;袁輝;馬軍
技術(shù)所有人：全國(guó)組織機(jī)構(gòu)代碼管理中心
我是此專利的發(fā)明人

上一篇：一種避免重復(fù)日志輸出的處理方法及系統(tǒng)與流程
上一篇：一種拔插壽命試驗(yàn)機(jī)的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法和系統(tǒng)與流程