亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法和系統(tǒng)與流程

文檔序號(hào):12465554閱讀:來源:國知局

技術(shù)特征:

1.一種企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法,其特征在于,包括:

S1、對(duì)與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理,得到語料數(shù)據(jù);

S2、對(duì)所述語料數(shù)據(jù)進(jìn)行知識(shí)挖掘,得到模板數(shù)據(jù);以及

S3、從所述語料數(shù)據(jù)中提取與所述模板數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵數(shù)據(jù),作為企業(yè)質(zhì)量信用數(shù)據(jù)。

2.如權(quán)利要求1所述的企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法,其特征在于,所述步驟S1具體包括:

S1.1、從網(wǎng)絡(luò)資源中獲取各技術(shù)領(lǐng)域中與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù);

S1.2、抓取所述數(shù)據(jù)中的文檔轉(zhuǎn)換為xml格式文檔;以及

S1.3、對(duì)所述xml格式文檔進(jìn)行去噪,獲得所述語料數(shù)據(jù)。

3.如權(quán)利要求2所述的企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法,其特征在于,所述步驟S1.1具體包括:

S1.1.1、基于爬蟲框架,根據(jù)設(shè)定的種子請(qǐng)求一個(gè)頁面,并將有效的URL添加到隊(duì)列中等候處理;

S1.1.2、提取隊(duì)列中等候的第一個(gè)鏈接對(duì)其進(jìn)行頁面解析,并根據(jù)user-defined-extractor自定義的抽取器提取出有效的文本信息,以鏡像存儲(chǔ)結(jié)構(gòu)存儲(chǔ)到本地;以及

S1.1.3、將頁面中有效的URL再次加入隊(duì)列等候處理,如此不斷地分析下去,直到最后一個(gè)鏈接無任何有效鏈接為止,完成一次任務(wù)的抓取,如此不斷循環(huán)往復(fù),直至抓取完所需的預(yù)定網(wǎng)上資源。

4.如權(quán)利要求2所述的企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法,其特征在于,所述步驟S1.2中的文檔為pdf文檔、doc文檔、ppt文檔、html文檔、excel文檔以及txt文檔中的一種或多種。

5.如權(quán)利要求4所述的企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法,其特征在于,所述步驟S2具體包括:

S2.1、將所述語料數(shù)據(jù)中的句子分解為多個(gè)單詞,并對(duì)所述單詞進(jìn)行詞性批注;

S2.2、基于所述單詞以及詞性批注獲取每個(gè)句子中單詞間的語法修飾關(guān)系,對(duì)滿足獨(dú)立句子結(jié)構(gòu)且符合名詞與名詞搭配、形容詞與名詞搭配、形容詞與兩個(gè)名詞搭配、動(dòng)詞與名詞搭配、名詞與動(dòng)詞搭配、三個(gè)名詞搭配、動(dòng)詞與兩個(gè)名詞搭配、形容詞與動(dòng)詞和名詞搭配以及名詞與動(dòng)詞和名詞搭配的詞組作為備選組合;

S2.3、統(tǒng)計(jì)所有單詞和備選組合在各技術(shù)領(lǐng)域出現(xiàn)的頻率和在所有技術(shù)領(lǐng)域出現(xiàn)的總頻率,并轉(zhuǎn)化為每個(gè)單詞或備選組合的每百萬字節(jié)中的標(biāo)準(zhǔn)頻率和總標(biāo)準(zhǔn)頻率;

S2.4、基于所述標(biāo)準(zhǔn)頻率和總標(biāo)準(zhǔn)頻率,對(duì)所有單詞或備選組合進(jìn)行分類,分類項(xiàng)中至少包括領(lǐng)域單詞和領(lǐng)域組合;以及

S2.5、基于語句中領(lǐng)域單詞和/或領(lǐng)域組合間的語法關(guān)系和繼承關(guān)系,從所述語料數(shù)據(jù)中獲得所述模板數(shù)據(jù)。

6.如權(quán)利要求5所述的企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法,其特征在于,所述步驟S2.4至少包括:

當(dāng)某單詞的總標(biāo)準(zhǔn)頻率高于一定值Fmax,且在總標(biāo)準(zhǔn)頻率中標(biāo)準(zhǔn)頻率的分布較為均勻,標(biāo)準(zhǔn)差S小于Smin,則認(rèn)定該單詞為常用詞;

當(dāng)某單詞的總標(biāo)準(zhǔn)頻率高于Fmin,且在總標(biāo)準(zhǔn)頻率中,集中分布于個(gè)別領(lǐng)域,則認(rèn)定詞為該個(gè)別領(lǐng)域的所述領(lǐng)域單詞;或

當(dāng)某備選組合不含有常用詞,且該備選組合在語料數(shù)據(jù)中出現(xiàn)的總標(biāo)準(zhǔn)頻率大于Fmax,且在總標(biāo)準(zhǔn)頻率中,主要集中分布于個(gè)別領(lǐng)域,則認(rèn)定該備選組合為該個(gè)別領(lǐng)域的所述領(lǐng)域組合。

7.如權(quán)利要求5所述的企業(yè)質(zhì)量信用數(shù)據(jù)獲取方法,其特征在于,所述步驟S3具體包括:

S3.1、基于正則表達(dá)式遍歷所述語料數(shù)據(jù),獲得含有所述模板數(shù)據(jù)中繼承關(guān)系的句子,并映射到所述模板數(shù)據(jù)中的基礎(chǔ)關(guān)系概念對(duì);

S3.2、對(duì)所述步驟S3.1獲得的每一個(gè)句子進(jìn)行分詞并抽取在語料數(shù)據(jù)中經(jīng)常出現(xiàn)的單詞、備選組合和表達(dá)方式,計(jì)算每種表達(dá)方式在所有語句中所占比率,選取比率大于一定值F的表達(dá)方式,作為備選句;

S3.3、返回語料數(shù)據(jù)驗(yàn)證所述備選句用于表達(dá)繼承關(guān)系的句子所占概率,若概率超過閾值,則認(rèn)定該備選句為可作為企業(yè)質(zhì)量信用數(shù)據(jù)的所述關(guān)鍵數(shù)據(jù);以及

S3.4、集合所有所述關(guān)鍵數(shù)據(jù)作為企業(yè)質(zhì)量信用數(shù)據(jù)。

8.一種企業(yè)質(zhì)量信用數(shù)據(jù)獲取系統(tǒng),其特征在于,包括:

語料獲取裝置,對(duì)與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù)進(jìn)行預(yù)處理,得到語料數(shù)據(jù);

模板獲取裝置,與所述語料獲取裝置連接,對(duì)所述語料數(shù)據(jù)進(jìn)行知識(shí)挖掘,得到模板數(shù)據(jù);以及

信用數(shù)據(jù)獲取裝置,與所述語料獲取裝置和模板獲取裝置連接,從所述語料數(shù)據(jù)中提取與所述模板數(shù)據(jù)對(duì)應(yīng)的關(guān)鍵數(shù)據(jù),作為企業(yè)質(zhì)量信用數(shù)據(jù)。

9.如權(quán)利要求8所述的企業(yè)質(zhì)量信用數(shù)據(jù)獲取系統(tǒng),其特征在于,所述語料獲取裝置包括:

搜集模塊,從網(wǎng)絡(luò)資源中獲取各技術(shù)領(lǐng)域中與企業(yè)質(zhì)量信用相關(guān)的數(shù)據(jù);

抓取模塊,與所述搜集模塊連接,抓取所述數(shù)據(jù)中的文檔轉(zhuǎn)換為xml格式文檔;以及

語料模塊,對(duì)所述xml格式文檔進(jìn)行去噪,獲得所述語料數(shù)據(jù)。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1