亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于網(wǎng)絡(luò)環(huán)境的中文信息自動(dòng)標(biāo)引系統(tǒng)的制作方法

文檔序號(hào):6463896閱讀:276來(lái)源:國(guó)知局
專利名稱:基于網(wǎng)絡(luò)環(huán)境的中文信息自動(dòng)標(biāo)引系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明是基于互聯(lián)網(wǎng)信息的自動(dòng)標(biāo)引系統(tǒng),它是標(biāo)桿智能搜索引擎的重要組成部分,也是一個(gè)獨(dú)立運(yùn)行的軟件產(chǎn)品。該系統(tǒng)對(duì)網(wǎng)絡(luò)爬蟲軟件從網(wǎng)上自動(dòng)提取的信息或WEB瀏覽器輸入的批量信息,由計(jì)算機(jī)自動(dòng)賦予分類檢索標(biāo)識(shí)和主題檢索標(biāo)識(shí),在統(tǒng)一標(biāo)準(zhǔn)的基礎(chǔ)上完成網(wǎng)絡(luò)信息的自動(dòng)分類標(biāo)引、主題標(biāo)引和類目詞標(biāo)引,提高網(wǎng)絡(luò)環(huán)境下海量信息的查準(zhǔn)率、查全率和有效利用率,實(shí)現(xiàn)網(wǎng)絡(luò)信息共享。
從理論依據(jù)和實(shí)現(xiàn)途徑分析,自動(dòng)標(biāo)引的方法可分為4類1、機(jī)助標(biāo)引;2、詞典法;3、單字標(biāo)引法;4、邏輯推理法。就自動(dòng)標(biāo)引方案實(shí)施而言,可分為以下幾種1、詞典方案詞典法是現(xiàn)有自動(dòng)標(biāo)引系統(tǒng)中應(yīng)用最多的方案,它是以詞典為主,輔以其他手段完成自動(dòng)標(biāo)引。其主要思想是構(gòu)造機(jī)內(nèi)主題詞表,并以此為主,輔以停用詞表,預(yù)匹配詞表,切分規(guī)則、語(yǔ)義規(guī)則、地域規(guī)則、邏輯判斷規(guī)則等,實(shí)現(xiàn)自動(dòng)標(biāo)引。
2、單字標(biāo)引方案單字標(biāo)引法也稱為無(wú)標(biāo)引法或按字標(biāo)引法。它參考了西文自動(dòng)抽詞標(biāo)引的思想,以單個(gè)漢字作為標(biāo)引詞,形成地址參照文件,利用后組方式進(jìn)行邏輯檢索。此方案不需要建立詞典,也不需要分詞,缺點(diǎn)是查準(zhǔn)率低。
3、邏輯推理方案此方案是利用推理規(guī)則庫(kù)實(shí)現(xiàn)自動(dòng)標(biāo)引,其理論基礎(chǔ)是人工智能和專家系統(tǒng)。推理規(guī)則是分詞的基礎(chǔ),它由一系列推理規(guī)則(如語(yǔ)義規(guī)則庫(kù)、詞法規(guī)則庫(kù))組成。邏輯推理方案的關(guān)鍵在于構(gòu)筑一個(gè)比較完善的語(yǔ)法語(yǔ)義網(wǎng)絡(luò),它能模仿人的思維,分詞精度較高,自動(dòng)標(biāo)引效果好。
4、神經(jīng)網(wǎng)絡(luò)方案此方案是用神經(jīng)元表示短語(yǔ),用神經(jīng)元的相互聯(lián)接表達(dá)短語(yǔ)間的句法關(guān)系或限制,通過(guò)激勵(lì)來(lái)進(jìn)行分詞和標(biāo)引。它是邏輯推理方法的進(jìn)一步發(fā)展,目前僅處于模擬研究階段,尚未達(dá)到應(yīng)用程度。
作為自動(dòng)標(biāo)引基礎(chǔ)的中文自動(dòng)分詞理論,分為機(jī)械分詞和知識(shí)分詞兩大類。機(jī)械分詞既不進(jìn)行語(yǔ)法分析,也不進(jìn)行語(yǔ)義理解,只是機(jī)械地匹配比較,分詞精度不高。知識(shí)分詞則進(jìn)行語(yǔ)法和語(yǔ)義理解,分詞精度高。目前,中文自動(dòng)分詞方法有1、匹配法匹配法又分為最長(zhǎng)匹配法、逆向最長(zhǎng)匹配法、最佳匹配法、最短匹配法、逆向最短匹配法、增字法、減字法和逐字逐詞比較法等,不同的方法得到的分詞精度也不同??傊?,逆向、增字、最長(zhǎng)匹配對(duì)交集型歧義組合字段的切分有效,而且在切分過(guò)程中能得到一些有益的信息。
2、切分標(biāo)志法漢語(yǔ)中存在著許多自然切分標(biāo)志,一是標(biāo)點(diǎn)符號(hào),二是只能充當(dāng)詞首字或詞尾字的字,單字詞、復(fù)音節(jié)單純?cè)~和擬聲詞等。一個(gè)詞不能跨越這些切分標(biāo)志而存在。分詞時(shí)先找出切分標(biāo)志,把漢語(yǔ)的句子切分成一些短語(yǔ),以便進(jìn)一步分詞和匹配。
3、部件詞典法部件詞是指構(gòu)成詞的基本單元,它分為詞首、詞尾、詞干等若干部件。從詞首部件到詞尾部件之間的字符串是一個(gè)詞的可能性很大,它與詞干的具體內(nèi)容無(wú)關(guān)。部件詞典法是詞典法的改進(jìn),可采用逆向掃描或正向掃描的方法進(jìn)行匹配。
4、鏈接表法鏈接表法是記載某一漢字與另一漢字是否有聯(lián)系的表。切分原則是有聯(lián)系則取,無(wú)聯(lián)系則斷,切分出來(lái)的字串再按不同的模式進(jìn)行二次切分。
5、語(yǔ)法語(yǔ)義方法基于語(yǔ)法、語(yǔ)義知識(shí)庫(kù)的分詞方法是一種較好的分詞方法,核心是構(gòu)建知識(shí)庫(kù),其中包括詞法知識(shí)庫(kù),句法知識(shí)庫(kù),語(yǔ)法知識(shí)庫(kù)、語(yǔ)義知識(shí)庫(kù)。應(yīng)用語(yǔ)法、語(yǔ)義知識(shí)切分漢語(yǔ),可大大提高自動(dòng)標(biāo)引的精度,使歧義切分率下降一倍。
進(jìn)入二十一世紀(jì),信息量快速增長(zhǎng),尤其是網(wǎng)絡(luò)環(huán)境下的海量信息,繁而無(wú)序,手工加工,力所不及,全文檢索,效率較低。要想“全、準(zhǔn)、快、便”地查到所需信息,仍須對(duì)信息進(jìn)行分類標(biāo)引和主題標(biāo)引。因此,中文信息自動(dòng)標(biāo)引便又成了網(wǎng)絡(luò)環(huán)境下中文信息處理領(lǐng)域的重點(diǎn)研究課題。到目前為止,在國(guó)內(nèi)尚未發(fā)現(xiàn)有關(guān)在互聯(lián)網(wǎng)環(huán)境下基于WINDOWS或NT操作系統(tǒng)的中文自動(dòng)標(biāo)引系統(tǒng)的文獻(xiàn)報(bào)道。
本發(fā)明基于網(wǎng)絡(luò)環(huán)境的中文信息自動(dòng)標(biāo)引系統(tǒng),
本系統(tǒng)實(shí)現(xiàn)了在互聯(lián)網(wǎng)環(huán)境下對(duì)各種類型、各種載體、各種行業(yè)或?qū)W科中文信息的主題詞、分類號(hào)和范疇類目詞的自動(dòng)標(biāo)引。
本系統(tǒng)的適用范圍是全方位的中文信息,按標(biāo)桿公司的分類體系劃分,包括19個(gè)門類(見(jiàn)下表)112個(gè)行業(yè)(略)。因此,本系統(tǒng)既可對(duì)全行業(yè)(112個(gè)行業(yè))中文信息進(jìn)行分類標(biāo)引和主題標(biāo)引,也可對(duì)單個(gè)行業(yè)的中文信息分類標(biāo)引和主題標(biāo)引,還可對(duì)幾個(gè)行業(yè)的組合進(jìn)行分類標(biāo)引和主題標(biāo)引。
標(biāo)桿公司分類體系的19個(gè)門類包括1、 農(nóng)、林、牧、漁業(yè)2、 采礦業(yè)3、 制造業(yè)4、 電力、煤氣及水的生產(chǎn)和供應(yīng)業(yè)5、 建筑業(yè)6、 交通運(yùn)輸、倉(cāng)儲(chǔ)和郵政業(yè)7、 計(jì)算機(jī)、電信、網(wǎng)絡(luò)服務(wù)業(yè)8、 批發(fā)和零售貿(mào)易業(yè)9、 旅館和餐飲業(yè)10、 金融、保險(xiǎn)業(yè)11、 房地產(chǎn)、租賃和商業(yè)服務(wù)12、 社會(huì)服務(wù)業(yè)13、 教育業(yè)14、 衛(wèi)生、社會(huì)保障、福利業(yè)15、 文化、體育、娛樂(lè)業(yè)16、 技術(shù)服務(wù)業(yè)17、 社會(huì)科學(xué)和自然科學(xué)研究18、 其他行業(yè)19、 其他學(xué)科本發(fā)明的主要內(nèi)容是在網(wǎng)絡(luò)環(huán)境下完成對(duì)中文信息的自動(dòng)加工處理,自動(dòng)給出信息的分類號(hào)、主題詞和范疇類名,反映信息的主要內(nèi)容,提高網(wǎng)絡(luò)信息的查準(zhǔn)率、查全率和有效利用率。其主要內(nèi)容有1、構(gòu)建基于網(wǎng)絡(luò)環(huán)境、適用于全行業(yè)信息的主題詞表,主題詞之間有“用、代、屬、分、參”關(guān)系,行業(yè)之間有鏈接關(guān)系。
2、根據(jù)中文的句法,構(gòu)建通用的漢語(yǔ)切分規(guī)則庫(kù)和不同行業(yè)的特殊切分規(guī)則庫(kù)。
3、根據(jù)漢語(yǔ)的詞法,構(gòu)建通用的停用詞庫(kù)和不同行業(yè)的特殊停用詞庫(kù)。
4、根據(jù)中國(guó)地理區(qū)域的特征,構(gòu)建中國(guó)地理名稱庫(kù)和地理名稱切分規(guī)則庫(kù)。
5、根據(jù)人工智能、專家知識(shí)的邏輯推理法,構(gòu)建通用的中文信息標(biāo)引推理規(guī)則庫(kù)和不同行業(yè)中文信息標(biāo)引推理規(guī)則庫(kù),并以此作為語(yǔ)法、語(yǔ)義分析器的推理、判斷依據(jù),實(shí)現(xiàn)準(zhǔn)確的漢語(yǔ)分詞和信息標(biāo)引。
6、采用JAVA、HTML、JAVASCRIPT、SQL等多種計(jì)算機(jī)語(yǔ)言研制、開(kāi)發(fā)標(biāo)桿搜索引擎和“三網(wǎng)一庫(kù)”中文信息自動(dòng)標(biāo)引系統(tǒng)。此系統(tǒng)代碼可在WINDOWS、NT、UNIX、LINUX上運(yùn)行。
網(wǎng)絡(luò)中文信息自動(dòng)標(biāo)引系統(tǒng)流程見(jiàn)下圖(附后)。五、系統(tǒng)評(píng)價(jià)本系統(tǒng)可在局域網(wǎng)或廣域網(wǎng)環(huán)境下運(yùn)行,操作系統(tǒng)可為WINDOWS2000、NT、UNIX、LINUX。
本系統(tǒng)的分詞標(biāo)引字段為文獻(xiàn)的標(biāo)題、文摘和正文,可對(duì)單一字段或三個(gè)字段的任意組合進(jìn)行分詞。
本系統(tǒng)可同時(shí)標(biāo)引出主題詞、分類號(hào)、三級(jí)類目詞。
標(biāo)引深度因加工字段不同而異。對(duì)標(biāo)題字段,標(biāo)引深度為4;對(duì)標(biāo)題+文摘字段,標(biāo)引深度為7;對(duì)三個(gè)字段的組合,標(biāo)引深度不低于10。
標(biāo)引速度約為每分鐘60個(gè)記錄(對(duì)標(biāo)題+文摘或三字段組合,計(jì)算機(jī)CPU應(yīng)為PIII 500)。
標(biāo)引準(zhǔn)確度主題詞為98%以上,分類號(hào)和類目詞不低于95%。由本系統(tǒng)標(biāo)引出的主題詞,分類號(hào)和類目詞一般不需再進(jìn)行人工干預(yù),可直接入庫(kù)。不過(guò),為了保證標(biāo)引不出現(xiàn)歧義詞,該系統(tǒng)提供了人工質(zhì)量控制功能模塊,可對(duì)標(biāo)引結(jié)果進(jìn)行質(zhì)量檢查和修改。
本系統(tǒng)是基于詞典法的標(biāo)引方案,尚未采用人工神經(jīng)網(wǎng)絡(luò)技術(shù),對(duì)信息內(nèi)容的揭示和挖掘,還有待進(jìn)一步提高。
權(quán)利要求
1.一種基于網(wǎng)絡(luò)環(huán)境的中文信息自動(dòng)標(biāo)引系統(tǒng),其特征在于,構(gòu)建基于網(wǎng)絡(luò)環(huán)境、適用于全行業(yè)信息的主題詞表,主題詞之間有“用、代、屬、分、參”關(guān)系,行業(yè)之間有鏈接關(guān)系。
2.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)環(huán)境的中文信息自動(dòng)標(biāo)引系統(tǒng),其特征在于,中文的句法,構(gòu)建通用的漢語(yǔ)切分規(guī)則庫(kù)和不同行業(yè)的特殊切分規(guī)則庫(kù)。
3.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)環(huán)境的中文信息自動(dòng)標(biāo)引系統(tǒng),其特征在于,漢語(yǔ)的詞法,構(gòu)建通用的停用詞庫(kù)和不同行業(yè)的特殊停用詞庫(kù)。
4.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)環(huán)境的中文信息自動(dòng)標(biāo)引系統(tǒng),其特征在于,中國(guó)地理區(qū)域的特征,構(gòu)建中國(guó)地理名稱庫(kù)和地理名稱切分規(guī)則庫(kù)。
5.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)環(huán)境的中文信息自動(dòng)標(biāo)引系統(tǒng),其特征在于,人工智能、專家知識(shí)的邏輯推理法,構(gòu)建通用的中文信息標(biāo)引推理規(guī)則庫(kù)和不同行業(yè)中文信息標(biāo)引推理規(guī)則庫(kù),并以此作為語(yǔ)法、語(yǔ)義分析器的推理、判斷依據(jù),實(shí)現(xiàn)準(zhǔn)確的漢語(yǔ)分詞和信息標(biāo)引。
6.根據(jù)權(quán)利要求1所述的基于網(wǎng)絡(luò)環(huán)境的中文信息自動(dòng)標(biāo)引系統(tǒng),其特征在于,采用JAVA、HTML、JAVASCRIPT、SQL等多種計(jì)算機(jī)語(yǔ)言研制、開(kāi)發(fā)標(biāo)桿搜索引擎和“三網(wǎng)一庫(kù)”中文信息自動(dòng)標(biāo)引系統(tǒng)。此系統(tǒng)代碼可在WINDOWS、NT、UNIX、LINUX上運(yùn)行。
全文摘要
一種基于網(wǎng)絡(luò)環(huán)境的中文信息自動(dòng)標(biāo)引系統(tǒng),構(gòu)建基于網(wǎng)絡(luò)環(huán)境、適用于全行業(yè)信息的主題詞表,主題詞之間有“用、代、屬、分、參”關(guān)系,行業(yè)之間有鏈接關(guān)系;中文的句法,構(gòu)建通用的漢語(yǔ)切分規(guī)則庫(kù)和不同行業(yè)的特殊切分規(guī)則庫(kù);漢語(yǔ)的詞法,構(gòu)建通用的停用詞庫(kù)和不同行業(yè)的特殊停用詞庫(kù);中國(guó)地理區(qū)域的特征,構(gòu)建中國(guó)地理名稱庫(kù)和地理名稱切分規(guī)則庫(kù);人工智能、專家知識(shí)的邏輯推理法,構(gòu)建通用的中文信息標(biāo)引推理規(guī)則庫(kù)和不同行業(yè)中文信息標(biāo)引推理規(guī)則庫(kù),并以此作為語(yǔ)法、語(yǔ)義分析器的推理、判斷依據(jù),實(shí)現(xiàn)準(zhǔn)確的漢語(yǔ)分詞和信息標(biāo)引。
文檔編號(hào)G06F17/30GK1430163SQ0113865
公開(kāi)日2003年7月16日 申請(qǐng)日期2001年12月29日 優(yōu)先權(quán)日2001年12月29日
發(fā)明者張明盛 申請(qǐng)人:北京標(biāo)桿網(wǎng)絡(luò)技術(shù)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1