亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種農(nóng)業(yè)本體自動擴充方法

文檔序號:8361529閱讀:382來源:國知局
一種農(nóng)業(yè)本體自動擴充方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理領(lǐng)域,更具體涉及一種農(nóng)業(yè)本體自動擴充方法。
【背景技術(shù)】
[0002] 隨著我國當(dāng)前市場經(jīng)濟改革的不斷深入,農(nóng)產(chǎn)品價格受到特定的市場經(jīng)營和流通 環(huán)境的影響因素越來越嚴(yán)重,產(chǎn)品價格的波動加劇,給當(dāng)?shù)卣暮暧^經(jīng)濟調(diào)控,合理規(guī)劃 產(chǎn)業(yè)發(fā)展帶來更多要求。因此,掌握和了解我國各地區(qū)農(nóng)產(chǎn)品價格差異,將有利于正確引導(dǎo) 農(nóng)業(yè)生產(chǎn)和農(nóng)產(chǎn)品流通,實現(xiàn)農(nóng)產(chǎn)品供求平衡;有利于政府部門調(diào)整農(nóng)業(yè)結(jié)構(gòu),有效解決三 農(nóng)問題。
[0003] 其實,中國已經(jīng)存在很多網(wǎng)絡(luò)報價平臺,但是其存在如下幾個問題:沒有品種上的 差別。例如,報價平臺往往只會給出西瓜的價格,不會具體到各個西瓜品種的價格;沒有區(qū) 域上的差別,報價平臺往往不會給出農(nóng)產(chǎn)品的產(chǎn)地。這些數(shù)據(jù)都無法為商業(yè)決策提供足夠 的信息,所以需要細(xì)粒度的農(nóng)產(chǎn)品價格挖掘研宄。
[0004] 細(xì)粒度的農(nóng)產(chǎn)品價格挖掘首先需要一個細(xì)粒度的農(nóng)產(chǎn)品本體。在農(nóng)業(yè)領(lǐng)域中,聯(lián) 合國糧農(nóng)組織2000年實施了農(nóng)業(yè)本體服務(wù)研宄計劃,其主要目標(biāo)是構(gòu)建和集成多種語言 的農(nóng)業(yè)本體集合(即AGROVOC),提供各國的農(nóng)業(yè)信息系統(tǒng)使用,從而為在農(nóng)業(yè)領(lǐng)域開展數(shù) 據(jù)挖掘、知識表示、自動標(biāo)引、信息分類、智能檢索、多語互譯、知識發(fā)現(xiàn)等應(yīng)用創(chuàng)造條件。
[0005] 但是農(nóng)業(yè)本體是一種特定領(lǐng)域的本體,目前大部分現(xiàn)存的農(nóng)業(yè)本體(即使是 AGROVOC)都是通過手工來進行創(chuàng)建和維護的,需要大量的背景知識和大量的人力勞動。隨 著本體粒度的深化,創(chuàng)建過程變得極其繁雜,正確率難以得到保證,最終導(dǎo)致本體構(gòu)建的成 本費用極其高昂。另外,隨著互聯(lián)網(wǎng)的發(fā)展,農(nóng)業(yè)領(lǐng)域知識日新月異,這些知識一般都無法 在現(xiàn)存本體中得到,農(nóng)業(yè)本體的更新問題變得極為迫切,因此需要進行農(nóng)業(yè)領(lǐng)域本體自動 擴充方法與裝置。
[0006] 目前本體擴展方法主要有兩大類:基于規(guī)則的本體擴展和基于統(tǒng)計的本體擴展。 基于規(guī)則的方法根據(jù)具體的領(lǐng)域本體特征人工構(gòu)建擴展規(guī)則,其特點是方法結(jié)構(gòu)簡單,但 是需要大量人工來構(gòu)建規(guī)則。基于統(tǒng)計的方法主要采用機器學(xué)習(xí)方法,其特點是整個方法 基本自動化,但是需要大量的人工標(biāo)注的數(shù)據(jù)作為輸入。

【發(fā)明內(nèi)容】

[0007] (一)要解決的技術(shù)問題
[0008] 本發(fā)明要解決的技術(shù)問題是提供一種農(nóng)業(yè)本體自動擴充方法,能夠進行農(nóng)業(yè)本體 自動搜集與擴充,解決目前本體自動擴充方法中的大量人工問題,實現(xiàn)自動化。
[0009] (二)技術(shù)方案
[0010] 為了解決上述技術(shù)問題,本發(fā)明提供了一種農(nóng)業(yè)本體自動擴充方法,所述方法包 括如下步驟:
[0011] S1、收集農(nóng)業(yè)本體數(shù)據(jù)信息,并進行預(yù)處理;其中,農(nóng)業(yè)本體數(shù)據(jù)信息包括維基百 科中無結(jié)構(gòu)化文本信息、Infobox文本信息、Category文本信息,現(xiàn)存農(nóng)業(yè)本體信息;
[0012] S2、從維基百科的Infobox文本信息和Category文本信息中,抽取農(nóng)業(yè)領(lǐng)域的詞 項作為候選詞項集;
[0013] S3、基于所述現(xiàn)存的農(nóng)業(yè)本體信息,對于所述候選詞項集中的每一個候選詞項,從 維基百科的無結(jié)構(gòu)化文本信息、Infobox文本信息、Category文本信息中抽取可能的上位 詞,形成對應(yīng)的上位詞選集;
[0014] S4、對于每一個所述候選詞項,將其上位詞選集中的詞項進行排序,并確定所述候 選詞項在現(xiàn)存農(nóng)業(yè)本體中的上位詞。
[0015] 優(yōu)選地,所述步驟Sl中,對所述農(nóng)業(yè)本體數(shù)據(jù)信息進行預(yù)處理具體為:
[0016] 對于維基百科無結(jié)構(gòu)化文本信息,經(jīng)過單詞識別、形態(tài)還原以及詞性標(biāo)注后抽取 中心詞;
[0017] 對于維基百科中Infobox文本信息和Category文本信息,進行形態(tài)還原和中心詞 去抽?。?br>[0018] 對于現(xiàn)存農(nóng)業(yè)本體信息,將現(xiàn)存農(nóng)業(yè)本體中的每個詞項進行形態(tài)還原和抽取中 心詞,并將中心詞相同的詞項歸為一類;其中,所述中心詞的列表記為TH= Ithj, j = 1,2, 3...,m}〇
[0019] 優(yōu)選地,所述步驟S3中,抽取上位詞具體為:
[0020] 利用現(xiàn)存農(nóng)業(yè)本體中的中心詞,從對應(yīng)于候選詞項的維基百科篇章中的無結(jié)構(gòu)化 文本,抽取出候選詞項的上位詞,形成第一上位詞選集;
[0021] 利用現(xiàn)存農(nóng)業(yè)本體中的中心詞,從對應(yīng)于候選詞項的維基百科篇章中的category 文本信息中抽取出候選詞項的上位詞,形成第二上位詞選集;
[0022] 利用現(xiàn)存農(nóng)業(yè)本體中的中心詞,從對應(yīng)于候選詞項的維基百科篇章中的infobox 文本信息中抽取出候選詞項的上位詞,形成第三上位詞選集;
[0023] 所述第一上位詞選集、第二上位詞選集和第三上位詞選集合合并形成所述候選詞 項對應(yīng)的上位詞選集。
[0024] 優(yōu)選地,所述步驟S3之后,將所述中心詞的列表中的每一個中心詞,統(tǒng)計其在維 基百科無結(jié)構(gòu)化文本中出現(xiàn)的次數(shù),記錄進頻數(shù)集合中。
[0025] 優(yōu)選地,步驟S4具體包括:
[0026] S41、如果候選詞項是一個短語,則采用基于短語的排序策略對對應(yīng)的上位詞選集 中的上位詞進行排序,并確定所述候選詞項在現(xiàn)存農(nóng)業(yè)本體中的上位詞;
[0027] S42、如果候選詞項是一個詞,則采用基于詞的排序策略對對應(yīng)的上位詞選集中的 上位詞進行排序,并確定所述候選詞項在現(xiàn)存農(nóng)業(yè)本體中的上位詞。
[0028] 優(yōu)選地,所述步驟S41具體包括:
[0029](1)初始化候選上位詞收集器;
[0030] (2)采用基于修飾圖的排序方法對所述第一上位詞選集中的上位詞進行排序,選 擇前k個上位詞,形成第四上位詞選集;
[0031] (3)對于所述第四上位詞選集,第二上位詞選集和第三上位詞選集中的每個上 位詞,用下列公式(1)計算其分值,如果所述上位詞出現(xiàn)在所述第四上位詞選集中,則將 score (A,TCGR) = 1 ;如果所述候選上位詞出現(xiàn)在所述第二上位詞選集中,則將score (A, TCCN) =I;如果所述候選上位詞出現(xiàn)在所述第第三上位詞選集中,則score(A,TCIB) =I
[0032] Score(A) =score(A,TCGR)+score(A,TCCN)+score(A,TCIB) (I)
[0033] (4)候選上位詞抽取,對于所述第四上位詞選集,第二上位詞選集和第三上位詞選 集中的每一個上位詞,如果其利用公式(1)計算的分值大于1,則將對應(yīng)的上位詞添加到候 選上位詞收集器中;如果候選上位詞收集器為空的話,那么將所述第四上位詞選集中第一 個上位詞添加到候選上位詞收集器中。
[0034] 優(yōu)選地,采用修飾圖的排序方法對所述第一上位詞選集中的上位詞進行排序,具 體包括:
[0035] (1)對于所述第二上位詞選集中的每一個上位詞,根據(jù)U(B,n)構(gòu)建修飾圖,其中 U(B,n)是上位詞B在現(xiàn)存農(nóng)業(yè)本體的N層范圍內(nèi)所有上位詞的集合;
[0036
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1