亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向物聯(lián)網(wǎng)設(shè)備的自動(dòng)語(yǔ)義標(biāo)注方法與流程

文檔序號(hào):12719965閱讀:430來(lái)源:國(guó)知局
一種面向物聯(lián)網(wǎng)設(shè)備的自動(dòng)語(yǔ)義標(biāo)注方法與流程

本發(fā)明屬于語(yǔ)義物聯(lián)網(wǎng)中,自動(dòng)語(yǔ)義標(biāo)注領(lǐng)域,具體涉及物聯(lián)網(wǎng)設(shè)備描述框架、自動(dòng)語(yǔ)義標(biāo)注和設(shè)備本體擴(kuò)展方法。



背景技術(shù):

語(yǔ)義技術(shù)是解決物聯(lián)網(wǎng)中海量、異構(gòu)、分布式實(shí)體間信息交互的關(guān)鍵技術(shù),將實(shí)體和被感知、存儲(chǔ)和處理的信息進(jìn)行語(yǔ)義標(biāo)注則是物聯(lián)網(wǎng)語(yǔ)義化的基礎(chǔ)。物聯(lián)網(wǎng)領(lǐng)域的語(yǔ)義標(biāo)注是通過(guò)對(duì)物聯(lián)網(wǎng)實(shí)體和數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注,使物聯(lián)網(wǎng)實(shí)體能夠利用統(tǒng)一的富含語(yǔ)義的形式進(jìn)行描述,為服務(wù)層的語(yǔ)義服務(wù)發(fā)現(xiàn)提供支撐。

目前關(guān)于語(yǔ)義標(biāo)注的研究中,出現(xiàn)了一個(gè)語(yǔ)義標(biāo)注平臺(tái),包括AeroDAML,SMT,MnM,Armadillo等;大部分研究集中在Web文檔語(yǔ)義標(biāo)注,基于模糊的形式和關(guān)系概念分析方法構(gòu)建本體并用于標(biāo)注,或使用基于維基百科大語(yǔ)料的詞相似度技術(shù)或自然語(yǔ)言處理技術(shù)和TF-IDF來(lái)篩選標(biāo)簽標(biāo)注,或基于相似規(guī)則歸納和基于條件隨機(jī)場(chǎng)以及它們的改進(jìn)算法的語(yǔ)義標(biāo)注方法;物聯(lián)網(wǎng)環(huán)境下的語(yǔ)義標(biāo)注的研究較少,主要針對(duì)的是傳感網(wǎng)中的數(shù)據(jù),提出一些手動(dòng)標(biāo)注框架和語(yǔ)義推理算法。

然而,現(xiàn)有的語(yǔ)義標(biāo)注工具和平臺(tái)以及Web文檔語(yǔ)義標(biāo)注,大多以文本標(biāo)注和Web網(wǎng)頁(yè)為研究對(duì)象,由于物聯(lián)網(wǎng)設(shè)備的實(shí)物特性,比如空間、時(shí)間、環(huán)境等特點(diǎn),對(duì)語(yǔ)義標(biāo)注提供了新的要求,其標(biāo)注結(jié)果往往不能滿足需求;而現(xiàn)有的物聯(lián)網(wǎng)環(huán)境下的語(yǔ)義標(biāo)注主要面向的是傳感器數(shù)據(jù),且是手動(dòng)語(yǔ)義標(biāo)注方法,但是,面對(duì)海量的物聯(lián)網(wǎng)實(shí)體,特別是數(shù)量仍在迅猛增長(zhǎng)的物聯(lián)網(wǎng)設(shè)備,手動(dòng)或半自動(dòng)語(yǔ)義標(biāo)注顯得力不從心,設(shè)備作為物聯(lián)網(wǎng)實(shí)體的主要組成部分,針對(duì)物聯(lián)網(wǎng)設(shè)備的自動(dòng)語(yǔ)義標(biāo)注方法的研究成為亟待解決的問(wèn)題。因此,已有的語(yǔ)義標(biāo)注方法,都不能滿足對(duì)物聯(lián)網(wǎng)海量設(shè)備的語(yǔ)義標(biāo)注的需求。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于克服現(xiàn)有物聯(lián)網(wǎng)環(huán)境下語(yǔ)義標(biāo)注方法的不足,提出了一個(gè)物聯(lián)網(wǎng)設(shè)備描述框架和一種面向物聯(lián)網(wǎng)設(shè)備的自動(dòng)語(yǔ)義標(biāo)注方法,并進(jìn)一步提供了一種物聯(lián)網(wǎng)設(shè)備本體的擴(kuò)展方法。本發(fā)明的應(yīng)用對(duì)象可推廣到一般的物聯(lián)網(wǎng)實(shí)體。如此,提高語(yǔ)義物聯(lián)網(wǎng)中海量實(shí)體的語(yǔ)義標(biāo)注的效率,進(jìn)一步提升服務(wù)發(fā)現(xiàn)系統(tǒng)的性能。

本發(fā)明采用的技術(shù)方案如下。

一種面向物聯(lián)網(wǎng)設(shè)備的自動(dòng)語(yǔ)義標(biāo)注方法,其采用物聯(lián)網(wǎng)設(shè)備描述框架描述物聯(lián)網(wǎng)中的設(shè)備,物聯(lián)網(wǎng)設(shè)備描述框架包括六個(gè)組成屬性,即標(biāo)識(shí)信息、性能指標(biāo)、功能屬性、設(shè)備狀態(tài)、接口屬性和工作環(huán)境;在設(shè)備描述框架的基礎(chǔ)上將自動(dòng)語(yǔ)義標(biāo)注方法分為兩個(gè)階段即信息抽取階段和標(biāo)注階段,信息抽取階段從物聯(lián)網(wǎng)設(shè)備信息中抽取出具體的信息,在信息抽取階段,根據(jù)文字的不同特性,將設(shè)備的信息劃分成兩個(gè)部分即設(shè)備功能信息和設(shè)備非功能信息;標(biāo)注階段從本體中選取概念來(lái)為抽取出來(lái)的信息進(jìn)行標(biāo)注。

整個(gè)自動(dòng)語(yǔ)義標(biāo)注分為五個(gè)步驟來(lái)完成,即信息的篩選和提取,設(shè)備功能信息提取,設(shè)備功能信息分類,屬性信息域的分割和信息整合與語(yǔ)義標(biāo)簽選擇。

進(jìn)一步地,所述信息的篩選和提取具體是,使用小標(biāo)題訓(xùn)練字典,并使用字典識(shí)別新樣本中的小標(biāo)題并提取小標(biāo)題之間的信息,信息的篩選和提取與設(shè)備功能信息提取兩個(gè)步驟所使用的方法都是信息提取方法,只是所使用的訓(xùn)練集不同。

進(jìn)一步地,所述設(shè)備功能信息分類具體是,將訓(xùn)練集和樣本集中的文本轉(zhuǎn)換成向量,借助TF-IDF(term frequency–inverse document frequency)技術(shù),使用TF和IDF生成向量并使用IDF和設(shè)定的閾值來(lái)降維,再使用向量來(lái)訓(xùn)練分類器和對(duì)新樣本進(jìn)行分類。

進(jìn)一步地,所述設(shè)備非功能信息分類具體,實(shí)現(xiàn)屬性信息域的分割,包括標(biāo)注字典的生成和匹配方法。

進(jìn)一步地,標(biāo)注字典的生成方法具體是,人工從設(shè)備非功能信息中提取出性能指標(biāo),接口屬性和工作環(huán)境三個(gè)屬性的內(nèi)容中出現(xiàn)的單詞并構(gòu)建訓(xùn)練集,學(xué)習(xí)訓(xùn)練集中的單詞并更新對(duì)應(yīng)的詞頻字典。

進(jìn)一步地,所述標(biāo)注字典的匹配方法具體是,對(duì)設(shè)備非功能信息進(jìn)行分詞得到單詞集,并根據(jù)標(biāo)注字典來(lái)分類,并根據(jù)詞頻字典解決沖突,最后根據(jù)分類結(jié)果重新組織設(shè)備非功能信息中的內(nèi)容。

進(jìn)一步地,所述信息整合和語(yǔ)義標(biāo)簽選擇具體是,將設(shè)備功能信息和設(shè)備非功能信息的分類結(jié)果進(jìn)行整合,并將本體引入語(yǔ)義標(biāo)注模型,使用語(yǔ)義相似度從本體中篩選出本體概念URI作為語(yǔ)義標(biāo)簽用于標(biāo)注。

進(jìn)一步地,還包括物聯(lián)網(wǎng)設(shè)備本體擴(kuò)展過(guò)程,從一個(gè)相對(duì)小的設(shè)備本體逐步擴(kuò)展成物聯(lián)網(wǎng)領(lǐng)域設(shè)備本體,保證了語(yǔ)義標(biāo)簽選擇的準(zhǔn)確性。

進(jìn)一步地,對(duì)于設(shè)備功能信息,采用文本分類方法,借助TF-IDF(term frequency–inverse document frequency)的技術(shù),使用TF和IDF生成向量并使用IDF和設(shè)定的閾值來(lái)降維,從而將文字轉(zhuǎn)換成向量,采用Bayes,SVM,KNN,神經(jīng)網(wǎng)絡(luò)等方法訓(xùn)練分類器用于分類。

進(jìn)一步地,所述標(biāo)注字典匹配,在新樣例分類中,將新樣例分詞后與標(biāo)注字典中單詞進(jìn)行匹配并確定所屬類別,若得到多個(gè)類別,可借助詞頻字典來(lái)選擇最佳的分類類別。語(yǔ)義標(biāo)簽的選擇將設(shè)備功能信息和設(shè)備非功能信息的分類結(jié)果整合在一起,使用語(yǔ)義相似度從設(shè)備本體中篩選出本體概念的URI作為語(yǔ)義標(biāo)簽用于標(biāo)注信息并得到語(yǔ)義標(biāo)注結(jié)果。

考慮到方法的可擴(kuò)展性,擁有一個(gè)設(shè)備本體是能夠進(jìn)行語(yǔ)義標(biāo)簽選擇的前提條件,然而,事實(shí)中不一定有物聯(lián)網(wǎng)設(shè)備領(lǐng)域相關(guān)的本體,為了得到正確的語(yǔ)義標(biāo)簽,本發(fā)明提出基于語(yǔ)義相似度的設(shè)備本體擴(kuò)展,通過(guò)該方法,在使用的過(guò)程中不斷擴(kuò)展設(shè)備本體,從而使得語(yǔ)義標(biāo)簽的選擇更加準(zhǔn)確。

與現(xiàn)有技術(shù)相比,本發(fā)明具有如下優(yōu)點(diǎn)和技術(shù)效果:

1.提出了一個(gè)設(shè)備描述框架??紤]到物聯(lián)網(wǎng)設(shè)備的實(shí)物特性,比如空間、時(shí)間、環(huán)境等特點(diǎn),能夠系統(tǒng)完整地描述物聯(lián)網(wǎng)中的設(shè)備信息,包含設(shè)備的狀態(tài)信息;

2.提出的自動(dòng)語(yǔ)義標(biāo)注方法不但面向傳感網(wǎng)數(shù)據(jù),而且面向整個(gè)物聯(lián)網(wǎng)中的設(shè)備,且可擴(kuò)展成一般的物聯(lián)網(wǎng)實(shí)體;該方法中的語(yǔ)義標(biāo)注是自動(dòng)的,使用者只需要提供少量的訓(xùn)練信息,整個(gè)語(yǔ)義標(biāo)注的過(guò)程可以自動(dòng)完成,提高標(biāo)注效率;

3.考慮到自動(dòng)語(yǔ)義標(biāo)注方法的可擴(kuò)展性,提出物聯(lián)網(wǎng)設(shè)備本體擴(kuò)展,逐步擴(kuò)展設(shè)備本體,使得語(yǔ)義標(biāo)簽的選擇結(jié)果更準(zhǔn)確。

附圖說(shuō)明

圖1為物聯(lián)網(wǎng)設(shè)備描述框架示意圖。

圖2為物聯(lián)網(wǎng)設(shè)備信息自動(dòng)語(yǔ)義標(biāo)注方法流程示意圖。

圖3為信息提取方法的過(guò)程示意圖。

圖4為標(biāo)注字典的結(jié)構(gòu)示意圖。

圖5為標(biāo)注字典生成方法的流程示意圖。

圖6為標(biāo)注字典匹配方法的流程示意圖。

圖7為信息整合和語(yǔ)義標(biāo)簽選擇方法流程示意圖。

圖8為物聯(lián)網(wǎng)設(shè)備本體擴(kuò)展方法中的子樹結(jié)構(gòu)示意圖。

圖9為一個(gè)圖8中的子樹結(jié)構(gòu)示意圖。

圖10為物聯(lián)網(wǎng)設(shè)備本體擴(kuò)展方法的流程示意圖。

圖11為物聯(lián)網(wǎng)設(shè)備本體擴(kuò)展方法中頂層概念ST匹配成功時(shí)的擴(kuò)展過(guò)程示意圖。

圖12為物聯(lián)網(wǎng)設(shè)備本體擴(kuò)展方法中頂層概念ST的子概念匹配成功時(shí)的擴(kuò)展過(guò)程示意圖。

圖13為物聯(lián)網(wǎng)設(shè)備本體擴(kuò)展方法中頂層概念ST及其子概念匹配失敗時(shí)的擴(kuò)展過(guò)程示意圖。

具體實(shí)施方式

為了使本發(fā)明的技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖,進(jìn)行進(jìn)一步的詳細(xì)說(shuō)明,但本發(fā)明的實(shí)施和保護(hù)不限于此。

1、設(shè)備描述框架

物聯(lián)網(wǎng)設(shè)備描述框架是物聯(lián)網(wǎng)設(shè)備信息的描述方法,是面向物聯(lián)網(wǎng)設(shè)備的自動(dòng)語(yǔ)義標(biāo)注的基礎(chǔ)。本發(fā)明構(gòu)建了物聯(lián)網(wǎng)設(shè)備描述框架,如圖1所示,包括多個(gè)組成部分,具體如下:

標(biāo)識(shí)信息(Identification):為物聯(lián)網(wǎng)設(shè)備提供識(shí)別作用的描述信息,包括標(biāo)識(shí)、名稱等。

性能指標(biāo)(Preference):指設(shè)備的技術(shù)規(guī)格、運(yùn)行參數(shù)等。

功能屬性(Function):對(duì)設(shè)備功能的描述。作為用戶查詢服務(wù)和發(fā)現(xiàn)設(shè)備的重要依據(jù)。包括輸入、輸出和附加描述。

設(shè)備狀態(tài)(State):描述設(shè)備在物聯(lián)網(wǎng)中所處的狀態(tài),包括所在的地理位置、是否可用等。

接口屬性(Interface):描述設(shè)備與網(wǎng)絡(luò)之間的接口和通信,包括訪問(wèn)方式、接入方式等。

工作環(huán)境(Working Condition):指物聯(lián)網(wǎng)設(shè)備正常工作時(shí)周圍的環(huán)境,包括溫度、濕度、工作電壓、工作電流等對(duì)設(shè)備正常工作產(chǎn)生影響的環(huán)境因素。

以上的設(shè)備狀態(tài)(State)中包含了具有移動(dòng)性等動(dòng)態(tài)特性,工作環(huán)境(Working Condition)中包含了環(huán)境等特性,體現(xiàn)了物聯(lián)網(wǎng)設(shè)備的空間、時(shí)間、環(huán)境等特點(diǎn)。圖1中的箭頭表示“擁有”,例如,圖1中有箭頭從設(shè)備指向工作環(huán)境,表示設(shè)備擁有工作環(huán)境屬性。

2、物聯(lián)網(wǎng)設(shè)備信息自動(dòng)語(yǔ)義標(biāo)注方法

2.1物聯(lián)網(wǎng)設(shè)備信息的自動(dòng)語(yǔ)義標(biāo)注的過(guò)程

物聯(lián)網(wǎng)設(shè)備信息的自動(dòng)語(yǔ)義標(biāo)注,可以理解為從物聯(lián)網(wǎng)設(shè)備信息中抽取出具體的信息,并打上語(yǔ)義標(biāo)簽的過(guò)程。將物聯(lián)網(wǎng)設(shè)備信息的自動(dòng)語(yǔ)義標(biāo)注分為兩個(gè)階段:一是信息抽取階段,從物聯(lián)網(wǎng)設(shè)備信息中抽取出具體的信息;一是標(biāo)注階段,從本體中選取概念來(lái)為抽取出來(lái)的信息進(jìn)行標(biāo)注。在信息抽取階段,考慮到設(shè)備功能信息的內(nèi)容的文字描述自由而設(shè)備的功能類別卻有限,設(shè)備的其它信息,比如性能指標(biāo),設(shè)備狀態(tài),接口屬性和工作環(huán)境都具有一定的格式。因此,將設(shè)備的信息劃分成兩個(gè)部分,設(shè)備功能信息和設(shè)備非功能信息,采取不同的處理方式。

物聯(lián)網(wǎng)設(shè)備信息自動(dòng)語(yǔ)義標(biāo)注需要解決如下五個(gè)問(wèn)題:物聯(lián)網(wǎng)設(shè)備信息的表示方式和獲取,物聯(lián)網(wǎng)設(shè)備信息的描述方式,關(guān)鍵信息的抽取,語(yǔ)義標(biāo)簽的選擇,設(shè)備本體的生成和擴(kuò)展。本發(fā)明中的物聯(lián)網(wǎng)設(shè)備信息來(lái)源于設(shè)備說(shuō)明書。物聯(lián)網(wǎng)設(shè)備信息自動(dòng)語(yǔ)義標(biāo)注模型的步驟如圖2所示,整個(gè)自動(dòng)語(yǔ)義標(biāo)注的過(guò)程分為五個(gè)步驟來(lái)完成,具體如下:

步驟1,物聯(lián)網(wǎng)設(shè)備信息文本關(guān)鍵信息的篩選和提取,比如設(shè)備說(shuō)明書,可能擁有一些用戶不感興趣的信息,比如設(shè)備的具體內(nèi)部結(jié)構(gòu)等,圖2中①步自動(dòng)完成物聯(lián)網(wǎng)設(shè)備信息文本關(guān)鍵信息的篩選和提??;

步驟2,設(shè)備功能信息提取,由于設(shè)備的功能描述部分的內(nèi)容的描述自由且雜亂無(wú)章,而設(shè)備的類別有限,因此,圖2中②步將設(shè)備的信息劃分為設(shè)備功能信息和設(shè)備非功能信息,采取不同的方式進(jìn)行處理;

步驟3,設(shè)備功能信息分類,根據(jù)步驟2中的描述,需要根據(jù)設(shè)備功能信息進(jìn)行分類,屬于自然語(yǔ)言處理的內(nèi)容,圖2③步中采用文本處理的技術(shù)對(duì)設(shè)備功能信息分類;

步驟4,屬性信息域的分割,設(shè)備描述框架中的六個(gè)屬性,性能指標(biāo)屬性在設(shè)備接入到物聯(lián)網(wǎng)中時(shí)獲得,功能屬性的信息域在步驟3中完成,設(shè)備狀態(tài)屬性與設(shè)備具體運(yùn)行狀態(tài)相關(guān),其信息并不在設(shè)備說(shuō)明書中,因此,性能指標(biāo),接口屬性和工作環(huán)境屬性的信息則分散在設(shè)備非功能信息的內(nèi)容中,圖2中④步完成信息域的劃分;

步驟5,信息整合和語(yǔ)義標(biāo)簽選擇,將步驟3和步驟4得到的信息域進(jìn)行整合,選擇語(yǔ)義標(biāo)簽進(jìn)行標(biāo)注,得到最終的標(biāo)注文檔,圖2中⑤步完成信息的整合和語(yǔ)義標(biāo)簽選擇。

2.2信息提取方法

步驟1和步驟2所采用的方法是一樣的,只是這兩個(gè)步驟所使用的訓(xùn)練集不同,從而所完成的任務(wù)不同。采用信息提取方法,物聯(lián)網(wǎng)設(shè)備文本信息,如設(shè)備說(shuō)明書,用戶感興趣的信息或者需要提取的功能描述信息,通常多個(gè)小標(biāo)題之間,具體過(guò)程如圖3所示。在訓(xùn)練階段,信息提取方法通過(guò)訓(xùn)練集的訓(xùn)練,學(xué)習(xí)小標(biāo)題中出現(xiàn)的詞以及詞頻,篩選之后加入到字典中;在信息提取階段,新樣本跟字典進(jìn)行匹配,識(shí)別小標(biāo)題,抽取小標(biāo)題之間的文本內(nèi)容,重新組建成文檔,得到信息提取結(jié)果。

2.3設(shè)備功能信息分類方法

步驟3中,設(shè)備功能信息一般描述比較自由,沒(méi)有固定的描述規(guī)則,而物聯(lián)網(wǎng)設(shè)備的功能類別卻有限。不同類型的設(shè)備,其功能是不同的,因此可以使用文本分類算法,常用文本分類算法包括SVM,Bayes,決策樹,人工神經(jīng)網(wǎng)絡(luò),KNN等。其中,最常用且簡(jiǎn)單的算法是Bayes;而其他算法則需要將訓(xùn)練集和樣本集中的文本轉(zhuǎn)換成向量,借助TF-IDF的技術(shù)來(lái)完成,設(shè)備功能的類別和訓(xùn)練集的構(gòu)建需要人工構(gòu)建。具體步驟如下:

步驟3.1訓(xùn)練集中共有N條記錄,針對(duì)每條記錄Si,包括兩部分,文本內(nèi)容Ti以及它所屬的類別Ci,對(duì)Ti進(jìn)行分詞,得到單詞集合Twi;

步驟3.2統(tǒng)計(jì)Twi中出現(xiàn)過(guò)的所有單詞,得到有序序列Aw;

步驟3.3統(tǒng)計(jì)在Aw中出現(xiàn)了單詞Awi的記錄數(shù)Cwi,則

步驟3.3設(shè)定閾值δ,從Aw中篩選出idfi>δ的單詞,組成Ca;

步驟3.4構(gòu)造與Ca等長(zhǎng)的向量Rj,針對(duì)每條記錄Sj中的Tj,按照Ca中每個(gè)單詞Cai出現(xiàn)的順序統(tǒng)計(jì)出現(xiàn)的次數(shù)與idfi的乘積,若Cai未在Tj中出現(xiàn),則令Rji=0,從而得到向量R;

步驟3.5通過(guò)步驟3.1-3.4,訓(xùn)練集中的每條記錄Sj被轉(zhuǎn)換成向量Rj以及其所屬的類別Cj,可用于SVM,決策樹,人工神經(jīng)網(wǎng)絡(luò),KNN等方法訓(xùn)練分類器,并調(diào)節(jié)閾值δ的取值來(lái)優(yōu)化分類器;

步驟3.6中將樣本集中的待分類文本,采用步驟3.1-3.4相同的方法轉(zhuǎn)換成向量,再使用步驟3.5中已訓(xùn)練的分類器分類。

2.4設(shè)備非功能信息字典分類方法

由于物聯(lián)網(wǎng)設(shè)備的六個(gè)屬性中,標(biāo)識(shí)信息用于標(biāo)識(shí)設(shè)備,設(shè)備在接入物聯(lián)網(wǎng)時(shí),將獲得唯一的標(biāo)識(shí)信息,因此,標(biāo)識(shí)信息并不出現(xiàn)在設(shè)備說(shuō)明書中;而設(shè)備狀態(tài)屬于設(shè)備的動(dòng)態(tài)信息,與設(shè)備的運(yùn)行狀態(tài)相關(guān),也不出現(xiàn)在設(shè)備說(shuō)明書中。因此,設(shè)備非功能信息包括三個(gè)部分內(nèi)容,包括性能指標(biāo),接口屬性和工作環(huán)境。

步驟4完成屬性信息域的分割,將設(shè)備非功能信息中的關(guān)于性能指標(biāo),接口屬性和工作環(huán)境三個(gè)屬性的信息相分離。本發(fā)明提出字典分類方法,包括標(biāo)注字典的生成和匹配方法。首先提出標(biāo)注字典的概念,用于描述每個(gè)設(shè)備屬性中常出現(xiàn)的單詞,并統(tǒng)計(jì)每個(gè)單詞的詞頻(TF),標(biāo)注字典包括三個(gè)子標(biāo)注字典,分別表示性能指標(biāo),接口屬性和工作環(huán)境三大屬性對(duì)應(yīng)的標(biāo)注字典。標(biāo)注字典保存了三大屬性的信息中常出現(xiàn)的單詞,結(jié)構(gòu)如圖4所示。標(biāo)注字典包含三個(gè)子字典,對(duì)應(yīng)三個(gè)不同的屬性。與標(biāo)注字典相對(duì)應(yīng)的詞頻字典,保存了標(biāo)注字典中每個(gè)單詞在訓(xùn)練集中出現(xiàn)的詞頻,用于解決字典分類中的沖突問(wèn)題,即一個(gè)單詞出現(xiàn)在多個(gè)子字典中,此時(shí),將根據(jù)詞頻字典中的詞頻來(lái)篩選更大可能屬于的類別。標(biāo)注字典的生成和匹配方法的具體過(guò)程如下:

1)標(biāo)注字典生成方法。具體過(guò)程如圖5所示。方法的輸入包括訓(xùn)練集TN,標(biāo)注字典D和詞頻字典TF。其中TN中每條記錄N的結(jié)構(gòu)為三元組(Pref,Inter,workCond),分別對(duì)應(yīng)性能指標(biāo),接口屬性和工作環(huán)境三個(gè)屬性的內(nèi)容。TN需要人工構(gòu)建,構(gòu)建的方法為人工從設(shè)備非功能信息中提取出三個(gè)屬性的內(nèi)容中出現(xiàn)的單詞,并組合成三元組加入到TN中;方法的輸出為標(biāo)注字典D和詞頻字典TF。方法的具體步驟如下:

步驟4.1.1 TN中的每條記錄N,包括三個(gè)組成部分Ni(i=1,2,3),對(duì)每個(gè)Ni進(jìn)行分詞得到單詞集合Wsi;

步驟4.1.2針對(duì)Wsi中的每個(gè)單詞Wsij,判斷Wsij是否在di中,如果在,轉(zhuǎn)步驟4.1.3,否則,轉(zhuǎn)4.1.4;

步驟4.1.3找到單詞Wsij在di中的位置pos,并令TF中的pos位置的取值加1;

步驟4.1.4將Wsij加入到di中,并在TF中的相同位置上加入1。

2)標(biāo)注字典匹配方法。將新的設(shè)備非功能信息N中的每條信息劃分到性能指標(biāo),接口屬性和工作環(huán)境三個(gè)屬性中的過(guò)程。具體過(guò)程如圖6所示。方法的輸入包括標(biāo)注字典D,詞頻字典TF和新的設(shè)備非功能信息N。方法的輸出為分類結(jié)果Nnf,Nnf具有與1)中的TN相同的結(jié)構(gòu),是一個(gè)三元組。方法的具體步驟如下:

步驟4.2.1對(duì)N進(jìn)行分詞,得到單詞集合Nw,針對(duì)Nw中的每個(gè)單詞Nwi,定義一個(gè)用于表示其分類的類別;

步驟4.2.2判斷Nwi是否在dj中,如果不在,轉(zhuǎn)步驟4.2.3,否則轉(zhuǎn)步驟4.2.4;

步驟4.2.3令Li=0,轉(zhuǎn)步驟4.2.5;

步驟4.2.4令Li=j(luò),判斷是否存在多個(gè)j,如果不是,則使用詞頻字典TF篩選出最可能的j,轉(zhuǎn)步驟4.2.5;

步驟4.2.5得到分類序列L,針對(duì)Nw中的每個(gè)單詞Nwi,如果Li=1,則將Nwi加入到Nnf.pref;如果Li=2,則將Nwi加入到Nnf.Inter;如果Li=3,則將Nwi加入到Nnf.workCond;如果Li=0,則將Nwi加入到Li-1所屬的部分。

2.5信息整合和語(yǔ)義標(biāo)簽選擇方法

步驟5中完成信息整合和語(yǔ)義標(biāo)簽選擇。包括信息整合和語(yǔ)義標(biāo)簽選擇兩個(gè)部分。信息整合將步驟3和步驟4的分類結(jié)果重新組織在一起。接著是語(yǔ)義標(biāo)簽的選擇,每一條關(guān)鍵信息,本身都具有標(biāo)簽,但這些標(biāo)簽沒(méi)有語(yǔ)義信息,需要將無(wú)語(yǔ)義標(biāo)簽映射為語(yǔ)義標(biāo)簽。為了使得機(jī)器能夠理解標(biāo)簽,將本體引入到語(yǔ)義標(biāo)注模型,使用語(yǔ)義相似度來(lái)度量?jī)蓚€(gè)詞的語(yǔ)義相似度大小,進(jìn)行語(yǔ)義標(biāo)簽的匹配和選擇。具體過(guò)程如圖7所示。方法的輸入包括一個(gè)設(shè)備本體Device,一個(gè)單詞或短語(yǔ)W和閾值δ;方法的輸出為選中的本體概念URI。具體步驟如下:

步驟5.1得到本體Device中的所有概念的URI,記為S;

步驟5.2針對(duì)S中的每個(gè)概念Si,得到概念名Sni,并計(jì)算Sni與W的語(yǔ)義相似度Simi;

步驟5.3從所有的Simi中找到最大的值Simj,如果Simj>δ,則返回本體概念URISj;否則返回空。

3物聯(lián)網(wǎng)設(shè)備本體擴(kuò)展方法

第2節(jié)的步驟5中的語(yǔ)義標(biāo)簽選擇的前提條件是擁有一個(gè)設(shè)備本體,然而,事實(shí)中不一定有物聯(lián)網(wǎng)設(shè)備領(lǐng)域相關(guān)的本體,例如,需要匹配“工作溫度”,如果本體中沒(méi)有合適的概念,使用本體概念匹配,匹配的結(jié)果可能為“濕度”,將“濕度”概念作為“工作溫度”的語(yǔ)義標(biāo)簽,顯然是錯(cuò)誤的,因此,為了得到正確的語(yǔ)義標(biāo)簽,就需要將“工作溫度”作為概念加入到設(shè)備本體中。本發(fā)明基于語(yǔ)義相似度的設(shè)備本體擴(kuò)展方法,其基本思想是起始時(shí)初始化一個(gè)很小的設(shè)備本體,擴(kuò)展的過(guò)程將一棵兩層的小樹(如圖8所示)加入到設(shè)備本體中。在第2節(jié)的步驟4中,可以得到性能指標(biāo),接口屬性和工作環(huán)境三個(gè)屬性的內(nèi)容,例如,工作環(huán)境中可能包含,海拔高度,工作溫度,濕度等概念,在創(chuàng)建子樹的步驟如下:

1)以工作環(huán)境作為根節(jié)點(diǎn);

2)其包含的子概念,如海拔高度,工作溫度,濕度等,作為子節(jié)點(diǎn);

3)得到如下的子樹結(jié)構(gòu),如圖9所示。

圖8和圖9中的子樹結(jié)構(gòu)表示為C:(P,S,V),表示C為結(jié)構(gòu)的頂層概念,而P,S,V為C的子概念。方法的具體過(guò)程如圖10所示。方法輸入為一個(gè)設(shè)備本體Device和一棵小樹ST:(P,S,V),以及閾值δ,輸出為擴(kuò)展后的本體Device。具體步驟如下:

步驟1,計(jì)算Device本體中的每個(gè)概念Ci與子樹頂層概念ST的語(yǔ)義相似度Si

步驟2,從Si中找出最大值Sm以及相對(duì)應(yīng)的Cm;

步驟3,如果Sm大于閾值δ,將ST的子概念P,S,V加入到本體中作為Cm的子概念,如圖11所示;否則,轉(zhuǎn)到步驟4;

步驟4,將ST的子概念P,S,V與Device本體中的概念計(jì)算語(yǔ)義相似度,如果最大語(yǔ)義相似度是否大于δ,不妨假設(shè)P匹配成功,則ST和Device中與P匹配成功的概念的父概念建立TogetherHasP連接,如圖12所示,否則轉(zhuǎn)到步驟5;

步驟5,將子樹ST加入到本體作為頂層概念Device的子概念,如圖13所示。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1