專利名稱:基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘、數(shù)據(jù)分析和知識(shí)推理領(lǐng)域,設(shè)計(jì)并實(shí)現(xiàn)了一種對(duì)資源內(nèi)容進(jìn)行多維度、語(yǔ)義化、結(jié)構(gòu)化的標(biāo)注方法。
背景技術(shù):
近年來(lái),隨著經(jīng)濟(jì)社會(huì)的高速發(fā)展,資源的數(shù)量迅速增加,而資源標(biāo)注發(fā)展相對(duì)緩慢,資源的檢索問(wèn)題日益突出。研究資源標(biāo)注方法可以有效的解決資源的管理和檢索問(wèn)題, 提高資源的使用率,滿足了資源在效率、使用和管理上的要求,這將對(duì)我國(guó)現(xiàn)階段智能標(biāo)注的研究和發(fā)展、對(duì)資源的合理高效利用起到積極的推動(dòng)作用。
目前,資源標(biāo)注方法有很多,主要可以分為基于資源屬性標(biāo)注的方法、基于資源內(nèi)容的特征標(biāo)注方法、基于資源內(nèi)容的標(biāo)簽標(biāo)注方法和基于資源特定領(lǐng)域的本體的語(yǔ)義標(biāo)注方法。
基于資源屬性標(biāo)注的方法主要通過(guò)為資源的屬性特征標(biāo)注相應(yīng)的值的方式實(shí)現(xiàn)。 這種方式簡(jiǎn)單易用,可對(duì)資源的重要屬性信息進(jìn)行較好的描述,可作為資源檢索的基礎(chǔ)數(shù)據(jù),但是屬性信息僅為資源所含信息的小部分,缺少對(duì)資源內(nèi)容語(yǔ)義信息的描述;屬性項(xiàng)需在系統(tǒng)設(shè)計(jì)時(shí)確定,不易修改,擴(kuò)展性較差;非規(guī)范化的簡(jiǎn)單文字匹配造成的語(yǔ)義歧義性難以避免。
基于資源內(nèi)容的特征標(biāo)注方法主要是提取資源的通用特征或領(lǐng)域相關(guān)特征來(lái)標(biāo)注資源。這種方式一般用計(jì)算機(jī)自動(dòng)化處理,并充分利用了資源本身所包含的豐富的內(nèi)容信息,在特定領(lǐng)域應(yīng)用良好,但是如何利用資源的特征來(lái)有效地表示資源內(nèi)容成為亟需解決的問(wèn)題。
基于資源內(nèi)容的標(biāo)簽標(biāo)注方法主要是用標(biāo)簽來(lái)標(biāo)注資源。這種方式突破了屬性標(biāo)注的局限,揭示了資源的內(nèi)容和主題特征,但是普通的社會(huì)化標(biāo)簽存在定義不嚴(yán)格、易變、 無(wú)人管理的不足,使得標(biāo)簽標(biāo)注的主觀性強(qiáng),多義詞和同義詞容易造成語(yǔ)義混淆,標(biāo)注效率低,檢索與標(biāo)注的用詞匹配難以吻合。
基于資源特定領(lǐng)域的本體的語(yǔ)義標(biāo)注方法主要是通過(guò)語(yǔ)義網(wǎng)中的本體技術(shù)來(lái)進(jìn)行資源標(biāo)注。這種方式將原來(lái)孤立的資源聯(lián)系起來(lái),加大了不同資源之間的耦合度,資源本體為標(biāo)準(zhǔn)化標(biāo)注提供了形式化基礎(chǔ),而且標(biāo)注后的資源與領(lǐng)域本體相對(duì)應(yīng),可以實(shí)現(xiàn)資源的智能檢索;但是領(lǐng)域本體的構(gòu)建并非一朝一夕就能完成的,而資源涉及的范疇極為廣泛, 完全依賴本體進(jìn)行資源的通用和完全的標(biāo)注目前不具有實(shí)際操作性。發(fā)明內(nèi)容
本發(fā)明的目的是提出一種基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法,以達(dá)到較高的資源標(biāo)注效率,提高標(biāo)注的精準(zhǔn)度,為高效的資源檢索奠定基礎(chǔ)。
本發(fā)明一種基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法實(shí)現(xiàn)的具體步驟闡述如下
(I)建立語(yǔ)義標(biāo)簽庫(kù);語(yǔ)義標(biāo)簽庫(kù)是指由規(guī)范標(biāo)簽庫(kù)、擴(kuò)展標(biāo)簽庫(kù)、臨時(shí)標(biāo)簽庫(kù)、標(biāo)簽關(guān)聯(lián)庫(kù)和標(biāo)簽數(shù)據(jù)分析構(gòu)成的標(biāo)簽語(yǔ)義體系,其中擴(kuò)展標(biāo)簽庫(kù)包含規(guī)范標(biāo)簽庫(kù)的內(nèi)容。
規(guī)范標(biāo)簽庫(kù)中儲(chǔ)存標(biāo)注資源的正式標(biāo)簽,即規(guī)范標(biāo)簽。只有規(guī)范標(biāo)簽才被分配標(biāo)注碼。規(guī)范標(biāo)簽采用分組分層管理首先按詞語(yǔ)類別劃分分組,然后對(duì)每組規(guī)范標(biāo)簽分層, 構(gòu)建一個(gè)樹(shù)狀結(jié)構(gòu)的標(biāo)簽集合,并為每個(gè)規(guī)范標(biāo)簽自動(dòng)分配一個(gè)標(biāo)注碼。同詞異碼表不該標(biāo)簽為多義詞標(biāo)簽,同碼異詞表示該組標(biāo)簽為同義詞標(biāo)簽組。此外,可使用標(biāo)注碼將不同語(yǔ)種的標(biāo)簽對(duì)應(yīng)起來(lái),實(shí)現(xiàn)多語(yǔ)種標(biāo)簽擴(kuò)展。
擴(kuò)展標(biāo)簽庫(kù)中儲(chǔ)存擴(kuò)展標(biāo)簽及全部規(guī)范標(biāo)簽。擴(kuò)展標(biāo)簽是指對(duì)應(yīng)某個(gè)規(guī)范標(biāo)簽的一系列擴(kuò)展詞語(yǔ),本身不具有標(biāo)注碼。擴(kuò)展標(biāo)簽與資源不具有直接關(guān)聯(lián)關(guān)系,而是通過(guò)其對(duì)應(yīng)的規(guī)范標(biāo)簽具有間接關(guān)聯(lián)關(guān)系。擴(kuò)展標(biāo)簽一定會(huì)與某個(gè)或多個(gè)規(guī)范標(biāo)簽具有關(guān)聯(lián)關(guān)系, 即通過(guò)規(guī)范標(biāo)簽可獲取其對(duì)應(yīng)的一組擴(kuò)展標(biāo)簽,反之亦然。擴(kuò)展標(biāo)簽庫(kù)主要用途包括兩個(gè)方面標(biāo)注資源時(shí),標(biāo)引員輸入詞語(yǔ)時(shí),系統(tǒng)從擴(kuò)展標(biāo)簽庫(kù)中匹配該詞對(duì)應(yīng)的規(guī)范標(biāo)簽,提示給標(biāo)引員。檢索資源時(shí),用戶輸入關(guān)鍵詞進(jìn)行檢索時(shí),系統(tǒng)從擴(kuò)展標(biāo)簽庫(kù)中匹配該詞對(duì)應(yīng)的規(guī)范標(biāo)簽及其標(biāo)注碼,進(jìn)而查找該標(biāo)注碼對(duì)應(yīng)的資源。
臨時(shí)標(biāo)簽是在資源標(biāo)注過(guò)程中標(biāo)引員臨時(shí)添加的不屬于規(guī)范標(biāo)簽和擴(kuò)展標(biāo)簽的詞語(yǔ),不具有標(biāo)注碼。由于規(guī)范標(biāo)簽庫(kù)是隨著資源標(biāo)注工作逐漸完善和擴(kuò)充的,所以標(biāo)引員或其他非專業(yè)用戶在標(biāo)注資源時(shí),可以根據(jù)實(shí)際需要使用規(guī)范標(biāo)簽庫(kù)和擴(kuò)展標(biāo)簽庫(kù)中沒(méi)有的關(guān)鍵詞(即臨時(shí)標(biāo)簽)來(lái)標(biāo)注資源。
標(biāo)簽數(shù)據(jù)分析主要是分析得出標(biāo)簽關(guān)聯(lián)度、標(biāo)簽熱度(綜合標(biāo)簽被用于標(biāo)注和檢索的頻度)等信息,將標(biāo)簽的語(yǔ)義信息更加豐富化,為資源標(biāo)注和檢索服務(wù)。可從如下三個(gè)方面進(jìn)行數(shù)據(jù)分析(1)對(duì)某資源所標(biāo)注標(biāo)簽進(jìn)行標(biāo)簽共現(xiàn)分析;(2)對(duì)用戶檢索資源時(shí)所用標(biāo)簽進(jìn)行記錄和分析;(3)對(duì)相似資源(通過(guò)手動(dòng)設(shè)置和自動(dòng)識(shí)別的方法確定)所注標(biāo)簽進(jìn)行統(tǒng)計(jì)分析。
標(biāo)簽關(guān)聯(lián)庫(kù)儲(chǔ)存標(biāo)簽數(shù)據(jù)分析的結(jié)果,用于標(biāo)簽標(biāo)注和檢索時(shí)的智能推薦。
(2)配置可擴(kuò)展的資源種類。
其中,資源支持圖片、音頻、視頻等多媒體資源種類,并允許對(duì)其進(jìn)行動(dòng)態(tài)調(diào)整。
(3)建立多級(jí)、可配置的內(nèi)容標(biāo)注維度。將資源按照內(nèi)容特征劃分維度,建立多層次的內(nèi)容維度。
其中,內(nèi)容標(biāo)注維度是指多個(gè)可分級(jí)的標(biāo)注維度,支持不同種類的資源對(duì)應(yīng)不同的標(biāo)注維度,用于對(duì)資源的標(biāo)簽標(biāo)注進(jìn)行約束和規(guī)范。
(4)建立可配置、可修改的資源種類與內(nèi)容標(biāo)注維度的對(duì)應(yīng)關(guān)系。
(5)進(jìn)行基于語(yǔ)義標(biāo)簽庫(kù)的資源內(nèi)容標(biāo)注。標(biāo)注資源時(shí),標(biāo)引員可直接從規(guī)范標(biāo)簽庫(kù)中選取規(guī)范標(biāo)簽進(jìn)行標(biāo)注,也可以輸入標(biāo)引詞,系統(tǒng)自動(dòng)對(duì)標(biāo)引詞在擴(kuò)展標(biāo)簽庫(kù)中進(jìn)行匹配如果匹配成功,則在規(guī)范標(biāo)簽庫(kù)中獲取規(guī)范標(biāo)簽及其標(biāo)注碼,建立資源與標(biāo)注碼的對(duì)應(yīng)關(guān)系;如果匹配不成功,則將標(biāo)引詞存入臨時(shí)標(biāo)簽庫(kù)并保留該詞與被標(biāo)注資源的對(duì)應(yīng)關(guān)系。標(biāo)注過(guò)程中系統(tǒng)根據(jù)標(biāo)簽關(guān)聯(lián)庫(kù)進(jìn)行智能推薦。
(6)臨時(shí)標(biāo)簽處理。
標(biāo)簽管理員對(duì)臨時(shí)標(biāo)簽進(jìn)行逐一審核,采用兩種主要的處理方式一是按照規(guī)范標(biāo)簽和擴(kuò)展標(biāo)簽的標(biāo)準(zhǔn),將臨時(shí)標(biāo)簽直接設(shè)定為規(guī)范標(biāo)簽或擴(kuò)展標(biāo)簽;二是直接刪除該臨時(shí)標(biāo)簽。此外,還可以選擇已有的規(guī)范標(biāo)簽或擴(kuò)展標(biāo)簽代替該臨時(shí)標(biāo)簽。
(7)基于語(yǔ)義標(biāo)簽庫(kù)的資源檢索。用戶輸入檢索詞,系統(tǒng)自動(dòng)在擴(kuò)展標(biāo)簽庫(kù)中進(jìn)行匹配;如果匹配成功,系統(tǒng)根據(jù)對(duì)應(yīng)的標(biāo)簽標(biāo)注碼來(lái)檢索對(duì)應(yīng)圖片;如果匹配不成功,系統(tǒng)可將檢索詞與資源描述信息進(jìn)行匹配,同時(shí)系統(tǒng)將該檢索詞存入臨時(shí)標(biāo)簽庫(kù)。
本發(fā)明與現(xiàn)有技術(shù)相比,具有以下明顯的優(yōu)勢(shì)和有益效果
首先,本發(fā)明在充分研究資源內(nèi)容的基礎(chǔ)上,提出了資源內(nèi)容的多維度標(biāo)注體系, 進(jìn)一步細(xì)化的資源內(nèi)容維度有助于更加精確的內(nèi)容標(biāo)注和檢索。其次,為了避免語(yǔ)義歧義對(duì)于資源標(biāo)注的影響,本發(fā)明首次在資源標(biāo)注方面提出了語(yǔ)義標(biāo)簽庫(kù)的語(yǔ)義智能支持體系設(shè)計(jì)規(guī)范標(biāo)簽支持多義詞、同義詞和多語(yǔ)言,擴(kuò)展標(biāo)簽有效的提高了標(biāo)注的準(zhǔn)確性和檢索的普適性,標(biāo)簽關(guān)聯(lián)庫(kù)進(jìn)一步加強(qiáng)了標(biāo)簽語(yǔ)義信息的挖掘和利用。再次,本方法對(duì)于各類資源都是適用的,支持不同資源的個(gè)性化設(shè)定,標(biāo)注維度可管、可配、可擴(kuò)展,語(yǔ)義標(biāo)簽庫(kù)中各個(gè)組成部分都具有良好的擴(kuò)展性,其中標(biāo)簽的數(shù)據(jù)分析可采用日益完善的數(shù)據(jù)分析技術(shù),獲得更好的分析效果。實(shí)驗(yàn)證明該方法有效的提高了資源標(biāo)注的精確度和效率,為資源檢索和數(shù)據(jù)分析奠定了良好的基礎(chǔ)。
圖I為基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法流程圖2為語(yǔ)義標(biāo)簽庫(kù)結(jié)構(gòu)示意圖3為基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法結(jié)構(gòu)示意圖4為資源內(nèi)容標(biāo)注流程圖5為資源檢索流程圖。
具體實(shí)施方式
以下結(jié)合說(shuō)明書(shū)附圖對(duì)本發(fā)明的具體實(shí)施例加以說(shuō)明。
本發(fā)明以語(yǔ)義標(biāo)簽庫(kù)為基礎(chǔ),對(duì)資源內(nèi)容進(jìn)行多維度、語(yǔ)義化、結(jié)構(gòu)化的標(biāo)注,為資源的有效檢索和應(yīng)用提供保障。語(yǔ)義標(biāo)簽庫(kù)彌補(bǔ)了傳統(tǒng)社會(huì)化分眾標(biāo)簽存在的主觀性強(qiáng)、歧義性、分散無(wú)序等不足,是一個(gè)可管理、可擴(kuò)展、結(jié)構(gòu)化、語(yǔ)義化的標(biāo)簽體系。
請(qǐng)參閱圖I所示,為基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法流程圖。
依序包括(1)建立圖片的語(yǔ)義標(biāo)簽庫(kù);(2)配置可擴(kuò)展的圖片種類;(3)建立多級(jí)、可配置的圖片內(nèi)容標(biāo)注維度;(4)建立可配置、可修改的圖片種類與圖片內(nèi)容標(biāo)注維度的對(duì)應(yīng)關(guān)系;(5)基于語(yǔ)義標(biāo)簽庫(kù)的圖片內(nèi)容標(biāo)注;(6)臨時(shí)標(biāo)簽處理;(7)基于語(yǔ)義標(biāo)簽庫(kù)的圖片檢索。
如圖3所示,基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法結(jié)構(gòu)示意圖。
該方法由規(guī)范標(biāo)簽庫(kù)、擴(kuò)展標(biāo)簽庫(kù)、臨時(shí)標(biāo)簽庫(kù)、標(biāo)簽關(guān)聯(lián)庫(kù)構(gòu)成語(yǔ)義標(biāo)簽庫(kù),在語(yǔ)義標(biāo)簽庫(kù)基礎(chǔ)上實(shí)現(xiàn)資源標(biāo)注和資源檢索。
以下加以詳細(xì)敘述
( I)建立圖片的語(yǔ)義標(biāo)簽庫(kù)。
建立圖片的語(yǔ)義標(biāo)簽庫(kù),如圖2所示,語(yǔ)義標(biāo)簽庫(kù)由規(guī)范標(biāo)簽庫(kù)、擴(kuò)展標(biāo)簽庫(kù)、臨時(shí)標(biāo)簽庫(kù)、標(biāo)簽關(guān)聯(lián)庫(kù)和標(biāo)簽數(shù)據(jù)分析方法構(gòu)成。
(a)規(guī)范標(biāo)簽庫(kù)規(guī)范標(biāo)簽包含了標(biāo)簽組、標(biāo)注碼、同義詞標(biāo)簽、多義詞標(biāo)簽和多語(yǔ)種標(biāo)簽的語(yǔ)義概念。
首先按照?qǐng)D片內(nèi)容特征將標(biāo)簽分組,如動(dòng)作、特定人物、地域、政治、體育等標(biāo)簽組;
其次對(duì)每個(gè)標(biāo)簽組分層并為每個(gè)規(guī)范標(biāo)簽分配一個(gè)標(biāo)注碼,如標(biāo)簽組地域可分為中國(guó)、世界、城市、農(nóng)村等一級(jí)標(biāo)簽,中國(guó)可分為東部、西部、中部等二級(jí)標(biāo)簽等;標(biāo)注碼可以自己制定碼值規(guī)則,按照規(guī)則為每一個(gè)規(guī)范標(biāo)簽分配一個(gè)標(biāo)注碼。
在規(guī)范標(biāo)簽庫(kù)中,同詞異碼表示該標(biāo)簽為多義詞標(biāo)簽,同碼異詞表示該組標(biāo)簽為同義詞標(biāo)簽,并可使用標(biāo)注碼將不同語(yǔ)種的標(biāo)簽對(duì)應(yīng)起來(lái),實(shí)現(xiàn)多語(yǔ)種標(biāo)簽的支持。如不同標(biāo)注碼的“李娜”可以是運(yùn)動(dòng)員的李娜,也可以是唱歌的李娜,二者是多義詞標(biāo)簽,可以由不同的標(biāo)注碼、父級(jí)標(biāo)簽甚至標(biāo)簽組來(lái)區(qū)別;相同標(biāo)注碼的“高興”和“喜悅”標(biāo)示兩者是同義詞標(biāo)簽。
(b)擴(kuò)展標(biāo)簽庫(kù)圖片擴(kuò)展庫(kù)中的擴(kuò)展標(biāo)簽與圖片沒(méi)有直接關(guān)聯(lián)關(guān)系,而是通過(guò)其對(duì)應(yīng)的規(guī)范標(biāo)簽與圖片建立間接關(guān)聯(lián)關(guān)系。
如,規(guī)范標(biāo)簽“喜悅”可能對(duì)應(yīng)一組擴(kuò)展標(biāo)簽,包括“喜” “樂(lè)” “興高采烈” “開(kāi)心” 等。擴(kuò)展標(biāo)簽是規(guī)范標(biāo)簽的擴(kuò)展說(shuō)明,增強(qiáng)了標(biāo)簽的語(yǔ)義涵義。
(C)臨時(shí)標(biāo)簽庫(kù)臨時(shí)標(biāo)簽經(jīng)過(guò)標(biāo)簽管理員審核后才可使用。由于規(guī)范標(biāo)簽庫(kù)是隨著圖片標(biāo)注工作逐漸完善和擴(kuò)充的,所以標(biāo)引員或其他非專業(yè)用戶在標(biāo)注圖片時(shí),可以根據(jù)實(shí)際需要使用規(guī)范標(biāo)簽庫(kù)和擴(kuò)展標(biāo)簽庫(kù)中沒(méi)有的關(guān)鍵詞(即臨時(shí)標(biāo)簽)來(lái)標(biāo)注圖片。
(d)標(biāo)簽關(guān)聯(lián)庫(kù)標(biāo)簽關(guān)聯(lián)庫(kù)中存放的是規(guī)范標(biāo)簽之間的語(yǔ)義關(guān)聯(lián)關(guān)系,這種關(guān)聯(lián)關(guān)系是由標(biāo)簽數(shù)據(jù)分析結(jié)果得出,標(biāo)簽關(guān)聯(lián)庫(kù)輔助完善智能推薦功能,提高標(biāo)注和檢索的效率和質(zhì)量。
(e)標(biāo)簽數(shù)據(jù)分析可從如下方面進(jìn)行數(shù)據(jù)分析對(duì)圖片所標(biāo)注標(biāo)簽進(jìn)行標(biāo)簽共現(xiàn)分析;對(duì)用戶檢索圖片時(shí)所用標(biāo)簽進(jìn)行記錄和分析;對(duì)相似圖片(通過(guò)手動(dòng)設(shè)置和自動(dòng)識(shí)別的方法確定)所注標(biāo)簽進(jìn)行統(tǒng)計(jì)分析。通過(guò)數(shù)據(jù)分析和挖掘規(guī)范標(biāo)簽之間的關(guān)聯(lián)關(guān)系, 建立標(biāo)簽之間的語(yǔ)義關(guān)聯(lián),提聞圖片標(biāo)注和檢索的效率和質(zhì)量。
(2)配置可擴(kuò)展的圖片種類。
按照?qǐng)D片特征,將圖片分為編輯類圖片和創(chuàng)意類圖片。
( 3 )建立多級(jí)、可配置的圖片內(nèi)容標(biāo)注維度。
按照?qǐng)D片特征,將圖片分為屬性層、內(nèi)容層等一級(jí)維度,內(nèi)容層維度可分為人物、 拍攝地點(diǎn)等二級(jí)維度;人物維度可劃分為特定人物、性別、年齡等三級(jí)維度;可以根據(jù)需要建立圖片的多級(jí)內(nèi)容維度。
(4)建立可配置、可修改的圖片種類與圖片內(nèi)容標(biāo)注維度的對(duì)應(yīng)關(guān)系。
自行配置圖片種類和維度的對(duì)應(yīng)關(guān)系,如編輯類圖片可與人物、拍攝地點(diǎn)等建立對(duì)應(yīng)關(guān)系;可以根據(jù)實(shí)際需要修改維護(hù)種類和維度的對(duì)應(yīng)關(guān)系。
( 5 )基于語(yǔ)義標(biāo)簽庫(kù)的圖片內(nèi)容標(biāo)注。
圖片標(biāo)注是基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注過(guò)程,如圖4所示,可分為以下步驟
標(biāo)注圖片時(shí),標(biāo)引員可直接從規(guī)范標(biāo)簽庫(kù)中選取規(guī)范標(biāo)簽進(jìn)行標(biāo)注,也可以輸入標(biāo)引詞,系統(tǒng)自動(dòng)對(duì)標(biāo)引詞在擴(kuò)展標(biāo)簽庫(kù)中進(jìn)行匹配如果匹配成功,則在規(guī)范標(biāo)簽庫(kù)中獲取規(guī)范標(biāo)簽及其標(biāo)注碼,建立圖片與標(biāo)注碼的對(duì)應(yīng)關(guān)系;如果匹配不成功,則將標(biāo)引詞存入臨時(shí)標(biāo)簽庫(kù)并保留該詞與被標(biāo)注圖片的對(duì)應(yīng)關(guān)系。標(biāo)注過(guò)程中系統(tǒng)根據(jù)標(biāo)簽關(guān)聯(lián)庫(kù)進(jìn)行智能推薦。
(6)臨時(shí)標(biāo)簽處理。
臨時(shí)標(biāo)簽經(jīng)過(guò)標(biāo)簽管理員審核才能正式用于圖片內(nèi)容標(biāo)注,一是按照規(guī)范標(biāo)簽和擴(kuò)展標(biāo)簽的標(biāo)準(zhǔn),將臨時(shí)標(biāo)簽直接設(shè)定為規(guī)范標(biāo)簽或擴(kuò)展標(biāo)簽;二是直接刪除該臨時(shí)標(biāo)簽。 此外,還可以選擇已有的規(guī)范標(biāo)簽或擴(kuò)展標(biāo)簽代替該臨時(shí)標(biāo)簽。
(7)基于語(yǔ)義標(biāo)簽庫(kù)的圖片檢索。
圖片檢索是基于語(yǔ)義標(biāo)簽庫(kù),經(jīng)過(guò)多維度標(biāo)注后的檢索使用過(guò)程,如圖5所示,可分為以下步驟
檢索圖片時(shí),用戶輸入檢索詞,系統(tǒng)自動(dòng)在擴(kuò)展標(biāo)簽庫(kù)中進(jìn)行匹配如果匹配成功,則獲取此檢索詞的標(biāo)注碼,系統(tǒng)利用標(biāo)注碼智能推薦和檢索圖片;如果匹配不成功,則將檢索詞與圖片描述信息,如關(guān)鍵詞等進(jìn)行匹配,同時(shí)系統(tǒng)將該檢索詞存入臨時(shí)標(biāo)簽庫(kù);
其中,智能推薦指的是根據(jù)標(biāo)注碼,找到所有具有此標(biāo)注碼的規(guī)范標(biāo)簽,然后找到經(jīng)過(guò)標(biāo)簽關(guān)聯(lián)庫(kù)提供的標(biāo)簽關(guān)聯(lián)和擴(kuò)展標(biāo)簽庫(kù)提供的標(biāo)簽擴(kuò)展關(guān)系推薦的具有語(yǔ)義關(guān)聯(lián)的規(guī)范標(biāo)簽,根據(jù)這些標(biāo)簽檢索圖片。
權(quán)利要求
1 . 一種基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法,其特征在于,包括以下步驟 1.1建立語(yǔ)義標(biāo)簽庫(kù);語(yǔ)義標(biāo)簽庫(kù)由規(guī)范標(biāo)簽庫(kù)、擴(kuò)展標(biāo)簽庫(kù)、臨時(shí)標(biāo)簽庫(kù)、標(biāo)簽關(guān)聯(lián)庫(kù)和標(biāo)簽數(shù)據(jù)分析構(gòu)成,其中擴(kuò)展標(biāo)簽庫(kù)包含規(guī)范標(biāo)簽庫(kù)的內(nèi)容; I. 2配置可擴(kuò)展的資源種類; I. 3建立多級(jí)、可配置的內(nèi)容標(biāo)注維度;將資源按照內(nèi)容特征劃分維度,建立多層次的內(nèi)容維度; I. 4建立可配置、可修改的資源種類與內(nèi)容標(biāo)注維度的對(duì)應(yīng)關(guān)系; I. 5進(jìn)行基于語(yǔ)義標(biāo)簽庫(kù)的資源內(nèi)容標(biāo)注;標(biāo)注資源時(shí),直接從規(guī)范標(biāo)簽庫(kù)中選取規(guī)范標(biāo)簽進(jìn)行標(biāo)注,也可以輸入標(biāo)弓I詞,系統(tǒng)自動(dòng)對(duì)標(biāo)弓I詞在擴(kuò)展標(biāo)簽庫(kù)中進(jìn)行匹配如果匹配成功,則在規(guī)范標(biāo)簽庫(kù)中獲取規(guī)范標(biāo)簽及其標(biāo)注碼,建立資源與標(biāo)注碼的對(duì)應(yīng)關(guān)系;如果匹配不成功,則將標(biāo)引詞存入臨時(shí)標(biāo)簽庫(kù)并保留該詞與被標(biāo)注資源的對(duì)應(yīng)關(guān)系;標(biāo)注過(guò)程中系統(tǒng)根據(jù)標(biāo)簽關(guān)聯(lián)庫(kù)進(jìn)行智能推薦; I. 6臨時(shí)標(biāo)簽處理;標(biāo)簽管理員將逐一審核臨時(shí)標(biāo)簽,或者設(shè)定為新的規(guī)范標(biāo)簽或擴(kuò)展標(biāo)簽,或者將其刪除; 1.7基于語(yǔ)義標(biāo)簽庫(kù)的資源檢索;用戶輸入檢索詞,系統(tǒng)自動(dòng)在擴(kuò)展標(biāo)簽庫(kù)中進(jìn)行匹配如果匹配成功,系統(tǒng)根據(jù)對(duì)應(yīng)的標(biāo)簽標(biāo)注碼來(lái)檢索對(duì)應(yīng)圖片;如果匹配不成功,系統(tǒng)可將檢索詞與資源描述信息進(jìn)行匹配,同時(shí)系統(tǒng)將該檢索詞存入臨時(shí)標(biāo)簽庫(kù)。
2.根據(jù)權(quán)利要求I所述的一種基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法,其特征在于所述的規(guī)范標(biāo)簽庫(kù)中儲(chǔ)存標(biāo)注資源的正式標(biāo)簽,即規(guī)范標(biāo)簽;只有規(guī)范標(biāo)簽才被分配標(biāo)注碼;規(guī)范標(biāo)簽采用分組分層管理首先按詞語(yǔ)類別劃分分組,然后對(duì)每組規(guī)范標(biāo)簽分層,構(gòu)建一個(gè)樹(shù)狀結(jié)構(gòu)的標(biāo)簽集合,并為每個(gè)規(guī)范標(biāo)簽自動(dòng)分配一個(gè)標(biāo)注碼;同詞異碼表不該標(biāo)簽為多義詞標(biāo)簽,同碼異詞表示該組標(biāo)簽為同義詞標(biāo)簽組;此外,可使用標(biāo)注碼將不同語(yǔ)種的標(biāo)簽對(duì)應(yīng)起來(lái),實(shí)現(xiàn)多語(yǔ)種標(biāo)簽擴(kuò)展。
3.根據(jù)權(quán)利要求I所述的一種基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法,其特征在于所述的擴(kuò)展標(biāo)簽庫(kù)中儲(chǔ)存擴(kuò)展標(biāo)簽及全部規(guī)范標(biāo)簽;擴(kuò)展標(biāo)簽為對(duì)應(yīng)某個(gè)規(guī)范標(biāo)簽的一系列擴(kuò)展詞語(yǔ),本身不具有標(biāo)注碼;擴(kuò)展標(biāo)簽與資源不具有直接關(guān)聯(lián)關(guān)系,而是通過(guò)其對(duì)應(yīng)的規(guī)范標(biāo)簽具有間接關(guān)聯(lián)關(guān)系;擴(kuò)展標(biāo)簽一定會(huì)與某個(gè)或多個(gè)規(guī)范標(biāo)簽具有關(guān)聯(lián)關(guān)系,即通過(guò)規(guī)范標(biāo)簽可獲取其對(duì)應(yīng)的一組擴(kuò)展標(biāo)簽,反之亦然;擴(kuò)展標(biāo)簽庫(kù)包括兩個(gè)方面標(biāo)注資源時(shí),標(biāo)引員輸入詞語(yǔ)時(shí),系統(tǒng)從擴(kuò)展標(biāo)簽庫(kù)中匹配該詞對(duì)應(yīng)的規(guī)范標(biāo)簽,提示給標(biāo)引員;檢索資源時(shí),用戶輸入關(guān)鍵詞進(jìn)行檢索時(shí),系統(tǒng)從擴(kuò)展標(biāo)簽庫(kù)中匹配該詞對(duì)應(yīng)的規(guī)范標(biāo)簽及其標(biāo)注碼,進(jìn)而查找該標(biāo)注碼對(duì)應(yīng)的資源。
4.根據(jù)權(quán)利要求I所述的一種基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法,其特征在于所述的臨時(shí)標(biāo)簽庫(kù)是在資源標(biāo)注過(guò)程中標(biāo)引員臨時(shí)添加的不屬于規(guī)范標(biāo)簽和擴(kuò)展標(biāo)簽的詞語(yǔ),不具有標(biāo)注碼;根據(jù)實(shí)際需要使用規(guī)范標(biāo)簽庫(kù)和擴(kuò)展標(biāo)簽庫(kù)中沒(méi)有的關(guān)鍵詞標(biāo)注資源。
5.根據(jù)權(quán)利要求I所述的一種基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法,其特征在于所述的標(biāo)簽關(guān)聯(lián)庫(kù)儲(chǔ)存標(biāo)簽數(shù)據(jù)分析的結(jié)果,用于標(biāo)簽標(biāo)注和檢索時(shí)的智能推薦。
6.根據(jù)權(quán)利要求I所述的一種基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法,其特征在于所述的配置可擴(kuò)展的資源種類,支持圖片、音頻、視頻多媒體資源種類,并允許對(duì)其進(jìn)行動(dòng)態(tài)調(diào)整。
7.根據(jù)權(quán)利要求I所述的一種基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法,其特征在于所述的建立多級(jí)、可配置的內(nèi)容標(biāo)注維度,多個(gè)可分級(jí)的標(biāo)注維度,支持不同種類的資源對(duì)應(yīng)不同的標(biāo)注維度,用于對(duì)資源的標(biāo)簽標(biāo)注進(jìn)行約束和規(guī)范。
8.根據(jù)權(quán)利要求I所述的一種基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法,其特征在于標(biāo)簽管理員對(duì)所述的臨時(shí)標(biāo)簽進(jìn)行審核,采用按照規(guī)范標(biāo)簽和擴(kuò)展標(biāo)簽的標(biāo)準(zhǔn),將臨時(shí)標(biāo)簽直接設(shè)定為規(guī)范標(biāo)簽或擴(kuò)展標(biāo)簽,或直接刪除該臨時(shí)標(biāo)簽;還可以選擇已有的規(guī)范標(biāo)簽或擴(kuò)展標(biāo)簽代替該臨時(shí)標(biāo)簽。
全文摘要
本發(fā)明公開(kāi)了一種基于語(yǔ)義標(biāo)簽庫(kù)的多維度內(nèi)容標(biāo)注方法,包括建立語(yǔ)義標(biāo)簽庫(kù);配置可擴(kuò)展的資源種類;建立多級(jí)、可配置的內(nèi)容標(biāo)注維度;將資源按照內(nèi)容特征劃分維度,建立多層次的內(nèi)容維度;建立可配置、可修改的資源種類與內(nèi)容標(biāo)注維度的對(duì)應(yīng)關(guān)系;進(jìn)行基于語(yǔ)義標(biāo)簽庫(kù)的資源內(nèi)容標(biāo)注;臨時(shí)標(biāo)簽處理;基于語(yǔ)義標(biāo)簽庫(kù)的資源檢索;用戶輸入檢索詞,系統(tǒng)自動(dòng)在擴(kuò)展標(biāo)簽庫(kù)中進(jìn)行匹配如果匹配成功,系統(tǒng)根據(jù)對(duì)應(yīng)的標(biāo)簽標(biāo)注碼來(lái)檢索對(duì)應(yīng)圖片;如果匹配不成功,系統(tǒng)可將檢索詞與資源描述信息進(jìn)行匹配,同時(shí)系統(tǒng)將該檢索詞存入臨時(shí)標(biāo)簽庫(kù)。有效的提高了資源標(biāo)注的精確度和效率,為資源檢索和數(shù)據(jù)分析奠定了良好的基礎(chǔ)。
文檔編號(hào)G06F17/30GK102982076SQ20121042452
公開(kāi)日2013年3月20日 申請(qǐng)日期2012年10月30日 優(yōu)先權(quán)日2012年10月30日
發(fā)明者呂銳, 張鵬洲, 張弛, 林波, 王民, 溫宇俊, 龔雋鵬, 宋卿, 劉偉, 陳國(guó)偉 申請(qǐng)人:新華通訊社, 中國(guó)傳媒大學(xué)