專利名稱:自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法。
背景技術(shù):
在傳統(tǒng)的網(wǎng)絡(luò)內(nèi)容管理系統(tǒng)中,很難人工設(shè)計(jì)分類欄目,想調(diào)整或細(xì)化分類時(shí),需要對所有相關(guān)信息進(jìn)行修改,網(wǎng)絡(luò)資源的分類費(fèi)時(shí)費(fèi)力。目前資源利用已經(jīng)從專家自主模 式(即系統(tǒng)建構(gòu)一用戶利用)向用戶自主模式(用戶構(gòu)建一用戶利用)發(fā)展。自由分 類的個(gè)性化標(biāo)簽是完全從用戶視角發(fā)展起來的分類方法,它打破了嚴(yán)格的學(xué)科分隔和類號 束縛,事實(shí)上也打破了傳統(tǒng)分類的兩大支柱學(xué)科區(qū)分和類號聚合。傳統(tǒng)分類法嚴(yán)格的學(xué)科 細(xì)分正在瓦解,目前學(xué)科融合使許多資源歸類困難。大量的資源是可以自由組合的,用戶標(biāo) 簽顛覆了傳統(tǒng)的專家分類模式,建立了以用戶為中心的標(biāo)簽聚類模式,分類框架采用自由 分類的框架和語言。分類的表現(xiàn)形式一標(biāo)簽是由用戶產(chǎn)生的元數(shù)據(jù),區(qū)別于以往由專家 或網(wǎng)站作者產(chǎn)生的元數(shù)據(jù),它能直接、迅速反映用戶的需求、理解和知識的更新。但自由分 類法存在語義模糊,標(biāo)簽濫用,標(biāo)簽散亂,層次關(guān)系不明確,難以形成分類目錄等級結(jié)構(gòu),利 用標(biāo)簽平面非等級標(biāo)引的信息也都是并列的,信息越多利用標(biāo)簽直接找到信息就越困難等 問題。所以自由分類法現(xiàn)在還無法取代現(xiàn)有網(wǎng)絡(luò)信息分類法作為各大網(wǎng)站和搜索引擎的分 類導(dǎo)航系統(tǒng)的地位。在Web2. 0網(wǎng)站http //delicious, com上,用戶可以對互聯(lián)網(wǎng)的各個(gè)網(wǎng)站標(biāo)注自由分類標(biāo)簽,推薦與分享,在豆瓣網(wǎng)站上,用戶可以對電影,音樂,圖書等根據(jù)自己的理解標(biāo) 注自由分類標(biāo)簽,并推薦分享,用戶可以在許多在Web2. 0網(wǎng)站上對視頻、博客等資源添加自由分類標(biāo)簽并推薦等等。如果突破自由分類標(biāo)簽自動類聚,確定標(biāo)簽間層級關(guān)系的難題, 就可以利用自由分類標(biāo)簽構(gòu)建層次分明的網(wǎng)狀分類結(jié)構(gòu)并對網(wǎng)絡(luò)資源進(jìn)行自動歸類。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種簡單、方便的自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法,它可根據(jù)用戶標(biāo)簽關(guān)聯(lián),用戶偏好關(guān)聯(lián)自動構(gòu)建網(wǎng)狀分類結(jié)構(gòu),不需要任何同義詞表, 分類詞表和其他概念等級結(jié)構(gòu)輔助,自動產(chǎn)生新的分類,自動構(gòu)建類目層級關(guān)系。本發(fā)明提供的自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法,該方法是利用用戶對網(wǎng)絡(luò)資源添加的標(biāo)簽關(guān)聯(lián)和喜好推薦關(guān)聯(lián)將資源類聚成最基本的凝聚子群,最基本的凝聚子 群之間通過標(biāo)簽關(guān)聯(lián)組成上一級較大的凝聚子群,逐次向上組成一級級的凝聚子群類目,從而形成網(wǎng)狀分類結(jié)構(gòu)。本發(fā)明可以采用比較通俗的解釋進(jìn)行說明,例如,自然界中存在的大最復(fù)雜系統(tǒng) 都可以通過網(wǎng)絡(luò)進(jìn)行抽象和描述。通過對網(wǎng)絡(luò)模型的構(gòu)建和網(wǎng)絡(luò)結(jié)構(gòu)特征的分析,就可以 構(gòu)建網(wǎng)絡(luò)地圖,例如人際關(guān)系網(wǎng)絡(luò)地圖,交通網(wǎng)絡(luò)地圖等等,從這些網(wǎng)絡(luò)地圖中我們就可以分析出一個(gè)個(gè)最基本凝聚子群,相近的最基本的凝聚子群又組成一個(gè)較大的凝聚子群,相 近的較大的凝聚子群又組成更大的凝聚子群。北京,上海,廣州等頂級城市位于錯(cuò)綜復(fù)雜的交通網(wǎng)絡(luò)中,位于不同凝聚子群連接網(wǎng)絡(luò)的中心。這些中心是通過分析其與其他凝聚子群的交通連接密集程度自動產(chǎn)生的,不是事先規(guī)定的中心。就像每個(gè)縣城都有直接到縣內(nèi)每 個(gè)鎮(zhèn)頻繁的班車,就可以組成一個(gè)縣的凝聚子群,每個(gè)地級市都有直接到市內(nèi)每個(gè)縣城頻 繁的班車,就可以組成一個(gè)地級市的凝聚子群。每個(gè)省會市都有直接到省內(nèi)每個(gè)地級市頻 繁的班車,就可以組成一個(gè)省的凝聚子群。這樣就可以從交通網(wǎng)絡(luò)圖中確定各鎮(zhèn),縣城,地 級市、省會的層級關(guān)系。自由分類中用戶添加標(biāo)簽和喜歡推薦的行為將相同類別的資源關(guān)聯(lián)起來,標(biāo)注 了相同的標(biāo)簽的若干個(gè)資源就說明這若干個(gè)資源有相互之間都兩兩有關(guān)聯(lián)(稱作標(biāo)簽關(guān) 聯(lián)),在繪制網(wǎng)絡(luò)資源關(guān)系連接圖時(shí)就用連接線兩兩連接。被相同的用戶同時(shí)喜歡推薦就說 明若干個(gè)資源可能會有點(diǎn)關(guān)聯(lián)(稱作偏好關(guān)聯(lián)),很明顯,在資源的類別判斷中,標(biāo)簽關(guān)聯(lián) 比偏好關(guān)聯(lián)的權(quán)重大得多,因?yàn)殡m然相同讀者喜歡的圖書往往是同類的,但讀者的喜好是 廣泛的,偏好關(guān)聯(lián)只能作為輔助判斷,而且偏好關(guān)聯(lián)只在確定最基本的凝聚子群時(shí)使用,在 分析凝聚子群間的關(guān)系連接網(wǎng)絡(luò)圖時(shí)不使用。當(dāng)網(wǎng)絡(luò)中某些行動者之間的關(guān)系特別緊密,以至于結(jié)合成一個(gè)次級團(tuán)體時(shí),這樣 的團(tuán)體在社會網(wǎng)絡(luò)分析中被稱為凝聚子群。分析網(wǎng)絡(luò)中存在多少個(gè)這樣的子群,子群之間 關(guān)系特點(diǎn),一個(gè)子群的成員與另一個(gè)子群成員之間的關(guān)系特點(diǎn)等就是凝聚子群分析。一個(gè) 凝聚子群就可以看成一個(gè)類別,分析它們的包含、等級關(guān)系就為構(gòu)建網(wǎng)狀分類結(jié)構(gòu)提供依 據(jù),當(dāng)若干個(gè)資源(要有三個(gè)以上)由標(biāo)簽關(guān)聯(lián)而使它們都兩兩連接,那么就認(rèn)為是這若干 個(gè)資源相關(guān)密切,是屬于一個(gè)最基本的類別。例如100本圖書同時(shí)被標(biāo)注了“軟件”這個(gè)標(biāo) 簽,那么這100本圖書就肯定是兩兩標(biāo)簽關(guān)聯(lián),但第101本圖書雖沒有被標(biāo)注“軟件”這個(gè) 標(biāo)簽,但它和這100本書中的50本同時(shí)被標(biāo)注了 “編程”標(biāo)簽,和這100本書中的另外30 本同時(shí)被標(biāo)注了“程序開發(fā)”標(biāo)簽,和這100本書中的余下的20本同時(shí)被標(biāo)注了 “C++”標(biāo) 簽,那么第101本書也和這100本圖書兩兩標(biāo)簽關(guān)聯(lián),同屬于“軟件”這個(gè)小凝聚子群(用 這個(gè)最基本的小凝聚子群里元素出現(xiàn)最多的標(biāo)簽命名就是這個(gè)最基本的小凝聚子群類目 名稱)。這樣就可以把相同類別但因?yàn)橥x詞,近義詞,新流行詞導(dǎo)致標(biāo)簽各異的圖書盡量 歸屬到一類。但也有可能第101本圖書只能和這100本圖書中的80本圖書兩兩標(biāo)簽關(guān)聯(lián), 但它確實(shí)屬于軟件類的圖書,這時(shí)就可以借助偏好關(guān)聯(lián)來輔助判斷,因?yàn)槟硞€(gè)讀者往往喜 歡同一類別的書,經(jīng)過瀏覽豆瓣網(wǎng)的數(shù)據(jù)統(tǒng)計(jì),偏好關(guān)聯(lián)類別平均相同率大約為50%。對 于文學(xué),社會科學(xué)類的書,偏好關(guān)聯(lián)類別相同率在35%以上。對于科技、學(xué)科類專業(yè)書,偏 好關(guān)聯(lián)類別相同率為70%以上。對于已經(jīng)由標(biāo)簽關(guān)聯(lián)組成的“軟件”凝聚子群,其他圖書如 果具備和“軟件”凝聚子群80%以上的圖書兩兩標(biāo)簽關(guān)聯(lián)的條件,設(shè)計(jì)的軟件再計(jì)算其和這 個(gè)“軟件”凝聚子群圖書的偏好關(guān)聯(lián)比例,如果偏好關(guān)聯(lián)比例超過50%,那么符合條件的圖 書就會加入到“軟件”這個(gè)凝聚子群中,這叫做偏好關(guān)聯(lián)輔助原則。偏好關(guān)聯(lián)輔助原則只是 在分析最基本的小凝聚子群時(shí)使用。例如在豆瓣中《C++Primer中文版》這本圖書被標(biāo)注 了以下標(biāo)簽“C±± (447)編程(166)計(jì)算機(jī)(125)程序設(shè)計(jì)(96) Programming (73)經(jīng)典之 作(59)經(jīng)典(48)經(jīng)典教材(45) ”,(括號里的數(shù)字表示被標(biāo)注的次數(shù))。雖然它沒有“軟 件”這個(gè)標(biāo)簽,但它上述的標(biāo)簽使它和“軟件”凝聚子群里超過80%的圖書標(biāo)簽關(guān)聯(lián),那么 就再統(tǒng)計(jì)其和“軟件”凝聚子群里圖書的偏好關(guān)聯(lián)比例,如果偏好關(guān)聯(lián)比例超過50%,就說 明《C++Primer中文版》和“軟件”凝聚子群相近程度很大,可以讓其加入到“軟件”凝聚子群。然后在把分析出的一個(gè)個(gè)最基本的凝聚子群看作一個(gè)個(gè)點(diǎn),那么最基本的凝聚子 群里的資源之間的互聯(lián)就可以省略,凝聚子群內(nèi)不論多少個(gè)資源與子群外的某個(gè)最基本的 凝聚子群內(nèi)多少個(gè)資源標(biāo)簽關(guān)聯(lián)都只看作一個(gè)連接,即是兩個(gè)凝聚子群間無論有多少個(gè)標(biāo) 簽關(guān)聯(lián)都省略為一個(gè)連接。凝聚子群間的連接不考慮喜歡關(guān)聯(lián),只考慮標(biāo)簽關(guān)聯(lián),因?yàn)槿绻?考慮喜歡關(guān)聯(lián)就可能將不同類別的凝聚子群連接起來。在分析相近的幾個(gè)凝聚子群哪個(gè)處 于中心度高的位置,處于結(jié)構(gòu)洞的位置時(shí),還要考慮它們之間通過標(biāo)簽關(guān)聯(lián)的標(biāo)簽名稱是 否和其中某個(gè)凝聚子群的名稱相同,如果有相同的,那么這樣的標(biāo)簽關(guān)聯(lián)就省略。這樣處理 后,就得到簡化的凝聚子群連接圖。在簡圖中,看看相鄰的幾個(gè)點(diǎn)中哪個(gè)點(diǎn)中心度最高,如 果把中心度最高的點(diǎn)融入到連接線中(就是不考慮這個(gè)點(diǎn)對連接線的斷開作用),哪幾個(gè) 點(diǎn)(規(guī)定要有四個(gè)點(diǎn)以上)就可以全都兩兩直接連接,那么這幾點(diǎn)就可以組成上一級較大 的凝聚子群,較大的凝聚子群名稱就是處于結(jié)構(gòu)洞位置的點(diǎn)(小凝聚子群)的名稱。然后再 把這個(gè)較大的凝聚子群看作一個(gè)點(diǎn),按上述方法在去分析其和相近的那幾個(gè)較大的凝聚子 群組成一個(gè)更大的凝聚子群,直到最后就形成一個(gè)層次和交錯(cuò)分明的自然分類網(wǎng)絡(luò)地圖。自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)與專家組織起來的嚴(yán)格層級關(guān)系的分類體系 對比起來主要有如下特點(diǎn)(1)這樣構(gòu)成的一個(gè)個(gè)凝聚子群可以看作是獨(dú)立的模塊,必要 時(shí)可以和任一類自由組合,這決定于用戶的標(biāo)注行為。某個(gè)凝聚子群類目可以歸屬于不同 的上級層次類目。例如滑冰可以屬于體育運(yùn)動類目,也可以屬于休閑娛樂類目。這是用戶 對資源不同理解添加不同標(biāo)簽,交叉鏈接類聚的必然結(jié)果。(2)進(jìn)行凝聚子群分析反映了 用戶對網(wǎng)絡(luò)類別結(jié)構(gòu)的理解,網(wǎng)絡(luò)資源的不斷更新使網(wǎng)絡(luò)分類不斷更新,變化和補(bǔ)充。不同 的類別隨著用戶的理解發(fā)展可以隨機(jī)類聚,交叉歸屬于不同上級類目,形成網(wǎng)狀分類結(jié)構(gòu) 體系。用戶不斷添加標(biāo)簽,用戶理解變化,新知識體系的不斷產(chǎn)生,用戶的喜好推薦變化等 等使凝聚子群類目體系呈動態(tài)變化。這些都是通過軟件自動分析生成,節(jié)省大量的人力物 力去對網(wǎng)絡(luò)資源進(jìn)行分類。(3)自由分類標(biāo)簽類聚成自動分類網(wǎng)絡(luò)地圖利用用戶標(biāo)注、推 薦使資源的緊密連接程度類聚歸類,這個(gè)網(wǎng)狀分類結(jié)構(gòu)體系就是根據(jù)用戶的行為自然形成 的、以用戶為中心的、著眼于資源應(yīng)用的分類系統(tǒng),這樣就可以省略了人工組織的一系列分 類號,分類層次框架和分類本體。不是先確定分類體系才把資源歸入類別,而是先把資源類 聚才確定類目名稱,這樣就可以使新類目隨著資源的不斷增長而不斷產(chǎn)生。自動分類網(wǎng)絡(luò) 地圖不僅可以從多種分類中(代表不同的信息認(rèn)知)檢索到同一信息,還可以基于用戶對 信息的理解自動修改單項(xiàng)信息的歸屬。信息一般都具有豐富的語義,網(wǎng)狀結(jié)構(gòu)更適合表達(dá) 信息之間復(fù)雜的關(guān)系,頂層的類目框架不是并列排列逐級展開,而是像地圖一樣,層級關(guān)系 通過網(wǎng)絡(luò)中心度、凝聚子群分析就可以得出。(4)研究這個(gè)網(wǎng)狀類目地圖,又可以得出交通 要點(diǎn),主干線,進(jìn)一步揭示類目的層次關(guān)系,流行熱點(diǎn),知識分布態(tài)勢,知識群的關(guān)系等。研 究不同時(shí)期的網(wǎng)狀類目地圖,又可以得出知識的發(fā)展趨勢。本發(fā)明可以解決互聯(lián)網(wǎng)自由分類標(biāo)簽自動類聚,確定標(biāo)簽間層級關(guān)系的難題,自 動構(gòu)建網(wǎng)絡(luò)資源網(wǎng)狀分類結(jié)構(gòu)??梢员凰锌梢宰層脩籼砑幼杂煞诸悩?biāo)簽的網(wǎng)站使用,得 出的分類結(jié)構(gòu)可以被互聯(lián)網(wǎng)搜索引擎分類體系應(yīng)用,提供網(wǎng)絡(luò)資源知識群落分布特征和發(fā) 展變化研究的一種新途徑。
圖1是圖書、標(biāo)簽關(guān)聯(lián)、偏好關(guān)聯(lián)構(gòu)成網(wǎng)絡(luò)最基本的凝聚子群分析例圖;圖2是圖1的凝聚子群簡化成點(diǎn)的連接例圖;圖3是較小凝聚子群構(gòu)成上一級凝聚子群分析例圖。
具體實(shí)施例方式用戶對資源添加的標(biāo)簽凌亂,不規(guī)范,首先編程對標(biāo)簽的進(jìn)行規(guī)范化處理,設(shè)置軟件過濾掉非分類詞標(biāo)簽,對單個(gè)字,國家名稱,非名人的人名,多語言的混合詞,形容詞,助 詞,動詞,代詞,冠詞,副詞,連詞,介詞,感嘆詞,判斷詞,一個(gè)句子作為標(biāo)簽的都過濾掉。采 用中文分詞軟件判斷詞性的功能對標(biāo)簽數(shù)據(jù)進(jìn)行詞性判斷,過濾,軟件設(shè)置對超過五個(gè)漢 字的標(biāo)簽,多語言混合的標(biāo)簽進(jìn)行過濾。另外,對于低頻出現(xiàn)的標(biāo)簽(只有一、兩個(gè)人標(biāo)注 過的標(biāo)簽)也可認(rèn)為是垃圾標(biāo)簽而過濾掉。過濾掉的標(biāo)簽就不再被認(rèn)為使資源標(biāo)簽關(guān)聯(lián)。 剩下的標(biāo)簽我們就可以認(rèn)為是標(biāo)準(zhǔn)標(biāo)簽。經(jīng)處理后,一個(gè)資源一般可以幾個(gè)標(biāo)準(zhǔn)標(biāo)簽。對于過濾掉剩下標(biāo)準(zhǔn)標(biāo)簽,被標(biāo)注同一標(biāo)準(zhǔn)標(biāo)簽的若干資源肯定都是兩兩標(biāo)簽關(guān) 聯(lián),就肯定可以組成一個(gè)個(gè)最基本的同標(biāo)簽的集合,軟件很容易就分析出這樣一個(gè)個(gè)同標(biāo) 簽的集合,因?yàn)橘Y源可以被標(biāo)注不同的標(biāo)準(zhǔn)標(biāo)簽,所以資源可以屬于好幾個(gè)同標(biāo)簽的集合, 但這樣得出的結(jié)果是類目過于多和凌亂,所以我們的軟件設(shè)置還需把結(jié)果盡量類聚。這里 以用戶對圖書自由添加分類標(biāo)簽的豆瓣網(wǎng)為例,例如被標(biāo)注了“古詩”的圖書就可以組成一 個(gè)“古詩”的同標(biāo)簽的集合,但有些圖書本來是屬于“古詩”凝聚子群的,由于用戶理解的原 因,并沒有被標(biāo)注了 “古詩,,的標(biāo)簽,而是被標(biāo)注了 “詩集”,“唐詩”,“詩”,“李白”,“古代詩 歌”,“杜甫”,“七律”等等,如果每個(gè)這樣的標(biāo)簽都構(gòu)成一個(gè)最基本的凝聚子群,那么這樣的 分類就太散亂了。所以設(shè)置的軟件根據(jù)以上制定的標(biāo)簽兩兩關(guān)聯(lián),偏好關(guān)聯(lián)輔助原則,將它 們合并到“古詩”這個(gè)最基本的凝聚子群里來。設(shè)計(jì)的軟件在豆瓣里數(shù)據(jù)庫里很容易就分析 出同標(biāo)簽圖書的集合,再根據(jù)其它圖書與這個(gè)同標(biāo)簽的集合所有圖書能否都達(dá)到標(biāo)簽兩兩 關(guān)聯(lián),或者標(biāo)簽關(guān)聯(lián)超過80%的情況下,再看其和這個(gè)同標(biāo)簽的集合圖書偏好關(guān)聯(lián)能否超 過50%,這兩種情況符合都可以加入到這個(gè)同標(biāo)簽的集合中,共同組成一個(gè)最基本的凝聚 子群,這樣處理后基本上都可以把屬于古詩的圖書都加入到“古詩”這個(gè)最基本的凝聚子群 里來,這個(gè)最基本的凝聚子群里名稱就是這個(gè)凝聚子群里出現(xiàn)得最多次數(shù)的標(biāo)簽名稱。例 如對于屬于“李白”同標(biāo)簽的集合的圖書,有些圖書可以因?yàn)闃?biāo)簽關(guān)聯(lián)和偏好關(guān)聯(lián)規(guī)則可以 加入到“古詩”這個(gè)最基本的凝聚子群里來,但有些圖書就達(dá)不到條件,就未能加入(有標(biāo) 簽“李白”的圖書《大唐第一古惑仔李白實(shí)錄》就加入不到“古詩”這個(gè)凝聚子群)。但其他 圖書有可能因?yàn)闃?biāo)簽關(guān)聯(lián)和偏好關(guān)聯(lián)輔助規(guī)則加入到“李白”這個(gè)同標(biāo)簽的集合共同組成 一個(gè)新的最基本的凝聚子群,出現(xiàn)次數(shù)最多的標(biāo)簽就是這個(gè)最基本的凝聚子群的名稱,所 以這個(gè)新的最基本的凝聚子群名稱就不一定叫“李白”了。最基本的凝聚子群不一定是最小 的凝聚子群,最基本的凝聚子群就是先把相同標(biāo)簽的資源歸到一個(gè)同標(biāo)簽資源集合,再看 其他資源是否達(dá)到和某個(gè)同標(biāo)簽的集合標(biāo)簽兩兩關(guān)聯(lián)或大部分標(biāo)簽兩兩關(guān)聯(lián)的情況下,偏 好關(guān)聯(lián)能否達(dá)到一定比例,就認(rèn)為其與這個(gè)同標(biāo)簽的集合資源相關(guān)性很大,可以加入到這 個(gè)集合從而組成一個(gè)最基本的凝聚子群。這樣得到的結(jié)果就肯定會有不同層次的最基本的 凝聚子群同時(shí)存在,然后設(shè)計(jì)的軟件再對相近的、有關(guān)聯(lián)的最基本的凝聚子群進(jìn)行層次關(guān)系確定。例如“小說”和“文學(xué)”兩個(gè)相似度很近的標(biāo)簽,如果認(rèn)為哪個(gè)標(biāo)簽標(biāo)注次數(shù)多,網(wǎng) 絡(luò)影響域大就是上級是行不通的,因?yàn)樵诙拱昃W(wǎng)中標(biāo)簽“小說”的使用次數(shù)遠(yuǎn)比“文學(xué)”多。 例如圖1,圖1中分別有文學(xué)、小說、散文、詩歌和文學(xué)評論五個(gè)最基本的凝聚子群,最小的 圓圈代表資源,資源之間的連線就是表示標(biāo)簽關(guān)聯(lián),圖中最基本的凝聚子群內(nèi)的資源都是 兩兩標(biāo)簽關(guān)聯(lián)。其中“小說”因?yàn)槠漕悇e書本最多,標(biāo)注為“小說”標(biāo)簽的圖書最多,所以小 說類圖書的影響域最大,文學(xué)本來是小說的上級類目,但讀者標(biāo)注喜好是更細(xì)更具體的標(biāo) 簽,所以“文學(xué)”標(biāo)簽使用數(shù)量、影響域遠(yuǎn)遠(yuǎn)小于“小說”標(biāo)簽。我們把“小說”類凝聚子群看 作一個(gè)點(diǎn),“文學(xué)”類凝聚子群看作另一個(gè)點(diǎn),那么凝聚子群內(nèi)元素的互聯(lián)就可以省略,兩個(gè) 凝聚子群間無論有多少個(gè)標(biāo)簽關(guān)聯(lián)都省略為一個(gè)連接。軟件同時(shí)判斷最基本的凝聚子群間 通過的標(biāo)簽關(guān)聯(lián)的標(biāo)簽名稱是否有與相鄰的凝聚子群名稱相同的情況,如果有,這個(gè)關(guān)聯(lián) 就省略,即是不看作其使凝聚子群之間有連接。例如“小說”凝聚子群里有的圖書同時(shí)被標(biāo) 注了“文學(xué)”標(biāo)簽,“詩歌”凝聚子群里有的圖書也同時(shí)被標(biāo)注了“文學(xué)”標(biāo)簽,那么就是說凝 聚子群“小說”和凝聚子群“詩歌”之間就是直接標(biāo)簽關(guān)聯(lián)了,但凝聚子群“小說”和凝聚子 群“詩歌”之間通過的標(biāo)簽關(guān)聯(lián)名稱為“文學(xué)”,這個(gè)名稱和相鄰的凝聚子群“文學(xué)”名稱相 同,所以這個(gè)標(biāo)簽關(guān)聯(lián)就省略,這樣凝聚子群“小說”和凝聚子群“詩歌”之間沒有直接連線 了。這樣處理后就得到圖2凝聚子群簡化成點(diǎn)的連接例圖。 在圖2中,文學(xué)的影響域最大,處于中心度最高的位置,所以“文學(xué)”肯定就是其 他幾個(gè)小類別凝聚子群的上級,如果把文學(xué)這個(gè)點(diǎn)融入到連接線中(就是不考慮這個(gè)點(diǎn)對 連接線的斷開作用),這幾個(gè)最基本的凝聚子群全都兩兩直接連接,這就形成了一個(gè)較大的 “文學(xué)”類別凝聚子群。然后再把這個(gè)較大的“文學(xué)”類別凝聚子群看作一個(gè)點(diǎn),那么點(diǎn)內(nèi)所 有的互聯(lián)都要省略,點(diǎn)內(nèi)與其他相鄰的某個(gè)點(diǎn)不管有多少個(gè)連接都省略為一個(gè)連接,再分 析這個(gè)點(diǎn)與其他較大類別凝聚子群點(diǎn)的連接簡圖就可以得出它們的從屬關(guān)系。例如圖3 較小凝聚子群組成上一級的較大的凝聚子群分析例圖,我們分析當(dāng)把 處于中心度最高的、結(jié)構(gòu)洞位置的點(diǎn)融入到連接線中(就是不考慮這個(gè)點(diǎn)對連接線的斷開 作用),哪幾個(gè)點(diǎn)(規(guī)定要有四個(gè)點(diǎn)以上)就可以全都兩兩直接連接,只有去掉“文學(xué)”,“歷 史”,“教育”這三個(gè)點(diǎn)符合要求,就是說可以組成較大的“文學(xué)”,“歷史”,“教育”三個(gè)上一級 較大的凝聚子群,這個(gè)較大的凝聚子群的名稱就是位于結(jié)構(gòu)洞位置的點(diǎn)(凝聚子群)的名 稱。這樣每次都把分析出的更上一級的較大的凝聚子群看作一個(gè)點(diǎn),一層層分析繪制凝聚 子群網(wǎng)絡(luò)連接簡圖,最后就可以得到包含所有資源,有完整分類類目,分類層次分明,類目 交錯(cuò)合理的網(wǎng)狀分類結(jié)構(gòu)。
權(quán)利要求
一種自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法,其特征是利用用戶對資源自由分類添加的標(biāo)簽和喜好推薦,通過標(biāo)簽關(guān)聯(lián)為主,喜好推薦關(guān)聯(lián)為輔的原則將資源類聚成最基本的凝聚子群,最基本的凝聚子群之間通過標(biāo)簽關(guān)聯(lián)組成上一級的凝聚子群,逐次向上組成一級級的凝聚子群類目,從而形成網(wǎng)狀分類結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1所述的自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法,其特征是最基本 的凝聚子群由至少三個(gè)以上資源組成,且所有資源間都具有兩兩標(biāo)簽關(guān)聯(lián);或者在其他某 個(gè)資源和最基本的凝聚子群里一定比例的資源達(dá)到兩兩標(biāo)簽關(guān)聯(lián)的情況下,如果其又和這 個(gè)最基本的凝聚子群里一定比例的資源又達(dá)到兩兩偏好關(guān)聯(lián),就可以加入到這個(gè)最基本的 凝聚子群里來。
3.根據(jù)權(quán)利要求1所述的自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法,其特征是最基本 的凝聚子群名稱就是這個(gè)最基本的凝聚子群里出現(xiàn)次數(shù)最多的標(biāo)簽的名稱。
4.根據(jù)權(quán)利要求1所述的自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法,其特征是在判斷 相近的最基本的凝聚子群間的層次關(guān)系時(shí),把分析出的一個(gè)個(gè)最基本的凝聚子群看作一個(gè) 個(gè)點(diǎn),那么最基本的凝聚子群內(nèi)資源之間的互聯(lián)就可以省略,凝聚子群內(nèi)不論多少個(gè)資源 與子群外的某個(gè)最基本的凝聚子群內(nèi)多少個(gè)資源標(biāo)簽關(guān)聯(lián)都只看作一個(gè)連接,凝聚子群間 的連接不考慮偏好關(guān)聯(lián),只考慮標(biāo)簽關(guān)聯(lián)。
5.根據(jù)權(quán)利要求1所述的自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法,其特征是在分析 相近的幾個(gè)凝聚子群哪個(gè)處于中心度高的位置,處于結(jié)構(gòu)洞的位置時(shí),還要考慮它們之間 通過標(biāo)簽關(guān)聯(lián)的標(biāo)簽名稱是否和其中某個(gè)凝聚子群的名稱相同,如果有相同的,那么這樣 的標(biāo)簽關(guān)聯(lián)就省略,不看作這兩個(gè)凝聚子群有連接。
6.根據(jù)權(quán)利要求1所述的自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法,其特征是當(dāng)要 分析哪幾個(gè)相近凝聚子群可以組成上一級的較大的凝聚子群子群時(shí),就把幾個(gè)相近的較小 凝聚子群都看作一個(gè)個(gè)點(diǎn),分析當(dāng)把處于中心度最高的、結(jié)構(gòu)洞位置的點(diǎn)融入到連接線中, 看看有哪四個(gè)以上的點(diǎn)就可以兩兩直接相連,那么這幾點(diǎn)就可以組成上一級較大的凝聚子 群,較大的凝聚子群名稱就是處于結(jié)構(gòu)洞位置的點(diǎn)的較小凝聚子群的名稱。
7.根據(jù)權(quán)利要求1所述的自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法,其特征是依次把 形成的上一級凝聚子群簡化成一個(gè)點(diǎn),依次把簡化成的點(diǎn)和經(jīng)過相同次數(shù)處理過得出的相 鄰的點(diǎn)進(jìn)行繪制標(biāo)簽關(guān)聯(lián)連接簡圖,逐級向上分析,逐級得出再上一級的凝聚子群并命名, 自動形成網(wǎng)狀分類結(jié)構(gòu)。
全文摘要
一種自由分類標(biāo)簽類聚成網(wǎng)狀分類結(jié)構(gòu)的方法,其特征是利用用戶對資源自由分類添加的標(biāo)簽和喜好推薦,通過標(biāo)簽關(guān)聯(lián)為主,喜好推薦關(guān)聯(lián)為輔的原則將資源類聚成最基本的凝聚子群,最基本的凝聚子群之間通過標(biāo)簽關(guān)聯(lián)組成上一級的凝聚子群,逐次向上組成一級級的凝聚子群類目,從而形成網(wǎng)狀分類結(jié)構(gòu)。本發(fā)明可根據(jù)用戶標(biāo)簽關(guān)聯(lián),用戶偏好關(guān)聯(lián)自動構(gòu)建網(wǎng)狀分類結(jié)構(gòu),不需要任何同義詞表,分類詞表和其他概念等級結(jié)構(gòu)輔助,自動產(chǎn)生新的分類,自動構(gòu)建類目層級關(guān)系。
文檔編號G06F17/30GK101799814SQ20091021459
公開日2010年8月11日 申請日期2009年12月31日 優(yōu)先權(quán)日2009年12月31日
發(fā)明者吳江 申請人:茂名學(xué)院