專利名稱:用于構(gòu)建用戶模型的改進(jìn)的GuTao法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種改進(jìn)的GuTao法,用于構(gòu)建用戶模型,屬于個(gè)性化信息服務(wù)領(lǐng)域。
技術(shù)背景
個(gè)性化信息服務(wù)包括用戶建模、項(xiàng)目匹配和個(gè)性化推薦輸出三個(gè)部分。構(gòu)建用戶模型是個(gè)性化信息服務(wù)的基礎(chǔ)。在個(gè)性化信息服務(wù)研究早期,用戶建模技術(shù)并未得到重視。 研究工作重點(diǎn)在于個(gè)性化信息服務(wù)的具體技術(shù)上,如用戶聚類技術(shù)、推薦技術(shù)、信息檢索技術(shù)等,用戶建模技術(shù)只是這些研究中的附屬。隨著研究的深入,研究者逐漸意識(shí)到個(gè)性化信息服務(wù)的質(zhì)量不僅取決于具體的實(shí)現(xiàn)技術(shù),還取決于用戶興趣和偏好的可計(jì)算描述,即構(gòu)建用戶模型的質(zhì)量。
傳統(tǒng)的用戶模型構(gòu)建方法主要是基于統(tǒng)計(jì)學(xué)的,采用主題詞或加權(quán)的關(guān)鍵詞向量等表示用戶模型。通過對(duì)用戶瀏覽記錄、訪問歷史進(jìn)行概率分析,獲得用戶的興趣模型。這種方法理論成熟,使用相對(duì)簡(jiǎn)單,但存在缺乏語義、興趣度粒度大的缺點(diǎn)。
隨著語義技術(shù)地發(fā)展,本體作為概念化的模型,具有強(qiáng)大的語義擴(kuò)展和推理能力。 利用本體語義上的優(yōu)勢(shì),將用戶建模技術(shù)和本體結(jié)合起來構(gòu)建基于本體的用戶模型是用戶建模技術(shù)的主要發(fā)展趨勢(shì)。發(fā)明內(nèi)容
本發(fā)明基于本體構(gòu)建用戶模型,在具體的構(gòu)建方法上提出了改進(jìn)的GuTao法。 GuTao法能夠半自動(dòng)的構(gòu)建領(lǐng)域本體,自動(dòng)生成形式背景并消除概念間的冗余,但存在著不能處理多值屬性的缺陷。本發(fā)明提出了以興趣度為權(quán)值,作為多種屬性向單值屬性轉(zhuǎn)換的依據(jù),解決了 GuTao法不能處理多值屬性的問題,實(shí)現(xiàn)了對(duì)GuTao法的改進(jìn)。
本發(fā)明提出了將興趣度作為多值屬性向單值屬性的轉(zhuǎn)換依據(jù),在基本興趣度公式的基礎(chǔ)上推導(dǎo)出復(fù)合的興趣度公式。下面將介紹興趣度的基本公式以及根據(jù)需要的推導(dǎo)的公式。
1.興趣度的概念
興趣度anterestingness)是用來衡量用戶對(duì)本體中的某概念的感興趣程度的一個(gè)度量指標(biāo)。它主要是面向用戶模型的使用者的,用戶的興趣描述越具體,越有實(shí)際價(jià)值。
2.基本的興趣度公式
興趣度計(jì)算公式主要有以下三種
(1) I (Ci)表示對(duì)于概念Ci感興趣程度,形如公式1。
/(Cd = log -—. X d. O公式丄log log length
其中,time表示一個(gè)用戶用于瀏覽一個(gè)給定網(wǎng)頁(yè)的時(shí)間。length指網(wǎng)頁(yè)的長(zhǎng)度 (如字節(jié)數(shù)等)。以HcbCi)表示網(wǎng)頁(yè)與概念的匹配強(qiáng)度,該值是一個(gè)頁(yè)面特征化過程的一個(gè)結(jié)果。(2)Frequency (Ci)通過用戶檢索過程中與概念Ci相關(guān)的檢索數(shù)Q(Ci)與檢索總 次數(shù)Q的比值來反映用戶對(duì)概念的感興趣程度。Frequency{Ci)=ジ、'丨公式 2其中Frequency(Ci)反映用戶對(duì)本體中某個(gè)概念Ci的感興趣程度。Q(Ci)是用戶 對(duì)概念Ci檢索的次數(shù),Q表示用戶檢索的總次數(shù)。(S)Clarity(Ci)通過清晰度反映了用戶提出的檢索反映其自身興趣的準(zhǔn)確性, 通常當(dāng)用戶對(duì)于自己要查詢的事物越是不了解,他就越傾向于使用較為抽象的概念。具體 公式為ClarityiCi) = {numAttr{C^) +1).-——-—~^公式 3
numSub し oncems、し i) +1其中IiumAttr(Ci)為概念Ci的屬性數(shù),numSubConcepts (Ci)為其子概念數(shù)。3.公式的總結(jié)與推導(dǎo)上述的三個(gè)公式是比較常用的興趣度計(jì)算公式,公式1需要獲得檢索網(wǎng)頁(yè)的網(wǎng)頁(yè) 大小,同時(shí)需要獲得網(wǎng)頁(yè)與概念的匹配強(qiáng)度,這兩個(gè)字段信息在本發(fā)明基于本體的用戶模 型構(gòu)建中是無關(guān)信息,因此不選擇此公式作為本發(fā)明興趣度的計(jì)算公式。公式2和公式3 從檢索頻率和清晰度兩個(gè)不同的方面反映用戶的興趣,并且所需字段信息在本發(fā)明的構(gòu)建 方法下都可以獲得,因此,本發(fā)明使用公式2和3作為興趣度公式,并借助概率論乘法公式 的思想得到復(fù)合的興趣度公式。(1)本發(fā)明提出了復(fù)合的興趣度計(jì)算公式,即本發(fā)明的興趣度公式是檢索頻率和 清晰度公式的乘積,形如公式4。Irate (Ci) = Frequency (Ci). Clarity (Ci)公式 4(2)同時(shí)根據(jù)本發(fā)明中具體的數(shù)據(jù)需要,對(duì)公式2進(jìn)行推導(dǎo),用戶檢索的頻率定義 為用戶檢索某一網(wǎng)頁(yè)的URL次數(shù)與用戶檢索URL總次數(shù)的比值,形如公式5。Frequency{C )=玄 Frequency^URLl)=厶 U 公式 5
/=1 /=1本發(fā)明采用的技術(shù)方案包括以下步驟■根據(jù)推導(dǎo)的復(fù)合興趣度公式對(duì)用戶信息預(yù)處理,獲取單值屬性背景;■在單值屬性背景基礎(chǔ)上基于GuTao法生成用戶模型。獲得單值屬性背景采用以下方法首先,用爬蟲工具收集用戶信息;其次,計(jì)算概念的清晰度、概念的訪問頻率,然后計(jì)算興趣度值;最后,對(duì)所獲得的所有的興趣度值進(jìn)行排序,獲得布爾關(guān)系,最終獲得單值屬性背
旦
Jjs ο本發(fā)明在獲得單值屬性背景下,基于GuTao法生成用戶模型,采用以下方法首先,將URLS (網(wǎng)址)作為對(duì)象、ATTRS (關(guān)鍵字)作為屬性構(gòu)建領(lǐng)域本體。URLS 表示成本體中的類(Classes)、ATTRS表示成本體中的槽(Slots);其次,使用GuTao開發(fā)的插件半自動(dòng)的對(duì)形式背景完善、擴(kuò)充,轉(zhuǎn)化成概念格工具ConExp所要求的形式背景輸入格式。形式概念分析中的Context (上下文)、Objects (對(duì)象),Attributes (屬性)分別與領(lǐng)域本體的Ontology (本體),Classes (類),Slots (槽) 相對(duì)應(yīng);
最后,通過ConExp 建立概念格 D-Ontology = (CS (C),Ships),其中 CS(C)表示所有形式概念C的合集,Ships表示所有形式概念C的偏序關(guān)系的集合,并用OffL (網(wǎng)絡(luò)本體語言)語言存儲(chǔ)該用戶模型的信息。
本發(fā)明繼承了 GuTao法原有的優(yōu)點(diǎn),在自動(dòng)化程度、本體的形式化程度和可視化程度上仍具有優(yōu)勢(shì)。通過引入興趣度作為權(quán)值,實(shí)現(xiàn)形式背景的多值屬性向單值屬性轉(zhuǎn)變, 克服了 GuTao法只能處理單值屬性的缺陷。
圖1為本體的用戶模型構(gòu)建流程
圖2為GuTao法流程圖
圖3為本發(fā)明的改進(jìn)的GuTao算法框架圖
圖4為本發(fā)明的改進(jìn)的GuTao法與GuTao法的比較具體實(shí)施方式
下面根據(jù)說明書附圖并結(jié)合實(shí)施對(duì)本發(fā)明的技術(shù)方案特點(diǎn)作進(jìn)一步闡述。
本發(fā)明的技術(shù)方案主要有以下主要步驟
1、用戶信息的獲取與預(yù)處理
通過爬蟲工具ffeb-ΙΑ獲取用戶信息,包括搜索的關(guān)鍵字、進(jìn)入/離開網(wǎng)頁(yè)時(shí)間、網(wǎng)頁(yè)的瀏覽數(shù)、網(wǎng)頁(yè)的停留時(shí)間與用戶的訪問軌跡等。
預(yù)處理信息,根據(jù)本發(fā)明中提出的復(fù)合興趣度公式4對(duì)獲取的用戶信息數(shù)據(jù)進(jìn)行預(yù)處理,確定網(wǎng)頁(yè)是否含有用戶感興趣的關(guān)鍵字。
2、構(gòu)建領(lǐng)域本體
對(duì)獲取的用戶信息采用發(fā)明內(nèi)容中提出的初始的單值屬性背景的獲得方法進(jìn)行預(yù)處理,通過本體建模工具Prot6g6進(jìn)行本體構(gòu)建。
3、改進(jìn)的GuTao法構(gòu)建形式背景與概念格
生成初始形式背景C。nt。1()gy 在步驟2構(gòu)建的領(lǐng)域本體的基礎(chǔ)上,利用形式背景生成工具FCAView插件半自動(dòng)的生成初始的形式背景C。nt。1()gy = (0,A, R)。
完善形式背景根據(jù)步驟1所得數(shù)據(jù)和步驟2所進(jìn)行的處理的基礎(chǔ)上,對(duì)初始的形式背景進(jìn)行擴(kuò)充。
生成概念格在前兩步的基礎(chǔ)上利用GuTao自行開發(fā)的插件ConExp (將形式背景轉(zhuǎn)換成概念格的工具)自動(dòng)生成概念格,即所要得到的用戶模型的領(lǐng)域本體D-Ontology =(CS(C),Ships)。
4、加入包含用戶信息的頭結(jié)點(diǎn)
將通過網(wǎng)絡(luò)爬蟲ffeb-ΙΑ收集到的能夠標(biāo)識(shí)用戶唯一性的信息,如用戶的IP地址、 網(wǎng)站用戶的用戶名等信息,以及為了用戶模型更新需要的用戶對(duì)網(wǎng)站最后瀏覽時(shí)間等信息存入頭結(jié)點(diǎn)Head-Node中。在本發(fā)明的本體用戶模型中頭結(jié)點(diǎn)包含了用戶瀏覽的所有網(wǎng)絡(luò)URL資源的合集。
5、用網(wǎng)絡(luò)本體語言O(shè)ffL描述用戶模型。
圖1是本發(fā)明用于構(gòu)建本體的用戶模型流程,本體的用戶模型的構(gòu)建又包括個(gè)性化信息收集、本體的模型表示、用戶模型更新和模型使用這樣幾個(gè)流程,本發(fā)明將用戶模型表示成形式背景下衍生的概念格的形式,構(gòu)建成的概念格采用本體描述語言O(shè)ffL表示。
具體實(shí)施方式
中涉及概念說明
1、用戶模型領(lǐng)域本體的形式背景C。—
用戶模型的形式背景是一個(gè)包含用戶瀏覽網(wǎng)頁(yè)信息、檢索關(guān)鍵字信息和網(wǎng)頁(yè)與關(guān)鍵字布爾關(guān)系的三元組,記作C?!?= (0,A,R),其中0代表對(duì)象的集合,這里表示用戶瀏覽網(wǎng)址的URL。A代表網(wǎng)頁(yè)的屬性,即通過數(shù)據(jù)挖掘技術(shù)提取的網(wǎng)頁(yè)的關(guān)鍵字。R代表網(wǎng)頁(yè)與關(guān)鍵字的關(guān)系,在本發(fā)明中,R必須是布爾型的,即保證屬性必須是單值的。
對(duì)形式背景的三個(gè)要素作具體的說明。
(1)0是信息資源的所有對(duì)象集合
0 = (URL1, URL2,. . . URLj。URL (Uniform Resource Locator)稱為統(tǒng)一資源定位符,它是因特網(wǎng)上描述信息資源的字符串,用于各種Web客戶程序和服務(wù)器上。URL以統(tǒng)一的格式描述各種信息資源,包括文件、服務(wù)器的地址和目錄等。URL的格式由三部分組成 協(xié)議或服務(wù)方式、資源所在的主機(jī)IP地址、資源的具體地址。其中第一部分和第二部分用 “//”隔開,第二部分和第三部分以“/”隔開。第一部分和第二部分不可缺少,而第三部分可以省略。URL的缺點(diǎn)是當(dāng)信息資源的存放地點(diǎn)發(fā)生改變時(shí),必須對(duì)URL做出相應(yīng)的改變。
(2)A是網(wǎng)頁(yè)屬性的集合
A = (Attr1, Attr2, · · · Attrn),Attr 是英文屬性 Attribute 的縮寫。主要是指網(wǎng)頁(yè)的關(guān)鍵字信息,表示網(wǎng)頁(yè)的屬性,可以通過Web網(wǎng)頁(yè)挖掘獲取。傳統(tǒng)的用戶模型在獲得關(guān)鍵詞的同時(shí),將各個(gè)關(guān)鍵詞孤立的處理,詞語間的關(guān)系是正交的,不含語義信息。本發(fā)明基于本體的用戶模型充分考慮到了詞語間的語義關(guān)系,符合個(gè)性化信息服務(wù)信息找人的要求。例如,用戶的興趣為{足球,籃球,音樂,美食,旅游...},如果有相關(guān)的網(wǎng)頁(yè)其內(nèi)容是有關(guān)世界杯的,但是用戶興趣模型中并未出現(xiàn)足球這個(gè)關(guān)鍵詞,因此,傳統(tǒng)的用戶模型就不會(huì)把這個(gè)網(wǎng)址推送給用戶。但根據(jù)常識(shí),世界杯顯然是足球的一個(gè)子類或者說是一個(gè)實(shí)例,用戶很可能對(duì)這個(gè)信息有興趣,所以傳統(tǒng)的構(gòu)建方法是不完善的、不能準(zhǔn)確反映用戶的信息。 基于本體構(gòu)建用戶模型進(jìn)行檢索時(shí),將用戶模型表示成形式背景下衍生的概念格,世界杯是足球的一子概念,用戶進(jìn)行檢索時(shí),會(huì)將包含子概念的網(wǎng)址推送給用戶。
(3) R是表示對(duì)象和屬性的關(guān)系
本發(fā)明主要是指網(wǎng)頁(yè)是否具備該關(guān)鍵詞,即每個(gè)URLi中是否具備關(guān)鍵字AttriG =1,. . .,n)。因本發(fā)明是采用改進(jìn)的GuTao法進(jìn)行構(gòu)建用戶模型,所以R必須是布爾型的, 保證形式背景的屬性是單值的。本發(fā)明中使用復(fù)合的興趣度公式作為多值屬性向單值屬性轉(zhuǎn)化的依據(jù)。
2、用戶模型領(lǐng)域本體的形式概念C
領(lǐng)域本體的形式概念C(R)rmal Concept)是包含用戶共同對(duì)象的集合和共同屬性集合的二元組,形式化的表示為C = (URLS,ATTRS)。其中URLS是對(duì)象集0的冪集,稱為形式概念C的外延,是用戶信息所有屬性共同對(duì)象的集合。ATTRS是屬性集A的冪集,稱為概念C的內(nèi)涵,使包含所有對(duì)象信息共同屬性的集合。
每一個(gè)概念C關(guān)于關(guān)系R是完備的,即滿足如下性質(zhì)
· ATTRS= { URL O / VURL URLS ((ATTR, URL) R)}性質(zhì)⑴
· URLS ={ ATTR ζ A / VATTR ζ ATTRS ((ATTR, URL) ζ R)}性質(zhì)(2)
3、形式概念集CS (C)
形式背景C。nt。1()gy上所有單概念的集合構(gòu)成本體的概念集,記作CS (C)。
4、用戶模型領(lǐng)域本體的子概念(Sub-Concept)和超概念(Super-Concept)
對(duì)于給定的兩個(gè)概念關(guān)系C1 = (URLS1, ATTRS1)和C2 = (URLS2, ATTRS2),如果 ATTRieATTRS1,那么這兩個(gè)詞間的概念關(guān)系存在偏序關(guān)系<,稱C1是C2的上位關(guān)系, C2是C1的下位關(guān)系,記作C1 <C2。C1和C2間的關(guān)系稱為泛-特化關(guān)系。如果在概念集 CS (C)中不存在另外的概念C3介于C1和C2之間,則稱C1和C2是直接泛化-特化關(guān)系,并且稱C1是C2的超概念,C2是C1的子概念。
5、用戶模型領(lǐng)域本體的同級(jí)概念(Same-Concept)
同級(jí)關(guān)系對(duì)于兩個(gè)概念C1 = (URLSnATTRS1)和 C2 = (URLS2, ATTRS2),如果 ATTRS1 不包含于ATTRS2, ATTRS2也不包含于ATTRS1,并且ATTRS1和ATTR&是同級(jí)語義,則稱C1和 C2是同級(jí)關(guān)系。
6、偏序關(guān)系的集合Siips
由形式概念集CS(C)中的形式概念C構(gòu)成的直接泛化-特化關(guān)系的合集,稱為偏序關(guān)系的合集,記作Slips。
7、用戶模型領(lǐng)域本體的概念格D-Ontology
用戶模型領(lǐng)域本體是由形式背景C。nt。1()gy衍生下的概念格,記作D-Ontology = (CS(C),Ships),即本發(fā)明定義的用戶模型主要由兩部分組成,CS(C)所有形式概念的合集,Ships 所有形式概念的偏序關(guān)系的集合。
8、附加頭結(jié)點(diǎn)的領(lǐng)域本體的用戶模型^ser-Model)
基于已經(jīng)構(gòu)建好的領(lǐng)域本體的基礎(chǔ)上,提出將用戶模型表示成附加頭結(jié)點(diǎn)的形式背景下衍生的概念格,即將用戶模型表示成由用戶基本信息和領(lǐng)域本體概念格的集合。使用領(lǐng)域本體中最為廣泛的“直接上下位”關(guān)系和“同級(jí)關(guān)系”,形成一個(gè)附加頭結(jié)點(diǎn)的形式背景下誘導(dǎo)的概念格的用戶模型。
具體的實(shí)施方法是在構(gòu)建好的領(lǐng)域本體的基礎(chǔ)上,在用戶登錄系統(tǒng)的時(shí)候,為用戶提供一個(gè)興趣定點(diǎn),然后將用戶所有的瀏覽行為屬性進(jìn)行語義分析,用屬性中所包含的概念構(gòu)造初始形式背景下衍生的概念格。最后將所構(gòu)造的用戶模型呈現(xiàn)為用戶的個(gè)人信息和領(lǐng)域本體概念格的形式。
(1)頭結(jié)點(diǎn)概念 Head-node
Head-node = (URLS, User {Head-node, IpNumber})
用戶模型的頭結(jié)點(diǎn)是用戶模型的頂層結(jié)點(diǎn),用來標(biāo)識(shí)不同的用戶信息。其主要有兩部分組成,定義頭結(jié)點(diǎn)的對(duì)象是用戶訪問所有網(wǎng)頁(yè)URL的合集,用戶頭結(jié)點(diǎn)的屬性包括用戶頭結(jié)點(diǎn)信息、用戶的IP地址等用戶信息。
( 用戶模型的概念集UC
UC = (URLS, {ATTRS, Irate(Ci)D
用戶模型的形式概念集的對(duì)象集仍然是用戶訪問的所有URL信息集。屬性集由關(guān)鍵詞的屬性集和用戶對(duì)某一關(guān)鍵詞概念的興趣度兩部分組成。
(3)領(lǐng)域本體的用戶模型^ser-Model)
領(lǐng)域本體的用戶模型表示成一個(gè)附加頭結(jié)點(diǎn)的領(lǐng)域本體
User-Model = (Head-node, D-Ontology, Irate(Ci))
領(lǐng)域本體的用戶模型主要有三部分組成標(biāo)識(shí)用戶信息的頭結(jié)點(diǎn)信息、資源的領(lǐng)域本體和用戶對(duì)關(guān)鍵詞單概念的興趣度。
具體實(shí)施方式
中改進(jìn)的GuTao法的流程和具體算法
1、改進(jìn)的GuTao法流程
圖2是改進(jìn)的GuTao法流程圖。其具體步驟如下
(1)手動(dòng)或應(yīng)用自然語言處理技術(shù)從領(lǐng)域文本中獲得領(lǐng)域概念和屬性。
(2)用建模工具I^rotSgS進(jìn)行本體構(gòu)建,用類(Classes)、槽(Slots)和分面 (facets)來表示領(lǐng)域本體。
(3)使用由GuTao開發(fā)的Prot6g6工具插件產(chǎn)生形式背景,該插件可以通過本體與FCA (形式概念分析)的對(duì)應(yīng)關(guān)系自動(dòng)得到形式背景,并將形式背景轉(zhuǎn)化成概念格工具 ConExp (將形式背景轉(zhuǎn)換成概念格的工具)所要求的形式背景輸入格式。其中,形式概念分析中的上下文(Context)、對(duì)象(Objects)、屬性(Attributes)、多值屬性分別與領(lǐng)域本體的本體(Ontology)、類、槽、分面相對(duì)應(yīng)。
(4)使用ConExp建立概念格,應(yīng)用ConExp從FcaTab (自動(dòng)獲取形式背景的工具) 輸出的形式背景建立與該形式背景同構(gòu)的概念格。領(lǐng)域本體開發(fā)人員和領(lǐng)域?qū)<以诘玫降母拍罡裰锌梢赃x擇需要的而原先沒有的一些概念和關(guān)系,將其添加到本體中去。
(5)重復(fù)(3) (4)步,直到滿意為止。
2、改進(jìn)的GuTao法算法
圖3是本發(fā)明的改進(jìn)的GuTao法的算法框架圖。算法主要步驟分成兩部分。
步驟一根據(jù)推導(dǎo)的復(fù)合興趣度公式對(duì)用戶信息預(yù)處理,獲取單值屬性背景。具體算法如下
輸入網(wǎng)絡(luò)爬蟲收集的用戶信息
輸出初始的單值形式背景C。nt。1()gy = (0,A, R)
步驟
(l)for each Ci e CS (C)//計(jì)算概念的清晰度
(2) Clarity (Ci) = O
⑶ IiumAttr(Ci) = Count (A) //Ci 屬性的個(gè)數(shù)
(4) numSubConcepts (Ci) = Sum (SubConcepts (A)) //Ci 子概念的個(gè)數(shù)
(S)Clarity(Ci) = (numAttr (Ci) +1) / (numSubConcepts (Ci) +1)
(B)Frequency(Ci) = O//計(jì)算概念訪問頻率
(7) for each URLi e URLS
權(quán)利要求
1.一種用于構(gòu)建用戶模型的改進(jìn)的GuTa0法,其特征在于包括以下步驟1)通過爬蟲工具收集用戶信息,根據(jù)復(fù)合興趣度公式 Ira^(G) = F^m^X) Oa^y(O)刈用戶信息預(yù)處理,獲取單值屬性背景,其中,Ira te (C1)表示對(duì)于概念G的感興趣程度,F(xiàn)requency (C1)表示對(duì)概念G的檢索頻率, Clarity {Q表示概念Ci的清晰度;2)在單值屬性背景基礎(chǔ)上基于GuTao法生成用戶模型。
2.根據(jù)權(quán)利要求1所述的用于構(gòu)建領(lǐng)域本體的改進(jìn)的GuTao法,其特征在于,所述步驟 1)進(jìn)一步包含以下步驟11)根據(jù)收集的用戶信息計(jì)算概念的清晰度、概念訪問頻率,進(jìn)一步計(jì)算概念的興趣度值;12)對(duì)所獲得的興趣度值進(jìn)行排序,獲得布爾關(guān)系,最終獲得單值屬性背景。
3.根據(jù)權(quán)利要求1或2所述的用于構(gòu)建領(lǐng)域本體的改進(jìn)的GuTao法,其特征在于,所述步驟幻進(jìn)一步包含以下步驟21)將URLS作為對(duì)象、ATTRS作為屬性構(gòu)建領(lǐng)域本體,URLS表示成本體中的類、ATTRS 表示成本體中的槽;22)使用GuTao開發(fā)的插件半自動(dòng)的對(duì)形式背景完善、擴(kuò)充,轉(zhuǎn)化成概念格工具ConExp 所要求的形式背景輸入格式,形式概念分析中的Context、Objects、Attributes分別與本體的 Ontology、Classes、Slots 相對(duì)應(yīng);23)通過ConExp建立概念格D-Ontology=(CS (C),Ships),其中CS (C)表示所有形式概念C的合集,Ships表示所有形式概念C的偏序關(guān)系的集合,并用OWL語言存儲(chǔ)該用戶模型的信息。
全文摘要
本發(fā)明公開一種用于構(gòu)建用戶模型的改進(jìn)的GuTao法,屬于個(gè)性化信息服務(wù)領(lǐng)域。該方法通過引入興趣度作為權(quán)值,實(shí)現(xiàn)形式背景的多值屬性向單值屬性轉(zhuǎn)變,克服了GuTao法只能處理單值屬性的缺陷,該方法主要步驟包括1)根據(jù)推導(dǎo)的復(fù)合興趣度公式對(duì)用戶信息預(yù)處理,獲取單值屬性背景;2)在單值形式背景基礎(chǔ)上基于GuTao法生成用戶模型。本發(fā)明除了具備GuTao法本身具有的能夠從領(lǐng)域概念和關(guān)系中自動(dòng)地獲得形式背景,實(shí)現(xiàn)半自動(dòng)地構(gòu)建領(lǐng)域本體和自動(dòng)消除分類結(jié)構(gòu)中概念的冗余得到所需概念以外,最大的改進(jìn)在于能夠處理多值屬性,有了將多值屬性轉(zhuǎn)化成單值屬性的依據(jù)。
文檔編號(hào)G06F17/30GK102495844SQ20111036104
公開日2012年6月13日 申請(qǐng)日期2011年11月15日 優(yōu)先權(quán)日2011年11月15日
發(fā)明者于天樞, 許國(guó)艷 申請(qǐng)人:河海大學(xué)