亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法

文檔序號(hào):6508246閱讀:243來(lái)源:國(guó)知局
專利名稱:搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法
技術(shù)領(lǐng)域
本發(fā)明涉及基于搜索引擎的檢索結(jié)果聚類的技術(shù)領(lǐng)域,特別涉及一種搜索引擎檢 索結(jié)果聚類的中文標(biāo)簽提取方法。
背景技術(shù)
對(duì)搜索引擎返回結(jié)果的聚類,是提高搜索引擎服務(wù)質(zhì)量的重要手段。它把同一個(gè) 子主題的網(wǎng)頁(yè)分劃到同一個(gè)類別當(dāng)中,并對(duì)每個(gè)類用標(biāo)簽描述,作為對(duì)該類主題的概括,方 便用戶快速定位自己感興趣的主題的網(wǎng)頁(yè)。搜索引擎結(jié)果聚類的研究,是現(xiàn)代搜索引擎研 究的熱點(diǎn)和難點(diǎn)。目前對(duì)搜索引擎檢索結(jié)果聚類的標(biāo)簽生成方法可以分為兩類一、先聚類后抽取 標(biāo)簽的方法;二、先抽取標(biāo)簽然后把文檔劃分到對(duì)應(yīng)標(biāo)簽的方法。(一)先聚類后抽取標(biāo)簽的方法把每個(gè)文檔以詞的權(quán)值為元素,表示成向量形 式,然后用一般的數(shù)值聚類的算法,如k均值聚類算法、層次聚類算法,對(duì)文檔向量進(jìn)行聚 類,再通過(guò)每個(gè)聚類中詞語(yǔ)的統(tǒng)計(jì)特征,抽取聚類中相應(yīng)的標(biāo)簽。這是早期的搜索引擎結(jié)果 聚類中采用的方法。這種方法基于一般數(shù)值聚類的方法對(duì)文檔進(jìn)行聚類,忽略了文檔所固 有的語(yǔ)義特性,使得文檔的組織并沒(méi)有和用戶所期望的根據(jù)主題組織的方式相一致,而且 各個(gè)聚類所對(duì)應(yīng)的標(biāo)簽可讀性差,無(wú)法準(zhǔn)確地表述主題。聚類的數(shù)目以及聚類過(guò)程的終止 也很難確定。(二)先抽取標(biāo)簽后聚類的方法先對(duì)輸入文檔抽取出所有的公共短語(yǔ),然后通過(guò) 不同評(píng)分方式選取若干公共短語(yǔ)作為候選標(biāo)簽,并合并相似度高的標(biāo)簽,再把文檔劃分到 對(duì)應(yīng)的標(biāo)簽當(dāng)中。這是現(xiàn)代搜索引擎中普遍采用的聚類方法。這種方法著重于聚類標(biāo)簽 的抽取,從而使得聚類標(biāo)簽有較高的可讀性,同時(shí),也使得文檔能夠更好地根據(jù)主題進(jìn)行聚 類?,F(xiàn)有的比較成熟的支持結(jié)果聚類的系統(tǒng)有元搜索引擎clusty、聚類引擎Carr0t2 等。但是,現(xiàn)有系統(tǒng)和算法所獲得的對(duì)于中文查詢的聚類結(jié)果,特別是聚類標(biāo)簽的質(zhì)量,依 然有待于改善。主要存在的問(wèn)題有(—)標(biāo)簽的噪音問(wèn)題檢索結(jié)果的聚類一般基于標(biāo)題和摘要,然而標(biāo)題和摘要當(dāng) 中包含了大量的與文檔內(nèi)容、主題不相關(guān)的詞,從而在標(biāo)簽的抽取過(guò)程中引入了大量的噪 音。而現(xiàn)有的噪音過(guò)濾技術(shù)主要是采用去掉html標(biāo)記、去掉無(wú)意義的符號(hào)、去掉停用詞等 一些簡(jiǎn)單的方法,無(wú)法很好地解決噪音問(wèn)題。(二)標(biāo)簽不具有較好的主題代表性,且難以滿足用戶的查詢需求。如Carrot〗 的一些聚類算法采用潛語(yǔ)義索引的方法,選取能最好代表各個(gè)概念的詞或短語(yǔ)作為候選標(biāo) 簽,但是效果不佳。如何抽取有主題代表性的標(biāo)簽來(lái)代表聚類,如何抽取與用戶的查詢密切 相關(guān)的標(biāo)簽來(lái)細(xì)化用戶的查詢、提供用戶感興趣的信息,這是現(xiàn)有技術(shù)中還有待于完善的 問(wèn)題。(三)標(biāo)簽的“不完整”和過(guò)于冗長(zhǎng)的問(wèn)題。簡(jiǎn)單短語(yǔ)提取方法提取的標(biāo)簽一般不夠完整,無(wú)法完整表達(dá)聚類的內(nèi)容。而潛語(yǔ)義索引的方法,從理論上來(lái)說(shuō)又偏向于選取到過(guò) 于冗長(zhǎng)的標(biāo)簽。如何選取能夠簡(jiǎn)明地表達(dá)完整語(yǔ)義的標(biāo)簽,這也是技術(shù)上需要深入研究的 問(wèn)題。(四)被聚類的文檔數(shù)比例過(guò)低的問(wèn)題。由于一些聚類標(biāo)簽的提取方法(如潛語(yǔ) 義索引的方法)通常計(jì)算開(kāi)銷較大,因此為了保證實(shí)時(shí)的在線響應(yīng),一般搜索引擎系統(tǒng)只 能選擇前幾百個(gè)網(wǎng)頁(yè)進(jìn)行聚類,使得被聚類的文檔比例過(guò)少,無(wú)法較完整地反映搜索結(jié)果 的性質(zhì)。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺點(diǎn)和不足,提供一種搜索引擎檢索結(jié)果 聚類的中文標(biāo)簽提取方法,其可以減少噪音標(biāo)簽,使標(biāo)簽具有更好的代表性、簡(jiǎn)明性和完整 性,更能滿足用戶的查詢需求,提高被聚類文檔的比例的效果。本發(fā)明的目的通過(guò)下述技術(shù)設(shè)計(jì)方案實(shí)現(xiàn)一種搜索引擎檢索結(jié)果聚類的中文標(biāo) 簽提取方法,包括以下步驟Si、用戶輸入查詢?cè)~,在得到檢索結(jié)果后,選取檢索結(jié)果的前M個(gè)結(jié)果頁(yè)面的摘要 作為輸入文檔,形成文檔集合,所述M為正整數(shù);S2、在輸入文檔中選取候選詞,對(duì)所有候選詞評(píng)分根據(jù)各個(gè)候選詞的主題代表 性、以及候選詞和用戶查詢?cè)~的相關(guān)性給各個(gè)候選詞評(píng)分;S3、判斷是否存在未作標(biāo)記的候選詞,若否,則跳轉(zhuǎn)到步驟S8 ;若是,則在未作標(biāo) 記的候選詞中,選出得分最高的候選詞,并給予標(biāo)記;把這個(gè)選中的候選詞拓展成為包含該 詞的有序詞序列的集合,進(jìn)入步驟S4 ;S4、計(jì)算步驟S3中各個(gè)有序詞序列的頻率,抽取高頻詞序列;S5、根據(jù)完整性和簡(jiǎn)明性對(duì)步驟S4中抽取的高頻詞序列評(píng)分,并選取得分最高的 詞序列作為候選詞序列;S6、如果當(dāng)前候選詞序列所關(guān)聯(lián)的文檔,與已有的標(biāo)簽所關(guān)聯(lián)的文檔相比,其覆蓋 程度小于預(yù)設(shè)的閾值,則選取其對(duì)應(yīng)的短語(yǔ)作為標(biāo)簽,進(jìn)入步驟S7 ;否則該候選詞序列未 被接受為標(biāo)簽,則返回步驟S3 ;S7、根據(jù)生成的標(biāo)簽進(jìn)行聚類根據(jù)步驟S6生成的標(biāo)簽,計(jì)算每個(gè)檢索結(jié)果網(wǎng)頁(yè) 摘要與各標(biāo)簽的語(yǔ)義相關(guān)度,然后將與某標(biāo)簽相關(guān)度最高的文檔劃分到該類別;S8、結(jié)束操作。為更好的實(shí)現(xiàn)本發(fā)明,所述步驟S2中在輸入文檔中選取候選詞,具體是指S2. 11、對(duì)輸入文檔分詞對(duì)所有輸入文檔進(jìn)行分詞,把各個(gè)輸入文檔切分成詞的 有序序列,并得到各個(gè)詞的詞性標(biāo)注,構(gòu)成新的集合Rl ;S2. 12、選取候選詞在集合Rl中抽取所有的出現(xiàn)頻率不小于3次的動(dòng)詞、名詞作 為候選詞。優(yōu)選的,所述步驟S2中對(duì)所有候選詞評(píng)分,具體是包括以下步驟S2. 21對(duì)Rl中各個(gè)輸入文檔,僅保留其動(dòng)詞和名詞,得到各個(gè)輸入文檔對(duì)應(yīng)的新 的有序詞序列,構(gòu)成新的集合R2 ;S2. 22選取任一未被評(píng)分的候選詞,計(jì)算該候選詞到查詢?cè)~的平均距離
從R2中抽取出同時(shí)包含該候選詞和查詢?cè)~的所有輸入文檔形成集合R3,由于集 合R3中的各輸入文檔表示為有序詞序列的形式,對(duì)于R3中的任一輸入文檔,所述有序詞序
列標(biāo)記為(W1,w2,-,wq, -,wt,……,wk),其中候選詞Wt出現(xiàn)在序列中的第Pl,p2,......,
Pm個(gè)位置,查詢?cè)~%出現(xiàn)在序列中的第q1; q2,......,qn個(gè)位置,則在該輸入文檔中,候選
詞到查詢?cè)~的距離為所有Ipi-CijI的最小值,其中i = 1,2,......,m,j = 1,2,……,η;
對(duì)R3中的所有輸入文檔,通過(guò)上述方法計(jì)算候選詞到查詢?cè)~的距離,求平均得到該候選詞 到查詢?cè)~的平均距離,記為Score1 ;S2. 23計(jì)算包含了該候選詞的輸入文檔之間的平均相似度對(duì)于步驟S2. 22中選取的候選詞,從集合R2中抽取出包含該詞的所有輸入文檔并 分別表示成向量,向量的每個(gè)元素用詞的TF-IDF權(quán)重表示,用向量空間的余弦相似度的計(jì) 算方法計(jì)算這些輸入文檔中任意兩個(gè)文檔的相似度,并對(duì)相似度求平均值,記為scores ;S2. 24計(jì)算該候選詞的得分score(wt) = - α >l<r (wq) 5IiScore^Score2其中,SCOre(wt)代表的是Wt的候選詞得分,Wt代表的是候選詞,α代表的是 Score1的可變權(quán)值;%代表的是查詢?cè)~,r 代表查詢?cè)~在輸入文檔中的出現(xiàn)比率,r
=包含查詢?cè)~的輸入文檔個(gè)數(shù)/輸入文檔的總個(gè)數(shù)M ;S2. 25判斷是否已對(duì)所有候選詞評(píng)分,若是,則進(jìn)入步驟S3 ;若否,返回至步驟 S2· 22ο優(yōu)選的,所述α值為3。優(yōu)選的,所述步驟S3中把這個(gè)選中的候選詞拓展成為包含該詞的有序詞序列的 集合,具體是指在集合R2中抽取出包含該候選詞的所有輸入文檔,由于集合R2中的各輸入文檔 表示為有序詞序列的形式,假設(shè)把候選詞標(biāo)記為wt,任意一個(gè)所述序列標(biāo)記為(Wl,W2,……, Wt……,wk),則所有滿足i彡t且j彡t的子序列Ov……,Wj)將被作為擴(kuò)展得到的詞序 列。優(yōu)選的,所述步驟S4中計(jì)算步驟S3中各個(gè)有序詞序列的頻率,抽取高頻詞序列, 具體包括以下步驟假設(shè)待計(jì)算頻率的序列為seq,令frequency (seq)表示seq的頻率,length (seq) 表示seq的長(zhǎng)度,d(seqi,seq2)表示序列Seq1與Seq2之間的字符串編輯距離,delta(i)代 表第i個(gè)文檔中的詞序列對(duì)seq頻率增量的貢獻(xiàn),scale代表加權(quán)因子;S4. 1、選擇一個(gè)未計(jì)算過(guò)頻率的有序詞序列seq ;S4. 2、初始化,令 frequency (seq) = 0,i = 1 ;S4. 3、對(duì)第i個(gè)輸入文檔Di,獲取該文檔的所有有序詞序列集合Fi ;S4. 4、對(duì)于Fi中的所有序列Seq1,計(jì)算d(seq,Seq1),令d min為這些距離中的 最小值,如果d min/length(seq)超過(guò)給定閾值,則delta (i) = 0,否則令delta (i) = 1/ (1+scale氺d min/length(seq));S4. 5、令 frequency (seq) = frequency (seq)+delta (i),判斷是否已計(jì)算完詞序 列seq與所有輸入文檔中詞序列的編輯距離,若否,則處理下一個(gè)輸入文檔,令i = i+Ι,跳 轉(zhuǎn)至步驟S4. 3 ;若是,則進(jìn)入步驟S4. 6 ;
S4. 6、判斷是否已計(jì)算完步驟S3中各個(gè)有序詞序列的頻率,若否,返回至步驟 S4. 1 ;若是,則抽取高頻詞序列,進(jìn)入步驟S5,所述高頻詞是指出現(xiàn)次數(shù)大于某個(gè)閾值的 詞,所述閾值由管理員設(shè)置。優(yōu)選的,所述scale值為2。優(yōu)選的,所述步驟S4. 4中的閾值為1/3。優(yōu)選的,所述步驟S5中根據(jù)完整性和簡(jiǎn)明性對(duì)步驟S4中抽取的高頻詞序列評(píng)分, 具體包括以下步驟S5. 1計(jì)算詞序列的右獨(dú)立性以seq代表待評(píng)分的序列,以length (seq)表示seq的長(zhǎng)度,以Wb表示seq的最 后一個(gè)詞,以Wlrf表示seq的倒數(shù)第二個(gè)詞,則通過(guò)下式對(duì)序列的右獨(dú)立性評(píng)分
權(quán)利要求
1.一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,其特征在于,包括以下步驟51、用戶輸入查詢?cè)~,在得到檢索結(jié)果后,選取檢索結(jié)果的前M個(gè)結(jié)果頁(yè)面的摘要作為 輸入文檔,形成文檔集合,所述M為正整數(shù);52、在輸入文檔中選取候選詞,對(duì)所有候選詞評(píng)分根據(jù)各個(gè)候選詞的主題代表性、以 及候選詞和用戶查詢?cè)~的相關(guān)性給各個(gè)候選詞評(píng)分;53、判斷是否存在未作標(biāo)記的候選詞,若否,則跳轉(zhuǎn)到步驟S8;若是,則在未作標(biāo)記的 候選詞中,選出得分最高的候選詞,并給予標(biāo)記;把這個(gè)選中的候選詞拓展成為包含該詞的 有序詞序列的集合,進(jìn)入步驟S4 ;54、計(jì)算步驟S3中各個(gè)有序詞序列的頻率,抽取高頻詞序列;55、根據(jù)完整性和簡(jiǎn)明性對(duì)步驟S4中抽取的高頻詞序列評(píng)分,并選取得分最高的詞序 列作為候選詞序列;56、如果當(dāng)前候選詞序列所關(guān)聯(lián)的文檔,與已有的標(biāo)簽所關(guān)聯(lián)的文檔相比,其覆蓋程度 小于預(yù)設(shè)的閾值,則選取其對(duì)應(yīng)的短語(yǔ)作為標(biāo)簽,進(jìn)入步驟S7 ;否則該候選詞序列未被接 受為標(biāo)簽,則返回步驟S3 ;57、根據(jù)生成的標(biāo)簽進(jìn)行聚類根據(jù)步驟S6生成的標(biāo)簽,計(jì)算每個(gè)檢索結(jié)果網(wǎng)頁(yè)摘要 與各標(biāo)簽的語(yǔ)義相關(guān)度,然后將與某標(biāo)簽相關(guān)度最高的文檔劃分到該類別;58、結(jié)束操作。
2.根據(jù)權(quán)利要求1所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,其特征在 于,所述步驟S2中在輸入文檔中選取候選詞,具體是指S2. 11、對(duì)輸入文檔分詞對(duì)所有輸入文檔進(jìn)行分詞,把各個(gè)輸入文檔切分成詞的有序 序列,并得到各個(gè)詞的詞性標(biāo)注,構(gòu)成新的集合Rl ;S2. 12、選取候選詞在集合Rl中抽取所有的出現(xiàn)頻率不小于3次的動(dòng)詞、名詞作為候 選詞。
3.根據(jù)權(quán)利要求1所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,其特征在 于,所述步驟S2中對(duì)所有候選詞評(píng)分,具體是包括以下步驟S2.21對(duì)Rl中各輸入文檔,僅保留其動(dòng)詞和名詞,得到各個(gè)輸入文檔對(duì)應(yīng)的新的有序 詞序列,構(gòu)成新的集合R2;S2. 22選取任一未被評(píng)分的候選詞,計(jì)算該候選詞到查詢?cè)~的平均距離從R2中抽取出同時(shí)包含該候選詞和查詢?cè)~的所有輸入文檔形成集合R3,由于集合R3 中的各輸入文檔表示為有序詞序列的形式,對(duì)于R3中的任一輸入文檔,所述有序詞序列標(biāo)記為(W1, w2,-,wq, -,wt,……,wk),其中候選詞wt出現(xiàn)在序列中的第Pl,p2,......,pm個(gè)位置,查詢?cè)~%出現(xiàn)在序列中的第q1; q2,......,1個(gè)位置,則在該輸入文檔中,候選詞到查詢?cè)~的距離為所有Ipi-Cljl的最小值,其中i = 1,2,......,m,j = 1,2,……,n,對(duì)R3中的所有輸入文檔,通過(guò)上述方式計(jì)算候選詞到查詢?cè)~的距離,求平均得到該候選詞到 查詢?cè)~的平均距離,記為Score1 ;S2. 23計(jì)算包含了該候選詞的輸入文檔之間的平均相似度對(duì)于步驟S2. 22中選取的候選詞,從集合R2中抽取出包含該詞的所有輸入文檔并分別 表示成向量,向量的每個(gè)元素用詞的TF-IDF權(quán)重表示,用向量空間的余弦相似度的計(jì)算方 法計(jì)算這些輸入文檔中任意兩個(gè)文檔的相似度,并對(duì)相似度求平均值,記為scores ;S2. 24計(jì)算該候選詞的得分score (wt) = - α *r (wq) 5IiScore^Score2其中,SC0re(Wt)代表的是 的候選詞得分,wt代表的是候選詞,α代表的是SCore1的 可變權(quán)值;&代表的是查詢?cè)~,Hwtl)代表查詢?cè)~在輸入文檔中的出現(xiàn)比率,r(W(1)=包含查 詢?cè)~的輸入文檔個(gè)數(shù)/輸入文檔的總個(gè)數(shù)M ;S2. 25判斷是否已對(duì)所有候選詞評(píng)分,若是,則進(jìn)入步驟S3 ;若否,返回至步驟S2. 22。
4.根據(jù)權(quán)利要求3所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,其特征在 于,所述α值為3。
5.根據(jù)權(quán)利要求3所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,其特征在 于,所述步驟S3中把這個(gè)選中的候選詞拓展成為包含該詞的有序詞序列的集合,具體是 指在集合R2中抽取出包含該候選詞的所有輸入文檔,由于集合R2中的各輸入文檔表 示為有序詞序列的形式,假設(shè)把候選詞標(biāo)記為wt,任意一個(gè)所述序列標(biāo)記為(Wl,W2,……, wt……,wk),則所有滿足i彡t且j彡t的子序列Ov……,Wj)將被作為擴(kuò)展得到的詞序 列。
6.根據(jù)權(quán)利要求1所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,其特征在 于,所述步驟S4中計(jì)算步驟S3中各個(gè)有序詞序列的頻率,抽取高頻詞序列,具體包括以下 步驟假設(shè)待計(jì)算頻率的序列為seq,令frequency (seq)表示seq的頻率,length (seq)表示 seq的長(zhǎng)度,(Kseq1, seq2)表示序列Seq1與之間的字符串編輯距離,delta(i)代表第 i個(gè)文檔中的詞序列對(duì)seq頻率增量的貢獻(xiàn),scale代表加權(quán)因子; S4. 1、選擇一個(gè)未計(jì)算過(guò)頻率的有序詞序列seq ; S4. 2、初始化,令 frequency (seq) = 0,i = 1 ; S4. 3、對(duì)第i個(gè)輸入文檔Di,獲取該文檔的所有有序詞序列集合Fi ; S4.4、對(duì)于Fi中的所有序列Seq1,計(jì)算d(seq,Seq1),令d min為這些距離中的最 小值,如果d min/length(seq)超過(guò)給定閾值,則delta(i) = 0,否則令delta(i) = 1/ (1+scale氺d min/length(seq));S4. 5、令 frequency (seq) = frequency (seq)+delta (i),判斷是否已計(jì)算完詞序列 seq 與所有輸入文檔中詞序列的編輯距離,若否,則處理下一個(gè)輸入文檔,令i = i+Ι,跳轉(zhuǎn)至步 驟S4. 3 ;若是,則進(jìn)入步驟S4. 6 ;S4. 6、判斷是否已計(jì)算完步驟S3中各個(gè)有序詞序列的頻率,若否,返回至步驟S4. 1 ;若 是,則抽取高頻詞序列,進(jìn)入步驟S5,所述高頻詞是指出現(xiàn)次數(shù)大于某個(gè)閾值的詞,所述閾 值由管理員設(shè)置。
7.根據(jù)權(quán)利要求6所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,其特征在 于,所述scale值為2。
8.根據(jù)權(quán)利要求6所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,其特征在 于,所述步驟S4. 4中的閾值為1/3。
9.根據(jù)權(quán)利要求1所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,其特征在 于,所述步驟S5中根據(jù)完整性和簡(jiǎn)明性對(duì)步驟S4中抽取的高頻詞序列評(píng)分,具體包括以下步驟S5. 1計(jì)算詞序列的右獨(dú)立性以seq代表待評(píng)分的序列,以Iength(Seq)表示seq的長(zhǎng)度,以Wb表示seq的最后一 個(gè)詞,以Wlrf表示seq的倒數(shù)第二個(gè)詞,則通過(guò)下式對(duì)序列的右獨(dú)立性評(píng)分 EN1= 2 N
10.根據(jù)權(quán)利要求1所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,其特征在 于,所述步驟S6具體為假設(shè)該候選詞詞序列表示為seq(Wl,……,wb),并假設(shè)已經(jīng)接受了 y個(gè)序列,已經(jīng)劃分 到這y個(gè)序列的文檔的并集為Dy,作出如下定義
全文摘要
本發(fā)明公開(kāi)了一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法,包括以下步驟S1、用戶輸入查詢?cè)~,形成輸入文檔;S2、選取候選詞,對(duì)所有候選詞評(píng)分;S3、判斷是否存在未作標(biāo)記的候選詞,若否,則跳轉(zhuǎn)到步驟S8;若是,則選出得分最高的候選詞;把這個(gè)選中的候選詞拓展成為包含該詞的有序詞序列的集合,進(jìn)入步驟S4;S4、計(jì)算各個(gè)有序詞序列的頻率,抽取高頻詞序列;S5、對(duì)高頻詞序列評(píng)分,并選取候選詞序列;S6、判斷選詞序列是否被接受為標(biāo)簽,若是,則進(jìn)入步驟S7;若否,則返回步驟S3;S7、根據(jù)生成的標(biāo)簽進(jìn)行聚類;S8、結(jié)束操作。本發(fā)明可以減少噪音標(biāo)簽,使標(biāo)簽具有更好的代表性、簡(jiǎn)明性和完整性。
文檔編號(hào)G06F17/30GK102081642SQ20101052734
公開(kāi)日2011年6月1日 申請(qǐng)日期2010年10月28日 優(yōu)先權(quán)日2010年10月28日
發(fā)明者張麗平, 張凌, 李粵, 董守斌, 袁華 申請(qǐng)人:華南理工大學(xué), 廣州數(shù)園網(wǎng)絡(luò)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1