搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法

文檔序號(hào)：6508246閱讀：243來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及基于搜索引擎的檢索結(jié)果聚類的技術(shù)領(lǐng)域，特別涉及一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法。
背景技術(shù)：
對(duì)搜索引擎返回結(jié)果的聚類，是提高搜索引擎服務(wù)質(zhì)量的重要手段。它把同一個(gè) 子主題的網(wǎng)頁(yè)分劃到同一個(gè)類別當(dāng)中，并對(duì)每個(gè)類用標(biāo)簽描述，作為對(duì)該類主題的概括，方便用戶快速定位自己感興趣的主題的網(wǎng)頁(yè)。搜索引擎結(jié)果聚類的研究，是現(xiàn)代搜索引擎研究的熱點(diǎn)和難點(diǎn)。目前對(duì)搜索引擎檢索結(jié)果聚類的標(biāo)簽生成方法可以分為兩類一、先聚類后抽取標(biāo)簽的方法；二、先抽取標(biāo)簽然后把文檔劃分到對(duì)應(yīng)標(biāo)簽的方法。(一)先聚類后抽取標(biāo)簽的方法把每個(gè)文檔以詞的權(quán)值為元素，表示成向量形式，然后用一般的數(shù)值聚類的算法，如k均值聚類算法、層次聚類算法，對(duì)文檔向量進(jìn)行聚類，再通過(guò)每個(gè)聚類中詞語(yǔ)的統(tǒng)計(jì)特征，抽取聚類中相應(yīng)的標(biāo)簽。這是早期的搜索引擎結(jié)果聚類中采用的方法。這種方法基于一般數(shù)值聚類的方法對(duì)文檔進(jìn)行聚類，忽略了文檔所固有的語(yǔ)義特性，使得文檔的組織并沒(méi)有和用戶所期望的根據(jù)主題組織的方式相一致，而且各個(gè)聚類所對(duì)應(yīng)的標(biāo)簽可讀性差，無(wú)法準(zhǔn)確地表述主題。聚類的數(shù)目以及聚類過(guò)程的終止也很難確定。(二)先抽取標(biāo)簽后聚類的方法先對(duì)輸入文檔抽取出所有的公共短語(yǔ)，然后通過(guò) 不同評(píng)分方式選取若干公共短語(yǔ)作為候選標(biāo)簽，并合并相似度高的標(biāo)簽，再把文檔劃分到對(duì)應(yīng)的標(biāo)簽當(dāng)中。這是現(xiàn)代搜索引擎中普遍采用的聚類方法。這種方法著重于聚類標(biāo)簽的抽取，從而使得聚類標(biāo)簽有較高的可讀性，同時(shí)，也使得文檔能夠更好地根據(jù)主題進(jìn)行聚類?，F(xiàn)有的比較成熟的支持結(jié)果聚類的系統(tǒng)有元搜索引擎clusty、聚類引擎Carr0t2 等。但是，現(xiàn)有系統(tǒng)和算法所獲得的對(duì)于中文查詢的聚類結(jié)果，特別是聚類標(biāo)簽的質(zhì)量，依然有待于改善。主要存在的問(wèn)題有(—)標(biāo)簽的噪音問(wèn)題檢索結(jié)果的聚類一般基于標(biāo)題和摘要，然而標(biāo)題和摘要當(dāng) 中包含了大量的與文檔內(nèi)容、主題不相關(guān)的詞，從而在標(biāo)簽的抽取過(guò)程中引入了大量的噪音。而現(xiàn)有的噪音過(guò)濾技術(shù)主要是采用去掉html標(biāo)記、去掉無(wú)意義的符號(hào)、去掉停用詞等一些簡(jiǎn)單的方法，無(wú)法很好地解決噪音問(wèn)題。(二)標(biāo)簽不具有較好的主題代表性，且難以滿足用戶的查詢需求。如Carrot〗的一些聚類算法采用潛語(yǔ)義索引的方法，選取能最好代表各個(gè)概念的詞或短語(yǔ)作為候選標(biāo) 簽，但是效果不佳。如何抽取有主題代表性的標(biāo)簽來(lái)代表聚類，如何抽取與用戶的查詢密切相關(guān)的標(biāo)簽來(lái)細(xì)化用戶的查詢、提供用戶感興趣的信息，這是現(xiàn)有技術(shù)中還有待于完善的問(wèn)題。(三)標(biāo)簽的“不完整”和過(guò)于冗長(zhǎng)的問(wèn)題。簡(jiǎn)單短語(yǔ)提取方法提取的標(biāo)簽一般不夠完整，無(wú)法完整表達(dá)聚類的內(nèi)容。而潛語(yǔ)義索引的方法，從理論上來(lái)說(shuō)又偏向于選取到過(guò) 于冗長(zhǎng)的標(biāo)簽。如何選取能夠簡(jiǎn)明地表達(dá)完整語(yǔ)義的標(biāo)簽，這也是技術(shù)上需要深入研究的問(wèn)題。(四)被聚類的文檔數(shù)比例過(guò)低的問(wèn)題。由于一些聚類標(biāo)簽的提取方法(如潛語(yǔ) 義索引的方法)通常計(jì)算開(kāi)銷較大，因此為了保證實(shí)時(shí)的在線響應(yīng)，一般搜索引擎系統(tǒng)只能選擇前幾百個(gè)網(wǎng)頁(yè)進(jìn)行聚類，使得被聚類的文檔比例過(guò)少，無(wú)法較完整地反映搜索結(jié)果的性質(zhì)。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺點(diǎn)和不足，提供一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，其可以減少噪音標(biāo)簽，使標(biāo)簽具有更好的代表性、簡(jiǎn)明性和完整性，更能滿足用戶的查詢需求，提高被聚類文檔的比例的效果。本發(fā)明的目的通過(guò)下述技術(shù)設(shè)計(jì)方案實(shí)現(xiàn)一種搜索引擎檢索結(jié)果聚類的中文標(biāo) 簽提取方法，包括以下步驟Si、用戶輸入查詢?cè)~，在得到檢索結(jié)果后，選取檢索結(jié)果的前M個(gè)結(jié)果頁(yè)面的摘要作為輸入文檔，形成文檔集合，所述M為正整數(shù)；S2、在輸入文檔中選取候選詞，對(duì)所有候選詞評(píng)分根據(jù)各個(gè)候選詞的主題代表性、以及候選詞和用戶查詢?cè)~的相關(guān)性給各個(gè)候選詞評(píng)分；S3、判斷是否存在未作標(biāo)記的候選詞，若否，則跳轉(zhuǎn)到步驟S8 ；若是，則在未作標(biāo) 記的候選詞中，選出得分最高的候選詞，并給予標(biāo)記；把這個(gè)選中的候選詞拓展成為包含該詞的有序詞序列的集合，進(jìn)入步驟S4 ；S4、計(jì)算步驟S3中各個(gè)有序詞序列的頻率，抽取高頻詞序列；S5、根據(jù)完整性和簡(jiǎn)明性對(duì)步驟S4中抽取的高頻詞序列評(píng)分，并選取得分最高的詞序列作為候選詞序列；S6、如果當(dāng)前候選詞序列所關(guān)聯(lián)的文檔，與已有的標(biāo)簽所關(guān)聯(lián)的文檔相比，其覆蓋程度小于預(yù)設(shè)的閾值，則選取其對(duì)應(yīng)的短語(yǔ)作為標(biāo)簽，進(jìn)入步驟S7 ；否則該候選詞序列未被接受為標(biāo)簽，則返回步驟S3 ；S7、根據(jù)生成的標(biāo)簽進(jìn)行聚類根據(jù)步驟S6生成的標(biāo)簽，計(jì)算每個(gè)檢索結(jié)果網(wǎng)頁(yè) 摘要與各標(biāo)簽的語(yǔ)義相關(guān)度，然后將與某標(biāo)簽相關(guān)度最高的文檔劃分到該類別；S8、結(jié)束操作。為更好的實(shí)現(xiàn)本發(fā)明，所述步驟S2中在輸入文檔中選取候選詞，具體是指S2. 11、對(duì)輸入文檔分詞對(duì)所有輸入文檔進(jìn)行分詞，把各個(gè)輸入文檔切分成詞的有序序列，并得到各個(gè)詞的詞性標(biāo)注，構(gòu)成新的集合Rl ；S2. 12、選取候選詞在集合Rl中抽取所有的出現(xiàn)頻率不小于3次的動(dòng)詞、名詞作為候選詞。優(yōu)選的，所述步驟S2中對(duì)所有候選詞評(píng)分，具體是包括以下步驟S2. 21對(duì)Rl中各個(gè)輸入文檔，僅保留其動(dòng)詞和名詞，得到各個(gè)輸入文檔對(duì)應(yīng)的新的有序詞序列，構(gòu)成新的集合R2 ；S2. 22選取任一未被評(píng)分的候選詞，計(jì)算該候選詞到查詢?cè)~的平均距離
從R2中抽取出同時(shí)包含該候選詞和查詢?cè)~的所有輸入文檔形成集合R3，由于集合R3中的各輸入文檔表示為有序詞序列的形式，對(duì)于R3中的任一輸入文檔，所述有序詞序
列標(biāo)記為(W1,w2，-,wq, -,wt,……，wk)，其中候選詞Wt出現(xiàn)在序列中的第Pl，p2，......，
Pm個(gè)位置，查詢?cè)~％出現(xiàn)在序列中的第q1; q2，......，qn個(gè)位置，則在該輸入文檔中，候選
詞到查詢?cè)~的距離為所有Ipi-CijI的最小值，其中i = 1,2,......，m，j = 1,2,……,η；
對(duì)R3中的所有輸入文檔，通過(guò)上述方法計(jì)算候選詞到查詢?cè)~的距離，求平均得到該候選詞到查詢?cè)~的平均距離，記為Score1 ；S2. 23計(jì)算包含了該候選詞的輸入文檔之間的平均相似度對(duì)于步驟S2. 22中選取的候選詞，從集合R2中抽取出包含該詞的所有輸入文檔并分別表示成向量，向量的每個(gè)元素用詞的TF-IDF權(quán)重表示，用向量空間的余弦相似度的計(jì) 算方法計(jì)算這些輸入文檔中任意兩個(gè)文檔的相似度，并對(duì)相似度求平均值，記為scores ；S2. 24計(jì)算該候選詞的得分score(wt) = - α >l<r (wq) 5IiScore^Score2其中，SCOre(wt)代表的是Wt的候選詞得分，Wt代表的是候選詞，α代表的是 Score1的可變權(quán)值；％代表的是查詢?cè)~，r 代表查詢?cè)~在輸入文檔中的出現(xiàn)比率，r
=包含查詢?cè)~的輸入文檔個(gè)數(shù)/輸入文檔的總個(gè)數(shù)M ；S2. 25判斷是否已對(duì)所有候選詞評(píng)分，若是，則進(jìn)入步驟S3 ；若否，返回至步驟 S2· 22ο優(yōu)選的，所述α值為3。優(yōu)選的，所述步驟S3中把這個(gè)選中的候選詞拓展成為包含該詞的有序詞序列的集合，具體是指在集合R2中抽取出包含該候選詞的所有輸入文檔，由于集合R2中的各輸入文檔表示為有序詞序列的形式，假設(shè)把候選詞標(biāo)記為wt，任意一個(gè)所述序列標(biāo)記為(Wl，W2，……， Wt……，wk)，則所有滿足i彡t且j彡t的子序列Ov……，Wj)將被作為擴(kuò)展得到的詞序列。優(yōu)選的，所述步驟S4中計(jì)算步驟S3中各個(gè)有序詞序列的頻率，抽取高頻詞序列，具體包括以下步驟假設(shè)待計(jì)算頻率的序列為seq，令frequency (seq)表示seq的頻率，length (seq) 表示seq的長(zhǎng)度，d(seqi，seq2)表示序列Seq1與Seq2之間的字符串編輯距離，delta(i)代表第i個(gè)文檔中的詞序列對(duì)seq頻率增量的貢獻(xiàn)，scale代表加權(quán)因子；S4. 1、選擇一個(gè)未計(jì)算過(guò)頻率的有序詞序列seq ；S4. 2、初始化，令 frequency (seq) = 0，i = 1 ；S4. 3、對(duì)第i個(gè)輸入文檔Di，獲取該文檔的所有有序詞序列集合Fi ；S4. 4、對(duì)于Fi中的所有序列Seq1，計(jì)算d(seq，Seq1),令d min為這些距離中的最小值，如果d min/length(seq)超過(guò)給定閾值，則delta (i) = 0，否則令delta (i) = 1/ (1+scale氺d min/length(seq))；S4. 5、令 frequency (seq) = frequency (seq)+delta (i)，判斷是否已計(jì)算完詞序列seq與所有輸入文檔中詞序列的編輯距離，若否，則處理下一個(gè)輸入文檔，令i = i+Ι，跳轉(zhuǎn)至步驟S4. 3 ；若是，則進(jìn)入步驟S4. 6 ；
S4. 6、判斷是否已計(jì)算完步驟S3中各個(gè)有序詞序列的頻率，若否，返回至步驟 S4. 1 ；若是，則抽取高頻詞序列，進(jìn)入步驟S5，所述高頻詞是指出現(xiàn)次數(shù)大于某個(gè)閾值的詞，所述閾值由管理員設(shè)置。優(yōu)選的，所述scale值為2。優(yōu)選的，所述步驟S4. 4中的閾值為1/3。優(yōu)選的，所述步驟S5中根據(jù)完整性和簡(jiǎn)明性對(duì)步驟S4中抽取的高頻詞序列評(píng)分，具體包括以下步驟S5. 1計(jì)算詞序列的右獨(dú)立性以seq代表待評(píng)分的序列，以length (seq)表示seq的長(zhǎng)度，以Wb表示seq的最后一個(gè)詞，以Wlrf表示seq的倒數(shù)第二個(gè)詞，則通過(guò)下式對(duì)序列的右獨(dú)立性評(píng)分
權(quán)利要求
1.一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，其特征在于，包括以下步驟51、用戶輸入查詢?cè)~，在得到檢索結(jié)果后，選取檢索結(jié)果的前M個(gè)結(jié)果頁(yè)面的摘要作為輸入文檔，形成文檔集合，所述M為正整數(shù)；52、在輸入文檔中選取候選詞，對(duì)所有候選詞評(píng)分根據(jù)各個(gè)候選詞的主題代表性、以及候選詞和用戶查詢?cè)~的相關(guān)性給各個(gè)候選詞評(píng)分；53、判斷是否存在未作標(biāo)記的候選詞，若否，則跳轉(zhuǎn)到步驟S8；若是，則在未作標(biāo)記的候選詞中，選出得分最高的候選詞，并給予標(biāo)記；把這個(gè)選中的候選詞拓展成為包含該詞的有序詞序列的集合，進(jìn)入步驟S4 ；54、計(jì)算步驟S3中各個(gè)有序詞序列的頻率，抽取高頻詞序列；55、根據(jù)完整性和簡(jiǎn)明性對(duì)步驟S4中抽取的高頻詞序列評(píng)分，并選取得分最高的詞序列作為候選詞序列；56、如果當(dāng)前候選詞序列所關(guān)聯(lián)的文檔，與已有的標(biāo)簽所關(guān)聯(lián)的文檔相比，其覆蓋程度小于預(yù)設(shè)的閾值，則選取其對(duì)應(yīng)的短語(yǔ)作為標(biāo)簽，進(jìn)入步驟S7 ；否則該候選詞序列未被接受為標(biāo)簽，則返回步驟S3 ；57、根據(jù)生成的標(biāo)簽進(jìn)行聚類根據(jù)步驟S6生成的標(biāo)簽，計(jì)算每個(gè)檢索結(jié)果網(wǎng)頁(yè)摘要與各標(biāo)簽的語(yǔ)義相關(guān)度，然后將與某標(biāo)簽相關(guān)度最高的文檔劃分到該類別；58、結(jié)束操作。
2.根據(jù)權(quán)利要求1所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，其特征在于，所述步驟S2中在輸入文檔中選取候選詞，具體是指S2. 11、對(duì)輸入文檔分詞對(duì)所有輸入文檔進(jìn)行分詞，把各個(gè)輸入文檔切分成詞的有序序列，并得到各個(gè)詞的詞性標(biāo)注，構(gòu)成新的集合Rl ；S2. 12、選取候選詞在集合Rl中抽取所有的出現(xiàn)頻率不小于3次的動(dòng)詞、名詞作為候選詞。
3.根據(jù)權(quán)利要求1所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，其特征在于，所述步驟S2中對(duì)所有候選詞評(píng)分，具體是包括以下步驟S2.21對(duì)Rl中各輸入文檔，僅保留其動(dòng)詞和名詞，得到各個(gè)輸入文檔對(duì)應(yīng)的新的有序詞序列，構(gòu)成新的集合R2;S2. 22選取任一未被評(píng)分的候選詞，計(jì)算該候選詞到查詢?cè)~的平均距離從R2中抽取出同時(shí)包含該候選詞和查詢?cè)~的所有輸入文檔形成集合R3，由于集合R3 中的各輸入文檔表示為有序詞序列的形式，對(duì)于R3中的任一輸入文檔，所述有序詞序列標(biāo)記為(W1, w2，-,wq, -,wt,……，wk)，其中候選詞wt出現(xiàn)在序列中的第Pl，p2，......,pm個(gè)位置，查詢?cè)~％出現(xiàn)在序列中的第q1; q2，......，1個(gè)位置，則在該輸入文檔中，候選詞到查詢?cè)~的距離為所有Ipi-Cljl的最小值，其中i = 1,2,......，m，j = 1,2,……，n，對(duì)R3中的所有輸入文檔，通過(guò)上述方式計(jì)算候選詞到查詢?cè)~的距離，求平均得到該候選詞到查詢?cè)~的平均距離，記為Score1 ；S2. 23計(jì)算包含了該候選詞的輸入文檔之間的平均相似度對(duì)于步驟S2. 22中選取的候選詞，從集合R2中抽取出包含該詞的所有輸入文檔并分別表示成向量，向量的每個(gè)元素用詞的TF-IDF權(quán)重表示，用向量空間的余弦相似度的計(jì)算方法計(jì)算這些輸入文檔中任意兩個(gè)文檔的相似度，并對(duì)相似度求平均值，記為scores ；S2. 24計(jì)算該候選詞的得分score (wt) = - α *r (wq) 5IiScore^Score2其中，SC0re(Wt)代表的是的候選詞得分，wt代表的是候選詞，α代表的是SCore1的可變權(quán)值;&代表的是查詢?cè)~，Hwtl)代表查詢?cè)~在輸入文檔中的出現(xiàn)比率，r(W(1)=包含查詢?cè)~的輸入文檔個(gè)數(shù)/輸入文檔的總個(gè)數(shù)M ；S2. 25判斷是否已對(duì)所有候選詞評(píng)分，若是，則進(jìn)入步驟S3 ；若否，返回至步驟S2. 22。
4.根據(jù)權(quán)利要求3所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，其特征在于，所述α值為3。
5.根據(jù)權(quán)利要求3所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，其特征在于，所述步驟S3中把這個(gè)選中的候選詞拓展成為包含該詞的有序詞序列的集合，具體是指在集合R2中抽取出包含該候選詞的所有輸入文檔，由于集合R2中的各輸入文檔表示為有序詞序列的形式，假設(shè)把候選詞標(biāo)記為wt，任意一個(gè)所述序列標(biāo)記為(Wl，W2，……， wt……，wk)，則所有滿足i彡t且j彡t的子序列Ov……，Wj)將被作為擴(kuò)展得到的詞序列。
6.根據(jù)權(quán)利要求1所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，其特征在于，所述步驟S4中計(jì)算步驟S3中各個(gè)有序詞序列的頻率，抽取高頻詞序列，具體包括以下步驟假設(shè)待計(jì)算頻率的序列為seq，令frequency (seq)表示seq的頻率，length (seq)表示 seq的長(zhǎng)度，(Kseq1, seq2)表示序列Seq1與之間的字符串編輯距離，delta(i)代表第 i個(gè)文檔中的詞序列對(duì)seq頻率增量的貢獻(xiàn)，scale代表加權(quán)因子； S4. 1、選擇一個(gè)未計(jì)算過(guò)頻率的有序詞序列seq ； S4. 2、初始化，令 frequency (seq) = 0，i = 1 ； S4. 3、對(duì)第i個(gè)輸入文檔Di，獲取該文檔的所有有序詞序列集合Fi ； S4.4、對(duì)于Fi中的所有序列Seq1，計(jì)算d(seq，Seq1)，令d min為這些距離中的最小值，如果d min/length(seq)超過(guò)給定閾值，則delta(i) = 0，否則令delta(i) = 1/ (1+scale氺d min/length(seq))；S4. 5、令 frequency (seq) = frequency (seq)+delta (i)，判斷是否已計(jì)算完詞序列 seq 與所有輸入文檔中詞序列的編輯距離，若否，則處理下一個(gè)輸入文檔，令i = i+Ι，跳轉(zhuǎn)至步驟S4. 3 ；若是，則進(jìn)入步驟S4. 6 ；S4. 6、判斷是否已計(jì)算完步驟S3中各個(gè)有序詞序列的頻率，若否，返回至步驟S4. 1 ；若是，則抽取高頻詞序列，進(jìn)入步驟S5，所述高頻詞是指出現(xiàn)次數(shù)大于某個(gè)閾值的詞，所述閾值由管理員設(shè)置。
7.根據(jù)權(quán)利要求6所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，其特征在于，所述scale值為2。
8.根據(jù)權(quán)利要求6所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，其特征在于，所述步驟S4. 4中的閾值為1/3。
9.根據(jù)權(quán)利要求1所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，其特征在于，所述步驟S5中根據(jù)完整性和簡(jiǎn)明性對(duì)步驟S4中抽取的高頻詞序列評(píng)分，具體包括以下步驟S5. 1計(jì)算詞序列的右獨(dú)立性以seq代表待評(píng)分的序列，以Iength(Seq)表示seq的長(zhǎng)度，以Wb表示seq的最后一個(gè)詞，以Wlrf表示seq的倒數(shù)第二個(gè)詞，則通過(guò)下式對(duì)序列的右獨(dú)立性評(píng)分 EN1= 2 N
10.根據(jù)權(quán)利要求1所述一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，其特征在于，所述步驟S6具體為假設(shè)該候選詞詞序列表示為seq(Wl，……，wb)，并假設(shè)已經(jīng)接受了 y個(gè)序列，已經(jīng)劃分到這y個(gè)序列的文檔的并集為Dy，作出如下定義
全文摘要
本發(fā)明公開(kāi)了一種搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法，包括以下步驟S1、用戶輸入查詢?cè)~，形成輸入文檔；S2、選取候選詞，對(duì)所有候選詞評(píng)分；S3、判斷是否存在未作標(biāo)記的候選詞，若否，則跳轉(zhuǎn)到步驟S8；若是，則選出得分最高的候選詞；把這個(gè)選中的候選詞拓展成為包含該詞的有序詞序列的集合，進(jìn)入步驟S4；S4、計(jì)算各個(gè)有序詞序列的頻率，抽取高頻詞序列；S5、對(duì)高頻詞序列評(píng)分，并選取候選詞序列；S6、判斷選詞序列是否被接受為標(biāo)簽，若是，則進(jìn)入步驟S7；若否，則返回步驟S3；S7、根據(jù)生成的標(biāo)簽進(jìn)行聚類；S8、結(jié)束操作。本發(fā)明可以減少噪音標(biāo)簽，使標(biāo)簽具有更好的代表性、簡(jiǎn)明性和完整性。
文檔編號(hào)G06F17/30GK102081642SQ20101052734
公開(kāi)日2011年6月1日申請(qǐng)日期2010年10月28日優(yōu)先權(quán)日2010年10月28日
發(fā)明者張麗平, 張凌, 李粵, 董守斌, 袁華申請(qǐng)人:華南理工大學(xué), 廣州數(shù)園網(wǎng)絡(luò)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董守斌;張麗平;張凌;李粵;袁華
技術(shù)所有人：華南理工大學(xué);廣州數(shù)園網(wǎng)絡(luò)有限公司
我是此專利的發(fā)明人

上一篇：一種壓力容器短時(shí)受火后的安全評(píng)測(cè)方法
上一篇：一種多參量軟件測(cè)試方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

標(biāo)簽聚類相關(guān)技術(shù)

citespace聚類標(biāo)簽相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

搜索引擎檢索結(jié)果聚類的中文標(biāo)簽提取方法