亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

無監(jiān)督消息聚類的制作方法

文檔序號:6366504閱讀:478來源:國知局
專利名稱:無監(jiān)督消息聚類的制作方法
無監(jiān)督消息聚類
背景技術(shù)
具有短的消息長度的消息已成為通信的重要形式。一些服務(wù)提供通常任何訂閱的人都可以獲得的短消息。這樣可以允許對來自這些服務(wù)的短消息捜索相關(guān)的內(nèi)容。可惜的是,部分由于消息的有限內(nèi)容的原因,對短消息捜索造成困難。

發(fā)明內(nèi)容
無監(jiān)瞀的聚類(unsupervised clustering)可以用于將微博或其他短長度的消息組織到消息簇中。消息可以與現(xiàn)有的簇進(jìn)行比較以確定相似度得分。如果至少ー個相似度得分超過閾值,則消息可以添加到現(xiàn)有的消息簇。如果消息與現(xiàn)有的簇不相似,則將該消息與準(zhǔn)則作比較以開始新的消息簇。此發(fā)明內(nèi)容以簡要的形式提供了對選擇的ー些概念進(jìn)行的介紹,它們在以下的具 體實(shí)施例中被進(jìn)ー步描述。此發(fā)明內(nèi)容不g在標(biāo)識所要保護(hù)主題的關(guān)鍵特征或必要特征,也不g在孤立地輔助確定所要保護(hù)主題的范圍。


以下參考附圖詳細(xì)描述本發(fā)明,其中
圖I示出根據(jù)本發(fā)明實(shí)施例的處理消息以添加到簇的示意流程圖。圖2-4示出根據(jù)本發(fā)明各種實(shí)施例的方法的示例。圖5是適合于用來實(shí)現(xiàn)本發(fā)明實(shí)施例的示例性計(jì)算環(huán)境的框圖。圖6示意性地示出適合執(zhí)行本發(fā)明實(shí)施例的網(wǎng)絡(luò)環(huán)境。
具體實(shí)施例概述
在各種實(shí)施例中,提供了用于對諸如包含少于固定數(shù)量字符的微博條目或消息的具有相對短的長度的消息進(jìn)行聚類的系統(tǒng)和方法。該系統(tǒng)和方法能夠允許基于相關(guān)性因子、品質(zhì)因子和/或其他因子來過濾消息。經(jīng)過濾的消息隨后可以分配給適當(dāng)?shù)南⒋?。如果不存在適當(dāng)?shù)南⒋兀⑶胰绻⒕哂凶銐虻钠焚|(zhì)(quality),則可以開始ー個新的消息簇。消息簇隨后可用來便利對消息的關(guān)鍵詞捜索??梢栽诓槐鼗谙⒌拈L度計(jì)算規(guī)范化的相似度值的情況下來進(jìn)行將消息分配到消息簇。用于發(fā)送有限長度消息的微博或其他類型的公開或半公開服務(wù)正變得日益普及。這些消息往往具有有限數(shù)目的字符,例如大約250個字符或更少、或者大約200個字符或更少、或大約160個字符或更少、或者大約140個字符或更少、或者大約100個字符或更少。消息中的部分字符可以用來提供經(jīng)由網(wǎng)絡(luò)可獲得的到較長消息或其他文檔的鏈接。由于消息短的性質(zhì),難于對單個消息進(jìn)行排名以用于關(guān)鍵詞捜索。短消息中低的總字符數(shù)目會導(dǎo)致消息中相應(yīng)地低數(shù)目的單個詞語單元或“標(biāo)記”。在此說明書中,“標(biāo)記(token) ”指代根據(jù)用于解析消息的規(guī)則來一起考慮的一個或多個字符的字符串。例如,可以將對通過“空格”字符或標(biāo)點(diǎn)字符分開的字符分組視為標(biāo)記。另ー類型的標(biāo)記可以是用于連接到另一文檔的字符。其他的標(biāo)記還可以包括空格、標(biāo)點(diǎn)、或其他非字母數(shù)字字符。取決于用來標(biāo)識標(biāo)記的定義,一些標(biāo)記可以對應(yīng)于多個詞和/或部分詞。而在其他實(shí)施例中,任意合適類型的定義都可以用來確定消息內(nèi)的標(biāo)記。由于消息中低的標(biāo)記數(shù)目,消息分組是有用的。消息分組可以例如便于對消息組的特征而不是單個消息進(jìn)行關(guān)鍵詞搜索。使用有監(jiān)瞀的機(jī)器學(xué)習(xí)算法對具有有限長度的消息進(jìn)行排名可能會有一些已知的問題。收集時間敏感的文檔的標(biāo)簽數(shù)據(jù),例如在線社交微博數(shù)據(jù),是有挑戰(zhàn)性的并且代價昂貴。有監(jiān)瞀的學(xué)習(xí)算法還可能要求使用新近的標(biāo)簽數(shù)據(jù)進(jìn)行更新以反映用戶行為隨時間的任何變化。像聚類一祥的無監(jiān)瞀學(xué)習(xí)算法對具有難以預(yù)測的內(nèi)容的文檔的分組具有優(yōu)勢??上У氖?,傳統(tǒng)的聚類算法可能需要大量的計(jì)算來測量文檔之間的相似度。確定最佳數(shù)目的 簇也消耗計(jì)算機(jī)資源。此外,常規(guī)的聚類算法通常不提供對獲得的簇進(jìn)行排名的機(jī)制。在各種實(shí)施例中,提供了無監(jiān)瞀學(xué)習(xí)算法,其能夠協(xié)助對包含低數(shù)目的字符和/或標(biāo)記的文檔進(jìn)行聚類。無監(jiān)瞀學(xué)習(xí)算法能夠執(zhí)行初始過濾來去除不期望的文檔。消息由于存在與垃圾消息相關(guān)聯(lián)的特征而被去除或排除,和/或消息由于具有低品質(zhì)的得分而被去除或排除。隨后為剰余的文檔生成品質(zhì)值,以確定給定的文檔是否與現(xiàn)有的消息簇相關(guān)聯(lián),或者該文檔是否能夠用來形成新的消息簇。還可以基于簇的內(nèi)容對消息簇進(jìn)行排名。在一些實(shí)施例中,可以為每個消息簇確定標(biāo)記的特征向量以協(xié)助識別另外的消息來添加到該簇。簇標(biāo)記向量還可以用于確定簇與例如來自搜索查詢的關(guān)鍵詞之間的匹配。在此討論中,“標(biāo)記向量”是消息或簇中的標(biāo)記的ー種表示。標(biāo)記向量可以認(rèn)為是稀疏向量,其中可能的向量元素對應(yīng)于可能包括在向量中的標(biāo)記。對于包含小于固定數(shù)量的字符的單個消息來說,僅有有限數(shù)目的標(biāo)記是可能的。因此,消息標(biāo)記向量的大多數(shù)向量元素都為零值,以指示給定的標(biāo)記在標(biāo)記向量中不存在。消息標(biāo)記向量僅對于在消息中存在的標(biāo)記具有非零值。在此討論中,可以將標(biāo)記向量描述為具有與標(biāo)記向量中的非零值數(shù)目相對應(yīng)的長度。注意到,雖然標(biāo)記向量在此描述為具有零值或非零值,但是任何其他合適的指定集合都可以用來指示標(biāo)記存在與否。在各種實(shí)施例中,特征向量可以用來表示消息簇的內(nèi)容。這可以稱為簇標(biāo)記向量。代替使用表示消息簇內(nèi)所有消息中的所有標(biāo)記的向量,簇標(biāo)記向量可以包括僅針對代表數(shù)量的標(biāo)記的非零值??梢愿鶕?jù)總出現(xiàn)頻率,或基于根據(jù)大的文檔語料庫中標(biāo)記的出現(xiàn)頻率而規(guī)范化的加權(quán)出現(xiàn)頻率,來選擇這些代表性的標(biāo)記。在許多情況下,僅存儲和/或使用標(biāo)記向量的非零元素是合適的。諸如消息標(biāo)記向量或簇標(biāo)記向量的標(biāo)記向量可以通過任意合適類型的數(shù)據(jù)格式來表示,該合適類型的數(shù)據(jù)格式指示存在于消息標(biāo)記向量或簇標(biāo)記向量中的標(biāo)記。例如,存在于向量中的標(biāo)記的標(biāo)識符列表可以表示該向量。可選地,標(biāo)記向量的表示還可以包括存在于向量中的標(biāo)記的加權(quán)因子。該加權(quán)因子例如可以指示標(biāo)記在文檔語料庫中出現(xiàn)的規(guī)范化的可能性。該加權(quán)因子還能夠可選地指示標(biāo)記在消息和/或簇中是否出現(xiàn)多次。用于為添加到簇中而評估消息的因子
為了建立消息簇,潛在地可以使用很多因子來評估消息的品質(zhì)。這些因子可以例如包括消息的總主題或消息中標(biāo)記的數(shù)目。用于確定消息品質(zhì)的因子可以稱為品質(zhì)特征??蛇x地,得分以品質(zhì)特征值的形式與每個品質(zhì)特征相關(guān)聯(lián)。品質(zhì)特征值的算數(shù)和/或幾何和/或?qū)?shù)組合可以用來確定單個消息的品質(zhì)值。作為對消息執(zhí)行品質(zhì)評估的預(yù)備步驟,可以對消息進(jìn)行過濾以分離出任意不適合于進(jìn)ー步評估的消息。該預(yù)備過濾可以用來去除或排除各種消息類型。一個選擇是去除源于已知為不期望的域和/或標(biāo)識符的消息。這樣的域和/或標(biāo)識符可以是已知的垃圾源,或者是已知的色情或成人內(nèi)容源。也會排除包括到這樣的域的鏈接的消息。另ー選擇是濾除使用不期望的語言的消息。再一選擇是濾除看起來意在針對單個接收者的消息。雖然消息以公開或半公開的方式來發(fā)布,但是消息中的ー個或多個標(biāo)記可以指示該消息實(shí)際上是意在針對單個接收者的。又ー選擇可以是使用以上特征的ー個或多個,也可能與其他特征結(jié)合,來獲得消息的垃圾得分(spam score).垃圾得分高于(或低干)閾值的消息會被濾除。對于剩下的消息,可以將垃圾得分作為ー個品質(zhì)特征值來保留以確定消息的整體品質(zhì)值。
通過過濾可以去除任意合適數(shù)目的消息。通過過濾去除的消息的數(shù)目可以是至少占所接收用于評估的消息的約5%、或者至少占約10%、或者至少占約25%、或者至少占約50%。通過過濾去除的消息數(shù)目可以為大約95%或更少、或大約75%或更少、或大約50%或更少、或大約25%或更少??梢钥紤]的另ー個因子是消息內(nèi)標(biāo)記的數(shù)目。這個也稱為消息的標(biāo)記長度。雖然消息可以具有最大數(shù)目的字符,但是ー些消息可以具有比最大數(shù)目更少的字符。消息中標(biāo)記的數(shù)目可以是消息品質(zhì)的指示器??蛇x地,消息的標(biāo)記長度可以基于消息中不同的(獨(dú)持)標(biāo)記的數(shù)目。還可以考慮的其他品質(zhì)特征涉及消息的特性。ー個特性可以是消息是否已被另ー用戶轉(zhuǎn)發(fā)或重新發(fā)布。在很多情形中,消息可能初始地對所有潛在讀者的子集是可獲得的??匆娤⒌牡诙脩艨赡苓x擇將該消息轉(zhuǎn)發(fā)或重新發(fā)布給通常閱讀該第二用戶的消息的其他用戶。當(dāng)轉(zhuǎn)發(fā)或重新發(fā)布事件發(fā)生時,可以對消息做標(biāo)志以指示該重新發(fā)布。這個可以用作ニ元(binary)的品質(zhì)特征值以加到消息的得分或品質(zhì)值??蛇x地,可以對消息施加另外的要求以獲得重新發(fā)布的標(biāo)志或得分。例如,可以要求用戶標(biāo)識與轉(zhuǎn)發(fā)或重新發(fā)布事件相關(guān)聯(lián)??蛇x地,可以要求轉(zhuǎn)發(fā)或重新發(fā)布事件與不同干與原始消息發(fā)布相關(guān)聯(lián)的用戶標(biāo)識符的用戶標(biāo)識符相關(guān)聯(lián)。再ー選擇可以是要求轉(zhuǎn)發(fā)或重新發(fā)布的事件不與已知的垃圾分發(fā)者相關(guān)聯(lián)。另ー特性可以是消息是否包括鏈接。一些鏈接可能指示垃圾消息。然而,在非垃圾消息中鏈接的存在可以指示更高品質(zhì)的消息。消息中存在鏈接可以是用于確定消息的品質(zhì)值的另一二元品質(zhì)特征??商鎿Q地,由于存在鏈接而導(dǎo)致的消息的品質(zhì)值的變化取決于任意合適的因子。其他品質(zhì)特征值還可以基于編寫消息的用戶。發(fā)布消息的用戶能夠具有權(quán)威(authority)得分。該權(quán)威得分可以基于用戶的ー個或多個特性。用戶的權(quán)威得分的一部分可以基于該用戶與消息系統(tǒng)的關(guān)系。例如,消息系統(tǒng)的管理員可以具有很高的權(quán)威得分??商鎿Q地,權(quán)威得分的一部分可以基于與用戶相關(guān)聯(lián)的讀者的數(shù)目。如果相當(dāng)多的人已經(jīng)訂閱了閱讀來自某用戶的消息,這表明該用戶提供了有價值或品質(zhì)的消息。又ー選擇可以是將權(quán)威得分部分基于其他用戶所提供的第一用戶的排名。在實(shí)施例中,權(quán)威得分可以基于閱讀來自給定用戶的消息的不同用戶的數(shù)目。分配此權(quán)威得分的ー種方式為使權(quán)威得分對數(shù)依賴于用戶的數(shù)目。這樣可以反映以下事實(shí),即ー些用戶僅有數(shù)十個讀者,而其他用戶擁有數(shù)千甚至更多的讀者。對數(shù)依賴使得在品質(zhì)特征值中容易獲取讀者數(shù)目上如此大范圍的變化。消息簇的排名
隨著消息添加到消息簇,可以根據(jù)簇中的消息來確定該簇的排名。一個選擇可以是具有基于簇內(nèi)消息的平均品質(zhì)特征值的消息簇的排名值。在實(shí)施例中,簇排名可以基于簇中消息的平均垃圾得分、平均標(biāo)記長度、重新發(fā)布平均得分、所包括的鏈接的平均得分、以及平均權(quán)威得分中的兩項(xiàng)或更多項(xiàng)的組合。在另ー實(shí)施例中,簇的排名可以 基于以上特征的三個或更多、或者以上特征的四個或更多、或者以上所有特征??蛇x地,簇的排名還可以包括基于將消息貢獻(xiàn)到簇的不同(或獨(dú)特)用戶的數(shù)目的得分。每個消息都可以有作者,但是ー些消息的作者可能是相同的。這個因子例如可以表達(dá)為不同消息作者的數(shù)目相對于消息簇中消息的總數(shù)目的比值。這樣類型的因子可以對具有更多不同用戶作為貢獻(xiàn)者的消息簇給予更高的排名。對于簇中消息的ー些品質(zhì)特征,其可以具有ニ元值。例如,在一些實(shí)施例中,消息的重新發(fā)布值表示該消息或者滿足了重新發(fā)布的準(zhǔn)則或者沒有滿足該準(zhǔn)則。這樣可以表達(dá)為重新發(fā)布值為I或0,但是也可以使用任意其他合適的值來代替。類似地,消息的鏈接值可以簡單地指示消息中是否存在ー個或多個鏈接。對于具有此類型的ニ元特性的品質(zhì)特征,存在使用單個消息特征值來對消息簇的排名做出貢獻(xiàn)的若干選擇。一個選擇可以是確定重新發(fā)布或鏈接特征值的常規(guī)平均值,如上所述。另ー選擇可以是確定滿足重新發(fā)布或鏈接特征準(zhǔn)則的消息與不滿足該準(zhǔn)則的消息的比值。一種將簇得分結(jié)合的方式是將平均得分相乘。在實(shí)施例中,簇排名的公式為 log (η) X (I - AvSpam; x (AvLen; x (RepostRatio) x (LinkRatio) x (AvAuth)
X (UURatio)
其中n是簇中的消息數(shù)目;AvSpam是簇中消息的平均垃圾得分;AvLen是簇中消息的平均標(biāo)記長度;R印ostRatio是簇中已重新發(fā)布的消息與未重新發(fā)布的消息的比例;LinkRatio是簇中具有鏈接的消息與不具有鏈接的消息的比例;AvAuth是簇中消息的平均權(quán)威得分;以及UURatio是簇中的不同(獨(dú)特的)作者與消息的比例。將消息添加到消息簇
當(dāng)收到消息時,可以分析該消息以確定該消息是否能夠被添加到消息簇。作為初始步驟,該消息可以與過濾器進(jìn)行比較以確定是否可以丟棄該消息,或排除對該消息的進(jìn)ー步考慮。這例如可以基于如上所述的消息的垃圾得分。如果消息的垃圾得分高于(或低干)閾值,無需對該消息做進(jìn)ー步的工作。如果垃圾得分低于(或高干)閾值,則可以分析該消息以確定是否能夠?qū)⑵涮砑拥酱???梢越馕鲈撓⒁源_定消息中的標(biāo)記。這可以允許形成消息標(biāo)記向量。消息中的標(biāo)記隨后可以與任意現(xiàn)有的簇的標(biāo)記進(jìn)行比較以獲得消息和現(xiàn)有簇之間的相似度得分。在實(shí)施例中,文檔中詞語的規(guī)范化出現(xiàn)頻率可以用作確定相似度得分的加權(quán)因子。詞頻-反文檔頻率(TFIDF :term frequency-inverse document frequency)值是規(guī)范化的出現(xiàn)頻率的示例。可以為例如消息語料庫的文檔語料庫中出現(xiàn)的每個標(biāo)記計(jì)算TFIDF值。每個標(biāo)記的該TFIDF值隨后可以用作確定相似度得分的加權(quán)因子。對于確定TFIDF值,“詞頻”(TF)能夠指代標(biāo)記在一條消息中或在若干簇消息中出現(xiàn)的次數(shù)。反文檔頻率(IDF)可以指代語料庫中消息的總數(shù)目除以語料庫中包含特定標(biāo)記的文檔的數(shù)目??蛇x地,反文檔頻率可以基于總消息除以包含標(biāo)記的文檔數(shù)目的対數(shù)。使用TFIDF值,可以計(jì)算消息簇和消息之間的相似度得分。作為計(jì)算相似度得分的初始步驟,可以為簇定義特征標(biāo)記“向量”。特征標(biāo)記向量可以包括表示簇中消息的標(biāo)記。可以將該特征向量稱為簇標(biāo)記向量。在一個實(shí)施例中,簇標(biāo)記向量可以包括簇中最常見的詞語。在另ー實(shí)施例中,簇標(biāo)記向量包括根據(jù)通過TFIDF值加權(quán)的頻率選擇的標(biāo)記。簇標(biāo)記向量包括任意合適數(shù)目的標(biāo)記。在一個實(shí)施例中,簇標(biāo)記向量可以至少包括6個標(biāo)記、或至少8個標(biāo)記、或至少10個標(biāo)記。另外,或可替換地,標(biāo)記向量可以包括20個標(biāo)記或更少、或者15個標(biāo)記或更少、或者12個標(biāo)記或更少、或者10個標(biāo)記或更少。如上所述,包括在簇 標(biāo)記向量中的標(biāo)記的數(shù)目指代向量中包括的非零值的數(shù)目。當(dāng)收到消息時,來自消息的標(biāo)記與來自特征或簇標(biāo)記向量的標(biāo)記進(jìn)行比較。如上所述,來自消息的標(biāo)記還可以視為表示消息內(nèi)容的向量。隨后可以確定消息標(biāo)記和簇標(biāo)記之間的向量點(diǎn)積。如果不使用TFIDF值,這只是表示消息和簇之間的共同標(biāo)記的數(shù)目的簡單計(jì)數(shù)。使用TFIDF值可以允許形成加權(quán)的值。例如,盡管消息可能僅與來自簇標(biāo)記向量的三個標(biāo)記相匹配,但是如果詞語足夠地特別,這些詞語的TFIDF權(quán)重會使得該消息具有相對于該簇的很高得分。相比之下,如果簇標(biāo)記向量包含更常見的詞語,則消息可能需要與更多的詞語相匹配以獲得相對于該簇的很高得分。在一個實(shí)施例中,可以在不基于消息的標(biāo)記長度來規(guī)范化相似度值的情況下計(jì)算消息相對于簇的相似度值。當(dāng)為更大的文檔計(jì)算相似度值時,規(guī)范化因子可以用來說明文檔的長度。更長的文檔具有包含任意給定的詞或其他標(biāo)記的更大可能性。例如,規(guī)范化因子可以是文檔中標(biāo)記出現(xiàn)的數(shù)目除以文檔中詞的總數(shù)目。基于文檔長度的規(guī)范化可以說明以下事實(shí),即包含標(biāo)記的短文檔比包含相同標(biāo)記的較長文檔更相關(guān)。可惜的是,規(guī)范化是花費(fèi)大量時間的過程,因?yàn)樗ǔ1仨毣诿總€文檔來執(zhí)行。對于微博消息或其他有限長度的消息,可能的標(biāo)記的總數(shù)目受限于可用字符的數(shù)目。雖然在消息長度上可能存在某種變化,但是該長度變化沒有典型文檔之間的長度變化重要。因此,可以避免基于消息的標(biāo)記長度的規(guī)范化。在計(jì)算相似度值時這可以導(dǎo)致大量節(jié)省計(jì)算時間??梢韵鄬τ诂F(xiàn)有的每個消息簇為消息計(jì)算相似度值。該相似度值可以用來確定是否將該消息添加到簇。可以進(jìn)行初始的檢查以確定消息的任意相似度值是否大于相似度閾值。如果消息相對于任意消息簇都不具有足夠高的相似度值,則不將該消息添加到現(xiàn)有簇。如果至少ー個相似度值大于相似度閾值,則可以將該消息添加到產(chǎn)生最高相似度得分的消息簇。在將消息添加到消息簇之后,可以重新計(jì)算簇標(biāo)記向量和簇排名。消息相對于現(xiàn)有簇具有低的相似度得分至少基于兩個原因。ー個原因可能是該消息具有低品質(zhì)的內(nèi)容。然而,ー些消息可能具有期望的內(nèi)容,但是還沒有形成與該內(nèi)容相匹配的簇。為了考慮這種情況,當(dāng)由于低的相似度得分而未將消息添加到任意簇的時候,可以檢查該消息以確定是否可以形成新的消息簇。
為了確定是否能夠開始新的消息簇,可以使用消息的品質(zhì)值。還可以使用另外的因子。例如,用于開始一個新簇的種子條件可以要求有最小的消息品質(zhì)值,以及消息中存在鏈接。或者該種子條件可以要求該消息除具有鏈接之外要具有最小的權(quán)威得分。再ー選擇為要求最小的消息標(biāo)記長度,例如要求種子消息包含至少5個標(biāo)記或至少7個標(biāo)記。任意其他合適的消息品質(zhì)特征的組合可以用來標(biāo)識用于開始新簇的合適消息。提供消息簇作為搜索結(jié)果
基于從消息形成的消息簇,消息簇可以合并到由搜索引擎使用的文檔語料庫中以用于提供針對諸如關(guān)鍵詞搜索查詢的搜索查詢的結(jié)果。通過使用消息簇的簇標(biāo)記向量作為簇的內(nèi)容來將消息簇與搜素查詢相匹配??商鎿Q地,擴(kuò)展標(biāo)記向量(其包含在簇中找到的更大數(shù)目的標(biāo)記)可以用來確定簇和搜索查詢之間的匹配。響應(yīng)于捜索查詢,隨后可以將匹配消息簇中的消息作為群組來提供。消息簇的維護(hù)
由于微博和其他短消息的性質(zhì),感興趣的話題會迅速變化。這可能造成不斷地創(chuàng)建新的消息簇。這還會造成ー些消息簇變得停滯,因?yàn)閮H有較少的與給定的簇標(biāo)記向量相匹配的消息變得可用。減少管理消息簇所必需的資源的ー種方式可以為具有去除簇和/或簇內(nèi)消息的機(jī)制。用于識別要去除的簇的ー個選擇可以是基于簇的年齡??梢愿鶕?jù)簇中初始消息的年齡,或者根據(jù)簇中消息的平均年齡,來去除或刪除足夠老的簇。另ー個選擇可以是具有用于刪除消息簇的可變時間長度,其還包括簇的排名得分。較高排名的簇則可以保留更長的時間段。又一選擇可以是從簇中去除舊的消息。另外,可以僅使用消息的年齡、或者消息品質(zhì)值和時間的結(jié)合來從簇去除消息。消息和當(dāng)前簇標(biāo)記向量之間的相似度還可以是ー個因子。從簇中去除單個消息能夠提供允許簇連續(xù)刷新的方式,因?yàn)槿コ^舊的消息可以使簇標(biāo)記向量改換為反映更新消息的內(nèi)容。去除消息還會導(dǎo)致簇的尺寸收縮。另ー個選擇可以是如果簇中消息的數(shù)目低于閾值,則去除該簇。一個選擇可以是將該閾值基于在任意時刻包含在簇中的最大尺寸(消息的最大數(shù)目)。在這種環(huán)境中,可以在消息的數(shù)目少于最大尺寸的一半時去除該簇。這樣可以減少去除由于臨時的極大興趣而形成的很大尺寸的簇所需的開銷。為簇添加而處理消息的示例 圖I示出用于處理消息以識別該消息是否應(yīng)被添加到簇的流程圖的示例??梢詮暮线m的源接收110進(jìn)入的消息。例如,這可以是從消息服務(wù)提供商或微博服務(wù)提供商饋送的消息。隨后可以使用預(yù)過濾器120來測試所接收的消息。一個選擇可以是使用消息的品質(zhì)值作為預(yù)過濾器。如果消息的品質(zhì)值低于閾值,可以丟棄190該消息而不做進(jìn)ー步處理??商鎿Q地,可以由于屬于預(yù)定的類別,例如源自己知的垃圾源,而丟棄該消息。如果在預(yù)過濾器之后消息被保留,則可以對該消息評估與已知簇的相似度130。這例如可以通過將消息的標(biāo)記向量與每個簇的標(biāo)記向量進(jìn)行比較來完成。如果對于至少ー個簇,消息具有大于閾值的相似度得分,則可以選擇該消息以添加到簇140。消息被添加到與該消息具有最高相似度得分的簇。隨后可以根據(jù)消息添加到簇來更新150簇標(biāo)記向量和簇排名。
如果相對于任何簇,該消息不具有比閾值更高的相似度得分,則可以評估該消息以用作新簇的種子160。如果該消息滿足種子要求,則可以基于該消息來開始ー個新簇170。可以初始地根據(jù)該消息來計(jì)算180簇的簇標(biāo)記向量和簇排名。如果消息不適合于用作簇的種子,則丟棄190該消息。另外的示例
在實(shí)施例中,提供了ー種用于將消息 組織到簇中的方法??蛇x地,該方法可以以體現(xiàn)在計(jì)算機(jī)存儲媒介上的計(jì)算機(jī)可執(zhí)行指令的形式來提供該方法??梢越邮斩鄠€消息210。這些消息可以包含有限數(shù)目的字符,例如少于大約250個字符。可以解析220該消息以形成消息標(biāo)記向量。隨后過濾230所解析的消息以丟棄至少ー個消息。接著,相對于ー個或多個消息簇,為經(jīng)過濾的多個消息計(jì)算240相似度得分。根據(jù)大于閾值的相似度得分可以將至少ー個消息添加250到消息簇。在添加之后,可以更新260消息簇的簇標(biāo)記向量。在另ー實(shí)施例中,提供了一種用于響應(yīng)于捜索查詢來提供消息簇的方法??蛇x地,可以以體現(xiàn)在計(jì)算機(jī)存儲媒介上的計(jì)算機(jī)可執(zhí)行指令的形式來提供該方法。接收310包含少于指定數(shù)目字符,例如少于大約250個字符,的消息。解析320該消息以形成消息標(biāo)記向量??梢詾橄⒋卮_定330簇標(biāo)記向量??梢韵鄬τ谙⒋囟鵀樵撓⒂?jì)算340相似度得分。根據(jù)相似度得分大于閾值將消息添加350到消息簇。隨后可以更新360消息簇的簇標(biāo)記向量。更新的簇標(biāo)記向量可以與搜索查詢進(jìn)行匹配370。隨后響應(yīng)于該捜索查詢提供380該消息簇。在又一實(shí)施例中,提供了一種用于響應(yīng)于捜索查詢提供消息簇的方法??蛇x地,可以以體現(xiàn)在計(jì)算機(jī)存儲媒介上的計(jì)算機(jī)可執(zhí)行指令的形式來提供該方法??梢越邮?10包含少于指定數(shù)目字符,例如少于約250個字符,的消息??梢詾樵撓⒂?jì)算420多個消息品質(zhì)特征值??梢詫⒃撓⑻砑?30到消息簇。可以根據(jù)簇中消息的平均品質(zhì)特征值為消息簇計(jì)算440簇排名??梢詾橄⒋卮_定450簇標(biāo)記向量??梢韵鄬τ谒阉鞑樵?yōu)橄⒋赜?jì)算460搜索排名??梢皂憫?yīng)于該搜索查詢提供470消息簇。已經(jīng)簡要地描述了本發(fā)明的各種實(shí)施例的概述,現(xiàn)在描述適合于執(zhí)行本發(fā)明的示例性操作環(huán)境。大體地參考附圖,首先尤其參考圖5,示出了實(shí)現(xiàn)本發(fā)明實(shí)施例的示例性操作環(huán)境,并且整體標(biāo)記為計(jì)算設(shè)備500。計(jì)算設(shè)備500僅是適合的計(jì)算環(huán)境的ー個示例,并且不g在表明對于本發(fā)明的使用或功能范圍的任何限制。計(jì)算設(shè)備500既不應(yīng)被解釋為依賴示出組件的任ー或組合,也不應(yīng)解釋為需要與示出的組件的任一或組合相關(guān)聯(lián)。通常在計(jì)算機(jī)代碼或機(jī)器可用的指令的整體環(huán)境中來描述本發(fā)明的實(shí)施例,包括由諸如個人數(shù)字助理或其他手持設(shè)備的計(jì)算機(jī)或其他機(jī)器執(zhí)行的諸如程序模塊的計(jì)算機(jī)可執(zhí)行指令。通常,包括例行程序、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等的程序模塊指代執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的代碼??梢砸远喾N系統(tǒng)配置來實(shí)施本發(fā)明,包括手持設(shè)備、消費(fèi)電子、通用計(jì)算機(jī)、更專業(yè)的計(jì)算設(shè)備等。還可以在分布式計(jì)算環(huán)境中實(shí)施本發(fā)明,其中通過經(jīng)由通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。繼續(xù)參考圖5,計(jì)算設(shè)備500包括直接或間接地耦接以下設(shè)備的總線510 :存儲器512、一個或多個處理器514、ー個或多個呈現(xiàn)組件516、輸入/輸出(I/O)端ロ 518、I/O組件520和說明性的電源522??偩€510表示可能的一個或多個總線(例如地址總線、數(shù)據(jù)總線或其組合)。雖然為清楚起見用線示出圖5的多個框,但是現(xiàn)實(shí)中各種組件的劃界不是如此清楚的,并且從比喩上來說,這些線更準(zhǔn)確地應(yīng)為灰的和模糊的。例如,人們可以將諸如顯示設(shè)備的呈現(xiàn)組件視為I/o組件。另外,許多處理器具有存儲器。發(fā)明人在此認(rèn)識到,這是本領(lǐng)域的特點(diǎn),并且重申圖5僅僅是對可結(jié)合本發(fā)明的一個或多個實(shí)施例使用的計(jì)算設(shè)備的說明。并沒有對以下類別作出區(qū)分,例如“工作姑”、“服務(wù)器”、“膝上計(jì)算機(jī)”、“手持設(shè)備”等,這些都設(shè)想為在圖5的范圍內(nèi),并參考“計(jì)算設(shè)備”。計(jì)算設(shè)備500通常包括多個計(jì)算機(jī)可讀媒介。計(jì)算機(jī)可讀媒介可以是能夠由計(jì)算設(shè)備500訪問的任意可用的媒介,并且包括易失性和非易失性媒介、可移動和不可移動媒介。以示例但非限制性的方式,計(jì)算機(jī)可讀媒介可以包括計(jì)算機(jī)存儲媒介和通信媒介。計(jì)算機(jī)存儲媒介包括以任意方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移動和不可移動媒介,以用于存儲諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其他數(shù)據(jù)的信息。計(jì)算機(jī)存儲媒介包括但不限于隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPR0M)、閃存存儲器或其他存儲器技術(shù)、⑶-ROM、數(shù)字多功能盤(DVD)或其他全息存儲器、磁帶盒、磁帶、磁盤存儲或其他磁存儲設(shè)備、載波、或可以用來對期望的信息進(jìn)行編碼并可以由計(jì)算設(shè)備500訪問的任意其他介質(zhì)。在實(shí)施例中,可以從有形計(jì)算機(jī)存儲媒介中選擇 計(jì)算機(jī)存儲媒介。在另ー實(shí)施例中,可以從非瞬時性計(jì)算機(jī)存儲媒介來選擇計(jì)算機(jī)存儲媒介。存儲器512包括易失性和/或非易失性存儲器形式的計(jì)算機(jī)存儲媒介。存儲器可以是可移動的、不可移動的或其組合。示例性的硬件設(shè)備包括固態(tài)存儲器、硬盤驅(qū)動器、光盤驅(qū)動器等。計(jì)算設(shè)備500包括從諸如存儲器512或I/O組件520的各種實(shí)體讀取數(shù)據(jù)的一個或多個處理器。ー個或多個呈現(xiàn)組件516將數(shù)據(jù)指示呈現(xiàn)給用戶或其他設(shè)備。示例性呈現(xiàn)組件包括顯示設(shè)備、揚(yáng)聲器、打印組件、振動組件等。I/O端ロ 518允許計(jì)算設(shè)備500邏輯地耦接到包括I/O組件520的其他設(shè)備,其中的一些是內(nèi)建的。說明性的組件包括麥克風(fēng)、操縱桿、游戲墊、圓盤式衛(wèi)星天線、掃描儀、打印機(jī)、無線設(shè)備等。另外參考圖6,描述了示出適合于用在本發(fā)明實(shí)施例中的示例性網(wǎng)絡(luò)環(huán)境600的框圖。環(huán)境600僅是可以用在本發(fā)明實(shí)施例中的環(huán)境的示例,并且可以以很多的配置形式包括任意數(shù)目的組件。在此提供的環(huán)境600的描述是以說明為目的的,并且不g在限制其中可以實(shí)現(xiàn)本發(fā)明實(shí)施例的環(huán)境的配置。環(huán)境600包括網(wǎng)絡(luò)604、用戶設(shè)備606、文檔服務(wù)器608、和搜索引擎612。環(huán)境還包括消息源602、消息解析器603、和簇管理模塊609。網(wǎng)絡(luò)604包括任意計(jì)算機(jī)網(wǎng)絡(luò),例如但不限于諸如因特網(wǎng)、內(nèi)聯(lián)網(wǎng)、私有和公共局域網(wǎng)、和無線數(shù)據(jù)或電話網(wǎng)。用戶設(shè)備606可以是通過其可以提供捜索查詢的任意計(jì)算設(shè)備,例如計(jì)算設(shè)備500。例如,用戶設(shè)備606可為個人計(jì)算機(jī)、膝上計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、無線電話或設(shè)備、個人數(shù)字助理(PDA)、或數(shù)碼相機(jī)等。在實(shí)施例中,多個用戶設(shè)備606,例如數(shù)千或數(shù)百萬個用戶設(shè)備606,可以連接到網(wǎng)絡(luò)604。搜索引擎612包括諸如計(jì)算設(shè)備500的任意計(jì)算設(shè)備,并提供基于內(nèi)容的搜索引擎功能。文檔服務(wù)器608表示可以提供根據(jù)響應(yīng)于搜索查詢的結(jié)果由用戶所選擇的文檔的任意類型的計(jì)算機(jī)設(shè)備。消息源602可以是任意合適的具有很少字符的消息源。消息源602可以表示提供微博輸入或另ー類型的公開或半公開消息的服務(wù)器。消息解析器603可以解析來自消息源602的消息以形成消息的消息標(biāo)記向量。經(jīng)解析的消息隨后由簇管理模塊609來分析。簇管理模塊609可以將消息添加到消息簇、創(chuàng)建新的消息簇、或丟棄消息。簇管理模塊609還可以刪除簇或這從簇去除消息。由簇管理模塊609形成和/或管理的消息簇可以被包括為由文檔服務(wù)器608提供的文檔的一部分。已結(jié)合特定的實(shí)施例描述了本發(fā)明的實(shí)施例,其無論從哪個方面都是說明性的而非限制性的。在不脫離本發(fā)明范圍的情況下,可替換實(shí)施例對于本發(fā)明所屬領(lǐng)域的普通技術(shù)人員將是清楚的。在實(shí)施例中,提供了存儲計(jì)算機(jī)可用指令的一個或多個計(jì)算機(jī)存儲媒介,當(dāng)該指令由計(jì)算設(shè)備執(zhí)行吋,執(zhí)行對消息進(jìn)行聚類的方法。該方法包括接收多個消息,每個消息包括大約250個字符或更少。解析消息以形成消息的消息標(biāo)記向量。過濾經(jīng)解析的消息以丟棄多個消息中的至少ー個消息。相對于ー個或多個消息簇為經(jīng)過濾的多個消息計(jì)算相似度 得分,消息簇具有簇標(biāo)記向量,相似度得分基于消息標(biāo)記向量和簇標(biāo)記向量,無需相對于ー段消息對消息標(biāo)記向量進(jìn)行規(guī)范化即可計(jì)算相似度得分。根據(jù)相似度得分大于相似度閾值的至少ー個消息將該至少ー個消息添加到消息簇。更新包含所添加消息的消息簇的簇標(biāo)記向量。在另ー實(shí)施例中,提供了一個或多個存儲計(jì)算機(jī)可用指令的計(jì)算機(jī)存儲媒介,當(dāng)該指令由計(jì)算設(shè)備來執(zhí)行吋,執(zhí)行對消息進(jìn)行聚類的方法。該方法包括接收包含大約250個或更少字符的消息。解析該消息以形成消息的消息標(biāo)記向量。為消息簇確定簇標(biāo)記向量,該簇標(biāo)記向量對應(yīng)于小于標(biāo)記閾值的多個標(biāo)記。根據(jù)簇標(biāo)記向量和消息標(biāo)記向量的乘積來計(jì)算相對于消息簇的消息的相似度得分,無需相對于消息段對消息標(biāo)記向量進(jìn)行規(guī)范化即可計(jì)算相似度得分。根據(jù)相似度得分大于相似度閾值來將消息添加到消息簇。根據(jù)消息添加到消息簇更新簇標(biāo)記向量。更新的簇標(biāo)記向量與捜索查詢相匹配。隨后響應(yīng)于搜索查詢提供消息族。在又一實(shí)施例中,提供了存儲計(jì)算機(jī)可用指令的一個或多個計(jì)算機(jī)存儲媒介,當(dāng)該指令由計(jì)算設(shè)備執(zhí)行吋,執(zhí)行響應(yīng)于搜索查詢識別消息簇的方法。該方法包括接收包含250個或更少字符的消息。為該消息計(jì)算多個品質(zhì)特征值,該多個品質(zhì)特征值包括垃圾值、消息長度值、重新發(fā)布值、鏈接值、和權(quán)威值中的兩個或更多個。將消息添加到消息簇,該消息簇包含ー個或多個另外的消息。根據(jù)消息簇中的消息平均品質(zhì)特征值計(jì)算消息簇的簇排名。確定消息簇的簇標(biāo)記向量,簇標(biāo)記向量對應(yīng)于小于標(biāo)記閾值的多個標(biāo)記。相對于搜索查詢?yōu)橄⒋赜?jì)算搜索排名,消息簇的搜索排名至少基于消息簇的簇排名以及簇標(biāo)記向量相對于搜索查詢的匹配排名。隨后,響應(yīng)于捜索查詢提供消息簇。根據(jù)前述內(nèi)容,可以看出本發(fā)明很適于達(dá)到以上與該結(jié)構(gòu)所固有的和顯而易見的其他優(yōu)點(diǎn)一起闡述的所有目標(biāo)和對象。將會理解,特定特征和子組合是有效用的,并且可以在不參考其他特征和子組合的情況下被采用。這被權(quán)利要求考慮到,并在權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.用于對消息進(jìn)行聚類的方法,包括 接收多個消息,每個消息包含大約250個或更少字符; 解析所述消息以形成所述消息的消息標(biāo)記向量; 過濾所解析的消息來丟棄多個消息中的至少ー個消息; 相對于ー個或多個消息簇為所過濾的多個消息計(jì)算相似度得分,所述消息簇具有簇標(biāo)記向量,所述相似度得分基于所述消息標(biāo)記向量和所述簇標(biāo)記向量,無需相對于消息長度對消息標(biāo)記向量進(jìn)行規(guī)范化而計(jì)算相似度得分; 根據(jù)至少ー個消息的相似度得分大于相似度閾值將所述至少ー個消息添加到消息簇;以及 為包含所添加消息的所述消息簇更新所述簇標(biāo)記向量。
2.如權(quán)利要求I所述的方法,其中無需相對于消息的標(biāo)記長度對消息標(biāo)記向量進(jìn)行規(guī)范化而計(jì)算所述相似度得分,所述標(biāo)記長度對應(yīng)于消息中的不同標(biāo)記的數(shù)目。
3.如權(quán)利要求I或2所述的方法,其中所述簇標(biāo)記向量對應(yīng)于小于標(biāo)記閾值的多個標(biāo)記。
4.如以上權(quán)利要求中任一項(xiàng)所述的方法,還包括 識別所過濾的多個消息中的消息,所識別的消息相對于ー個或多個消息簇具有的相似度得分小于所述相似度閾值;以及 根據(jù)所識別的消息滿足用于形成新的消息簇的ー個或多個準(zhǔn)則,使用所識別的消息開始ー個新的消息簇。
5.如權(quán)利要求4所述的方法,其中用于形成新的消息簇的ー個或多個準(zhǔn)則包括在所述識別的消息中存在鏈接,以及在所識別的消息中存在至少5個標(biāo)記。
6.如以上權(quán)利要求中任一項(xiàng)所述的方法,還包括從來自ー個或多個消息簇的第二消息簇中去除消息,所述去除消息基于所去除的消息的品質(zhì)值、所去除消息的年齡、或其組合。
7.如以上權(quán)利要求中任一項(xiàng)所述的方法,還包括從所述ー個或多個消息簇中刪除消息簇,所述刪除消息簇基于所刪除的消息簇的簇排名、所刪除的消息簇的年齡、所刪除的消息簇相對于先前尺寸的尺寸、或其組合。
8.—種響應(yīng)于搜索查詢來識別消息簇的方法,包括 接收包含大約250個或更少字符的消息; 計(jì)算所述消息的多個品質(zhì)特征值,所述多個品質(zhì)特征值包括垃圾值、消息長度值、重新發(fā)布值、鏈接值、和權(quán)威值的兩個或更多個; 將所述消息添加到消息簇,所述消息簇包含ー個或多個另外的消息; 根據(jù)所述消息簇中的消息的所述品質(zhì)特征值為所述消息簇計(jì)算簇排名; 為所述消息簇確定簇標(biāo)記向量,所述簇標(biāo)記向量對應(yīng)于小于標(biāo)記閾值的多個標(biāo)記; 相對于搜索查詢,為所述消息簇計(jì)算搜索排名,所述消息簇的搜索排名至少基于所述消息簇的簇排名和所述簇標(biāo)記向量相對于所述搜索查詢的匹配排名;以及響應(yīng)于所述搜索查詢提供所述消息簇。
9.如權(quán)利要求8所述的方法,還包括 解析所述消息以形成所述消息的消息標(biāo)記向量; 根據(jù)所述簇標(biāo)記向量和所述消息標(biāo)記向量的乘積相對于所述消息簇為所述消息計(jì)算相似度得分,計(jì)算所述相似度得分而無需相對于消息長度對所述消息標(biāo)記向量進(jìn)行規(guī)范化; 根據(jù)所述相似度得分大于相似度閾值將所述消息添加到所述消息簇;以及 根據(jù)所述消息添加到所述消息簇來更新所述簇標(biāo)記向量。
10.如權(quán)利要求8或9所述的方法,其中所述多個品質(zhì)特征值至少包括垃圾值、消息長度值、重新發(fā)布值、鏈接值、和權(quán)威值。
11.如權(quán)利要求8-10中任一項(xiàng)所述的方法,其中所述消息簇的簇排名還基于與所述簇中的消息相關(guān)聯(lián)的多個不同用戶。
12.如權(quán)利要求8-11中任一項(xiàng)所述的方法,其中所述消息簇的簇排名基于從所述消息簇中的消息的品質(zhì)特征值得出的平均值和/或比值。
13.如權(quán)利要求8-12中任一項(xiàng)所述的方法,其中所述消息簇的簇排名基于所述消息簇中的消息的數(shù)目、所述消息簇中消息的平均垃圾得分、所述消息簇中消息的平均標(biāo)記長度、消息簇中已被重新發(fā)布的消息與未被重新發(fā)布的消息的比例、消息簇中包含鏈接的消息與不包含鏈接的消息的比例、簇中消息的平均權(quán)威得分、以及簇中不同消息作者的數(shù)目與消息數(shù)目的比例。
14.如以上權(quán)利要求中任一項(xiàng)所述的方法,其中所述多個消息中的每個消息包含大約160個或更少字符。
15.存儲計(jì)算機(jī)可用指令的一個或多個計(jì)算機(jī)存儲媒介,當(dāng)所述計(jì)算機(jī)可用指令由計(jì)算設(shè)備執(zhí)行時,執(zhí)行如權(quán)利要求1-14中的任一項(xiàng)所述的方法。
全文摘要
無監(jiān)督聚類可用于將微博或其他短長度消息組織到消息簇中。消息可與現(xiàn)有的簇進(jìn)行比較以確定相似度得分。如果至少一個相似度得分大于閾值,則可以將消息添加到現(xiàn)有的消息簇。如果消息與現(xiàn)有的簇不相似,則可以將該消息與準(zhǔn)則進(jìn)行比較以開始一個新的消息簇。
文檔編號G06F17/30GK102693273SQ20121007179
公開日2012年9月26日 申請日期2012年3月19日 優(yōu)先權(quán)日2011年3月18日
發(fā)明者K.Y.金, S.鐘, 段鐳 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1