微博檢索方法和微博檢索裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本檢索技術(shù)領(lǐng)域,具體而言,涉及一種微博檢索方法和一種微博檢 索裝置。
【背景技術(shù)】
[0002] 微博為用戶(hù)提供了一個(gè)分享簡(jiǎn)短實(shí)時(shí)信息的網(wǎng)絡(luò)平臺(tái),相比傳統(tǒng)的博客,微博的 優(yōu)點(diǎn)在于:一條微博的長(zhǎng)度被限制在140字以?xún)?nèi),發(fā)布十分便利用戶(hù)在發(fā)布微博的同時(shí)還 可以通過(guò)@符號(hào)和其他用戶(hù)進(jìn)行互動(dòng);用戶(hù)還可以利用#符號(hào)來(lái)表明微博所屬的主題。這使 得信息在用戶(hù)間可以更快速地傳遞,也使得相似的信息更快地聚集在一起,方便用戶(hù)獲取。
[0003] 然而,隨著微博的流行,用戶(hù)的檢索需求也在相應(yīng)地增長(zhǎng),針對(duì)微博所展現(xiàn)出來(lái)的 新特性,在微博環(huán)境下的檢索也面臨著新挑戰(zhàn)。在傳統(tǒng)的信息檢索中,待檢索的文檔往往包 含大量文本信息,只要運(yùn)行查詢(xún)擴(kuò)展技術(shù)就可以較好地解決詞匯不匹配的問(wèn)題。然而,微博 中的待檢索文檔至多能包含140個(gè)漢字,僅僅運(yùn)行查詢(xún)擴(kuò)展技術(shù)無(wú)法應(yīng)對(duì)詞匯不匹配的問(wèn) 題。同時(shí),微博平臺(tái)中充斥著用戶(hù)的情感發(fā)泄、惡意廣告等垃圾信息,這些微博雖然也可能 匹配關(guān)鍵詞,但是不能滿(mǎn)足用戶(hù)的需求。
[0004] 因此,需要一種新的技術(shù)方案,可以解決微博檢索中的詞匯匹配不精準(zhǔn)的問(wèn)題,同 時(shí)可以辨別微博的質(zhì)量,過(guò)濾掉低質(zhì)量的微博。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明正是基于上述問(wèn)題,提出了一種新的技術(shù)方案,可以同時(shí)衡量微博的語(yǔ)義 和質(zhì)量,解決微博檢索中的詞匯匹配不精準(zhǔn)的問(wèn)題,同時(shí)可以辨別微博的質(zhì)量,過(guò)濾掉低質(zhì) 量的微博。
[0006] 有鑒于此,本發(fā)明提出了一種微博檢索方法,包括:預(yù)處理步驟,對(duì)查詢(xún)語(yǔ)句和微 博文檔進(jìn)行預(yù)處理,以得到初步處理結(jié)果;第一模型創(chuàng)建步驟,根據(jù)所述初步處理結(jié)果創(chuàng)建 原始查詢(xún)模型和原始文檔模型,并計(jì)算所述原始查詢(xún)模型和所述原始文檔模型之間的相似 度;第二模型創(chuàng)建步驟,根據(jù)所述相似度確定所述查詢(xún)語(yǔ)句對(duì)應(yīng)的偽相關(guān)文檔,并根據(jù)所述 偽相關(guān)文檔創(chuàng)建偽相關(guān)文檔模型;模型更新步驟,將所述偽相關(guān)文檔模型和所述原始查詢(xún) 模型進(jìn)行線(xiàn)性疊加,以得到擴(kuò)展查詢(xún)模型;文檔確定步驟,計(jì)算所述擴(kuò)展查詢(xún)模型和與所述 擴(kuò)展查詢(xún)模型對(duì)應(yīng)的擴(kuò)展文檔模型之間的相似度,以確定候選結(jié)果文檔;排序步驟,根據(jù)分 解機(jī)排序模型公式計(jì)算所述候選結(jié)果文檔中的每個(gè)文檔的得分,并根據(jù)所述得分對(duì)所述候 選結(jié)果文檔中的文檔進(jìn)行排序,以得到最終檢索結(jié)果。
[0007] 在該技術(shù)方案中,預(yù)處理后再對(duì)其結(jié)果進(jìn)行進(jìn)一步處理,使得匹配的關(guān)鍵詞更加 精確;通過(guò)創(chuàng)建上述各種模型,將各個(gè)因素之間的相互關(guān)系刻畫(huà)在了模型中,經(jīng)過(guò)將候選結(jié) 果文檔中的文檔再排序,使得對(duì)微博語(yǔ)義的衡量更加精確,從而增強(qiáng)了用戶(hù)獲取的檢索信 息的有效性。
[0008] 在上述技術(shù)方案中,優(yōu)選地,所述排序步驟包括:計(jì)算所述原始查詢(xún)模型和所述原 始文檔模型的詞匯交叉信息、BM25得分信息、TF-IDF得分信息以及語(yǔ)言模型得分信息作為 查詢(xún)特征;計(jì)算所述擴(kuò)展查詢(xún)模型和所述擴(kuò)展文檔模型的擴(kuò)展詞匯交叉信息、擴(kuò)展BM25得 分信息、擴(kuò)展 TF-IDF (Term Frequency-Inverse Document Frequency,詞頻反文檔頻率)得 分信息以及擴(kuò)展語(yǔ)言模型得分信息作為擴(kuò)展查詢(xún)特征;計(jì)算所述候選結(jié)果文檔中每個(gè)微 博文檔的博文質(zhì)量特征,其中,所述博文質(zhì)量特征包括微博文檔提及的博主的數(shù)量、轉(zhuǎn)發(fā)數(shù) 量、話(huà)題數(shù)量、短鏈接數(shù)量和/或微博長(zhǎng)度;根據(jù)所述查詢(xún)特征、所述擴(kuò)展查詢(xún)特征和/或所 述博文質(zhì)量特征利用隨機(jī)梯度下降方法或自適應(yīng)正則化方法學(xué)習(xí)所述分解機(jī)排序模型公 式的參數(shù),以得到所述分解機(jī)排序模型公式。
[0009] 在該技術(shù)方案中,計(jì)算出了擴(kuò)展前后查詢(xún)模型和文檔模型的微博文本與查詢(xún)文本 間共有的詞匯的數(shù)量、微博文本與查詢(xún)文本之間的相似度、空間向量模型中微博文本與查 詢(xún)文本之間的余弦相似度以及微博文本與查詢(xún)文本兩者的語(yǔ)言模型的相似度,以上述計(jì)算 結(jié)果作為特征,增強(qiáng)了詞匯匹配的精確度,有助于更準(zhǔn)確地衡量微博的語(yǔ)義。同時(shí),一條微 博被轉(zhuǎn)發(fā)的次數(shù)越多、提及的博主越多、用戶(hù)加入的話(huà)題越多、短鏈接的數(shù)量越大和/或微 博越長(zhǎng),則越能引起用戶(hù)的注意,因此,計(jì)算微博文檔提及的博主的數(shù)量、轉(zhuǎn)發(fā)數(shù)量、話(huà)題數(shù) 量、短鏈接數(shù)量和/或微博長(zhǎng)度等博文質(zhì)量特征,可以清晰地辨別該微博的質(zhì)量,有助于過(guò) 濾掉低質(zhì)量的微博,提高微博檢索的效率,提升用戶(hù)體驗(yàn)。
[0010] 在上述技術(shù)方案中,優(yōu)選地,所述分解機(jī)排序模型公式為:
[0011]
[0012] 其中,w。為常數(shù),X1為任一微博文檔的所述查詢(xún)特征、所述擴(kuò)展查詢(xún)特征和/或所 述博文質(zhì)量特征對(duì)應(yīng)的特征向量,w、V為模型參數(shù),其中W刻畫(huà)了特征Xi的權(quán)重,〈Vi, V j>刻 畫(huà)了 X1和Xj交互的權(quán)重,
[0013]
[0014] 其中k為分解機(jī)模型的分解維度。在該技術(shù)方案中,面對(duì)給定的查詢(xún),將微博文檔 的所述查詢(xún)特征、所述擴(kuò)展查詢(xún)特征和/或所述博文質(zhì)量特征表示成向量的形式,w、v為所 述得分,即需要估計(jì)的參數(shù)。
[0015] 在上述技術(shù)方案中,優(yōu)選地,所述預(yù)處理步驟具體包括:爬取所述微博文檔中包含 的短鏈接的主題信息、對(duì)所述微博文檔中的主題詞進(jìn)行還原和/或?qū)λ鑫⒉┪臋n進(jìn)行分 詞并去除停用詞和進(jìn)行詞性變換。
[0016] 在該技術(shù)方案中,當(dāng)文本中含有短鏈接時(shí),利用爬蟲(chóng)爬取短鏈接網(wǎng)頁(yè),抽取網(wǎng)頁(yè)代 碼中HTML代碼中的Title字段的文本內(nèi)容,作為主體信息與原始文本合并;并在遇見(jiàn)"#" 包圍的詞時(shí),刪除"#",還原原有詞;還可以對(duì)合并短鏈接信息后的文本進(jìn)行分詞處理,并 利用停用詞列表進(jìn)行停用詞的去除,還能進(jìn)行詞性變換。這些預(yù)處理步驟將微博文檔進(jìn)行 了初步處理,將短鏈接轉(zhuǎn)換為文本,將" # "去除,并簡(jiǎn)化了詞語(yǔ)的長(zhǎng)度和復(fù)雜度,剔除了無(wú)用 詞語(yǔ),降低了后續(xù)重新排序步驟的難度,提升了檢索效率。
[0017] 在上述技術(shù)方案中,優(yōu)選地,所述第二模型創(chuàng)建步驟具體包括:根據(jù)所述相似度對(duì) 所述查詢(xún)語(yǔ)句對(duì)應(yīng)的所有文檔進(jìn)行排序,并從中提取出排名靠前的預(yù)設(shè)數(shù)量的文檔作為所 述偽相關(guān)文檔。
[0018] 在該技術(shù)方案中,利用最大似然估計(jì)的方法來(lái)估計(jì)查詢(xún)模型與文檔模型,并利用 KL距離計(jì)算查詢(xún)語(yǔ)句與各文檔的語(yǔ)義相似度,根據(jù)相似度對(duì)各文檔進(jìn)行排序,得到排名靠 前的偽相關(guān)文檔,偽相關(guān)文檔可用于更新查詢(xún)模型,以得到擴(kuò)展查詢(xún)模型。
[0019] 在上述技術(shù)方案中,優(yōu)選地,所述文檔確定步驟具體包括:根據(jù)所述擴(kuò)展查詢(xún)模型 和所述擴(kuò)展文檔模型之間的相似度,對(duì)所述與所述擴(kuò)展查詢(xún)模型對(duì)應(yīng)的所有擴(kuò)展文檔進(jìn)行 排序,并從中提取出排名靠前的預(yù)設(shè)數(shù)量的文檔作為所述候選結(jié)果文檔。
[0020] 在該技術(shù)方案中,根據(jù)偽相關(guān)文檔創(chuàng)建偽相關(guān)文檔模型,將偽相關(guān)文檔模型和原 始查詢(xún)模型進(jìn)行線(xiàn)性疊加,就得到了擴(kuò)展查詢(xún)模型,此時(shí)再次利用KL距離,計(jì)算擴(kuò)展查詢(xún) 模型和擴(kuò)展文檔模型之間的相似度,根據(jù)相似度對(duì)各文檔進(jìn)行排序,得到排名靠前的作為 候選結(jié)果文檔。所得的候選結(jié)果文檔可以利用分解機(jī)排序模型進(jìn)行重新排序,就可以達(dá)到 精確衡量微博語(yǔ)義的效果。
[0021] 根據(jù)本發(fā)明的另一方面,還提供了一種微博檢索裝置,包括:預(yù)處理單元,用于對(duì) 查詢(xún)語(yǔ)句和微博文檔進(jìn)行預(yù)處理,以得到初步處理結(jié)果;第一模型創(chuàng)建單元,連接至所述預(yù) 處理單元,用于根據(jù)所述初步處理結(jié)果創(chuàng)建原始查詢(xún)模型和原始文檔模型,并計(jì)算所述原 始查詢(xún)模型和所述原始文檔模型之間的相似度;第二模型創(chuàng)建單元,連接至所述第一模型 創(chuàng)建單元,用于根據(jù)所述相似度確定所述查詢(xún)語(yǔ)句對(duì)應(yīng)的偽相關(guān)文檔,并根據(jù)所述偽相關(guān) 文檔創(chuàng)建偽相關(guān)文檔模型;模型更新單元,連接至所述第二模型創(chuàng)建單元,用于將所述偽相 關(guān)文檔模型和所述原始查詢(xún)模型進(jìn)行線(xiàn)性疊加,以得到擴(kuò)展查詢(xún)模型;文檔確定單元,連接 至所述模型更新單元,用于計(jì)算所述擴(kuò)展查詢(xún)模型和與所述擴(kuò)展查詢(xún)模型對(duì)應(yīng)的擴(kuò)展文檔 模型之間的相似度,以確定候選結(jié)果文檔;排序單元,連接至所述文檔確定單元,用于根據(jù) 分解機(jī)排序模型公式計(jì)算所述候選結(jié)果文檔中的每個(gè)文檔的得分,并根據(jù)所述得分對(duì)所述 候選結(jié)果文檔中的文檔進(jìn)行排序,以得到最終檢索結(jié)果。
[0022] 在該技術(shù)方案中,預(yù)處理后再對(duì)其結(jié)果進(jìn)行進(jìn)一步處理,使得匹配的關(guān)鍵詞更加 精確;通過(guò)創(chuàng)建上述各種模型,將各個(gè)因素之間的相互關(guān)系刻