單元310接收用戶輸入的信息搜索種子,之后查找單元320根據(jù) 該信息搜索種子,在信息庫(kù)中查找目標(biāo)信息表,最后由輸出單元330根據(jù)目標(biāo)信息表的特 征信息對(duì)搜索信息進(jìn)行排序,再輸出排序結(jié)果,搜索速度快,可W找到準(zhǔn)確性更高的同類信 息。
[0074] 進(jìn)一步地,上述信息表通過一索引值保存在信息庫(kù)中,因而上述查找單元具體用 于:在所述信息庫(kù)中查找與所述信息搜索種子匹配的索引值;根據(jù)所述索引值,獲取目標(biāo) 信息表。
[0075] 進(jìn)一步地,上述特征信息包括權(quán)重信息和綜合值,所述綜合值根據(jù)所述權(quán)重信息 獲取得到,所述權(quán)重信息包括同類信息權(quán)重、百科信息、標(biāo)題比例和主題分布率中的至少一 種,因此,輸出單元具體用于,根據(jù)所述目標(biāo)信息表的特征信息中的綜合值,對(duì)所述目標(biāo)信 息表的搜索信息進(jìn)行排序并輸出排序結(jié)果,所述排序結(jié)果包括所述目標(biāo)信息表的搜索信 息、所屬領(lǐng)域、權(quán)重信息和綜合值。
[0076] 上述信息表保存在同類信息的搜索裝置的信息庫(kù)中,為了保證搜索信息和特征信 息是最新數(shù)據(jù),在預(yù)設(shè)周期內(nèi),需要對(duì)搜索信息和特征信息進(jìn)行更新,可W將預(yù)設(shè)周期設(shè)為 一個(gè)星期、半個(gè)月或1個(gè)月。進(jìn)而,上述同類信息的搜索裝置還包括:
[0077] 更新單元,用于在預(yù)設(shè)周期內(nèi)對(duì)所述信息表的搜索信息和特征信息進(jìn)行更新。
[0078] 在一個(gè)應(yīng)用場(chǎng)景中,上述更新單元可W包括:
[0079] 第一更新單元,用于利用word2vec工具對(duì)所述信息表的索引值進(jìn)行處理得到處 理結(jié)果,所述處理結(jié)果包括相關(guān)信息和相關(guān)度,所述相關(guān)信息包括所述索引值的第一搜索 信息和/或第二搜索信息,所述第一搜索信息與所述索引值屬于同類信息,所述第二搜索 信息與所述索引值屬于非同類信息,所述相關(guān)度表示所述相關(guān)信息與所述索引值的相關(guān) 性;利用所述處理結(jié)果中的第一搜索信息更新所述信息表中的搜索信息。
[0080] 其中,在預(yù)設(shè)周期內(nèi),第一更新單元通過word2vec工具分別對(duì)上述所有信息表的 索引值進(jìn)行處理,得到與信息表相同數(shù)量的處理結(jié)果,即一個(gè)索引值對(duì)應(yīng)一個(gè)處理結(jié)果,每 一個(gè)處理結(jié)果包括相關(guān)信息和相關(guān)度,該相關(guān)信息包括第一搜索信息和/或第二搜索信 息,該第一搜索信息與索引值屬于同類信息,該第二搜索信息與索引值屬于非同類信息,上 述相關(guān)度表示相關(guān)信息與索引值的相關(guān)性。將處理結(jié)果中的第二搜索信息刪除后或者直接 使用處理結(jié)果中的第一搜索信息更新相應(yīng)的搜索信息表中的搜索信息。
[0081] 在另一個(gè)應(yīng)用場(chǎng)景中,上述更新單元還包括:
[0082] 第二更新單元,用于若所述特征信息的權(quán)重信息中包括所述同類信息權(quán)重,則在 所述預(yù)設(shè)周期內(nèi)且在所述信息表中的搜索信息更新后,利用所述處理結(jié)果中的相關(guān)度更新 所述特征信息的權(quán)重信息,并同時(shí)更新所述綜合值。
[0083] 在特征信息的權(quán)重信息包括有同類信息權(quán)重時(shí),在更新搜索信息后,第二更新單 元利用上述處理結(jié)果中的相關(guān)度更新該權(quán)重信息中的同類信息權(quán)重,即相關(guān)度作為上述同 類信息權(quán)重,同時(shí),也要結(jié)合權(quán)重信息中其它信息是否被更新,然后更新綜合值。
[0084] 可W理解的是,若上述任意兩個(gè)或多個(gè)處理結(jié)果中具有重復(fù)的第一搜索信息,那 么對(duì)該重復(fù)的第一搜索信息的所有相關(guān)度求和得到新的相關(guān)度,并用新的相關(guān)表替換處理 結(jié)果中原來的相關(guān)度。
[0085] 在另一個(gè)應(yīng)用場(chǎng)景中,上述更新單元還包括:
[0086] 第H更新單元,用于若所述特征信息的權(quán)重信息中包括所述百科信息,則在所述 預(yù)設(shè)周期內(nèi)且在所述信息表中的搜索信息更新后,從資訊中獲取關(guān)于所述搜索信息的百科 信息,利用所述百科信息更新所述特征信息的權(quán)重信息,并同時(shí)更新所述綜合值,所述百科 信息包括點(diǎn)贊信息、用戶分享信息和瀏覽信息中的至少一種。
[0087] 每個(gè)搜索信息在百度等百科里都有用戶點(diǎn)贊信息、用戶分享信息和瀏覽信息,該 些信息在一定程度上反映該搜索信息的流行程度和受喜歡等,該些信息可W作為搜索信息 的排序依據(jù),可W讓用戶了解所搜索的搜索信息中哪些活躍程度更高。
[0088] 在另一個(gè)應(yīng)用場(chǎng)景中,上述更新單元還包括:
[0089] 第四更新單元,用于若所述權(quán)重信息包括標(biāo)題比例,則在所述預(yù)設(shè)周期內(nèi)且在所 述信息表中的搜索信息更新后,統(tǒng)計(jì)所述搜索信息在資訊標(biāo)題中出現(xiàn)的標(biāo)題比例,利用所 述標(biāo)題比例更新所述特征信息的權(quán)重信息,并同時(shí)更新所述綜合值。
[0090] 其中,資訊標(biāo)題是最有信息量的信息,在資訊標(biāo)題出現(xiàn)的搜索信息,說明該搜索信 息的受歡迎或流程度更高,是熱口話題。
[0091] 具體地,可W對(duì)最近一段時(shí)間內(nèi)一定數(shù)量的資訊標(biāo)題進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)該搜索信息 在該些資訊標(biāo)題中出現(xiàn)的次數(shù),該次數(shù)在資訊標(biāo)題中所占的比例作為該搜索信息的標(biāo)題比 例。
[0092] 在另一個(gè)應(yīng)用場(chǎng)景中,上述更新單元還包括:
[0093] 第五更新單元,用于若所述權(quán)重信息包括主題分布率,則在所述預(yù)設(shè)周期內(nèi)且在 所述信息表中的搜索信息更新后,統(tǒng)計(jì)所述搜索信息的第一分布值和第二分布值,并計(jì)算 第一分布值和第二分布值的比值得到主題分布率,利用所述主題分布率更新所述特征信息 的權(quán)重信息,并同時(shí)更新所述綜合值;其中,所述第一分布值為所述搜索信息在所屬領(lǐng)域的 資訊中出現(xiàn)的次數(shù),所述第二分布值為所述搜索信息在所有資訊中出現(xiàn)的次數(shù)。
[0094] 其中,對(duì)數(shù)量為第二分布值的資訊進(jìn)行統(tǒng)計(jì),也就是說該搜索信息均出現(xiàn)在第二 分布值的資訊中,其中,第二分布值的資訊中有數(shù)量為第一分布值的娛樂資訊,那么第一分 布值與第二分布值的比率作為該搜索信息的主題分布率。可W理解,一般搜索信息都會(huì)在 其所屬領(lǐng)域中比較活躍。
[0095] 在本發(fā)明實(shí)施例中根據(jù)用戶輸入的信息搜索種子,該信息搜索種子可W是一個(gè)或 者多個(gè),若是輸入多個(gè)信息搜索種子,那么該多個(gè)信息搜索種子屬于同類信息,然后根據(jù)信 息搜索種子,在信息庫(kù)中查找目標(biāo)信息表,其中,目標(biāo)信息表中的搜索信息與信息搜索種子 屬于同類信息,則確保所搜索到的搜索信息與信息搜索種子屬于同類信息,然后根據(jù)目標(biāo) 信息表的特征信息,對(duì)搜索信息進(jìn)行排序,最后輸出排序結(jié)果,實(shí)現(xiàn)自動(dòng)化搜索,搜索速度 快,準(zhǔn)確性高。
[0096] 在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部 分,可W參見其他實(shí)施例的相關(guān)描述。
[0097] 所屬領(lǐng)域的技術(shù)人員可W清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的裝置 和單元的具體工作過程,可W參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再費(fèi)述。
[0098] 本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的 全部或部分可軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中, 包括若干指令用W使得一臺(tái)計(jì)算機(jī)設(shè)備(可W是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí) 行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬 盤、只讀存儲(chǔ)器(ROM,Read-OnlyMemoir)、隨機(jī)存取存儲(chǔ)器(RAM,RandomAccessMemoir)、 磁碟或者光盤等各種可W存儲(chǔ)程序代碼的介質(zhì)。
[0099]W上對(duì)本發(fā)明所提供的一種同類信息的搜索方法及裝置進(jìn)行了詳細(xì)介紹,對(duì)于本 領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明實(shí)施例的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改 變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【主權(quán)項(xiàng)】
1. 一種同類信息的搜索方法,其特征在于,包括: 接收用戶輸入的信息搜索種子; 根據(jù)所述信息搜索種子,在信息庫(kù)中查找目標(biāo)信息表,所述信息庫(kù)包括多個(gè)信息表,所 述信息表包括特征信息以及多個(gè)搜索信息,所述多個(gè)搜索信息屬于同類信息; 根據(jù)所述目標(biāo)信息表的特征信息,對(duì)所述目標(biāo)信息表的搜索信息進(jìn)行排序并輸出排序 結(jié)果。2. 根據(jù)權(quán)利要求1所述的方法