一種同類信息的搜索方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體涉及一種同類信息的搜索方法及裝置。
【背景技術(shù)】
[0002] 運營商在閱讀類產(chǎn)品運營過程中,將用戶經(jīng)常瀏覽的資訊打包推送給用戶,例如, 用戶經(jīng)常會瀏覽王力宏相關(guān)的資訊,那么可W將王力宏相關(guān)的資訊打包推送給用戶,既契 合了用戶興趣又提升了產(chǎn)品個性化推送。進一步地,若用戶較喜歡瀏覽王力宏的資訊,那么 可能也喜歡其他娛樂明星的相關(guān)資訊,因此,也可W將同類信息的資訊推送給用戶,在一定 程度上拓展用戶的興趣。
[0003] 其中,在進行同類信息的資訊推送前,由人工在搜索引擎工具上輸入已知的用戶 經(jīng)常瀏覽的信息,搜索得到其相關(guān)的信息,然后從相關(guān)的信息中選出比較流行的同類信息, 再將該同類信息有關(guān)的資訊推送給用戶,同類信息選取過程主要依靠人工操作,相對代價 太高,難W維持。
【發(fā)明內(nèi)容】
[0004] 針對上述缺陷,本發(fā)明實施例提供了一種同類信息的搜索方法及裝置,用于自動 化搜索同類信息,速度快、準確性高。
[0005] 本發(fā)明實施例一方面提供了一種同類信息的搜索方法,可包括:
[0006] 接收用戶輸入的信息搜索種子;
[0007] 根據(jù)所述信息搜索種子,在信息庫中查找目標信息表,所述信息庫包括多個信息 表,所述信息表包括特征信息W及多個搜索信息,所述多個搜索信息屬于同類信息;
[000引根據(jù)所述目標信息表的特征信息,對所述目標信息表的搜索信息進行排序并輸出 排序結(jié)果。
[0009] 本發(fā)明實施例另一方面提供了一種同類信息的搜索裝置,可包括:
[0010] 接收單元,用于接收用戶輸入的信息搜索種子;
[0011] 查找單元,用于根據(jù)所述信息搜索種子,在信息庫中查找目標信息表,所述信息庫 包括多個信息表,所述信息表包括特征信息W及多個搜索信息,所述多個搜索信息屬于同 類信息;
[0012] 輸出單元,用于根據(jù)所述目標信息表的特征信息,對所述目標信息表的搜索信息 進行排序并輸出排序結(jié)果。
[0013] 從W上技術(shù)方案可W看出,本發(fā)明實施例提供的同類信息的搜索方法具有W下優(yōu) 點:首先,根據(jù)用戶輸入的信息搜索種子,該信息搜索種子可W是一個或者多個,若是輸入 多個信息搜索種子,那么該多個信息搜索種子屬于同類信息,然后根據(jù)信息搜索種子,在信 息庫中查找目標信息表,然后根據(jù)目標信息表的特征信息,對搜索信息進行排序,最后輸出 排序結(jié)果,實現(xiàn)自動化搜索,搜索速度快,準確性高。
【附圖說明】
[0014] 為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對本發(fā)明實施例中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根據(jù)該些附圖獲得其他 的附圖。
[0015] 圖1為本發(fā)明實施例提供的同類信息的搜索方法的流程示意圖;
[0016]圖2a為本發(fā)明另一實施例提供的同類信息的搜索方法的流程示意圖;
[0017] 圖化為本發(fā)明實施例提供的排序結(jié)果的示意圖;
[0018]圖3為本發(fā)明實施例提供的同類信息的搜索裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0019] 本發(fā)明實施例提供了一種同類信息的搜索方法,用于搜索同類信息,搜索速度快、 準確性高,本發(fā)明實施例還提供了一種同類信息的搜索方法對應(yīng)的裝置。
[0020] 下面將結(jié)合本發(fā)明實施例的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整 地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒?發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實 施例,都屬于本發(fā)明保護的范圍。
[0021] 本發(fā)明實施例可W用于運營商進行閱讀類業(yè)務(wù)推送,也可W用于用戶興趣搜索 等,在此不作限定。同類信息的搜索裝置具體可W是一個搜索引擎,在同類信息的搜索裝置 的顯示界面上設(shè)置有搜索輸入欄,用于用戶輸入信息搜索種子進行同類信息搜索。該同類 信息為相同領(lǐng)域中具有相同屬性的信息,可W是人名、機構(gòu)名、產(chǎn)品名等,例如,在娛樂領(lǐng)域 中的明星名字,像王力宏、蔡依林、張惠妹等,在娛樂領(lǐng)域中具有明星名字該一相同屬性。
[0022] 在同類信息的搜索裝置中還分配有信息庫,用于存儲信息表,該信息表中包括特 征信息和多個搜索信息。其中,在信息庫中每一個信息表W索引值存儲,即每一個信息表對 應(yīng)一個索引值,信息表中的搜索信息與該索引值屬于同類信息。
[0023] 優(yōu)選地,上述特征信息可W包括權(quán)重信息和綜合值,其中,權(quán)重信息可W包括同類 信息權(quán)重、百科信息、標題比例和主題分布率中的至少一種,而綜合值通過權(quán)重信息得到。
[0024] 舉例來說,若權(quán)重信息中只包括同類信息權(quán)重,那么綜合值也就是該同類信息權(quán) 重;若權(quán)重信息中包括同類信息權(quán)重和百科信息,那么綜合值等于同類信息權(quán)重與百科信 息的乘積??蒞理解,若權(quán)重信息中只有一種信息,那么該種信息也作為綜合值,若權(quán)重信 息中包括2種W上信息,那么綜合值是2種W上信息的乘積。
[0025] 其中,由于資訊在不斷更新變化,為了保證搜索信息和特征信息是最新數(shù)據(jù),在預(yù) 設(shè)周期內(nèi),需要對搜索信息和特征信息進行更新,可W將預(yù)設(shè)周期設(shè)為一個星期、半個月或 1個月。
[0026] 具體地,搜索信息的更新主要是通過word2vec(wordtovector)工具分別對上 述所有信息表的索引值進行處理,得到與信息表相同數(shù)量的處理結(jié)果,即一個索引值對應(yīng) 一個處理結(jié)果,每一個處理結(jié)果包括相關(guān)信息和相關(guān)度,該相關(guān)信息包括第一搜索信息和/ 或第二搜索信息,該第一搜索信息與索引值屬于同類信息,該第二搜索信息與索引值屬于 非同類信息,上述相關(guān)度表示相關(guān)信息與索引值的相關(guān)性。將處理結(jié)果中的第二搜索信息 刪除后或者直接使用處理結(jié)果中的第一搜索信息更新相應(yīng)的搜索信息表中的搜索信息。
[0027] 在特征信息的權(quán)重信息包括有同類信息權(quán)重時,在更新搜索信息后,利用上述處 理結(jié)果中的相關(guān)度更新該權(quán)重信息中的同類信息權(quán)重,即相關(guān)度作為上述同類信息權(quán)重, 同時,也要結(jié)合權(quán)重信息中其它信息是否被更新,然后更新綜合值。
[0028] 可W理解的是,若上述任意兩個或多個處理結(jié)果中具有重復(fù)的第一搜索信息,那 么對該重復(fù)的第一搜索信息的所有相關(guān)度求和得到新的相關(guān)度,并用新的相關(guān)表替換處理 結(jié)果中原來的相關(guān)度。
[0029] 舉例來說,有3個信息表,分別W王力宏、蔡依林和張惠妹作為索引值,那么在預(yù) 設(shè)周期內(nèi),分別利用word2vec工具對王力宏、蔡依林和張惠妹H個索引值進行處理,分別 得到第一處理結(jié)果、第二處理結(jié)果和第H處理結(jié)果,其中,第一處理結(jié)果和第二處理結(jié)果 中均包括庚澄慶該一搜索信息,且其相關(guān)度分別為0. 760032和0. 823202,先對0. 760032 與0. 823202求和,其和為1. 583234,之后將第一處理結(jié)果中庚澄慶對應(yīng)的相關(guān)度修改為 1. 583234,同樣地,將第二處理結(jié)果中庚澄慶對應(yīng)的相關(guān)度修改為1. 583234。然后用修改后 的處理結(jié)果中的第一搜索信息和相關(guān)度更新信息表。
[0030] 其中,word2vec工具是google公司開源的一種詞向量的搜索方法,其具體工作過 程為現(xiàn)有技術(shù),在此不進行詳細介紹。如下表1是word2vec工具對王力宏進行搜索處理后 輸出的結(jié)果:
[0031]表1
[0032]
劉若英~|〇. 757014
[0033] 若上述權(quán)重信息包括百科信息,那么在更新信息表中的搜索信息后,將獲取百科 信息更新特征信息中的權(quán)重信息的百