亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于用戶(hù)搜索日志的興趣實(shí)體獲得方法及裝置與流程

文檔序號(hào):12541553閱讀:203來(lái)源:國(guó)知局
基于用戶(hù)搜索日志的興趣實(shí)體獲得方法及裝置與流程
基于用戶(hù)搜索日志的興趣實(shí)體獲得方法及裝置【技術(shù)領(lǐng)域】本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),尤其涉及一種基于用戶(hù)搜索日志的興趣實(shí)體獲得方法及裝置。

背景技術(shù):
隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,用戶(hù)對(duì)獲取信息的準(zhǔn)確性要求越來(lái)越高。為了滿足用戶(hù)的需求,大量?jī)?nèi)容推薦技術(shù)被應(yīng)用于互聯(lián)網(wǎng)領(lǐng)域。在進(jìn)行內(nèi)容推薦前,首先可以根據(jù)用戶(hù)搜索的歷史信息獲取用戶(hù)關(guān)注或者感興趣的實(shí)體即興趣實(shí)體,然后利用這些興趣實(shí)體,向用戶(hù)推薦相應(yīng)或類(lèi)似的信息和服務(wù)?,F(xiàn)有技術(shù)中,通過(guò)在指定用戶(hù)的用戶(hù)搜索日志所劃分的會(huì)話(Session)段中,直接匹配完整的興趣實(shí)體的名稱(chēng)。其中,Session段是一個(gè)邏輯意義,它代表一個(gè)用戶(hù)在某段時(shí)間內(nèi)的一個(gè)行為意圖,從用戶(hù)的瀏覽行為來(lái)看,Session段具體可以規(guī)約成在語(yǔ)義上具有相同關(guān)聯(lián)的連續(xù)搜索行為。然而,在一些情況下,例如,Session段中所包含的詞(term)的順序與興趣實(shí)體中所包含的term的順序不一致,等情況,使得直接匹配完整的興趣實(shí)體的名稱(chēng)無(wú)法獲得對(duì)應(yīng)的興趣實(shí)體,從而導(dǎo)致了興趣實(shí)體的召回率的降低。

技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的多個(gè)方面提供一種基于用戶(hù)搜索日志的興趣實(shí)體獲得方法及裝置,用以提高興趣實(shí)體的召回率。本發(fā)明的一方面,提供一種基于用戶(hù)搜索日志的興趣實(shí)體獲得方法,包括:獲得待匹配的Session段,所述Session段中包括客戶(hù)端的至少一個(gè)用戶(hù)搜索日志;對(duì)每個(gè)所述用戶(hù)搜索日志的query和title進(jìn)行切詞處理,以獲得每個(gè)所述用戶(hù)搜索日志的多個(gè)第一term;根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),匹配出與每個(gè)所述用戶(hù)搜索日志的所述多個(gè)第一term相關(guān)的候選實(shí)體;利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體,包括:根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),建立實(shí)體的倒排索引;根據(jù)所述倒排索引,獲得與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的實(shí)體;根據(jù)所述實(shí)體的term重要性權(quán)值覆蓋率,對(duì)所述實(shí)體進(jìn)行排序;選擇所述term重要性權(quán)值覆蓋率最高的指定數(shù)量的所述實(shí)體,以作為所述候選實(shí)體。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體,包括下列中的至少一項(xiàng):利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),作為輸入,運(yùn)行GBDT模型,以獲得每個(gè)所述候選實(shí)體的預(yù)測(cè)label;若所述候選實(shí)體的預(yù)測(cè)label大于或等于預(yù)先設(shè)置的label閾值,保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的預(yù)測(cè)label小于預(yù)先設(shè)置的label閾值,過(guò)濾掉所述候選實(shí)體;根據(jù)所述候選實(shí)體的預(yù)測(cè)label、所述候選實(shí)體的名稱(chēng)長(zhǎng)度、所述候選實(shí)體完整匹配的次數(shù)、所述候選實(shí)體的預(yù)設(shè)屬性是否匹配到所述Session段、以及所述候選實(shí)體的所有屬性匹配到所述Session段中的個(gè)數(shù)中的至少一項(xiàng),獲得所述候選實(shí)體的排序分?jǐn)?shù);若所述候選實(shí)體的排序分?jǐn)?shù)小于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,且小于預(yù)先設(shè)置的第二分?jǐn)?shù)閾值,若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于所述預(yù)測(cè)label,保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的排序分?jǐn)?shù)小于所述預(yù)測(cè)label,過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第二閾值分?jǐn)?shù),保留所述候選實(shí)體,以作為所述興趣實(shí)體;其中,所述第二分?jǐn)?shù)閾值大于所述第一分?jǐn)?shù)閾值;以及根據(jù)所述候選實(shí)體的名稱(chēng),確定存在名稱(chēng)包含關(guān)系的候選實(shí)體,保留包含其他候選實(shí)體的名稱(chēng)的候選實(shí)體,以作為興趣實(shí)體。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述Session段的特征包括下列中的至少一個(gè):所述Session段所包含的所有第一term的長(zhǎng)度之和。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述候選實(shí)體的特征包括下列中的至少一個(gè):所述候選實(shí)體的名稱(chēng)長(zhǎng)度之和;所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的term重要性權(quán)值之和;以及所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的IDF權(quán)值之和;其中,所述第二term為對(duì)所述候選實(shí)體的名稱(chēng)進(jìn)行切詞處理獲得。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征包括下列中的至少一個(gè):所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的長(zhǎng)度之和;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的長(zhǎng)度之和與所述候選實(shí)體的名稱(chēng)長(zhǎng)度之和的比值;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的term重要性權(quán)值之和;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的term重要性權(quán)值之和與所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的term重要性權(quán)值之和的比值;所述Session段所包含的所有第一term中出現(xiàn)的所述候選實(shí)體的名稱(chēng)中所包含的第二term的最大term重要性權(quán)值;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的IDF權(quán)值之和;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的IDF權(quán)值之和與所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的IDF權(quán)值之和的比值;所述Session段所包含的所有第一term中出現(xiàn)的所述候選實(shí)體的名稱(chēng)中所包含的第二term的最大IDF權(quán)值;以及所述Session段所包含的所有第一term中完整匹配所述候選實(shí)體的名稱(chēng)的次數(shù);其中,所述第二term為對(duì)所述候選實(shí)體的名稱(chēng)進(jìn)行切詞處理獲得。本發(fā)明的另一方面,提供一種基于用戶(hù)搜索日志的興趣實(shí)體獲得裝置,包括:獲得單元,用于獲得待匹配的Session段,所述Session段中包括客戶(hù)端的至少一個(gè)用戶(hù)搜索日志;切詞單元,用于對(duì)每個(gè)所述用戶(hù)搜索日志的query和title進(jìn)行切詞處理,以獲得每個(gè)所述用戶(hù)搜索日志的多個(gè)第一term;匹配單元,用于根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),匹配出與每個(gè)所述用戶(hù)搜索日志的所述多個(gè)第一term相關(guān)的候選實(shí)體;過(guò)濾單元,用于利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述匹配單元,具體用于根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),建立實(shí)體的倒排索引;根據(jù)所述倒排索引,獲得與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的實(shí)體;根據(jù)所述實(shí)體的term重要性權(quán)值覆蓋率,對(duì)所述實(shí)體進(jìn)行排序;選擇所述term重要性權(quán)值覆蓋率最高的指定數(shù)量的所述實(shí)體,以作為所述候選實(shí)體。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述過(guò)濾單元,具體用于執(zhí)行下列中的至少一項(xiàng):利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),作為輸入,運(yùn)行GBDT模型,以獲得每個(gè)所述候選實(shí)體的預(yù)測(cè)label;若所述候選實(shí)體的預(yù)測(cè)label大于或等于預(yù)先設(shè)置的label閾值,保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的預(yù)測(cè)label小于預(yù)先設(shè)置的label閾值,過(guò)濾掉所述候選實(shí)體;根據(jù)所述候選實(shí)體的預(yù)測(cè)label、所述候選實(shí)體的名稱(chēng)長(zhǎng)度、所述候選實(shí)體完整匹配的次數(shù)、所述候選實(shí)體的預(yù)設(shè)屬性是否匹配到所述Session段、以及所述候選實(shí)體的所有屬性匹配到所述Session段中的個(gè)數(shù)中的至少一項(xiàng),獲得所述候選實(shí)體的排序分?jǐn)?shù);若所述候選實(shí)體的排序分?jǐn)?shù)小于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,且小于預(yù)先設(shè)置的第二分?jǐn)?shù)閾值,若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于所述預(yù)測(cè)label,保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的排序分?jǐn)?shù)小于所述預(yù)測(cè)label,過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第二閾值分?jǐn)?shù),保留所述候選實(shí)體,以作為所述興趣實(shí)體;其中,所述第二分?jǐn)?shù)閾值大于所述第一分?jǐn)?shù)閾值;以及根據(jù)所述候選實(shí)體的名稱(chēng),確定存在名稱(chēng)包含關(guān)系的候選實(shí)體,保留包含其他候選實(shí)體的名稱(chēng)的候選實(shí)體,以作為興趣實(shí)體。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述Session段的特征包括下列中的至少一個(gè):所述Session段所包含的所有第一term的長(zhǎng)度之和。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述候選實(shí)體的特征包括下列中的至少一個(gè):所述候選實(shí)體的名稱(chēng)長(zhǎng)度之和;所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的term重要性權(quán)值之和;以及所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的IDF權(quán)值之和;其中,所述第二term為對(duì)所述候選實(shí)體的名稱(chēng)進(jìn)行切詞處理獲得。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征包括下列中的至少一個(gè):所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的長(zhǎng)度之和;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的長(zhǎng)度之和與所述候選實(shí)體的名稱(chēng)長(zhǎng)度之和的比值;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的term重要性權(quán)值之和;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的term重要性權(quán)值之和與所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的term重要性權(quán)值之和的比值;所述Session段所包含的所有第一term中出現(xiàn)的所述候選實(shí)體的名稱(chēng)中所包含的第二term的最大term重要性權(quán)值;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的IDF權(quán)值之和;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的IDF權(quán)值之和與所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的IDF權(quán)值之和的比值;所述Session段所包含的所有第一term中出現(xiàn)的所述候選實(shí)體的名稱(chēng)中所包含的第二term的最大IDF權(quán)值;以及所述Session段所包含的所有第一term中完整匹配所述候選實(shí)體的名稱(chēng)的次數(shù);其中,所述第二term為對(duì)所述候選實(shí)體的名稱(chēng)進(jìn)行切詞處理獲得。由上述技術(shù)方案可知,本發(fā)明實(shí)施例通過(guò)對(duì)待匹配的Session段中所包括的每個(gè)所述用戶(hù)搜索日志的query和title進(jìn)行切詞處理,以獲得每個(gè)所述用戶(hù)搜索日志的第一term,進(jìn)而根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體,使得能夠利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體,由于采用相關(guān)匹配方法即匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體,而不再采用完整匹配方法即直接匹配出完整的興趣實(shí)體的名稱(chēng),從而提高了興趣實(shí)體的召回率?!靖綀D說(shuō)明】為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明一實(shí)施例提供的基于用戶(hù)搜索日志的興趣實(shí)體獲得方法的流程示意圖;圖2為本發(fā)明另一實(shí)施例提供的基于用戶(hù)搜索日志的興趣實(shí)體獲得裝置的結(jié)構(gòu)示意圖?!揪唧w實(shí)施方式】為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。需要說(shuō)明的是,本發(fā)明實(shí)施例中所涉及的終端可以包括但不限于手機(jī)、個(gè)人數(shù)字助理(PersonalDigitalAssistant,PDA)、無(wú)線手持裝置、無(wú)線上網(wǎng)本、個(gè)人電腦、便攜電腦、MP3播放器、MP4播放器等。另外,本文中術(shù)語(yǔ)“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:?jiǎn)为?dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。圖1為本發(fā)明一實(shí)施例提供的基于用戶(hù)搜索日志的興趣實(shí)體獲得方法的流程示意圖,如圖1所示。101、獲得待匹配的Session段,所述Session段中包括客戶(hù)端的至少一個(gè)用戶(hù)搜索日志。102、對(duì)每個(gè)所述用戶(hù)搜索日志的檢索關(guān)鍵詞(query)和用戶(hù)點(diǎn)擊的網(wǎng)頁(yè)標(biāo)題(title)進(jìn)行切詞處理,以獲得每個(gè)所述用戶(hù)搜索日志的第一term。103、根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體。104、利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體。所謂興趣實(shí)體,即一個(gè)抽象概念的實(shí)例化,由名稱(chēng)(以及別名)和描述該實(shí)體的屬性標(biāo)簽(Tag)組成。例如,一個(gè)明星實(shí)體的名稱(chēng)可以是“周杰倫”,一個(gè)電影實(shí)體的名稱(chēng)可以是《泰坦尼克號(hào)》,一個(gè)手機(jī)實(shí)體的名稱(chēng)可以是“蘋(píng)果iPhone4s”;再例如,對(duì)于《泰坦尼克號(hào)》這個(gè)電影實(shí)體,可以有“電影”、“美國(guó)”、“愛(ài)情”、“災(zāi)難”、“1997”這樣的Tag。需要說(shuō)明的是,101~104的執(zhí)行主體可以是服務(wù)引擎,例如,搜索引擎或推薦引擎等,可以位于本地的客戶(hù)端中,以進(jìn)行離線服務(wù),或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,以進(jìn)行在線服務(wù),本實(shí)施例對(duì)此不進(jìn)行限定??梢岳斫獾氖?,所述客戶(hù)端可以是安裝在終端上的應(yīng)用程序,或者還可以是瀏覽器的一個(gè)網(wǎng)頁(yè),只要能夠?qū)崿F(xiàn)興趣實(shí)體的獲得,以提供相應(yīng)服務(wù)的客觀存在形式都可以,本實(shí)施例對(duì)此不進(jìn)行限定。這樣,通過(guò)對(duì)待匹配的Session段中所包括的每個(gè)所述用戶(hù)搜索日志的query和title進(jìn)行切詞處理,以獲得每個(gè)所述用戶(hù)搜索日志的第一term,進(jìn)而根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體,使得能夠利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體,由于采用相關(guān)匹配方法即匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體,而不再采用完整匹配方法即直接匹配出完整的興趣實(shí)體的名稱(chēng),能夠有效擴(kuò)大興趣實(shí)體的召回,從而提高了興趣實(shí)體的召回率。另外,采用本發(fā)明提供的技術(shù)方案,由于利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體,可以避免現(xiàn)有技術(shù)中由于采用完整匹配方法即直接匹配出完整的興趣實(shí)體的名稱(chēng)而導(dǎo)致的匹配出錯(cuò)誤的興趣實(shí)體的問(wèn)題,例如,根據(jù)“高清手機(jī)電影下載”,直接匹配出《手機(jī)》這部電影,能夠有效提高興趣實(shí)體獲得的準(zhǔn)確率,從而提高了興趣實(shí)體獲得的可靠性。可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在103中,具體可以根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),建立實(shí)體的倒排索引。進(jìn)而,根據(jù)所述倒排索引,獲得與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的實(shí)體。然后,根據(jù)所述實(shí)體的term重要性權(quán)值覆蓋率,對(duì)所述實(shí)體進(jìn)行排序,以及選擇所述term重要性權(quán)值覆蓋率最高的指定數(shù)量的所述實(shí)體,例如,最高的50個(gè),以作為所述候選實(shí)體。其中,所述實(shí)體的term重要性權(quán)值覆蓋率可以為所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的term重要性權(quán)值之和與所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的term重要性權(quán)值之和的比值。需要說(shuō)明的是,根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),建立實(shí)體的倒排索引,這一操作,可以在102之后執(zhí)行,或者還可以進(jìn)一步前移到服務(wù)引擎初始化的流程中即在101之前執(zhí)行,本實(shí)施例對(duì)此不進(jìn)行特別的限定。具體地,具體可以對(duì)實(shí)體庫(kù)中所包括的全部實(shí)體的名稱(chēng)進(jìn)行切詞處理(包括停用詞處理),以獲得每個(gè)實(shí)體的第二term;然后,根據(jù)每個(gè)實(shí)體的第二term,建立實(shí)體的倒排索引,即第二term→實(shí)體的倒排索引。可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在104中,具體可以執(zhí)行下列三項(xiàng)操作中的至少一項(xiàng)操作:操作一、利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),作為輸入,運(yùn)行梯度提升決策樹(shù)(GradientBoostDecisionTree,GBDT)模型,以獲得每個(gè)所述候選實(shí)體的預(yù)測(cè)標(biāo)簽(label);若所述候選實(shí)體的預(yù)測(cè)label大于或等于預(yù)先設(shè)置的label閾值,保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的預(yù)測(cè)label小于預(yù)先設(shè)置的label閾值,過(guò)濾掉所述候選實(shí)體。具體地,所述Session段的特征可以包括但不限于下列中的至少一個(gè):所述Session段所包含的所有第一term的長(zhǎng)度之和。具體地,所述候選實(shí)體的特征可以包括但不限于下列中的至少一個(gè):所述候選實(shí)體的名稱(chēng)長(zhǎng)度之和;所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的term重要性權(quán)值之和,即term重要性權(quán)值和;以及所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的IDF權(quán)值之和,即IDF權(quán)值和;其中,所述第二term為對(duì)所述候選實(shí)體的名稱(chēng)進(jìn)行切詞處理獲得。具體地,所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征可以包括但不限于下列中的至少一個(gè):所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的長(zhǎng)度之和,即長(zhǎng)度覆蓋;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的長(zhǎng)度之和與所述候選實(shí)體的名稱(chēng)長(zhǎng)度之和的比值,即長(zhǎng)度覆蓋率;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的term重要性權(quán)值之和,即term重要性權(quán)值覆蓋;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的term重要性權(quán)值之和與所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的term重要性權(quán)值之和的比值,即term重要性權(quán)值覆蓋率;所述Session段所包含的所有第一term中出現(xiàn)的所述候選實(shí)體的名稱(chēng)中所包含的第二term的最大term重要性權(quán)值,即最大term重要性權(quán)值;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的逆文檔頻率(InverseDocumentFrequency,IDF)權(quán)值之和,即IDF權(quán)值覆蓋;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的IDF權(quán)值之和與所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的IDF權(quán)值之和的比值,即IDF權(quán)值覆蓋率;所述Session段所包含的所有第一term中出現(xiàn)的所述候選實(shí)體的名稱(chēng)中所包含的第二term的最大IDF權(quán)值,即最大IDF權(quán)值;以及所述Session段所包含的所有第一term中完整匹配所述候選實(shí)體的名稱(chēng)的次數(shù);其中,所述第二term為對(duì)所述候選實(shí)體的名稱(chēng)進(jìn)行切詞處理獲得。操作二、根據(jù)所述候選實(shí)體的預(yù)測(cè)label、所述候選實(shí)體的名稱(chēng)長(zhǎng)度、所述候選實(shí)體完整匹配的次數(shù)、所述候選實(shí)體的預(yù)設(shè)屬性是否匹配到所述Session段、以及所述候選實(shí)體的所有屬性匹配到所述Session段中的個(gè)數(shù)中的至少一項(xiàng),獲得所述候選實(shí)體的排序分?jǐn)?shù);若所述候選實(shí)體的排序分?jǐn)?shù)小于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,且小于預(yù)先設(shè)置的第二分?jǐn)?shù)閾值,若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于所述預(yù)測(cè)label,保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的排序分?jǐn)?shù)小于所述預(yù)測(cè)label,過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第二閾值分?jǐn)?shù),保留所述候選實(shí)體,以作為所述興趣實(shí)體;其中,所述第二分?jǐn)?shù)閾值大于所述第一分?jǐn)?shù)閾值。操作三、根據(jù)所述候選實(shí)體的名稱(chēng),確定存在名稱(chēng)包含關(guān)系的候選實(shí)體,保留包含其他候選實(shí)體的名稱(chēng)的候選實(shí)體,以作為興趣實(shí)體。也就說(shuō)是說(shuō),過(guò)濾掉候選實(shí)體的名稱(chēng)被其他候選實(shí)體的名稱(chēng)包含的候選實(shí)體??梢岳斫獾氖牵鰐erm重要性權(quán)值,用于衡量第二term在候選實(shí)體的名稱(chēng)中的重要程度,詳細(xì)描述可以參見(jiàn)現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述;所述IDF權(quán)值,用于衡量第二term在文檔中的重要程度,即每個(gè)候選實(shí)體的名稱(chēng)當(dāng)作一個(gè)文檔,詳細(xì)描述可以參見(jiàn)現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述。這樣,通過(guò)采用本實(shí)施例提供的技術(shù)方案,能夠有效擴(kuò)大興趣實(shí)體的召回,從而提高了興趣實(shí)體的召回率。為使得本發(fā)明實(shí)施例提供的方法更加清楚,下面將以表1所示的一個(gè)Session段和表2所示的實(shí)體庫(kù)作為舉例。表1Session段QueryTitle美食祈禱和戀愛(ài)美食祈禱和戀愛(ài)美食祈禱和戀愛(ài)的相關(guān)電影在線觀看表2實(shí)體庫(kù)如表1所示,在這個(gè)Session段中,包含了一個(gè)電影實(shí)體《美食祈禱和戀愛(ài)》。采用現(xiàn)有技術(shù)中提供的技術(shù)方案即直接匹配完整的興趣實(shí)體的名稱(chēng),則無(wú)法準(zhǔn)確地獲得電影實(shí)體《美食、祈禱和戀愛(ài)》,使得正確的興趣實(shí)體無(wú)法被召回,卻能夠錯(cuò)誤地獲得電影實(shí)體《戀愛(ài)》、電影實(shí)體《祈禱》和電視劇實(shí)體《祈禱和戀愛(ài)》,使得錯(cuò)誤的興趣實(shí)體被召回。采用本發(fā)明提供的技術(shù)方案,可以執(zhí)行如下操作:步驟一、初始化處理。具體地,具體可以根據(jù)表2所示的實(shí)體庫(kù),建立每個(gè)實(shí)體的倒排索引。即對(duì)實(shí)體庫(kù)中所包括的全部實(shí)體的名稱(chēng)進(jìn)行切詞處理(包括停用詞處理),以獲得每個(gè)實(shí)體的第二term。例如,電影實(shí)體《美食、祈禱和戀愛(ài)》,切詞處理之后的結(jié)果為“美食”、“祈禱”、“戀愛(ài)”;或者,再例如,電影實(shí)體《戀愛(ài)》,切詞處理之后的結(jié)果為“戀愛(ài)”;或者,再例如,電影實(shí)體《祈禱》,切詞處理之后的結(jié)果為“祈禱”;或者,再例如,電影實(shí)體《祈禱和戀愛(ài)》,切詞處理之后的結(jié)果為“祈禱”、“和”、“戀愛(ài)”;或者,再例如,電影實(shí)體《正在戀愛(ài)中》,切詞處理之后的結(jié)果為“正在”、“戀愛(ài)”、“中”。然后,根據(jù)每個(gè)實(shí)體的第二term,建立實(shí)體的倒排索引,即第二term→實(shí)體的倒排索引,如表3所示。表3倒排索引步驟二、對(duì)Session段中所包括的用戶(hù)搜索日志的query和title進(jìn)行切詞處理(包括停用詞處理),以獲得每個(gè)所述用戶(hù)搜索日志的第一term。例如,切詞處理之后的結(jié)果為“美食”、“祈禱”、“和”、“戀愛(ài)”、“美食”、“祈禱”、“和”、“戀愛(ài)”、“相關(guān)”、“電影”、“在線”、“觀看”。步驟三、根據(jù)實(shí)體庫(kù)中所包括的每個(gè)實(shí)體的倒排索引,匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的實(shí)體;根據(jù)所述實(shí)體的term重要性權(quán)值覆蓋率,對(duì)所述實(shí)體進(jìn)行排序,如表4所示,以及選擇所述term重要性權(quán)值覆蓋率最高的指定數(shù)量的所述實(shí)體,例如,最高的n個(gè),以作為所述候選實(shí)體。具體地,假設(shè)第二term的term重要性權(quán)值覆蓋率分別如下:“祈禱”:0.35;“戀愛(ài)”:0.21;“美食”:0.38;“和”:0.11;“正在”:0.16;“中”:0.13;“、”:0.01。表4實(shí)體與term重要性權(quán)值覆蓋率的對(duì)應(yīng)關(guān)系實(shí)體的名稱(chēng)term重要性權(quán)值覆蓋率祈禱和戀愛(ài)(0.35+0.11+0.21)/(0.35+0.11+0.21)=1.0祈禱0.35/0.35=1.0戀愛(ài)0.21/0.21=1.0美食、祈禱和戀愛(ài)(0.38+0.35+0.11+0.21)/(0.38+0.01+0.35+0.11+0.21)=0.99正在戀愛(ài)中0.21/(0.16+0.21+0.13)=0.42例如,可以選擇term重要性權(quán)值覆蓋率最高的5個(gè)所述實(shí)體,以作為所述候選實(shí)體,即電影實(shí)體《祈禱和戀愛(ài)》、電影實(shí)體《祈禱》、電影實(shí)體《戀愛(ài)》:、電影實(shí)體《美食、祈禱和戀愛(ài)》、電視劇實(shí)體《正在戀愛(ài)中》。步驟四、提取候選實(shí)體的特征,即Session段的特征、候選實(shí)體的特征、以及Session段與候選實(shí)體的關(guān)聯(lián)特征,作為輸入,運(yùn)行GBDT模型,以獲得每個(gè)所述候選實(shí)體的預(yù)測(cè)label,如表5所示。表5候選實(shí)體與預(yù)測(cè)label的對(duì)應(yīng)關(guān)系實(shí)體的名稱(chēng)預(yù)測(cè)label是否過(guò)濾掉祈禱和戀愛(ài)0.86否祈禱0.24是戀愛(ài)0.21是美食、祈禱和戀愛(ài)0.92否正在戀愛(ài)中0.02是若所述候選實(shí)體的預(yù)測(cè)label大于或等于預(yù)先設(shè)置的label閾值,例如0.4,保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的預(yù)測(cè)label小于預(yù)先設(shè)置的label閾值,例如0.4,過(guò)濾掉所述候選實(shí)體。步驟五、根據(jù)所述候選實(shí)體的預(yù)測(cè)label、所述候選實(shí)體的名稱(chēng)長(zhǎng)度、所述候選實(shí)體完整匹配的次數(shù)、所述候選實(shí)體的預(yù)設(shè)屬性是否匹配到所述Session段、以及所述候選實(shí)體的所有屬性匹配到所述Session段中的個(gè)數(shù),獲得所述候選實(shí)體的排序分?jǐn)?shù),如表6所示。表6候選實(shí)體與排序分?jǐn)?shù)的對(duì)應(yīng)關(guān)系實(shí)體的名稱(chēng)排序分?jǐn)?shù)是否過(guò)濾掉祈禱和戀愛(ài)0.85是美食、祈禱和戀愛(ài)1.03否若所述候選實(shí)體的排序分?jǐn)?shù)小于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,例如,0.5,過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,且小于預(yù)先設(shè)置的第二分?jǐn)?shù)閾值,例如,0.8,若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于所述預(yù)測(cè)label,保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的排序分?jǐn)?shù)小于所述預(yù)測(cè)label,過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第二閾值分?jǐn)?shù),保留所述候選實(shí)體,以作為所述興趣實(shí)體;其中,所述第二分?jǐn)?shù)閾值大于所述第一分?jǐn)?shù)閾值。這樣,就可以獲得一個(gè)候選實(shí)體即電影實(shí)體《美食、祈禱和戀愛(ài)》,以作為興趣實(shí)體。如果此時(shí)獲得候選實(shí)體為兩個(gè),即電影實(shí)體《美食、祈禱和戀愛(ài)》和電影實(shí)體《祈禱和戀愛(ài)》,那么由于《祈禱和戀愛(ài)》被完整包含在《美食、祈禱和戀愛(ài)》中,因此,電影實(shí)體《祈禱和戀愛(ài)》也同樣是要被過(guò)濾掉的。本實(shí)施例中,通過(guò)對(duì)待匹配的Session段中所包括的每個(gè)所述用戶(hù)搜索日志的query和title進(jìn)行切詞處理,以獲得每個(gè)所述用戶(hù)搜索日志的第一term,進(jìn)而根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體,使得能夠利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體,由于采用相關(guān)匹配方法即匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體,而不再采用完整匹配方法即直接匹配出完整的興趣實(shí)體的名稱(chēng),能夠有效擴(kuò)大興趣實(shí)體的召回,從而提高了興趣實(shí)體的召回率。另外,采用本發(fā)明提供的技術(shù)方案,由于利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體,可以避免現(xiàn)有技術(shù)中由于采用完整匹配方法即直接匹配出完整的興趣實(shí)體的名稱(chēng)而導(dǎo)致的匹配出錯(cuò)誤的興趣實(shí)體的問(wèn)題,例如,根據(jù)“高清手機(jī)電影下載”,直接匹配出《手機(jī)》這部電影,能夠有效提高興趣實(shí)體獲得的準(zhǔn)確率,從而提高了興趣實(shí)體獲得的可靠性。需要說(shuō)明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。圖2為本發(fā)明另一實(shí)施例提供的基于用戶(hù)搜索日志的興趣實(shí)體獲得裝置的結(jié)構(gòu)示意圖,如圖2所示。本實(shí)施例的基于用戶(hù)搜索日志的興趣實(shí)體獲得裝置可以包括獲得單元21、切詞單元22、匹配單元23和過(guò)濾單元24。其中,獲得單元21,用于獲得待匹配的Session段,所述Session段中包括客戶(hù)端的至少一個(gè)用戶(hù)搜索日志;切詞單元22,用于對(duì)每個(gè)所述用戶(hù)搜索日志的query和title進(jìn)行切詞處理,以獲得每個(gè)所述用戶(hù)搜索日志的第一term;匹配單元23,用于根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體;過(guò)濾單元24,用于利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體。所謂興趣實(shí)體,即一個(gè)抽象概念的實(shí)例化,由名稱(chēng)(以及別名)和描述該實(shí)體的屬性標(biāo)簽(Tag)組成。例如,一個(gè)明星實(shí)體的名稱(chēng)可以是“周杰倫”,一個(gè)電影實(shí)體的名稱(chēng)可以是《泰坦尼克號(hào)》,一個(gè)手機(jī)實(shí)體的名稱(chēng)可以是“蘋(píng)果iPhone4s”;再例如,對(duì)于《泰坦尼克號(hào)》這個(gè)電影實(shí)體,可以有“電影”、“美國(guó)”、“愛(ài)情”、“災(zāi)難”、“1997”這樣的Tag。需要說(shuō)明的是,本實(shí)施例提供的裝置可以是服務(wù)引擎,例如,搜索引擎或推薦引擎等,可以位于本地的客戶(hù)端中,以進(jìn)行離線服務(wù),或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,以進(jìn)行在線服務(wù),本實(shí)施例對(duì)此不進(jìn)行限定??梢岳斫獾氖?,所述客戶(hù)端可以是安裝在終端上的應(yīng)用程序,或者還可以是瀏覽器的一個(gè)網(wǎng)頁(yè),只要能夠?qū)崿F(xiàn)興趣實(shí)體的獲得,以提供相應(yīng)服務(wù)的客觀存在形式都可以,本實(shí)施例對(duì)此不進(jìn)行限定。這樣,通過(guò)切詞單元對(duì)獲得單元所獲得的待匹配的Session段中所包括的每個(gè)所述用戶(hù)搜索日志的query和title進(jìn)行切詞處理,以獲得每個(gè)所述用戶(hù)搜索日志的第一term,進(jìn)而由匹配單元根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體,使得過(guò)濾單元能夠利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體,由于采用相關(guān)匹配方法即匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體,而不再采用完整匹配方法即直接匹配出完整的興趣實(shí)體的名稱(chēng),能夠有效擴(kuò)大興趣實(shí)體的召回,從而提高了興趣實(shí)體的召回率。另外,采用本發(fā)明提供的技術(shù)方案,由于利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體,可以避免現(xiàn)有技術(shù)中由于采用完整匹配方法即直接匹配出完整的興趣實(shí)體的名稱(chēng)而導(dǎo)致的匹配出錯(cuò)誤的興趣實(shí)體的問(wèn)題,例如,根據(jù)“高清手機(jī)電影下載”,直接匹配出《手機(jī)》這部電影,能夠有效提高興趣實(shí)體獲得的準(zhǔn)確率,從而提高了興趣實(shí)體獲得的可靠性??蛇x地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述匹配單元23,具體可以用于根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),建立實(shí)體的倒排索引;根據(jù)所述倒排索引,獲得與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的實(shí)體;根據(jù)所述實(shí)體的term重要性權(quán)值覆蓋率,對(duì)所述實(shí)體進(jìn)行排序;以及選擇所述term重要性權(quán)值覆蓋率最高的指定數(shù)量的所述實(shí)體,例如,最高的50個(gè),以作為所述候選實(shí)體。其中,所述實(shí)體的term重要性權(quán)值覆蓋率可以為所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的term重要性權(quán)值之和與所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的term重要性權(quán)值之和的比值。需要說(shuō)明的是,根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),建立實(shí)體的倒排索引,這一操作,可以在切詞單元執(zhí)行對(duì)應(yīng)的操作之后執(zhí)行,或者還可以進(jìn)一步前移到服務(wù)引擎初始化的流程中即在獲得單元執(zhí)行對(duì)應(yīng)的操作之前執(zhí)行,本實(shí)施例對(duì)此不進(jìn)行特別的限定。具體地,具體可以對(duì)實(shí)體庫(kù)中所包括的全部實(shí)體的名稱(chēng)進(jìn)行切詞處理(包括停用詞處理),以獲得每個(gè)實(shí)體的第二term;然后,根據(jù)每個(gè)實(shí)體的第二term,建立實(shí)體的倒排索引,即第二term→實(shí)體的倒排索引??蛇x地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述過(guò)濾單元24,具體可以用于執(zhí)行下列中的至少一項(xiàng):利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),作為輸入,運(yùn)行GBDT模型,以獲得每個(gè)所述候選實(shí)體的預(yù)測(cè)label;若所述候選實(shí)體的預(yù)測(cè)label大于或等于預(yù)先設(shè)置的label閾值,保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的預(yù)測(cè)label小于預(yù)先設(shè)置的label閾值,過(guò)濾掉所述候選實(shí)體;根據(jù)所述候選實(shí)體的預(yù)測(cè)label、所述候選實(shí)體的名稱(chēng)長(zhǎng)度、所述候選實(shí)體完整匹配的次數(shù)、所述候選實(shí)體的預(yù)設(shè)屬性是否匹配到所述Session段、以及所述候選實(shí)體的所有屬性匹配到所述Session段中的個(gè)數(shù)中的至少一項(xiàng),獲得所述候選實(shí)體的排序分?jǐn)?shù);若所述候選實(shí)體的排序分?jǐn)?shù)小于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,且小于預(yù)先設(shè)置的第二分?jǐn)?shù)閾值,若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于所述預(yù)測(cè)label,保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的排序分?jǐn)?shù)小于所述預(yù)測(cè)label,過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第二閾值分?jǐn)?shù),保留所述候選實(shí)體,以作為所述興趣實(shí)體;其中,所述第二分?jǐn)?shù)閾值大于所述第一分?jǐn)?shù)閾值;以及根據(jù)所述候選實(shí)體的名稱(chēng),確定存在名稱(chēng)包含關(guān)系的候選實(shí)體,保留包含其他候選實(shí)體的名稱(chēng)的候選實(shí)體,以作為興趣實(shí)體。具體地,所述Session段的特征可以包括但不限于下列中的至少一個(gè):所述Session段所包含的所有第一term的長(zhǎng)度之和。具體地,所述候選實(shí)體的特征可以包括但不限于下列中的至少一個(gè):所述候選實(shí)體的名稱(chēng)長(zhǎng)度之和;所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的term重要性權(quán)值之和,即term重要性權(quán)值和;以及所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的IDF權(quán)值之和,即IDF權(quán)值和;其中,所述第二term為對(duì)所述候選實(shí)體的名稱(chēng)進(jìn)行切詞處理獲得。具體地,所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征可以包括但不限于下列中的至少一個(gè):所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的長(zhǎng)度之和,即長(zhǎng)度覆蓋;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的長(zhǎng)度之和與所述候選實(shí)體的名稱(chēng)長(zhǎng)度之和的比值,即長(zhǎng)度覆蓋率;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的term重要性權(quán)值之和,即term重要性權(quán)值覆蓋;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的term重要性權(quán)值之和與所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的term重要性權(quán)值之和的比值,即term重要性權(quán)值覆蓋率;所述Session段所包含的所有第一term中出現(xiàn)的所述候選實(shí)體的名稱(chēng)中所包含的第二term的最大term重要性權(quán)值,即最大term重要性權(quán)值;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的逆文檔頻率(InverseDocumentFrequency,IDF)權(quán)值之和,即IDF權(quán)值覆蓋;所述候選實(shí)體的名稱(chēng)在所述Session段所包含的所有第一term中出現(xiàn)的所有第二term的IDF權(quán)值之和與所述候選實(shí)體的名稱(chēng)中所包含的所有第二term的IDF權(quán)值之和的比值,即IDF權(quán)值覆蓋率;所述Session段所包含的所有第一term中出現(xiàn)的所述候選實(shí)體的名稱(chēng)中所包含的第二term的最大IDF權(quán)值,即最大IDF權(quán)值;以及所述Session段所包含的所有第一term中完整匹配所述候選實(shí)體的名稱(chēng)的次數(shù);其中,所述第二term為對(duì)所述候選實(shí)體的名稱(chēng)進(jìn)行切詞處理獲得。可以理解的是,所述term重要性權(quán)值,用于衡量第二term在候選實(shí)體的名稱(chēng)中的重要程度,詳細(xì)描述可以參見(jiàn)現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述;所述IDF權(quán)值,用于衡量第二term在文檔中的重要程度,即每個(gè)候選實(shí)體的名稱(chēng)當(dāng)作一個(gè)文檔,詳細(xì)描述可以參見(jiàn)現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述。這樣,通過(guò)采用本實(shí)施例提供的技術(shù)方案,能夠有效擴(kuò)大興趣實(shí)體的召回,從而提高了興趣實(shí)體的召回率。為使得本發(fā)明實(shí)施例提供的方法更加清楚,下面將以表1所示的一個(gè)Session段和表2所示的實(shí)體庫(kù)作為舉例。表1Session段QueryTitle美食祈禱和戀愛(ài)美食祈禱和戀愛(ài)美食祈禱和戀愛(ài)的相關(guān)電影在線觀看表2實(shí)體庫(kù)如表1所示,在這個(gè)Session段中,包含了一個(gè)電影實(shí)體《美食祈禱和戀愛(ài)》。采用現(xiàn)有技術(shù)中提供的技術(shù)方案即直接匹配完整的興趣實(shí)體的名稱(chēng),則無(wú)法準(zhǔn)確地獲得電影實(shí)體《美食、祈禱和戀愛(ài)》,使得正確的興趣實(shí)體無(wú)法被召回,卻能夠錯(cuò)誤地獲得電影實(shí)體《戀愛(ài)》、電影實(shí)體《祈禱》和電視劇實(shí)體《祈禱和戀愛(ài)》,使得錯(cuò)誤的興趣實(shí)體被召回。采用本發(fā)明提供的技術(shù)方案,可以執(zhí)行如下操作:步驟一、匹配單元進(jìn)行初始化處理。具體地,匹配單元具體可以根據(jù)表2所示的實(shí)體庫(kù),建立每個(gè)實(shí)體的倒排索引。即對(duì)實(shí)體庫(kù)中所包括的全部實(shí)體的名稱(chēng)進(jìn)行切詞處理(包括停用詞處理),以獲得每個(gè)實(shí)體的第二term。例如,電影實(shí)體《美食、祈禱和戀愛(ài)》,切詞處理之后的結(jié)果為“美食”、“祈禱”、“戀愛(ài)”;或者,再例如,電影實(shí)體《戀愛(ài)》,切詞處理之后的結(jié)果為“戀愛(ài)”;或者,再例如,電影實(shí)體《祈禱》,切詞處理之后的結(jié)果為“祈禱”;或者,再例如,電影實(shí)體《祈禱和戀愛(ài)》,切詞處理之后的結(jié)果為“祈禱”、“和”、“戀愛(ài)”;或者,再例如,電影實(shí)體《正在戀愛(ài)中》,切詞處理之后的結(jié)果為“正在”、“戀愛(ài)”、“中”。然后,匹配單元根據(jù)每個(gè)實(shí)體的第二term,建立實(shí)體的倒排索引,即第二term→實(shí)體的倒排索引,如表3所示。表3倒排索引步驟二、切詞單元對(duì)Session段中所包括的用戶(hù)搜索日志的query和title進(jìn)行切詞處理(包括停用詞處理),以獲得每個(gè)所述用戶(hù)搜索日志的第一term。例如,切詞處理之后的結(jié)果為“美食”、“祈禱”、“和”、“戀愛(ài)”、“美食”、“祈禱”、“和”、“戀愛(ài)”、“相關(guān)”、“電影”、“在線”、“觀看”。步驟三、匹配單元根據(jù)實(shí)體庫(kù)中所包括的每個(gè)實(shí)體的倒排索引,匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的實(shí)體;根據(jù)所述實(shí)體的term重要性權(quán)值覆蓋率,對(duì)所述實(shí)體進(jìn)行排序,如表4所示,以及選擇所述term重要性權(quán)值覆蓋率最高的指定數(shù)量的所述實(shí)體,例如,最高的n個(gè),以作為所述候選實(shí)體。具體地,假設(shè)第二term的term重要性權(quán)值覆蓋率分別如下:“祈禱”:0.35;“戀愛(ài)”:0.21;“美食”:0.38;“和”:0.11;“正在”:0.16;“中”:0.13;“、”:0.01。表4實(shí)體與term重要性權(quán)值覆蓋率的對(duì)應(yīng)關(guān)系例如,匹配單元可以選擇term重要性權(quán)值覆蓋率最高的5個(gè)所述實(shí)體,以作為所述候選實(shí)體,即電影實(shí)體《祈禱和戀愛(ài)》、電影實(shí)體《祈禱》、電影實(shí)體《戀愛(ài)》:、電影實(shí)體《美食、祈禱和戀愛(ài)》、電視劇實(shí)體《正在戀愛(ài)中》。步驟四、過(guò)濾單元提取候選實(shí)體的特征,即Session段的特征、候選實(shí)體的特征、以及Session段與候選實(shí)體的關(guān)聯(lián)特征,作為輸入,運(yùn)行GBDT模型,以獲得每個(gè)所述候選實(shí)體的預(yù)測(cè)label,如表5所示。表5候選實(shí)體與預(yù)測(cè)label的對(duì)應(yīng)關(guān)系實(shí)體的名稱(chēng)預(yù)測(cè)label是否過(guò)濾掉祈禱和戀愛(ài)0.86否祈禱0.24是戀愛(ài)0.21是美食、祈禱和戀愛(ài)0.92否正在戀愛(ài)中0.02是若所述候選實(shí)體的預(yù)測(cè)label大于或等于預(yù)先設(shè)置的label閾值,例如0.4,過(guò)濾單元?jiǎng)t可以保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的預(yù)測(cè)label小于預(yù)先設(shè)置的label閾值,例如0.4,過(guò)濾單元?jiǎng)t可以過(guò)濾掉所述候選實(shí)體。步驟五、過(guò)濾單元根據(jù)所述候選實(shí)體的預(yù)測(cè)label、所述候選實(shí)體的名稱(chēng)長(zhǎng)度、所述候選實(shí)體完整匹配的次數(shù)、所述候選實(shí)體的預(yù)設(shè)屬性是否匹配到所述Session段、以及所述候選實(shí)體的所有屬性匹配到所述Session段中的個(gè)數(shù),獲得所述候選實(shí)體的排序分?jǐn)?shù),如表6所示。表6候選實(shí)體與排序分?jǐn)?shù)的對(duì)應(yīng)關(guān)系實(shí)體的名稱(chēng)排序分?jǐn)?shù)是否過(guò)濾掉祈禱和戀愛(ài)0.85是美食、祈禱和戀愛(ài)1.03否若所述候選實(shí)體的排序分?jǐn)?shù)小于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,例如,0.5,過(guò)濾單元?jiǎng)t可以過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第一分?jǐn)?shù)閾值,且小于預(yù)先設(shè)置的第二分?jǐn)?shù)閾值,例如,0.8,若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于所述預(yù)測(cè)label,過(guò)濾單元?jiǎng)t可以保留所述候選實(shí)體,以作為所述興趣實(shí)體,若所述候選實(shí)體的排序分?jǐn)?shù)小于所述預(yù)測(cè)label,過(guò)濾單元?jiǎng)t可以過(guò)濾掉所述候選實(shí)體;若所述候選實(shí)體的排序分?jǐn)?shù)大于或等于預(yù)先設(shè)置的第二閾值分?jǐn)?shù),過(guò)濾單元?jiǎng)t可以保留所述候選實(shí)體,以作為所述興趣實(shí)體;其中,所述第二分?jǐn)?shù)閾值大于所述第一分?jǐn)?shù)閾值。這樣,過(guò)濾單元就可以獲得一個(gè)候選實(shí)體即電影實(shí)體《美食、祈禱和戀愛(ài)》,以作為興趣實(shí)體。如果此時(shí)過(guò)濾單元獲得候選實(shí)體為兩個(gè),即電影實(shí)體《美食、祈禱和戀愛(ài)》和電影實(shí)體《祈禱和戀愛(ài)》,那么由于《祈禱和戀愛(ài)》被完整包含在《美食、祈禱和戀愛(ài)》中,因此,電影實(shí)體《祈禱和戀愛(ài)》也同樣是要被過(guò)濾掉的。本實(shí)施例中,通過(guò)切詞單元對(duì)獲得單元所獲得的待匹配的Session段中所包括的每個(gè)所述用戶(hù)搜索日志的query和title進(jìn)行切詞處理,以獲得每個(gè)所述用戶(hù)搜索日志的第一term,進(jìn)而由匹配單元根據(jù)預(yù)先設(shè)置的實(shí)體庫(kù),匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體,使得過(guò)濾單元能夠利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體,由于采用相關(guān)匹配方法即匹配出與每個(gè)所述用戶(hù)搜索日志的第一term相關(guān)的候選實(shí)體,而不再采用完整匹配方法即直接匹配出完整的興趣實(shí)體的名稱(chēng),能夠有效擴(kuò)大興趣實(shí)體的召回,從而提高了興趣實(shí)體的召回率。另外,采用本發(fā)明提供的技術(shù)方案,由于利用所述Session段的特征、所述候選實(shí)體的特征、以及所述Session段與所述候選實(shí)體的關(guān)聯(lián)特征中的至少一項(xiàng),對(duì)所述候選實(shí)體進(jìn)行過(guò)濾,以獲得興趣實(shí)體,可以避免現(xiàn)有技術(shù)中由于采用完整匹配方法即直接匹配出完整的興趣實(shí)體的名稱(chēng)而導(dǎo)致的匹配出錯(cuò)誤的興趣實(shí)體的問(wèn)題,例如,根據(jù)“高清手機(jī)電影下載”,直接匹配出《手機(jī)》這部電影,能夠有效提高興趣實(shí)體獲得的準(zhǔn)確率,從而提高了興趣實(shí)體獲得的可靠性。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)裝置(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)裝置等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(Read-OnlyMemory,ROM)、隨機(jī)存取存儲(chǔ)器(RandomAccessMemory,RAM)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1