一種搜索方法及數(shù)據(jù)處理方法、裝置及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及搜索技術(shù)領(lǐng)域,尤其涉及一種搜索方法及數(shù)據(jù)處理方法、裝置及系統(tǒng)。
【背景技術(shù)】
[0002]視頻搜索中一個重要的搜索內(nèi)容是人名搜索,人名搜索效果的好壞,對用戶體驗(yàn)會有很大的影響。在視頻數(shù)據(jù)中,會出現(xiàn)人與人的名字相同、人與影視作品的名字相同的情況,如果不做區(qū)分,就會出現(xiàn)混淆,導(dǎo)致用戶搜不到期望的結(jié)果。
[0003]目前,百度、搜庫等知名食品網(wǎng)站都支持視頻人名搜索。對于同名明星、同名影視作品大多網(wǎng)站都不做區(qū)分,只根據(jù)文本本身的相關(guān)性,把同名但實(shí)際不是同一個明星的所有作品和相關(guān)資訊放在一起展示。百度、搜庫在這方面做的比較好,在用戶搜索人名時,通過對搜索得到的相關(guān)文檔進(jìn)行聚類,并挖掘人物之間的關(guān)系來實(shí)現(xiàn)人名的區(qū)分,然而,在實(shí)際操作中,這種方式仍然不能將相同人名的兩個明星的資料完全區(qū)分開來,例如:在百度視頻里面搜索“大宋佳”時,在熱門資訊區(qū)域展現(xiàn)的結(jié)果實(shí)際包含了 “大宋佳”和“小宋佳”的資訊,并不能真正將這兩個人的資訊完全區(qū)分開來。因此,現(xiàn)有技術(shù)中的人名搜索方式難以對同名明星進(jìn)行有效區(qū)分,影響用戶的搜索體驗(yàn)。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明提供一種搜索方法及數(shù)據(jù)處理方法、裝置及系統(tǒng),用于對相同名稱進(jìn)行搜索,以有效區(qū)分具有同一稱謂的數(shù)據(jù),使得搜索的數(shù)據(jù)更加準(zhǔn)確,改善用戶的搜索體驗(yàn)。
[0005]本發(fā)明實(shí)施例提供的搜索方法,包括:
[0006]接收用戶的搜索請求,所述搜索請求中包含目標(biāo)名稱;
[0007]查找預(yù)先設(shè)置的同名對應(yīng)關(guān)系,確定與所述目標(biāo)名稱對應(yīng)的一個唯一標(biāo)識,所述同名對應(yīng)關(guān)系中包含名稱與唯一標(biāo)識之間的對應(yīng)關(guān)系;
[0008]按照所述唯一標(biāo)識進(jìn)行搜索,輸出搜索結(jié)果,所述搜索結(jié)果中的項(xiàng)目的標(biāo)識中包含所述唯一標(biāo)識。
[0009]本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法,包括:
[0010]進(jìn)行名稱的數(shù)據(jù)挖掘,得到所有的相同名稱;
[0011]確定與所述所有的相同名稱中的每一個名稱關(guān)聯(lián)的項(xiàng)目;
[0012]為所述所有的相同名稱中的每一個名稱設(shè)置一個唯一標(biāo)識,得到同名對應(yīng)關(guān)系,且為與所述名稱關(guān)聯(lián)的項(xiàng)目設(shè)置與所述名稱相同的唯一標(biāo)識,所述同名對應(yīng)關(guān)系中包含名稱與唯一標(biāo)識之間的對應(yīng)關(guān)系。
[0013]本發(fā)明實(shí)施例提供的在線搜索系統(tǒng),包括:
[0014]接收模塊,用于接收用戶的搜索請求,所述搜索請求中包含目標(biāo)名稱;
[0015]查找模塊,用于在所述接收模塊接收所述搜索請求之后,查找預(yù)先設(shè)置的同名對應(yīng)關(guān)系,確定與所述目標(biāo)名稱對應(yīng)的一個唯一標(biāo)識,所述同名對應(yīng)關(guān)系中包含名稱與唯一標(biāo)識之間的對應(yīng)關(guān)系;
[0016]輸出模塊,用于在所述查找模塊確定所述唯一標(biāo)識之后,按照所述唯一標(biāo)識進(jìn)行搜索,輸出搜索結(jié)果,所述搜索結(jié)果中的項(xiàng)目的標(biāo)識中包含所述唯一標(biāo)識。
[0017]本發(fā)明實(shí)施例中提供的數(shù)據(jù)處理裝置包括:
[0018]挖掘模塊,用于進(jìn)行名稱的數(shù)據(jù)挖掘,得到所有的同名名稱;
[0019]關(guān)聯(lián)模塊,用于在所述挖掘模塊得到所述所有的相同名稱之后,確定與所述所有的相同名稱中的每一個名稱關(guān)聯(lián)的項(xiàng)目;
[0020]設(shè)置模塊,用于在所述關(guān)聯(lián)模塊確定與所述所有的相同名稱中的每一個名稱關(guān)聯(lián)的項(xiàng)目之后,為所述所有的相同名稱中的每一個名稱設(shè)置一個唯一標(biāo)識,得到同名對應(yīng)關(guān)系,且為與所述名稱關(guān)聯(lián)的項(xiàng)目設(shè)置與所述名稱相同的唯一標(biāo)識,所述同名對應(yīng)關(guān)系中包含名稱與唯一標(biāo)識之間的對應(yīng)關(guān)系。
[0021]從以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn):
[0022]在線搜索系統(tǒng)接收用戶的搜索請求,該搜索請求中包含目標(biāo)名稱,查找預(yù)先設(shè)置的同名對應(yīng)關(guān)系,該同名對應(yīng)關(guān)系中包含名稱與唯一標(biāo)識之間的對應(yīng)關(guān)系,確定與該目標(biāo)名稱對應(yīng)的一個唯一標(biāo)識,按照該唯一標(biāo)識進(jìn)行搜索,輸出搜索結(jié)果,該搜索結(jié)果中的項(xiàng)目的標(biāo)識中包含該唯一標(biāo)識。通過預(yù)先設(shè)置包含名稱與唯一標(biāo)示之間的對應(yīng)關(guān)系的同名對應(yīng)關(guān)系,使得能夠通過唯一標(biāo)識有效的區(qū)分相同的名稱,且利用目標(biāo)名稱的唯一標(biāo)識進(jìn)行搜索,能夠獲取到包含該唯一標(biāo)識的所有的項(xiàng)目作為與該目標(biāo)名稱有關(guān)聯(lián)的項(xiàng)目,避免搜索結(jié)果出現(xiàn)混淆及不準(zhǔn)確的情況,使得搜索結(jié)果更加準(zhǔn)確,改善用戶的搜索體驗(yàn)。
[0023]為讓本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附圖式,作詳細(xì)說明如下。
【附圖說明】
[0024]圖1為本發(fā)明實(shí)施例中的服務(wù)器的結(jié)構(gòu)的示意圖;
[0025]圖2為本發(fā)明實(shí)施例中數(shù)據(jù)處理方法的實(shí)施例的一個示意圖;
[0026]圖3為本發(fā)明實(shí)施例中搜索方法的實(shí)施例的一個示意圖;
[0027]圖4為本發(fā)明實(shí)施例中搜索方法的實(shí)施例的另一示意圖;
[0028]圖5為本發(fā)明實(shí)施例中數(shù)據(jù)處理裝置的結(jié)構(gòu)的一個示意圖;
[0029]圖6為本發(fā)明實(shí)施例中在線搜索系統(tǒng)的結(jié)構(gòu)的一個示意圖;
[0030]圖7為本發(fā)明實(shí)施例中在線搜索系統(tǒng)的結(jié)構(gòu)的另一示意圖。
【具體實(shí)施方式】
[0031]為更進(jìn)一步闡述本發(fā)明為實(shí)現(xiàn)預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié)合附圖及較佳實(shí)施例,對依據(jù)本發(fā)明的【具體實(shí)施方式】、結(jié)構(gòu)、特征及其功效,詳細(xì)說明如后。
[0032]在本發(fā)明實(shí)施例中,搜索方法及數(shù)據(jù)處理方法都是在由服務(wù)器執(zhí)行的,為了更好的理解本發(fā)明實(shí)施例中的技術(shù)方案,請參閱圖1,圖1為本發(fā)明實(shí)施例中服務(wù)器的結(jié)構(gòu)的示意圖。該服務(wù)器100可因配置或性能不同而產(chǎn)生比較大的差異,可以包括一個或一個以上中央處理器(central processing units, CPU) 122 (例如,一個或一個以上處理器)和存儲器132,一個或一個以上存儲應(yīng)用程序142或數(shù)據(jù)144的存儲介質(zhì)130 (例如一個或一個以上海量存儲設(shè)備)。其中,存儲器132和存儲介質(zhì)130可以是短暫存儲或持久存儲。存儲在存儲介質(zhì)130的程序可以包括一個或一個以上模塊(圖示未示出),每個模塊可以包括對服務(wù)器中的一系列指令操作。更進(jìn)一步地,中央處理器122可以設(shè)置為與存儲介質(zhì)130通信,在服務(wù)器100上執(zhí)行存儲介質(zhì)130中的一系列指令操作。服務(wù)器100還可以包括一個或一個以上電源126,一個或一個以上有線或無線網(wǎng)絡(luò)接口 150,一個或一個以上輸入輸出接口 158,和/或,一個或一個以上操作系統(tǒng)141,例如Windows ServerTM, Mac OS XTM,UnixTM, LinuxTM, FreeBSDTM 等等。
[0033]在本發(fā)明實(shí)施例中,在線搜索系統(tǒng)中預(yù)先設(shè)置了同名對應(yīng)關(guān)系,該同名對應(yīng)關(guān)系中包含名稱與唯一標(biāo)識之間的對應(yīng)關(guān)系,其中,同名對應(yīng)關(guān)系中名稱都是具有至少一個相同或者相似的名稱的,此外,還預(yù)先設(shè)置數(shù)據(jù)庫中的項(xiàng)目的唯一標(biāo)識,使得能夠利用唯一標(biāo)識對具有相同名稱進(jìn)行搜索。
[0034]需要說明的是,本發(fā)明是實(shí)施例中,通過預(yù)先設(shè)置同名對應(yīng)關(guān)系的方式對目標(biāo)名稱進(jìn)行搜索的方法適用于對同名明星,同名影視劇等等的搜索。
[0035]為了更好的理解本發(fā)明實(shí)施例中的技術(shù)方案,下面將介紹進(jìn)行相同名稱搜索之前的數(shù)據(jù)處理方法,請參閱圖2,包括:
[0036]201、進(jìn)行名稱的數(shù)據(jù)挖掘,得到所有的相同名稱;
[0037]在本發(fā)明實(shí)施例中,數(shù)據(jù)處理裝置將對數(shù)據(jù)進(jìn)行離線數(shù)據(jù)處理,首先是進(jìn)行名稱的數(shù)據(jù)挖掘,得到所有的相同名稱。
[0038]其中,數(shù)據(jù)處理裝置可通過網(wǎng)頁爬蟲抓取資料庫、新聞資料、視頻資料等等數(shù)據(jù),并進(jìn)行名稱的數(shù)據(jù)挖掘,得到包含所有名稱的名稱表,并且除了常規(guī)的名稱處理流程,還可針對相同名稱進(jìn)行數(shù)據(jù)挖掘,得到該名稱表中的所有的同名名稱,其中,同名名稱是指在該同名表中每一個名稱包含至少一個與該名稱相同的名稱。
[0039]在本發(fā)明實(shí)施例中,數(shù)據(jù)