本發(fā)明涉及視頻搜索技術(shù)領(lǐng)域,更具體地說,涉及一種視頻搜索中的查詢?cè)~糾錯(cuò)方法和裝置。
背景技術(shù):
發(fā)現(xiàn)用戶的錯(cuò)誤輸入,并糾正為符合用戶真實(shí)意圖的正確輸入,是搜索引擎對(duì)查詢?cè)~(query)進(jìn)行預(yù)處理的一個(gè)關(guān)鍵步驟。搜索引擎需要針對(duì)特定的query,召回與之相關(guān)的文檔(doc)。在實(shí)際應(yīng)用中,query中包含的錯(cuò)誤,如錯(cuò)字、增字、亂序等,可能使搜索引擎召回大量與用戶真實(shí)意圖不符的doc。而query被糾正,一方面用戶的真實(shí)意圖被還原,是搜索引擎智能性的體現(xiàn)方式,另一方面則是對(duì)檢索和排序算法的重要補(bǔ)充,降低了檢索的難度。統(tǒng)計(jì)表明,視頻搜索中10%以上的query是錯(cuò)誤的。
視頻搜索,作為一種垂直領(lǐng)域的搜索,通常有兩類方法來實(shí)現(xiàn)查詢?cè)~糾錯(cuò):離線方法和在線方法。離線方法依賴于糾錯(cuò)對(duì)詞典,即“正確query-錯(cuò)誤query”的映射關(guān)系。這些關(guān)系或是手工定義的,或來自于對(duì)用戶日志的挖掘,雖然可以涵蓋部分錯(cuò)誤輸入,但這類方法一方面需要大量的人工工作,另一方面這種離線方法的作用范圍具有遲滯性:用戶曾經(jīng)輸入過才可能被發(fā)現(xiàn)并放入糾錯(cuò)對(duì)詞典中。但是由于用戶輸入的多樣性,很多的錯(cuò)誤模式,是完全無法預(yù)知的。而現(xiàn)有的在線方法對(duì)查詢?cè)~的的糾錯(cuò)判別準(zhǔn)則過于簡(jiǎn)單,發(fā)生誤糾的概率較大。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提出一種視頻搜索中的查詢?cè)~糾錯(cuò)方法和裝置,欲實(shí)現(xiàn)準(zhǔn)確的對(duì)查詢?cè)~進(jìn)行在線糾錯(cuò)的目的。
為了實(shí)現(xiàn)上述目的,現(xiàn)提出的方案如下:
一種視頻搜索中的查詢?cè)~糾錯(cuò)方法,包括:
接收用戶輸入的查詢?cè)~;
對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合;
利用所述字串集合中的每個(gè)詞以及所述查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;
從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果。
優(yōu)選的,所述從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果具體包括:
利用預(yù)先建立的語言模型,對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~進(jìn)行特征提??;
利用預(yù)先建立的分類模型,針對(duì)匹配得到的每個(gè)所述糾錯(cuò)候選詞,根據(jù)對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~提取得到的特征,判斷所述糾錯(cuò)候選詞的合理性是否大于所述查詢?cè)~的合理性;
從合理性大于所述查詢?cè)~的糾錯(cuò)候選詞中選擇搜索次數(shù)最高的糾錯(cuò)候選詞確定為最優(yōu)糾錯(cuò)候選詞,作為所述查詢?cè)~的糾錯(cuò)結(jié)果。
優(yōu)選的,所述糾錯(cuò)候選詞詞典的生成過程,包括:
接收用戶輸入的詞語;
將所述詞語作為糾錯(cuò)候選詞;
對(duì)所述詞語進(jìn)行刪字處理,得到刪字后的字串集合,并建立所述詞語與所述詞語、對(duì)所述詞語刪字處理后的字串集合之間的對(duì)應(yīng)關(guān)系。
優(yōu)選的,提取的所述特征包括:對(duì)數(shù)似然在每個(gè)詞上的平均值、對(duì)數(shù)自然在每個(gè)字上的平均值和/或?qū)?shù)似然在長度為三的窗口上的最小值。
優(yōu)選的,所述對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合,具體為:
對(duì)所述查詢?cè)~的每個(gè)字分別刪除得到字串集合。
一種視頻搜索中的查詢?cè)~糾錯(cuò)裝置,包括:
接收單元,用于接收用戶輸入的查詢?cè)~;
處理單元,用于對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合;
匹配單元,用于利用所述字串集合中的每個(gè)詞以及所述查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;
分析單元,用于從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果。
優(yōu)選的,所述分析單元包括:
特征提取子單元,用于利用預(yù)先建立的語言模型,對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~進(jìn)行特征提?。?/p>
判斷子單元,用于利用預(yù)先建立的分類模型,針對(duì)匹配得到的每個(gè)所述糾錯(cuò)候選詞,根據(jù)對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~提取得到的特征,判斷所述糾錯(cuò)候選詞的合理性是否大于所述查詢?cè)~的合理性;
選擇子單元,用于從合理性大于所述查詢?cè)~的糾錯(cuò)候選詞中選擇搜索次數(shù)最高的糾錯(cuò)候選詞確定為最優(yōu)糾錯(cuò)候選詞,作為所述查詢?cè)~的糾錯(cuò)結(jié)果。
優(yōu)選的,所述裝置還包括:
詞典生成單元,用于接收用戶輸入的詞語,將所述詞語作為糾錯(cuò)候選詞,對(duì)所述詞語進(jìn)行刪字處理,得到刪字后的字串集合,并建立所述詞語與所述詞語、對(duì)所述詞語刪字處理后的字串集合之間的對(duì)應(yīng)關(guān)系。
優(yōu)選的,提取的所述特征包括:
對(duì)數(shù)似然在每個(gè)詞上的平均值、對(duì)數(shù)自然在每個(gè)字上的平均值和/或?qū)?shù)似然在長度為三的窗口上的最小值。
優(yōu)選的,所述處理單元,具體用于:
對(duì)所述查詢?cè)~的每個(gè)字分別刪除得到字串集合。
與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有以下優(yōu)點(diǎn):
上述技術(shù)方案提供的視頻搜索中的查詢?cè)~糾錯(cuò)方法和裝置,對(duì)查詢?cè)~進(jìn)行刪字處理,得到刪除字后的字串集合;利用字串集合中的每個(gè)詞以及查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配糾錯(cuò)候選詞;通過這樣簡(jiǎn)單的策略覆蓋率了典型錯(cuò)誤模式,如增字、減字、錯(cuò)字和亂序等。提高了查詢?cè)~的在線糾錯(cuò)的準(zhǔn)確性。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種視頻搜索中的查詢?cè)~糾錯(cuò)方法的流程圖;
圖2為本發(fā)明實(shí)施例提供的種從糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為查詢?cè)~的糾錯(cuò)結(jié)果的方法的流程圖;
圖3為本發(fā)明實(shí)施例提供的一種糾錯(cuò)候選詞詞典的生成方法的流程圖;
圖4為本發(fā)明實(shí)施例提供的一種視頻搜索中的查詢?cè)~糾錯(cuò)裝置的結(jié)構(gòu)示意圖;
圖5為本發(fā)明實(shí)施例提供的一種分析單元的結(jié)構(gòu)示意圖;
圖6為本發(fā)明實(shí)施例提供的另一種視頻搜索中的查詢?cè)~糾錯(cuò)裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
實(shí)施例一
本實(shí)施例提供一種視頻搜索中的查詢?cè)~糾錯(cuò)方法,請(qǐng)參見圖1,該方法包括:
步驟s11:接收用戶輸入的查詢?cè)~;
步驟s12:對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合;
預(yù)先設(shè)定刪字處理的規(guī)則,刪字處理可以是對(duì)查詢?cè)~的每個(gè)字分別刪除得到字串集合,也可以對(duì)查詢?cè)~的多個(gè)字分別刪除得到字串集合,還可以對(duì)查詢?cè)~的每個(gè)字分別刪除以及多個(gè)字分別刪除得到字串集合。
如用戶輸入的查詢?cè)~(query)為“射貂英雄傳”。對(duì)查詢?cè)~的每個(gè)字分別刪除得到字串集合為:刪除查詢?cè)~的第一個(gè)字得到“貂英雄傳”;刪除查詢?cè)~的第二個(gè)字得到“射英雄傳”;刪除查詢?cè)~的第三個(gè)字得到“射貂雄傳”;刪除查詢?cè)~的第四個(gè)字得到“射貂英傳”;刪除查詢?cè)~的第五個(gè)字得到“射貂英雄”;得到字串集合為“貂英雄傳”、“射英雄傳”、“射貂雄傳”、“射貂英傳”和“射貂英雄”。
對(duì)查詢?cè)~的兩個(gè)字分別刪除得到字串集合可以為:刪除查詢?cè)~的第一個(gè)字和第二個(gè)字得到“英雄傳”;刪除查詢?cè)~的第二個(gè)字和第三個(gè)字得到“射雄傳”;刪除查詢?cè)~的第三個(gè)字和第四個(gè)字得到“射貂傳”;刪除查詢?cè)~的第四個(gè)和第五個(gè)字得到“射貂英”;得到字串集合為“英雄傳”、“射雄傳”、“射貂傳”和“射貂英”。
對(duì)查詢?cè)~的每個(gè)字分別刪除以及兩個(gè)字分別刪除得到的字串集合可以為:“貂英雄傳”、“射英雄傳”、“射貂雄傳”、“射貂英傳”、“射貂英雄”、“英雄傳”、“射雄傳”、“射貂傳”和“射貂英”。
步驟s13:利用所述字串集合中的每個(gè)詞以及所述查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;
糾錯(cuò)候選詞詞典包括正確的劇名和人名,以及與劇名對(duì)應(yīng)的字串集合,與人名對(duì)應(yīng)的字串集合。與劇名對(duì)應(yīng)的字串集合為對(duì)劇名進(jìn)行刪字處理后得到,具體方法與對(duì)查詢?cè)~的刪字處理方法一致。與人名對(duì)應(yīng)的字串集合為對(duì)人名進(jìn)行刪字處理后得到,具體方法也與對(duì)查詢?cè)~的刪字處理方法一致。不再贅述。正確的劇名和人名作為糾錯(cuò)候選詞,利用對(duì)用戶輸入的查詢?cè)~進(jìn)行刪字處理得到的字串集合以及用戶輸入的查詢?cè)~,在糾錯(cuò)候選詞詞典匯總匹配得到糾錯(cuò)候選詞。
例如,糾錯(cuò)候選詞詞典中糾錯(cuò)候選詞“射雕英雄傳”對(duì)應(yīng)的字串集合為“雕英雄傳”、“射英雄傳”、“射雕雄傳”、“射雕英傳”和“射雕英雄”,用戶輸入查詢?cè)~“射貂英雄傳”后,利用查詢?cè)~對(duì)應(yīng)的字串集合中的“射英雄傳”可以匹配到的糾錯(cuò)候選詞是“射雕英雄傳”;利用查詢?cè)~以及字串集合中的其他詞均匹配不到結(jié)果。如此就通過簡(jiǎn)單的策略覆蓋了對(duì)劇名和人名的典型錯(cuò)誤模式。策略的簡(jiǎn)單保證了在線算法運(yùn)行時(shí)的效率。
步驟s14:從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果。
利用查詢?cè)~以及其對(duì)應(yīng)的字串集合匹配到糾錯(cuò)候選詞可能是一個(gè),也可能是多個(gè)。利用預(yù)先設(shè)定的規(guī)則對(duì)得到的每個(gè)糾錯(cuò)候選詞進(jìn)行分析,判斷各個(gè)糾錯(cuò)候選詞的合理性是否大于用戶輸入的查詢?cè)~的合理性。并從合理性大于查詢?cè)~的糾錯(cuò)候選詞中選出搜索次數(shù)最高的糾錯(cuò)候選詞,即最優(yōu)糾錯(cuò)候選詞,作為查詢?cè)~的糾錯(cuò)結(jié)果,進(jìn)行視頻搜索。需要說明的是,若得到的每個(gè)糾錯(cuò)候選詞的合理性均不大于用戶輸入的查詢?cè)~的合理性,則說明用戶輸入的查詢?cè)~不需要糾錯(cuò),將以用戶輸入的查詢?cè)~進(jìn)行視頻搜索。
本實(shí)施例提供的視頻搜索中的一種查詢?cè)~糾錯(cuò)方法,先對(duì)查詢?cè)~進(jìn)行刪字處理,得到字后的字串集合;利用字串集合中的每個(gè)詞以及查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;通過這樣簡(jiǎn)單的策略覆蓋率了典型錯(cuò)誤模式,如增字、減字、錯(cuò)字和亂序等。增字情況如用戶輸入“塊快樂大本營”,對(duì)該查詢?cè)~進(jìn)行刪字處理得到的字串集合中的“快樂大本營”本身是正確的,可被糾錯(cuò);減字情況如“快大本營”其本身是“快樂大本營”的減字錯(cuò)誤,可被糾錯(cuò);錯(cuò)字情況如上述“射貂英雄傳”例子;亂序情況如用戶輸入“樂塊大本營”,對(duì)該查詢?cè)~進(jìn)行刪字處理得到的字串集合中的“樂大本營”是“快樂大本營”的減字錯(cuò)誤,可以糾錯(cuò)。提高了查詢?cè)~的在線糾錯(cuò)的準(zhǔn)確性
本實(shí)施例提供一種從糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為查詢?cè)~的糾錯(cuò)結(jié)果的方法,參見圖2,該方法可以包括:
步驟s21:利用預(yù)先建立的語言模型,對(duì)匹配得到的糾錯(cuò)候選詞以及所述查詢?cè)~進(jìn)行特征提?。?/p>
語言模型可以通過計(jì)算在上文條件下當(dāng)前詞的概率判斷文本的合理性。設(shè)查詢?cè)~中的第i個(gè)詞為wi,整句話的似然有:
具體的使用trigram模型估計(jì)語言模型概率,則查詢?cè)~中第i個(gè)詞的概率為:
優(yōu)選的,本實(shí)施例選擇語言模型相關(guān)的三個(gè)指標(biāo)作為下一步分類的特征:對(duì)數(shù)似然在每個(gè)詞上的平均值、對(duì)數(shù)似然在每個(gè)字上的平均值、以及對(duì)數(shù)似然在長度為3的窗口上的最小值。其中,對(duì)數(shù)似然在每個(gè)詞上的平均值為整句的似然除以整句詞數(shù);對(duì)數(shù)似然在每個(gè)字上的平均值為整句的似然除以整句字?jǐn)?shù);對(duì)數(shù)似然在長度為三的窗口上的最小值為將每三個(gè)連續(xù)的詞作為一個(gè)對(duì)象,分別求其語言模型似然,選出最小值。
需要說明的是,對(duì)數(shù)似然在每個(gè)詞上的平均值,所說的每個(gè)詞具體是指特征提取對(duì)象包含的每個(gè)詞,詞的性質(zhì)具體的包括動(dòng)詞、名詞和形容詞。特征提取對(duì)象為查詢?cè)~或糾錯(cuò)候選詞。同理,對(duì)數(shù)似然在每個(gè)字上的平均值,所說的每個(gè)字具體是指特征提取對(duì)象包含的每個(gè)字,特征提取對(duì)象同樣為查詢?cè)~或糾錯(cuò)候選詞。
語言模型的構(gòu)建是在所有長視頻標(biāo)題和隨機(jī)抽取的600萬短視頻標(biāo)題上構(gòu)建,通過統(tǒng)計(jì)所有三元詞組、二元詞組和詞在語料中出現(xiàn)的次數(shù)完成。
步驟s22:利用預(yù)先建立的分類模型,針對(duì)匹配得到的每個(gè)所述糾錯(cuò)候選詞,根據(jù)對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~提取得到的特征,判斷所述糾錯(cuò)候選詞的合理性是否大于所述查詢?cè)~的合理性;
優(yōu)選的,分類模型可以是一些弱分類器的融合,一方面具有更好的可解釋性,另一方面也可以增加人工干預(yù)。判斷某個(gè)糾錯(cuò)候選詞的合理性是否大于用戶輸入的查詢?cè)~的合理性時(shí),使用adaboost分類器對(duì)步驟s14提取出的該糾錯(cuò)候選詞的特征和查詢?cè)~的特征進(jìn)行分析,分析該糾錯(cuò)候選詞比用戶輸入的查詢?cè)~好的程度,并進(jìn)行計(jì)分,若得到的計(jì)分大于預(yù)設(shè)的計(jì)分閾值,則確定該糾錯(cuò)候選詞的合理性大于用戶輸入的查詢?cè)~的合理性。
步驟s23:從合理性大于所述查詢?cè)~的糾錯(cuò)候選詞中選擇搜索次數(shù)最高的糾錯(cuò)候選詞確定為最優(yōu)糾錯(cuò)候選詞,作為所述查詢?cè)~的糾錯(cuò)結(jié)果。
如果合理性大于所述查詢?cè)~的糾錯(cuò)候選詞只有一個(gè),則將該糾錯(cuò)候選詞極為最優(yōu)糾錯(cuò)候選詞,作為查詢?cè)~的糾錯(cuò)結(jié)果;如果合理性大于所述查詢?cè)~的糾錯(cuò)候選詞有多個(gè),則選擇搜索次數(shù)最高的作為糾錯(cuò)結(jié)果。如果匹配得到的所有糾錯(cuò)候選詞的合理性均不大于查詢?cè)~的合理性,則還使用用戶輸入的查詢?cè)~進(jìn)行后續(xù)視頻搜索。
針對(duì)匹配得到每個(gè)糾錯(cuò)候選詞,利用預(yù)先建立的分類模型結(jié)合對(duì)其以及查詢?cè)~提取到的特征,判斷其是否正確,進(jìn)而選出最優(yōu)糾錯(cuò)候選詞作為糾錯(cuò)結(jié)果。實(shí)現(xiàn)了對(duì)糾錯(cuò)結(jié)果的合理性判斷。
本實(shí)施例還提供一種糾錯(cuò)候選詞詞典的生成方法,參見圖3,該方法可以包括:
步驟s31:接收用戶輸入的詞語;
用戶輸入的詞語可以是人名、也可以是劇名。劇名或人名都必須是完全正確的。
步驟s32:將所述詞語作為糾錯(cuò)候選詞;
將用戶輸入的人名或劇名作為糾錯(cuò)候選詞。
步驟s33:對(duì)所述詞語進(jìn)行刪字處理,得到刪字后的字串集合,并建立所述詞語與所述詞語、對(duì)所述詞語刪字處理后的字串集合之間的對(duì)應(yīng)關(guān)系;
預(yù)先設(shè)定刪字處理的規(guī)則,刪字處理可以是對(duì)劇名或人名的每個(gè)字分別刪除得到字串集合,也可以對(duì)劇名或人名的多個(gè)字分別刪除得到字串集合,還可以對(duì)劇名或人名的每個(gè)字分別刪除以及多個(gè)字分別刪除得到字串集合。對(duì)詞語的刪字處理與對(duì)查詢?cè)~的刪字處理一致。
對(duì)劇名“射雕英雄傳”的每個(gè)字分別刪除得到字串集合為:刪除查詢?cè)~的第一個(gè)字得到“雕英雄傳”;刪除劇名的第二個(gè)字得到“射英雄傳”;刪除劇名的第三個(gè)字得到“射雕雄傳”;刪除劇名的第四個(gè)字得到“射雕英傳”;刪除劇名的第五個(gè)字得到“射雕英雄”;對(duì)劇名“射雕英雄傳”的每個(gè)字分別刪除得到字串集合為:“雕英雄傳”、“射英雄傳”、“射雕雄傳”、“射雕英傳”和“射雕英雄”。建立的對(duì)應(yīng)關(guān)系為{射雕英雄傳:射雕英雄傳、雕英雄傳、射英雄傳、射雕雄傳、射雕英傳、射雕英雄}??梢愿鶕?jù)詞語射雕英雄傳、雕英雄傳、射英雄傳、射雕雄傳、射雕英傳或射雕英雄,匹配得到糾錯(cuò)候選詞“射雕英雄傳”。
對(duì)“射雕英雄傳”的兩個(gè)字分別刪除得到字串集合可以為:刪除劇名的第一個(gè)字和第二個(gè)字得到“英雄傳”;刪除劇名的第二個(gè)字和第三個(gè)字得到“射雄傳”;刪除劇名的第三個(gè)字和第四個(gè)字得到“射雕傳”;刪除劇名的第四個(gè)和第五個(gè)字得到“射雕英”;對(duì)射雕英雄傳”的兩個(gè)字分別刪除得到字串集合為“英雄傳”、“射雄傳”、“射雕傳”和“射雕英”。建立的對(duì)應(yīng)關(guān)系為{射雕英雄傳:射雕英雄傳、英雄傳、射雄傳、射雕傳、射雕英}。可以根據(jù)詞語射雕英雄傳、英雄傳、射雄傳、射雕傳或射雕英,匹配得到糾錯(cuò)候選詞“射雕英雄傳”。
對(duì)“射雕英雄傳”的每個(gè)字分別刪除以及兩個(gè)字分別刪除得到的字串集合可以為:“雕英雄傳”、“射英雄傳”、“射雕雄傳”、“射雕英傳”、“射雕英雄”、“英雄傳”、“射雄傳”、“射雕傳”和“射雕英”。建立的對(duì)應(yīng)關(guān)系為{射雕英雄傳:射雕英雄傳、雕英雄傳、射英雄傳、射雕雄傳、射雕英傳、射雕英雄、英雄傳、射雄傳、射雕傳、射雕英}??梢愿鶕?jù)詞語射雕英雄傳、雕英雄傳、射英雄傳、射雕雄傳、射雕英傳、射雕英雄、英雄傳、射雄傳、射雕傳或射雕英,匹配得到糾錯(cuò)候選詞“射雕英雄傳”。
本實(shí)施例上述過程介紹了針對(duì)某個(gè)詞語建立對(duì)應(yīng)關(guān)系的過程。容易理解的是,糾錯(cuò)候選詞詞典的生成過程包含對(duì)大量詞語建立對(duì)應(yīng)關(guān)系的過程,針對(duì)每個(gè)詞語建立對(duì)應(yīng)關(guān)系的過程一致。對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。
下述為本發(fā)明裝置實(shí)施例,可以用于執(zhí)行本發(fā)明方法實(shí)施例。對(duì)于本發(fā)明裝置實(shí)施例中未披露的細(xì)節(jié),請(qǐng)參照本發(fā)明方法實(shí)施例。
實(shí)施例二
本實(shí)施例提供一種視頻搜索中的查詢?cè)~糾錯(cuò)裝置,請(qǐng)參見圖4,該裝置包括:
接收單元11,用于接收用戶輸入的查詢?cè)~;
處理單元12,用于對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合;
預(yù)先設(shè)定刪字處理的規(guī)則,刪字處理可以是對(duì)查詢?cè)~的每個(gè)字分別刪除得到字串集合,也可以對(duì)查詢?cè)~的多個(gè)字分別刪除得到字串集合,還可以對(duì)查詢?cè)~的每個(gè)字分別刪除以及多個(gè)字分別刪除得到字串集合。
匹配單元13,用于利用所述字串集合中的每個(gè)詞以及所述查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;
糾錯(cuò)候選詞詞典包括正確的劇名和人名,以及與劇名對(duì)應(yīng)的字串集合,與人名對(duì)應(yīng)的字串集合。與劇名對(duì)應(yīng)的字串集合為對(duì)劇名進(jìn)行刪字處理后得到,具體方法與對(duì)查詢?cè)~的刪字處理方法一致。與人名對(duì)應(yīng)的字串集合為對(duì)人名進(jìn)行刪字處理后得到,具體方法也與對(duì)查詢?cè)~的刪字處理方法一致。不再贅述。正確的劇名和人名作為糾錯(cuò)候選詞,利用對(duì)用戶輸入的查詢?cè)~進(jìn)行刪字處理得到的字串集合以及用戶輸入的查詢?cè)~,在糾錯(cuò)候選詞詞典匯總匹配得到糾錯(cuò)候選詞。
分析單元14,用于從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果。
利用查詢?cè)~以及其對(duì)應(yīng)的字串集合匹配到糾錯(cuò)候選詞可能是一個(gè),也可能是多個(gè)。利用預(yù)先設(shè)定的規(guī)則對(duì)得到的每個(gè)糾錯(cuò)候選詞進(jìn)行分析,判斷各個(gè)糾錯(cuò)候選詞的合理性是否大于用戶輸入的查詢?cè)~的合理性。并從合理性大于查詢?cè)~的糾錯(cuò)候選詞中選出搜索次數(shù)最高的糾錯(cuò)候選詞,即最優(yōu)糾錯(cuò)候選詞,作為查詢?cè)~的糾錯(cuò)結(jié)果,進(jìn)行視頻搜索。
本實(shí)施例提供的視頻搜索中的查詢?cè)~糾錯(cuò)裝置,處理單元12對(duì)查詢?cè)~進(jìn)行刪字處理,得到刪字后的字串集合;匹配單元13利用字串集合中的每個(gè)詞以及查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配糾錯(cuò)候選詞;通過這樣簡(jiǎn)單的策略覆蓋率了典型錯(cuò)誤模式,如增字、減字、錯(cuò)字和亂序等。增字情況如用戶輸入“塊快樂大本營”,對(duì)該查詢?cè)~進(jìn)行刪字處理得到的字串集合中的“快樂大本營”本身是正確的,可被糾錯(cuò);減字情況如“快大本營”其本身是“快樂大本營”的減字錯(cuò)誤,可被糾錯(cuò);錯(cuò)字情況如上述“射貂英雄傳”例子;亂序情況如用戶輸入“樂塊大本營”,對(duì)該查詢?cè)~進(jìn)行刪字處理得到的字串集合中的“樂大本營”是“快樂大本營”的減字錯(cuò)誤,可以糾錯(cuò)。提高了查詢?cè)~的在線糾錯(cuò)的準(zhǔn)確性。
參見圖5,所述分析單元14具體包括:
特征提取子單元141,用于利用預(yù)先建立的語言模型,對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~進(jìn)行特征提??;
判斷子單元142,用于利用預(yù)先建立的分類模型,針對(duì)匹配得到的每個(gè)所述糾錯(cuò)候選詞,根據(jù)對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~提取得到的特征,判斷所述糾錯(cuò)候選詞的合理性是否大于所述查詢?cè)~的合理性;
選擇子單元143,用于從合理性大于所述查詢?cè)~的糾錯(cuò)候選詞中選擇搜索次數(shù)最高的糾錯(cuò)候選詞確定為最優(yōu)糾錯(cuò)候選詞,作為所述查詢?cè)~的糾錯(cuò)結(jié)果。
優(yōu)選的,提取的所述特征包括:
對(duì)數(shù)似然在每個(gè)詞上的平均值、對(duì)數(shù)自然在每個(gè)字上的平均值和/或?qū)?shù)似然在長度為三的窗口上的最小值。
優(yōu)選的,所述處理單元12,具體用于:對(duì)所述查詢?cè)~的每個(gè)字分別刪除得到字串集合。
實(shí)施例三
本實(shí)施例提供另一種視頻搜索中的查詢?cè)~糾錯(cuò)裝置,請(qǐng)參見圖6,該裝置相對(duì)圖4公開的裝置還包括:
詞典生成單元15,用于接收用戶輸入的詞語,將所述詞語作為糾錯(cuò)候選詞,對(duì)所述詞語進(jìn)行刪字處理,得到刪字后的字串集合,并建立所述詞語與所述詞語、對(duì)所述詞語刪字處理后的字串集合之間的對(duì)應(yīng)關(guān)系。
對(duì)于裝置實(shí)施例而言,由于其基本相應(yīng)于方法實(shí)施例,所以相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。
對(duì)本發(fā)明所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。