專利名稱:一種查詢?cè)~的處理方法和裝置的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及互聯(lián)網(wǎng)信息搜索技術(shù)領(lǐng)域,特別是涉及一種查詢?cè)~的處理方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)上信息的飛速增長(zhǎng),網(wǎng)絡(luò)上充斥了越來越多的冗余信息,而對(duì)于在網(wǎng)絡(luò)上搜尋自己所需要信息的互聯(lián)網(wǎng)用戶而言,面對(duì)這些漫無邊際的信息無疑像大海撈針。針對(duì)某個(gè)信息需求,通常搜索引擎提供一個(gè)網(wǎng)頁界面,讓用戶在客戶端通過瀏覽器軟件提交查詢?cè)~,然后很快返回一個(gè)可能和用戶輸入的查詢?cè)~相關(guān)的信息列表。然而,在很多情況下,用戶輸入的查詢?cè)~并不能很好的反映用戶的信息需求,從而 不能準(zhǔn)確匹配到想要的信息。對(duì)用戶輸入的查詢?cè)~進(jìn)行處理和變換,可以使得處理后的查詢?cè)~能夠更準(zhǔn)確的反映用戶需求,幫助用戶快速找到目標(biāo)信息,提高用戶的搜索使用體驗(yàn)。針對(duì)某個(gè)信息需求,用戶可能某些時(shí)候使用非常詳細(xì)的語言形式對(duì)相應(yīng)查詢?cè)~進(jìn)行表述。然而現(xiàn)有的搜索引擎大都基于詞袋(bag-of-word)模型構(gòu)建,其假設(shè)詞項(xiàng)相互之間沒有關(guān)聯(lián)。在這種情況下,過于詳盡和冗長(zhǎng)的查詢?cè)~表述反而會(huì)對(duì)查詢準(zhǔn)確率和召回率產(chǎn)生副作用。例如,對(duì)于電子商務(wù)搜索而言,由于默認(rèn)多詞情況下詞項(xiàng)之間是“AND”關(guān)系,因此,長(zhǎng)的查詢?cè)~往往導(dǎo)致很多零結(jié)果或少結(jié)果的情況,使得召回率比較低。并且,現(xiàn)有技術(shù)中搜索引擎進(jìn)行信息查詢時(shí)需要先對(duì)用戶輸入的查詢?cè)~進(jìn)行分詞,對(duì)分詞后得到的詞項(xiàng)逐一與待查詢信息進(jìn)行匹配。對(duì)于過于詳盡和冗長(zhǎng)的查詢?cè)~分詞后將會(huì)得到較多的詞項(xiàng),對(duì)于數(shù)量較多的詞項(xiàng)與待查詢信息進(jìn)行匹配時(shí)將會(huì)導(dǎo)致查詢速度較慢,增加搜索引擎的工作壓力。查詢縮寫(Query Abbreviation)是對(duì)過于冗長(zhǎng)或詳細(xì)描述的查詢?cè)~的一種處理方法,其通過有選擇地篩選查詢?cè)~中的詞,保留那些能夠反映用戶需求的詞,去掉噪音詞,最終生成貼近用戶查詢意圖的新查詢?cè)~。在原查詢是零結(jié)果或少結(jié)果時(shí),采用查詢縮寫技術(shù)推薦若干與原查詢?cè)~意圖相近的新查詢?cè)~,將其搜索結(jié)果展示給用戶,能夠提高用戶的搜索體驗(yàn),同時(shí)也在一定程度提高了電子商務(wù)網(wǎng)站上產(chǎn)品的曝光率和點(diǎn)擊率,具有較大的商業(yè)價(jià)值。并且由于縮寫后的詞項(xiàng)較少,將數(shù)量較少的詞項(xiàng)與待查詢?cè)~進(jìn)行匹配時(shí)將會(huì)加快查詢的速度,減少搜索引擎的工作壓力?,F(xiàn)有一種對(duì)用戶冗長(zhǎng)查詢進(jìn)行縮寫的方法具體可以包括A、給定一個(gè)用戶輸入的長(zhǎng)查詢,包括若干個(gè)詞項(xiàng);B、從中生成詞項(xiàng)的可能候選子集集合;C、使用互信息方法對(duì)子集集合進(jìn)行評(píng)估;D、挑選出滿足最大生成樹條件的子集作為縮寫查詢的結(jié)果;E、使用縮寫查詢的結(jié)果替換原始長(zhǎng)查詢進(jìn)行檢索。上述方法具有如下缺點(diǎn)以詞項(xiàng)為單位進(jìn)行過濾,很可能會(huì)把原本應(yīng)該一起的多詞單元拆開,對(duì)于搜索引擎而言,一方面,容易使得縮寫查詢的結(jié)果與原始長(zhǎng)查詢大相徑庭,嚴(yán)重影響查詢?cè)~處理的精度和準(zhǔn)確度;另一方面,以詞項(xiàng)為單位增加了處理步驟,導(dǎo)致花費(fèi)了過多的處理時(shí)間,從而影響查詢?cè)~處理的速度。對(duì)于用戶而言,縮寫查詢的結(jié)果與原始長(zhǎng)查詢大相徑庭,很有可能使得處理后的查詢?cè)~拋棄了用戶的信息需求,從而返回給用戶的搜索結(jié)果也不能準(zhǔn)確反映用戶的信息需求,從而影響用戶的搜索使用體驗(yàn)。并且,以詞項(xiàng)為單位進(jìn)行待查詢信息匹配時(shí),需要對(duì)多個(gè)詞項(xiàng)與待查詢信息進(jìn)行多次匹配,將會(huì)減緩查詢的匹配速度,增加服務(wù)器的工作壓力??傊?,需要本領(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問題就是如何能夠提高查詢?cè)~處理的精度、準(zhǔn)確度和速度,并且能夠使得處理后的查詢?cè)~能夠最大程度地保留用戶的信息需求。
發(fā)明內(nèi)容
本申請(qǐng)所要解決的技術(shù)問題是提供一種查詢?cè)~的處理方法和裝置,能夠提高查詢?cè)~處理的精度、準(zhǔn)確度和速度,并且能夠在保留原查詢?cè)~信息焦點(diǎn)的基礎(chǔ)之上,使得處理后的查詢?cè)~能夠最大程度地保留用戶的信息需求。·為了解決上述問題,本申請(qǐng)公開了一種查詢?cè)~的處理方法,包括接收用戶輸入的查詢?cè)~,所述查詢?cè)~包括若干個(gè)詞項(xiàng);識(shí)別所述查詢?cè)~中的多詞單元,所述多詞單元為多個(gè)詞項(xiàng)構(gòu)成的語法結(jié)構(gòu);以所述查詢?cè)~中的多詞單元和除多詞單元外的詞項(xiàng)為處理單位,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。優(yōu)選的,通過以下步驟識(shí)別所述查詢?cè)~中的多詞單元將所述查詢?cè)~劃分為多個(gè)淺層語段,所述淺層語段為多個(gè)詞項(xiàng)構(gòu)成的短語層次結(jié)構(gòu)依次處理各淺層語段,從前往后取得相應(yīng)的多詞單元。優(yōu)選的,所述處理各淺層語段的步驟,包括步驟I :讀取一個(gè)淺層語段,并以該淺層語段的起始位置作為當(dāng)前多詞單元的起始位置;步驟2 :從當(dāng)前多詞單元的起始位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng);步驟3 :根據(jù)所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征,判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元,若是,則執(zhí)行步驟4,否則,執(zhí)行步驟5 ;步驟4 :保存該多詞單元,以下一個(gè)詞項(xiàng)所在位置作為當(dāng)前多詞單元的起始位置,并返回步驟2;步驟5 :判斷下一個(gè)詞項(xiàng)所在位置是否為該淺層語段的結(jié)束位置,若是,則結(jié)束所述處理過程,否則,執(zhí)行步驟6 ;步驟6 :從下一個(gè)詞項(xiàng)所在位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng),并返回步驟3。優(yōu)選的,所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征包括語義特征;
所述判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元的步驟,包括判斷當(dāng)前詞項(xiàng)的語義特征和下一詞項(xiàng)的語義特征是否均為特定的語義特征,若否,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單
J Li ο優(yōu)選的,所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征包括統(tǒng)計(jì)特征;所述判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元的步驟,包括判斷所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征的連續(xù)出現(xiàn)頻率是否大于第一閾值,若是,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單 J Li ο優(yōu)選的,所述方法還包括分別對(duì)所述查詢?cè)~中的各多詞單元和除多詞單元外的各詞項(xiàng)進(jìn)行重要性評(píng)估,得到相應(yīng)的重要性評(píng)估結(jié)果;所述對(duì)所述查詢?cè)~進(jìn)行丟詞處理的步驟,包括將所述查詢?cè)~中所有處理單位的重要性評(píng)估結(jié)果,從小到大進(jìn)行排序;基于優(yōu)先丟掉排在前面的處理單位的原理,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。優(yōu)選的,所述對(duì)查詢?cè)~進(jìn)行丟詞處理的步驟,包括獲取所述查詢?cè)~的長(zhǎng)度;根據(jù)所述查詢?cè)~的長(zhǎng)度,選擇丟詞算法對(duì)所述查詢?cè)~進(jìn)行丟詞處理,其中,不同查詢?cè)~的長(zhǎng)度對(duì)應(yīng)不同的丟詞算法。優(yōu)選的,通過如下步驟對(duì)多詞單元進(jìn)行重要性評(píng)估依據(jù)該多詞單元中各詞項(xiàng)的重要性、各詞項(xiàng)間關(guān)系和該多詞單元在所述查詢?cè)~中的位置,對(duì)該多詞單元進(jìn)行重要性評(píng)估。優(yōu)選的,通過如下步驟對(duì)詞項(xiàng)進(jìn)行重要性評(píng)估依據(jù)統(tǒng)計(jì)特征、詞級(jí)特征、語法特征和語義特征中的一種或多種,評(píng)估詞項(xiàng)的重要性。優(yōu)選的,在識(shí)別所述查詢?cè)~中的多詞單元前,所述方法還包括對(duì)所述查詢?cè)~進(jìn)行預(yù)處理操作,所述預(yù)處理操作包括大小寫轉(zhuǎn)換,標(biāo)點(diǎn)符號(hào)過濾,詞性標(biāo)注,淺層語段劃分,中心詞抽取,詞項(xiàng)特殊語義標(biāo)記中的一種或多種。另一方面,本申請(qǐng)還公開了一種查詢?cè)~的處理裝置,包括接口模塊,用于接收用戶輸入的查詢?cè)~,所述查詢?cè)~包括若干個(gè)詞項(xiàng);識(shí)別模塊,用于識(shí)別所述查詢?cè)~中的多詞單元,所述多詞單元為多個(gè)詞項(xiàng)構(gòu)成的語法結(jié)構(gòu) '及丟詞處理模塊,用于以所述查詢?cè)~中的多詞單元和除多詞單元外的詞項(xiàng)為處理單位,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。優(yōu)選的,所述識(shí)別模塊包括劃分子模塊,用于將所述查詢?cè)~劃分為多個(gè)淺層語段,所述淺層語段為多個(gè)詞項(xiàng)構(gòu)成的短語層次結(jié)構(gòu)及處理子模塊,用于依次處理各淺層語段,從前往后取得相應(yīng)的多詞單元。優(yōu)選的,所述處理子模塊包括語段讀取單元,用于讀取一個(gè)淺層語段,并以該淺層語段的起始位置作為當(dāng)前多詞單元的起始位置;詞項(xiàng)讀取單元,用于從當(dāng)前多詞單元的起始位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng);多詞判斷單元,用于根據(jù)所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征,判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元,若是,則觸發(fā),否貝U,執(zhí)行步驟5;過渡單元,用于保存該多詞單元,以下一個(gè)詞項(xiàng)所在位置作為當(dāng)前多詞單元的起始位置,并觸發(fā)詞項(xiàng)讀取單元;結(jié)束判斷單元,用于判斷下一個(gè)詞項(xiàng)所在位置是否為該淺層語段的結(jié)束位置,若是,則結(jié)束所述處理過程,否則,觸發(fā)讀取位置更新單元;讀取位置更新單元,用于從下一個(gè)詞項(xiàng)所在位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng),并觸發(fā)多詞判斷單元。優(yōu)選的,所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征包括語義特征;所述多詞判斷單元包括語法語義判斷子單元,用于判斷當(dāng)前詞項(xiàng)的語義特征和下一詞項(xiàng)的語義特征是否均為特定的語義特征,若否,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單元。優(yōu)選的,所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征包括統(tǒng)計(jì)特征;所述多詞判斷單元包括統(tǒng)計(jì)判斷子單元,用于判斷所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征的連續(xù)出現(xiàn)頻率是否大于第一閾值,若是,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單元。優(yōu)選的,所述裝置還包括評(píng)估模塊,用于分別對(duì)所述查詢?cè)~中的各多詞單元和除多詞單元外的各詞項(xiàng)進(jìn)行重要性評(píng)估,得到相應(yīng)的重要性評(píng)估結(jié)果;所述丟詞處理模塊包括排序子模塊,用于將所述查詢?cè)~中所有處理單位的重要性評(píng)估結(jié)果,從小到大進(jìn)行排序 '及第一丟詞子模塊,用于基于優(yōu)先丟掉排在前面的處理單位的原理,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。優(yōu)選的,所述丟詞處理模塊包括長(zhǎng)度獲取子模塊,用于獲取所述查詢?cè)~的長(zhǎng)度;及 第二丟詞子模塊,用于根據(jù)所述查詢?cè)~的長(zhǎng)度,選擇丟詞算法對(duì)所述查詢?cè)~進(jìn)行丟詞處理,其中,不同查詢?cè)~的長(zhǎng)度對(duì)應(yīng)不同的丟詞算法。優(yōu)選的,所述評(píng)估模塊包括
多詞評(píng)估子模塊,用于依據(jù)該多詞單元中各詞項(xiàng)的重要性、各詞項(xiàng)間關(guān)系和該多詞單元在所述查詢?cè)~中的位置,對(duì)該多詞單元進(jìn)行重要性評(píng)估。優(yōu)選的,所述評(píng)估模塊包括詞項(xiàng)評(píng)估子模塊,用于依據(jù)統(tǒng)計(jì)特征、詞級(jí)特征、語法特征和語義特征中的一種或多種,評(píng)估詞項(xiàng)的重要性。優(yōu)選的,所述裝置還包括預(yù)處理模塊,用于在識(shí)別所述查詢?cè)~中的多詞單元前,對(duì)所述查詢?cè)~進(jìn)行預(yù)處理操作,所述預(yù)處理操作包括大小寫轉(zhuǎn)換,標(biāo)點(diǎn)符號(hào)過濾,詞性標(biāo)注,淺層語段劃分,中心詞抽取,詞項(xiàng)特殊語義標(biāo)記中的一種或多種與現(xiàn)有技術(shù)相比,本申請(qǐng)具有以下優(yōu)點(diǎn) 本申請(qǐng)?jiān)谔幚聿樵冊(cè)~的過程中,弓I入多詞單元作為處理單位,這樣,在進(jìn)行丟詞處理時(shí)就能夠避免將原本應(yīng)該在一起的詞項(xiàng)拆開,相對(duì)于現(xiàn)有技術(shù),能夠減小丟詞處理后的新查詢?cè)~對(duì)原始查詢?cè)~的損失,從而能夠提高查詢?cè)~處理的精度和準(zhǔn)確度;另一方面,由于多詞單元為多個(gè)詞項(xiàng)構(gòu)成的語法結(jié)構(gòu),故相對(duì)于以詞項(xiàng)為處理單位,能夠減少丟詞處理的步驟,減少處理時(shí)間,從而能夠提高查詢?cè)~處理的速度。并且在進(jìn)行查詢信息匹配時(shí),由于可以將丟詞處理后的多詞單元作為一個(gè)整體與待查詢信息進(jìn)行匹配,而不會(huì)將多詞單元分割成多個(gè)詞項(xiàng),無需對(duì)多個(gè)詞項(xiàng)進(jìn)行多次查詢匹配,相應(yīng)的提高了查詢匹配的速度,進(jìn)一步也會(huì)減輕搜索引擎服務(wù)器的工作壓力。另外,本申請(qǐng)?jiān)谠~性和語法中心詞等語法信息的基礎(chǔ)上,擴(kuò)充利用的詞法語法語義特征,并且加入豐富的統(tǒng)計(jì)特征,來對(duì)詞項(xiàng)以及多詞單元進(jìn)行多層次重要性評(píng)分,作為識(shí)別焦點(diǎn)信息以及丟詞處理的依據(jù);由于丟詞時(shí)有比較可靠的依據(jù),保留重要性得分最大的多詞單元,其余多詞單元按照重要性從小到大丟棄,能夠在保留用戶的原始查詢焦點(diǎn)的基礎(chǔ)之上,盡可能的貼近用戶原始搜索意圖,使得處理后的查詢?cè)~能夠最大程度地保留用戶的息需求。再者,本申請(qǐng)能夠根據(jù)所述查詢?cè)~的長(zhǎng)度的不同分別設(shè)計(jì)丟詞算法,具體而言,對(duì)于短的查詢?cè)~來說,盡量以小的多詞單元為單位來進(jìn)行丟詞處理,例如單個(gè)詞項(xiàng)或者較短的多詞單元。以減少對(duì)用戶查詢意圖的改變和損失;對(duì)于長(zhǎng)的查詢?cè)~來說,盡量以較大的多詞單元為單位來進(jìn)行丟詞處理,在原查詢結(jié)果為零結(jié)果或少結(jié)果時(shí),可以提高丟詞處理之后的新查詢?cè)~有查詢結(jié)果的可能性。并且,由于根據(jù)查詢?cè)~的長(zhǎng)度的不同進(jìn)行不同的丟詞處理,具體來說,如果無論針對(duì)長(zhǎng)查詢?cè)~還是短查詢?cè)~都采用較小的多詞單元為單位來進(jìn)行丟詞處理,則會(huì)降低查詢?cè)~的丟詞處理速度,而如果針對(duì)長(zhǎng)查詢?cè)~,采用較大的多詞單元進(jìn)行丟詞處理,將會(huì)加快查詢?cè)~的丟詞處理速度。
圖I是本申請(qǐng)一種查詢?cè)~的處理方法實(shí)施例的流程圖;圖2是本申請(qǐng)一種查詢?cè)~的處理裝置實(shí)施例I的結(jié)構(gòu)圖;圖3是本申請(qǐng)一種查詢?cè)~的處理裝置實(shí)施例2的結(jié)構(gòu)圖。
具體實(shí)施方式
為使本申請(qǐng)的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本申請(qǐng)作進(jìn)一步詳細(xì)的說明。本申請(qǐng)實(shí)施例的核心構(gòu)思之一在于,在處理查詢?cè)~的過程中,引入多詞單元作為處理單位,這樣,在進(jìn)行丟詞處理時(shí)就能夠避免將原本應(yīng)該作為一個(gè)整體的詞項(xiàng)拆開,相對(duì)于現(xiàn)有技術(shù),能夠減小丟詞處理后的新查詢?cè)~對(duì)原始查詢?cè)~的損失,從而能夠提高查詢?cè)~處理的精度和準(zhǔn)確度;另一方面,由于多詞單元為多個(gè)詞項(xiàng)構(gòu)成的語法結(jié)構(gòu),故相對(duì)于以詞項(xiàng)為處理單位,能夠減少丟詞處理的步驟,減少處理時(shí)間,從而能夠提高查詢?cè)~處理的速度。對(duì)于用戶而言,由于能夠減小丟詞處理后的新查詢?cè)~對(duì)原始查詢?cè)~的損失,因此,能夠在保留原查詢?cè)~信息焦點(diǎn)的基礎(chǔ)之上,使得處理后的查詢?cè)~夠最大程度地保留用戶的信息需求,從而返回給用戶的搜索結(jié)果也能夠準(zhǔn)確反映用戶的信息需求,能夠提高用戶的搜索使用體驗(yàn)。參照?qǐng)D1,示出了本申請(qǐng)一種查詢?cè)~的處理方法實(shí)施例的流程圖,具體可以包括
·
步驟101、接收用戶輸入的查詢?cè)~,所述查詢?cè)~可以包括若干個(gè)詞項(xiàng);在實(shí)際應(yīng)用中,當(dāng)用戶存在某個(gè)信息需求時(shí),可以首先在搜索引擎的查詢?cè)~輸入頁面上輸入查詢?cè)~,此時(shí),搜索引擎可以接收所述查詢?cè)~。本申請(qǐng)可以適用于英文、法文、西班牙文等西方語言,并且,對(duì)于中文、日文、韓文等亞洲語言,也同樣適用。例如,英文中詞項(xiàng)(Word)主要指英文單詞,中文中詞項(xiàng)主要指中文詞,等等。下面主要以英文為例進(jìn)行說明,其它語言的查詢?cè)~處理請(qǐng)相互參照即可。步驟102、識(shí)別所述查詢?cè)~中的多詞單元,所述多詞單元為多個(gè)詞項(xiàng)構(gòu)成的語法結(jié)構(gòu);多詞單元(MWU,Multi-Word Unit)是在語法上合理,具有一定語義,搭配較為緊密,由多個(gè)詞語構(gòu)成的語法結(jié)構(gòu),其可以包括多詞短語、多詞固定搭配、多詞習(xí)語和多詞術(shù)語等。例如,對(duì)于英文自然文本來說,多詞單元是由多個(gè)詞項(xiàng)(Word)構(gòu)成的,詞項(xiàng)間聯(lián)系緊密,作為整體表達(dá)某個(gè)意義的一個(gè)語言單位。由于多詞單元能夠整體性地標(biāo)識(shí)一個(gè)實(shí)體、屬性或者動(dòng)作,因而在稍后的丟詞處理時(shí)需要將其作為一個(gè)整體進(jìn)行處理。例如!“permanent make up machine thelux”中的“permanent make up”即是多詞單兀。淺層語段為多個(gè)詞項(xiàng)構(gòu)成的短語層次結(jié)構(gòu),其通常為按照一定的語法規(guī)則將一個(gè)自然語言文本劃分而成的名詞短語,其能夠反映詞匯之間在短語層次上的一種整體關(guān)系。而作為一個(gè)整體的實(shí)體、屬性或者動(dòng)作,多詞單元通常不會(huì)跨語段,因此,對(duì)多詞單元的識(shí)別應(yīng)該在一個(gè)淺層語段內(nèi)進(jìn)行。綜上,在本申請(qǐng)的一種優(yōu)選實(shí)施例中,可以通過以下步驟識(shí)別所述查詢?cè)~中的多詞單元步驟Al、將所述查詢?cè)~劃分為多個(gè)淺層語段,所述淺層語段為多個(gè)詞項(xiàng)構(gòu)成的短語層次結(jié)構(gòu)步驟A2、依次處理各淺層語段,從前往后取得相應(yīng)的多詞單元。更為優(yōu)選的,所述處理各淺層語段的步驟,可以進(jìn)一步包括步驟I :讀取一個(gè)淺層語段,并以該淺層語段的起始位置作為當(dāng)前多詞單元的起始位置;步驟2 :從當(dāng)前多詞單元的起始位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng);步驟3 :根據(jù)所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征,判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元,若是,則執(zhí)行步驟4,否則,執(zhí)行步驟5 ;步驟4 :保存該多詞單元,以下一個(gè)詞項(xiàng)所在位置作為當(dāng)前多詞單元的起始位置,并返回步驟2;步驟5 :判斷下一個(gè)詞項(xiàng)所在位置是否為該淺層語段的結(jié)束位置,若是,則結(jié)束所述處理過程,否則,執(zhí)行步驟6 ;
步驟6 :從下一個(gè)詞項(xiàng)所在位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng),并返回步驟3。從統(tǒng)計(jì)的角度講,可簡(jiǎn)單的認(rèn)為在用戶查詢中連續(xù)出現(xiàn)頻率大于一定值的幾個(gè)詞項(xiàng)組成一個(gè)多詞單元;因此,在具體實(shí)現(xiàn)中,統(tǒng)計(jì)特征可以作為對(duì)多詞單元的識(shí)別的一個(gè)依據(jù)。另外,由于多詞單元中包括的單詞數(shù)目往往大于等于2,因此,為了識(shí)別所有的多詞單元,需要統(tǒng)計(jì)2個(gè)詞連續(xù)出現(xiàn)的頻率,3個(gè)詞連續(xù)出現(xiàn)的頻率,4個(gè)詞連續(xù)出現(xiàn)的頻等等,即要統(tǒng)計(jì)所有大于等于2元的ngram信息(這里ngram是大詞匯連續(xù)語音識(shí)別中常用的一種語言模型),這樣將導(dǎo)致計(jì)算量的爆炸增長(zhǎng),語言處理中一般不適合采用。為此,本申請(qǐng)采取一種簡(jiǎn)單的模式,認(rèn)為多個(gè)詞項(xiàng)間的聯(lián)系緊密程度取決于兩兩詞項(xiàng)之間的緊密程度,并且不考慮非毗鄰的詞項(xiàng)。因此,在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征可以包括統(tǒng)計(jì)特征;所述判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元的步驟,可以包括判斷所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征的連續(xù)出現(xiàn)頻率是否大于第一閾值,若是,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單
J Li ο例如,本申請(qǐng)可以定義滿足如下條件的詞項(xiàng)組成一個(gè)多詞單元原查詢?cè)~q = W1W2. . . wn, Wi表示查詢中的一個(gè)詞項(xiàng)多詞單元s= WiWw. · · wi+ms需要滿足下列條件①f (Wj, wJ+1) >= C,其中,i 彡 j < i+m, f (Wj, wJ+1)為 Wj, wJ+1 兩個(gè)詞項(xiàng)的連續(xù)出現(xiàn)頻率,C為一常數(shù)閾值。②i彡cs,i+m彡(V Cs為某一淺層語段的起始位置,(^為某一淺層語段結(jié)束位置。此外,在電子商務(wù)查詢中品牌詞+產(chǎn)品詞這樣的組合經(jīng)常出現(xiàn)在用戶查詢中,因此這樣的組合的統(tǒng)計(jì)頻率一般會(huì)比較高,且這樣的組合一般會(huì)被劃分在一個(gè)淺層語段中,但是由于這樣的組合中包含兩個(gè)單獨(dú)的意義,并不滿足多詞單元的概念,需要被分開。由于品牌詞+產(chǎn)品詞為語義特征,因此,在本申請(qǐng)的另一種優(yōu)選實(shí)施例中,可以在語義的層次又對(duì)多詞單元的識(shí)別作出限制,以進(jìn)一步提高多詞單元識(shí)別的準(zhǔn)確率。所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征可以包括語義特征;所述判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元的步驟,可以進(jìn)一步包括判斷當(dāng)前詞項(xiàng)的語義特征和下一詞項(xiàng)的語義特征是否均為特定的語義特征,若否,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單
J Li ο假設(shè)特定的語義特征為品牌,則所述判斷可以為,如果當(dāng)前詞項(xiàng)的語義標(biāo)示為品牌,且下一詞項(xiàng)的語義標(biāo)示不是品牌,則可以確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所
在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單元。以上對(duì)兩種當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征(統(tǒng)計(jì)特征和語義特征)進(jìn)行了詳細(xì)介紹,可以理解,本領(lǐng)域技術(shù)人員可以根據(jù)需要聯(lián)合使用所述兩種當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征,或者,使用其中任一種,本申請(qǐng)對(duì)此不加以限制。另外,本申請(qǐng)還可以使用其它當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征,例如,對(duì)多詞單元的識(shí)別還可以加入詞項(xiàng)之間的互信息,比如兩個(gè)詞項(xiàng)的連續(xù)出現(xiàn)頻率分別占兩個(gè)詞項(xiàng)單獨(dú)出現(xiàn)的頻率的比例,該比例越大,則兩個(gè)詞項(xiàng)屬于一個(gè)多詞單元的概率也就越大。步驟103、以所述查詢?cè)~中的多詞單元和除多詞單元外的詞項(xiàng)為處理單位,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。在步驟102識(shí)別出了所述查詢?cè)~中的多詞單元后,本申請(qǐng)中丟詞處理的處理單位既包括識(shí)別出來的多詞單元,又包括沒有被識(shí)別進(jìn)任何一個(gè)多詞單元的單個(gè)詞項(xiàng)。由于引入多詞單元作為處理單位,這樣,在進(jìn)行丟詞處理時(shí)就能夠避免將原本應(yīng)該在一起的詞項(xiàng)拆開,相對(duì)于現(xiàn)有技術(shù),能夠減小丟詞處理后的新查詢?cè)~對(duì)原始查詢?cè)~的損失,從而能夠提高查詢?cè)~處理的精度和準(zhǔn)確度;另一方面,由于多詞單元為多個(gè)詞項(xiàng)構(gòu)成的語法結(jié)構(gòu),故相對(duì)于以詞項(xiàng)為處理單位,能夠減少丟詞處理的步驟,減少處理時(shí)間,從而能夠提高查詢?cè)~處理的速度。并且在進(jìn)行查詢信息匹配時(shí),可以將丟詞處理后剩余的多詞單元作為一個(gè)整體與待查詢信息進(jìn)行匹配,而不會(huì)將多詞單元分割成多個(gè)詞項(xiàng),無需對(duì)多個(gè)詞項(xiàng)進(jìn)行多次查詢匹配,相應(yīng)的提高了查詢匹配的速度,進(jìn)一步也會(huì)減輕搜索引擎服務(wù)器的工作壓力。為了進(jìn)一步保證丟詞處理后的新查詢?cè)~能夠盡量的保留用戶的原始搜索意圖,需要對(duì)每一個(gè)處理單位相對(duì)于查詢整體的重要性進(jìn)行一個(gè)評(píng)估。而多詞單元的重要性依賴于組成這個(gè)多詞單元的各個(gè)詞的重要性,因此先以詞項(xiàng)的級(jí)別對(duì)每一個(gè)詞項(xiàng)進(jìn)行重要性打分,之后再對(duì)各個(gè)多詞單元進(jìn)行重要性打分。詞項(xiàng)重要性(TermRank),一般指一段自然語言文本中,某個(gè)詞項(xiàng)在表示文本所指內(nèi)容上的重要性衡量。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,可以通過如下步驟對(duì)詞項(xiàng)進(jìn)行重要性評(píng)估依據(jù)統(tǒng)計(jì)特征、詞級(jí)特征、語法特征和語義特征中的一種或多種,評(píng)估詞項(xiàng)的重要性。(I)統(tǒng)計(jì)特征其具體可以包括單個(gè)詞項(xiàng)的頻率信息,詞項(xiàng)作為獨(dú)立查詢出現(xiàn)的頻率信息,詞項(xiàng)作為中心詞的頻率信息,詞項(xiàng)作為修飾詞的頻率信息等。(2)詞級(jí)特征,具體可以包括詞項(xiàng)長(zhǎng)度過短或過長(zhǎng)的詞項(xiàng)預(yù)示某種詞項(xiàng)主題重要性的區(qū)別;詞項(xiàng)是否由純數(shù)字構(gòu)成由純數(shù)字組成的詞項(xiàng)與其他詞項(xiàng)相比可能具有不同的主題重要性;詞項(xiàng)的后綴詞項(xiàng)的后綴在一定程度上表明了詞項(xiàng)的類別信息,如“er”、“0r”等。(3)語法特征,具體可以包括詞性詞性能夠在一定程度上反映詞項(xiàng)的重要程度,比如形容詞,副詞反映信息焦 點(diǎn)的可能性比較小,更多反映的是對(duì)信息焦點(diǎn)的屬性以及類別修飾關(guān)系,而名詞性詞匯則對(duì)信息主題的貢獻(xiàn)相對(duì)較大;淺層語段(Chunk):語段信息能夠反映詞匯之間在語法層次上的一種整體關(guān)系,可以作為由統(tǒng)計(jì)信息獲取的詞間關(guān)系在具體查詢處理應(yīng)用的一個(gè)有效補(bǔ)充;語法中心詞根據(jù)語法和模板信息所識(shí)別的中心詞在很大程度上能夠幫助對(duì)信息主題焦點(diǎn)進(jìn)行識(shí)別;語段中的出現(xiàn)位置語段中的出現(xiàn)位置可以反映詞項(xiàng)距離語法中心詞的遠(yuǎn)近程度,從而間接反映詞項(xiàng)對(duì)信息焦點(diǎn)的修飾緊密程度和信息量。(4)語義特征詞項(xiàng)所對(duì)應(yīng)的語義標(biāo)簽被抽取為語義的特征,所采用的語義標(biāo)簽具體可以包括產(chǎn)品名標(biāo)不詞項(xiàng)為某一產(chǎn)品詞或產(chǎn)品詞的一部分。品牌名標(biāo)示詞項(xiàng)為某一品牌詞或品牌詞的一部分。型號(hào)名標(biāo)不詞項(xiàng)為某一型號(hào)詞或型號(hào)詞的一部分。地名標(biāo)示詞項(xiàng)為一個(gè)地域名稱或地域名稱的一部分。在具體應(yīng)用中,可分別根據(jù)上述特征對(duì)詞項(xiàng)的重要性的影響設(shè)置相應(yīng)的值,各個(gè)值相乘即得到最后的詞項(xiàng)的重要性?,F(xiàn)有技術(shù)往往單純基于詞性和語法中心詞等語法信息,來計(jì)算詞項(xiàng)重要性,識(shí)別信息焦點(diǎn),單純把名詞和中心詞認(rèn)為是重要的詞,利用的信息不夠充分,對(duì)詞項(xiàng)重要性的刻畫以及信息焦點(diǎn)的識(shí)別不夠準(zhǔn)確,基于這樣的重要性刻畫來進(jìn)行丟詞,可能把更重要的詞丟掉,導(dǎo)致推薦的處理結(jié)果與用戶的原始意圖相差較大。比如“mill equipment”,mill為動(dòng)詞,equipment為名詞,而且equipment是中心詞,按照這樣重要性是equipment大于mill,但若把mill丟掉,保留一個(gè)寬泛的equipment的話,用戶的意圖就看不出來了。實(shí)際上,對(duì)于這個(gè)查詢來說,丟掉equipment保留mill,跟用戶的查詢意圖更接近。而本申請(qǐng)?jiān)谠~性和語法中心詞等語法信息的基礎(chǔ)上,擴(kuò)充利用的詞法語法語義特征,并且加入豐富的統(tǒng)計(jì)特征,來對(duì)詞項(xiàng)以及多詞單元進(jìn)行多層次重要性評(píng)分,作為識(shí)別焦點(diǎn)信息以及丟詞處理的依據(jù)。能夠使得對(duì)詞項(xiàng)重要性的刻畫以及信息焦點(diǎn)的識(shí)別更加準(zhǔn)確,基于這樣的重要性刻畫來進(jìn)行丟詞處理,能夠在保留原查詢?cè)~信息焦點(diǎn)的基礎(chǔ)之上,使得處理后的查詢?cè)~能夠最大程度地保留用戶的信息需求。在本申請(qǐng)的另一種優(yōu)選實(shí)施例中,可以通過如下步驟對(duì)多詞單元進(jìn)行重要性評(píng)估依據(jù)該多詞單元中各詞項(xiàng)的重要性、各詞項(xiàng)間關(guān)系和該多詞單元在所述查詢?cè)~中的位置,對(duì)該多詞單元進(jìn)行重要性評(píng)估。在具體實(shí)現(xiàn)中,可以首先選擇該多詞單元中得分最大的詞項(xiàng)的分?jǐn)?shù)作為該多詞單元的基本分?jǐn)?shù),然后結(jié)合若干語法規(guī)則對(duì)此進(jìn)行修正。例如,介詞往往對(duì)查詢意圖主體具有某種指示作用’據(jù)此’利用“化”夕作^‘“訪”這樣的介詞相對(duì)于多詞單元的位置對(duì)對(duì)多詞單元的重要性分值做一個(gè)調(diào)整。如果該多詞單元的前面有“in”、“for”、“with”等介詞,對(duì)該多詞單元的重要性分值乘以一個(gè)小于I的小數(shù),如果該多詞單元的后面有“in”、“f0r”、“With”,對(duì)該多詞單元的重要性分值乘以一個(gè)大于I的整數(shù)。因此,在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述方法還可以包括·分別對(duì)所述查詢?cè)~中的各多詞單元和除多詞單元外的各詞項(xiàng)進(jìn)行重要性評(píng)估,得到相應(yīng)的重要性評(píng)估結(jié)果;相應(yīng)地,所述對(duì)所述查詢?cè)~進(jìn)行丟詞處理的步驟,具體可以包括將所述查詢?cè)~中所有處理單位的重要性評(píng)估結(jié)果,從小到大進(jìn)行排序;基于優(yōu)先丟掉排在前面的處理單位的原理,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。例如,在對(duì)包含2個(gè)處理單位的查詢?cè)~進(jìn)行丟詞處理時(shí),可以首先按照重要性評(píng)估結(jié)果,優(yōu)先丟掉重要性較低的處理單位?,F(xiàn)有技術(shù)在進(jìn)行丟詞處理時(shí),往往對(duì)所有長(zhǎng)度的查詢?cè)~一視同仁,采用同樣的詞項(xiàng)過濾規(guī)則,并沒有考慮短查詢和長(zhǎng)查詢不同的丟詞需求。實(shí)際上,對(duì)于短的查詢?cè)~來說,丟掉一個(gè)處理單位對(duì)用戶查詢意圖的改變較大,所以在丟詞時(shí)要盡量以小的單位丟,例如單個(gè)詞項(xiàng)或者較短的多詞單元。對(duì)于長(zhǎng)的查詢?cè)~來說,丟掉一個(gè)處理單位對(duì)用戶的查詢意圖改變較小,但在原查詢是零結(jié)果或少結(jié)果的情況下,丟掉一個(gè)處理單位后的查詢又可能還是零結(jié)果或少結(jié)果,對(duì)改善用戶的搜索體驗(yàn)沒有太大的作用;而如果以較大的多詞單元為單位來進(jìn)行丟詞處理的話,可以提高丟詞處理之后的新查詢?cè)~有查詢結(jié)果的可能性。并且,由于根據(jù)查詢?cè)~的長(zhǎng)度的不同進(jìn)行不同的丟詞處理,具體來說,如果無論針對(duì)長(zhǎng)查詢?cè)~還是短查詢?cè)~都采用較小的多詞單元為單位來進(jìn)行丟詞處理,則會(huì)降低查詢?cè)~的丟詞處理速度,而如果針對(duì)長(zhǎng)查詢?cè)~,采用較大的多詞單元進(jìn)行丟詞處理,將會(huì)加快查詢?cè)~的丟詞處理速度。因此,在本申請(qǐng)的一種優(yōu)選實(shí)施例中,提出了一種根據(jù)所述查詢?cè)~的長(zhǎng)度的不同分別設(shè)計(jì)丟詞算法的思路。此時(shí),所述對(duì)查詢?cè)~進(jìn)行丟詞處理的步驟,具體可以包括獲取所述查詢?cè)~的長(zhǎng)度;根據(jù)所述查詢?cè)~的長(zhǎng)度,選擇丟詞算法對(duì)所述查詢?cè)~進(jìn)行丟詞處理,其中,不同查詢?cè)~的長(zhǎng)度對(duì)應(yīng)不同的丟詞算法。本申請(qǐng)主要針對(duì)2詞查詢、3詞查詢、4詞及以上查詢?cè)O(shè)計(jì)了不同的丟詞算法。(I) 2詞查詢丟詞算法整體丟詞優(yōu)先級(jí)如下寬泛詞>冗余詞、數(shù)字>地名、停用詞>普通詞,在上述優(yōu)先級(jí)基礎(chǔ)之上,按照前面詞項(xiàng)重要性得分優(yōu)先級(jí)從小到大丟。單個(gè)的寬泛詞、冗余詞、數(shù)字、地名以及停用詞不作為縮寫推薦結(jié)果。(2) 3詞查詢丟詞算法
若3個(gè)詞都是獨(dú)立的處理單位,且不包含品牌、地名、停用詞、冗余詞的時(shí)候,按照與中心詞的的bigram(二元語法)頻率從小到大丟,若兩個(gè)詞與中心詞的bigram頻率都比較小,且中心詞的重要性得分是其他兩個(gè)詞的重要性得分之和的5倍以上的時(shí)候,中心詞也可以作為單獨(dú)的縮寫推薦結(jié)果推出。另外,在包含2個(gè)處理單位時(shí),可以首先按照重要性評(píng)估結(jié)果,優(yōu)先丟掉重要性較低的處理單位;在僅包含一個(gè)處理單位的時(shí)候,可以按照詞項(xiàng)重要性,丟掉其中的地名、數(shù)字、冗余詞,剩余部分作為處理結(jié)果輸出。(3) 4詞以及4詞以上查詢丟詞算法在本申請(qǐng)的一種應(yīng)用示例中,4詞以及4詞以上查詢丟詞算法對(duì)于需要用到重要性評(píng)估結(jié)果,具體可以包括
①丟掉查詢中的地名、停用詞以及數(shù)字詞項(xiàng),剩余部分作為一個(gè)縮寫推薦結(jié)果,并作為下面②、③丟詞操作的輸入。②如果查詢中包含連詞,去掉連詞及其前面的部分,剩余部分作為一個(gè)處理結(jié)果,連詞及其后面的部分去掉,剩余部分作為一個(gè)推薦結(jié)果。③將各個(gè)處理單位按照重要性評(píng)估結(jié)果從小到大排序,按照得分從小到大一次處理每個(gè)處理單位,對(duì)于當(dāng)前處理單位,將其丟掉產(chǎn)生一個(gè)處理結(jié)果;如果該查詢包含品牌詞,且品牌詞所在的處理單位已經(jīng)被丟棄,則可以將品牌詞所在處理單位恢復(fù),與當(dāng)前處理結(jié)果合并作為一個(gè)處理結(jié)果推出。在實(shí)際中,可針對(duì)每個(gè)處理結(jié)果按照其剩余詞項(xiàng)的得分占原查詢的比例設(shè)定一個(gè)排序分值。處理完所有的丟詞單位后,將處理結(jié)果進(jìn)行排序,取排名在前的幾個(gè)作為丟詞處
理的最后結(jié)果。需要說明的是,在具體實(shí)現(xiàn)中,對(duì)詞項(xiàng)重要性的計(jì)算,可以用機(jī)器學(xué)習(xí)排序的方法,例如采用rank SVM(支持向量機(jī),support vector machine)排序?qū)W習(xí)模型,獲取合適的訓(xùn)練標(biāo)注樣本,將本申請(qǐng)中利用的各項(xiàng)特征表示為一個(gè)特征向量,進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練,進(jìn)而用訓(xùn)練出來的模型對(duì)新查詢的詞項(xiàng)重要性進(jìn)行評(píng)分。其次,本申請(qǐng)?jiān)谟?jì)算詞項(xiàng)重要性時(shí),用到了很多特征規(guī)則,在不同的情況下可以選擇其中的一部份規(guī)則(子集)來進(jìn)行計(jì)算,也可再加上別的規(guī)則(超集)來進(jìn)行計(jì)算;本申請(qǐng)對(duì)這些特征規(guī)則的具體應(yīng)用方式不加以限制。再者,多詞單元的重要性評(píng)估可以由詞項(xiàng)重要性的不同組合手段表示,例如詞項(xiàng)重要性的加權(quán)平均等。此外,多詞單元的重要性可以結(jié)合更多的語法和語義信息進(jìn)行計(jì)算。另外,本申請(qǐng)?jiān)趫?zhí)行丟詞算法時(shí),用到了很多特征規(guī)則,在不同的情況下可以選擇其中的一部份規(guī)則(子集)來進(jìn)行計(jì)算,也可再加上別的規(guī)則(超集)來進(jìn)行計(jì)算;本申請(qǐng)對(duì)這些特征規(guī)則的具體應(yīng)用方式不加以限制。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,在識(shí)別所述查詢?cè)~中的多詞單元前,所述方法還可以包括對(duì)所述查詢?cè)~進(jìn)行預(yù)處理操作,所述預(yù)處理操作具體可以包括大小寫轉(zhuǎn)換,標(biāo)點(diǎn)符號(hào)過濾,詞性標(biāo)注,淺層語段劃分,中心詞抽取,詞項(xiàng)特殊語義標(biāo)記中的一種或多種。上面對(duì)一種查詢?cè)~的在線處理過程進(jìn)行了詳細(xì)說明,需要說明的是,可以離線統(tǒng)計(jì)多詞單元識(shí)別以及對(duì)多詞單元和詞項(xiàng)重要性評(píng)估所用到的統(tǒng)計(jì)特征。
所述離線統(tǒng)計(jì)的來源可以包括以下幾個(gè)方面,一個(gè)是查詢?nèi)罩?,另一個(gè)語義詞表資源,如產(chǎn)品名稱表等。對(duì)不同來源的數(shù)據(jù)按照線性差值進(jìn)行計(jì)算。統(tǒng)計(jì)的特征主要可以包括(I) ngram詞項(xiàng)頻率信息主要可以包括unigram信息即單個(gè)詞項(xiàng)X的出現(xiàn)頻率f (X)以及bigram信息即雙詞詞項(xiàng)出現(xiàn)頻率f (X,y),其中X,y表示兩個(gè)相鄰的詞項(xiàng)。.unigram統(tǒng)計(jì)信息在對(duì)詞項(xiàng)進(jìn)行重要性評(píng)估的時(shí)候可以作為一個(gè)特征。bigram統(tǒng)計(jì)信息對(duì)于多詞單元的識(shí)別有重要的意義,也可以作為特征來進(jìn)行詞項(xiàng)重要性的評(píng)估。(2)詞項(xiàng)獨(dú)立性 單個(gè)詞項(xiàng)和雙詞詞項(xiàng)在查詢?nèi)罩局械莫?dú)立出現(xiàn)程度在很大程度上表征了詞項(xiàng)的信息量.單獨(dú)出現(xiàn)過的詞項(xiàng)表示特定信息主題的權(quán)重比較高.詞項(xiàng)獨(dú)立性的實(shí)現(xiàn)可定義如下Ind (t) = log (find (t) +c)其中,find(t)為詞項(xiàng)在查詢點(diǎn)擊日志中獨(dú)立作為查詢出現(xiàn)的次數(shù),c為一平滑常數(shù)。該信息將作為詞項(xiàng)重要性評(píng)估時(shí)的一個(gè)重要特征。(3)詞項(xiàng)作為中心詞(head)和修飾詞(modifier)的概率.h(x) = ^-m(x) = ^-
/0) /0)其中,f (Xh)表示詞項(xiàng)在中心詞位置上出現(xiàn)的頻率,f (Xffl)表示詞項(xiàng)在修飾詞位置上的出現(xiàn)頻率。參數(shù)統(tǒng)計(jì)中,將單個(gè)NP (名詞短語,Noun Phrase)中最右端詞項(xiàng)作為中心詞出現(xiàn)位置,其他作為修飾詞出現(xiàn)位置。為使本領(lǐng)域技術(shù)人員更好地理解本申請(qǐng),以下通過一個(gè)具體的示例說明本申請(qǐng)對(duì)用戶輸入的查詢?cè)~進(jìn)行處理的過程;假設(shè)用戶輸入的查詢?cè)~為“l(fā)adies black flowerflat shoe in australia”,則所述處理過程具體可以包括步驟SI、預(yù)處理;首先對(duì)該查詢?cè)~進(jìn)行詞性標(biāo)注、語段劃分(ladies, black flower flat shoe, inaustrilia)和中心詞抽取(shoe)等等。步驟S2、進(jìn)行多詞單元識(shí)別;第一個(gè)淺層語段只有一個(gè)詞ladies,故ladies單獨(dú)成一個(gè)詞項(xiàng);假設(shè)第二個(gè)淺層語段black flower的連續(xù)出現(xiàn)頻率大于閾值C, flower flat的連續(xù)出現(xiàn)頻率小于閾值C,flat shoe的連續(xù)出現(xiàn)頻率大于C,,所以,將black flower確定為一個(gè)多詞單元,將flatshoe確定為一個(gè)多詞單元;in austrilia是一個(gè)淺層語段。步驟S3、分別對(duì)所述查詢?cè)~中的各多詞單元和除多詞單元外的各詞項(xiàng)的重要性進(jìn)行打分首先對(duì)每一個(gè)詞項(xiàng)進(jìn)行打分,最后得分分別為O. 73,O. 08,I. 26,O. 58,4. 24,O. 31,
0.21,0. 01 ;然后對(duì)多詞單兀進(jìn)行打分,black flower為I. 26, flat shoe為4· 24, inaustrilia為O. 01,然后因?yàn)橛薪樵~in的存在,對(duì)flat shoe和in austrilia分?jǐn)?shù)做調(diào)整,分別為8. 28和O. 005.步驟S4、所述對(duì)所述查詢?cè)~進(jìn)行丟詞處理;所含單詞個(gè)數(shù)> 4,故依據(jù)相應(yīng)的算法進(jìn)行丟詞處理。首先丟掉地名和支前的介詞,變成ladies black flower flat shoe ;然后按照多詞單元得分從小到大丟,首先丟掉ladies, black flower flat shoe 作為一個(gè)推薦詞,丟掉 blackflower 變成 ladies flatshoe作為一個(gè)推薦詞,丟掉ladies和black flower, flat shoe作為一個(gè)推薦詞,每個(gè)推薦詞剩余詞項(xiàng)的得分之和與原查詢各詞項(xiàng)得分總和之比作為該推薦詞的分?jǐn)?shù)進(jìn)行排序,得到最后的推薦詞集合。上面以英文查詢?cè)~為例描述了查詢?cè)~處理的過程,本申請(qǐng)還給出了一個(gè)中文查詢?cè)~的處理示例。 假設(shè)用戶輸入查詢?cè)~“面包形狀鑰匙扣”,則可以識(shí)別出其中的多詞單元“面包”、“形狀”和“鑰匙扣”三個(gè)單位;由于“鑰匙扣”是中心詞,按照一定的規(guī)則打分后,得分由小到大排列為“形狀”、“面包”、“鑰匙扣”;按照得分由小到大丟詞,第一個(gè)縮寫結(jié)果為“面包鑰匙扣”、第二個(gè)縮寫結(jié)果為“鑰匙扣”,也即最后得到的推薦詞集合包括“面包鑰匙扣”和“鑰匙扣”。本申請(qǐng)可以應(yīng)用于各種搜索引擎中,用于在搜索出現(xiàn)零結(jié)果或少結(jié)果時(shí)的搜索體驗(yàn)上。例如當(dāng)搜索出現(xiàn)零結(jié)果時(shí),可以通過本申請(qǐng)將原查詢?cè)~改寫成幾個(gè)新的查詢?cè)~,將改寫后的查詢?cè)~以及相應(yīng)的查詢結(jié)果展示給用戶,以提高用戶的搜索體驗(yàn)。與前述方法實(shí)施例相應(yīng),本申請(qǐng)還公開了一種查詢?cè)~的處理裝置實(shí)施例1,參照?qǐng)D2,具體可以包括接口模塊201,用于接收用戶輸入的查詢?cè)~,所述查詢?cè)~包括若干個(gè)詞項(xiàng);識(shí)別模塊202,用于識(shí)別所述查詢?cè)~中的多詞單元,所述多詞單元為多個(gè)詞項(xiàng)構(gòu)成的語法結(jié)構(gòu);及丟詞處理模塊203,用于以所述查詢?cè)~中的多詞單元和除多詞單元外的詞項(xiàng)為處理單位,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。在本申請(qǐng)實(shí)施例中,優(yōu)選的是,所述識(shí)別模塊202可以進(jìn)一步包括劃分子模塊,用于將所述查詢?cè)~劃分為多個(gè)淺層語段,所述淺層語段為多個(gè)詞項(xiàng)構(gòu)成的短語層次結(jié)構(gòu)及處理子模塊,用于依次處理各淺層語段,從前往后取得相應(yīng)的多詞單元。在本申請(qǐng)的一種優(yōu)選實(shí)施例中,所述處理子模塊可以進(jìn)一步包括語段讀取單元,用于讀取一個(gè)淺層語段,并以該淺層語段的起始位置作為當(dāng)前多詞單元的起始位置;詞項(xiàng)讀取單元,用于從當(dāng)前多詞單元的起始位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng);多詞判斷單元,用于根據(jù)所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征,判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元,若是,則觸發(fā),否貝U,執(zhí)行步驟5;過渡單元,用于保存該多詞單元,以下一個(gè)詞項(xiàng)所在位置作為當(dāng)前多詞單元的起始位置,并觸發(fā)詞項(xiàng)讀取單元;結(jié)束判斷單元,用于判斷下一個(gè)詞項(xiàng)所在位置是否為該淺層語段的結(jié)束位置,若是,則結(jié)束所述處理過程,否則,觸發(fā)讀取位置更新單元;讀取位置更新單元,用于從下一個(gè)詞項(xiàng)所在位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng),并觸發(fā)多詞判斷單元。在本申請(qǐng)實(shí)施例中,優(yōu)選的是,所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征可以包括語義特征;相應(yīng)地,所述多詞判斷單元可以進(jìn)一步包括語法語義判斷子單元,用于判斷當(dāng)前詞項(xiàng)的語義特征和下一詞項(xiàng)的語義特征是否均為特定的語義特征,若否,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單元。
·
在本申請(qǐng)實(shí)施例中,優(yōu)選的是,所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征可以包括統(tǒng)計(jì)特征;相應(yīng)地,所述多詞判斷單元可以進(jìn)一步包括統(tǒng)計(jì)判斷子單元,用于判斷所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征的連續(xù)出現(xiàn)頻率是否大于第一閾值,若是,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單元。在本申請(qǐng)的再一種優(yōu)選實(shí)施例中,所述丟詞處理模塊可以進(jìn)一步包括長(zhǎng)度獲取子模塊,用于獲取所述查詢?cè)~的長(zhǎng)度;及第二丟詞子模塊,用于根據(jù)所述查詢?cè)~的長(zhǎng)度,選擇丟詞算法對(duì)所述查詢?cè)~進(jìn)行丟詞處理,其中,不同查詢?cè)~的長(zhǎng)度對(duì)應(yīng)不同的丟詞算法。在本申請(qǐng)實(shí)施例中,優(yōu)選的是,所述裝置還可以包括預(yù)處理模塊,用于在識(shí)別所述查詢?cè)~中的多詞單元前,對(duì)所述查詢?cè)~進(jìn)行預(yù)處理操作,所述預(yù)處理操作包括大小寫轉(zhuǎn)換,標(biāo)點(diǎn)符號(hào)過濾,詞性標(biāo)注,淺層語段劃分,中心詞抽取,詞項(xiàng)特殊語義標(biāo)記中的一種或多種。參照?qǐng)D3,示出了本申請(qǐng)一種查詢?cè)~的處理裝置實(shí)施例2的結(jié)構(gòu)圖,具體可以包括接口模塊301,用于接收用戶輸入的查詢?cè)~,所述查詢?cè)~包括若干個(gè)詞項(xiàng);識(shí)別模塊302,用于識(shí)別所述查詢?cè)~中的多詞單元,所述多詞單元為多個(gè)詞項(xiàng)構(gòu)成的語法結(jié)構(gòu);評(píng)估模塊303,用于分別對(duì)所述查詢?cè)~中的各多詞單元和除多詞單元外的各詞項(xiàng)進(jìn)行重要性評(píng)估,得到相應(yīng)的重要性評(píng)估結(jié)果 '及丟詞處理模塊304,用于以所述查詢?cè)~中的多詞單元和除多詞單元外的詞項(xiàng)為處理單位,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~;所述丟詞處理模塊304可以進(jìn)一步包括排序子模塊341,用于將所述查詢?cè)~中所有處理單位的重要性評(píng)估結(jié)果,從小到大進(jìn)行排序;及第一丟詞子模塊342,用于基于優(yōu)先丟掉排在前面的處理單位的原理,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。
在本申請(qǐng)實(shí)施例中,優(yōu)選的是,所述評(píng)估模塊可以進(jìn)一步包括多詞評(píng)估子模塊,用于依據(jù)該多詞單元中各詞項(xiàng)的重要性、各詞項(xiàng)間關(guān)系和該多詞單元在所述查詢?cè)~中的位置,對(duì)該多詞單元進(jìn)行重要性評(píng)估。在本申請(qǐng)實(shí)施例中,優(yōu)選的是,所述評(píng)估模塊可以進(jìn)一步包括詞項(xiàng)評(píng)估子模塊,用于依據(jù)統(tǒng)計(jì)特征、詞級(jí)特征、語法特征和語義特征中的一種或多種,評(píng)估詞項(xiàng)的重要性。對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與 其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。以上對(duì)本申請(qǐng)所提供的一種查詢?cè)~的處理方法和裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本申請(qǐng)的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請(qǐng)的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請(qǐng)的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本申請(qǐng)的限制。
權(quán)利要求
1.一種查詢?cè)~的處理方法,其特征在于,包括 接收用戶輸入的查詢?cè)~,所述查詢?cè)~包括若干個(gè)詞項(xiàng); 識(shí)別所述查詢?cè)~中的多詞單元,所述多詞單元為多個(gè)詞項(xiàng)構(gòu)成的語法結(jié)構(gòu); 以所述查詢?cè)~中的多詞單元和除多詞單元外的詞項(xiàng)為處理單位,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。
2.如權(quán)利要求I所述的方法,其特征在于,通過以下步驟識(shí)別所述查詢?cè)~中的多詞單元 將所述查詢?cè)~劃分為多個(gè)淺層語段,所述淺層語段為多個(gè)詞項(xiàng)構(gòu)成的短語層次結(jié)構(gòu) 依次處理各淺層語段,從前往后取得相應(yīng)的多詞單元。
3.如權(quán)利要求2所述的方法,其特征在于,所述處理各淺層語段的步驟,包括 步驟I :讀取一個(gè)淺層語段,并以該淺層語段的起始位置作為當(dāng)前多詞單元的起始位置; 步驟2 :從當(dāng)前多詞單元的起始位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng); 步驟3 :根據(jù)所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征,判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元,若是,則執(zhí)行步驟4,否則,執(zhí)行步驟5; 步驟4 :保存該多詞單元,以下一個(gè)詞項(xiàng)所在位置作為當(dāng)前多詞單元的起始位置,并返回步驟2 ; 步驟5 :判斷下一個(gè)詞項(xiàng)所在位置是否為該淺層語段的結(jié)束位置,若是,則結(jié)束所述處理過程,否則,執(zhí)行步驟6 ; 步驟6 :從下一個(gè)詞項(xiàng)所在位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng),并返回步驟3。
4.如權(quán)利要求2所述的方法,其特征在于,所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征包括語義特征; 所述判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元的步驟,包括 判斷當(dāng)前詞項(xiàng)的語義特征和下一詞項(xiàng)的語義特征是否均為特定的語義特征,若否,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單元。
5.如權(quán)利要求2所述的方法,其特征在于,所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征包括統(tǒng)計(jì)特征; 所述判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元的步驟,包括 判斷所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征的連續(xù)出現(xiàn)頻率是否大于第一閾值,若是,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單元。
6.如權(quán)利要求I所述的方法,其特征在于,還包括 分別對(duì)所述查詢?cè)~中的各多詞單元和除多詞單元外的各詞項(xiàng)進(jìn)行重要性評(píng)估,得到相應(yīng)的重要性評(píng)估結(jié)果; 所述對(duì)所述查詢?cè)~進(jìn)行丟詞處理的步驟,包括將所述查詢?cè)~中所有處理單位的重要性評(píng)估結(jié)果,從小到大進(jìn)行排序; 基于優(yōu)先丟掉排在前面的處理單位的原理,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。
7.如權(quán)利要求I所述的方法,其特征在于,所述對(duì)查詢?cè)~進(jìn)行丟詞處理的步驟,包括 獲取所述查詢?cè)~的長(zhǎng)度; 根據(jù)所述查詢?cè)~的長(zhǎng)度,選擇丟詞算法對(duì)所述查詢?cè)~進(jìn)行丟詞處理,其中,不同查詢?cè)~的長(zhǎng)度對(duì)應(yīng)不同的丟詞算法。
8.如權(quán)利要求6所述的方法,其特征在于,通過如下步驟對(duì)多詞單元進(jìn)行重要性評(píng)估 依據(jù)該多詞單元中各詞項(xiàng)的重要性、各詞項(xiàng)間關(guān)系和該多詞單元在所述查詢?cè)~中的位置,對(duì)該多詞單元進(jìn)行重要性評(píng)估。
9.如權(quán)利要求6或8所述的方法,其特征在于,通過如下步驟對(duì)詞項(xiàng)進(jìn)行重要性評(píng)估 依據(jù)統(tǒng)計(jì)特征、詞級(jí)特征、語法特征和語義特征中的一種或多種,評(píng)估詞項(xiàng)的重要性。
10.如權(quán)利要求I所述的方法,其特征在于,在識(shí)別所述查詢?cè)~中的多詞單元前,所述方法還包括 對(duì)所述查詢?cè)~進(jìn)行預(yù)處理操作,所述預(yù)處理操作包括大小寫轉(zhuǎn)換,標(biāo)點(diǎn)符號(hào)過濾,詞性標(biāo)注,淺層語段劃分,中心詞抽取,詞項(xiàng)特殊語義標(biāo)記中的一種或多種。
11.一種查詢?cè)~的處理裝置,其特征在于,包括 接口模塊,用于接收用戶輸入的查詢?cè)~,所述查詢?cè)~包括若干個(gè)詞項(xiàng); 識(shí)別模塊,用于識(shí)別所述查詢?cè)~中的多詞單元,所述多詞單元為多個(gè)詞項(xiàng)構(gòu)成的語法結(jié)構(gòu) '及 丟詞處理模塊,用于以所述查詢?cè)~中的多詞單元和除多詞單元外的詞項(xiàng)為處理單位,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。
12.如權(quán)利要求11所述的裝置,其特征在于,所述識(shí)別模塊包括 劃分子模塊,用于將所述查詢?cè)~劃分為多個(gè)淺層語段,所述淺層語段為多個(gè)詞項(xiàng)構(gòu)成的短語層次結(jié)構(gòu):及 處理子模塊,用于依次處理各淺層語段,從前往后取得相應(yīng)的多詞單元。
13.如權(quán)利要求12所述的裝置,其特征在于,所述處理子模塊包括 語段讀取單元,用于讀取一個(gè)淺層語段,并以該淺層語段的起始位置作為當(dāng)前多詞單元的起始位置; 詞項(xiàng)讀取單元,用于從當(dāng)前多詞單元的起始位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng); 多詞判斷單元,用于根據(jù)所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征,判斷當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是否為一個(gè)多詞單元,若是,則觸發(fā),否則,執(zhí)行步驟5 ; 過渡單元,用于保存該多詞單元,以下一個(gè)詞項(xiàng)所在位置作為當(dāng)前多詞單元的起始位置,并觸發(fā)詞項(xiàng)讀取單元; 結(jié)束判斷單元,用于判斷下一個(gè)詞項(xiàng)所在位置是否為該淺層語段的結(jié)束位置,若是,則結(jié)束所述處理過程,否則,觸發(fā)讀取位置更新單元; 讀取位置更新單元,用于從下一個(gè)詞項(xiàng)所在位置開始,在這個(gè)淺層語段中讀取當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng),并觸發(fā)多詞判斷單元。
14.如權(quán)利要求12所述的裝置,其特征在于,所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征包括語義特征; 所述多詞判斷單元包括 語法語義判斷子單元,用于判斷當(dāng)前詞項(xiàng)的語義特征和下一詞項(xiàng)的語義特征是否均為特定的語義特征,若否,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單元。
15.如權(quán)利要求12所述的裝置,其特征在于,所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征包括統(tǒng)計(jì)特征; 所述多詞判斷單元包括 統(tǒng)計(jì)判斷子單元,用于判斷所述當(dāng)前詞項(xiàng)和下一個(gè)詞項(xiàng)的特征的連續(xù)出現(xiàn)頻率是否大于第一閾值,若是,則確定當(dāng)前多詞單元的起始位置到當(dāng)前詞項(xiàng)所在位置構(gòu)成的語法結(jié)構(gòu)是一個(gè)多詞單元。
16.如權(quán)利要求11所述的裝置,其特征在于,還包括 評(píng)估模塊,用于分別對(duì)所述查詢?cè)~中的各多詞單元和除多詞單元外的各詞項(xiàng)進(jìn)行重要性評(píng)估,得到相應(yīng)的重要性評(píng)估結(jié)果; 所述丟詞處理模塊包括 排序子模塊,用于將所述查詢?cè)~中所有處理單位的重要性評(píng)估結(jié)果,從小到大進(jìn)行排序;及 第一丟詞子模塊,用于基于優(yōu)先丟掉排在前面的處理單位的原理,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。
17.如權(quán)利要求11所述的裝置,其特征在于,所述丟詞處理模塊包括 長(zhǎng)度獲取子模塊,用于獲取所述查詢?cè)~的長(zhǎng)度 '及 第二丟詞子模塊,用于根據(jù)所述查詢?cè)~的長(zhǎng)度,選擇丟詞算法對(duì)所述查詢?cè)~進(jìn)行丟詞處理,其中,不同查詢?cè)~的長(zhǎng)度對(duì)應(yīng)不同的丟詞算法。
18.如權(quán)利要求16所述的裝置,其特征在于,所述評(píng)估模塊包括 多詞評(píng)估子模塊,用于依據(jù)該多詞單元中各詞項(xiàng)的重要性、各詞項(xiàng)間關(guān)系和該多詞單元在所述查詢?cè)~中的位置,對(duì)該多詞單元進(jìn)行重要性評(píng)估。
19.如權(quán)利要求16或18所述的裝置,其特征在于,所述評(píng)估模塊包括 詞項(xiàng)評(píng)估子模塊,用于依據(jù)統(tǒng)計(jì)特征、詞級(jí)特征、語法特征和語義特征中的一種或多種,評(píng)估詞項(xiàng)的重要性。
20.如權(quán)利要求11所述的裝置,其特征在于,還包括 預(yù)處理模塊,用于在識(shí)別所述查詢?cè)~中的多詞單元前,對(duì)所述查詢?cè)~進(jìn)行預(yù)處理操作,所述預(yù)處理操作包括大小寫轉(zhuǎn)換,標(biāo)點(diǎn)符號(hào)過濾,詞性標(biāo)注,淺層語段劃分,中心詞抽取,詞項(xiàng)特殊語義標(biāo)記中的一種或多種。
全文摘要
本申請(qǐng)?zhí)峁┝艘环N查詢?cè)~的處理方法和裝置,其中的方法具體包括接收用戶輸入的查詢?cè)~,所述查詢?cè)~包括若干個(gè)詞項(xiàng);識(shí)別所述查詢?cè)~中的多詞單元,所述多詞單元為多個(gè)詞項(xiàng)構(gòu)成的語法結(jié)構(gòu);以所述查詢?cè)~中的多詞單元和除多詞單元外的詞項(xiàng)為處理單位,對(duì)所述查詢?cè)~進(jìn)行丟詞處理,得到丟詞處理后的新查詢?cè)~。本申請(qǐng)能夠提高查詢?cè)~處理的精度、準(zhǔn)確度和速度,并且能夠在保留原查詢?cè)~信息焦點(diǎn)的基礎(chǔ)之上,使得處理后的查詢?cè)~能夠最大程度地保留用戶的信息需求。
文檔編號(hào)G06F17/30GK102890674SQ20111020110
公開日2013年1月23日 申請(qǐng)日期2011年7月18日 優(yōu)先權(quán)日2011年7月18日
發(fā)明者趙京雷, 孫麗, 楊旭, 林鋒, 馮炯 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司