專利名稱:獲取別稱匹配對的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)處理領(lǐng)域,特別是涉及獲取別稱匹配對的方法及裝置。
背景技術(shù):
人們在日常生活中,經(jīng)常會使用到別稱,其中所述別稱包括簡稱、別名、曾用名等, 例如北京大學(xué)的簡稱為"北大","汞"的別名為"水銀","北京大學(xué)"的曾用名為"京都大學(xué) 堂"等。通??梢詫⒃c別稱的對應(yīng)關(guān)系成為別稱匹配對。但是目前的搜索引擎并不能
自動處理原名與別稱之間的對應(yīng)關(guān)系,這就造成了大量網(wǎng)頁資源的浪費,影響了用戶的體 驗。例如,"鳥巢"系"國家體育場"的別稱,而某些網(wǎng)頁中可能只包含"國家體育場",而不 包含"鳥巢",此時在搜狗、百度、Google等搜索引擎中輸入關(guān)鍵詞"鳥巢",搜索結(jié)果中將無 法包括這樣的網(wǎng)頁。 現(xiàn)有技術(shù)可以通過從鏈接文本中提取別稱匹配對來解決上述問題。該現(xiàn)有技術(shù) 考慮到多個鏈接文本可以對應(yīng)同一個網(wǎng)頁,這些鏈接文本上呈現(xiàn)的文字可能相同也可能不 同,由于這些鏈接文本上呈現(xiàn)的文字包含對網(wǎng)頁內(nèi)容簡單概括的內(nèi)容,因此可能包括一個 關(guān)鍵詞原名或別稱,例如,如果某網(wǎng)頁A跟某單位相關(guān),則它對應(yīng)的鏈接文本集合中很可能 同時包含該單位對應(yīng)的原名或別稱。因此,該現(xiàn)有技術(shù)的方法是,首先假設(shè)某地點的原名與 別稱之間在字面上具有一定的相似性,比如"北京理工大學(xué)"和"北理工";然后獲取鏈接文 本中展現(xiàn)的文字,則在鏈接文本中展現(xiàn)的文字中獲取這樣具有相似性的名稱作為別稱匹配 對。這樣可以建立起保存別稱匹配對的數(shù)據(jù)庫,當(dāng)用戶在搜索引擎中輸入搜索信息時,可以 查詢數(shù)據(jù)庫,如果存在包含搜索信息的別稱匹配對時,可以給出僅包含該搜索信息別稱的 搜索結(jié)果,從而提升了用戶的體驗。 但是,上述方法在處理經(jīng)常出現(xiàn)在鏈接文本中的地名數(shù)據(jù)時比較有效,但是并不 能識別通常不會出現(xiàn)在鏈接文本中的別稱數(shù)據(jù),盡管這些別稱很常見,例如,"電視機"簡稱 "電視","化學(xué)肥料"簡稱"化肥",等。因此,需要創(chuàng)造性地提出一種識別別稱的技術(shù)手段, 來盡量全面地識別出可能出現(xiàn)的別稱匹配對。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供獲取別稱匹配對的方法及裝置,以解決現(xiàn)有技
術(shù)無法全面地識別出可能出現(xiàn)的別稱匹配對的問題。 為實現(xiàn)上述目的,本發(fā)明提供了如下方案 —種獲取別稱匹配對的方法,包括 獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容; 根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配對的字符串對; 對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對。 優(yōu)選的,所述各網(wǎng)頁上呈現(xiàn)的內(nèi)容是各網(wǎng)頁上呈現(xiàn)的文字內(nèi)容。 優(yōu)選的,所述預(yù)置規(guī)則包括信息提取符規(guī)則,所述提取包含有別稱匹配對的字符串對包括 判斷各網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的信息提取符; 如果包含所述信息提取符,判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的提 取關(guān)鍵詞; 如果包含所述關(guān)鍵詞,則根據(jù)所述信息提取符及所述關(guān)鍵詞確定包含有別稱匹配 對的字符串對。 優(yōu)選的,所述預(yù)置規(guī)則包括關(guān)鍵詞規(guī)則,所述提取包含有別稱匹配對的字符串對 包括 判斷各網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的提取關(guān)鍵詞; 如果包含所述預(yù)置的提取關(guān)鍵詞,則根據(jù)提取關(guān)鍵詞位置及特定標(biāo)點確定包含有 別稱匹配對的字符串對。 優(yōu)選的,通過以下方式對所述包含有別稱匹配對的字符串對進(jìn)行截斷 查找所述包含有別稱匹配對的字符串對是否存在預(yù)置的截斷提示符;如果存在,
根據(jù)所述預(yù)置的截斷提示符進(jìn)行截斷; 和/或,查找所述包含有別稱匹配對的字符串對中,一字符串的首字是否在另一 字符串中出現(xiàn);如果出現(xiàn),根據(jù)一字符串首字在另一字符串中出現(xiàn)的位置進(jìn)行截斷;
和/或,查找所述包含有別稱匹配對的字符串對中是否存在空格符;如果存在,根 據(jù)所述空格符出現(xiàn)的位置進(jìn)行截斷; 和/或,查找所述包含有別稱匹配對的字符串對中是否存在地名;如果存在,根據(jù) 地名出現(xiàn)的位置進(jìn)行截斷; 和/或,查詢預(yù)置詞庫,所述預(yù)置詞庫用于保存用戶使用過的查詢詞;根據(jù)預(yù)置詞
庫中的查詢詞進(jìn)行截斷。 優(yōu)選的,還包括 對獲取的別稱匹配對進(jìn)行修正。 優(yōu)選的,所述對獲取的別稱匹配對進(jìn)行修正包括 統(tǒng)計每個別稱匹配對出現(xiàn)的次數(shù),根據(jù)出現(xiàn)的次數(shù)判斷獲取的別稱匹配對的可信 度; 過濾掉可信度低于預(yù)置閾值的別稱匹配對。
優(yōu)選的,所述對獲取的別稱匹配對進(jìn)行修正包括 查找獲取的別稱匹配對中是否存在預(yù)置的截斷關(guān)鍵詞,如果存在,根據(jù)預(yù)置的截 斷關(guān)鍵詞對獲取的別稱匹配對進(jìn)行再次截斷; 或者,查找獲取的別稱匹配對中是否存在預(yù)置的過濾關(guān)鍵詞;如果存在,根據(jù)預(yù)置
的過濾關(guān)鍵詞過濾掉錯誤的別稱匹配對。 —種獲取別稱匹配對的裝置,包括 內(nèi)容獲取單元,用于獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容; 提取單元,用于根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配對的 字符串對; 截斷單元,用于對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對。
優(yōu)選的,所述提取單元包括
第一判斷子單元,用于判斷各網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的信息提取符;
如果包含,再判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的提取關(guān)鍵詞; 第一確定子單元,用于根據(jù)所述信息提取符及所述關(guān)鍵詞確定包含有別稱匹配對
的字符串對。 優(yōu)選的,所述提取單元包括 第二判斷子單元,用于判斷各網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的提取關(guān)鍵詞;
第二確定子單元,用于包含所述預(yù)置的提取關(guān)鍵詞時,根據(jù)提取關(guān)鍵詞位置及特 定標(biāo)點確定包含有別稱匹配對的字符串對。
優(yōu)選的,所述截斷單元包括 第一查找子單元,用于查找所述包含有別稱匹配對的字符串對是否包含預(yù)置的截 斷提示符; 第一截斷子單元,用于根據(jù)所述預(yù)置的截斷提示符進(jìn)行截斷; 和/或,第二查找子單元,用于查找所述包含有別稱匹配對的字符串對中,一字符 串的首字是否在另一字符串中出現(xiàn); 第二截斷子單元,用于根據(jù)一字符串首字在另一字符串中出現(xiàn)的位置進(jìn)行截斷;
和/或,第三查找子單元,用于查找所述包含有別稱匹配對的字符串對中是否包 含空格符; 第四截斷子單元,用于根據(jù)所述空格符出現(xiàn)的位置進(jìn)行截斷; 和/或,第四查找子單元,用于查找所述包含有別稱匹配對的字符串對中是否包 含地名; 第四截斷子單元,用于根據(jù)地名出現(xiàn)的位置進(jìn)行截斷; 和/或,查詢子單元,用于查詢預(yù)置詞庫,所述預(yù)置詞庫用于保存用戶使用過的查 詢詞; 第五截斷子單元,用于根據(jù)預(yù)置詞庫中的查詢詞進(jìn)行截斷。
優(yōu)選的,還包括 修正單元,用于對獲取的別稱匹配對進(jìn)行修正。
優(yōu)選的,所述修正單元包括 統(tǒng)計子單元,用于統(tǒng)計每個別稱匹配對出現(xiàn)的次數(shù),根據(jù)出現(xiàn)的次數(shù)判斷獲取的 別稱匹配對的可信度; 過濾子單元,用于過濾掉可信度低于預(yù)置閾值的別稱匹配對。
優(yōu)選的,所述修正單元包括 第一識別子單元,用于查找獲取的別稱匹配對中是否存在預(yù)置的截斷關(guān)鍵詞;
重新截斷子單元,用于根據(jù)預(yù)置的截斷關(guān)鍵詞對獲取的別稱匹配對進(jìn)行再次截 斷; 或者,第二識別子單元,用于查找獲取的別稱匹配對中是否存在預(yù)置的過濾關(guān)鍵 詞; 濾除子單元,用于根據(jù)預(yù)置的過濾關(guān)鍵詞過濾掉錯誤的別稱匹配對。
—種展現(xiàn)搜索結(jié)果的方法,包括
接收用戶輸入的搜索內(nèi)容;
獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容; 從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中獲取包含有所述搜索內(nèi)容的字符串; 根據(jù)預(yù)置規(guī)則從包含有所述搜索內(nèi)容的字符串中提取包含有所述搜索內(nèi)容別稱 的字符串; 對所述包含有所述搜索內(nèi)容別稱的字符串進(jìn)行截斷,獲取所述搜索內(nèi)容的別稱;
在搜索結(jié)果中,展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi)容的別稱的網(wǎng) 頁。 優(yōu)選的,所述預(yù)置規(guī)則包括信息提取符規(guī)則,所述根據(jù)預(yù)置規(guī)則從包含有所述搜
索內(nèi)容的字符串中提取包含有所述搜索內(nèi)容別稱的字符串包括 判斷所述包含有所述搜索內(nèi)容的字符串中是否包含預(yù)置的信息提取符; 如果包含所述信息提取符,判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的提
取關(guān)鍵詞; 如果包含所述關(guān)鍵詞,則根據(jù)所述信息提取符及所述關(guān)鍵詞,確定包含有所述搜 索內(nèi)容別稱的字符串。 優(yōu)選的,所述預(yù)置規(guī)則包括信息提取符規(guī)則,所述根據(jù)預(yù)置規(guī)則從包含有所述搜
索內(nèi)容的字符串中提取包含有所述搜索內(nèi)容別稱的字符串包括 判斷所述包含有所述搜索內(nèi)容的字符串中是否包含預(yù)置的提取關(guān)鍵詞; 如果包含所述預(yù)置的提取關(guān)鍵詞,則根據(jù)所述信息提取符及所述關(guān)鍵詞,確定包
含有所述搜索內(nèi)容別稱的字符串。 優(yōu)選的,通過以下方式對所述包含有所述搜索內(nèi)容別稱的字符串對進(jìn)行截斷
查找所述包含有所述搜索內(nèi)容別稱的字符串是否存在預(yù)置的截斷提示符;如果存 在,根據(jù)所述預(yù)置的截斷提示符進(jìn)行截斷; 和/或,查找所述包含有所述搜索內(nèi)容別稱的字符串中,所述搜索內(nèi)容的首字是 否在所述包含有所述搜索內(nèi)容別稱的字符串中出現(xiàn);如果出現(xiàn),根據(jù)搜索內(nèi)容的串首字在 在所述包含有所述搜索內(nèi)容別稱的字符串中出現(xiàn)的位置進(jìn)行截斷; 和/或,查找所述包含有所述搜索內(nèi)容別稱的字符串中是否存在空格符;如果存 在,根據(jù)所述空格符出現(xiàn)的位置進(jìn)行截斷; 和/或,查找所述包含有所述搜索內(nèi)容別稱的字符串中是否存在地名;如果存在, 根據(jù)地名出現(xiàn)的位置進(jìn)行截斷; 和/或,查詢預(yù)置詞庫,所述預(yù)置詞庫用于保存用戶使用過的查詢詞;根據(jù)預(yù)置詞
庫中的查詢詞進(jìn)行截斷。 優(yōu)選的,還包括 對獲取到的所述搜索內(nèi)容的別稱進(jìn)行修正。
—種搜索引擎系統(tǒng),包括 接口模塊,用于接收用戶輸入的搜索內(nèi)容; 內(nèi)容獲取模塊,用于獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容; 查找模塊,用于從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中獲取包含有所述搜索內(nèi)容的字符串;
提取模塊,用于根據(jù)預(yù)置規(guī)則從包含有所述搜索內(nèi)容的字符串中提取包含有所述 搜索內(nèi)容別稱的字符串;
截斷模塊,用于對所述包含有所述搜索內(nèi)容別稱的字符串進(jìn)行截斷,獲取所述搜 索內(nèi)容的別稱; 展現(xiàn)模塊,用于在搜索結(jié)果中,展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi) 容的別稱的網(wǎng)頁。 優(yōu)選的,所述預(yù)置規(guī)則包括信息提取符規(guī)則,所述提取模塊包括
第一判斷子模塊,用于判斷所述包含有所述搜索內(nèi)容的字符串中是否包含預(yù)置 的信息提取符;如果包含,再判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的提取關(guān)鍵 詞; 第一確定子模塊,用于根據(jù)所述信息提取符及所述關(guān)鍵詞,確定包含有所述搜索 內(nèi)容別稱的字符串。 優(yōu)選的,所述預(yù)置規(guī)則包括關(guān)鍵詞規(guī)則,所述提取模塊包括 第二判斷子模塊,用于判斷所述包含有所述搜索內(nèi)容的字符串中是否包含預(yù)置的 提取關(guān)鍵詞; 第二確定子模塊,用于包含所述預(yù)置的提取關(guān)鍵詞時,根據(jù)所述信息提取符及所 述關(guān)鍵詞,確定包含有所述搜索內(nèi)容別稱的字符串。
優(yōu)選的,所述截斷模塊包括 第一查找子模塊,用于查找所述包含有所述搜索內(nèi)容別稱的字符串是否存在預(yù)置 的截斷提示符; 第一截斷子模塊,用于根據(jù)所述預(yù)置的截斷提示符進(jìn)行截斷; 和/或,第二查找子模塊,用于查找所述包含有所述搜索內(nèi)容別稱的字符串對中, 所述搜索內(nèi)容的首字是否在所述包含有所述搜索內(nèi)容別稱的字符串中出現(xiàn);
第二截斷子模塊,用于根據(jù)搜索內(nèi)容的串首字在在所述包含有所述搜索內(nèi)容別稱 的字符串中出現(xiàn)的位置進(jìn)行截斷; 和/或,第三查找子模塊,用于查找所述包含有所述搜索內(nèi)容別稱的字符串中是 否存在空格符; 第四截斷子模塊,用于根據(jù)所述空格符出現(xiàn)的位置進(jìn)行截斷; 和/或,第四查找子模塊,用于查找所述包含有所述搜索內(nèi)容別稱的字符串中是 否存在地名; 第四截斷子模塊,用于根據(jù)地名出現(xiàn)的位置進(jìn)行截斷; 和/或,查詢子模塊,用于查詢預(yù)置詞庫,所述預(yù)置詞庫用于保存用戶使用過的查 詢詞; 第五截斷子模塊,用于根據(jù)預(yù)置詞庫中的查詢詞進(jìn)行截斷。
優(yōu)選的,還包括 修正模塊,用于對獲取到的所述搜索內(nèi)容的別稱進(jìn)行修正。
—種展現(xiàn)搜索結(jié)果的方法,包括
獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容; 根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配對的字符串對;
對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對;
保存獲取的別稱匹配對,建立別稱數(shù)據(jù)庫;
接收用戶輸入的搜索內(nèi)容; 查詢所述別稱數(shù)據(jù)庫,判斷是否存在與所述搜索內(nèi)容匹配的別稱; 如果存在,在搜索結(jié)果中展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi)容的別
稱的網(wǎng)頁。
—種搜索引擎系統(tǒng),包括 別稱數(shù)據(jù)庫,用于保存別稱匹配對;所述別稱匹配對根據(jù)以下方式獲取獲取互 聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容,根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配 對的字符串對,對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對;
接口模塊,用于接收用戶輸入的搜索內(nèi)容; 查詢模塊,用于查詢所述別稱數(shù)據(jù)庫,判斷是否存在與所述搜索內(nèi)容匹配的別 稱; 呈現(xiàn)模塊,在搜索結(jié)果中展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi)容的別 稱的網(wǎng)頁。
根據(jù)本發(fā)明提供的具體實施例,本發(fā)明公開了以下技術(shù)效果 首先,本發(fā)明可以根據(jù)預(yù)置規(guī)則,從互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有 別稱匹配對的字符串對,并對提取的字符串對進(jìn)行截斷來獲取別稱匹配對。由于各網(wǎng)頁上 呈現(xiàn)的內(nèi)容比鏈接文本上呈現(xiàn)的文字要豐富的多,因此可以獲得更廣的數(shù)據(jù)來源,對于地 名以外的其他數(shù)據(jù),也可以根據(jù)預(yù)置合適的規(guī)則進(jìn)行字符串對的提取,進(jìn)而通過截斷來識 別出別稱匹配對。所以本發(fā)明可以更多、更全面地識別出可能出現(xiàn)的別稱匹配對,進(jìn)而有效 利用識別出的別稱匹配對來提高用戶體驗,提高數(shù)據(jù)的利用率。 其次,本發(fā)明通過信息提取符規(guī)則或關(guān)鍵詞規(guī)則等提取規(guī)則的使用,可以識別出 字面是不具有相似度或相似度較低的別稱匹配對。通過多種截斷規(guī)則的結(jié)合,可以準(zhǔn)確地 獲得別稱匹配對。 再次,通過對獲取的別稱匹配對的修正,可以進(jìn)一步提高別稱匹配對的準(zhǔn)確度。
圖1是本發(fā)明實施例提供的方法的流程圖; 圖2是本發(fā)明實施例提供的第一裝置的示意圖; 圖3是本發(fā)明實施例提供的第二裝置的示意圖; 圖4是本發(fā)明實施例提供的第三裝置的示意圖; 圖5是本發(fā)明實施例提供的第四裝置的示意圖; 圖6是本發(fā)明實施例提供的第五裝置的示意圖; 圖7是本發(fā)明實施例提供的第六裝置的示意圖; 圖8是本發(fā)明實施例提供的第七裝置的示意圖; 圖9是本發(fā)明實施例提供的展現(xiàn)搜索結(jié)果的方法的流程圖; 圖10是本發(fā)明實施例提供的第一搜索引擎系統(tǒng)的示意圖; 圖11是本發(fā)明實施例提供的第二搜索引擎系統(tǒng)的示意圖; 圖12是本發(fā)明實施例提供的第三搜索引擎系統(tǒng)的示意圖; 圖13是本發(fā)明實施例提供的第四搜索引擎系統(tǒng)的示意 圖14是本發(fā)明實施例提供的另一展現(xiàn)搜索結(jié)果的方法的流程圖;
圖15是本發(fā)明實施例提供的第五搜索引擎系統(tǒng)的示意圖。
具體實施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實 施方式對本發(fā)明作進(jìn)一步詳細(xì)的說明。 參見圖l,本發(fā)明實施例提供的獲取別稱匹配對的方法包括以下步驟
S101 :獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容; 這里的網(wǎng)頁是指互聯(lián)網(wǎng)中存在的所有網(wǎng)頁??梢酝ㄟ^頁面抓取及前端頁面元素的 分析獲取網(wǎng)頁上呈現(xiàn)的內(nèi)容,包括但不限于網(wǎng)頁的標(biāo)題、正文摘要、鏈接文本等。其中,所 述內(nèi)容可以只是文字內(nèi)容,即網(wǎng)頁的標(biāo)題文本、正文摘要文本、鏈接文本上呈現(xiàn)的文字內(nèi)容 等。也就是說,對于鏈接文本而言,只需要獲取鏈接文本上呈現(xiàn)的文字,而不用關(guān)心該鏈接 文本指向哪個網(wǎng)站。 S102:根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配對的字符串 對; S103 :對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對。 步驟S102提取出的僅僅是包含有別稱匹配對的字符串對,這種字符串對中除了
包含別稱匹配對外,還可能包含一些前綴、后綴等,例如提取出的字符串對為(創(chuàng)立了北
京大學(xué),北大),則"創(chuàng)立了"為"北京大學(xué)"的前綴,應(yīng)該將這樣的前綴、后綴去掉,也就是要
通過步驟S103中的截斷,使得最終得到的別稱匹配對為(北京大學(xué),北大)。 需要說明的是,為了方便描述,本發(fā)明實施例中將提取出的含有別稱匹配對的字
符串對以及最終獲取到的別稱匹配對都用()括起來表示,雖然提取出的含有別稱匹配對
的字符串對中也可能包含有這樣的括號,但是在本發(fā)明實施例的表示方法中,最外面一層
的()并不是提取出來的,而是為了方便描述加上去的。 所述預(yù)置的規(guī)則可以是現(xiàn)有技術(shù)中的"相似性"規(guī)則,但是該規(guī)則無法識別一些 字面上不具有相似性或相似性較低的別稱匹配對,盡管這樣的別稱匹配對也很常見,例如, "國家體育場"的別稱"鳥巢","故宮"的別稱"紫禁城","水銀"的別稱"滎",等。為此,本發(fā) 明實施例提供了多種預(yù)置規(guī)則,通過這些預(yù)置規(guī)則能夠識別出字面上不具有相似性或相似 性較低的別稱匹配對,下面分別進(jìn)行詳細(xì)地介紹。 實施例一、所述預(yù)置規(guī)則可以是信息提取符規(guī)則,根據(jù)該規(guī)則進(jìn)行提取的步驟可 以是判斷網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的信息提取符;如果包含所述信息提取符, 判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的關(guān)鍵詞;如果包含所述關(guān)鍵詞,則根據(jù) 所述信息提取符及所述關(guān)鍵詞確定包含有別稱匹配對的字符串對。
其中,所述信息提取符可以包括
(),[],,"",『』,',,〃 〃 ,〈> 這些符號通常是起始標(biāo)識成對出現(xiàn)的,例如左括號為開始,則對應(yīng)者右括號為結(jié) 束。通過統(tǒng)計可以發(fā)現(xiàn),包含有別稱匹配對的字符串中通常會包括這樣的符號,例如網(wǎng)頁上 呈現(xiàn)的內(nèi)容中包含原文為......創(chuàng)立了北京大學(xué)(簡稱"北大")......
這句話中包含有別稱匹配對(北京大學(xué),北大),其中簡稱的部分在()中給出。 因此,本發(fā)明實施例中將具有上述特點的符號作為信息提取符。在提取時,首先判斷網(wǎng)頁上 呈現(xiàn)的內(nèi)容中是否包含這樣的信息提取符,但是并不是只要存在這樣的信息提取符就一定 包含有別稱匹配對,例如有些解釋性的文字也會用這樣的括號來表示,因此在本發(fā)明實施 例中,如果判斷出包含預(yù)置的信息提取符,則繼續(xù)判斷是否包含預(yù)置的提取關(guān)鍵詞。其中提 取關(guān)鍵詞也可以是根據(jù)統(tǒng)計確定的,例如,可以包括但不限于 簡稱、舊稱、別稱、原稱、改稱、現(xiàn)稱、也稱、又稱、今稱、稱、全稱、原名、別名、舊名、 俗名、又名、全名、改名為、更名、易名、又叫、也叫、也就是、原、即。 如果一段內(nèi)容中既包含了預(yù)置的信息提取符,又存在所述預(yù)置的提取關(guān)鍵詞,則 可以確定這段內(nèi)容中包含有別稱匹配對。接下來可以根據(jù)所述信息提取符及所述提取關(guān)鍵 詞確定包含有別稱匹配對的字符串對,以括號為信息提取符為例,則可以將從左括號向前 至第一個特定標(biāo)點之間的部分作為字符串l,括號中提取關(guān)鍵詞后的內(nèi)容作為字符串2。
其中,所述特定標(biāo)點可以為
, 。 ; 一 、 /. ! : _ 例如,原文為......1898年,創(chuàng)立了北京大學(xué)(簡稱北大),...... 則根據(jù)上述步驟提取出的包含有別稱匹配對的字符串對為(創(chuàng)立了北京大學(xué),北 大)。 實施例二、所述預(yù)置規(guī)則可以是提取關(guān)鍵詞規(guī)則,根據(jù)該規(guī)則進(jìn)行提取的步驟可
以是判斷網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的提取關(guān)鍵詞;如果包含所述預(yù)置的提取關(guān)
鍵詞,則根據(jù)提取關(guān)鍵詞位置及特定標(biāo)點確定包含有別稱匹配對的字符串對。
其中,所述提取關(guān)鍵詞可以包括 又稱、又名、俗稱、簡稱,等。 所述特定標(biāo)點可以包括 。 ; 一/ ! *X--| ' 、> _ 例如,掃描獲取的網(wǎng)頁上呈現(xiàn)的內(nèi)容,從中找到"簡稱"、"全稱"等提取關(guān)鍵詞。從 提取關(guān)鍵詞起始位置向前至第一個特定標(biāo)點之間的部分作為字符串l,提取關(guān)鍵詞向后至 第一個特定標(biāo)點之間的內(nèi)容作為字符串2。 仍以上述例子為例,原文為......1898年,創(chuàng)立了北京大學(xué)(簡稱北大),...... 則按照以上步驟提取出的包含有別稱匹配對的字符串對為(創(chuàng)立了北京大學(xué),北 大)。 根據(jù)以上提取規(guī)則,可以識別出字面上不具有相似度或相似度較低的別稱匹配
對。例如,原文為......汞(別稱水銀)......,則按照以上規(guī)則可以提取到含有該別稱匹
配對的字符串對。 需要說明的是,上述提取規(guī)則主要用于從同一網(wǎng)頁上呈現(xiàn)的文本內(nèi)容中提取別稱 匹配對。在本發(fā)明的其他實施例中,也可以預(yù)置其他規(guī)則來處理原稱與別稱分別呈現(xiàn)在不 同網(wǎng)頁上的情況。例如,一個網(wǎng)頁上出現(xiàn)了"汞",另一網(wǎng)頁上出現(xiàn)了"水銀",則可以采用對 上下文進(jìn)行分析等方式來識別出這樣的別稱匹配對。 如前文所述,按照上述兩種規(guī)則提取出包含有別稱匹配對的字符串對后,還需要 對所述字符串進(jìn)行截斷,以獲取到最終的別稱匹配對。其中截斷的方法可以使用以下一種或幾種的組合 a)截斷提示符截斷 提取出的包含有別稱匹配對的字符串對中還可能包含有某些符號可以作為截斷 提示符,例如(他們發(fā)起成立了 "國民抗敵協(xié)會",抗協(xié)) 該包含有別稱匹配對的字符串對中包含有"",而該截斷提示符之間的內(nèi)容則通常 為正確的原稱或別稱,據(jù)此截斷結(jié)果為 [OMO](國民抗敵協(xié)會,抗協(xié))
其中,截斷提示符可以包括
(),『』,,"",',,"",「」 這種截斷方法的可信度較高(截斷后即可得到比較準(zhǔn)確的別稱匹配對),因此如 果包含有別稱匹配對的字符串對滿足該截斷方法,則可以不再使用其他截斷方法進(jìn)行截 斷。 b)首字截斷 這種方法通常用于全簡稱的截斷(通常,簡稱占別稱的一大部分),可以在包含有 別稱匹配對的字符串對中,查找字符串2中首字在字符串1中出現(xiàn)的位置(設(shè)字符串1中 包含原稱,字符串2為簡稱),根據(jù)該位置進(jìn)行截斷,將字符串1中該首字之前的部分去掉。 例如 提取出的包含有別稱匹配對的字符串對為
(總則經(jīng)北京大學(xué),北大) 則利用該首字截斷方法,可以將"北"前的"總則經(jīng)"去掉,最終得到的別稱匹配對 為(北京大學(xué),北大)
c)空格截斷 對于中文來講,由于空格符一般應(yīng)屬于分隔符之一,因此一般不允許漢字之間出 現(xiàn)空格符,但是如果漢字之間出現(xiàn)了空格符,則應(yīng)該進(jìn)行截斷。例如
原文為 新華社報道北京大學(xué)(簡稱北大)...... 則按照本發(fā)明實施例所述的提取規(guī)則提取出的包含有別稱匹配對的字符串對 為(新華社報道北京大學(xué),北大) 也就是包含有"北京大學(xué)"的字符串中出現(xiàn)了空格符,則應(yīng)該將該空格符之前的部 分去掉,因此最終得到的別稱匹配對為
(北京大學(xué),北大) 通常,如果提取的包含有別稱匹配對的字符串對,既不滿足信息提取符截斷,又不
滿足首字截斷,則可以嘗試使用這種空格符截斷方式。但是這種截斷方式的可信度較低,可
能會出現(xiàn)截斷后仍然存在前綴或后綴的情況,因此,使用該方法進(jìn)行截斷后,還可以結(jié)合其
他截斷方式進(jìn)行截斷。 d)地名截斷
別稱匹配對中包含了大量的地名別稱匹配對,因此以城市名稱等地名開頭的別稱 匹配對較多,對于這類匹配對如下進(jìn)行截斷若提取出的包含別稱匹配對的字符串對中,包 含城市名稱等地名,則直接將該地名位置之前的部分全部去掉。 這種截斷方式的可信度也比較高,如果提取出的包含別稱匹配對的字符串對滿足
這種截斷方式,則可以不必再利用其他的截斷方式進(jìn)行截斷。 e)詞庫截斷 由于網(wǎng)頁呈現(xiàn)的內(nèi)容中出現(xiàn)的別稱匹配對的情況非常復(fù)雜,即使制定了上述多種 截斷方式,但仍有很多的情況對于上述截斷方式均不滿足,甚至造成大量的截斷錯誤。因此 本發(fā)明實施例還可以利用預(yù)置的詞庫(如搜狗查詢詞庫等),對提取出的包含別稱匹配對 的字符串對進(jìn)行截斷。當(dāng)然,由于詞庫質(zhì)量的影響等原因,截斷后也可能會產(chǎn)生一些錯誤。
以上對本發(fā)明實施例提供的識別別稱匹配對的方法及其具體實現(xiàn)方式進(jìn)行了詳 細(xì)地介紹。但是,從前文地分析種可以看出,根據(jù)上述提取及截斷地方法獲取的別稱匹配對 可能會存在一些錯誤,因此,在本發(fā)明的優(yōu)選實施例中,還可以包括對獲取到的別稱匹配對 進(jìn)行修正的步驟。修正的方法有多種,下面介紹基于頻率及基于關(guān)鍵詞的修正方法,僅用于 舉例說明,而不應(yīng)看作是對本發(fā)明的限制。
實施例三、基于頻率的修正方法 由于經(jīng)過截斷后的別稱匹配對中會存在大量的重復(fù),根據(jù)別稱匹配對出現(xiàn)的次 數(shù),可以在一定程度上判斷其可信度。因此基于頻率的修正方法可以按照以下步驟進(jìn)行對 別稱匹配對進(jìn)行濾重,并統(tǒng)計每個別稱匹配對出現(xiàn)的次數(shù),根據(jù)所述出現(xiàn)的次數(shù)判斷獲取 的別稱匹配對的可信度;過濾掉可信度低于預(yù)置閾值的別稱匹配對。 在實際應(yīng)用中,根據(jù)用戶輸入習(xí)慣的規(guī)律可以發(fā)現(xiàn),用戶通過使用括號等信息提 取符進(jìn)行別稱的輸入,或僅通過使用關(guān)鍵詞進(jìn)行別稱的輸入時,通常會產(chǎn)生不同的上下文 關(guān)聯(lián)性。因此,針對不同的提取規(guī)則,本發(fā)明實施例采用不同的修正策略,下面分別進(jìn)行介紹。
(1)對于信息提取符規(guī)則,可以采用如下策略 ①可以統(tǒng)計信息提取符中不同的提取關(guān)鍵詞(如簡稱、又名等)對別稱匹配對正
確率的影響,對由不同的關(guān)鍵詞提取出來的別稱匹配對可以設(shè)定不同的閾值; ②可以統(tǒng)計不同截斷方式的可信程度,對于不同的截斷方式產(chǎn)生的別稱匹配對可
以設(shè)定不同的閾值。例如,詞庫截斷的可信度較低,則對這種截斷方式設(shè)定較高的閾值,也
就是說,采用詞庫截斷方式獲得的別稱匹配對,其可信度要達(dá)到較高的值時,才被認(rèn)為是可
信的,否則可能會過濾掉。 ③如果某別稱匹配對可以根據(jù)不同的提取規(guī)則或不同的關(guān)鍵詞產(chǎn)生,則認(rèn)為該別
稱匹配對的可信度較高,可以使用較低的閾值,否則使用較高的閾值。
(2)對于關(guān)鍵詞規(guī)則,可以采用如下策略 ①如果某別稱匹配對可以根據(jù)不同的提取規(guī)則或不同的關(guān)鍵詞產(chǎn)生,則認(rèn)為該別 稱匹配對的可信度較高,可以使用較低的閾值,否則使用較高的閾值。 ②不同的提取關(guān)鍵詞對別稱匹配對的可信度影響較小,僅此無需對此區(qū)別對待。
實施例四、基于修正關(guān)鍵詞的修正方法 通過對存在錯誤的別稱匹配對的分析可以發(fā)現(xiàn),通過設(shè)定一些用于修正的關(guān)鍵詞可以在一定程度上將這些錯誤進(jìn)行修正。其中,基于修正關(guān)鍵詞的修正包括對別稱匹配對 的再次截斷及對錯誤匹配對的濾除兩種情況,使用的修正關(guān)鍵詞有所不同,本發(fā)明實施例 中,將用于再次截斷的關(guān)鍵詞稱為截斷關(guān)鍵詞,將用于錯誤濾除的關(guān)鍵詞稱為濾除關(guān)鍵詞。 同樣,針對不同的提取規(guī)則,也可以采用不同的修正關(guān)鍵詞及修正規(guī)則,下面分別進(jìn)行介紹。
(1)對于信息提取符規(guī)則,可以采用如下修正關(guān)鍵詞及修正規(guī)則
①截斷關(guān)鍵詞 主要是頭部截斷關(guān)鍵詞'中國),~上海),~北京),~深圳),~的。 由于使用了地名作為截斷方式,因此會產(chǎn)生大量以地名開頭的別稱匹配對,但對
于一些國際性公司,其全稱可能是"X X (中國)有限公司"等,則,利用地名截斷方式產(chǎn)生
的別稱匹配對將是(中國)有限公司,公司) 此時,可以使用該截斷關(guān)鍵詞進(jìn)行再次截斷,結(jié)果為
(有限公司,公司)
②濾除關(guān)鍵詞 濾除關(guān)鍵詞的使用主要針對以下情況網(wǎng)頁呈現(xiàn)的內(nèi)容中通常會有這樣的描述
"......臺灣固網(wǎng)股份有限公司(以下簡稱本公司)......",這樣,按照前文所述的提取及
截斷規(guī)則得到的別稱匹配對為(臺灣固網(wǎng)股份有限公司,本公司) 顯然,這是錯誤的,因此應(yīng)該將這種錯誤的匹配對濾除。 在實際應(yīng)用中,根據(jù)濾除關(guān)鍵詞可能出現(xiàn)的位置,還可以分為以下幾種 a)濾除關(guān)鍵詞片名、帖子、本公司、甲方、乙方、元京、功能主治。 在獲得的別稱匹配對中,無論在何出現(xiàn)了這種濾除關(guān)鍵詞,都將該別稱匹配對濾除。 b)頭部濾除關(guān)鍵詞本 在獲得的別稱匹配對中,如果原稱或別稱的頭部出現(xiàn)了頭部濾除關(guān)鍵詞,則將該
別稱匹配對濾除。例如,網(wǎng)頁中"本府","本校","本所","本中心"......這樣的簡稱很常
見,因此可能會發(fā)現(xiàn)這樣的別稱匹配對(宜蘭縣政府,本府),(宜蘭縣教育網(wǎng)路中心,本中心)...... 這樣的匹配對將直接從結(jié)果中刪除。
c)尾部濾除關(guān)鍵詞我公司、的 在獲得的別稱匹配對中,如果原稱或別稱的尾部出現(xiàn)了尾部濾除關(guān)鍵詞,則將該 別稱匹配對濾除。 d)黑名單黃、葉、司、未、陳、標(biāo)準(zhǔn)、大學(xué)、不明、電、一、三、號、卡、林、協(xié)議、公司、 有限公司、中信、系統(tǒng)、股份有限公司、委員會、我公司、技術(shù)、貼、協(xié)會、王、國、張、中、新、小、 李、集團(tuán)、組織、大、產(chǎn)品、五、愛、戴、高、機構(gòu)、城區(qū)、天、公主、上、山、酒店、楊、規(guī)定、信證、論 壇 由于截斷過度,常常產(chǎn)生黑名單中的錯誤數(shù)據(jù),也就是說提取出的別稱或者原稱 與黑名單的數(shù)據(jù)完全一致,如
(華天酒店,酒店) 這樣的數(shù)據(jù)實際上是沒有意義的,因此,直接將這樣的匹配對將從結(jié)果中刪除。
(2)對于提取關(guān)鍵詞規(guī)則,可以采用如下修正關(guān)鍵詞及修正規(guī)則
①截斷關(guān)鍵詞 a)前向截斷關(guān)鍵詞因此,俗稱,簡稱,又名,故名,原稱,叫做,之為。
例如網(wǎng)頁呈現(xiàn)的內(nèi)容中的原文為......因此武裝直升機又被稱為"坦克殺
手"……貝U,獲得的別稱匹配對為(因此武裝直升機,坦克殺手) 對于這種情況,可以將前向截斷關(guān)鍵詞及其之前的部分去掉,剩下的部分作為修 正后的別稱匹配對,如(武裝直升機,坦克殺手)
b)頭部截斷關(guān)鍵詞~故,~稱,~叫。
例如網(wǎng)頁呈現(xiàn)的內(nèi)容中的原文為......故麋鹿又稱大衛(wèi)鹿......貝U,獲得的別稱匹配對為(故麋鹿,大衛(wèi)鹿) 對于這種情況,可以將以這些關(guān)鍵字開頭的名稱中的前綴關(guān)鍵字去掉,如(麋鹿, 大衛(wèi)鹿)。 c)尾部截斷關(guān)鍵詞被,也,通常,經(jīng)常,常常,常,又,后,就。
例如網(wǎng)頁呈現(xiàn)的內(nèi)容中的原文為......念珠菌性陰道炎常常又稱霉菌性陰道
,……貝U,獲得的別稱匹配對為(念珠菌性陰道炎常常,霉菌性陰道炎) 對于這種情況,可以刪除類似的后綴,匹配對保留,如(念珠菌性陰道炎,霉菌性
陰道炎) ②濾除關(guān)鍵詞 a)濾除關(guān)鍵詞當(dāng)?shù)厝?,這,此,上述,它為,他為,她為,他們,我們,人們,民間 例如網(wǎng)頁呈現(xiàn)的內(nèi)容中的原文為......民間俗稱小白條魚學(xué)名是什么......貝U,獲得的別稱匹配對為(民間,小白條魚)
顯然,這種數(shù)據(jù)無意義,因此將其刪除。
b)頭部濾除關(guān)鍵詞~本,~該 例如,(宜蘭縣教育網(wǎng)路中心,本中心)無意義,則直接刪除。 c)黑名單基金、一般、或、公司、課程、國家、變更、人、大家、下、而、國內(nèi)、年、交 易、臺灣、英文名、企業(yè)、國外、或者、下均、地方、簡介、后面、可、正股、股份、了、后世、com、古 人、天、甲方、全稱、北方、號、學(xué)校、詳細(xì)信息、技術(shù)、垃圾、個、亦、如、項目、呼、而已、現(xiàn)、卻、 記錄、及、西方、博客、和、無、型、南、今、子、家、二、則、點、色、李、股、由、山、黃、陳、床、白、特 性、五、習(xí)、俗 與信息提取符規(guī)則的提取時類似,由于截斷過度,常常產(chǎn)生黑名單中的錯誤數(shù)據(jù), 也就是說提取出的別稱或者原稱與黑名單的數(shù)據(jù)完全一致,如 網(wǎng)頁呈現(xiàn)的內(nèi)容中的原文為......一般又稱醉心花......貝U,獲得的別稱匹配對為(一般,醉心花) 顯然,這樣的數(shù)據(jù)實際上是沒有意義的,因此,直接將這樣的匹配對將從結(jié)果中刪 除。
與本發(fā)明實施例提供的識別別稱的方法相對應(yīng),本發(fā)明實施例還提供了一種識別 別稱的裝置,參加圖2,該裝置包括 內(nèi)容獲取單元U201,用于獲取網(wǎng)頁上呈現(xiàn)的內(nèi)容; 提取單元U202,用于根據(jù)預(yù)置規(guī)則從網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配對 的字符串對; 截斷單元U203,用于對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹 配對。 內(nèi)容獲取單元U201通過抓去或頁面分析等方式,獲取網(wǎng)頁上呈現(xiàn)的內(nèi)容,包括網(wǎng) 頁標(biāo)題、正文摘要、鏈接文本等信息;然后提取單元U202根據(jù)預(yù)置規(guī)則,從獲取的網(wǎng)頁上呈 現(xiàn)的內(nèi)容中提取包含有別稱匹配對的字符串對;再由截斷單元U203對所述包含有別稱匹 配對的字符串對進(jìn)行截斷,并最終獲取到別稱匹配對。 其中,可以采用多種提取規(guī)則從獲取的網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配 對的字符串對,當(dāng)所述提取規(guī)則為信息提取符規(guī)則時,參見圖3,提取單元U302包括以下子 單元 第一判斷子單元U3021,用于判斷網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的信息提取
符;如果包含,再判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的提取關(guān)鍵詞; 第一確定子單元U3022,用于根據(jù)所述信息提取符及所述關(guān)鍵詞確定包含有別稱
匹配對的字符串對。 其中,所述信息提取符可以包括
(),[],,"",『』,',,〃 〃 ,〈> 參見圖4,當(dāng)所述提取規(guī)則為提取關(guān)鍵詞規(guī)則時,提取單元U402包括以下子單元
第二判斷子單元U4024,用于判斷網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的提取關(guān)鍵 詞; 第二確定子單元U4025,用于包含所述預(yù)置的提取關(guān)鍵詞時,根據(jù)提取關(guān)鍵詞位置 及特定標(biāo)點確定包含有別稱匹配對的字符串對。 為滿足實際應(yīng)用中的各種復(fù)雜情況,本發(fā)明實施例還提供了多種截斷方式,可以 根據(jù)實際情況選擇合適的截斷方式,或者是多種截斷方式的組合。因此,參見圖5,截斷單元 U503可以包括以下子單元 第一查找子單元U5030,用于查找所述包含有別稱匹配對的字符串對是否包含預(yù) 置的截斷提示符; 第一截斷子單元U5031 ,用于根據(jù)所述預(yù)置的截斷提示符進(jìn)行截斷。 和/或,第二查找子單元U5032,用于查找所述包含有別稱匹配對的字符串對中,
一字符串的首字是否在另一字符串中出現(xiàn); 第二截斷子單元U5033,用于根據(jù)一字符串首字在另一字符串中出現(xiàn)的位置進(jìn)行 截斷; 和/或,第三查找子單元U5034,用于查找所述包含有別稱匹配對的字符串對中是 否包含空格符; 第四截斷子單元U5035,用于根據(jù)所述空格符出現(xiàn)的位置進(jìn)行截斷; 和/或,第四查找子單元U5036,用于查找所述包含有別稱匹配對的字符串對中是否包含地名; 第四截斷子單元U5037,用于根據(jù)地名出現(xiàn)的位置進(jìn)行截斷; 和/或,查詢子單元U5038,用于查詢預(yù)置詞庫,所述預(yù)置詞庫用于保存用戶使用 過的查詢詞; 第五截斷子單元U5039,用于根據(jù)預(yù)置詞庫中的查詢詞進(jìn)行截斷。 在實際應(yīng)用中,按照上述提取規(guī)則及截斷方式獲得的別稱匹配對可能會存在一些
錯誤,如截斷地不夠,或過分截斷等,因此,參見圖6,在本發(fā)明的優(yōu)選實施例中,該裝置還可
以包括 修正單元U604,用于對獲取的別稱匹配對進(jìn)行修正。 可以采用基于頻率或基于修正關(guān)鍵詞等方式進(jìn)行修正,對于基于頻率的方式,該 修正單元U604可以包括以下子單元 統(tǒng)計子單元U6041,用于統(tǒng)計每個別稱匹配對出現(xiàn)的次數(shù),根據(jù)出現(xiàn)的次數(shù)判斷獲 取的別稱匹配對的可信度; 過濾子單元U6042,用于過濾掉可信度低于預(yù)置閾值的別稱匹配對。 對于基于修正關(guān)鍵詞的修正方式,修正關(guān)鍵詞可以分為截斷關(guān)鍵詞和過濾關(guān)鍵詞
兩種,參見圖7,修正單元U704可以包括以下子單元 第一識別子單元U7041,用于查找獲取的別稱匹配對中是否存在預(yù)置的截斷關(guān)鍵 詞; 重新截斷子單元U7042,用于根據(jù)預(yù)置的截斷關(guān)鍵詞對獲取的別稱匹配對進(jìn)行再 次截斷。 參見圖8,修正單元U804也可以包括以下子單元 第二識別子單元U8043,用于查找獲取的別稱匹配對中是否存在預(yù)置的過濾關(guān)鍵 詞; 濾除子單元U8044,用于根據(jù)預(yù)置的過濾關(guān)鍵詞過濾掉錯誤的別稱匹配對。
其中,對于這兩種修正方式,針對不同的提取規(guī)則可以制定不同的修正策略,方法 的實施例中已經(jīng)有詳細(xì)描述,考慮到篇幅,這里不再贅述。 上述介紹了如何獲取別稱匹配對的方法及裝置,在本發(fā)明的其他實施例中,還可
以在搜索引擎展現(xiàn)搜索結(jié)果的過程中,利用上述方法獲取用戶輸入的搜索內(nèi)容的別稱,然
后在搜索結(jié)果中展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi)容的別稱的網(wǎng)頁。因此,
本發(fā)明還提供了一種在搜索引擎中展現(xiàn)搜索結(jié)果的方法,參見圖9,該方法包括以下步驟 S901 :接收用戶輸入的搜索內(nèi)容; S902 :獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容; S903 :從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中獲取包含有所述搜索內(nèi)容的字符串; S904:根據(jù)預(yù)置規(guī)則從包含有所述搜索內(nèi)容的字符串中提取包含有所述搜索內(nèi)容
別稱的字符串; S905 :對所述包含有所述搜索內(nèi)容別稱的字符串進(jìn)行截斷,獲取所述搜索內(nèi)容的 別稱; S906 :在搜索結(jié)果中,展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi)容的別稱 的網(wǎng)頁。
其中,在獲取搜索內(nèi)容的別稱的過程中,相當(dāng)于已知了原稱,因此可以首先從各網(wǎng) 頁上呈現(xiàn)的內(nèi)容中獲取包含有所述搜索內(nèi)容的字符串,然后再根據(jù)與前文所述的預(yù)置規(guī)則 來提取包含搜索內(nèi)容別稱的字符串,然后再對所述包含有所述搜索內(nèi)容別稱的字符串進(jìn)行 截斷,即可獲取所述搜索內(nèi)容的別稱;這樣在搜索結(jié)果中,便可以展現(xiàn)包含所述搜索內(nèi)容的 網(wǎng)頁及包含所述搜索內(nèi)容的別稱的網(wǎng)頁了。 與獲取別稱匹配對的方法相似,獲取搜索內(nèi)容的別稱時,也可以采用信息提取符
規(guī)則或關(guān)鍵詞規(guī)則來進(jìn)行提取。其中,按照信息提取符規(guī)則,可以如下進(jìn)行 判斷所述包含有所述搜索內(nèi)容的字符串中是否包含預(yù)置的信息提取符; 如果包含所述信息提取符,判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的提
取關(guān)鍵詞; 如果包含所述關(guān)鍵詞,則根據(jù)所述信息提取符及所述關(guān)鍵詞,確定包含有所述搜 索內(nèi)容別稱的字符串。 按照關(guān)鍵詞規(guī)則,可以如下進(jìn)行 判斷所述包含有所述搜索內(nèi)容的字符串中是否包含預(yù)置的提取關(guān)鍵詞; 如果包含所述預(yù)置的提取關(guān)鍵詞,則根據(jù)所述信息提取符及所述關(guān)鍵詞,確定包
含有所述搜索內(nèi)容別稱的字符串。 關(guān)于截斷方式,同樣與前文所述的截斷方式相似,可以有以下幾種方式 查找所述包含有所述搜索內(nèi)容別稱的字符串是否存在預(yù)置的截斷提示符;如果存
在,根據(jù)所述預(yù)置的截斷提示符進(jìn)行截斷; 和/或,查找所述包含有所述搜索內(nèi)容別稱的字符串中,所述搜索內(nèi)容的首字是 否在所述包含有所述搜索內(nèi)容別稱的字符串中出現(xiàn);如果出現(xiàn),根據(jù)搜索內(nèi)容的串首字在 在所述包含有所述搜索內(nèi)容別稱的字符串中出現(xiàn)的位置進(jìn)行截斷; 和/或,查找所述包含有所述搜索內(nèi)容別稱的字符串中是否存在空格符;如果存 在,根據(jù)所述空格符出現(xiàn)的位置進(jìn)行截斷; 和/或,查找所述包含有所述搜索內(nèi)容別稱的字符串中是否存在地名;如果存在, 根據(jù)地名出現(xiàn)的位置進(jìn)行截斷; 和/或,查詢預(yù)置詞庫,所述預(yù)置詞庫用于保存用戶使用過的查詢詞;根據(jù)預(yù)置詞 庫中的查詢詞進(jìn)行截斷。 同樣,為了保證獲取的別稱的準(zhǔn)確性,還可以包括對獲取到的所述搜索內(nèi)容的別 稱進(jìn)行修正的步驟。具體的修正方法可與前文所述相同。 以上各具體的提取規(guī)則及截斷方式可參照前文所述各部分對應(yīng)的例子,考慮到篇 幅,這里不再贅述。 與該展現(xiàn)搜索結(jié)果的方法相對應(yīng),本發(fā)明實施例還提供了一種搜索引擎系統(tǒng),參
見圖IO,該搜索引擎系統(tǒng)包括以下模塊 接口模塊U1001,用于接收用戶輸入的搜索內(nèi)容; 內(nèi)容獲取模塊U1002,用于獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容; 查找模塊U1003,用于從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中獲取包含有所述搜索內(nèi)容的字符
串; 提取模塊U1004,用于根據(jù)預(yù)置規(guī)則從包含有所述搜索內(nèi)容的字符串中提取包含有所述搜索內(nèi)容別稱的字符串; 截斷模塊U1005,用于對所述包含有所述搜索內(nèi)容別稱的字符串進(jìn)行截斷,獲取所 述搜索內(nèi)容的別稱; 展現(xiàn)模塊U1006,用于在搜索結(jié)果中,展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜 索內(nèi)容的別稱的網(wǎng)頁。 當(dāng)所述預(yù)置規(guī)則為信息提取符規(guī)則時,參見圖11,提取模塊U1104可以包括
第一判斷子模塊U11041,用于判斷所述包含有所述搜索內(nèi)容的字符串中是否包含 預(yù)置的信息提取符;如果包含,再判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的提取 關(guān)鍵詞; 第一確定子模塊U11042,用于根據(jù)所述信息提取符及所述關(guān)鍵詞,確定包含有所 述搜索內(nèi)容別稱的字符串。 當(dāng)所述預(yù)置規(guī)則為關(guān)鍵詞規(guī)則時,參見圖12,提取模塊U1204包括 第二判斷子模塊U12041,用于判斷所述包含有所述搜索內(nèi)容的字符串中是否包含
預(yù)置的提取關(guān)鍵詞; 第二確定子模塊U12042,用于包含所述預(yù)置的提取關(guān)鍵詞時,根據(jù)所述信息提取 符及所述關(guān)鍵詞,確定包含有所述搜索內(nèi)容別稱的字符串。 其中,圖11中的接口模塊U1101、內(nèi)容獲取模塊U1102、查找模塊U1103、截斷模塊 U1105、展現(xiàn)模塊U1106、圖12中的接口模塊U1201、內(nèi)容獲取模塊U1202、查找模塊U1203、 截斷模塊U1205、展現(xiàn)模塊U1206,與圖10中的接口模塊U1001、內(nèi)容獲取模塊U1002、查找 模塊U1003、截斷模塊U1005、展現(xiàn)模塊U1006相同。
參見圖13,截斷模塊U1305可以包括 第一查找子模塊U13050,用于查找所述包含有所述搜索內(nèi)容別稱的字符串是否存 在預(yù)置的截斷提示符; 第一截斷子模塊U13051,用于根據(jù)所述預(yù)置的截斷提示符進(jìn)行截斷; 和/或,第二查找子模塊U13052,用于查找所述包含有所述搜索內(nèi)容別稱的字符
串對中,所述搜索內(nèi)容的首字是否在所述包含有所述搜索內(nèi)容別稱的字符串中出現(xiàn); 第二截斷子模塊U13053,用于根據(jù)搜索內(nèi)容的串首字在在所述包含有所述搜索內(nèi)
容別稱的字符串中出現(xiàn)的位置進(jìn)行截斷; 和/或,第三查找子模塊U13054,用于查找所述包含有所述搜索內(nèi)容別稱的字符 串中是否存在空格符; 第四截斷子模塊U13055,用于根據(jù)所述空格符出現(xiàn)的位置進(jìn)行截斷; 和/或,第四查找子模塊U13056,用于查找所述包含有所述搜索內(nèi)容別稱的字符
串中是否存在地名; 第四截斷子模塊U13057,用于根據(jù)地名出現(xiàn)的位置進(jìn)行截斷; 和/或,查詢子模塊U13058,用于查詢預(yù)置詞庫,所述預(yù)置詞庫用于保存用戶使用
過的查詢詞; 第五截斷子模塊U13059,用于根據(jù)預(yù)置詞庫中的查詢詞進(jìn)行截斷。 為保證獲取到的別稱的準(zhǔn)確性,該搜索引擎還可以包括 修正模塊U1307,用于對獲取到的所述搜索內(nèi)容的別稱進(jìn)行修正。
其中,圖13中的接口模塊U1301、內(nèi)容獲取模塊U1302、查找模塊U1303、提取模 塊U1304、展現(xiàn)模塊U1306,與圖10中的接口模塊UlOOl、內(nèi)容獲取模塊U1002、查找模塊 U1003、提取模塊U1004、展現(xiàn)模塊U1006相同。 上述展現(xiàn)搜索結(jié)果的方法中,需要在接收到用戶輸入的搜索內(nèi)容后,首先獲取互
聯(lián)網(wǎng)上各網(wǎng)頁中呈現(xiàn)的內(nèi)容,考慮到該過程所需的時間可能會比較長,因此,本發(fā)明實施例
還提供了一種展現(xiàn)搜索結(jié)果的方法,該方法中,將獲取的別稱匹配對進(jìn)行保存,形成別稱數(shù)
據(jù)庫,搜索引擎可以通過查詢數(shù)據(jù)庫來完成用戶的搜索內(nèi)容是否存在別稱的判斷,節(jié)省了
時間。參見圖14,該方法包括以下步驟 S1401 :獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容; S1402:根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配對的字符串 對; S1403 :對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對;
S1404 :保存獲取的別稱匹配對,建立別稱數(shù)據(jù)庫;
S1405 :接收用戶輸入的搜索內(nèi)容; S1406 :查詢所述別稱數(shù)據(jù)庫,判斷是否存在與所述搜索內(nèi)容匹配的別稱; S1407 :如果存在,在搜索結(jié)果中展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi)
容的別稱的網(wǎng)頁。 該方法與前文所述的獲取別稱匹配對的方法相比只增加了步驟S1404到S1407, 其他的部分均相同,因此相應(yīng)的內(nèi)容這里不再贅述。 該展現(xiàn)搜索結(jié)果的方法中,可以在獲取到別稱匹配對后,將別稱匹配對保存起來, 形成別稱數(shù)據(jù)庫。搜索引擎只需要加載該別稱數(shù)據(jù)庫,這樣,當(dāng)用戶在搜索引擎中輸入搜索 內(nèi)容時,便可以首先查詢該別稱數(shù)據(jù)庫,如果用戶輸入的搜索內(nèi)容存在別稱,則在可以在搜 索結(jié)果中,既可以展現(xiàn)包含有搜索內(nèi)容的網(wǎng)頁,又可以展現(xiàn)包含有其別稱的網(wǎng)頁,使得用戶 可以盡可能全面地獲得相關(guān)信息。 與該展現(xiàn)搜索結(jié)果的方法相對應(yīng),本發(fā)明實施例還提供了另外一種搜索引擎系 統(tǒng),參見圖15,該搜索引擎系統(tǒng)包括以下模塊 別稱數(shù)據(jù)庫U1501,用于保存別稱匹配對;所述別稱匹配對根據(jù)以下方式獲取獲 取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容,根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱 匹配對的字符串對,對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對;
接口模塊U1502,用于接收用戶輸入的搜索內(nèi)容; 查詢模塊U1503,用于查詢所述別稱數(shù)據(jù)庫,判斷是否存在與所述搜索內(nèi)容匹配的 別稱; 呈現(xiàn)模塊U1504,在搜索結(jié)果中展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi) 容的別稱的網(wǎng)頁。 以上對本發(fā)明所提供的獲取別稱匹配對的方法及裝置,進(jìn)行了詳細(xì)介紹,本文中
應(yīng)用了具體個例對本發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助 理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,
在具體實施方式
及應(yīng)用范圍上均會有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本 發(fā)明的限制。
權(quán)利要求
一種獲取別稱匹配對的方法,其特征在于,包括獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容;根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配對的字符串對;對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述各網(wǎng)頁上呈現(xiàn)的內(nèi)容是各網(wǎng)頁上呈現(xiàn)的文字內(nèi)容。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)置規(guī)則包括信息提取符規(guī)則,所述提取包含有別稱匹配對的字符串對包括判斷各網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的信息提取符;如果包含所述信息提取符,判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的提取關(guān)鍵詞;如果包含所述關(guān)鍵詞,則根據(jù)所述信息提取符及所述關(guān)鍵詞確定包含有別稱匹配對的字符串對。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)置規(guī)則包括關(guān)鍵詞規(guī)則,所述提取包含有別稱匹配對的字符串對包括判斷各網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的提取關(guān)鍵詞;如果包含所述預(yù)置的提取關(guān)鍵詞,則根據(jù)提取關(guān)鍵詞位置及特定標(biāo)點確定包含有別稱匹配對的字符串對。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,通過以下方式對所述包含有別稱匹配對的字符串對進(jìn)行截斷查找所述包含有別稱匹配對的字符串對是否存在預(yù)置的截斷提示符;如果存在,根據(jù)所述預(yù)置的截斷提示符進(jìn)行截斷;和/或,查找所述包含有別稱匹配對的字符串對中, 一字符串的首字是否在另一字符串中出現(xiàn);如果出現(xiàn),根據(jù)一字符串首字在另一字符串中出現(xiàn)的位置進(jìn)行截斷;和/或,查找所述包含有別稱匹配對的字符串對中是否存在空格符;如果存在,根據(jù)所述空格符出現(xiàn)的位置進(jìn)行截斷;和/或,查找所述包含有別稱匹配對的字符串對中是否存在地名;如果存在,根據(jù)地名出現(xiàn)的位置進(jìn)行截斷;和/或,查詢預(yù)置詞庫,所述預(yù)置詞庫用于保存用戶使用過的查詢詞;根據(jù)預(yù)置詞庫中的查詢詞進(jìn)行截斷。
6. 根據(jù)權(quán)利要求1至5任意一項所述的方法,其特征在于,還包括對獲取的別稱匹配對進(jìn)行修正。
7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對獲取的別稱匹配對進(jìn)行修正包括統(tǒng)計每個別稱匹配對出現(xiàn)的次數(shù),根據(jù)出現(xiàn)的次數(shù)判斷獲取的別稱匹配對的可信度;過濾掉可信度低于預(yù)置閾值的別稱匹配對。
8. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對獲取的別稱匹配對進(jìn)行修正包括查找獲取的別稱匹配對中是否存在預(yù)置的截斷關(guān)鍵詞,如果存在,根據(jù)預(yù)置的截斷關(guān)鍵詞對獲取的別稱匹配對進(jìn)行再次截斷;或者,查找獲取的別稱匹配對中是否存在預(yù)置的過濾關(guān)鍵詞;如果存在,根據(jù)預(yù)置的過濾關(guān)鍵詞過濾掉錯誤的別稱匹配對。
9. 一種獲取別稱匹配對的裝置,其特征在于,包括內(nèi)容獲取單元,用于獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容;提取單元,用于根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配對的字符串對;截斷單元,用于對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述提取單元包括第一判斷子單元,用于判斷各網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的信息提取符;如果包含,再判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的提取關(guān)鍵詞;第一確定子單元,用于根據(jù)所述信息提取符及所述關(guān)鍵詞確定包含有別稱匹配對的字符串對。
11. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述提取單元包括第二判斷子單元,用于判斷各網(wǎng)頁上呈現(xiàn)的內(nèi)容中是否包含預(yù)置的提取關(guān)鍵詞;第二確定子單元,用于包含所述預(yù)置的提取關(guān)鍵詞時,根據(jù)提取關(guān)鍵詞位置及特定標(biāo)點確定包含有別稱匹配對的字符串對。
12. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述截斷單元包括第一查找子單元,用于查找所述包含有別稱匹配對的字符串對是否包含預(yù)置的截斷提示符;第一截斷子單元,用于根據(jù)所述預(yù)置的截斷提示符進(jìn)行截斷;和/或,第二查找子單元,用于查找所述包含有別稱匹配對的字符串對中,一字符串的首字是否在另一字符串中出現(xiàn);第二截斷子單元,用于根據(jù)一字符串首字在另一字符串中出現(xiàn)的位置進(jìn)行截斷;和/或,第三查找子單元,用于查找所述包含有別稱匹配對的字符串對中是否包含空格符;第四截斷子單元,用于根據(jù)所述空格符出現(xiàn)的位置進(jìn)行截斷;和/或,第四查找子單元,用于查找所述包含有別稱匹配對的字符串對中是否包含地名;第四截斷子單元,用于根據(jù)地名出現(xiàn)的位置進(jìn)行截斷;和/或,查詢子單元,用于查詢預(yù)置詞庫,所述預(yù)置詞庫用于保存用戶使用過的查詢詞;第五截斷子單元,用于根據(jù)預(yù)置詞庫中的查詢詞進(jìn)行截斷。
13. 根據(jù)權(quán)利要求9至12任意一項所述的裝置,其特征在于,還包括修正單元,用于對獲取的別稱匹配對進(jìn)行修正。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述修正單元包括統(tǒng)計子單元,用于統(tǒng)計每個別稱匹配對出現(xiàn)的次數(shù),根據(jù)出現(xiàn)的次數(shù)判斷獲取的別稱匹配對的可信度;過濾子單元,用于過濾掉可信度低于預(yù)置閾值的別稱匹配對。
15. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述修正單元包括第一識別子單元,用于查找獲取的別稱匹配對中是否存在預(yù)置的截斷關(guān)鍵詞;重新截斷子單元,用于根據(jù)預(yù)置的截斷關(guān)鍵詞對獲取的別稱匹配對進(jìn)行再次截斷;或者,第二識別子單元,用于查找獲取的別稱匹配對中是否存在預(yù)置的過濾關(guān)鍵詞;濾除子單元,用于根據(jù)預(yù)置的過濾關(guān)鍵詞過濾掉錯誤的別稱匹配對。
16. —種展現(xiàn)搜索結(jié)果的方法,其特征在于,包括接收用戶輸入的搜索內(nèi)容;獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容;從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中獲取包含有所述搜索內(nèi)容的字符串;根據(jù)預(yù)置規(guī)則從包含有所述搜索內(nèi)容的字符串中提取包含有所述搜索內(nèi)容別稱的字符串;對所述包含有所述搜索內(nèi)容別稱的字符串進(jìn)行截斷,獲取所述搜索內(nèi)容的別稱;在搜索結(jié)果中,展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi)容的別稱的網(wǎng)頁。
17. 根據(jù)權(quán)利要求16所述的方法,其特征在于,所述預(yù)置規(guī)則包括信息提取符規(guī)則,所述根據(jù)預(yù)置規(guī)則從包含有所述搜索內(nèi)容的字符串中提取包含有所述搜索內(nèi)容別稱的字符串包括判斷所述包含有所述搜索內(nèi)容的字符串中是否包含預(yù)置的信息提取符;如果包含所述信息提取符,判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的提取關(guān)鍵詞;如果包含所述關(guān)鍵詞,則根據(jù)所述信息提取符及所述關(guān)鍵詞,確定包含有所述搜索內(nèi)容別稱的字符串。
18. 根據(jù)權(quán)利要求16所述的方法,其特征在于,所述預(yù)置規(guī)則包括信息提取符規(guī)則,所述根據(jù)預(yù)置規(guī)則從包含有所述搜索內(nèi)容的字符串中提取包含有所述搜索內(nèi)容別稱的字符串包括判斷所述包含有所述搜索內(nèi)容的字符串中是否包含預(yù)置的提取關(guān)鍵詞;如果包含所述預(yù)置的提取關(guān)鍵詞,則根據(jù)所述信息提取符及所述關(guān)鍵詞,確定包含有所述搜索內(nèi)容別稱的字符串。
19. 根據(jù)權(quán)利要求16所述的方法,其特征在于,通過以下方式對所述包含有所述搜索內(nèi)容別稱的字符串對進(jìn)行截斷查找所述包含有所述搜索內(nèi)容別稱的字符串是否存在預(yù)置的截斷提示符;如果存在,根據(jù)所述預(yù)置的截斷提示符進(jìn)行截斷;和/或,查找所述包含有所述搜索內(nèi)容別稱的字符串中,所述搜索內(nèi)容的首字是否在所述包含有所述搜索內(nèi)容別稱的字符串中出現(xiàn);如果出現(xiàn),根據(jù)搜索內(nèi)容的串首字在在所述包含有所述搜索內(nèi)容別稱的字符串中出現(xiàn)的位置進(jìn)行截斷;和/或,查找所述包含有所述搜索內(nèi)容別稱的字符串中是否存在空格符;如果存在,根據(jù)所述空格符出現(xiàn)的位置進(jìn)行截斷;和/或,查找所述包含有所述搜索內(nèi)容別稱的字符串中是否存在地名;如果存在,根據(jù)地名出現(xiàn)的位置進(jìn)行截斷;和/或,查詢預(yù)置詞庫,所述預(yù)置詞庫用于保存用戶使用過的查詢詞;根據(jù)預(yù)置詞庫中的查詢詞進(jìn)行截斷。
20. 根據(jù)權(quán)利要求16所述的方法,其特征在于,還包括對獲取到的所述搜索內(nèi)容的別稱進(jìn)行修正。
21. —種搜索引擎系統(tǒng),其特征在于,包括 接口模塊,用于接收用戶輸入的搜索內(nèi)容; 內(nèi)容獲取模塊,用于獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容;查找模塊,用于從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中獲取包含有所述搜索內(nèi)容的字符串; 提取模塊,用于根據(jù)預(yù)置規(guī)則從包含有所述搜索內(nèi)容的字符串中提取包含有所述搜索 內(nèi)容別稱的字符串;截斷模塊,用于對所述包含有所述搜索內(nèi)容別稱的字符串進(jìn)行截斷,獲取所述搜索內(nèi) 容的別稱;展現(xiàn)模塊,用于在搜索結(jié)果中,展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi)容的 別稱的網(wǎng)頁。
22. 根據(jù)權(quán)利要求21所述的系統(tǒng),其特征在于,所述預(yù)置規(guī)則包括信息提取符規(guī)則,所 述提取模塊包括第一判斷子模塊,用于判斷所述包含有所述搜索內(nèi)容的字符串中是否包含預(yù)置的信息 提取符;如果包含,再判斷所述信息提取符內(nèi)的字符串中是否包含預(yù)置的提取關(guān)鍵詞;第一確定子模塊,用于根據(jù)所述信息提取符及所述關(guān)鍵詞,確定包含有所述搜索內(nèi)容 別稱的字符串。
23. 根據(jù)權(quán)利要求21所述的系統(tǒng),其特征在于,所述預(yù)置規(guī)則包括關(guān)鍵詞規(guī)則,所述提 取模塊包括第二判斷子模塊,用于判斷所述包含有所述搜索內(nèi)容的字符串中是否包含預(yù)置的提取 關(guān)鍵詞;第二確定子模塊,用于包含所述預(yù)置的提取關(guān)鍵詞時,根據(jù)所述信息提取符及所述關(guān) 鍵詞,確定包含有所述搜索內(nèi)容別稱的字符串。
24. 根據(jù)權(quán)利要求21所述的系統(tǒng),其特征在于,所述截斷模塊包括 第一查找子模塊,用于查找所述包含有所述搜索內(nèi)容別稱的字符串是否存在預(yù)置的截斷提示符;第一截斷子模塊,用于根據(jù)所述預(yù)置的截斷提示符進(jìn)行截斷;和/或,第二查找子模塊,用于查找所述包含有所述搜索內(nèi)容別稱的字符串對中,所述 搜索內(nèi)容的首字是否在所述包含有所述搜索內(nèi)容別稱的字符串中出現(xiàn);第二截斷子模塊,用于根據(jù)搜索內(nèi)容的串首字在在所述包含有所述搜索內(nèi)容別稱的字 符串中出現(xiàn)的位置進(jìn)行截斷;和/或,第三查找子模塊,用于查找所述包含有所述搜索內(nèi)容別稱的字符串中是否存 在空格符;第四截斷子模塊,用于根據(jù)所述空格符出現(xiàn)的位置進(jìn)行截斷;和/或,第四查找子模塊,用于查找所述包含有所述搜索內(nèi)容別稱的字符串中是否存 在地名;第四截斷子模塊,用于根據(jù)地名出現(xiàn)的位置進(jìn)行截斷;和/或,查詢子模塊,用于查詢預(yù)置詞庫,所述預(yù)置詞庫用于保存用戶使用過的查詢詞;第五截斷子模塊,用于根據(jù)預(yù)置詞庫中的查詢詞進(jìn)行截斷。
25. 根據(jù)權(quán)利要求21所述的系統(tǒng),其特征在于,還包括 修正模塊,用于對獲取到的所述搜索內(nèi)容的別稱進(jìn)行修正。
26. —種展現(xiàn)搜索結(jié)果的方法,其特征在于,包括 獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容;根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配對的字符串對; 對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對; 保存獲取的別稱匹配對,建立別稱數(shù)據(jù)庫; 接收用戶輸入的搜索內(nèi)容;查詢所述別稱數(shù)據(jù)庫,判斷是否存在與所述搜索內(nèi)容匹配的別稱;如果存在,在搜索結(jié)果中展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi)容的別稱的 網(wǎng)頁。
27. —種搜索引擎系統(tǒng),其特征在于,包括別稱數(shù)據(jù)庫,用于保存別稱匹配對;所述別稱匹配對根據(jù)以下方式獲取獲取互聯(lián)網(wǎng) 中各網(wǎng)頁上呈現(xiàn)的內(nèi)容,根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配對的 字符串對,對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對;接口模塊,用于接收用戶輸入的搜索內(nèi)容;查詢模塊,用于查詢所述別稱數(shù)據(jù)庫,判斷是否存在與所述搜索內(nèi)容匹配的別稱; 呈現(xiàn)模塊,在搜索結(jié)果中展現(xiàn)包含所述搜索內(nèi)容的網(wǎng)頁及包含所述搜索內(nèi)容的別稱的 網(wǎng)頁。
全文摘要
本發(fā)明公開了獲取別稱匹配對的方法,該方法包括獲取互聯(lián)網(wǎng)中各網(wǎng)頁上呈現(xiàn)的內(nèi)容;根據(jù)預(yù)置規(guī)則從各網(wǎng)頁上呈現(xiàn)的內(nèi)容中提取包含有別稱匹配對的字符串對;對所述包含有別稱匹配對的字符串對進(jìn)行截斷,獲取別稱匹配對。本發(fā)明還公開了一種獲取別稱匹配對的裝置。通過本發(fā)明,可以更多、更全面地識別出可能出現(xiàn)的別稱匹配對,進(jìn)而有效利用識別出的別稱匹配對來提高用戶體驗,提高數(shù)據(jù)的利用率。
文檔編號G06F17/30GK101727464SQ20081022540
公開日2010年6月9日 申請日期2008年10月29日 優(yōu)先權(quán)日2008年10月29日
發(fā)明者劉珊瑞, 張闊 申請人:北京搜狗科技發(fā)展有限公司