專利名稱:用于實時識別短文本類別信息的方法、裝置及計算機設備的制作方法
技術領域:
本發(fā)明涉及計算機網(wǎng)絡技術,尤其涉及一種用于實時識別短文本類別信息的方 法、設備及計算機設備。
背景技術:
現(xiàn)有技術中,主要通過對短文本信息進行專有名詞及術語匹配,或者,通過對短文 本信息進行信息擴展后,再根據(jù)預設的分類器對其進行分類。其中,前者存在召回率低的問 題,而后者存在計算量大,無法滿足實時應用需求的問題。因此,如何提供一種實時識別短文本類別信息的方案,已成為本領域技術人員需 要解決的問題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于實時識別短文本類別信息的方法、設備及計算機設備。根據(jù)本發(fā)明的一個方面,提供一種計算機實現(xiàn)的用于實時識別短文本類別信息的 方法,其中,該方法包括以下步驟a獲取待分類的短文本信息;b將所述待分類短文本信息與已分類信息單元庫中的信息單元進行匹配,以獲取 能夠成功匹配的一個或多個已分類信息單元及其所對應的單元相關信息;c基于第一預定規(guī)則,根據(jù)所述能夠成功匹配的一個或多個已分類信息單元及其 對應的單元相關信息,獲得所述待分類短文本信息的類別信息。根據(jù)本發(fā)明的另一個方面,還提供了一種用于實時識別短文本類別信息的短文本 處理裝置,其中,該短文本處理裝置包括第一獲取裝置、用于獲取待分類的短文本信息;匹配裝置、用于將所述待分類短文本信息與已分類信息單元庫中的信息單元進行 匹配,以獲取能夠成功匹配的一個或多個已分類信息單元及其所對應的單元相關信息;分類裝置、用于基于第一預定規(guī)則,根據(jù)所述能夠成功匹配的一個或多個已分類 信息單元及其對應的單元相關信息,獲得所述待分類短文本信息的類別信息。根據(jù)本發(fā)明的再一個方面,還提供了一種計算機設備,其中,該計算機設備前述短 文本處理裝置。與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點1)本發(fā)明通過將待分類短文本信息與已 分類的信息單元進行匹配,能夠達到較佳的召回率;2)由于待分類短文本信息的確定主要 通過能夠成功匹配的信息單元及其相關信息來確定,因此,其處理速度快,每秒能夠達到 識別大量,例如數(shù)萬至數(shù)十萬個,短文本信息類別的速度,完全能夠滿足線上的實時識別需 求。
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它 特征、目的和優(yōu)點將會變得更明顯圖1為本發(fā)明一個方面的用于實施識別短文本類別信息的方法流程圖;圖2為本發(fā)明一個優(yōu)選實施例的用于實施識別短文本類別信息的方法流程圖;圖3為本發(fā)明另一優(yōu)選實施例的用于實施識別短文本類別信息的方法流程圖;圖4為本發(fā)明再一優(yōu)選實施例的用于實施識別短文本類別信息的方法流程圖;圖5為本發(fā)明一個方面的用于實施識別短文本類別信息的短文本處理裝置結構 示意圖;圖6為本發(fā)明一個優(yōu)選實施例的用于實施識別短文本類別信息的短文本處理裝 置結構示意圖;圖7為本發(fā)明另一優(yōu)選實施例的用于實施識別短文本類別信息的短文本處理裝 置結構示意圖;圖8為本發(fā)明再一優(yōu)選實施例的用于實施識別短文本類別信息的短文本處理裝 置結構示意圖。附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施例方式下面結合附圖對本發(fā)明作進一步詳細描述。圖1為本發(fā)明一個方面的用于實施識別短文本類別信息的方法流程圖。其中,根 據(jù)本發(fā)明的方法可通過計算機設備中的操作系統(tǒng)或處理控制芯片來完成,為簡明起見,以 下將所述操作系統(tǒng)或處理控制芯片統(tǒng)稱為短文本處理裝置。其中,該計算機設備包括但不 限于1)用戶設備;2)網(wǎng)絡設備。其中,所述用戶設備包括但不限于個人電腦、智能手機、 PDA等;所述網(wǎng)絡設備包括但不限于單個網(wǎng)絡服務器、多個網(wǎng)絡服務器組成的服務器組或 基于云計算(Cloud Computing)的由大量計算機或網(wǎng)絡服務器構成的云,其中,云計算是分 布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。在步驟Sl中,短文本處理裝置獲取待分類的短文本信息。其中,所述短文本信息 包括但不限于1)來自用戶的輸入序列;2)計算機設備當前需要處理的信息等。該短文 本處理裝置獲取該待分類短文本信息的方法包括但不限于1)實時獲取用戶直接輸入或 經(jīng)由其他設備或裝置輸入的輸入序列,或者,實時獲取計算機設備當前需要處理的信息;2) 獲取預存儲在所述計算機設備或其他設備中的需要進行分類處理的短文本信息。接著,在步驟S2中,短文本處理裝置將所述待分類短文本信息與已分類信息單元 庫中的信息單元進行匹配,以獲取能夠成功匹配的一個或多個已分類信息單元及其所對應 的單元相關信息。其中,所述已分類信息單元庫中包括已分類的信息單元及其對應的單元 相關信息,該已分類信息單元庫可包含在所述計算機設備中,或與所述計算機設備物理分 離但通信連接。其中,短文本處理裝置判斷待分類短文本信息與信息單元是否成功匹配的方式包 括但不限于1)信息單元是否與待分類短文本信息的全部或部分內(nèi)容完全相同;
6
例如,對于短文本信息“dnf游戲下載”,短文本處理裝置在已分類信息單元庫中查 詢到信息單元“dnf游戲”,并判斷信息單元“dnf游戲”與短文本信息中的部分內(nèi)容完全相 同,則短文本處理裝置判斷信息單元“dnf游戲”與短文本信息“dnf游戲下載”成功匹配;又例如,對于短文本信息“dnf ”,短文本處理裝置在已分類信息單元庫中查詢到信 息單元“dnf游戲”,并判斷信息單元“dnf”與短文本信息“dnf”完全相同,則判斷信息單元 “dnf”與短文本信息“dnf”成功匹配。2)信息單元是否與待分類短文本信息的全部或部分內(nèi)容相似;具體地,短文本處理裝置判斷相似的方式包括但不限于a)信息單元的同義詞是否包含在待分類短文本信息中;例如,對于短文本信息“dnf游戲download”,短文本處理裝置在已分類信息單元 庫中查詢到信息單元“游戲下載”,并判斷信息單元“游戲下載”與“游戲download”為同義 詞,則判斷信息單元“游戲下載”與短文本信息“dnf游戲download”成功匹配。b)信息單元的同義字符是否包含在待分類短文本信息中;例如,對于短文本信息“dnf游戲下載”,短文本處理裝置在已分類信息單元庫中查 詢到信息單元“DNF游戲”,并判斷信息單元“DNF游戲”與“dnf游戲”為同義字符,則判斷 信息單元“DNF游戲”與短文本信息“dnf游戲”成功匹配。需要說明的是,一個待分類短文本信息可成功匹配多個信息單元,例如,短文本信 息“dnf游戲下載”可成功匹配“dnf”、“游戲”、“下載”三個信息單元等。需要進一步說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā) 明的限制,本領域技術人員應該理解,任何判斷待分類短文本信息與信息單元是否成功匹 配的方式,均應包含在本發(fā)明的范圍內(nèi)。短文本處理裝置獲取成功匹配的信息單元對應的單元相關信息的方式包括但不 限于1)每獲得一個成功匹配的信息單元,即獲取該信息單元對應的單元相關信息;2)獲得所有與待分類短文本信息成功匹配的信息單元后,再獲取該等信息單元分 別對應的單元相關信息。接著,在步驟S3中,短文本處理裝置基于第一預定規(guī)則,根據(jù)所述能夠成功匹配 的一個或多個已分類信息單元及其對應的單元相關信息,獲得所述待分類短文本信息的類 別信息。其中,所述類別信息包括但不限于短文本信息的類別、短文本信息類別確定的時 間等。具體地,第一預定規(guī)則中規(guī)定了根據(jù)信息單元及其對應的單元相關信息,來確定 待分類短文本信息的類別信息的確定規(guī)則。短文本處理裝置基于上述第一預定規(guī)則所規(guī)定 的確定規(guī)則,并根據(jù)已分類信息單元及其對應的單元相關信息,來確定所述待分類短文本 信息的類別信息。其中,所述單元相關信息包括以下至少一項1)信息單元長度;2)信息單元類別;3)信息單元特征權值;以下針對上述每項信息進行詳細描述
1)信息單元長度;具體地,短文本處理裝置基于第一預定規(guī)則,并根據(jù)成功匹配的信息單元及其信 息單元長度,來獲取待分類短文本信息的類別信息。例如,第一預定規(guī)則中規(guī)定,當成功匹配的信息單元長度與待分類短文本信息的 長度相等時,將該信息單元的類別作為待分類短文本信息的類別。則當短文本處理裝置判 斷信息單元長度與待分類短文本信息的長度相等時,將該信息單元的類別作為待分類短文 本信息的類別。優(yōu)選地,還可記錄該次類別判定操作的時間。2)信息單元類別;具體地,短文本處理裝置基于第一預定規(guī)則,并根據(jù)成功匹配的信息單元及其信 息單元類別,來獲取待分類短文本信息的類別信息。例如,第一預定規(guī)則中規(guī)定,當待分類短文本信息成功匹配多個信息單元時,統(tǒng)計 信息單元的各類別數(shù)量,選擇數(shù)量最多的類別作為待分類短文本信息的類別。則對于短文 本信息“dnf游戲下載”,其成功匹配信息單元“dnf”、“游戲”、“下載”,其中,信息單元“dnf” 的類別為“游戲”,信息單元“游戲”的類別為“游戲”,信息單元“下載”的類別為“資訊”,短 文本處理裝置統(tǒng)計得到“游戲”類別的數(shù)量為二,“資訊”類別的數(shù)量為一,則選擇“游戲”作 為短文本信息的類別。優(yōu)選地,還可記錄該次類別判定操作的時間。3)信息單元特征權值;具體地,短文本處理裝置基于第一預定規(guī)則,并根據(jù)成功匹配的信息單元及其信 息單元特征權值,來獲取待分類短文本信息的類別信息。例如,第一預定規(guī)則中規(guī)定,分別按照類別將成功匹配的信息單元的信息單元特 征權值相加,取相加后的權值最高的類別作為短文本信息的類別。則對于短文本信息“dnf 游戲下載”,其成功匹配信息單元“dnf”、“游戲”、“下載”。其中,信息單元“dnf”的類別為 “游戲”,特征權值為2. 3 ;信息單元“游戲”的類別為“游戲”,特征權值為1. 3,信息單元“下 載”的類別為“資訊”,特征權值為2. 0。短文本處理裝置分析得到信息單元“dnf”及“游戲” 類別相同,并獲得將兩者相加的權值3. 6,信息單元“下載”的類別與其他信息單元不同,無 需對其進行操作。短文本處理裝置得到“游戲”類別的信息單元總權重為3. 6,“資訊”類別 的信息單元總權重為2. 0,則將“游戲”作為短文本信息“dnf游戲下載”的類別。優(yōu)選地, 還可記錄該次類別判定操作的時間。又例如,對于短文本信息“dnf游戲下載”,其成功匹配信息單元“dnf”、“游戲”、“下 載”。其中,當信息單元“dnf”的類別為“游戲”時,其特征權值為2. 3,當其類別為“資訊” 時,其特征權值為-1. 0 ;當信息單元“游戲”的類別為“游戲”時,其特征權值為1. 3,當其類 別為“娛樂”時,其特征權值為-0. 5 ;信息單元“下載”的類別為“資訊”,特征權值為2. 0。 短文本處理裝置分析得到共有“游戲”、“資訊”、“娛樂”三種類別,并計算得到上述三種類別 的總權值分別為3. 6、1. 0、-0. 5,則將“游戲”作為短文本信息“dnf游戲下載”的類別。優(yōu) 選地,還可記錄該次類別判定操作的時間。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限 制,本領域技術人員應該理解,任何基于預定規(guī)則,并根據(jù)成功匹配的信息單元及其單元相 關信息,來獲取待分類短文本信息的類別信息的實現(xiàn)方式,均應包含在本發(fā)明的范圍內(nèi)。圖2為本發(fā)明一個優(yōu)選實施例的用于實施識別短文本類別信息的方法流程圖。在本實施例中,前述實施例中的步驟S3進一步包括步驟S31及步驟S32,前述第一預定規(guī)則包 括多個類別篩選規(guī)則。步驟Sl及步驟S2已在參照圖1所示的實施例中予以詳述,并以引用的方式包含 于此,不再贅述。接著,在步驟S31中,短文本處理裝置根據(jù)所述一個或多個已分類信息單元對應 的信息單元類別,來由所述第一預定規(guī)則中選擇類別篩選規(guī)則。具體地,短文本處理裝置根據(jù)成功匹配的信息單元的信息單元類別,來由所述第 一預定規(guī)則中選擇能夠與信息單元類別對應的類別篩選規(guī)則。其中,當成功匹配的信息單 元僅包含一個類別,則短文本處理裝置由第一預定規(guī)則中選擇能夠與該類別對應的類別篩 選規(guī)則;當成功匹配的信息單元包含多個類別,則短文本處理裝置由第一預定規(guī)則中選擇 分別與該多個類別對應的類別篩選規(guī)則。其中,一個類別篩選規(guī)則可能對應多個類別。例如,對于短文本信息“dnf游戲下載”,其成功匹配信息單元“dnf”、“游戲”、“下 載”,其中,信息單元“dnf”的類別為“游戲”,信息單元“游戲”的類別為“游戲”,信息單元 “下載”的類別為“資訊”。短文本處理裝置在第一預定規(guī)則中進行查找,并得到能夠分別與 類別“游戲”及“資訊”對應的類別篩選規(guī)則。又例如,對于短文本信息“dnf游戲下載”,其成功匹配信息單元“dnf”、“游戲”、“下 載”。其中,信息單元“dnf”的類別為“游戲”及“資訊”,信息單元“游戲”的類別為“游戲” 及“娛樂”;信息單元“下載”的類別為“資訊”。短文本處理裝置在第一預定規(guī)則中進行查 找,但僅獲得能夠與類別“游戲”及“娛樂”對應的類別篩選規(guī)則。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限 制,本領域技術人員應該理解,任何根據(jù)信息單元類別,來由所述第一預定規(guī)則中選擇類別 篩選規(guī)則的實現(xiàn)方式,均應包含在本發(fā)明的范圍內(nèi)。在步驟S32中,短文本處理裝置基于所選擇的類別篩選規(guī)則,并根據(jù)所述一個或 多個已分類信息單元及/或其對應的單元相關信息,來直接獲得所述待分類短文本信息的 類別信息,或者,獲得所述待分類短文本信息的可選類別。具體地,短文本處理裝置基于類別篩選規(guī)則所規(guī)定的選擇待分類短文本信息的規(guī) 則,并根據(jù)成功匹配的信息單元,或者,根據(jù)成功匹配的信息單元對應的單元相關信息,或 者,根據(jù)成功匹配的信息單元及其對應的相關信息,來直接獲得所述待分類短文本信息的 類別信息;或者,當未能直接獲得所述待分類短文本信息的類別信息時,由成功匹配的信息 單元的信息單元類別中獲得所述待分類短文本信息的可選類別。其中,該類別篩選規(guī)則參考以下至少一項因素1)預設的類別判定信息單元;具體地,短文本處理裝置檢測成功匹配的信息單元是否包括預設的類別判定信息 單元,若檢測結果為包括,則直接將該類別判定信息單元對應的類別作為待分類短文本信 息的類別。例如,對于短文本信息“dnf游戲下載”,其成功匹配信息單元“dnf”、“游戲”、“下 載”。其中,信息單元“dnf”為“游戲”類別的類別判定單元,則當短文本處理裝置檢測到該 信息單元后,直接將類別“游戲”作為短文本信息“dnf游戲下載”對應的類別。2)所述待分類短文本的長度;
具體地,短文本處理裝置計算成功匹配的各信息單元的信息單元長度與待分類短 文本信息的長度比是否超過第一預定閾值,若該長度比超過第一預定閾值,則直接將該信 息單元的類別作為該待分類短文本信息的類別;若未超過,則若基于類別篩選規(guī)則的其他 判斷操作未將該信息單元對應的類別判斷為不予考慮,將該信息單元的類別作為可選類 別。其中,本領域技術人員應可根據(jù)實際情況和需求來選擇并設定該第一預定閾值。例如,該第一預定閾值為90%,則對于短文本信息“dnf”,其成功匹配的信息單元 “dnf ”與其長度比為100%,高于90%,則將信息單元“dnf ”對應的類別““游戲”作為短文 本信息“dnf”的類別。3)根據(jù)所述待分類短文本信息所獲得的信息單元類別的統(tǒng)計數(shù)據(jù);具體地,短文本處理裝置分別統(tǒng)計根據(jù)待分類短文本信息所獲得的各信息單元類 別的數(shù)量,并且當符合以下條件時分別進行以下類別選擇i)當待分類短文本信息的長度超過第二預定閾值,且與該短文本信息成功匹配的 信息單元數(shù)量超過第三預定閾值時,直接將該數(shù)量超過第三預定閾值的信息單元對應的類 別作為該待分類短文本信息的類別;ii)當待分類短文本信息的長度超過第四預定閾值,且與該短文本信息成功匹配 的信息單元數(shù)量小于第五預定閾值時,判斷該數(shù)量小于第五預定閾值的信息單元對應的類 別不能夠被判斷為該待分類信息單元的類別,即判斷該類別為不予考慮,也即,不將其作為 可選類別。其中,本領域技術人員應可根據(jù)實際情況和需求來選擇并設定前述各預定閾值, 其中,第二至五預定閾值的選擇應使得該待分類短文本信息的長度及與其成功匹配的信息 單元的數(shù)量不會同時符合上述條件i)和ii),更優(yōu)選地,第五預定閾值小于等于第三預定 閾值。其中,所述各信息單元類別的數(shù)量但不限于a)各信息單元在短文本信息中出現(xiàn) 的數(shù)量;b)當短文本信息為輸入序列時,包含各信息單元的短文本信息被檢索的次數(shù)。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限 制,本領域技術人員應該理解,任何基于所選擇的類別篩選規(guī)則,根據(jù)所述一個或多個已 分類信息單元及/或其對應的單元相關信息,來直接獲得所述待分類短文本信息的類別信 息,或者,獲得所述待分類短文本信息的可選類別的其他實現(xiàn)方式,均應包含在本發(fā)明的范 圍內(nèi)。優(yōu)選地,本實施例中,步驟S3還包括步驟S33。在步驟S33中,短文本處理裝置基于第一預定規(guī)則,根據(jù)所述能夠成功匹配的一 個或多個已分類信息單元及其對應的單元相關信息,來由所述可選類別中選擇所述待分類 短文本信息的類別信息。具體地,短文本處理裝置基于第一預定規(guī)則,根據(jù)所述能夠成功匹配的一個或多 個已分類信息單元及其對應的單元相關信息,來獲得待分類短文本信息的類別信息的方 法,已在參照圖1所示的實施例中予以詳述,并以引用的方式包含于此,不再贅述。本實施 例與圖1所示實施例的區(qū)別在于,短文本處理裝置僅對可選類別中的類別進行是否可被確 定為待分類短文本信息的類別的判斷。圖3為本發(fā)明另一優(yōu)選實施例的用于實施識別短文本類別信息的方法流程圖。在
10本實施例中,前述實施例中的步驟S3進一步包括步驟S34、步驟S35及步驟S36,前述第一 預定規(guī)則包括多個權值計算規(guī)則。步驟Sl及步驟S2已在參照圖1所示的實施例中予以詳述,并以引用的方式包含 于此,不再贅述。在步驟S34中,短文本處理裝置根據(jù)所述一個或多個已分類信息單元對應的信息 單元類別,由所述第一預定規(guī)則中選擇權值計算規(guī)則。具體地,短文本處理裝置根據(jù)成功匹配的信息單元的信息單元類別,由所述第一 預定規(guī)則中選擇能夠與信息單元類別對應的權值計算規(guī)則。其中,當成功匹配的信息單元 僅包含一個類別,則短文本處理裝置由第一預定規(guī)則中選擇能夠與該類別對應的權值計算 規(guī)則;當成功匹配的信息單元包含多個類別,則短文本處理裝置分別由第一預定規(guī)則中選 擇分別于該多個類別對應的權值計算規(guī)則。其中,一個權值計算規(guī)則可能對應多個類別。接著在步驟S35中,短文本處理裝置基于所選擇的權值計算規(guī)則,并根據(jù)所述一 個或多個已分類信息單元對應的信息單元特征權值,來獲得所述待分類短文本信息的一個 或多個類別權值。具體地,短文本處理裝置根據(jù)所選擇的權值計算規(guī)則中記錄的權值計算方法,來 分別對各類別的成功匹配的一個或多個已分類信息單元對應的信息單元特征權值進行運 算處理,以獲得各類別的類別權值。例如,對于短文本信息“dnf游戲下載”,其成功匹配信息單元“dnf”、“游戲”、“下 載”。其中,當信息單元“dnf”的類別為“游戲”時,其特征權值為2. 3;當其類別為“資訊” 時,其特征權值為-1. 0 ;當信息單元“游戲”的類別為“游戲”時,其特征權值為1. 3,當其類 別為“娛樂”時,其特征權值為-0. 5 ;信息單元“下載”的類別為“資訊”,特征權值為2. 0。 短文本處理裝置由第一預定規(guī)則中查找得到類別“游戲”、“娛樂”及“資訊”均對應第一權 值計算規(guī)則。該第一權值計算規(guī)則規(guī)定,將各類別的信息單元的特征權值相加來獲得各類 別的類別權值,則短文本處理裝置將各類別的信息單元特征權值相加,得到“游戲”類別的 類別權值為3. 6,“資訊”類別的類別權值為1. 0,“娛樂”類別的類別權值為-0. 5。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限 制,本領域技術人員應該理解,任何基于所選擇的權值計算規(guī)則,并根據(jù)所述一個或多個已 分類信息單元對應的信息單元特征權值,來獲得所述待分類短文本信息的一個或多個類別 權值的實現(xiàn)方式,例如,分別將各類別的特征權值取平均,或者取平方和等,均應包含在本 發(fā)明的范圍內(nèi)。接著,在步驟S36中,短文本處理裝置基于第一預定規(guī)則,根據(jù)所述類別權值,確 定所述待分類短文本信息的類別信息。具體地,第一預定規(guī)則中包括根據(jù)類別權值來判斷類別信息的方法,短文本處理 裝置根據(jù)所記錄的方法,來確定所述待分類短文本信息的類別信息。例如,第一預定規(guī)則中規(guī)定,當一個類別的類別權值大于0時,判斷該類別為待分 類短文本信息對應的類別。則對于短文本信息“dnf游戲下載”,其“游戲”類別的類別權值 為3. 6,“資訊”類別的類別權值為1. 0,“娛樂”類別的類別權值為-0. 5,則短文本處理裝置 判斷短文本信息“dnf游戲下載””的類別包括“游戲”及“資訊”。又例如,第一預定規(guī)則中規(guī)定,選擇類別權值最高的類別作為待分類短文本信息的類別。則對于短文本信息“dnf游戲下載”,其“游戲”類別的類別權值為3. 6,“資訊”類 別的類別權值為1. 0,“娛樂”類別的類別權值為-0. 5,則短文本處理裝置判斷短文本信息 "dnf游戲下載””的類別為“游戲”。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限 制,本領域技術人員應該理解,任何基于第一預定規(guī)則,根據(jù)所述類別權值,來確定所述待 分類短文本信息的類別信息的實現(xiàn)方式,例如,分別將各類別的特征權值取平均,或者取平 方和等,均應包含在本發(fā)明的范圍內(nèi)。需要進一步說明的是,本實施例所述的基于第一預定規(guī)則,根據(jù)所述類別權值,確 定所述待分類短文本信息的類別信息的方法,可用于在前述步驟S33中,從可選類別中選 擇帶分類短文本信息的類別。圖4為本發(fā)明再一優(yōu)選實施例的用于實施識別短文本類別信息的方法流程圖。步驟Sl至步驟S3已在參照圖1、圖2或圖3所示的實施例中予以詳述,并以引用 的方式包含于此,不再贅述。在所述步驟Sl之前,還包括以下步驟步驟S4、建立或更新所述已分類信息單元庫。步驟S4進一步包括步驟S41 (圖未 示)、步驟S42(圖未示)、步驟S43(圖未示)及步驟S44(圖未示)。在步驟S41中,短文本處理裝置獲取多個已分類的短文本信息及其對應的類別信 肩、ο其中,獲取該已分類的短文本信息包括但不限于1)獲取根據(jù)參照圖1至圖3所示實施例提供的方法而獲得的已確定類別的短文本 fn息;2)獲取根據(jù)其他方法而獲得的已分類的短文本信息;例如,短文本處理裝置獲取多個已擴展的短文本信息,然后,根據(jù)預訓練的分類模 型,確定所述多個已擴展的短文本信息的類別信息等。在步驟S42中,短文本處理裝置對所述多個已分類的短文本信息分別進行切分并 提取,獲得待分類的信息單元。具體地,短文本處理裝置對已分類的短文本信息進行切分,獲得各個基本粒度,隨 后,短文本處理裝置提取該等基本粒度,來構成待分類的信息單元。其中,該提取操作包括但不限于1)直接提取基本粒度作為信息單元;其中,所述基本粒度為短文本處理裝置對已 分類短文本信息進行切分所得的基本單元;例如,對于已分類的短文本信息“dnf游戲下載”,短文本處理裝置對其進行切分, 獲得基本粒度“dnf”、“游戲”、“下載”,則短文本處理裝置直接將該等基本粒度作為信息單 元;2)提取基本粒度及其組合作為信息單元;例如,對于已分類的短文本信息“dnf游戲下載”,短文本處理裝置對其進行切 分,獲得基本粒度“dnf”、“游戲”、“下載”,則短文本處理裝置將該等基本粒度及其組合,即 “dnf”、“游戲”、“下載”、“dnf游戲”、“游戲下載”,提取為信息單元。其中,所述組合可為基 本粒度的任意組合,也可為基本粒度按照一定規(guī)則進行組合,例如,按照n-gram片段的組合要求,組合成信息單元等。優(yōu)選地,在上述提取操作中,還包括去除無效信息的操作。例如,對于已分類的短 文本信息“dnf游戲的下載”,短文本處理裝置對其進行切分,獲得基本粒度“dnf”、“游戲”、 “的”、“下載”,則短文本處理裝置根據(jù)預設的無效信息詞典,判斷“的”為無效信息,將“的,, 去除后,再提取“dnf”、“游戲”、“下載”以構成信息單元。在步驟S43中,短文本處理裝置根據(jù)所述待分類信息單元在各類別的已分類短文 本信息中的分布狀態(tài),確定所述待分類信息單元的類別。其中,所述分布狀態(tài)包括但不限于1)待分類信息單元出現(xiàn)的次數(shù);幻待分類信 息單元出現(xiàn)的頻率;3)待分類信息單元所在的已分類短文本信息的類別等。具體地,短文本處理裝置分別計算待分類信息單元在一個或多個類別的已分類短 文本信息中出現(xiàn)的次數(shù)及/或出現(xiàn)的頻率,并根據(jù)第一預定判斷條件,來確定所述待分類 信息單元的類別。例如,第一預定判斷條件中規(guī)定,當待分類信息單元在本次檢測中在某一類別的 已分類短文本信息中的出現(xiàn)次數(shù)高于在其他類別的已分類短文本信息中的出現(xiàn)次數(shù)五倍, 或者,當待分類信息單元在本次檢測中在某一類別的已分類短文本信息中的出現(xiàn)次數(shù)高于 在其他類別的已分類短文本信息中的出現(xiàn)次數(shù)三倍,并且在包含本次檢測及歷史檢測的所 有檢測記錄中,待分類信息單元在該類別的已分類短文本信息中的出現(xiàn)次數(shù)高于在其他類 別的已分類短文本信息中的出現(xiàn)次數(shù),則將該待分類信息單元的類別判斷為該類別。則對于待分類信息單元“dnf”,當短文本處理裝置判斷其是否為“游戲”類別的 信息單元時,短文本處理裝置分別在“游戲”類別及非“游戲”類別的已分類短文本信息中 計算該信息單元的出現(xiàn)次數(shù),當統(tǒng)計得到信息單元“dnf”在游戲類別的已分類短文本信息 中出現(xiàn)的次數(shù)為20431次,在非游戲類別的已分類短文本信息中出現(xiàn)的次數(shù)為2531次, 20431/2531 ^ 8. 11,則判斷信息單元“dnf ”的類別為“游戲”。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術方案,而非對本發(fā)明的限 制,本領域技術人員應能夠根據(jù)各類別的特征來確定所述第一預定判斷條件,例如,選擇出 現(xiàn)頻率最高的類別作為該待分類信息單元的類別等,因此,任何根據(jù)所述待分類信息單元 在各類別的已分類短文本信息中的分布狀態(tài),來確定所述待分類信息單元的類別的實現(xiàn)方 式,均應包含在本發(fā)明的范圍內(nèi)。在步驟S44中,短文本處理裝置根據(jù)已確定類別的信息單元,來建立或更新所述 已分類信息單元庫。具體地,當已分類信息單元庫尚未建立,則短文本處理裝置根據(jù)已確定類別的信 息單元,建立已分類信息單元庫;當已分類信息單元庫已建立,則短文本處理裝置根據(jù)在本 次檢測中確定類別的信息單元,來更新已分類信息單元庫。作為本發(fā)明的一個優(yōu)選實施例,在步驟S43中,短文本信息裝置根據(jù)所述待分類 信息單元在各類別的已分類短文本信息中的分布狀態(tài),來確定所述待分類信息單元的類別 及其對應的特征權值。具體地,短文本信息處理裝置分別計算待分類信息單元在一個或多個類別的已分 類短文本信息中出現(xiàn)的次數(shù)及/或出現(xiàn)的頻率,并根據(jù)第二預定判斷條件,來確定所述待 分類信息單元的類別及其特征權值。
例如,第二預定判斷條件中規(guī)定,當待分類信息單元在本次檢測中在某一類別的 已分類短文本信息中的出現(xiàn)次數(shù)sc高于在其他類別的已分類短文本信息中的出現(xiàn)次數(shù)nc 五倍,或者,當待分類信息單元在本次檢測中在某一類別的已分類短文本信息中的出現(xiàn)次 數(shù)sc高于在其他類別的已分類短文本信息中的出現(xiàn)次數(shù)nc三倍,并且在包含本次檢測及 歷史檢測的所有檢測記錄中,待分類信息單元在該類別的已分類短文本信息中的出現(xiàn)次數(shù) sf高于在其他類別的已分類短文本信息中的出現(xiàn)次數(shù)nf,則將該待分類信息單元的類別
權利要求
1.一種計算機實現(xiàn)的用于實時識別短文本類別信息的方法,其中,該方法包括以下步驟a獲取待分類的短文本信息;b將所述待分類短文本信息與已分類信息單元庫中的信息單元進行匹配,以獲取能夠 成功匹配的一個或多個已分類信息單元及其所對應的單元相關信息;c基于第一預定規(guī)則,根據(jù)所述能夠成功匹配的一個或多個已分類信息單元及其對應 的單元相關信息,獲得所述待分類短文本信息的類別信息。
2.根據(jù)權利要求1所述的方法,其中,所述單元相關信息包括以下至少一項 -信息單元長度;-信息單元類別; -信息單元特征權值。
3.根據(jù)權利要求2所述的方法,其中,所述第一預定規(guī)則包括多個類別篩選規(guī)則,其 中,所述步驟c包括以下步驟-根據(jù)所述一個或多個已分類信息單元對應的信息單元類別,由所述第一預定規(guī)則中 選擇類別篩選規(guī)則;-基于所選擇的類別篩選規(guī)則,根據(jù)所述一個或多個已分類信息單元及/或其對應的 單元相關信息,直接獲得所述待分類短文本信息的類別信息,或者,獲得所述待分類短文本 信息的可選類別。
4.根據(jù)權利要求3所述的方法,其中,所述步驟c還包括以下步驟-基于第一預定規(guī)則,根據(jù)所述能夠成功匹配的一個或多個已分類信息單元及其對應 的單元相關信息,由所述可選類別中選擇所述待分類短文本信息的類別信息。
5.根據(jù)權利要求3或4所述的方法,其中,所述類別篩選規(guī)則參考以下至少一項因素 -預設的類別判定信息單元;-所述已分類信息單元的長度;-根據(jù)所述待分類短文本信息所獲得的信息單元類別的統(tǒng)計數(shù)據(jù)。
6.根據(jù)權利要求1至5中任一項所述的方法,其中,所述第一預定規(guī)則包括多個權值計 算規(guī)則,所述步驟c包括以下步驟-根據(jù)所述一個或多個已分類信息單元對應的信息單元類別,由所述第一預定規(guī)則中 選擇權值計算規(guī)則;-基于所選擇的權值計算規(guī)則,根據(jù)所述一個或多個已分類信息單元對應的信息單元 特征權值,獲得所述待分類短文本信息的一個或多個類別權值;-基于第一預定規(guī)則,根據(jù)所述類別權值,確定所述待分類短文本信息的類別信息。
7.根據(jù)權利要求1至6中任一項所述的方法,其中,該方法還包括以下步驟 A建立或更新所述已分類信息單元庫。
8.根據(jù)權利要求7所述的方法,其中,所述步驟A包括以下步驟 Al獲取多個已分類的短文本信息及其對應的類別信息;A2對所述多個已分類的短文本信息分別進行切分并提取,獲得待分類的信息單元; A3根據(jù)所述待分類信息單元在各類別的已分類短文本信息中的分布狀態(tài),確定所述待 分類信息單元的類別;A4根據(jù)已確定類別的信息單元,建立或更新所述已分類信息單元庫。
9.根據(jù)權利要求8所述的方法,其中,所述步驟A3包括以下步驟-根據(jù)所述待分類信息單元在各類別的已分類短文本信息中的分布狀態(tài),確定所述待 分類信息單元的類別及其對應的特征權值; 所述步驟A4包括以下步驟-根據(jù)已確定類別及特征權值的信息單元,建立或更新所述已分類信息單元庫。
10.根據(jù)權利要求8或9所述的方法,其中,所述步驟Al包括以下步驟 -獲取多個已擴展的短文本信息;-根據(jù)預訓練的分類模型,確定所述多個已擴展的短文本信息的類別信息。
11.根據(jù)權利要求8至10中任一項所述的方法,其中,所述步驟A還包括以下步驟 -根據(jù)歷史信息單元分類記錄,調整所確定的信息單元的類別。
12.根據(jù)權利要求1至11中任一項所述的方法,其中,該方法還包括以下步驟 d根據(jù)歷史短文本信息分類記錄,調整所確定的短文本信息的類別信息。
13.一種用于實時識別短文本類別信息的短文本處理裝置,其中,該短文本處理裝置包括第一獲取裝置、用于獲取待分類的短文本信息;匹配裝置、用于將所述待分類短文本信息與已分類信息單元庫中的信息單元進行匹 配,以獲取能夠成功匹配的一個或多個已分類信息單元及其所對應的單元相關信息;分類裝置、用于基于第一預定規(guī)則,根據(jù)所述能夠成功匹配的一個或多個已分類信息 單元及其對應的單元相關信息,獲得所述待分類短文本信息的類別信息。
14.根據(jù)權利要求13所述的短文本處理裝置,其中,所述單元相關信息包括以下至少 一項-信息單元長度; -信息單元類別; -信息單元特征權值。
15.根據(jù)權利要求14所述的短文本處理裝置,其中,所述第一預定規(guī)則包括多個類別 篩選規(guī)則,其中,所述分類裝置包括第一規(guī)則選擇裝置、用于根據(jù)所述一個或多個已分類信息單元對應的信息單元類別, 由所述第一預定規(guī)則中選擇類別篩選規(guī)則;第一處理裝置、用于基于所選擇的類別篩選規(guī)則,根據(jù)所述一個或多個已分類信息單 元及/或其對應的單元相關信息,直接獲得所述待分類短文本信息的類別信息,或者,獲得 所述待分類短文本信息的可選類別。
16.根據(jù)權利要求15所述的短文本處理裝置,其中所述分類裝置還包括第一類別選擇裝置、用于基于第一預定規(guī)則,根據(jù)所述能夠成功匹配的一個或多個已 分類信息單元及其對應的單元相關信息,由所述可選類別中選擇所述待分類短文本信息的 類別信息。
17.根據(jù)權利要求15或16所述的短文本處理裝置,其中,所述類別篩選規(guī)則參考以下 至少一項因素-預設的類別判定信息單元;-所述待分類短文本的長度;-根據(jù)所述待分類短文本信息所獲得的信息單元類別的統(tǒng)計數(shù)據(jù)。
18.根據(jù)權利要求13至17中任一項所述的短文本處理裝置,其中,所述第一預定規(guī)則 包括多個權值計算規(guī)則,所述分類裝置還包括第二規(guī)則選擇裝置、用于根據(jù)所述一個或多個已分類信息單元對應的信息單元類別, 由所述第一預定規(guī)則中選擇權值計算規(guī)則;第二處理裝置、用于基于所選擇的權值計算規(guī)則,根據(jù)所述一個或多個已分類信息單 元對應的信息單元特征權值,獲得所述待分類短文本信息的一個或多個類別權值;第一確定裝置、用于基于第一預定規(guī)則,根據(jù)所述類別權值,確定所述待分類短文本信 息的類別信息。
19.根據(jù)權利要求13至18中任一項所述的短文本處理裝置,其中,該設備還包括 更新裝置、用于建立或更新所述已分類信息單元庫。
20.根據(jù)權利要求19所述的短文本處理裝置,其中,所述第一獲取裝置包括 第二獲取裝置、用于獲取多個已分類的短文本信息及其對應的類別信息;切分提取裝置、用于對所述多個已分類的短文本信息分別進行切分并提取,獲得待分 類的信息單元;第二確定裝置、用于根據(jù)所述待分類信息單元在各類別的已分類短文本信息中的分布 狀態(tài),確定所述待分類信息單元的類別;子更新裝置、用于根據(jù)已確定類別的信息單元,建立或更新所述已分類信息單元庫。
21.根據(jù)權利要求20所述的短文本處理裝置,其中,所述第二確定裝置還用于-根據(jù)所述待分類信息單元在各類別的已分類短文本信息中的分布狀態(tài),確定所述待 分類信息單元的類別及其對應的特征權值; 所述子更新裝置還用于-根據(jù)已確定類別及特征權值的信息單元,建立或更新所述已分類信息單元庫。
22.根據(jù)權利要求20或21所述的短文本處理裝置,其中,所述第二獲取裝置包括 子獲取裝置、用于獲取多個已擴展的短文本信息;第三確定裝置、用于根據(jù)預訓練的分類模型,確定所述多個已擴展的短文本信息的類 別信息。
23.根據(jù)權利要求20至22中任一項所述的短文本處理裝置,其中,所述更新裝置還包括第一調整裝置、用于根據(jù)歷史信息單元分類記錄,調整所確定的信息單元的類別。
24.根據(jù)權利要求13至23中任一項所述的短文本處理裝置,其中,該短文本處理裝置 還包括第二調整裝置、用于根據(jù)歷史短文本信息分類記錄,調整所確定的短文本信息的類別 fn息ο
25.一種計算機設備,其中,該計算機設備包括權利要求13至23中至少一項所述的短 文本處理裝置。
全文摘要
一種計算機實現(xiàn)的用于實時識別短文本類別信息的方法、裝置及計算機設備。本發(fā)明通過獲取待分類的短文本信息;將所述待分類短文本信息與已分類信息單元庫中的信息單元進行匹配,以獲取能夠成功匹配的已分類信息單元及其對應的單元相關信息;并基于第一預定規(guī)則,根據(jù)該已分類信息單元及其對應的單元相關信息,獲得所述待分類短文本信息的類別信息。與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點1)本發(fā)明能夠達到較佳的召回率;2)由于待分類短文本信息的確定主要通過能夠成功匹配的信息單元及其相關信息來確定,因此,其處理速度快,每秒能夠達到識別上萬個短文本信息類別的速度,完全能夠滿足線上的實時識別需求。
文檔編號G06F17/30GK102073707SQ20101061656
公開日2011年5月25日 申請日期2010年12月22日 優(yōu)先權日2010年12月22日
發(fā)明者冼健 申請人:百度在線網(wǎng)絡技術(北京)有限公司