多層電子郵件優(yōu)先級排序法
【專利摘要】一種使入站消息優(yōu)先級排序自動化的方法。所述方法包括使用訓(xùn)練數(shù)據(jù)訓(xùn)練計算機系統(tǒng)的全局分類器。根據(jù)多個反饋實例動態(tài)地訓(xùn)練所述計算機系統(tǒng)的用戶特定的分類器。根據(jù)基于主題的用戶模型,推斷所述計算機系統(tǒng)接收的所述入站消息的主題。計算所述入站消息的多個上下文特征。根據(jù)所計算的所述入站消息的上下文特征和所述全局分類器與所述用戶特定的分類器的加權(quán)組合,確定用于向所述入站消息分配優(yōu)先級級別的優(yōu)先級分類策略。根據(jù)所述優(yōu)先級分類策略對所述入站消息進行分類。
【專利說明】多層電子郵件優(yōu)先級排序法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明一般地涉及用于電子郵件消息的優(yōu)先級排序的方法和裝置,更具體地說, 涉及用于多層電子郵件消息優(yōu)先級排序法的方法和裝置。
【背景技術(shù)】
[0002] 假如知識工作者每天接收大量消息并且需要大量時間來閱讀并回復(fù)每個消息,則 知識工作者會想辦法通過掃描收件箱,檢查發(fā)件人姓名和主題以使某些消息的關(guān)注優(yōu)先級 高于其它消息,來優(yōu)化花在消息處理上的時間。當(dāng)知識工作者收件箱內(nèi)的新消息數(shù)量很大 時,過濾消息以迅速識別高優(yōu)先級消息本身成為重要且耗時的工作。此重要且耗時的工作 讓人每天覺得"郵件過載",并且偶爾會導(dǎo)致忽略關(guān)鍵消息的不良后果,因為人們發(fā)現(xiàn)在根 據(jù)發(fā)件人、主題或日期等元素進行排序時,很難創(chuàng)建有效的次序。
[0003] -般很容易理解,用戶針對消息執(zhí)行的諸如閱讀、回復(fù)、歸檔或刪除之類的動作主 要取決于用戶感知的消息重要性。因此,電子郵件優(yōu)先級排序的主要目標是識別具有較高 的用戶感知重要性值的電子郵件消息。
[0004] 已提出或建議若干用于重新設(shè)計電子郵件接口的技術(shù)以幫助用戶快速識別其收 件箱中的重要電子郵件。例如,現(xiàn)有的方法多數(shù)根據(jù)使用監(jiān)管式學(xué)習(xí)算法訓(xùn)練的分類器來 排列電子郵件的優(yōu)先級。
[0005] 例如,某些傳統(tǒng)的方法自動將電子郵件分組為會話式線程并根據(jù)具有各種社交、 內(nèi)容、線程和標簽特征的線性邏輯回歸模型排列消息的優(yōu)先級,從而對用戶的入站消息進 行優(yōu)先級排序。其它傳統(tǒng)的方法在基于單詞、基于短語以及元級特征(例如,消息發(fā)件人、 收件人、長度、時間、是否帶附件)上使用支持向量機(SVM)分類器以確定新的未讀電子郵 件的重要性。還有一些傳統(tǒng)的方法使用SVM分類器,但是根據(jù)通過電子郵件數(shù)據(jù)推導(dǎo)的每 個用戶的個人社交網(wǎng)絡(luò)計算額外的社交重要性特征。這些方法為了分類器學(xué)習(xí)而使用的基 于內(nèi)容的特征是在電子郵件內(nèi)容中出現(xiàn)的單詞,對于單詞太少(稀疏數(shù)據(jù))的極簡短消息 或單詞太多的長消息(噪聲數(shù)據(jù))而言,這種方法效果不太好。
[0006] 例如,傳統(tǒng)的技術(shù)通過查看消息正文內(nèi)的所有單詞來訓(xùn)練其分類器。這種方法導(dǎo) 致高維度分類,因為每個單詞都是一個維度。有些傳統(tǒng)的分類器使用此高維度方法,然后嘗 試通過計算一個或多個特定單詞出現(xiàn)的實例數(shù)來推斷消息的重要性,而其它傳統(tǒng)的分類器 嘗試根據(jù)一個單詞相對于另一單詞的位置來預(yù)測消息的重要性。由于其高維特性,這些方 法非常嘈雜。因此,用戶很難了解為何看上去類似的消息被采用傳統(tǒng)方法的系統(tǒng)以不同的 方式進行分類。
[0007] 為增加優(yōu)先級排序的準確度,有些傳統(tǒng)方法通過一次性批處理標記的訓(xùn)練數(shù)據(jù)來 訓(xùn)練分類器,它們或者不考慮動態(tài)用戶反饋,或者簡單地使用用戶反饋逐步更新分類器的 特征權(quán)重。例如,在提供用戶反饋的傳統(tǒng)技術(shù)中,反饋只是被調(diào)入分類器,這簡單地調(diào)整分 類器的現(xiàn)有權(quán)重。但是,由于僅針對每個特定的反饋實例更新分類器,因此該反饋可能不會 立即反映在分類器中,例如,即使在用戶指示來自某一發(fā)件人的消息為低優(yōu)先級之后,他仍 可能會從該發(fā)件人接收到被標記為高優(yōu)先級的消息。換言之,可能需要一些時間才能讓分 類器的權(quán)重以有意義的方式更新,例如,以導(dǎo)致系統(tǒng)更改預(yù)測的消息優(yōu)先級的方式。
[0008] 此外,根據(jù)用戶反饋積極地更新特征權(quán)重會降低電子郵件優(yōu)先級排序的穩(wěn)健性, 例如,犧牲分類器提供的可靠性,而保守地更新特征權(quán)重將導(dǎo)致對用戶反饋的遲緩響應(yīng)。
[0009] 因此,本發(fā)明的發(fā)明人意識到需要一種改進的電子郵件系統(tǒng)和方法,從而通過在 不犧牲全局(通用)分類器提供的可靠性的情況下,快速結(jié)合用于確定已接收電子郵件消 息優(yōu)先級的用戶特定準則,來幫助用戶執(zhí)行他/她的入站消息日常分類。
【發(fā)明內(nèi)容】
[0010] 鑒于傳統(tǒng)方法和結(jié)構(gòu)的上述以及其它示例性問題、缺陷和缺點,本發(fā)明的一個示 例性特征是提供一種方法和結(jié)構(gòu),其中由基于主題的模型通知電子郵件優(yōu)先級排序,該模 型從用戶的電子郵件數(shù)據(jù)和相關(guān)企業(yè)信息(例如,組織結(jié)構(gòu))自動構(gòu)建。
[0011] 在本發(fā)明的第一示例性方面,全局分類器有助于緩解冷啟動問題并提高優(yōu)先級預(yù) 測的穩(wěn)健性,而用戶特定的分類器增加系統(tǒng)的適應(yīng)性并允許對用戶反饋做出快速響應(yīng)。
[0012] 在本發(fā)明的另一示例性方面,用戶模型、消息元數(shù)據(jù)和消息內(nèi)容被用于計算作為 優(yōu)先級分類器輸入的上下文特征。
[0013] 在本發(fā)明的另一示例性方面,提供組合全局優(yōu)先級分類器和用戶特定的分類器的 動態(tài)策略。
[0014] 本發(fā)明提供如權(quán)利要求1中要求保護的方法,以及對應(yīng)的系統(tǒng)和計算機程序。
[0015] 根據(jù)本發(fā)明的另一示例性方面,提供一種裝置。所述裝置包括用于接收入站消息 的輸入端;至少一個處理器;以及有形地體現(xiàn)用于使入站消息優(yōu)先級排序自動化的一組指 令的存儲器。所述指令包括批次學(xué)習(xí)模塊,該批次學(xué)習(xí)模塊根據(jù)輸入其中的訓(xùn)練數(shù)據(jù)生成 全局分類器;反饋學(xué)習(xí)模塊,該反饋學(xué)習(xí)模塊根據(jù)多個反饋實例生成用戶特定的分類器; 特征提取模塊,該特征提取模塊接收所述入站消息和基于主題的用戶模型,根據(jù)所述基于 主題的用戶模型推斷所述入站消息的主題,并且計算所述入站消息的多個上下文特征;以 及分類模塊,該分類模塊根據(jù)所述入站消息的多個上下文特征和所述全局分類器與所述用 戶特定的分類器的加權(quán)組合,動態(tài)地確定用于向所述入站消息分配優(yōu)先級級別的優(yōu)先級分 類策略,并且根據(jù)所述優(yōu)先級分類策略對所述入站消息進行分類。
[0016] 根據(jù)本發(fā)明的另一示例性方面,提供一種計算機系統(tǒng),其中包括有形地體現(xiàn)用于 使入站消息優(yōu)先級排序自動化的一組指令的存儲器。所述指令導(dǎo)致所述計算機系統(tǒng)包括: 多個分類器,其中包括:使用訓(xùn)練數(shù)據(jù)創(chuàng)建的全局分類器;根據(jù)反饋實例動態(tài)更新的用戶 特定的分類器;基于主題的用戶模型,其包括多個主題模型;特征提取模塊,其推斷所述入 站消息的主題并根據(jù)所推斷的所述入站消息的主題計算所述入站消息的多個上下文特征; 以及分類模塊,其根據(jù)所述全局分類器與所述用戶特定的分類器的動態(tài)組合,向所述多個 上下文特征中的每個上下文特征分配權(quán)重,組合每個上下文特征的已分配權(quán)重,并且確定 所述入站消息的優(yōu)先級級別。
[0017] 根據(jù)本發(fā)明的另一示例性方面,提供一種使入站消息優(yōu)先級排序自動化的計算機 系統(tǒng)。所述計算機系統(tǒng)包括:多個分類器,其中包括:使用訓(xùn)練數(shù)據(jù)創(chuàng)建的全局分類器;以 及根據(jù)反饋實例動態(tài)更新的用戶特定的分類器;基于主題的用戶模型,其包括多個主題模 型;特征提取模塊,其推斷所述入站消息的主題并根據(jù)所推斷的所述入站消息的主題計算 所述入站消息的多個上下文特征;以及分類模塊,其根據(jù)所述全局分類器與所述用戶特定 的分類器的動態(tài)組合,向所述多個上下文特征中的一組上下文特征分配權(quán)重,組合所述一 組上下文特征的已分配權(quán)重,并且確定所述入站消息的優(yōu)先級級別。根據(jù)本發(fā)明的另一示 例性方面,提供一種裝置。所述裝置包括:用于接收入站消息的輸入端;至少一個處理器; 以及有形地體現(xiàn)用于使入站消息優(yōu)先級排序自動化的一組指令的存儲器。所述指令導(dǎo)致所 述裝置包括:特征提取模塊,其根據(jù)基于主題的用戶模型推斷所述入站消息的主題,并且根 據(jù)所推斷的所述入站消息的主題計算所述入站消息的多個上下文特征;以及分類模塊,其 根據(jù)多個分類器的動態(tài)組合向所述多個上下文特征分配權(quán)重,并且根據(jù)所述上下文特征的 已分配權(quán)重的組合,動態(tài)地確定用于向所述入站消息分配優(yōu)先級級別的優(yōu)先級分類策略。
[0018] 根據(jù)本發(fā)明的又一方面的計算機可讀存儲介質(zhì)包括存儲程序的計算機可讀存儲 介質(zhì),該程序用于使計算機執(zhí)行一種方法以實現(xiàn)多層電子郵件優(yōu)先級排序法。
[0019] 根據(jù)本發(fā)明的又一方面的計算機可讀存儲介質(zhì)包括存儲程序的計算機可讀存儲 介質(zhì),該程序用于使計算機充當(dāng)上述裝置以實現(xiàn)多層電子郵件優(yōu)先級排序法。
[0020] 根據(jù)本發(fā)明,使用新郵件與已被提供相應(yīng)反饋的舊消息之間基于實例的匹配,動 態(tài)地確定組合所述全局分類器與所述用戶特定的分類器的最佳策略。此方法允許本發(fā)明在 不犧牲所述全局分類器提供的可靠性的情況下,快速結(jié)合用于確定已接收電子郵件消息優(yōu) 先級的用戶特定的準則。
【專利附圖】
【附圖說明】
[0021] 通過下面參考附圖對本發(fā)明的示例性實施例的詳細描述,可更佳地理解上述及其 它示例性目的、方面和優(yōu)點,其中:
[0022] 圖1示出本發(fā)明的一個示例性實施例的系統(tǒng)架構(gòu);
[0023] 圖2示出本發(fā)明的示例性圖形用戶接口;
[0024] 圖3示出本發(fā)明的示例性基于主題的用戶模型;
[0025] 圖4示出本發(fā)明的示例性消息優(yōu)先級排序過程的流程圖;
[0026] 圖5示出跨不同分類器權(quán)重設(shè)置的三個示例性優(yōu)先級分類方案的準確結(jié)果;
[0027] 圖6示出跨不同分類器權(quán)重設(shè)置的三個示例性優(yōu)先級分類方案的假正率;
[0028] 圖7示出跨不同分類器權(quán)重設(shè)置的三個示例性優(yōu)先級分類方案的假負率;
[0029] 圖8示出跨不同分類器權(quán)重設(shè)置的具有不同分類閾值的動態(tài)+發(fā)件人/主題分類 方案的準確結(jié)果;
[0030] 圖9示出跨不同分類器權(quán)重設(shè)置的具有不同分類閾值的動態(tài)+發(fā)件人/主題優(yōu)先 級分類方案的假正率;
[0031] 圖10示出跨不同分類器權(quán)重設(shè)置的具有不同分類閾值的動態(tài)+發(fā)件人/主題優(yōu) 先級分類方案的假負率;
[0032] 圖11示出電子郵件優(yōu)先級排序的重要上下文特征;
[0033] 圖12示出用于實現(xiàn)本發(fā)明的各示例性實施例的典型硬件配置;以及
[0034] 圖13示出可與圖12的典型硬件配置一起使用的多個存儲介質(zhì)實例。
【具體實施方式】
[0035] 現(xiàn)在參考附圖,更具體地說參考圖1-13,其中示出根據(jù)本發(fā)明的方法和結(jié)構(gòu)的各 示例性實施例。
[0036] 本發(fā)明提供一種多層電子郵件優(yōu)先級排序法。本發(fā)明自動識別用戶收件箱中的高 優(yōu)先級電子郵件。根據(jù)本發(fā)明的一方面,所公開的方法和系統(tǒng)在圖形用戶接口(GUI)中與 其它電子郵件分離的單獨區(qū)域中顯示高優(yōu)先級電子郵件。這些特征可單獨或組合地幫助用 戶執(zhí)行他/她的入站消息日常分類。
[0037] 如此處所述,入站電子郵件的優(yōu)先級排序由用戶模型通知,例如,基于主題的用戶 模型,該模型例如根據(jù)用戶的電子郵件數(shù)據(jù)和相關(guān)企業(yè)信息(例如,組織結(jié)構(gòu))自動創(chuàng)建。 在收到入站消息時,本發(fā)明使用基于主題的用戶模型中包括的信息以及已接收消息的元數(shù) 據(jù)和內(nèi)容,計算一組上下文特征的值。根據(jù)這些上下文特征,本發(fā)明然后使用多層法確定入 站/已接收消息的優(yōu)先級。
[0038] 根據(jù)本發(fā)明的一方面,多層法動態(tài)地確定如何將全局優(yōu)先級分類器(從所標記的 多個用戶的訓(xùn)練數(shù)據(jù)建立)與從持續(xù)的用戶反饋構(gòu)建的用戶特定的分類器相組合來實現(xiàn) 穩(wěn)健性與響應(yīng)性之間的平衡。例如,本發(fā)明提供多層法以通過動態(tài)地確定組合全局分類器 與用戶特定的分類器的最佳策略來實現(xiàn)入站消息優(yōu)先級分類。該策略例如可基于新消息與 系統(tǒng)已接收其顯式和/或隱式優(yōu)先級反饋的消息之間的實例匹配。
[0039] 根據(jù)本發(fā)明的另一方面,根據(jù)基于主題的用戶模型,從每個消息推導(dǎo)一組上下文 特征。如此處所述,該基于主題的用戶模型對粒度信息(例如,有關(guān)用戶就不同主題與不同 人員的交互、每個主題對用戶的重要度,以及企業(yè)環(huán)境中用戶與用戶電子郵件中每個聯(lián)系 人的關(guān)系(例如,直接報告、團隊成員、非團隊成員)的信息)進行編碼。此外,如此處所述, 本發(fā)明實現(xiàn)多層優(yōu)先級分類法。例如,與簡單地使用固定權(quán)重組合全局分類器與用戶特定 的分類器的傳統(tǒng)技術(shù)相比,本發(fā)明使用新消息與先前已被提供反饋的消息之間基于實例的 匹配來動態(tài)地確定組合全局分類器與用戶特定的分類器的最佳策略。此方法允許本發(fā)明在 不犧牲全局分類器提供的可靠性的情況下,快速結(jié)合用于確定已接收電子郵件消息優(yōu)先級 的用戶特定的準則。
[0040] 圖1示出一個示例性系統(tǒng)架構(gòu),其中包括五個主要模塊。用戶建模模塊100、特征 提取模塊110、批次學(xué)習(xí)模塊120、反饋學(xué)習(xí)模塊130,以及分類模塊140。優(yōu)選地,接口 150 包括圖形用戶接口(⑶I)。
[0041] 用戶建模模塊100創(chuàng)建基于主題的用戶模型101以對有關(guān)用戶交互行為和用戶與 每個用戶消息發(fā)件人之間關(guān)系的信息進行編碼。更具體地說,在一個示例性實施例中,用戶 建模模塊100接收來自用戶電子郵件和日歷內(nèi)容91的數(shù)據(jù)以及來自企業(yè)存儲庫90的數(shù)據(jù) 作為輸入。用戶建模模塊100然后創(chuàng)建基于主題的用戶模型101,該模型包含編碼信息,例 如用戶通過電子郵件與他/她的聯(lián)系人的交互行為、他們討論的主題,以及他們在企業(yè)內(nèi) 的關(guān)系類型和強度。
[0042] 特征提取模塊110接收入站消息151 (用于優(yōu)先級排序或處理用戶反饋)或訓(xùn)練 數(shù)據(jù)111 (用于創(chuàng)建全局分類器121),以及基于主題的用戶模型101作為輸入,然后計算每 個消息的一組上下文特征的值。這些上下文特征描述與消息151或訓(xùn)練數(shù)據(jù)111中的消息 關(guān)聯(lián)的上下文,其中包括與電子郵件發(fā)件人(從基于主題的用戶模型101中檢索)關(guān)聯(lián)的 交互和關(guān)系信息,以及被視為影響用戶感知的消息重要性的消息特性。特征提取模塊110 然后將消息的上下文特征輸出到批次學(xué)習(xí)模塊120、反饋學(xué)習(xí)模塊130和分類模塊140。
[0043]批次學(xué)習(xí)模塊120根據(jù)訓(xùn)練數(shù)據(jù)111使用監(jiān)管式學(xué)習(xí)創(chuàng)建全局優(yōu)先級分類器121。 具體而言,批次學(xué)習(xí)模塊120調(diào)用特征提取模塊110以從訓(xùn)練數(shù)據(jù)111提取上下文特征。 [0044]反饋學(xué)習(xí)模塊130從接口 150接收有關(guān)各個消息151的優(yōu)先級的反饋152作為輸 入,然后分析這些消息151以創(chuàng)建用戶特定的分類器131。具體而言,經(jīng)由特征提取模塊110 將消息151的上下文特征輸入反饋學(xué)習(xí)模塊130。
[0045] 分類模塊140根據(jù)消息151的多層優(yōu)先級分類法確定消息151的優(yōu)先級。具體而 言,分類模塊動態(tài)地組合全局分類器121與用戶特定的分類器131。同時,分類模塊140還 根據(jù)基于主題的用戶模型101的特定主題模型,接收特征提取模塊110從消息151提取的 上下文特征。根據(jù)全局分類器121與用戶特定的分類器131的動態(tài)組合,分類模塊140向消 息151的每個上下文特征分配權(quán)重,或者在另一實施例中,為消息151的一組特定上下文特 征分配權(quán)重。根據(jù)用戶特定的分類器131與全局分類器121的組合結(jié)果,分類模塊140組 合消息151的上下文特征的加權(quán)值,然后基于此多層分類法確定消息151的優(yōu)先級。優(yōu)選 地,執(zhí)行消息151的二元分類,例如高優(yōu)先級或低優(yōu)先級。但是,可根據(jù)到分類模塊140的 數(shù)據(jù)輸入計算其它優(yōu)先級類別。
[0046] 全局分類器121和用戶特定的分類器131可遠程存儲在例如服務(wù)器上,或者存儲 在用戶機器的本地。在一個優(yōu)選實施例中,在消息被傳送到用戶之前在服務(wù)器上發(fā)生優(yōu)先 級排序過程。這允許在用戶接收到消息151之前執(zhí)行計算相對密集的優(yōu)先級排序分類。該 特征允許用戶機器將寶貴的資源分配給入站消息151優(yōu)先級分類之外的過程。
[0047] 用戶接口
[0048] 參考圖2,示出接口的一個示例性實施例150,可看出,在本發(fā)明的一個示例性實 施例中,提供"高優(yōu)先級"類別153。本發(fā)明的示例性實施例允許被自動分類為"高優(yōu)先級" 的消息151被填充到"高優(yōu)先級"類別153內(nèi)。類似地,從圖2可看出,本發(fā)明的示例性實 施例允許使用"高優(yōu)先級"圖標指示器154對"高優(yōu)先級"類別153內(nèi)的消息151做出標記。 該特征允許顯示"高優(yōu)先級"類別153內(nèi)的消息151,甚至在用戶選擇排序視圖而非分組視 圖時也是如此。因此,用戶仍可根據(jù)"高優(yōu)先級"圖標指示器154輕松地識別"高優(yōu)先級"類 別153內(nèi)的消息151。
[0049] 傳統(tǒng)的技術(shù)僅具有"高重要性"圖標,該圖標一般被表示為感嘆號。在用戶意識到 帶有"高重要性"圖標的消息被發(fā)件人標記為"緊急"之前,增加"高優(yōu)先級"類別153和"高 優(yōu)先級"圖標154乍看可能有些多余。這并不一定意味著它們對于收件人而言具有高優(yōu)先 級。而恰好相反,一旦收件人看到這些消息來自支持人員,提醒有關(guān)幾周之后日歷事件,或 者這些消息來自管理人員,提醒希望填寫或更新表格,這會讓這些消息仍停留于未讀狀態(tài)。
[0050] 為了支持用戶反饋,在本發(fā)明的一個示例性實施例的一個示例性方面,將電子郵 件優(yōu)先級排序菜單項優(yōu)選地提供給上下文菜單155,上下文菜單155 -般在例如用戶對著 接口 150內(nèi)收件箱視圖中的亮顯消息151點擊鼠標右鍵時被觸發(fā)。借助本發(fā)明的該示例性 方面,用戶可向系統(tǒng)指示取消對"高優(yōu)先級"類別153內(nèi)的消息151的優(yōu)先級排序,或?qū)Ξ?dāng) 前位于"普通"類別156內(nèi)的消息進行優(yōu)先級排序,同時提供此類取消優(yōu)先級排序或執(zhí)行優(yōu) 先級排序的原因157,例如,是否因消息的發(fā)件人或主題而導(dǎo)致此操作。
[0051] 基于豐題的用戶樽塑
[0052] 返回參考圖1,本發(fā)明的一個示例性實施例優(yōu)選地針對每個用戶創(chuàng)建基于主題的 用戶模型101。優(yōu)選地,每個用戶的基于主題的用戶模型101被存儲在服務(wù)器上。通過在服 務(wù)器上存儲基于主題的用戶模型101,用戶可在不必移植其基于主題的用戶模型101的情 況下更改計算機,該基于主題的用戶模型101否則將存儲在其計算機本地。當(dāng)用戶模型被 存儲在本地(與存儲在服務(wù)器上相反)時,如果在用戶更改計算機時未執(zhí)行基于主題的用 戶模型101的移植,則用戶必須創(chuàng)建新的基于主題的用戶模型101。
[0053] 基于主題的用戶模型101根據(jù)影響用戶對消息重要性的評估的特性對信息進行 編碼。發(fā)件人和用戶/收件人的交互歷史和關(guān)系是兩個已被示出為影響用戶對消息151的 重要性評估的特性。本發(fā)明的一個示例性實施例擴展了傳統(tǒng)技術(shù)的多層基于主題的用戶模 型,并記錄有關(guān)用戶與不同人員/發(fā)件人的交互行為,以及企業(yè)環(huán)境中用戶與這些人的關(guān) 系的更細粒度信息。
[0054] 在本發(fā)明的一個示例性實施例中,基于主題的用戶模型包括兩個數(shù)據(jù)結(jié)構(gòu):(1) 交互數(shù)據(jù)和(2)關(guān)系數(shù)據(jù)。
[0055] 基于豐題的用戶樽塑的奪互數(shù)據(jù)
[0056]交互數(shù)據(jù)包括在用戶與特定發(fā)件人之間交換的一組消息(被發(fā)送以及被復(fù)制), 從該組消息的聚合內(nèi)容生成統(tǒng)計主題模型,并且從該組消息和關(guān)聯(lián)用戶操作的組合推導(dǎo)相 關(guān)統(tǒng)計信息。
[0057] 例如,以下統(tǒng)計信息可記錄在用戶與發(fā)件人之間的交互中:(I)incoming_count: 來自該人員的入站消息數(shù);(2)outgoing_count:發(fā)送給該人員的出站消息數(shù);(3)read_ count:該人員發(fā)送的已被用戶閱讀的入站消息數(shù);(4)reply_count:該人員發(fā)送的已被 用戶回復(fù)的入站消息數(shù);(5)replylapse:用戶回復(fù)該人員發(fā)送的入站消息的平均時間; (6)file_count:該人員發(fā)送的已被用戶標記或保存的入站消息數(shù);以及(7)most-recent_ interaction_time:在用戶與該人員之間交換的最新消息的時間。很明顯,其它統(tǒng)計信息可 記錄在用戶與發(fā)件人之間的交互中,并且上述示例性列表并非旨在作為限制。
[0058] 基于豐題的用戶樽塑的關(guān)系數(shù)據(jù)
[0059] 用戶與特定發(fā)件人之間的關(guān)系包括用戶與發(fā)件人之間的一個或多個關(guān)系。關(guān)系是 用戶與發(fā)件人之間的一種特定聯(lián)系類型。用戶與他/她的聯(lián)系人之間的關(guān)系可分為不同的 類別,例如(1)通信關(guān)系:從電子郵件發(fā)件人與收件人以及日歷會議的參與者推導(dǎo)的關(guān)系; (2)組織關(guān)系:基于組織結(jié)構(gòu)的關(guān)系(例如,管理、被管理、同一管理者);(3)社交關(guān)系:從 企業(yè)在線社交網(wǎng)絡(luò)中的活動推導(dǎo)的關(guān)系(例如,社區(qū)共同成員、維基共同編輯、文件共享); 以及(4)學(xué)術(shù)關(guān)系:諸如文獻/專利共同創(chuàng)作之類的學(xué)術(shù)活動的結(jié)果的關(guān)系。很明顯,也可 使用其它關(guān)系類別,并且上述示例性列表并非旨在作為限制。
[0060] 基于豐題的用戶樽塑表示
[0061] 參考圖3,示出結(jié)合本發(fā)明的一個示例性實施例的特征的示例性基于主題的用戶 模型101。如圖3所示,示例性基于主題的用戶模型101對多層信息進行編碼以在不同粒 度表示用戶信息。例如,基本信息提取自電子郵件和日歷消息,包括諸如主題和正文之類的 文本內(nèi)容,以及有關(guān)附件、嵌入的Web鏈接,以及作為電子郵件發(fā)件人/收件人的人員和會 議參與者的元數(shù)據(jù)。通過對基本信息進行分組來創(chuàng)建聚合信息。電子郵件和日歷消息被根 據(jù)主題分組為線程。如圖3所示,人員可根據(jù)他們與電子郵件和日歷消息的關(guān)聯(lián)性進行分 組。諸如交互和從屬之類的導(dǎo)出信息將與用戶交互的每個個人或組鏈接到一組對應(yīng)的基本 和聚合信息。
[0062] 根據(jù)在用戶模型101中編碼的基本、聚合和導(dǎo)出的信息,創(chuàng)建多個主題模型(例 如,TM1-TM4)并且也將其存儲在用戶模型101中。根據(jù)特定交互范圍內(nèi)用戶交互的聚合內(nèi) 容來創(chuàng)建每個主題模型(TM1-TM4)。交互范圍可以是具有多個消息的電子郵件線程、與單 個人員/組的交互,或用戶與作為整體的其它人員的全部交互。與線程關(guān)聯(lián)的主題模型表 示在該線程中討論的主題。與個人或組關(guān)聯(lián)的主題模型反映特定于該個人或組的用戶的感 興趣主題。從用戶與所有其它人員交互的聚合推導(dǎo)的通用主題模型表示用戶的整個工作范 圍。多個主題模型的使用使能在更細粒度上表示用戶的感興趣主題,這產(chǎn)生對消息151的 主題的更準確推斷。
[0063] 每個主題模型(TM1-TM4)包含一組主題。在一個示例性實施例中,每個主題與兩 類信息關(guān)聯(lián):針對所有單詞給定該主題的情況下,某個單詞的概率,以及針對關(guān)聯(lián)交互范圍 中的所有消息給定一消息的情況下,該主題的概率。前一概率提供描述主題的代表性關(guān)鍵 字列表,而后一概率提供與主題密切關(guān)聯(lián)的消息列表。如下面描述的那樣,可基于統(tǒng)計語言 模型從內(nèi)容推導(dǎo)主題。
[0064] 圖3還示出在基于主題的用戶模型101中編碼的信息。用戶與其通過電子郵件和 /或日歷消息進行交互的所有人員(例如,人員1、2和3)以及從電子郵件收件人和會議參 與者列表推導(dǎo)的人員組(多個)關(guān)聯(lián)("Has-Interaction(具有交互)")。每個人(例如, 人員1-3)與他或她所屬的組關(guān)聯(lián)("Is-Affiliated(屬于)"),在同一組中的人員之間, 還存在組共同成員關(guān)系("Is-GroupCoMembers(組共同成員)")。每個人員或組與其相關(guān) 的主題模型(TM1-TM4)關(guān)聯(lián)("About-Topics(關(guān)于主題)")。具體地,圖3示出特定于用 戶與人員1TM1、人員2TM2和人員3TM3的交互的三個主題模型,以及特定于用戶與作為組的 人員1-3的交互的主題模型TM4。
[0065] 用戶與每個人員或組之間的不同關(guān)系被分配以不同的權(quán)重以反映他們內(nèi)在的不 同強度,例如,在工廠企業(yè)中,組織關(guān)系可被分配比社交關(guān)系更強的權(quán)重。用戶與聯(lián)系人 (例如,個人或組)之間的總體關(guān)系強度是其所有關(guān)系的加權(quán)和。例如,在圖3中,用戶與人 員1之間的關(guān)系包括直接報告和文獻共同創(chuàng)作。用戶與人員1之間的總體關(guān)系強度因此為 這兩個關(guān)系的加權(quán)和,其中直接報告被賦予比文獻共同創(chuàng)作更高的權(quán)重。
[0066] 參考圖1,如上所述,將入站消息151輸入特征提取模塊110。同樣,將基于主題的 用戶模型101輸入特征提取模塊110。從圖4中可看出,在入站消息151被輸入特征提取 模塊110之后,特征提取模塊110根據(jù)從基于主題的用戶模型101中包含的所有主題模型 (例如,TM1-TM4)選擇的相關(guān)主題模型,推斷消息的主題102。之后,特征提取模塊110計 算消息151的上下文特征。
[0067] h下f特征
[0068] 如上所述,像在圖4中示出的,特征提取模塊110推斷入站消息151的主題102,然 后計算消息151的上下文特征112。
[0069] 用于優(yōu)先級排序的上下文特征112基于確定消息151重要性時的影響特性。上下 文特征112可分為兩類,例如,以人為中心和以消息為中心。
[0070] 以人為中心的h.下f特征
[0071] 以人為中心的上下文特征112表示有關(guān)用戶與發(fā)件人的交互和關(guān)系的聚合信息。 在一個示例性實施例中,在滿足交互頻率閾值(T)之后計算以人為中心的上下文特征112。 例如,交互頻率閾值T可以是預(yù)定值,例如50。但是,本領(lǐng)域中的普通技術(shù)人員將理解,也可 使用另一交互頻率閾值T。使用用戶模型101中特定發(fā)件人的交互數(shù)據(jù)和關(guān)系數(shù)據(jù)內(nèi)編碼 的各種統(tǒng)計信息來計算以人為中心的上下文特征。
[0072] 在本發(fā)明的一個示例性實施例中,以人為中心的上下文特征112包括以下有關(guān)用 戶與特定發(fā)件人的交互的聚合信息。
[0073] (I)incoming_freq:來自特定發(fā)件人的入站消息的規(guī)范化后的頻率,其使用用戶 模型101中該發(fā)件人的incoming_count編碼數(shù)據(jù)來計算。例如,在一個示例性實施例中, incoming_freq:被計算為max(incoming_count,T)/T〇
[0074] (2)outgoing_freq:發(fā)送給特定發(fā)件人的出站消息的規(guī)范化后的頻率,其使用用 戶模型101中該發(fā)件人的〇utgoing_count編碼數(shù)據(jù)來計算。例如,在一個示例性實施例中, outgoing_freq:被計算為max(outgoing_count,T)/T〇
[0075] (3)read_rate:來自特定發(fā)件人的已被用戶閱讀的入站消息的百分比,其使用用 戶模型101中該發(fā)件人的read_count和incoming_count編碼數(shù)據(jù)來計算。例如,在一個 不例性實施例中,read_rate:被計算為read_count除以incoming_count。
[0076] (4)1印ly_rate:來自特定發(fā)件人的已被用戶回復(fù)的入站消息的百分比,其使用用 戶模型101中該發(fā)件人的reply_count和incoming_count編碼數(shù)據(jù)來計算。例如,在一個 示例性實施例中,reply_rate:被計算為reply_count除以incoming_count。
[0077] (5)reply_lapse:接收消息與回復(fù)消息之間經(jīng)過的時間,其使用用戶模型101中 該發(fā)件人的reply_lapse編碼數(shù)據(jù)來計算。例如,在一個示例性實施例中,reply_lapse的 以人為中心的上下文特征112被計算為用戶模型101中該發(fā)件人的reply_lapse并且以天 為單位度量。在其它示例性實施例中,用戶回復(fù)來自特定發(fā)件人的入站消息所用的平均時 間可以天以外的單位度量。
[0078] (6)file_rate:來自特定發(fā)件人的已被用戶標記或保存的入站消息的百分比,其 使用用戶模型101中該發(fā)件人的file_count和incoming_count編碼數(shù)據(jù)來計算。例如, 在一個示例性實施例中,file_rate:被計算為file_count除以incoming_count。
[0079] (7)interaction_recency:用戶與特定發(fā)件人之間的交互新近度,其使用用戶模 型101中該發(fā)件人的mose_recent_interaction_time編碼數(shù)據(jù)來計算。例如,在一個示例 性實施例中,interaction_recency被計算為I.0/(log(t+l. 0)+1. 0),其中t是當(dāng)前時間 與用戶模型中該發(fā)件人的mose_recent_interaction_time之間以天為單位度量的經(jīng)過時 間。在其它示例性實施例中,經(jīng)過時間可以天以外的單位度量。
[0080] (8)relationship_type:用戶與特定發(fā)件人之間的關(guān)系,其使用用戶模型101 中該發(fā)件人的關(guān)系數(shù)據(jù)的關(guān)系類型編碼數(shù)據(jù)來計算。例如,在一個示例性實施例中, relationship_type被設(shè)為用戶與具有最高關(guān)聯(lián)權(quán)重的發(fā)件人之間的關(guān)系。
[0081] (9)relationship_strength:用戶與特定發(fā)件人之間的總關(guān)系強度,其使用用戶 模型101中該發(fā)件人的關(guān)系數(shù)據(jù)的關(guān)系類型編碼數(shù)據(jù)來計算。例如,在一個示例性實施例 中,relationship_strength被計算為用戶與特定發(fā)件人之間所有關(guān)系的加權(quán)和。
[0082] 以消息為中心的h.下f特征
[0083] 以消息為中心的特征專注于消息151本身的性質(zhì)。在一個示例性實施例中,以消 息為中心的特征包括:
[0084] (l)message_scope:消息151是被獨占地發(fā)送給用戶,一小組人,還是一大組人。 構(gòu)成一小組人和一大組人的閾值可以預(yù)先確定,也可以例如經(jīng)由接口 150設(shè)定。
[0085] (2)message_type:消息151例如是常規(guī)郵件消息、需要用戶操作(例如,邀請、重 新排程)的會議通知,還是不需要用戶操作(例如,確認或其它操作,例如外出回復(fù)之類的 自動消息)的會議通知。
[0086] (3)content_type:消息151內(nèi)容被確定為包含請求、時間關(guān)鍵單詞(例如,時限、 用戶預(yù)先指定的關(guān)鍵字),還是一個或多個文件附件。c〇ntent_type的值可根據(jù)詞法啟發(fā) 法或其它文本分析算法確定。
[0087] (4)threading:如果消息屬于電子郵件線程,則確定用戶是否對來自同一線程的 先前消息執(zhí)行任何操作。如果用戶已對來自同一線程的先前消息執(zhí)行操作,則該特征的值 為1。否則,其值為〇。
[0088] (5)topic_likehood:消息 151 的內(nèi)容與系統(tǒng)使用LatentDirichletAllocation algorithm(LDA)推斷的主題102有關(guān)的可能性,其根據(jù)基于主題的用戶模型101中包含的 LDA文檔-主題分布來計算。
[0089] (6)topic_importance:根據(jù)消息151的內(nèi)容推斷的主題對用戶的重要性。
[0090] 在傳統(tǒng)技術(shù)中,由LDA推導(dǎo)的主題不被進行分級,因此,不能直接從LDA獲取有關(guān) 主題重要性的信息。傳統(tǒng)的推斷主題重要性的嘗試基于諸如主題覆蓋和方差、主題特殊性、 主題交互信息、主題相似度和冗余度之類的準則。
[0091] 本發(fā)明的發(fā)明人意識到,在消息域(例如,電子郵件消息域)中,與消息151關(guān)聯(lián) 的用戶操作提供更好的有關(guān)用戶感知的主題重要性的指示器。因此,在本發(fā)明的一個示例 性實施例中,topic_importance使用以下因素的加權(quán)組合計算。
[0092] (6. 1)用戶的有關(guān)特定主題的電子郵件的百分比;
[0093] (6. 2)確定為已被閱讀的有關(guān)特定主題的電子郵件的百分比;以及
[0094] (6. 3)已被轉(zhuǎn)發(fā)、回復(fù)、保存或標記的有關(guān)特定主題的電子郵件的百分比。
[0095] 優(yōu)先級棑序
[0096] 如上所述,入站消息151被輸入特征提取模塊110。同樣,基于主題的用戶模型101 被輸入特征提取模塊。從圖4中可看出,在入站消息151被輸入特征提取模塊110之后,特 征提取模塊110根據(jù)上述消息151的內(nèi)容以及根據(jù)來自基于主題的用戶模型101的與發(fā)件 人相關(guān)的主題模型,推斷消息的主題102。之后,特征提取模塊110像上面描述的那樣計算 消息的上下文特征112。
[0097] 在本發(fā)明的一個示例性實施例中,存在全局分類器121和用戶特定的分類器131。 全局分類器121和用戶特定的分類器131在分類模塊140內(nèi)進行組合。優(yōu)選地,當(dāng)不同的 消息151具有不同的上下文特征112時,使用不同的方法組合分類器121和131。也就是 說,根據(jù)基于主題的用戶模型101和已提取的消息151的特征,分類模塊140以動態(tài)的方式 組合全局分類器121和用戶特定的分類器131。
[0098] 從圖4中可看出,推斷入站消息151的主題。
[0099] 全局優(yōu)先級分類器
[0100] 在本發(fā)明的一個示例性實施例中,所述系統(tǒng)根據(jù)從多個用戶收集的已標記訓(xùn)練消 息111,使用線性回歸(出于其效率和穩(wěn)健性而被選擇)創(chuàng)建全局優(yōu)先級分類器121。使用 全局優(yōu)先級分類器,入站消息151的優(yōu)先級評分Sg為消息151的上下文特征112的線性組 合:
[0101]
【權(quán)利要求】
1. 一種使入站消息優(yōu)先級排序自動化的方法,所述方法包括: 使用訓(xùn)練數(shù)據(jù)訓(xùn)練計算機系統(tǒng)的全局分類器; 根據(jù)多個反饋實例動態(tài)地訓(xùn)練所述計算機系統(tǒng)的用戶特定的分類器; 根據(jù)基于主題的用戶模型,推斷所述計算機系統(tǒng)接收的所述入站消息的主題; 計算所述入站消息的多個上下文特征; 根據(jù)所計算的所述入站消息的上下文特征和所述全局分類器與所述用戶特定的分類 器的加權(quán)組合,確定用于向所述入站消息分配優(yōu)先級級別的優(yōu)先級分類策略;以及 根據(jù)所述優(yōu)先級分類策略對所述入站消息進行分類。
2. 根據(jù)權(quán)利要求1的方法,其中從多個優(yōu)先級分類策略確定所述優(yōu)先級分類策略。
3. 根據(jù)權(quán)利要求2的方法,其中所述多個優(yōu)先級分類策略包括具有實例匹配的動態(tài)線 性組合方案,所述實例匹配基于所述入站消息的所述上下文特征與所述多個反饋實例的上 下文特征之間的實例匹配,所述具有實例匹配的動態(tài)線性組合方案包括: 評估所述用戶特定的分類器的質(zhì)量;以及 根據(jù)所評估的所述用戶特定的分類器的質(zhì)量,針對所述全局分類器和所述用戶特定的 分類器的線性組合,為所述全局分類器和所述用戶特定的分類器中的每一個分配權(quán)重。
4. 根據(jù)權(quán)利要求2的方法,其中所述多個優(yōu)先級分類策略包括具有實例匹配的動態(tài)線 性組合方案,并且 其中,當(dāng)所述入站消息和所述多個反饋實例中的一個反饋實例具有相同發(fā)件人和主題 中的至少一個時,所述具有實例匹配的動態(tài)線性組合方案向所述入站消息分配的優(yōu)先級與 被分配給具有所述相同發(fā)件人和主題中的至少一個的所述反饋實例的優(yōu)先級相同。
5. 根據(jù)權(quán)利要求4的方法,其中,當(dāng)所述入站消息不與所述多個反饋實例中的任一個 具有所述相同發(fā)件人和主題中的至少一個時,所述具有實例匹配的動態(tài)線性組合方案針對 所述全局分類器和所述用戶特定的分類器的線性組合,為所述全局分類器和所述用戶特定 的分類器中的每一個分配權(quán)重。
6. 根據(jù)權(quán)利要求1的方法,其中所述多個上下文特征包括多個以人為中心的上下文特 征和多個以消息為中心的上下文特征。
7. 根據(jù)權(quán)利要求1的方法,還包括僅根據(jù)顯式反饋來更新所述用戶特定的分類器。
8. 根據(jù)權(quán)利要求1的方法,還包括根據(jù)顯式反饋和隱式反饋來更新所述用戶特定的分 類器。
9. 根據(jù)權(quán)利要求1的方法,其中所述多個反饋實例包括顯式反饋實例,每個顯式反饋 實例指示已通過輸入接收的不同消息的優(yōu)先級等級。
10. 根據(jù)權(quán)利要求1的方法,還包括根據(jù)所推斷的所述入站消息的主題,計算所述入站 消息的所述多個上下文特征中的一個上下文特征。
11. 根據(jù)權(quán)利要求1的方法,還包括: 計算具有與所推斷的所述入站消息的主題基本類似的主題的先前已接收消息的第 一百分比; 計算具有所述基本類似的主題且被確定為已被讀取的先前已接收消息的第二百分 比; 計算具有所述基本類似的主題且被確定為已被執(zhí)行轉(zhuǎn)發(fā)、回復(fù)、保存和標記中的至少 一個的先前已接收消息的第三百分比;以及 通過動態(tài)地組合所述第一百分比、所述第二百分比和所述第三百分比,計算所述多個 上下文特征中的一個上下文特征。
12. 根據(jù)權(quán)利要求1的方法,還包括根據(jù)所推斷的所述入站消息的主題,計算所述入站 消息的所述多個上下文特征。
13. 根據(jù)權(quán)利要求1的方法,還包括根據(jù)包含與所推斷的所述入站消息的主題基本類 似的主題的已接收消息的百分比,計算所述多個上下文特征中的以消息為中心的特征。
14. 一種系統(tǒng),包括適合于執(zhí)行根據(jù)上述任一方法權(quán)利要求的所有方法步驟的裝置。
15. -種計算機程序,包括當(dāng)所述計算機程序在計算機系統(tǒng)上執(zhí)行時,用于執(zhí)行根據(jù)上 述任一方法權(quán)利要求的所有方法步驟的指令。
【文檔編號】G06Q10/10GK104508691SQ201380008068
【公開日】2015年4月8日 申請日期:2013年2月8日 優(yōu)先權(quán)日:2012年2月10日
【發(fā)明者】呂潔, 文鎮(zhèn), 潘詩梅, J·賴 申請人:國際商業(yè)機器公司