確定電子郵件線程的話題相關(guān)性的制作方法
【技術(shù)領(lǐng)域】
【背景技術(shù)】
[0001]電子郵件通常用于電子通信和信息儲(chǔ)存。電子郵件實(shí)施于大型且復(fù)雜的組織結(jié)構(gòu)和不同組織中增多的交互中。這些電子郵件可以包含至關(guān)重要的信息,組織在稍后的時(shí)間可能需要該信息。因此,組織可以在儲(chǔ)存庫中存儲(chǔ)電子郵件消息以便保存記錄和稍后取回及使用。
【發(fā)明內(nèi)容】
【附圖說明】
[0002]附圖示出了本文所述原理的各種示例并作為說明書的一部分。所示示例并非限定權(quán)利要求的范圍。
[0003]圖1是根據(jù)本文所述原理的一個(gè)示例的用于確定電子郵件線程的話題相關(guān)性的系統(tǒng)的圖。
[0004]圖2是根據(jù)本文所述原理的一個(gè)示例的電子郵件線程的圖。
[0005]圖3是根據(jù)本文所述原理的另一個(gè)示例的用于確定電子郵件線程話題相關(guān)性的方法的流程圖。
[0006]圖4是根據(jù)本文所述原理的再另一個(gè)示例的用于確定電子郵件線程話題相關(guān)性的方法的流程圖。
[0007]圖5是根據(jù)本文所述原理的一個(gè)示例的管理設(shè)備的圖。
[0008]圖6是根據(jù)本文所述原理的另一個(gè)示例的管理設(shè)備的圖。
[0009]在全部附圖中,相同的附圖標(biāo)記標(biāo)明相似但不一定相同的要素。
【具體實(shí)施方式】
[0010]電子郵件提供了有用的工具來增強(qiáng)組織的通信基礎(chǔ)結(jié)構(gòu)。另外,電子郵件可以允許不同組織彼此通信。在組織的用戶之間或不同組織的用戶之間共享的電子郵件消息可以包括有價(jià)值的信息,組織可能希望存儲(chǔ)該信息以便保存記錄并在稍后的點(diǎn)取回。因此,組織可以實(shí)施電子郵件儲(chǔ)存庫,其存儲(chǔ)電子郵件消息的主體。然后可以在稍后的點(diǎn)訪問電子郵件消息或電子郵件語料庫以取回包含在電子郵件消息中的信息。
[0011]電子郵件消息可以包括至少兩類信息。話題信息可以與電子郵件消息的話題實(shí)質(zhì)相關(guān),并且語境信息可以不直接與電子郵件線程的話題相關(guān)。語境信息的示例除其他語境要素外包括與人、地點(diǎn)和時(shí)間相關(guān)的信息。以下給出示例。電子郵件消息可以介紹主題并提議在特定會(huì)議室中與主題相關(guān)的會(huì)議。在這個(gè)電子郵件消息中,對(duì)主題的介紹可以是話題信息,以及會(huì)議和建議的會(huì)議室可以是語境信息。在這個(gè)示例中,話題信息可以確定特定電子郵件消息或電子郵件線程是否相關(guān)。因此,在隨后搜索中,可以識(shí)別話題信息并確定電子郵件消息或電子郵件線程的相關(guān)性。
[0012]但用于確定電子郵件消息或電子郵件線程的相關(guān)性的當(dāng)前方法可能是低效率的。例如,大型電子郵件語料庫(其可以不以線程形式存儲(chǔ))可以“被挖掘”或使信息從其被提取。標(biāo)準(zhǔn)方法是分組類似的電子郵件消息,并個(gè)別地確定電子郵件線程的每一個(gè)電子郵件消息是否包含按照用戶確定的有價(jià)值的信息。這個(gè)過程可以是麻煩的,因?yàn)榭赡芤獋€(gè)別地挖掘每一組中的每一個(gè)消息。另外,電子郵件消息包括引用文本、轉(zhuǎn)發(fā)文本、簽名模板和樣板文件(boiler plate)的性質(zhì)可以致使當(dāng)前文本挖掘過程對(duì)于電子郵件消息無效。由于這些特性,確定組中每一個(gè)電子郵件消息是否包含有價(jià)值的信息可能是冗長的,可以產(chǎn)生不準(zhǔn)確或不相關(guān)的結(jié)果,并可能使用有價(jià)值的處理時(shí)間。
[0013]本公開內(nèi)容說明了一種用于用電子設(shè)備確定電子郵件線程的話題相關(guān)性的方法。該方法可以包括從電子郵件線程中的電子郵件消息去除冗余。該方法還可以包括將多個(gè)電子郵件線程分組到多個(gè)電子郵件群中。該方法可以進(jìn)一步包括為每一個(gè)電子郵件群識(shí)別高信息增益詞。該方法可以進(jìn)一步包括依據(jù)高信息增益詞為每一個(gè)電子郵件群識(shí)別話題詞。最后,該方法可以包括基于用于電子郵件群的話題詞和電子郵件線程中閾值數(shù)量的電子郵件消息確定電子郵件群中多個(gè)電子郵件線程的相關(guān)性。
[0014]本公開內(nèi)容還說明了一種用于確定電子郵件線程的話題相關(guān)性的系統(tǒng)。系統(tǒng)可以包括去除引擎,其從電子郵件線程中的電子郵件消息去重引用文本。群集引擎可以將多個(gè)電子郵件線程群集到電子郵件群中。詞引擎可以為每一個(gè)電子郵件群識(shí)別多個(gè)話題詞。相關(guān)性引擎可以基于多個(gè)話題詞和每一個(gè)電子郵件線程中閾值數(shù)量的電子郵件消息確定電子郵件群中多個(gè)電子郵件線程的相關(guān)性。
[0015]本公開內(nèi)容還說明了一種用于確定電子郵件線程的話題相關(guān)性的計(jì)算機(jī)程序產(chǎn)品。該計(jì)算機(jī)程序產(chǎn)品可以包括計(jì)算機(jī)可讀儲(chǔ)存介質(zhì),其包括以此包含的計(jì)算機(jī)可使用程序代碼。計(jì)算機(jī)可使用程序代碼可以包括計(jì)算機(jī)可使用程序代碼,其在由處理器執(zhí)行時(shí),從電子郵件線程中的第二數(shù)量的電子郵件消息去除第一數(shù)量的電子郵件消息的引用。計(jì)算機(jī)可使用程序代碼還可以包括計(jì)算機(jī)可使用程序代碼,其在由處理器執(zhí)行時(shí),將多個(gè)電子郵件線程群集到多個(gè)電子郵件群中。計(jì)算機(jī)可使用程序代碼還可以包括計(jì)算機(jī)可使用程序代碼,其在由處理器執(zhí)行時(shí),確定電子郵件群中的多個(gè)高信息增益詞。計(jì)算機(jī)可使用程序代碼還可以包括計(jì)算機(jī)可使用程序代碼,其在由處理器執(zhí)行時(shí),依據(jù)多個(gè)高信息增益詞確定多個(gè)話題詞。計(jì)算機(jī)可使用程序代碼還可以包括計(jì)算機(jī)可使用程序代碼,其在由處理器執(zhí)行時(shí),基于話題詞確定每一個(gè)電子郵件群內(nèi)多個(gè)電子郵件線程的相關(guān)性。
[0016]本文所述的系統(tǒng)和方法的益處可能在于通過分析最可能包括與特定話題有關(guān)的實(shí)質(zhì)性信息的那些電子郵件消息來迅速識(shí)別相關(guān)電子郵件線程。因此,本文所述的方法和系統(tǒng)通過迅速識(shí)別電子郵件語料庫的有可能包含與確定話題相關(guān)的信息的部分,加速了在電子郵件語料庫中的各種知識(shí)收集和文本挖掘任務(wù)。
[0017]本說明書和所附權(quán)利要求書中使用的術(shù)語“電子郵件線程”可以是共享共同的特性的電子郵件消息的分組。例如,電子郵件線程中的電子郵件消息可以是對(duì)另一個(gè)電子郵件消息的回復(fù)、轉(zhuǎn)發(fā)或以其他方式與之相關(guān)聯(lián)。
[0018]此外,本說明書和所附權(quán)利要求書中使用的術(shù)語“前導(dǎo)電子郵件消息”可以是電子郵件線程中的前幾個(gè)電子郵件消息。例如,前導(dǎo)電子郵件消息可以是電子郵件線程中的前兩個(gè)電子郵件消息。在另一個(gè)示例中,前導(dǎo)電子郵件消息可以是電子郵件線程中的前三個(gè)電子郵件消息。
[0019]再進(jìn)一步地,本說明書和所附權(quán)利要求書中使用的術(shù)語“起源消息”可以是作為電子郵件線程中的第一個(gè)電子郵件消息的電子郵件消息。如下所述,可以通過確定電子郵件消息是否引用在前的電子郵件消息來如此識(shí)別起源消息。
[0020]再進(jìn)一步地,本說明書和所附權(quán)利要求書中使用的術(shù)語“相關(guān)的”可以指代與電子郵件群的話題相關(guān)的電子郵件線程。如下所述,可以基于電子郵件線程中的話題信息和來自電子郵件群的話題詞確定電子郵件線程是否相關(guān)。
[0021]再進(jìn)一步地,本說明書和所附權(quán)利要求書中使用的術(shù)語“群”可以指代在某種方式上彼此比其他群中的電子郵件消息更相似的電子郵件消息的組。
[0022]最后,本說明書和所附權(quán)利要求書中使用的術(shù)語“多個(gè)”或類似語言可以包括任意正數(shù),其包括1到無限大;零不是一個(gè)數(shù)量,而是不存在數(shù)量。
[0023]在以下說明中,為了解釋的目的闡述了多個(gè)特定細(xì)節(jié)以便提供對(duì)本系統(tǒng)和方法的透徹理解。但對(duì)于本領(lǐng)域技術(shù)人員將顯然的是,可以在沒有這些特定細(xì)節(jié)的情況下來實(shí)踐本裝置、系統(tǒng)和方法。說明書中對(duì)“一個(gè)示例”或類似語言的提及表示所述的特定特征、結(jié)構(gòu)或特性包括在至少所述一個(gè)示例中,但不必然在其他示例中。
[0024]現(xiàn)在參考附圖,圖1是根據(jù)本文所述原理的一個(gè)示例的用于確定電子郵件線程的話題相關(guān)性的系統(tǒng)(100)的圖。系統(tǒng)(100)可以包括多個(gè)用戶設(shè)備(101)。在一個(gè)示例中,用戶使用用戶設(shè)備(101)來訪問網(wǎng)絡(luò)(102)。用戶設(shè)備(101)的示例除其他電子設(shè)備外包括臺(tái)式計(jì)算機(jī)、筆記本計(jì)算機(jī)、智能電話、個(gè)人數(shù)字助理(PDA)和平板電腦。換句話說,用戶設(shè)備(101)可以是任何電子設(shè)備,其允許用戶以另一個(gè)電子設(shè)備通信。
[0025]用戶可以經(jīng)由網(wǎng)絡(luò)(102)彼此通信。網(wǎng)絡(luò)(102)可以是論壇(forum),其便于許多用戶彼此通信。在一些示例中,網(wǎng)絡(luò)(102)可以是電子郵件網(wǎng)絡(luò),并且用戶可以經(jīng)由通過網(wǎng)絡(luò)(102)共享的電子郵件消息彼此通信。在這個(gè)示例中,網(wǎng)絡(luò)(102)可以包括至少一個(gè)引擎,其允許用戶從其他用戶設(shè)備(101)發(fā)送并接收電子郵件消息。例如,企業(yè)組織內(nèi)的用戶可以經(jīng)由網(wǎng)絡(luò)(102)將電子郵件消息發(fā)送給商業(yè)組織的至少一個(gè)其他用戶。
[0026]如上所述,電子郵件消息可以包括有價(jià)值的信息,用戶需要在稍后時(shí)間取回該信息。因此,可以存儲(chǔ)電子郵件消息以稍后使用。為此,網(wǎng)絡(luò)(102)可以耦合到電子郵件儲(chǔ)存庫(104),其存儲(chǔ)電子郵件消息。本文使用的存儲(chǔ)在電子郵件儲(chǔ)存庫(104)中的電子郵件消息可以稱為電子郵件語料庫。在一些示例中,電子郵件語料庫中的電子郵件消息可以按照非線程形式組織。電子郵件線程可以包括彼此相關(guān)的電子郵件消息。例如,電子郵件線程可以包括彼此的轉(zhuǎn)發(fā)、