事件提取方法及裝置的制造方法
【技術領域】
[0001 ] 本公開涉及自然語言處理領域,尤其涉及一種事件提取方法及裝置。
【背景技術】
[0002]隨著移動終端技術的快速發(fā)展,各種移動終端例如手機已非常普及,并且為人們提供了便利,例如,用戶可以利用短信進行事件提醒。
[0003]目前,利用短信進行事件提醒的過程可以包括:接收發(fā)送至移動終端的短信消息,根據(jù)預設規(guī)則中包含的事件關鍵字,識別短信消息中是否包含至少一個事件關鍵字;響應于短信消息中包含至少一個事件關鍵字,提示用戶選擇將短信消息作為事件提醒記錄或者事件備忘記錄;并根據(jù)選擇結(jié)果,提取短信消息生成事件備忘記錄或者事件提醒記錄。
[0004]由此可見,上述方案采用關鍵字匹配的方式,有選擇地將短信消息作為事件提醒記錄,但是采用上述實現(xiàn)方式從短信中提取的事件不全面,目前急需一種可以從短信中全面地提取事件的方式。
【發(fā)明內(nèi)容】
[0005]為克服相關技術中存在的問題,本公開提供一種事件提取方法及裝置。
[0006]根據(jù)本公開實施例的第一方面,提供一種事件提取方法,包括:
[0007]獲取用戶的交互信息;
[0008]分割出所述交互信息的會話場景;
[0009]根據(jù)預存的動詞的配價資源庫從所述會話場景中識別出事件的要素,并根據(jù)所述要素提取出事件。
[0010]在一實施例中,所述方法還包括:
[0011]在所述根據(jù)所述要素提取出事件之后,生成所述事件的提醒記錄。
[0012]在一實施例中,所述分割出所述交互信息的會話場景,包括:
[0013]使用CRF標注出所述交互信息中的會話類型,所述會話類型包括開始會話、中間會話和結(jié)束會話;
[0014]根據(jù)每條交互信息的會話類型從所述交互信息中分割出會話場景。
[0015]在一實施例中,所述使用CRF標注出所述交互信息中的會話類型,包括:
[0016]使用CRF標注出所述交互信息中每條交互信息所有可能存在的會話類型;
[0017]從所述每條交互信息中提取出至少一個特征,計算每個特征相對于任一會話類型的權(quán)重;
[0018]根據(jù)所有特征相對于不同會話類型的權(quán)重,確定出每條交互信息的最終會話類型。
[0019]在一實施例中,所述根據(jù)預存的動詞的配價資源庫從所述會話場景中識別出事件的要素,包括:
[0020]從所述會話場景中識別出動詞集合;
[0021]從所述動詞集合中識別出事件的主題;
[0022]根據(jù)命名實體識別NER從所述會話場景中識別出所述主題對應事件的時間和地占.
[0023]根據(jù)所述動詞的配價資源庫獲得所述主題的配價資源,根據(jù)所述主題的配價資源從所述會話場景中提取出所述主題對應事件的參與物,所述參與物包括所述主題對應事件的執(zhí)行主體、客體和執(zhí)行對象。
[0024]在一實施例中,所述從所述動詞集合中識別出事件的主題,包括:
[0025]采用分類模型根據(jù)所述動詞集合中每個動詞的特征,計算出每個動詞是主題的概率;
[0026]根據(jù)所述每個動詞是主題的概率確定出作為所述主題的動詞。
[0027]在一實施例中,所述動詞的特征包括動詞的長度、結(jié)構(gòu)、出現(xiàn)的位置、所屬的類別和配價的類型中的至少一種。
[0028]在一實施例中,所述根據(jù)命名實體識別NER從所述會話場景中識別出所述主題對應事件的時間和地點,包括:
[0029]若從所述會話場景中識別出多個不同的時間,則選擇與所述主題之間距離最小的時間作為所述主題對應事件的時間;和/或
[0030]若從所述會話場景中識別出多個不同的地點,則選擇與所述主題之間距離最小的地點作為所述主題對應事件的地點。
[0031]根據(jù)本公開實施例的第二方面,提供一種事件提取裝置,包括:
[0032]獲取模塊,被配置為獲取用戶的交互信息;
[0033]分割模塊,被配置為分割出所述獲取模塊獲取的所述交互信息的會話場景;
[0034]識別提取模塊,被配置為根據(jù)預存的動詞的配價資源庫從所述分割模塊分割出的所述會話場景中識別出事件的要素,并根據(jù)所述要素提取出事件。
[0035]在一實施例中,所述裝置還包括:
[0036]生成模塊,被配置為在所述識別提取模塊根據(jù)所述要素提取出事件之后,生成所述事件的提醒記錄。
[0037]在一實施例中,所述分割模塊包括:
[0038]標注子模塊,被配置為使用CRF標注出所述交互信息中的會話類型,所述會話類型包括開始會話、中間會話和結(jié)束會話;
[0039]分割子模塊,被配置為根據(jù)所述標注子模塊標注出的每條交互信息的會話類型從所述交互信息中分割出會話場景。
[0040]在一實施例中,所述標注子模塊包括:
[0041]標注單元,被配置為使用CRF標注出所述交互信息中每條交互信息所有可能存在的會話類型;
[0042]提取計算單元,被配置為從所述每條交互信息中提取出至少一個特征,計算每個特征相對于所述標注單元標注的任一會話類型的權(quán)重;
[0043]確定單元,被配置為根據(jù)所述提取計算單元計算的所有特征相對于不同會話類型的權(quán)重,確定出每條交互信息的最終會話類型。
[0044]在一實施例中,所述識別提取模塊包括:
[0045]第一識別子模塊,被配置為從所述會話場景中識別出動詞集合;
[0046]第二識別子模塊,被配置為從所述第一識別子模塊識別出的所述動詞集合中識別出事件的主題;
[0047]第三識別子模塊,被配置為根據(jù)命名實體識別NER從所述會話場景中識別出所述第二識別子模塊識別出的所述主題對應事件的時間和地點;
[0048]獲得提取子模塊,被配置為根據(jù)所述動詞的配價資源庫獲得所述主題的配價資源,根據(jù)所述主題的配價資源從所述會話場景中提取出所述主題對應事件的參與物,所述參與物包括所述主題對應事件的執(zhí)行主體、客體和執(zhí)行對象。
[0049]在一實施例中,所述第二識別子模塊包括:
[0050]計算單元,被配置為采用分類模型根據(jù)所述動詞集合中每個動詞的特征,計算出每個動詞是主題的概率;
[0051]確定單元,被配置為根據(jù)所述計算單元計算出的所述每個動詞是主題的概率確定出作為所述主題的動詞。
[0052]在一實施例中,所述動詞的特征包括動詞的長度、結(jié)構(gòu)、出現(xiàn)的位置、所屬的類別和配價的類型中的至少一種。
[0053]在一實施例中,所述第三識別子模塊包括:
[0054]第一選擇單元,被配置為若從所述會話場景中識別出多個不同的時間,則選擇與所述主題之間距離最小的時間作為所述主題對應事件的時間;和/或
[0055]第二選擇單元,被配置為若從所述會話場景中識別出多個不同的地點,則選擇與所述主題之間距離最小的地點作為所述主題對應事件的地點。
[0056]根據(jù)本公開實施例的第三方面,提供一種事件提取裝置,包括:
[0057]處理器;
[0058]用于存儲處理器可執(zhí)行指令的存儲器;
[0059]其中,處理器被配置為:
[0060]獲取用戶的交互信息;
[0061]分割出所述交互信息的會話場景;
[0062]根據(jù)預存的動詞的配價資源庫從所述會話場景中識別出事件的要素,并根據(jù)所述要素提取出事件。
[0063]本公開的實施例提供的技術方案可以包括以下有益效果:通過分割出交互信息的會話場景,并根據(jù)預存的動詞的配價資源庫從會話場景中識別出事件的要素,使得提取的事件要素關聯(lián)性更強、更全面,進而使得根據(jù)事件的要素提取出的事件更準確、更全面。
[0064]通過生成事件的提醒記錄,為用戶提供提醒服務,較好地提升用戶的使用體驗。
[0065]基于CRF從所述交互信息中分割出會話場景,實現(xiàn)方式簡單、準確率高。
[0066]根據(jù)計算的所有特征相對于不同會話類型的權(quán)重,確定出每條交互信息的最終會話類型,準確率高。
[0067]根據(jù)動詞的配價資源庫從所述會話場景中識別出事件的參與物,使得提取的參與物更全面,從而使得提取的事件要素更全面。
[0068]采用分類模型計算出每個動詞是主題的概率,并根據(jù)每個動詞是主題的概率確定出作為所述主題的動詞,實現(xiàn)方式簡單、準確率高。
[0069]通過描述動詞特征的內(nèi)容,使得確定作為主題的動詞的過程更加清楚。
[0070]描述了當存在多個不同的時間或地點后,從中選擇一個時間或地點的方式,實現(xiàn)方式簡單。
[0071]應當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
【附圖說明】
[0072]此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
[0073]圖1是根據(jù)一示例性實施例示出的一種事件提取方法的流程圖。
[0074]圖2是根據(jù)一示例性實施例示出的另一種事件提取方法的流程圖。
[0075