背景技術(shù):
機器學習、語言理解和人工智能正在改變用戶與計算機交互的方式。計算機和應用的開發(fā)者總是試圖改進人與計算機之間的交互。然而,語言理解模型的開發(fā)需要大量時間、金錢和其它資源來實現(xiàn)。
鑒于這些和其它一般考慮而已經(jīng)了做出在此公開的實施例。另外,雖然可以討論相對地具體的問題,但是應當理解,實施例不應限于解決在背景技術(shù)中或者在本公開內(nèi)容中的別處指出的具體問題。
技術(shù)實現(xiàn)要素:
概括而言,公開內(nèi)容總體上涉及用于訓練作為序列標簽器(比如條件隨機場模型)的系統(tǒng)和方法。更具體地,在此公開的系統(tǒng)和方法利用來自眾包的數(shù)據(jù)的、用于具體應用的部分地標注的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)來訓練序列標簽器。在此公開的系統(tǒng)和方法通過將部分地標注的數(shù)據(jù)合并成受約束格構(gòu)、僅利用部分地標注的數(shù)據(jù)來訓練序列標簽器,其中受約束格構(gòu)內(nèi)的每個輸入值可以具有多個候選標簽,該多個候選標簽具有置信分數(shù)。因而,在此公開的用于訓練序列標簽器的系統(tǒng)和方法提供更準確的序列加標簽系統(tǒng)、更可靠的序列加標簽系統(tǒng)和更高效的序列加標簽系統(tǒng)。另外,在此描述的用于通過僅利用用于具體應用的部分地標注的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)來訓練序列標簽器的系統(tǒng)和方法減少為了構(gòu)建用于應用的語言理解模型而必需的時間和資源。
公開內(nèi)容的一個方面涉及一種用于利用機器學習技術(shù)來訓練序列標簽器的方法。該方法包括從第一來源獲得用于具體應用的部分地標注的數(shù)據(jù)并且從第二來源獲得部分地標注的數(shù)據(jù)。第二來源是搜索日志。該方法還包括將來自第一來源和來自搜索日志的部分地標注的數(shù)據(jù)合并成受約束格構(gòu)。受約束格構(gòu)內(nèi)的每個輸入值具有多個候選標簽,該多個候選標簽具有置信分數(shù)。該方法附加地包括基于受約束格構(gòu)來運行訓練算法以估計模型參數(shù)。與利用至少一些完全地標注的數(shù)據(jù)而被訓練的序列標簽器相比,該方法提供更準確的序列標簽器和更可靠的序列標簽器。
公開內(nèi)容的另一方面包括一種用于條件隨機場的訓練系統(tǒng)。訓練系統(tǒng)包括計算設(shè)備。計算設(shè)備包括處理單元和存儲器。處理單元實施受約束格構(gòu)系統(tǒng)。受約束格構(gòu)系統(tǒng)可操作用于從眾包的數(shù)據(jù)獲得用于具體應用的部分地標注的數(shù)據(jù)并且從搜索日志獲得部分地標注的數(shù)據(jù)。受約束格構(gòu)系統(tǒng)還可操作用于將來自眾包的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)合并成受約束格構(gòu)。受約束格構(gòu)內(nèi)的每個詞具有多個候選標簽,該多個候選標簽具有置信分數(shù)。附加地,受約束格構(gòu)系統(tǒng)可操作用于基于受約束格構(gòu)來運行訓練算法以估計模型參數(shù)。
公開內(nèi)容的又一方面包括一種用于利用機器學習技術(shù)來構(gòu)建語言理解模型的系統(tǒng)。該系統(tǒng)包括至少一個處理器和包括存儲于其上的計算機可執(zhí)行指令的一個或者多個計算機可讀存儲介質(zhì)。計算機可執(zhí)行指令由至少一個處理器執(zhí)行。計算機可執(zhí)行指令使得該系統(tǒng)執(zhí)行操作,這些操作包括從眾包的數(shù)據(jù)獲得用于具體應用的部分地標注的數(shù)據(jù)并且從搜索日志獲得部分地標注的數(shù)據(jù)。計算機可執(zhí)行指令還使得該系統(tǒng)執(zhí)行操作,這些操作包括將來自眾包的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)合并成受約束格構(gòu)。受約束格構(gòu)內(nèi)的每個詞具有多個候選標簽,該多個候選標簽具有置信分數(shù)。受約束格構(gòu)系統(tǒng)由于每個詞具有允許的候選標簽類型的集合并且由于多個候選標簽被結(jié)構(gòu)化而被約束。附加地,計算機可執(zhí)行指令使得該系統(tǒng)執(zhí)行操作,這些操作包括基于受約束格構(gòu)來運行訓練算法以估計模型參數(shù)。語言理解模型是經(jīng)訓練的條件隨機場。
提供這一發(fā)明內(nèi)容以用簡化的形式介紹以下在具體實施方式中被進一步描述的概念的選集。這一發(fā)明內(nèi)容并非旨在于標識要求保護的主題內(nèi)容的關(guān)鍵特征或者實質(zhì)特征,它也并非旨在于用來限制要求保護的主題內(nèi)容的范圍。
附圖說明
參照以下各圖來描述非限制和非窮舉實施例。
圖1是圖示了用于訓練序列標簽器的系統(tǒng)的示例的框圖。
圖2是圖示了將基于串的對準算法應用于來自商業(yè)數(shù)據(jù)庫的點進數(shù)據(jù)以對準語義標簽與查詢-知識點擊圖形的示例的示意圖。
圖3是圖示了從查詢“playthelatestbatmanmovie(播放最新的蝙蝠俠電影)”創(chuàng)建的受約束格構(gòu)的示例的示意圖。
圖4是圖示了用于訓練序列標簽器的方法的示例的流程圖。
圖5是圖示了用于從獲得自商業(yè)搜索引擎的未標注的數(shù)據(jù)自動地生成部分地標注的數(shù)據(jù)的方法的示例的流程圖。
圖6是圖示了可以用來實踐公開內(nèi)容的實施例的計算設(shè)備的示例物理部件的框圖。
圖7a和圖7b是可以用來實踐本公開內(nèi)容的實施例的移動計算設(shè)備的簡化框圖。
圖8是可以在其中實踐本公開內(nèi)容的實施例的分布式計算系統(tǒng)的簡化框圖。
具體實施方式
在以下具體實施方式中,參照附圖,這些附圖形成以下具體實施方式的部分并且在附圖中通過說明示出了具體實施例或者示例。在并未脫離本公開內(nèi)容的精神實質(zhì)或者范圍的情況下可以組合這些方面,可以利用其它方面并且可以做出結(jié)構(gòu)改變。以下具體描述因此不會在限制意義上被解讀,并且本公開內(nèi)容的范圍由權(quán)利要求及其等效含義限定。
機器學習、語言理解和人工智能的進步正在改變用戶與計算機交互的方式。數(shù)字助理應用(比如siri、googlenow和cortana)是人類計算機交互中的轉(zhuǎn)變的示例。然而,目前讓在創(chuàng)建這些數(shù)字應用的公司以外的開發(fā)者在這些已經(jīng)創(chuàng)建的數(shù)字助理應用內(nèi)為它們自己的應用構(gòu)建語言理解體驗是極為困難和/或資源密集的。換而言之,這些數(shù)字助理應用的第三方可擴展性經(jīng)常是資源禁止性的。例如,在創(chuàng)建這些數(shù)字應用的公司以外的開發(fā)者經(jīng)常被要求獲得大量完全地標注的數(shù)據(jù)。完全地標注的數(shù)據(jù)經(jīng)常需要大量時間和資源來開發(fā)。特別地,構(gòu)建在語言理解中發(fā)揮關(guān)鍵作用以提取實體和語義作用的序列標簽器需要大量完全地標注的數(shù)據(jù),這經(jīng)常妨礙第三方能夠快速地將新域引導到系統(tǒng)中以便為它們自己的應用構(gòu)建語言理解體驗。
通常地沒有允許第三方開發(fā)者為另一方的應用構(gòu)建語言理解模型而無需大量完全地標注的數(shù)據(jù)的系統(tǒng)或者方法。盡管先前系統(tǒng)已經(jīng)嘗試通過利用搜索日志來改進序列標簽器的弱監(jiān)督的訓練,但是這些系統(tǒng)和方法已經(jīng)無法將用于具體應用的部分地標注的眾包的數(shù)據(jù)合并成概率模型框架,并且代之以需要使用一些完全地標注的眾包的數(shù)據(jù)。在此公開的系統(tǒng)和方法能夠通過利用用于具體應用的部分地標注的眾包的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)二者來訓練序列標簽器。因而,如在此公開的系統(tǒng)和方法允許第三方開發(fā)者為另一方的應用構(gòu)建語言理解模型而無需任何完全地標注的數(shù)據(jù)。換而言之,如在此公開的系統(tǒng)和方法使第三方能夠在“意圖即服務”iaas平臺中構(gòu)建語言理解模型,這允許第三方開發(fā)者從訓練數(shù)據(jù)容易地構(gòu)建語言理解模型。
在此描述的系統(tǒng)和方法的用于通過利用用于具體應用的部分地標注的眾包的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)二者來訓練序列標簽器的能力提供更準確的序列加標簽系統(tǒng)、更可靠的序列加標簽系統(tǒng)和更高效的序列加標簽系統(tǒng)。另外,在此描述的系統(tǒng)和方法的用于通過利用用于具體應用的部分地標注的眾包的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)二者來訓練序列標簽器的能力減少為了構(gòu)建用于應用的語言理解模型而必需的時間和資源。
圖1總體上圖示了用于訓練序列標簽器的系統(tǒng)100的示例。序列標簽器被設(shè)計為利用機器學習技術(shù)對廣泛多種不同輸入進行分類(在此也被稱為標注或者加標簽)。輸入可以是需要被集群或者分類的任何數(shù)據(jù)序列,比如查詢、搜索查詢、基因組序列等。在所圖示的示例中,序列標簽器(在此也被稱為序列加標簽系統(tǒng))是條件隨機場模型102。其它類型的序列標簽器包括神經(jīng)網(wǎng)絡。不同于神經(jīng)網(wǎng)絡,條件隨機場(crf)102可以實現(xiàn)高準確性而無任何調(diào)諧。因此,crf是被應用于序列加標簽問題的最廣泛地使用的機器學習。crf102接收輸入信號104、從輸入信號104提取特征、確定用于特征的模型參數(shù)并且然后以用于每個分類狀態(tài)的概率的形式輸出用于每個特征的分類106或者標簽106。然而,在crf模型102可以對輸入信號104分類之前,必須利用與輸入信號104相似的訓練數(shù)據(jù)107來訓練模型102。
例如,在一些實施例中,crf102從訓練數(shù)據(jù)107被構(gòu)建為語言理解模型。如以上討論的那樣,先前利用的crf需要大量完全地標注的數(shù)據(jù)作為訓練數(shù)據(jù)以構(gòu)建語言理解模型。獲得大量完全地標注的數(shù)據(jù)需要大量時間、金錢和其它資源并且因此經(jīng)常阻礙其它開發(fā)者構(gòu)建語言理解模型以與已知的高度地復雜的語言理解應用(比如數(shù)字助理應用)一起工作。然而,系統(tǒng)100利用受約束格構(gòu)系統(tǒng)111用于訓練序列標簽器系統(tǒng),比如crf102。受約束格構(gòu)系統(tǒng)111提供用于僅利用部分地標注的數(shù)據(jù)作為訓練數(shù)據(jù)107來訓練序列標簽器的系統(tǒng)。另外,不同于先前利用的訓練系統(tǒng),受約束格構(gòu)系統(tǒng)111從兩個不同數(shù)據(jù)來源提供訓練數(shù)據(jù)107。
受約束格構(gòu)系統(tǒng)111獲得兩個不同種類的部分地標注的訓練數(shù)據(jù)107。受約束格構(gòu)系統(tǒng)111從用于部分地標注的數(shù)據(jù)的任何適當來源獲得兩個不同種類的部分地標注的數(shù)據(jù)。在一些實施例中,從部分地標注的數(shù)據(jù)的兩個不同來源獲得兩個不同種類的部分地標注的數(shù)據(jù)。在附加實施例中,第一種類的部分地標注的數(shù)據(jù)是任務特有的,不同于不是任務特有數(shù)據(jù)的第二種類的部分地標注的數(shù)據(jù)。在一些實施例中,受約束格構(gòu)系統(tǒng)111獲得用于具體應用的部分地標注的眾包的數(shù)據(jù)110和部分地標注的搜索日志數(shù)據(jù)108。先前利用的訓練系統(tǒng)已經(jīng)利用部分地標注的搜索日志數(shù)據(jù)作為訓練數(shù)據(jù);然而,這些先前利用的訓練系統(tǒng)需要組合部分地標注的搜索日志數(shù)據(jù)與完全地標注的人工數(shù)據(jù)。對照而言,受約束格構(gòu)系統(tǒng)111無需使用任何完全地標注的數(shù)據(jù)。
用于獲得部分地標注的數(shù)據(jù)110的任何適當方法可以由系統(tǒng)100利用。在一些實施例中,用于獲得用于具體應用的部分地標注的眾包的數(shù)據(jù)110的任何適當方法可以由系統(tǒng)100利用。在一些實施例中,通過利用眾包方式收集注解數(shù)據(jù)來獲得部分地標注的眾包來源數(shù)據(jù)。在一些實施例中,可以向兩個或者更多個人類注解者發(fā)送相同查詢,并且因此這一方式允許對查詢的多個注解。例如,可以應用單個規(guī)則以自動地對例如<date>、<time>和<media_type>的無歧義標簽加標簽。作為結(jié)果,在這些實施例中,人類注解者無需完全地訪問用于注解的給定的查詢。取而代之,在這些實施例中,人類注解者可以聚焦于更有挑戰(zhàn)的標簽,比如<movie_title>和<person_name>。
在一些實施例中,用于獲得部分地標注的搜索日志數(shù)據(jù)108的任何適當系統(tǒng)或者方法可以由系統(tǒng)100利用。在一些實施例中,通過由系統(tǒng)100利用來自商業(yè)搜索引擎的大量未標注的數(shù)據(jù)來自動地獲得部分地標注的搜索日志數(shù)據(jù)108。在這些實施例中,通過利用鏈接查詢-點擊日志和知識提取來從點進數(shù)據(jù)自動地構(gòu)造查詢-知識點擊圖形。例如,可以從結(jié)構(gòu)化的網(wǎng)頁如imdb.com容易地提取電影數(shù)據(jù)庫,并且一般知識圖形(比如freebase和wikipedia)公開地可用。一旦構(gòu)造了查詢-知識點擊圖形,基于串的對準算法就可以應用于查詢-知識點擊圖形以對準查詢與語義標簽。圖2圖示了應用基于串的對準算法202以在查詢-知識點擊圖形204上對準語義標簽208與查詢輸入值206的示例。接著,在這些實施例中,由于自然語言以及知識和串匹配算法的歧義而去除更少置信的對準,并且保持高置信對準以用于部分標注以保證自動地獲得的部分地標注過程沒有從未對準過度廣義化。用于通過利用來自商業(yè)搜索引擎的大量未標注的數(shù)據(jù)來自動地獲得部分地標注的搜索數(shù)據(jù)的任何適當系統(tǒng)或者方法可以由系統(tǒng)100利用。
一旦受約束格構(gòu)系統(tǒng)111已經(jīng)獲得兩個不同種類的部分地標注的數(shù)據(jù),受約束格構(gòu)系統(tǒng)111就利用合并機制112將兩個不同種類的部分地標注的數(shù)據(jù)110合并成受約束格構(gòu)。在一些實施例中,一旦受約束格構(gòu)系統(tǒng)111已經(jīng)獲得用于具體應用的部分地標注的眾包的數(shù)據(jù)110和部分地標注的搜索日志數(shù)據(jù)108,受約束格構(gòu)系統(tǒng)111就利用合并機制112將用于具體應用的部分地標注的眾包的數(shù)據(jù)110和部分地標注的搜索日志數(shù)據(jù)109合并成受約束格構(gòu)。圖3圖示了從查詢“playthelatestbatmanmovie”302創(chuàng)建的受約束格構(gòu)300的示例。圖3也圖示了用于查詢302的真實標注304。在受約束格構(gòu)中,每個輸入值(比如用于語言理解模型的詞)可以具有多于一個可采納標簽(在此也被稱為標簽或者分類),這些可采納標簽具有置信分數(shù)??刹杉{標簽在此被稱為候選標簽306并且在受約束格構(gòu)300上被表示為節(jié)點。對照而言,傳統(tǒng)訓練系統(tǒng)每輸入僅采用一個有效標簽。
格構(gòu)由于每個輸入值(比如詞)具有允許的候選標簽類型(在此也被稱為允許的標簽類型)的集合并且由于多個候選標簽被結(jié)構(gòu)化而被約束。例如,tomhanks可以具有允許的標簽類型“演員”和“導演”。任何適當候選標簽類型可以由系統(tǒng)100利用。候選標簽由于某些候選標簽類型不能跟隨某些其它候選標簽類型而被結(jié)構(gòu)化。例如,在一些實施例中,候選標簽類型通過使用iob格式而被結(jié)構(gòu)化。例如,在一些實施例中,電影名稱候選標簽類型不能跟隨音樂名稱候選標簽類型。這一結(jié)構(gòu)僅為示例性而不是意味著限制。任何適當候選標簽結(jié)構(gòu)可以由系統(tǒng)100利用。在遺漏或者不確定標簽的情況下,合并機制112在受約束格構(gòu)中開放在方案中定義的所有可能標簽。方案是用于具體任務的標簽系統(tǒng)。例如,在鬧鐘方案中,以下標簽可以可用:鬧鐘狀態(tài)、持續(xù)時間、定位參考、重現(xiàn)日期、開始日期、開始時間和標題。
給定觀測標簽序列x=x1...xn,由
其中,
p是概率函數(shù),
φ是特征函數(shù),
θ是參數(shù)矢量,
t是轉(zhuǎn)置,
x是輸入查詢,
y是標簽,
y’是可能標簽(或者是用于裕度化的暫時變量),
y(x)是用于x的所有可能標簽序列的集合,并且
給定完全地標注的序列
其中:
argmax是最大值的變元,
θ*是最優(yōu)參數(shù),
n是訓練示例的數(shù)目,
i是訓練示例索引,
λ是規(guī)定規(guī)則化項的強度的參數(shù),
d是參數(shù)維度。
然而,合并機制112不具有完全地標注的序列。取而代之,用于序列x1...xn中的每個權(quán)標x的合并機制112具有標簽信息的以下兩個來源:
·允許的標簽類型的集合j(xj)(標簽詞典);以及
·從來源數(shù)據(jù)傳送的標簽
其中,
j是訓練數(shù)據(jù)的索引,以及
因而,合并機制112定義受約束格構(gòu)
其中,
y是以上映射函數(shù)。
除了這些現(xiàn)有約束之外,合并機制112還引入對標簽結(jié)構(gòu)的約束。例如,一些標簽類型不能跟隨某些其它標簽類型。合并機制112通過以如下形式不允許無效標簽類型作為后處理步驟來并入這些限制:
其中:
在兩個不同類型的部分地標注的數(shù)據(jù)(比如用于具體應用的部分地標注的眾包的數(shù)據(jù)110和部分地標注的搜索日志數(shù)據(jù)108)由合并機制112合并成受約束格構(gòu)之后,訓練機制114應用訓練算法以基于受約束格構(gòu)來估計模型參數(shù)。這樣,訓練機制114應用概率置信模型以估計用于候選標簽306的模型參數(shù)。在一些實施例中,訓練機制114為給定的觀察序列x定義在標簽格構(gòu)(在此也被稱為候選標簽格構(gòu))之上的條件概率:
訓練機制114利用少量維持的數(shù)據(jù)來訓練概率模型。維持的數(shù)據(jù)是沒有被合并機制112合并成受約束格構(gòu)的訓練數(shù)據(jù)107。給定用于每個權(quán)標類型xj和
由于目標為非凸,所以訓練機制114利用基于梯度的算法來找到局部最優(yōu)值。這一目標在每個示例x(i),
除了第一項之外,以上等式#7與由一階crf通常地利用的訓練等式相同。例如,如由訓練機制114利用的eq#7用受約束格構(gòu)
另外,訓練機制114基于受約束格構(gòu)將目標函數(shù)定義為:
其中
γ是受約束格構(gòu),
λ是規(guī)則化因子,
l是似然度函數(shù),并且
n是訓練數(shù)據(jù)的數(shù)目。
目標函數(shù)將受約束格構(gòu)中的預測的標簽序列與未受約束格構(gòu)中的對應預測的標簽序列之間的能量差距最小化。如在此被利用的能量差距是指兩個狀態(tài)之間的分數(shù)差值。訓練算法在計算等式#7中的
圖4是概念地圖示了用于利用機器學習技術(shù)來訓練序列標簽器(比如crf)的方法400的示例的流程圖。在一些實施例中,方法400由受約束格構(gòu)系統(tǒng)111執(zhí)行。方法400通過利用兩個不同種類的部分地標注的數(shù)據(jù)來訓練序列標簽器。來自如本領(lǐng)域技術(shù)人員將知道的任何適當來源的部分地標注的數(shù)據(jù)可以由方法400利用。在一些實施例中,方法400通過利用用于具體應用的部分地標注的眾包的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)二者來訓練序列標簽器。這樣,與由利用至少一些完全地標注的數(shù)據(jù)的方法訓練的序列標簽器相比,方法400提供更準確的序列加標簽系統(tǒng)、更可靠的序列加標簽系統(tǒng)和更高效的序列加標簽系統(tǒng)。另外,與由需要至少一些完全地標注的數(shù)據(jù)的方法訓練的序列標簽器相比,方法400需要更少的時間和資源,該時間和這些資源是為了構(gòu)建用于應用的語言理解模型而需要的。
在操作402處,獲得來自第一來源的、用于具體應用的部分地標注的數(shù)據(jù)。在一些實施例中,在操作402處,獲得來自眾包的數(shù)據(jù)的、用于具體應用的部分地標注的數(shù)據(jù)。可以在操作402處利用用于獲得用于具體應用的部分地標注的眾包的數(shù)據(jù)的任何適當方法。在一些實施例中,在操作402處通過利用眾包方式以收集注解數(shù)據(jù)來獲得部分地標注的眾包數(shù)據(jù)。在一些實施例中,可以向兩個或者更多個人類注解者發(fā)送相同查詢,并且因此這一方式允許對查詢的多個注解。作為結(jié)果,在這些實施例中,人類注解者無需在操作402處完全地評估用于注解的給定的查詢。
在操作404處,從第二來源獲得部分地標注的數(shù)據(jù)。在一些實施例中,在操作404處,從搜索日志獲得部分地標注的數(shù)據(jù)。在一些實施例中,在操作404處通過如由方法500所圖示的、利用來自商業(yè)搜索引擎的大量未標注的數(shù)據(jù)來自動地獲得來自搜索日志的部分地標注的數(shù)據(jù)。圖5是概念地圖示了用于從獲得自商業(yè)搜索引擎的未標注的數(shù)據(jù)自動地生成部分地標注的數(shù)據(jù)的方法500的示例的流程圖。
在操作502處,經(jīng)由鏈接查詢點擊日志和知識提取從未標注的點進數(shù)據(jù)構(gòu)造查詢-知識點擊圖形。例如,可以從結(jié)構(gòu)化的網(wǎng)頁如imdb.com容易地提取電影數(shù)據(jù)庫,并且一般知識圖形(比如freebase和wikipedia)公開地可用。在操作504處應用基于串的對準算法以在構(gòu)造的查詢-知識點擊圖形上對準查詢語義標簽與未標注的點進數(shù)據(jù),以形成對準的查詢-知識點擊圖形。接著,在操作506處從對準的查詢-知識點擊圖形去除更少置信的對準以形成更新后的對準的圖形。在操作506處保持查詢-知識點擊圖形上的高置信的對準以用于部分標注。執(zhí)行操作506以保證自動部分標注過程由于自然語言的歧義而沒有從未對準過度廣義化。在操作506之后,執(zhí)行操作508。在操作508處,基于在更新后的對準的圖形上與未標注的點進數(shù)據(jù)對準的語義標簽來部分地標注未標注的點進數(shù)據(jù)。方法500僅為方法400可以利用的用于從商業(yè)搜索引擎自動地獲得部分地標注的搜索數(shù)據(jù)的方法的一個示例。然而,用于從來自商業(yè)搜索引擎的未標注的數(shù)據(jù)自動地獲得部分地標注的數(shù)據(jù)的任何適當方法可以由方法400利用。
一旦操作402和404已經(jīng)獲得了兩個不同類型的部分地標注的數(shù)據(jù)(比如來自眾包的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)),就執(zhí)行操作406。在操作406處,將來自眾包的數(shù)據(jù)的部分地標注的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)合并成受約束格構(gòu)。不同于每輸入僅采用一個有效標簽的傳統(tǒng)訓練方法,受約束格構(gòu)內(nèi)的每個輸入值(比如用于語言理解模型的詞)可以具有多于一個候選標簽,這些候選標簽具有置信分數(shù)。在遺漏或者不確定標簽的情況下,為受約束格構(gòu)中的遺漏或者不確定的標簽開放在受約束格構(gòu)中的方案中定義的所有可能標簽。為了在操作406處創(chuàng)建受約束格構(gòu),序列x1...xn中的每個輸入值x具有以下兩個標簽信息來源:
·允許的標簽類型的集合y(xj)(標簽詞典);以及
·從數(shù)據(jù)來源傳送的標簽
因而,受約束格構(gòu)
在操作408處,基于受約束格構(gòu)來運行訓練算法以估計模型參數(shù)。在一些實施例中,訓練算法應用概率置信模型以估計用于候選標簽的模型參數(shù)。在一些實施例中,訓練算法用等式#5為給定的觀測序列x定義在候選標簽格構(gòu)之上的條件概率。
訓練算法可以利用少量維持的數(shù)據(jù)來訓練概率模型。給定用于每個權(quán)標類型xj和訓練序列
另外,在操作408處被利用的訓練算法可以利用等式#8基于受約束格構(gòu)來定義目標函數(shù)。訓練算法將受約束格構(gòu)中的預測的標簽序列與未受約束格構(gòu)中的對應預測的標簽序列之間的能量差距最小化。
一旦方法400已經(jīng)訓練了序列標簽器(比如crf),就可以將crf應用于各種加標簽任務。例如,crf可以接收查詢輸入,比如語言查詢。crf從語言查詢提取特征,并且然后利用受約束格構(gòu)和訓練算法來估計用于每個特征的語言模型參數(shù)。接著,crf基于查詢語言來優(yōu)化語言模型參數(shù)。crf基于經(jīng)優(yōu)化的語言參數(shù)來確定用于每個特征的標簽(也被稱為標注或者分類)。確定的標簽由crf輸出作為結(jié)果。
在一些實施例中,公開了一種用于條件隨機場的訓練系統(tǒng)。這一訓練系統(tǒng)包括用于從眾包的數(shù)據(jù)獲得用于具體應用的部分地標注的數(shù)據(jù)的裝置和用于從搜索日志獲得部分地標注的數(shù)據(jù)的裝置。訓練系統(tǒng)還包括用于將來自眾包的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)合并成受約束格構(gòu)的裝置以及用于基于受約束格構(gòu)來運行訓練算法以估計模型參數(shù)的裝置。另外,受約束格構(gòu)內(nèi)的每個詞具有多個候選標簽,該多個候選標簽具有置信分數(shù)。在一些實施例中,在與利用至少一些完全地標注的數(shù)據(jù)而被訓練的序列標簽器相比時,訓練系統(tǒng)提供更準確的序列標簽器和更可靠的序列標簽器。
在其它實施例中,公開了一種用于利用機器學習技術(shù)來構(gòu)建語言理解模型的系統(tǒng)。該系統(tǒng)包括用于從眾包的數(shù)據(jù)獲得用于具體應用的部分地標注的數(shù)據(jù)的裝置和用于從搜索日志獲得部分地標注的數(shù)據(jù)的裝置。該系統(tǒng)還包括用于將來自眾包的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)合并成受約束格構(gòu)的裝置以及用于基于受約束格構(gòu)來運行訓練算法以估計模型參數(shù)的裝置。另外,在約束格構(gòu)內(nèi)的每個詞具有多個候選標簽,該多個候選標簽具有置信分數(shù)。受約束格構(gòu)由于每個詞具有允許的候選標簽類型的集合并且由于候選標簽被結(jié)構(gòu)化而被約束。附加地,語言理解模型是經(jīng)訓練的條件隨機場。
在一些實施例中,公開了一種用于利用機器學習技術(shù)來訓練序列標簽器的方法。該方法包括從第一來源獲得用于具體應用的部分地標注的數(shù)據(jù)并且從第二來源獲得部分地標注的數(shù)據(jù)。第二來源是搜索日志。該方法還包括將來自第一來源和來自搜索日志的部分地標注的數(shù)據(jù)合并成受約束格構(gòu)。受約束格構(gòu)內(nèi)的每個輸入值具有多個候選標簽,該多個候選標簽具有置信分數(shù)。該方法附加地包括基于受約束格構(gòu)來運行訓練算法以估計模型參數(shù)。與利用至少一些完全地標注的數(shù)據(jù)而被訓練的序列標簽器相比,該方法提供更準確的序列標簽器和更可靠的序列標簽器。序列標簽器可以是條件隨機場。如果受約束格構(gòu)中的輸入值具有遺漏或者不確定的標簽,則受約束格構(gòu)可以向輸入值指派來自方案的所有候選標簽。受約束格構(gòu)由于每個輸入值具有允許的候選標簽類型的集合并且由于多個候選標簽被結(jié)構(gòu)化而可以被約束。多個候選標簽由于一些候選標簽類型不能跟隨某些其它候選標簽類型而可以被結(jié)構(gòu)化。訓練算法可以將來自受約束格構(gòu)的候選標簽與來自未受約束格構(gòu)的對應候選標簽之間的能量差距最小化。這一方法可以提供用于構(gòu)建語言理解模型而無需用于具體應用的任何完全地標注的數(shù)據(jù)的平臺??梢酝ㄟ^以下各項從來自商業(yè)搜索引擎的未標注的數(shù)據(jù)生成來自搜索日志的部分地標注的數(shù)據(jù):經(jīng)由鏈接查詢點擊日志和知識提取來從未標注的點進數(shù)據(jù)構(gòu)造查詢知識點擊圖形;應用基于串的對準算法以在查詢-知識點擊圖形上對準語義標簽與未標注的點進數(shù)據(jù)以形成對準的查詢-知識點擊圖形;從對準的查詢-知識點擊圖形去除更少置信的對準以形成更新后的對準的圖形;以及基于更新后的對準的圖形上與未標注的點進數(shù)據(jù)對準的語義標簽來部分地標注未標注的點進數(shù)據(jù)。
在更多實施例中。公開了一種用于條件隨機場的訓練系統(tǒng)。訓練系統(tǒng)包括計算設(shè)備。計算設(shè)備包括處理單元和存儲器。處理單元實施受約束格構(gòu)系統(tǒng)。受約束格構(gòu)系統(tǒng)可操作用于從眾包的數(shù)據(jù)獲得用于具體應用的部分地標注的數(shù)據(jù)和從搜索日志獲得部分地標注的數(shù)據(jù)。受約束格構(gòu)系統(tǒng)還可操作用于將來自眾包的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)合并成受約束格構(gòu)。受約束格構(gòu)內(nèi)的每個詞具有多個候選標簽。附加地,受約束格構(gòu)系統(tǒng)可操作用于基于受約束格構(gòu)來運行訓練算法以估計模型參數(shù)??梢詮膩碜陨虡I(yè)搜索引擎的未標注的數(shù)據(jù)生成來自搜索日志的部分地標注的數(shù)據(jù)。在受約束格構(gòu)中的詞具有不確定的標簽時,受約束格構(gòu)可以向詞指派來自方案的所有候選標簽。受約束格構(gòu)由于每個詞具有允許的候選標簽類型的集合并且由于多個候選標簽被結(jié)構(gòu)化而可以被約束。多個候選標簽由于一些候選標簽類型不能跟隨某些其它候選標簽類型而可以被結(jié)構(gòu)化。訓練算法可以將來自受約束格構(gòu)的候選標簽與來自未受約束格構(gòu)的對應候選標簽之間的能量差距最小化。與利用至少一些完全地標注的數(shù)據(jù)而被訓練的條件隨機場相比,受約束格構(gòu)系統(tǒng)可以創(chuàng)建更準確的條件隨機場和更可靠的條件隨機場。訓練系統(tǒng)可以構(gòu)建語言理解模型而無需獲得用于具體應用的任何完全地標注的眾包的數(shù)據(jù)??梢栽谝苿与娫?、智能電話、平板計算機、智能手表、可穿戴計算機、個人計算機、臺式計算機、游戲系統(tǒng)和/或膝上型計算機上實施受約束格構(gòu)系統(tǒng)。具體應用可以是數(shù)字助理應用、語音識別應用、電子郵件應用、社交聯(lián)網(wǎng)應用、協(xié)作應用、企業(yè)管理應用、消息接發(fā)應用、字處理應用、電子表格應用、數(shù)據(jù)庫應用、演示應用、聯(lián)系人應用、游戲應用、電子商務應用、電子業(yè)務應用、事務應用、交換應用和/或日歷應用。
在附加實施例中,公開了一種用于利用機器學習技術(shù)來構(gòu)建語言理解模型的系統(tǒng)。該系統(tǒng)包括至少一個處理器和包括存儲于其上的計算機可執(zhí)行指令的一個或者多個計算機可讀存儲介質(zhì)。計算機可執(zhí)行指令由至少一個處理器執(zhí)行。計算機可執(zhí)行指令使得該系統(tǒng)執(zhí)行操作,這些操作包括從眾包的數(shù)據(jù)獲得用于具體應用的部分地標注的數(shù)據(jù)并且從搜索日志獲得部分地標注的數(shù)據(jù)。計算機可執(zhí)行指令還使得該系統(tǒng)執(zhí)行操作,這些操作包括將來自眾包的數(shù)據(jù)和來自搜索日志的部分地標注的數(shù)據(jù)合并成受約束格構(gòu)。受約束格構(gòu)內(nèi)的每個詞具有多個候選標簽,該多個候選標簽具有置信分數(shù)。受約束格構(gòu)系統(tǒng)因為每個詞具有允許的候選標簽類型的集合并且由于多個候選標簽被結(jié)構(gòu)化而被約束。附加地,計算機可執(zhí)行指令使得該系統(tǒng)執(zhí)行操作,這些操作包括基于受約束格構(gòu)來運行訓練算法以估計模型參數(shù)。語言理解模型是經(jīng)訓練的條件隨機場。
圖6至圖9和關(guān)聯(lián)的描述提供了對可以在其中實踐公開內(nèi)容的實施例的多種操作環(huán)境的討論。然而,關(guān)于圖6至圖9而被圖示和討論的設(shè)備和系統(tǒng)用于示例和圖示而不是限制可以用于實踐在此描述的公開內(nèi)容的實施例的大量計算設(shè)備配置的目的。
圖6是圖示了可以用來實踐公開內(nèi)容的實施例的計算設(shè)備600的物理部件(例如,硬件)的框圖。例如,受約束格構(gòu)系統(tǒng)或者模塊611可以由計算設(shè)備600實施。在一些實施例中,計算設(shè)備600是移動電話、智能電話、平板計算機、智能手表、可穿戴計算機、個人計算機、臺式計算機、游戲系統(tǒng)、膝上型計算機等之一。以下描述的計算設(shè)備部件可以包括用于受約束格構(gòu)模塊611的計算機可執(zhí)行指令,這些計算機可執(zhí)行指令可以被執(zhí)行以運用方法400并且實施在此公開的系統(tǒng)100的部分。在基本配置中,計算設(shè)備600可以包括至少一個處理單元602和系統(tǒng)存儲器604。依賴于計算設(shè)備的配置和類型,系統(tǒng)存儲器604可以包括但不限于易失性存儲裝置(例如,隨機存取存儲器)、非易失性存儲裝置(例如,只讀存儲器)、閃存或者這樣的存儲器的任何組合。系統(tǒng)存儲器604可以包括適合用于運行軟件應用620的操作系統(tǒng)605和一個或者多個程序模塊606。操作系統(tǒng)605例如可以適合用于控制計算設(shè)備600的操作。另外,公開內(nèi)容的實施例可以與圖形庫、其它操作系統(tǒng)或者任何其它應用程序結(jié)合而被實踐,而不限于任何特定應用或者系統(tǒng)。這一基本配置在圖6中由虛線608內(nèi)的那些部件圖示。計算設(shè)備600可以具有附加特征或者功能。例如,計算設(shè)備600也可以包括附加數(shù)據(jù)存儲設(shè)備(可移除和/或非可移除),如比如磁盤、光盤或者磁帶。這樣的附加存儲裝置在圖6中由可移除存儲設(shè)備609和非可移除存儲設(shè)備610圖示。例如,可以在所圖示的存儲設(shè)備中的任何存儲設(shè)備上存儲由受約束格構(gòu)模塊611獲得的部分地標注的數(shù)據(jù)。
如以上指出的那樣,可以在系統(tǒng)存儲器604中存儲多個程序模塊和數(shù)據(jù)文件。當在處理單元602上執(zhí)行之時,程序模塊606(例如,受約束格構(gòu)模塊611或者電子郵件應用613)可以執(zhí)行過程,包括但不限于執(zhí)行如在此描述的方法400和/或方法500。例如,處理單元602可以實施受約束格構(gòu)模塊611??梢愿鶕?jù)本公開內(nèi)容的實施例而被使用的、并且特別地用來生成屏幕內(nèi)容的其它程序模塊可以包括數(shù)字助理應用、語音識別應用、電子郵件應用、社交聯(lián)網(wǎng)應用、協(xié)作應用、企業(yè)管理應用、消息接發(fā)應用、字處理應用、電子表格應用、數(shù)據(jù)庫應用、演示應用、聯(lián)系人應用、游戲應用、電子商務應用、電子業(yè)務應用、事務應用、交換應用、日歷應用等。在一些實施例中,受約束格構(gòu)模塊611收集以上引用的應用之一特有的部分地標注和/或未標注的眾包的數(shù)據(jù)。
另外,可以在包括分立電子元件的電路、包含邏輯門的封裝或者集成的電子芯片、利用微處理器的電路中或者在包含電子元件或者微處理器的單個芯片上實踐公開內(nèi)容的實施例。例如,可以經(jīng)由片上系統(tǒng)(soc)來實踐公開內(nèi)容的實施例,其中圖6中所圖示的部件中的每個或者許多部件可以被集成到單個集成電路上。這樣的soc器件可以包括都被集成(或者“燒制”)到芯片襯底上作為單個集成電路的一個或者多個處理單元、圖形單元、通信單元、系統(tǒng)虛擬化單元和各種應用功能。在經(jīng)由soc操作時,可以經(jīng)由在單個集成電路(芯片)上與計算設(shè)備600的其它部件一起被集成的專用邏輯來操作在此關(guān)于客戶端的用于切換協(xié)議的能力而被描述的功能。也可以使用能夠執(zhí)行邏輯操作(如比如and、or和not)的其它技術(shù)(包括但不限于機械、光學、流體和量子技術(shù))來實踐公開內(nèi)容的實施例。此外,可以在通用計算機內(nèi)或者在任何其它電路或者系統(tǒng)中實現(xiàn)公開內(nèi)容的實施例。
計算設(shè)備600也可以具有一個或者多個輸入設(shè)備612,比如鍵盤、鼠標、筆、聲音或者語音輸入設(shè)備、觸摸或者揮動輸入設(shè)備等。也可以包括輸出設(shè)備614,比如顯示器、揚聲器、打印機等。前述設(shè)備是示例并且可以使用其它設(shè)備。計算設(shè)備600可以包括允許與其它計算設(shè)備650的通信的一個或者多個通信連接616。適當通信連接616的示例包括但不限于rf發(fā)射器、接收器和/或收發(fā)器電路;通用串行總線(usb)、并行和/或串聯(lián)端口。
如在此所用的術(shù)語計算機可讀介質(zhì)或者存儲介質(zhì)可以包括計算機存儲介質(zhì)。計算機存儲介質(zhì)可以包括在用于存儲信息(比如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)或者程序模塊)的任何方法或者技術(shù)中實施的易失性和非易失性、可移除和非可移除介質(zhì)。系統(tǒng)存儲器604、可移除存儲設(shè)備609和非可移除存儲設(shè)備610都是計算機存儲介質(zhì)示例(例如,存儲器存儲裝置)。計算機存儲介質(zhì)可以包括ram、rom、電可擦除只讀存儲器(eeprom)、閃存或者其它存儲器技術(shù)、cd-rom、數(shù)字萬用盤(dvd)或者其它光存儲裝置、磁盒、磁帶、磁盤存儲裝置或者其它磁存儲設(shè)備或者可以用來存儲信息并且可以由計算設(shè)備600訪問的任何其它制造品。任何這樣的計算機存儲介質(zhì)可以是計算設(shè)備600的部分。計算機存儲介質(zhì)不包括載波或者其它傳播或者調(diào)制的數(shù)據(jù)信號。
通信介質(zhì)可以由調(diào)制的數(shù)據(jù)信號(比如載波或者其它傳送機制)中的計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或者其它數(shù)據(jù)體現(xiàn)并且包括任何信息遞送介質(zhì)。術(shù)語“調(diào)制的數(shù)據(jù)信號”可以描述如下信號,該信號讓一個或者多個特性以對信號中的信息編碼這樣的方式而被設(shè)置或者改變。舉例而言而非限制,通信介質(zhì)可以包括有線介質(zhì)(比如有線網(wǎng)絡或者直接接線連接)以及無線介質(zhì)(比如聲學、射頻(rf)、紅外線和其它無線介質(zhì))。
圖7a和圖7b圖示了可以用來實踐公開內(nèi)容的實施例的移動計算設(shè)備700,例如,移動電話、智能電話、可穿戴計算機(比如智能手表)、平板個人計算機、膝上型計算機等。參照圖7a,圖示了適合用于實施實施例的移動計算設(shè)備700的一個實施例。在基本配置中,移動計算設(shè)備700是具有輸入單元和輸出單元二者的手持計算機。移動計算設(shè)備700通常地包括顯示器705和允許用戶向移動計算設(shè)備700中錄入信息的一個或者多個輸入按鈕710。移動計算設(shè)備700的顯示器705也可以作為輸入設(shè)備(例如,觸屏顯示器)工作。
如果被包括,則可選側(cè)部輸入單元715允許另外的用戶輸入。側(cè)部輸入單元715可以是旋轉(zhuǎn)開關(guān)、按鈕或者任何其它類型的手動輸入單元。在備選實施例中,移動計算設(shè)備700可以并入更多或者更少輸入單元。例如,顯示器705在一些實施例中可以不是觸屏。在又一備選實施例中,移動計算設(shè)備700是便攜電話系統(tǒng),比如蜂窩電話。移動計算設(shè)備700也可以包括可選小鍵盤735??蛇x小鍵盤735可以是物理小鍵盤或者在觸屏顯示器上被生成的“軟”小鍵盤。
除了與顯示器705和/或者小鍵盤735關(guān)聯(lián)的觸屏輸入設(shè)備之外或者取而代之,可以在移動計算設(shè)備700中并入自然用戶接口(nui)。如在此所用,nui包括使用戶能夠以“自然”方式與設(shè)備交互而無由輸入設(shè)備(比如鼠標、鍵盤、遙控器等)施加的人為約束的任何接口技術(shù)。nui方法的示例包括依賴于話音識別、觸摸和觸筆識別、在屏幕上和與屏幕相鄰這二者的手勢識別、空氣手勢、頭部和眼睛跟蹤、語音和話音、視覺、觸摸、手勢和機器智能的nui方法。
在各種實施例中,輸出單元包括用于示出圖形用戶界面(gui)的顯示器705。在在此公開的實施例中,可以在顯示器705上顯示各種用戶信息匯集。另外的輸出單元可以包括可視指示器720(例如,發(fā)光二極管)和/或音頻換能器725(例如,揚聲器)。在一些實施例中,移動計算設(shè)備700并入用于向用戶提供觸覺反饋的振動換能器。在又一實施例中,移動計算設(shè)備700并入用于向外部設(shè)備發(fā)送信號或者從外部設(shè)備接收信號的輸入和/或輸出端口,比如音頻輸入(例如,麥克風插口)、音頻輸出(例如,頭戴式受話器插口)和視頻輸出(例如,hdmi端口)。
圖7b是圖示了移動計算設(shè)備的一個實施例的架構(gòu)的框圖。也就是說,移動計算設(shè)備700可以并入用于實施一些實施例的系統(tǒng)(例如,架構(gòu))702。在一個實施例中,系統(tǒng)702被實施為能夠運行一個或者多個應用(例如,瀏覽器、電子郵件、日歷、聯(lián)系人管理器、消息接發(fā)客戶端、游戲和媒體客戶端/播放器)的“智能電話”。在一些實施例中,系統(tǒng)702被集成為計算設(shè)備,比如集成的個人數(shù)字助理(pda)和無線電話。
可以向存儲器762中加載并且在操作系統(tǒng)764上或者與操作系統(tǒng)764關(guān)聯(lián)地運行一個或者多個應用程序766和/或受約束格構(gòu)模塊611。應用程序的示例包括電話撥叫器程序、電子郵件程序、個人信息管理(pim)程序、字處理程序、電子表格程序、因特網(wǎng)瀏覽器程序、消息接發(fā)程序等等。系統(tǒng)702也包括存儲器762內(nèi)的非易失性存儲區(qū)域768。非易失性存儲區(qū)域768可以用來存儲如果系統(tǒng)702被掉電則不應丟失的持久信息。應用程序766可以使用和在非易失性存儲區(qū)域768中存儲信息,比如由電子郵件應用使用的電子郵件或者其它消息等。同步化應用(未示出)也駐留在系統(tǒng)702上并且被編程為與在主機計算機上駐留的對應同步化應用交互以保持在非易失性存儲區(qū)域768中存儲的信息與在主機計算機處存儲的對應信息同步。如應當認識到的那樣,可以向存儲器762中加載并且在移動計算設(shè)備700上運行其它應用。
系統(tǒng)702具有可以被實施為一個或者多個電池的功率供應770。功率供應770還可以包括外部功率源,比如對電池進行補充或者再充電的ac適配器或者有動力對接托架。
系統(tǒng)702也可以包括執(zhí)行傳輸和接收射頻通信的功能的無線電772。無線電772有助于經(jīng)由通信載體或者服務提供者的、系統(tǒng)702與“外界”之間的無線連通。在操作系統(tǒng)764的控制之下進行向和從無線電772的傳輸。換而言之,可以經(jīng)由操作系統(tǒng)764向應用程序766散播由無線電772接收的通信并且反之亦然。
可視指示器720可以用來提供可視通知和/或音頻接口774可以用于經(jīng)由音頻換能器725來產(chǎn)生可聽通知。在所圖示的實施例中,可視指示器720是發(fā)光二極管(led)并且音頻換能器725是揚聲器。這些設(shè)備可以被直接地耦合到功率供應770,從而使得在被激活時它們保持接通由通知機制規(guī)定的持續(xù)時間,即使處理器760和其它部件可以被關(guān)停以用于節(jié)約電池功率。led可以被編程為無限地保持接通,直至用戶采取動作以指示設(shè)備的上電狀態(tài)。音頻接口774用來向用戶提供可聽信號和從用戶接收可聽信號。例如,除了被耦合到音頻換能器725之外,音頻接口774也可以被耦合到麥克風以接收可聽輸入。系統(tǒng)702還可以包括實現(xiàn)板上相機730的操作以記錄靜止圖像、視頻流等的視頻接口776。
實施系統(tǒng)702的移動計算設(shè)備700可以具有附加特征或者功能。例如,移動計算設(shè)備700也可以包括附加數(shù)據(jù)存儲設(shè)備(可移除和/或非可移除),比如磁盤、光盤或者磁帶。這樣的附加存儲裝置在圖7b中由非易失性存儲區(qū)域768圖示。
可以如以上描述的那樣在移動計算設(shè)備700上本地存儲由移動計算設(shè)備700生成或者捕獲并且經(jīng)由系統(tǒng)702而被存儲的數(shù)據(jù)/信息,或者可以在可以由設(shè)備經(jīng)由無線電772或者經(jīng)由在移動計算設(shè)備700與關(guān)聯(lián)于移動計算設(shè)備700的分離計算設(shè)備(例如,分布式計算網(wǎng)絡(比如因特網(wǎng))中的服務器計算機)之間的有線連接而被訪問的任何數(shù)目的存儲介質(zhì)上存儲數(shù)據(jù)。如應當認識到的那樣,可以經(jīng)由移動計算設(shè)備700經(jīng)由無線電772或者經(jīng)由分布式計算網(wǎng)絡來訪問這樣的數(shù)據(jù)/信息。相似地,可以根據(jù)熟知的數(shù)據(jù)/信息傳送和存儲手段(包括電子郵件和協(xié)作數(shù)據(jù)/信息共享系統(tǒng))來在計算設(shè)備之間容易地傳送這樣的數(shù)據(jù)/信息以用于存儲和使用。
圖8圖示了用于如以上描述的那樣處理在計算系統(tǒng)處從遠程來源(比如一般計算設(shè)備804、平板計算機806或者移動設(shè)備808)接收的數(shù)據(jù)的系統(tǒng)的架構(gòu)的一個實施例。在服務器設(shè)備802處被顯示的內(nèi)容可以被存在在不同通信通道或者其他存儲類型中。例如,可以使用目錄服務822、web門戶824、郵箱服務826、即時消息接發(fā)存儲庫828或者社交聯(lián)網(wǎng)站點830來存儲各種文檔。舉例而言,可以在一般計算設(shè)備804、平板計算設(shè)備806和/或移動計算設(shè)備808(例如,智能電話)中實施受約束格構(gòu)系統(tǒng)。部分地標注的眾包的數(shù)據(jù)、未標注的眾包的數(shù)據(jù)、未標注的搜索日志數(shù)據(jù)和/或部分地標注的搜索日志數(shù)據(jù)可以經(jīng)由網(wǎng)絡815由可以被配置為實施受約束格構(gòu)模塊611的服務器設(shè)備802獲得。在一些實現(xiàn)方式中,向服務器設(shè)備802周期性地傳輸并且在存儲庫816中存儲部分地標注或者未標注的數(shù)據(jù)。
示例1
進行試驗以比較傳統(tǒng)crf與利用在此公開的系統(tǒng)和/或方法而被訓練的半監(jiān)督crf。利用完全地標注的眾包的數(shù)據(jù)來訓練傳統(tǒng)crf。如在在此公開的系統(tǒng)和方法中描述的那樣利用用于具體應用的部分地標注的眾包的數(shù)據(jù)和部分地標注的搜索日志數(shù)據(jù)來訓練半監(jiān)督crf。構(gòu)建兩個crf以創(chuàng)建語言理解模型。將兩個不同crf應用于利用xboxoneentertainment搜索的各種序列加標簽任務。評估涉及電影、音樂和游戲的數(shù)百個查詢。每個查詢由每個crf評估。監(jiān)視并且如下表1中所圖示的記錄每個crf的結(jié)果的準確度。下表1中提供的準確度分數(shù)被定義作為精確度和召回率的調(diào)和手段。準確度分數(shù)100是可能的最佳分數(shù),而分數(shù)0是可能的最差分數(shù)。
表1.xboxoneentertainment搜索中的crf結(jié)果的準確度
表1圖示了僅利用部分地標注的數(shù)據(jù)而被訓練的半監(jiān)督crf在所有三個類別中返回恰當搜索結(jié)果時比傳統(tǒng)crf更可靠。如以上討論的那樣,半監(jiān)督crf需要更少時間、金錢和其它資源來構(gòu)建。因而,在與需要使用至少一些完全地標注的訓練數(shù)據(jù)的傳統(tǒng)crf比較時,在此公開的訓練系統(tǒng)和方法利用更少時間、金錢和其它資源來構(gòu)建更準確和更可靠的模型,比如語言理解模型。
例如,以上參照根據(jù)公開內(nèi)容的實施例的方法、系統(tǒng)和計算機程序產(chǎn)品的框圖和/或操作圖示來描述本公開內(nèi)容的實施例。在塊中指出的功能/動作可以不按照如在任何流程圖中示出的順序出現(xiàn)。例如,取決于涉及到的功能/動作,事實上可以基本上并行地執(zhí)行接連示出的塊或者有時可以按照相反順序執(zhí)行塊。
本公開內(nèi)容參照附圖來描述本技術(shù)的一些實施例,在附圖中僅描述了可能的方面中的一些方面。然而,可以在許多不同形式中體現(xiàn)其它方面,并且在此公開的具體實施例不應被解釋為限于在此闡述的公開內(nèi)容的各種方面。實際上,提供這些示例性實施例以使得本公開內(nèi)容透徹而完整并且向本領(lǐng)域技術(shù)人員完全地傳達其它可能實施例的范圍。例如,可以修改和/或組合在此公開的各種實施例的方面而沒有脫離本公開內(nèi)容的范圍。
雖然在此描述了具體實施例,但是本技術(shù)的范圍并不限于那些具體實施例。本領(lǐng)域技術(shù)人員將認識到在本技術(shù)的范圍和精神實質(zhì)內(nèi)的其它實施例或者改進。因此,具體結(jié)構(gòu)、動作或者介質(zhì)僅被公開作為說明性實施例。本技術(shù)的范圍由所附權(quán)利要求及其任何等效含義限定。