亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

概率解析的制作方法

文檔序號:9529254閱讀:265來源:國知局
概率解析的制作方法
【專利說明】概率解析
[0001]
[0002]解析可被認(rèn)為是用于尋找文本或其他有序項(xiàng)序列的結(jié)構(gòu)的過程。已經(jīng)被用于生成文本的語法或其他規(guī)則可以是可用的并且被用于尋找該結(jié)構(gòu);或者可能需要尋找出語法本身。然而,由于人們可使用文本來表達(dá)他們自己的各種方式和語言的自然模糊性,解析未被結(jié)構(gòu)化的文本是非常有挑戰(zhàn)性的任務(wù)。
[0003]由于大量信息僅以未被結(jié)構(gòu)化的文本的形式可用(諸如在因特網(wǎng)上可用的大部分信息),因此需要解析這種未被結(jié)構(gòu)化的文本的準(zhǔn)確、快速且成本高效的方式,以使得自動化系統(tǒng)(諸如信息檢索系統(tǒng)、文檔分類系統(tǒng)、機(jī)器翻譯系統(tǒng)和其他系統(tǒng))能夠利用該信息。
[0004]一些先前的解析方式涉及手動地書寫大量的機(jī)器學(xué)習(xí)代碼,這是耗時、難以理解和維護(hù)以及容易出錯的。
[0005]使用大量經(jīng)標(biāo)記的訓(xùn)練數(shù)據(jù)訓(xùn)練的分類器可被用于從未被結(jié)構(gòu)化的文本中提取信息。然而,獲得經(jīng)標(biāo)記的訓(xùn)練數(shù)據(jù)通常是昂貴的且耗時的,并且一旦被訓(xùn)練,分類器不適應(yīng)于改變對語言的使用,諸如新的單詞或短語。
[0006]—些先前的解析方式使用了常規(guī)表達(dá)式來分析文本。然而,常規(guī)表達(dá)式難以被新手用戶使用并使用有限的語言來定義,所以不允許豐富且復(fù)雜的解析過程被定義,例如,解析不能依賴于非文本線索。
[0007]下面描述的實(shí)施例不限于解決用于解析文本和其他有序項(xiàng)序列的已知系統(tǒng)的任何或所有缺點(diǎn)的實(shí)現(xiàn)。
[0008]概述
[0009]下面呈現(xiàn)了本發(fā)明的簡要概述,以便向讀者提供基本理解。本概述不是本公開的窮盡概覽,并且不標(biāo)識本發(fā)明的關(guān)鍵/重要元素或描述本說明書的范圍。其唯一的目的是以簡化形式呈現(xiàn)此處所公開的精選概念,作為稍后呈現(xiàn)的更詳細(xì)的描述的序言。
[0010]描述了用于計算關(guān)于文本和其他有序項(xiàng)序列的結(jié)構(gòu)的信息以使得下游系統(tǒng)(諸如機(jī)器翻譯系統(tǒng)、信息檢索系統(tǒng)、文檔分類系統(tǒng)和其他系統(tǒng))能夠使用該結(jié)構(gòu)信息的概率解析。在各個實(shí)施例中,解析推斷組件包括從概率程序中編譯的(諸)推斷算法,該概率程序定義用于生成文本或其他有序項(xiàng)序列的隨機(jī)過程。在各示例中,解析推斷組件接收與概率程序所定義的隨機(jī)過程兼容的一個或多個文本觀察或示例。解析推斷組件可將推斷算法應(yīng)用到文本以更新串或與解析有關(guān)的其他值上的一個或多個概率分布。在一些示例中,解析推斷組件使用推斷結(jié)果來完成部分示例以在信息檢索任務(wù)方面協(xié)助用戶。
[0011]通過結(jié)合附圖參考以下詳細(xì)描述,可易于領(lǐng)會并更好地理解許多附帶特征。
[0012]附圖簡沐
[0013]根據(jù)附圖閱讀以下【具體實(shí)施方式】,將更好地理解本發(fā)明,在附圖中:
[0014]圖1是用于生成解析推斷結(jié)果的解析推斷組件的示意圖;
[0015]圖2是在推斷引擎和/或解析推斷組件處的示例方法的流程圖;
[0016]圖3是圖1的用于完成部分示例的解析推斷組件的示意圖;
[0017]圖4是在圖3的解析推斷組件處的一方法的流程圖;
[0018]圖5是圖3的圖形用戶界面處的示例顯示的示意圖;
[0019]圖6是圖3的圖形用戶界面處的另一示例顯示的示意圖;
[0020]圖7是概率程序的因子圖的一示例的示意圖;
[0021]圖8是表示串上的概率分布的兩個示例隨機(jī)自動機(jī)的示意圖;
[0022]圖9示出了示例性基于計算的設(shè)備,其中解析推斷組件和/或推斷引擎的實(shí)施例可被實(shí)現(xiàn)。
[0023]在各個附圖中使用相同的附圖標(biāo)記來指代相同的部件。
[0024]詳細(xì)描沐
[0025]下面結(jié)合附圖提供的詳細(xì)描述旨在作為本發(fā)明示例的描述,并不旨在表示可以構(gòu)建或使用本發(fā)明示例的唯一形式。本描述闡述了本發(fā)明示例的功能,以及用于構(gòu)建和操作本發(fā)明示例的步驟的序列。然而,可以通過不同的示例來實(shí)現(xiàn)相同或等效功能和序列。
[0026]雖然在本文中將本發(fā)明的示例描述并示出為在信息檢索系統(tǒng)中實(shí)現(xiàn),但是所描述的系統(tǒng)只是作為示例而非限制來提供的。本領(lǐng)域的技術(shù)人員將理解,本示例適于在使用文本或其他有序項(xiàng)序列的各種不同類型的系統(tǒng)中應(yīng)用。
[0027]圖1是用于生成解析推斷結(jié)果的解析推斷組件的示意圖。解析推斷組件是使用軟件和/或一個或多個硬件邏輯組件被計算機(jī)實(shí)現(xiàn)的。其包括經(jīng)編譯的概率程序110和任選地用于訪問和獲得觀察108的觀察工具112。用于定義概率程序的語言可以是具有串操縱方法的標(biāo)準(zhǔn)編程語言(或標(biāo)準(zhǔn)編程語言的子集)。觀察108是與在概率程序中指定的任何要求兼容的文本或其他有序項(xiàng)序列的示例。有序項(xiàng)序列可以是其中項(xiàng)是字符的字符序列、其中項(xiàng)是人的姓名的姓名列表、其中項(xiàng)是學(xué)校的學(xué)校列表或其他類型的項(xiàng)的列表。觀察108在一些情況下可以是部分或不完整的示例,如在以下將詳細(xì)描述的。解析推斷組件100使用經(jīng)編譯的概率程序110和觀察108來實(shí)現(xiàn)推斷以產(chǎn)生解析推斷結(jié)果114。例如,解析推斷結(jié)果114包括概率程序中變量的概率分布,其中變量中的至少一個是串或另一有序項(xiàng)序列。概率分布可初始地被設(shè)置為默認(rèn)概率分布并可通過應(yīng)用觀察108來被更新。隨著更多的觀察108通過使用解析推斷組件被獲取并被應(yīng)用,解析推斷結(jié)果114變得更準(zhǔn)確并提供關(guān)于文本或其他有序項(xiàng)序列的結(jié)構(gòu)的更多信息。
[0028]通過這種方式,隨著概率分布被習(xí)得,概率解析被實(shí)現(xiàn),這些概率分布描述語法、規(guī)則或操作如何被用于生成文本或其他有序項(xiàng)序列。這在無需大量的經(jīng)標(biāo)記的訓(xùn)練數(shù)據(jù)以及無需使用常規(guī)表達(dá)式或用于處理文本的單獨(dú)的語言的情況下被實(shí)現(xiàn)。來自概率程序的不處理串的部分的信息可被容易地用于提升解析的準(zhǔn)確性,這是因?yàn)樽鳛榇系母怕史植嫉淖兞靠膳c其他類型的變量在相同的程序中使用。
[0029]解析推斷結(jié)果114可被傳遞到另一系統(tǒng)116,諸如信息檢索系統(tǒng)118、機(jī)器翻譯系統(tǒng)120、文本操縱系統(tǒng)122或其他。其中解析推斷結(jié)果114被用在信息檢索中的一示例在本文檔中稍后來描述。
[0030]經(jīng)編譯的概率程序110包括被推斷引擎106導(dǎo)出的推斷算法。例如,推斷引擎可包括如在轉(zhuǎn)讓給微軟公司的、2012年I月24日授權(quán)的、發(fā)明人為Minka等、題為“Compilerfor Probabilistic Programs (用于概率程序的編譯器)”的美國專利8103598中描述的概率編譯器,其中該編譯器被擴(kuò)展來處理包括對使用有序項(xiàng)序列上的概率分布表示的隨機(jī)變量的聲明或引用的概率程序。概率程序可包括對類型double (雙精度)、integer (整數(shù))、Boolean(布爾)的隨機(jī)變量的聲明或引用;經(jīng)擴(kuò)展的編譯器可使得類型string(串)和list (列表)的隨機(jī)變量另外被支持。
[0031]參考圖1和2,概率程序在推斷引擎處被接收202。例如,用戶可操作編程環(huán)境來創(chuàng)建概率程序。解析推斷組件根據(jù)傳入數(shù)據(jù)的結(jié)構(gòu)來自動地生成概率程序也是可能的(這將參考圖3來更加詳細(xì)地描述)。在其中解析推斷組件動態(tài)地生成概率程序的示例中,它將概率程序發(fā)送到推斷引擎以供編譯并作為回復(fù)接收包括消息傳遞算法的概率程序的經(jīng)編譯的形式。
[0032]概率程序定義用于生成有序項(xiàng)序列的隨機(jī)過程。例如,項(xiàng)是字符并且有序項(xiàng)序列是文本。該過程是隨機(jī)的,這是因?yàn)樗ň哂袃H能被表達(dá)為分布(諸如在有序項(xiàng)序列上的分布)的未確定值的變量。例如,在文本的情況下,變量可具有在作為人的名字的串上的均勻概率分布(并且所以采取特定形式,其中第一字符是選自已知字母表的大寫字母并且之后的字符是選自已知字母表的小寫字符)。作為另一示例,變量可采取反映不同名字和姓氏的相對頻率的更加復(fù)雜的分布。
[0033]在一示例中,概率程序可定義用于通過使用來自多個可用操作中可被應(yīng)用到有序項(xiàng)序列的一個或多個操作來生成有序項(xiàng)序列的隨機(jī)過程。例如,通過對串使用一操作來生成文本,該操作諸如用于格式化一個或多個串、尋找串的長度、串接兩個或更多個串、創(chuàng)建串的索引、尋找串的起始字符、尋找串的結(jié)束字符、尋找串的子串、將一個或多個字符插入到串中、替換串、從串的結(jié)束或開始中移除字符等。這些操作是對可用的標(biāo)準(zhǔn)語言操作的補(bǔ)充,可用的標(biāo)準(zhǔn)語言操作諸如loop (循環(huán))、switch (轉(zhuǎn)變)、if (如果)語句、陣列索引等。
[0034]在各示例中,用于生成有序項(xiàng)序列的一操作可采用一個或多個自變量,這些自變量自身可以被寫為有序項(xiàng)序列并使用概率變量來表示。例如,用于格式化多個串的操作可采用包括對該多個串的引用以及指示各串要如何被格式化的模板的自變量。模板自身是串并且其值可被表示為串上的概率分布。這使得解析推斷組件能夠通過使用觀察到的文本的示例來作出推斷以習(xí)得可能的模板。
[0035]概率程序104可使用包括由邊連接的多個節(jié)點(diǎn)(變量節(jié)點(diǎn)和因子節(jié)點(diǎn))的因子圖來表示。變量節(jié)點(diǎn)表示概率程序中的變量。因子節(jié)點(diǎn)表示概率程序中的一操作并且被連接到作為該操作的自變量或該操作的返回值的變量。
[0036]因子圖還提供用于計算推斷結(jié)果的數(shù)據(jù)結(jié)構(gòu)。變量上的概率分布的形式的消息按沿著圖的各邊的兩個方向被傳遞。在每個變量節(jié)點(diǎn)處,這些消息被用于更新表示在其處被存儲的變量的值的概率分布。在每個因子節(jié)點(diǎn)處,從因子接收到的消息中計算從該因子傳出的消息。這些計算可被稱為消息運(yùn)算符。消息傳遞算法以正方向和/或反方向(或以根據(jù)輸入的模式的任意其他方向)在因子圖上傳遞消息來執(zhí)行推斷,藉此概率分布被更新。
[0037]如以上提到的
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1