亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

信息處理裝置、信息處理方法以及程序的制作方法

文檔序號:6428459閱讀:157來源:國知局
專利名稱:信息處理裝置、信息處理方法以及程序的制作方法
技術領域
本公開內(nèi)容涉及一種信息處理裝置、信息處理方法以及程序。
背景技術
近來,已關注于從難以量化地決定特征的任意數(shù)據(jù)組機械地提取數(shù)據(jù)組的特征量的技術。例如,已知自動構(gòu)造用于接收任意音樂數(shù)據(jù)以及機械地提取該音樂數(shù)據(jù)所屬的音樂屬類的算法的技術。諸如爵士樂、古典音樂以及流行歌曲的音樂屬類根據(jù)樂器的類型或演奏類型是難以量化地決定的。因此,一般而言,之前已認為當給定任意音樂數(shù)據(jù)時難以從音樂數(shù)據(jù)提取音樂屬類。然而,實際上,劃分音樂屬類的特征潛在地包括在各種信息組合中,諸如包括在音樂數(shù)據(jù)中的音程的組合、音程組合方法、樂器類型的組合、以及旋律線或基線的結(jié)構(gòu)。 因此,已從是否可以通過機器學習自動構(gòu)造提取特征的算法(下文中被稱作特征量提取器)的觀點研究了特征量提取器。作為一個研究結(jié)果,例如,在日本專利申請早期公開第 2009-048266號中公開了基于遺傳算法的特征量提取器的自動構(gòu)造方法。遺傳算法仿效生物進化過程,在機器學習過程中考慮對元素進行選擇、交叉以及突變??梢允褂萌毡緦@暾堅缙诠_第2009-048266號中公開的自動構(gòu)造特征量提取器的算法,自動構(gòu)造用于從任意音樂數(shù)據(jù)提取音樂數(shù)據(jù)所屬的音樂屬類的特征量提取器。在日本專利申請早期公開第2009-048266號中公開的自動構(gòu)造特征量提取器的算法具有非常高的通用性且不限于音樂數(shù)據(jù),并且可以自動構(gòu)造從任意數(shù)據(jù)組提取數(shù)據(jù)組的特征量的特征量提取器。因此,日本專利申請早期公開第2009-04擬66號中公開的自動構(gòu)造特征量提取器的算法被期望應用于諸如音樂數(shù)據(jù)或視頻數(shù)據(jù)的人工數(shù)據(jù)的特征量分析、各種自然的觀測量的特征量分析等。

發(fā)明內(nèi)容
目前,需要使用上述自動構(gòu)造特征量提取器的算法來自動構(gòu)造語言分析算法。語言分析算法是分析輸入字符串并且估計表示該字符串的特征的屬性信息的算法。由于現(xiàn)有技術的語言分析算法是手動構(gòu)造的,因此對于其開發(fā)花費了大量的時間和成本。此外,語言處理的專業(yè)知識對于構(gòu)造語言分析算法是必要的,并且能夠構(gòu)造語言分析算法的人力是有限的。由于現(xiàn)有技術的語言分析技術是語形學分析技術或使用字典的特征量提取技術的應用,因此現(xiàn)有技術的語言分析算法依賴于語言的類型。期望提供一種新穎且改進的信息處理裝置、信息處理方法以及程序,其可以自動構(gòu)造語言分析算法而無需依賴于語言的類型。此外,期望提供一種信息處理裝置、信息處理方法以及程序,其可以自動構(gòu)造接收任意符號串并且估計表示符號串的特征的屬性信息的分析算法。根據(jù)本公開內(nèi)容的實施例,提供了一種信息處理裝置,其包括輸入部,用于輸入多個符號串以及期望從每個符號串提取的屬性信息;特征量函數(shù)生成部,用于從預定函數(shù)組選擇多個函數(shù),并且通過組合多個函數(shù)而生成用于根據(jù)符號串輸出特征量的多個特征量函數(shù),該預定函數(shù)組包括用于將符號串轉(zhuǎn)換成數(shù)值的函數(shù);特征量計算部,用于將輸入部輸入的每個符號串輸入到特征量函數(shù)生成部生成的每個特征量函數(shù)并且計算對應于每個符號串的特征量;估計函數(shù)生成部,用于使用輸入部輸入的與每個符號串對應的屬性信息以及特征量計算部算出的與每個符號串對應的特征量來執(zhí)行機器學習,并且生成用于根據(jù)特征量估計屬性信息的估計函數(shù);以及輸出部,用于輸出特征量函數(shù)生成部生成的特征量函數(shù)和估計函數(shù)生成部生成的估計函數(shù)。符號串可以是字符串。估計函數(shù)生成部可包括有效特征量選擇部,用于選擇對估計屬性信息有效的特征量;以及機器學習部,用于使用有效特征量選擇部選擇的有效特征量和與有效特征量對應的屬性信息來執(zhí)行機器學習,并且生成用于根據(jù)有效特征量估計屬性信息的估計函數(shù)。信息處理裝置還可包括世代更替部,該世代更替部用于通過假設特征量函數(shù)為個體并且執(zhí)行個體選擇、個體間交叉以及個體突變,生成下一代特征量函數(shù)。如果世代更替部已生成了下一代特征量函數(shù),則特征量計算部可使用下一代特征量函數(shù)計算特征量,并且估計函數(shù)生成部可使用特征量計算部使用下一代特征量函數(shù)算出的特征量來生成估計函數(shù)??芍貜蛨?zhí)行世代更替部生成下一代特征量函數(shù)、特征量計算部計算特征量以及估計函數(shù)生成部生成估計函數(shù)。 信息處理裝置還可包括N-gram分析部,該N-gram分析部用于對輸入部輸入的符號串執(zhí)行N-gram分析,并且測量N-gram出現(xiàn)在符號串中的出現(xiàn)頻率。特征量函數(shù)生成部可使用通過N-gram分析部的分析獲得的N-gram和N-gram出現(xiàn)頻率來生成特征量函數(shù)。根據(jù)本公開內(nèi)容的另一實施例,提供了一種信息處理方法,其包括輸入多個符號串以及期望從每個符號串提取的屬性信息;從預定函數(shù)組選擇多個函數(shù),并且通過組合多個函數(shù)生成用于根據(jù)符號串輸出特征量的多個特征量函數(shù),該預定函數(shù)組包括用于將符號串轉(zhuǎn)換成數(shù)值的函數(shù);將每個符號串輸入到每個特征量函數(shù),并且計算對應于每個符號串的特征量;使用對應于每個符號串的屬性信息和對應于每個符號串的特征量來執(zhí)行機器學習,并且生成用于根據(jù)特征量估計屬性信息的估計函數(shù);以及輸出特征量函數(shù)和估計函數(shù)。根據(jù)本公開內(nèi)容的另一實施例,提供了一種用于使得計算機實現(xiàn)以下功能的程序輸入功能,輸入多個符號串以及期望從每個符號串提取的屬性信息;特征量函數(shù)生成功能,從預定函數(shù)組選擇多個函數(shù),并且通過組合多個函數(shù)生成用于根據(jù)符號串輸出特征量的多個特征量函數(shù),該預定函數(shù)組包括用于將符號串轉(zhuǎn)換成數(shù)值的函數(shù);特征量計算功能,將通過輸入功能輸入的每個符號串輸入到通過特征量函數(shù)生成功能生成的每個特征量函數(shù),并且計算對應于每個符號串的特征量;估計函數(shù)生成功能,使用通過輸入功能輸入的與每個符號串對應的屬性信息和通過特征量計算功能算出的與每個符號串對應的特征量來執(zhí)行機器學習,并且生成用于根據(jù)特征量估計屬性信息的估計函數(shù);以及輸出功能,輸出通過特征量函數(shù)生成功能生成的特征量函數(shù)和通過估計函數(shù)生成功能生成的估計函數(shù)。根據(jù)本公開內(nèi)容的另一實施例,提供了一種記錄程序的計算機可讀記錄介質(zhì)。根據(jù)上述本公開內(nèi)容的實施例,可以自動構(gòu)造語言分析算法而不依賴于語言的類型。此外,可以自動構(gòu)造接收任意符號串并且估計表示符號串的特征的屬性信息的分析算法。


圖1是示出根據(jù)本公開內(nèi)容的實施例的自動算法構(gòu)造方法的概況的說明圖;圖2是示出根據(jù)同一實施例的自動算法構(gòu)造方法的概況的說明圖;圖3是示出根據(jù)同一實施例的信息處理裝置(學習裝置)的功能配置的說明圖;圖4是示出在根據(jù)同一實施例的自動算法構(gòu)造方法中使用的學習數(shù)據(jù)的配置的說明圖;圖5是示出根據(jù)同一實施例的N-gram分析方法的說明圖;圖6是示出根據(jù)同一實施例的計算特征量函數(shù)的方法的說明圖;圖7是示出根據(jù)同一實施例的計算估計函數(shù)的方法的說明圖;圖8是示出根據(jù)同一實施例的選擇有效特征量函數(shù)的方法的說明圖;圖9是示出根據(jù)同一實施例的自動算法構(gòu)造方法的完整配置的說明圖;圖10是示出根據(jù)同一實施例的N-gram分析方法的說明圖;圖11是示出根據(jù)同一實施例的、生成特征量函數(shù)的方法(完整配置)的說明圖;圖12是示出根據(jù)同一實施例的、生成特征量函數(shù)的方法(隨機生成)的說明圖;圖13是示出根據(jù)同一實施例的、生成特征量函數(shù)的方法(隨機生成)的說明圖;圖14是示出根據(jù)同一實施例的、生成特征量函數(shù)的方法(進化生成)的說明圖;圖15是示出根據(jù)同一實施例的、生成特征量函數(shù)的方法(進化生成;選擇)的說明圖;圖16是示出根據(jù)同一實施例的、生成特征量函數(shù)的方法(進化生成;交叉)的說明圖;圖17是示出根據(jù)同一實施例的、生成特征量函數(shù)的方法(進化生成;突變)的說明圖;圖18是示出根據(jù)同一實施例的、生成特征量函數(shù)的方法(進化生成;隨機生成) 的說明圖;圖19是示出根據(jù)同一實施例的、計算特征量函數(shù)的方法的說明圖;圖20是根據(jù)同一實施例的、計算估計函數(shù)的方法的說明圖;圖21是示出根據(jù)同一實施例的信息處理裝置(估計裝置)的功能配置的說明圖;圖22是示出根據(jù)同一實施例的、估計屬性信息的方法的說明圖;以及圖23是示出信息處理裝置(學習裝置和估計裝置)的硬件配置的說明圖。
具體實施例方式在下文中,將參照附圖詳細描述本公開內(nèi)容的優(yōu)選實施例。注意,在該說明書和附圖中,具有基本上相同的功能和結(jié)構(gòu)的結(jié)構(gòu)元件以相同的附圖標記來表示,并且省略這些結(jié)構(gòu)元件的重復說明。[描述流程]這里,將簡要描述與以下公開的本公開內(nèi)容的實施例有關的描述流程。首先,將參照圖1和2描述根據(jù)本公開內(nèi)容的實施例的自動算法構(gòu)造方法的概況。然后,將參照圖3 描述根據(jù)同一實施例的信息處理裝置100(學習裝置)的功能配置。在此,還將參照圖4至8描述學習數(shù)據(jù)的配置、N-gram分析方法、計算特征量函數(shù)的方法、計算估計函數(shù)的方法以及選擇有效特征量函數(shù)的方法等。然后,將參照圖9描述與同一實施例的自動算法構(gòu)造方法有關的處理的完整流程。然后,將參照圖10描述與同一實施例的N-gram分析方法有關的處理的流程。然后,將參照圖11至18描述與根據(jù)同一實施例的生成特征量函數(shù)的方法有關的處理的完整流程。 然后,將參照圖19描述與根據(jù)同一實施例的計算特征量函數(shù)的方法有關的處理的流程。然后,將參照圖20描述與根據(jù)同一實施例的計算估計函數(shù)的方法有關的處理的流程。然后,將參照圖21描述根據(jù)同一實施例的信息處理裝置200(估計裝置)的功能配置。然后,將參照圖22描述與根據(jù)同一實施例的估計屬性信息的方法有關的處理的流程。然后,將參照圖23描述能夠?qū)崿F(xiàn)根據(jù)同一實施例的信息處理裝置100和200的功能的硬件配置。最后,將總結(jié)同一實施例的技術構(gòu)思并且將簡要描述從技術構(gòu)思獲得的功能效果ο(描述項)1 實施例1-1 概況1-2 信息處理裝置100 (學習裝置)的功能配置1-3:自動算法構(gòu)造方法1-3-1 完整處理流程1-3-2 N-gram 分析1-3-3 特征量函數(shù)的生成1-3-4 特征量函數(shù)的計算1-3-5 估計函數(shù)的生成1-4 信息處理裝置200 (估計裝置)的功能配置1-5 估計屬性信息的方法1-6 硬件配置2 總結(jié)<1 實施例 >將描述本公開內(nèi)容的實施例。該實施例涉及一種自動算法構(gòu)造方法,該方法分析任意符號串,并且自動構(gòu)造能夠估計表示符號串的特征的屬性信息的分析算法。[1-1 概況]首先,將參照圖1簡要描述根據(jù)該實施例的自動算法構(gòu)造方法的概況。如上所述,根據(jù)該實施例的自動算法構(gòu)造方法是自動構(gòu)造能夠接收任意符號串 (例如,字符串、基因序列等)并且估計表示符號串的特征的屬性信息的分析算法的方法。 根據(jù)該方法,例如,如圖1所示,如果輸入字符串“非常好的歌曲! ”,則可以自動構(gòu)造輸出屬性信息“字符串是意見語句,,或“字符串是肯定的,,的分析算法。例如,該實施例的方法可以被應用于自動構(gòu)造接收郵件文本并且自動對郵件是垃圾郵件還是正常郵件進行分類的分析算法。該實施例的方法可以被應用于自動構(gòu)造接收郵件文本并且自動將郵件分類為針對各種使用應用而預先分類的文件夾的分析算法。另外, 該實施例的方法可以被應用于自動構(gòu)造接收寫到網(wǎng)絡的公告板上的文本并且自動辨別所寫的文本是客觀內(nèi)容還是主觀內(nèi)容的分析算法。另外,該實施例的方法可以被應用于自動構(gòu)造接收寫到網(wǎng)絡的公告板上的文本并且自動對所寫內(nèi)容是肯定的文字還是否定的文字進行分類的分析算法。此外,該實施例的方法可以被應用于自動構(gòu)造接收新聞文本并且自動辨別新聞被分類的類別(例如,政治、經(jīng)濟、藝術、技術、國際等)的分析算法。另外,該實施例的方法可以被應用于自動構(gòu)造接收任意文本并且自動辨別書寫文本的語言(例如,英語、日語、德語等)的分析算法。另外,該實施例的方法可以被應用于自動構(gòu)造接收與內(nèi)容有關的文本 (例如,諸如新聞或小說的文本內(nèi)容、音樂、視頻等的評論、或者介紹語句)并且自動提取內(nèi)容偏好的分析算法。另外,能夠由該實施例的方法自動構(gòu)造的分析算法可以將任何符號串設置為目標。例如,該實施例的方法可以被應用于自動構(gòu)造接收表情符號并且自動對表情符號所屬的類別(例如,笑、哭、生氣等)進行分類的分析算法。此外,該實施例的方法可以被應用于自動構(gòu)造如下分析算法其接收名字被轉(zhuǎn)換成羅馬字符的符號串,并且根據(jù)名字的音素的風格而自動對名字是日本的還是西方的、或者名字是新聲音還是古老聲音進行分類。另外,該實施例的方法可以被應用于自動構(gòu)造如下分析算法其接收表示音樂編碼進行的字符串或以MML描述的旋律的字符串,并且自動辨別該音樂心情(例如,明快、陰郁、平靜、興奮等)。上述MML代表“音樂宏語言”。另外,該實施例的方法可以被應用于自動構(gòu)造接收小說的文本并且自動辨別該小說所屬的類別(例如,現(xiàn)代、浪漫、歷史、幻想、恐怖等)的分析算法。另外,能夠由該實施例的方法自動構(gòu)造的分析算法不限于僅提取輸入符號串的現(xiàn)有特征。例如,該實施例的方法可以被應用于自動構(gòu)造接收經(jīng)濟新聞的文本并且估計經(jīng)濟前景(例如,股票價格的上漲/下跌等)的分析算法。另外,該實施例的方法可以被應用于自動構(gòu)造如下分析算法其接收廣播節(jié)目或電影的字幕數(shù)據(jù),自動估計廣播節(jié)目或電影的場景或基調(diào),并且將其估計結(jié)果作為元數(shù)據(jù)分配給廣播節(jié)目或電影。場景是例如新聞、體育、綜藝、CM等?;{(diào)是例如輕松、嚴肅、浪漫等。另外,該實施例的方法可以被應用于自動構(gòu)造接收博客等的書寫文本并且自動估計作者的年齡或性格(例如,陽光、陰郁、主動、被動等)的分析算法。此外,該實施例的方法可以被應用于自動構(gòu)造如下分析算法其接收描述疾病的主觀癥狀的文本,并且自動估計疾病名稱或顯示與估計結(jié)果對應的建議。另外,該實施例的方法可以被應用于自動構(gòu)造如下分析算法其接收應試者在進入考試期間提交的材料的文本,并且估計在應試者加入公司之后五年的個人評估。另外,該實施例的方法可以被應用于自動構(gòu)造如下分析算法其接收表示基因的基本序列的符號串,并且估計在未來可能出現(xiàn)的、具有該基因的人類或動物的疾病。該實施例的方法可以被應用于自動構(gòu)造如下分析算法其接收表示基因的基本序列的符號串,并且估計具有該基因的人類或動物的性格。如上所述,因為該實施例的方法可以被應用于任意符號串被設置為目標的分析算法,因此其應用范圍非常寬。順便提及,如圖2中所示地配置由該實施例的方法自動構(gòu)造的分析算法。如圖2 所示,如果輸入符號串X,則分析算法首先通過將輸入的符號串X輸入到特征量函數(shù)FEF來計算特征量,并且通過將特征量輸入到估計函數(shù)f來計算屬性信息y。特征量函數(shù)FEF和估計函數(shù)f是由該實施例的方法自動預先生成的。換言之,自動生成能夠準確估計屬性信息的一組特征量函數(shù)FEF和估計函數(shù)f的機制是根據(jù)該實施例的自動算法構(gòu)造方法。以上已描述了根據(jù)該實施例的自動算法構(gòu)造方法的概況。[1-2.信息處理裝置100 (學習裝置)的功能配置]接下來,將參照圖3描述根據(jù)該實施例的、能夠?qū)崿F(xiàn)自動算法構(gòu)造方法的信息處理裝置100(學習裝置)的功能配置。圖3是示出根據(jù)該實施例的信息處理裝置100的功能配置的說明圖。如圖3所示,信息處理裝置100具有數(shù)據(jù)輸入部101、N-gram分析部102、特征量函數(shù)生成部103、存儲部104、特征量計算部105、估計函數(shù)生成部106以及函數(shù)輸出部107。 估計函數(shù)生成部106包括機器學習部1061和有效特征量選擇部1062。首先,一組符號串和屬性信息被輸入到數(shù)據(jù)輸入部101作為學習數(shù)據(jù)。例如,如圖 4所示的一組符號串X和屬性信息t被輸入到數(shù)據(jù)輸入部101。在圖4的示例中,符號串X 是字符串并且屬性信息t是表示字符串是否是意見語句的指標。例如,字符串“我們應該更早完成它...”表示人的意見。因此,表示意見語句的值1被分配給該字符串作為屬性信息 t。另一方面,字符串“今天天氣很好?!辈槐硎救说囊庖姟R虼?,不表示意見語句的值0被分配給該字符串作為屬性信息t。如上所述,一組符號串和屬性信息被輸入到數(shù)據(jù)輸入部101。如果輸入了一組符號串和屬性信息,則數(shù)據(jù)輸入部101將輸入的符號串輸入到N-gram分析部102和特征量計算部105。另外,數(shù)據(jù)輸入部101將屬性信息輸入到包括在估計函數(shù)生成部106中的機器學習部1061。如果輸入了符號串,則N-gram分析部102從輸入的符號串提取N-gram(由N 個符號構(gòu)成的符號單位),并且如圖5所示檢測每個N-gram的出現(xiàn)頻率。由一個符號構(gòu)成的符號單位被稱為單gram,而由兩個符號構(gòu)成的符號單位被稱為雙gram。例如,如果輸入串“abcababcdedef ”,則N-gram分析部102通過組合單gram而提取{a,b,c,a, b,a, b,c,d,e,d,e,f}。另外,N-gram分析部102通過組合雙gram而提取 {ab, be, ca, ab, ba, ab, be, cd, de, ed, de, ef}。同樣地,N-gram 分析部 102 從輸入的字符串提取m-gram(m = 3至13)的組合。如果字符串的長度是L,則提取(L-m+Ι)個m-gram的組合。然后,N-gram分析部102按照符號索引(例如,字符碼)的順序?qū)μ崛〉膎-gram(n =1至13)的組合進行排序。例如,單gram的組合{a,b,c,a, b,a, b,c,d,e,d,e,f}被 N-gram 分析部 102 排序為{a,a, a, b,b,b,c,c,d,d,e,e,f}。另外,雙 gram 的組合{ab, be, ca, ab, ba, ab, be, cd, de, ed, de, ef}被 N-gram 分析部 102 排序為{ab, ab, ab, ba, be, be, ca, cd, de, de, ed, ef}。同樣地,對 m-gram(m = 3 至 13)的組合進行排序。然后,N-gram分析部102基于排序后的每個n-gram組合檢測每個n-gram的出現(xiàn)頻率,并且生成出現(xiàn)頻率信息。例如,N-gram分析部102根據(jù)排序后的單gram組合{a,a, a, b,b,b,c,c,d,d,e,e,f}生成出現(xiàn)頻率信息{a:3,b:3,c:2,d:2,e:2,f: 1}。出現(xiàn)頻率信息表示a出現(xiàn)三次,b出現(xiàn)三次,c出現(xiàn)兩次,d出現(xiàn)兩次,e出現(xiàn)兩次,并且f出現(xiàn)一次。 另外,N-gram分析部102根據(jù)排序后的雙gram的組合{ab,ab, ab, ba, be, be, ca, cd, de, de, ed, ef}生成出現(xiàn)頻率信息{ab:3,ba: 1,bc:2,ca: 1,cd: 1,de:2,ed: 1,ef 1}。同樣地, 還根據(jù)m-gram的組合生成出現(xiàn)頻率信息。
然后,N-gram分析部102將n-gram(n = 1至13)的出現(xiàn)頻率信息合并為一個并且按照出現(xiàn)頻率對出現(xiàn)頻率信息進行排序。例如,如果單gram出現(xiàn)頻率信息{a: 3,b 3,c 2, d:2, e:2, f: 1}和雙 gram 出現(xiàn)頻率信息{ab:3,ba:l, bc:2, ca: 1,cd:l, de:2, ed:l, ef:l} 是按照出現(xiàn)頻率的降序來合并和排序的,則獲得{a:3,b:3,ab:3,c:2,d:2,e:2,bc:2,de:2, f:l,ba:l,ca:l,cd:l,ed:l,ef:l}0如果該處理被應用于圖4中示出的符號串X,則如圖5 所示獲得表示每個n-gram出現(xiàn)頻率的出現(xiàn)頻率信息。如上所述,N-gram分析部102生成的出現(xiàn)頻率信息被輸入到特征量函數(shù)生成部 103。如上所述,來自數(shù)據(jù)輸入部101的符號串以及來自N-gram分析部102的出現(xiàn)頻率信息被輸入到特征量函數(shù)生成部103。如果輸入了符號串,則特征量函數(shù)生成部103通過組合已在存儲部104中準備好的基本函數(shù)來生成特征量函數(shù)FEF。基本函數(shù)是例如Cut、Find、 Mean、Variance、Median、Length、Variation、Apperance、Co-OccuranceΛ Pow 等。這里,補充了上述基本函數(shù)的示例的描述。上述基本函數(shù)Cut是接收符號串并且輸出符號串的函數(shù)。基本函數(shù)Cut被表示為 Cut (符號串X,開始位置S,長度L),并且是從指定符號串X的指定開始位置S提取具有指定長度L的符號串的函數(shù)。例如,如果符號串X是X = “ABCDABABCA”,則Cut (X,0. 2,0. 5) =“CDABA”。在該示例中,通過將符號串X的長度表示為1. 0,從對應于0. 2的位置提取具有長度為0.5的符號串。上述基本函數(shù)Find是接收符號串并且輸出向量的函數(shù)。基本函數(shù)Find被表示為 Find(符號串X,符號串X’),并且是檢測指定的符號串X’在指定的符號串X中出現(xiàn)的位置并且輸出表示該位置的向量的函數(shù)。例如,如果符號串X是X=“CDABA”,則Find(X,“A”) ={0. 4,0. 8}。在該示例中,通過將符號串X的長度表示為1. 0,在對應于0. 4的位置和對應于0. 8的位置檢測到符號串“A”。上述基本函數(shù)Mean、Variance以及Median是接收向量并且輸出標量的函數(shù)。基本函數(shù)Mean是計算輸入向量的所有元素的均值的函數(shù)。基本函數(shù)Variance是計算輸入向量的所有元素的方差的函數(shù)?;竞瘮?shù)Median是計算輸入向量的所有元素的中心值的函數(shù)。例如,如果向量 V= {0.4,0.8} JlJMean(V) =0.6。1 :^ Length、Variation^ Appearance UR Co—Occurrence
號串并且輸出標量的函數(shù)?;竞瘮?shù)Length是輸出輸入的符號串的長度的函數(shù)。基本函數(shù)Variation是對包括在輸入符號串中的符號的類型進行計數(shù)并且輸出類型數(shù)量的函數(shù)。基本函數(shù)Appearance被表示為Appearance (符號串X,符號串X’),并且是輸出指定符號串X中的指定符號串X’的出現(xiàn)次數(shù)的函數(shù)。此外,基本函數(shù)Co-Occurrence被表示為 Co-Occurrence (符號串X,符號串X1,符號串,并且是輸出符號串X中的符號串&和\ 的共同出現(xiàn)次數(shù)的函數(shù)。上述基本函數(shù)Pow是接收標量并且輸出標量的函數(shù)。基本函數(shù)Pow被表示為 Pow (數(shù)字q,數(shù)字η),并且是將指定數(shù)字q升高至第η次冪的函數(shù)。例如,如果數(shù)字q是q =0. 6,則 Pow (q,2) = 0. 36。如上所述,特征量函數(shù)生成部103可以使用各種基本函數(shù)用于生成特征量函數(shù) FEF。特征量函數(shù)生成部103組合如上所述的基本函數(shù)并且生成多個特征量函數(shù)FEF。首先,特征量函數(shù)生成部103隨機選擇可以輸入符號串的基本函數(shù)。如果存在要輸入到隨機選擇的基本函數(shù)的參數(shù),則特征量函數(shù)生成部103隨機決定要輸入的參數(shù)。此后,特征量函數(shù)生成部103檢查隨機選擇的基本函數(shù)的輸出是否是標量。特征量函數(shù)生成部103還檢查是否滿足了與基本函數(shù)選擇有關的終止條件。作為與基本函數(shù)選擇有關的終止條件,例如,考慮生成的隨機數(shù)等于或小于預定值的情況下終止選擇的條件。 如果隨機選擇的基本函數(shù)的輸出是標量并且滿足了與基本函數(shù)選擇有關的終止條件,則特征量函數(shù)生成部103終止基本函數(shù)選擇。另一方面,如果隨機選擇的基本函數(shù)的輸出不是標量,或者如果不滿足與基本函數(shù)選擇有關的終止條件,則特征量函數(shù)生成部103隨機選擇下一基本函數(shù)。此時,特征量函數(shù)生成部103從與之前選擇的基本函數(shù)的輸出類型(例如,符號串、標量、向量等)對應的基本函數(shù)當中隨機選擇基本函數(shù)。例如,如果之前選擇的基本函數(shù)的輸出是向量,則特征量函數(shù)生成部103從可以輸入向量的基本函數(shù)當中隨機選擇下一基本函數(shù)。如果存在要輸入到隨機選擇的基本函數(shù)的參數(shù),則特征量函數(shù)生成部103隨機決定要輸入的參數(shù)。此后,特征量函數(shù)生成部103檢查隨機選擇的下一基本函數(shù)的輸出是否是標量。 特征量函數(shù)生成部103還檢查是否滿足與基本函數(shù)選擇有關的終止條件。如果隨機選擇的下一基本函數(shù)的輸出是標量并且滿足了與基本函數(shù)選擇有關的終止條件,則特征量函數(shù)生成部103終止基本函數(shù)選擇。另一方面,如果隨機選擇的基本函數(shù)的輸出不是標量,或者如果不滿足與基本函數(shù)選擇有關的終止條件,則特征量函數(shù)生成部103隨機選擇下一基本函數(shù)。如上所述,特征量函數(shù)生成部103順序地選擇基本函數(shù)。如果最后選擇的基本函數(shù)的輸出是標量并且滿足了與基本函數(shù)選擇有關的終止條件,則特征量函數(shù)生成部103執(zhí)行的基本函數(shù)選擇終止。如果基本函數(shù)選擇終止,則特征量函數(shù)生成部103通過按照選擇順序組合所選擇的基本函數(shù)來生成特征量函數(shù)FEF。例如,如果已順序選擇了基本函數(shù)Cut、Find、Mean以及Pow,則特征量函數(shù)生成部 103 生成可以輸入符號串 X 的 FEF (X) = Pow (Mean (Find (Cut (X,0. 2,0. 5),“A”)),2)。例如, 如果符號串X = “ABCDABABCA,,被輸入到特征量函數(shù)FEF(X),則獲得Y = FEF(X) = 0. 36。 基本函數(shù)Cut的參數(shù)“0. 2”和“0. 5”、基本函數(shù)Find的參數(shù)“Α”以及基本函數(shù)Pow的參數(shù) “2”是特征量函數(shù)生成部103隨機選擇的參數(shù)。當決定了基本函數(shù)的符號串參數(shù)(例如,上述基本函數(shù)Find的參數(shù)“A”等)時, 特征量函數(shù)生成部103使用N-gram分析部102輸入的n-gram出現(xiàn)頻率信息。具體地,當特征量函數(shù)生成部103決定符號串參數(shù)時,基于N-gram分析部102輸入的出現(xiàn)頻率信息, 使用使得具有高出現(xiàn)頻率的n-gram的選擇概率變得較高的隨機數(shù)來決定符號串參數(shù)。特征量函數(shù)生成部103如上所述生成多個特征量函數(shù)FEF。特征量函數(shù)生成部103生成的多個特征量函數(shù)FEF被輸入到特征量計算部105和函數(shù)輸出部107。如果輸入了多個特征量函數(shù)FEF,則特征量計算部105接收針對每個輸入的特征量函數(shù)FEF的、數(shù)據(jù)輸入部101輸入的符號串,并且計算該符號串的特征量。例如,如果輸入了特征量函數(shù)FEF」(j = 1至N)和符號串X,則如圖6所示,特征量計算部105通過將符號串X輸入到特征量函數(shù)FEFj來計算特征量\ = FEFj(X)。例如,如果特征量函數(shù)FEFj (X) =Appearance (Cut (X,0.0,0.3),“00”)JlJx1 = FEF1 ( “我們應該更早完成它...”)=0。同樣地,如果特征量函數(shù)FEi^ (X) = Appearance (X,". ”),則xN = FEFn ( “今天天氣很好?!? =1。如上所述由特征量計算部105算出的特征量被輸入到估計函數(shù)生成部106。如果輸入了特征量,則估計函數(shù)生成部106通過機器學習部1061的機器學習功能,生成用于根據(jù)輸入特征量估計屬性信息的估計函數(shù)。例如,如圖7所示,與符號串X對應的屬性信息 t和特征量\ = FEFj (j = 1至N)被輸入到機器學習部1061。機器學習部1061通過機器學習生成用于在輸入了特征量向量χ = Ix1,...,%}的情況下輸出屬性信息t的估計函數(shù) f(x) = WtX0即,機器學習部1061通過機器學習計算t = WtX時的線性組合權重)。計算估計函數(shù)f(x)的方法不限于此,而是例如,可以使用在日本專利申請早期公開第2009-048266號中公開的方法。另外,可以使用能夠計算估計函數(shù)f (χ)的任何方法作為通過機器學習部1061計算估計函數(shù)f(x)的方法,該估計函數(shù)f(x)用于根據(jù)多維從屬變量(對應于特征量向量χ)估計目標變量(對應于屬性信息t)。此處,為了便于描述,假設使用計算上述線性組合權重w類型的方法。如上所述由機器學習部1061算出的估計函數(shù)f被輸入到有效特征量選擇部1062。 如果輸入了估計函數(shù)f,則有效特征量選擇部1062參考構(gòu)成輸入的估計函數(shù)f的線性組合權重w,并且從特征量X1至^當中選擇有效特征量。這里,有效特征量是有助于計算估計函數(shù)f時的計算結(jié)果的特征量。例如,如果線性組合權重W= {&,...%}的元素wk是0,則獲得相同的計算結(jié)果t = wTx而與特征量&的值無關。有效特征量選擇部1062檢測變?yōu)樾∮陬A定值的值或0的線性組合權重w的元素,并且選擇與除檢測到的元素之外的元素對應的特征量。有效特征量選擇部1062選擇的有效特征量的信息被報告給特征量函數(shù)生成部103,并且用于選擇特征量函數(shù)。例如,如圖8所示,如果特征量函數(shù)FEF^X)= Appearance (Cut (Χ,0. 0,0. 3), "00")算出的特征量&有助于估計函數(shù)f (χ)的計算結(jié)果,則特征量函數(shù)FEFk被選擇作為有效特征量函數(shù)。同樣地,如果特征量函數(shù)EFFq(X)= Pow (Median (Find (Cut (Χ,Ο. 1,0. 3),‘‘A”)),2)算出的特征量、無助于估計函數(shù)f (χ)的計算結(jié)果,則特征量函數(shù)FEFtl不被選擇作為有效特征量函數(shù)。 如果報告了有效特征量,則特征量函數(shù)生成部103基于所報告的內(nèi)容選擇有效特征量函數(shù),并且保持所選擇的特征量函數(shù)作為下一代特征量函數(shù)。此外,特征量函數(shù)生成部103使用所選擇的特征量函數(shù)(下文中稱為上一代特征量函數(shù))來生成下一代特征量函數(shù)。首先,特征量函數(shù)生成部103通過組合隨機選擇的基本函數(shù)來生成預定數(shù)量的特征量函數(shù)。此時,特征量函數(shù)生成部103根據(jù)需要隨機決定基本函數(shù)的參數(shù)。然后,特征量函數(shù)生成部103通過改變上一代特征量函數(shù)的部分(突變)來生成下一代特征量函數(shù)。例如,特征量函數(shù)生成部103將基本函數(shù)Cut添加到上一代特征量函數(shù) FEF⑴=Pow (Median (Find (X,“B”)),2),并且生成下一代特征量函數(shù)FEF⑴= Pow (Median (Find (Cut (Χ, 0· 1,0· 3),“B”)),2)(基本函數(shù)添加)。特征量函數(shù)生成部103通過針對上一代特征量函數(shù)FEF(X)= Pow (Median (Find (X,“B”)),2)將基本函數(shù)Median改變?yōu)榛竞瘮?shù)Variance,來生成下一代特征量函數(shù) FEF(X) = P0W(Variance(Find(X,“B”))d)(基本函數(shù)改變)。
特征量函數(shù)生成部103刪除包括在上一代特征量函數(shù)FEF(X)= Pow (Median (Find (X, "B" )),2)中的基本函數(shù)Pow,并且生成下一代特征量函數(shù)FEF (X)= Median (Find (X,“B”))(基本函數(shù)刪除)。特征量函數(shù)生成部103以預定概率隨機改變包括在上一代特征量函數(shù)FEF(X)= Pow (Median (Find (X, "B" )),2)中的基本函數(shù)Find的參數(shù),并且生成下一代特征量函數(shù) FEF(X) = PoW(Median(Find(X,“BL”)),2)(基本函數(shù)參數(shù)改變)。在改變符號串參數(shù)時, 可使用N-gram分析部102的分析結(jié)果。例如,可改變符號串參數(shù),以改變?yōu)榘ó斍胺柎畢?shù)的符號串的n-gram或包括符號串的部分的n-gram。特征量函數(shù)生成部103可被配置成通過組合上述“基本函數(shù)添加”、“基本函數(shù)改變”、“基本函數(shù)刪除”以及“基本函數(shù)參數(shù)改變”來生成下一代特征量函數(shù)FEF。然后,特征量函數(shù)生成部103通過交叉兩個上一代特征量函數(shù)來生成下一代特征量函數(shù)(交叉)。首先,特征量函數(shù)生成部103選擇兩個上一代特征量函數(shù)并且檢測具有共同輸出類型(符號串、向量或者標量)的部分。例如,考慮從上一代特征量函數(shù)選擇FEF1 (X)= Pow (Median (Find (Cut (X,0. 1,0. 3) ,"B")) ,2)和 FEF2 (X) = Variance (Find (X,‘‘Foo”)) 的情況。兩個特征量函數(shù)FEF1和FEF2共同包括輸出類型是向量的部分Find (...)。特征量函數(shù)生成部103通過交叉FindC..)的部分來生成下一代特征量函數(shù)FEF(X)= Pow (Median (Find (X,‘‘Foo”)),2)。如上所述,通過進化技術(選擇、隨機生成、突變或者交叉)生成的下一代特征量函數(shù)被輸入到特征量計算部105。如果輸入了下一代特征量函數(shù),則特征量計算部105通過將符號串輸入到輸入的下一代特征量函數(shù)來計算特征量。特征量計算部105算出的特征量被輸入到估計函數(shù)生成部106。如果輸入了使用下一代特征量函數(shù)算出的特征量,則估計函數(shù)生成部106通過機器學習部1061的功能來估計估計函數(shù)f,并且通過有效特征量選擇部 1062的功能選擇有效特征量。有效特征量選擇部1062選擇的有效特征量的信息被報告給特征量函數(shù)生成部103。如果報告了有效特征量的信息,則特征量函數(shù)生成部103基于所報告的有效特征量信息而選擇有效特征量函數(shù),并且保持所選擇的特征量函數(shù)作為下一代特征量函數(shù)。然后,特征量函數(shù)生成部103使用所選擇的特征量函數(shù)來生成下一代特征量函數(shù)。特征量函數(shù)生成部103生成的下一代特征量函數(shù)被輸入到特征量計算部105。如果輸入了下一代特征量函數(shù),則特征量計算部105通過將符號串輸入到輸入的下一代特征量函數(shù)來計算特征量。特征量計算部105算出的特征量被輸入到估計函數(shù)生成部106。如果特征量計算部105 輸入了特征量,則估計函數(shù)生成部106基于輸入的特征量而生成估計函數(shù)。如上所述,在信息處理裝置100中,針對特征量函數(shù)重復執(zhí)行世代更替,并且順序生成一組特征量函數(shù)和估計函數(shù)。執(zhí)行重復處理直到滿足預定終止條件(例如,用戶的終止操作的存在/不存在)為止。如果滿足了預定終止條件,則估計函數(shù)生成部106將當前代估計函數(shù)輸入到函數(shù)輸出部107。特征量函數(shù)生成部103將一組當前代特征量函數(shù)輸入到函數(shù)輸出部107。如果輸入了估計函數(shù)和一組特征量函數(shù),則函數(shù)輸出部107輸出所輸入的估計函數(shù)和該組特征量函數(shù)。以上描述了根據(jù)該實施例的信息處理裝置100的功能配置。如上所述,信息處理裝置100重復執(zhí)行諸如特征量函數(shù)生成、特征量計算、估計函數(shù)生成以及有效特征量選擇的處理。另外,信息處理裝置100通過特征量函數(shù)生成部103的功能,基于進化技術而執(zhí)行特征量函數(shù)的世代更替。如上所述,獲得了估計函數(shù)和一組特征量函數(shù),其可以通過基于進化技術重復地優(yōu)化特征量函數(shù),根據(jù)給定的符號串準確地計算屬性信息。即,自動構(gòu)造從符號串準確地估計屬性信息的算法。[1-3.自動算法構(gòu)造方法]接下來,將描述與該實施例的自動算法構(gòu)造方法有關的處理的流程。(1-3-1.完整處理流程)首先,將參照圖9描述與該實施例的自動算法構(gòu)造方法有關的處理的完整流程。 圖9是示出與該實施例的自動算法構(gòu)造方法有關的處理的完整流程的說明圖。如圖9所示,首先,將學習數(shù)據(jù)(符號串X和屬性信息t)輸入到信息處理裝置 100 (SlOl)。如果輸入了學習數(shù)據(jù),則信息處理裝置100通過N-gram分析部102的功能來對輸入的符號串X執(zhí)行N-gram分析610 。然后,信息處理裝置100通過特征量函數(shù)生成部103的功能生成多個特征量函數(shù)(S10;3)。然后,信息處理裝置100通過特征量計算部 105的功能,通過將符號串X輸入到各個特征量函數(shù)來計算特征量(S104)。然后,信息處理裝置100通過估計函數(shù)生成部106的功能,使用算出的特征量和屬性信息t來生成估計函數(shù)(S105)。然后,信息處理裝置100基于預定終止條件(例如,用戶的終止操作的存在/不存在)而確定是否終止學習處理(特征量函數(shù)和估計函數(shù)的更新處理)(S106)。如果學習處理終止,則信息處理裝置100將處理移動到步驟S107。另一方面,如果學習處理沒有終止, 則信息處理裝置100將處理返回到步驟S103。如果處理移動到步驟S107,則信息處理裝置 100通過函數(shù)輸出部107的功能輸出特征量函數(shù)和估計函數(shù)(S107)。以上描述了完整處理流程。在下文中,將更詳細地描述N-gram分析處理、特征量函數(shù)生成處理、特征量計算處理以及估計函數(shù)生成處理的處理流程。(1-3-2. N-gram 分析)首先,將參照圖10更詳細地描述N-gram分析處理的流程。圖10是示出N-gram 分析處理的流程的說明圖。N-gram分析處理主要由N-gram分析部102來執(zhí)行。如圖10所示,N-gram分析部102開始N-gram有關的處理循環(huán)(n = 1至N個循環(huán))(Slll)。如果開始了 N-gram有關的處理循環(huán),則N-gram分析部102首先設置η = 1, 并且從包括在學習數(shù)據(jù)中的符號串X提取所有一個符號的組合(S112)。例如,如果給定 "abcababcdedef"作為符號串X,則N-gram分析部102從符號串X提取所有單gram{a,b, c, a, b, a, b, c, d, e, d, e, f}。然后,N-gram分析部102按照符號索引(例如,字符碼)的順序?qū)μ崛〉膯蝕ram 進行排序(S113)。例如,如果一組提取的單gram是{a,b,c,a,b,a,b,c,d,e,d,e,f},則 N-gram 分析部 102 將該組單 gram 排序為{a,a,a,b,b,b,c,c,d,d,e,e,f}。然后,N-gram 分析部102基于一組排序后的單gram檢測每個單gram的出現(xiàn)頻率,并且生成表示出現(xiàn)頻率的n-gram信息(出現(xiàn)頻率信息)(S114)。例如,如果該組排序后的單gram是{a,a, a, b, b, b, c, c, d, d, e, e, f},則 N-gram 分析部 102 生成{a:3, b:3, c:2, d:2, e:2, f:l}作為單gram的出現(xiàn)頻率信息。
然后,N-gram分析部102將η遞增1 (Si 15),并且重新執(zhí)行步驟Sl 12至Sl 14的處理步驟。如果完成對于η = 1至N的步驟Sl 12至Sl 14的處理,則N-gram分析部102終止 N-gram有關的處理循環(huán)并且將處理移動到步驟Slie(SlM)。如果處理移動到步驟S116,則 N-gram分析部102將單gram到N-gram的出現(xiàn)頻率信息合并為一個,并且按照出現(xiàn)頻率的降序?qū)Τ霈F(xiàn)頻率信息進行排序(S116)。在步驟S116中排序的出現(xiàn)頻率信息被輸入到特征量函數(shù)生成部103,并且終止與N-gram分析有關的一系列處理。以上描述了 N-gram分析處理的流程。(1-3-3 特征量函數(shù)的生成)接下來,將參照圖11至18更詳細地描述與特征量函數(shù)生成有關的處理的流程。圖 11至18是示出與特征量函數(shù)生成有關的處理的更多細節(jié)的說明圖。由特征量函數(shù)生成部 103執(zhí)行與特征量函數(shù)生成有關的處理。首先,參照圖11。如圖11所示,特征量函數(shù)生成部103確定要生成的特征量函數(shù)是否是第二代或更后面的代(S121)。即,特征量函數(shù)生成部103確定是否生成用于學習數(shù)據(jù)的輸入的第一特征量函數(shù)。如果特征量函數(shù)不是第二代或更后面的代(如果生成了第一特征量函數(shù)),則特征量函數(shù)生成部103將處理移動到步驟S122。另一方面,如果特征量函數(shù)是第二代或更后面的代,則特征量函數(shù)生成部103將處理移動到步驟S123。如果處理移動到步驟S122,則特征量函數(shù)生成部103通過隨機組合基本函數(shù)來生成預定數(shù)量的特征量函數(shù)(在下文中稱為特征量函數(shù)列表)(S12》。另一方面,如果處理移動到步驟S123,則特征量函數(shù)生成部103使用進化技術來更新特征量函數(shù)列表(S123)。(步驟S122的細節(jié)特征量函數(shù)的隨機生成)這里,將參照圖12更詳細地描述步驟S122(參見圖11)的處理。如圖12所示,特征量函數(shù)生成部103首先開始與特征量函數(shù)列表有關的處理循環(huán)(M = 0至m個循環(huán))(S131)。在這點上,m是包括在特征量函數(shù)列表中的特征量函數(shù)的數(shù)量。如果開始了處理循環(huán),則特征量函數(shù)生成部103通過隨機組合基本函數(shù)來生成特征量函數(shù)(S132)。然后,特征量函數(shù)生成部103將隨機生成的特征量函數(shù)添加到特征量函數(shù)列表(S13!3)。然后,特征量函數(shù)生成部103將M遞增1(S134),并且重新執(zhí)行步驟S132和 S133的處理。在這點上,如果完成了對于M = m-1的步驟S132和S133的處理,則特征量函數(shù)生成部103終止與步驟S122有關的一系列處理。(步驟S132的細節(jié))接下來,將參照圖13更詳細地描述步驟S132(參見圖1 的處理。如圖13所示,特征量函數(shù)生成部103首先將當前數(shù)據(jù)類型(符號串、向量、標量等)設置為“符號串”(S141)。然后,特征量函數(shù)生成部103從多個已經(jīng)準備好的基本函數(shù)當中提取可以輸入被設置為當前數(shù)據(jù)類型的數(shù)據(jù)類型的基本函數(shù)(S14》。例如,如果當前數(shù)據(jù)類型是“符號串”,則提取基本函數(shù)Cut、Find等。然后,特征量函數(shù)生成部103從在步驟S142中提取的基本函數(shù)中隨機選擇一個基本函數(shù),并且將所選擇的基本函數(shù)添加到特征量函數(shù)(S143)。然后,特征量函數(shù)生成部103隨機決定基本函數(shù)的參數(shù)(S144)。然后,特征量函數(shù)生成部103將添加到特征量函數(shù)的基本函數(shù)的輸出類型設置為當前數(shù)據(jù)類型(S14Q。例如,如果被添加到特征量函數(shù)的基本函數(shù)是Find,則Find的輸出類型“向量”被設置為當前數(shù)據(jù)類型。然后,特征量函數(shù)生成部103確定當前數(shù)據(jù)類型是否是“標量”,以及是否達到了預定終止條件(S146)。例如,如下條件被認為是預定終止條件如果隨機決定數(shù)量的基本函數(shù)已被添加到特征量函數(shù)則終止,或者如果步驟S146中生成的隨機數(shù)等于或小于預定值則終止。如果當前數(shù)據(jù)類型不是“標量”或者尚未達到預定終止條件,則特征量函數(shù)生成部103重新將處理移動到步驟S142。另一方面,如果當前數(shù)據(jù)類型是“標量”并且達到了預定終止條件,則特征量函數(shù)生成部103終止與步驟S132有關的一系列處理。(步驟S123的細節(jié)通過進化技術進行的特征量函數(shù)生成)接下來,將參照圖14更詳細地描述步驟S123(參見圖11)的處理。如圖14所示,特征量函數(shù)生成部103首先決定交叉數(shù)mx、突變數(shù)mm以及隨機生成數(shù)mr(S151)。在這點上,如果上一代特征量函數(shù)當中的、保留在下一代中的特征量函數(shù)的數(shù)量是ms,貝丨J決定mx、mm以及mr使得滿足ms+mx+mm+mr = m。然后,特征量函數(shù)生成部103從上一代特征量函數(shù)中選擇要保留的ms個特征量函數(shù)(S15》。然后,特征量函數(shù)生成部103從在步驟S152選擇的特征量函數(shù)當中選擇兩個特征量函數(shù),并且通過交叉這兩個特征量函數(shù)來生成新的特征量函數(shù)(S15!3)。然后,特征量函數(shù)生成部103通過使得在步驟S152中選擇的特征量函數(shù)突變來生成新的特征量函數(shù)
(5154)。然后,特征量函數(shù)生成部103通過隨機組合基本函數(shù)來隨機生成新的特征量函數(shù)
(5155)。在下文中,將更詳細地描述選擇(S152)、交叉(S153)、突變(S154)以及隨機生成 (S155)的各個處理步驟。(步驟S152的細節(jié)選擇)首先,將參照圖15更詳細地描述步驟S152(參見圖14)的處理。如圖15所示,特征量函數(shù)生成部103從上一代特征量函數(shù)列表中選擇有效特征量函數(shù),并且將該有效特征量函數(shù)添加到下一代特征量函數(shù)列表(S161)。基于當生成上一代估計函數(shù)時獲得的有效特征量的信息來決定有效特征量函數(shù)。(步驟S153的細節(jié)交叉)接下來,將參照圖16更詳細地描述步驟S153(參見圖14)的處理。如圖16所示,首先,特征量函數(shù)生成部103開始與索引MX(MX = O至mx-1)有關的處理循環(huán)(S171)。然后,特征量函數(shù)生成部103從在步驟S152選擇的上一代特征量函數(shù)中隨機選擇一個特征量函數(shù)(S17》。在步驟S172中選擇的特征量函數(shù)被表示為(表達式
A)。然后,特征量函數(shù)生成部103從在步驟S152選擇的上一代特征量函數(shù)中選擇與(表達式A)不同的一個特征量函數(shù)(S17!3)。在步驟S173中選擇的特征量函數(shù)被表示為(表達式B)。然后,特征量函數(shù)生成部103通過重新組合(表達式A)和(表達式B)的一些元素來生成新的特征量函數(shù)(S174)。然后,特征量函數(shù)生成部103將在步驟S174中生成的新特征量函數(shù)添加到下一代特征量函數(shù)列表(S17Q。然后,特征量函數(shù)生成部103通過將索引MX遞增1而使處理返回到步驟S172 (S176)。在這點上,如果完成了對于索引MX = 0至 mx-1的步驟S172至S175的處理,則特征量函數(shù)生成部103終止與交叉有關的一系列處理。(步驟SlM的細節(jié)突變)
接下來,將參照圖17更詳細地描述步驟S154(參見圖14)的處理。如圖17所示,特征量函數(shù)生成部103首先開始與索引匪(MM = 0至mm-1)有關的處理循環(huán)(S181)。然后,特征量函數(shù)生成部103從在步驟S152選擇的上一代特征量函數(shù)中隨機選擇一個特征量函數(shù)(S18》。然后,特征量函數(shù)生成部103通過隨機改變在步驟S182 中選擇的特征量函數(shù)的一些元素來生成新的特征量函數(shù)(S18!3)。然后,特征量函數(shù)生成部 103將在步驟S183中生成的新的特征量函數(shù)添加到下一代特征量函數(shù)列表(S184)。然后, 特征量函數(shù)生成部103通過將索引MM遞增1而使得處理返回至步驟S182(S180。在這點上,如果完成了對于索引匪=0至mm-1的步驟S182至S184的處理,則特征量函數(shù)生成部 103終止與突變有關的一系列處理。(步驟S155的細節(jié)隨機生成)現(xiàn)在將參照圖18更詳細地描述步驟S155(參見圖14)的處理。如圖18所示,特征量函數(shù)生成部103首先開始與索引MR(MR = 0至mr-1)有關的處理循環(huán)(S191)。然后,特征量函數(shù)生成部103通過隨機組合基本函數(shù)來生成新的特征量函數(shù)(S192)。步驟S192的處理與圖13中示出的步驟S132的處理基本相同。然后, 特征量函數(shù)生成部103將在步驟S192中生成的新的特征量函數(shù)添加到下一代特征量函數(shù)列表(S19!3)。然后,特征量函數(shù)生成部103通過將索引MR遞增1而使得處理返回至步驟 S192(S194)。在這點上,如果完成了對于索引MR = 0至mr_l的步驟S192和S193的處理, 則特征量函數(shù)生成部103終止與隨機生成有關的一系列處理。以上描述了與特征量函數(shù)生成有關的處理流程。如上所述,第一代特征量函數(shù)列表是隨機生成的,而第二代或更后面代的特征量函數(shù)列表是通過進化技術生成的。(1-3-4 特征量函數(shù)的計算)接下來,將參照圖19更詳細地描述與特征量函數(shù)計算有關的處理的流程。圖19 是更詳細地示出與特征量函數(shù)計算有關的處理的流程的說明圖。與特征量函數(shù)計算有關的處理主要由特征量計算部105來執(zhí)行。如圖19所示,特征量計算部105首先開始與包括在學習數(shù)據(jù)中的符號串{Χω}有
關的處理循環(huán)(符號串循環(huán))(S201)。例如,如果q個符號串X(1).....Xw包括在學習數(shù)據(jù)
中,則特征量計算部105在索引i = 1至q的符號串循環(huán)內(nèi)執(zhí)行處理。然后,特征量計算部 105開始與包括在特征量函數(shù)列表中的特征量函數(shù){FEFj有關的處理循環(huán)(特征量函數(shù)循
環(huán))(S202)。例如,如果特征量函數(shù)FEF1.....FEFm包括在特征量函數(shù)列表中,則特征量計
算部105在索引j = 1至m的特征量函數(shù)循環(huán)內(nèi)執(zhí)行處理。然后,特征量計算部105計算符號串X(j)的特征量函數(shù)FEFj,并且計算特征量乂⑴ j = FEFj(Xw) (S203)。然后,特征量計算部105通過將索引j遞增1而重新執(zhí)行步驟S203 的處理(S204)。在這點上,在對于j = m執(zhí)行了步驟S203之后,特征量計算部105通過將索引j初始化為1而將處理移動到步驟S205。如果處理移動到步驟S205,則特征量計算部105將索引i遞增1,并且重新執(zhí)行步驟S202至S204的特征量函數(shù)循環(huán)620 。在這點上,如果對于索引i = 1至q完成了步驟S202至S204的處理,則特征量計算部105終止與特征量計算有關的一系列處理。以上描述了與特征量計算有關的處理的流程。(1-3-5 估計函數(shù)的生成)
接下來,將參照圖20更詳細地描述與估計函數(shù)生成有關的處理的流程。圖20是更詳細地示出與估計函數(shù)生成有關的處理的流程的說明圖。與估計函數(shù)生成有關的處理主要由估計函數(shù)生成部106來執(zhí)行。如圖20所示,估計函數(shù)生成部106通過機器學習部1061的功能,使用機器學習來生成用于從特征量估計屬性信息的估計函數(shù)f(S211)。然后,估計函數(shù)生成部106通過有效特征量選擇部1062的功能來選擇用于估計函數(shù)生成的一組特征量,并且將關于所選擇的特征量組的信息(有效特征量的信息)輸入到特征量函數(shù)生成部103 (S212)。如果輸入了有效特征量的信息,則特征量函數(shù)生成部103選擇與輸入的有效特征量組對應的一組特征量函數(shù),并且存儲其信息(S2U)。有效特征量選擇部1062可執(zhí)行與對應于有效特征量組的特征量函數(shù)的選擇和存儲有關的處理。以上描述了與估計函數(shù)生成有關的處理的流程。[1-4:信息處理裝置200(估計裝置)的功能配置]接下來,將參照圖21描述根據(jù)該實施例的信息處理裝置200(估計裝置)的功能配置。圖21是示出根據(jù)該實施例的信息處理裝置200(估計裝置)的功能配置的說明圖。 信息處理裝置200是如下估計裝置其使用上述信息處理裝置100生成的特征量函數(shù)和估計函數(shù),根據(jù)任意符號串估計表示符號串的特征的屬性信息。如圖21所示,信息處理裝置200主要由數(shù)據(jù)輸入部201、屬性估計部202以及存儲部203構(gòu)成。首先,符號串被輸入到數(shù)據(jù)輸入部201。這里,輸入的符號串是沒有被給定作為學習數(shù)據(jù)的任意符號串。輸入到數(shù)據(jù)輸入部201的符號串被輸入到屬性估計部202。如果輸入了符號串,則屬性估計部202獲取預先存儲在存儲部203中的特征量函數(shù)和估計函數(shù)。 然后,屬性估計部202通過將符號串輸入到所獲取的特征量函數(shù)來計算特征量。此外,屬性估計部202通過將算出的特征量輸入到估計函數(shù)來計算屬性信息,并且輸出算出的屬性信肩、ο以上描述了信息處理裝置200的功能配置。以上信息處理裝置100和200是分開表示的,但是它們也可集成在一起。[1-5 估計屬性信息的方法]接下來,將參照圖22描述與根據(jù)該實施例的估計屬性信息的方法有關的處理的流程。圖22是示出根據(jù)該實施例的估計屬性信息的方法的說明圖。根據(jù)該實施例的估計屬性信息的方法由信息處理裝置200的功能來實現(xiàn)。如圖22所示,首先,將符號串X輸入到信息處理裝置200(S221)。然后,信息處理裝置200通過屬性估計部202的功能,通過將輸入的符號串X輸入到特征量函數(shù)FEF來計算特征量x(S22》。然后,信息處理裝置200通過屬性估計部202的功能,通過將算出的特征量χ輸入到估計函數(shù)f來計算屬性信息y = f (χ) (S223)。然后,信息處理裝置200輸出算出的屬性信息y(S224)。以上描述了與根據(jù)該實施例的估計屬性信息的方法有關的處理的流程。[1-6:硬件配置]以上描述的信息處理裝置100和200的每個結(jié)構(gòu)元件的功能可以通過使用例如圖 23中示出的硬件配置來實現(xiàn)。即,每個結(jié)構(gòu)元件的功能可以通過使用計算機程序控制圖23中示出的硬件來實現(xiàn)。另外,該硬件的模式是任意的,并且可以是個人計算機、諸如移動電話、PHS或PDA的移動信息終端、游戲機或者各種類型的信息設施。另外,PHS是個人手持電話系統(tǒng)的縮寫。另外,PDA是個人數(shù)字助理的縮寫。如圖23所示,該硬件主要包括CPU 902、ROM 904、RAM 906、主機總線908以及橋 910。此外,該硬件包括外部總線912、接口 914、輸入單元916、輸出單元918、存儲單元920、 驅(qū)動器922、連接端口擬4以及通信單元926。另外,CPU是中央處理單元的縮寫。另外,ROM 是只讀存儲器的縮寫。此外,RAM是隨機存取存儲器的縮寫。CPU 902用作例如算術處理單元或控制單元,并且基于記錄在ROM 904、RAM 906、 存儲單元920或者可拆卸記錄介質(zhì)擬8上的各種程序,控制每個結(jié)構(gòu)元件的完整操作或操作的一部分。ROM 904是用于存儲例如要加載到CPU 902上的程序或者在算術運算中使用的數(shù)據(jù)等的裝置。RAM 906暫時或永久存儲例如要加載到CPU 902上的程序或者在執(zhí)行程序時任意改變的各種參數(shù)等。這些結(jié)構(gòu)元件通過例如能夠執(zhí)行高速數(shù)據(jù)傳輸?shù)闹鳈C總線908而彼此連接。例如,一方面,主機總線908通過橋910連接到數(shù)據(jù)傳輸速度相對低的外部總線912。此外,輸入單元916是例如鼠標、鍵盤、觸摸板、按鈕、開關或者搖桿。另外,輸入單元916可以是遠程控制裝置,該遠程控制裝置可以通過使用紅外線或其它無線電波來傳輸控制信號。輸出單元918是例如諸如CRT、IXD、PDP或ELD的顯示裝置、諸如揚聲器或耳機的音頻輸出裝置、打印機、移動電話或者傳真機,它們可以在視覺上或聽覺上向用戶通知獲取的信息。另外,CRT是陰極射線管的縮寫。IXD是液晶顯示器的縮寫。PDP是等離子顯示面板的縮寫。另外,ELD是電致發(fā)光顯示器的縮寫。存儲單元920是用于存儲各種數(shù)據(jù)的裝置。存儲單元920是例如諸如硬盤驅(qū)動器 (HDD)的磁存儲裝置、半導體存儲裝置、光存儲裝置或者磁光存儲裝置。HDD是硬盤驅(qū)動器的縮寫。驅(qū)動器922是讀取記錄在可拆卸記錄介質(zhì)928(諸如磁盤、光盤、磁光盤或者半導體存儲器)上的信息或?qū)⑿畔懭肟刹鹦队涗浗橘|(zhì)擬8中的裝置??刹鹦队涗浗橘|(zhì)擬8是例如DVD介質(zhì)、藍光介質(zhì)、HD-DVD介質(zhì)、各種類型的半導體存儲介質(zhì)等。當然,可拆卸記錄介質(zhì)擬8可以是例如安裝有非接觸式IC芯片的IC卡或電子裝置。IC是集成電路的縮寫。連接端口擬4是諸如USB端口、IEEE 1394端口、SCSI、RS-232C端口的端口或者用于連接外部連接的裝置930(諸如光音頻終端)的端口。外部連接的裝置930是例如打印機、移動音樂播放器、數(shù)字攝像裝置、數(shù)字攝像機或者IC記錄器。另外,USB是通用串行總線的縮寫。另外,SCSI是小型計算機系統(tǒng)接口的縮寫。通信單元擬6是要連接到網(wǎng)絡932的通信裝置,并且是例如用于有線或無線LAN、 藍牙(注冊商標)或者WUSB的通信卡、光通信路由器、ADSL路由器或者各種通信調(diào)制解調(diào)器。連接到通信單元926的網(wǎng)絡932由有線連接的或無線連接的網(wǎng)絡來配置,并且是例如因特網(wǎng)、家用LAN、紅外通信、可見光通信、廣播或者衛(wèi)星通信。另外,LAN是局域網(wǎng)的縮寫。 另外,WUSB是無線USB的縮寫。此外,ADSL是非對稱數(shù)字訂戶線路的縮寫。<2:總結(jié)〉最后,將簡要地總結(jié)根據(jù)本公開內(nèi)容的實施例的技術內(nèi)容。這里,所述的技術內(nèi)容可以被應用于各種信息處理裝置,例如,諸如PC、移動電話、移動游戲機、移動信息終端、信息設施以及汽車導航系統(tǒng)。上述信息處理裝置的功能配置可以被表示為如下。信息處理裝置具有如下輸入部、特征量函數(shù)生成部、特征量計算部、估計函數(shù)生成部以及輸出部。上述輸入部是用于輸入多個符號串以及期望從每個符號串提取的屬性信息的輸入裝置。屬性信息是表示各個符號串的特征的信息。上述特征量函數(shù)生成部是用于從預定函數(shù)組中選擇多個函數(shù)并且通過組合多個函數(shù)而生成用于根據(jù)符號串輸出特征量的多個特征量函數(shù)的裝置,該預定函數(shù)組包括用于將符號串轉(zhuǎn)換為數(shù)值的函數(shù)。上述特征量計算部是用于將輸入部輸入的每個符號串輸入到特征量函數(shù)生成部生成的每個特征量函數(shù)并且計算對應于每個符號串的特征量的裝置。上述估計函數(shù)生成部是如下裝置其用于使用輸入部輸入的與每個符號串對應的屬性信息和特征量計算部算出的與每個符號串對應的特征量來執(zhí)行機器學習,并且生成用于根據(jù)特征量估計屬性信息的估計函數(shù)。上述輸出部是用于輸出特征量函數(shù)生成部生成的特征量函數(shù)和估計函數(shù)生成部生成的估計函數(shù)的裝置。如上所述,根據(jù)該實施例的信息處理裝置生成用于將符號串轉(zhuǎn)換為特征量的特征量函數(shù)和用于根據(jù)特征量估計屬性信息的估計函數(shù)。此時,用于根據(jù)符號串估計屬性信息的估計函數(shù)不是通過機器學習獲得的,但是用于將符號串轉(zhuǎn)換為特征量并且根據(jù)特征量估計屬性信息的估計函數(shù)是通過機器學習獲得的。如上所述,包括從符號串獲得特征量的處理,以使得可以獲得能夠根據(jù)任意符號串估計屬性信息的估計函數(shù)??梢蕴岣吖烙嫼瘮?shù)的估計準確性。(參考)上述數(shù)據(jù)輸入部101是輸入部的示例。上述特征量函數(shù)生成部103是世代更替部的示例。本領域的技術人員應理解,在所附權利要求或其等同物的范圍內(nèi),取決于設計要求和其它因素,可進行各種修改、組合、子組合和變更。本公開內(nèi)容包含與2010年7月14日向日本專利局提交的日本優(yōu)先權專利申請JP 2010-159598中公開的主題內(nèi)容有關的主題內(nèi)容。
權利要求
1.一種信息處理裝置,包括輸入部,用于輸入多個符號串以及期望從每個符號串提取的屬性信息; 特征量函數(shù)生成部,用于從預定函數(shù)組選擇多個函數(shù),并且通過組合所述多個函數(shù)生成用于根據(jù)所述符號串輸出特征量的多個特征量函數(shù),所述預定函數(shù)組包括用于將符號串轉(zhuǎn)換為數(shù)值的函數(shù);特征量計算部,用于將所述輸入部輸入的每個符號串輸入到所述特征量函數(shù)生成部生成的每個特征量函數(shù),并且計算對應于每個符號串的特征量;估計函數(shù)生成部,用于使用所述輸入部輸入的、與每個符號串對應的屬性信息和所述特征量計算部算出的、與每個符號串對應的特征量來執(zhí)行機器學習,并且生成用于根據(jù)所述特征量估計所述屬性信息的估計函數(shù);以及輸出部,用于輸出所述特征量函數(shù)生成部生成的特征量函數(shù)和所述估計函數(shù)生成部生成的估計函數(shù)。
2.根據(jù)權利要求1所述的信息處理裝置,其中,所述符號串是字符串。
3.根據(jù)權利要求2所述的信息處理裝置,其中,所述估計函數(shù)生成部包括 有效特征量選擇部,用于選擇對于估計所述屬性信息有效的特征量;以及機器學習部,用于使用所述有效特征量選擇部選擇的有效特征量和與所述有效特征量對應的屬性信息來執(zhí)行機器學習,并且生成用于根據(jù)所述有效特征量估計所述屬性信息的估計函數(shù)。
4.根據(jù)權利要求3所述的信息處理裝置,還包括世代更替部,用于通過假設所述特征量函數(shù)為個體并且執(zhí)行個體選擇、個體間交叉以及個體突變,生成下一代特征量函數(shù);其中,如果所述世代更替部生成了所述下一代特征量函數(shù),則所述特征量計算部使用所述下一代特征量函數(shù)來計算特征量,并且所述估計函數(shù)生成部使用所述特征量計算部使用所述下一代特征量函數(shù)算出的特征量來生成估計函數(shù),并且所述世代更替部生成所述下一代特征量函數(shù)、所述特征量計算部計算所述特征量以及所述估計函數(shù)生成部生成所述估計函數(shù)是重復地執(zhí)行的。
5.根據(jù)權利要求4所述的信息處理裝置,還包括N-gram分析部,用于對所述輸入部輸入的符號串執(zhí)行N-gram分析,并且測量N-gram出現(xiàn)在所述符號串中的出現(xiàn)頻率,其中,所述特征量函數(shù)生成部使用通過所述N-gram分析部的分析獲得的N-gram和所述N-gram出現(xiàn)頻率,生成所述特征量函數(shù)。
6.一種信息處理方法,包括輸入多個符號串以及期望從每個符號串提取的屬性信息;從包括用于將符號串轉(zhuǎn)換為數(shù)值的函數(shù)的預定函數(shù)組選擇多個函數(shù),并且通過組合所述多個函數(shù)生成用于根據(jù)所述符號串輸出特征量的多個特征量函數(shù);將每個符號串輸入到每個特征量函數(shù),并且計算對應于每個符號串的特征量; 使用與每個符號串對應的屬性信息和與每個符號串對應的特征量來執(zhí)行機器學習,并且生成用于根據(jù)所述特征量估計所述屬性信息的估計函數(shù);以及輸出所述特征量函數(shù)和所述估計函數(shù)。
7. 一種用于使計算機實現(xiàn)以下功能的程序 輸入功能,輸入多個符號串以及期望從每個符號串提取的屬性信息; 特征量函數(shù)生成功能,從預定函數(shù)組選擇多個函數(shù),并且通過組合所述多個函數(shù)生成用于根據(jù)所述符號串輸出特征量的多個特征量函數(shù),所述預定函數(shù)組包括用于將符號串轉(zhuǎn)換為數(shù)值的函數(shù);特征量計算功能,將通過所述輸入功能輸入的每個符號串輸入到通過所述特征量函數(shù)生成功能生成的每個特征量函數(shù),并且計算對應于每個符號串的特征量;估計函數(shù)生成功能,使用通過所述輸入功能輸入的、與每個符號串對應的屬性信息和通過所述特征量計算功能算出的、與每個符號串對應的特征量來執(zhí)行機器學習,并且生成用于根據(jù)所述特征量估計所述屬性信息的估計函數(shù);以及輸出功能,輸出通過所述特征量函數(shù)生成功能生成的特征量函數(shù)和通過所述估計函數(shù)生成功能生成的估計函數(shù)。
全文摘要
本發(fā)明公開了一種信息處理裝置、信息處理方法以及程序,該方法包括輸入多個符號串以及期望從每個符號串提取的屬性信息;從包括用于將符號串轉(zhuǎn)換為數(shù)值的函數(shù)的預定函數(shù)組選擇多個函數(shù),并且通過組合多個函數(shù)生成用于根據(jù)符號串輸出特征量的多個特征量函數(shù);將每個符號串輸入到每個特征量函數(shù),并且計算對應于每個符號串的特征量;使用與每個符號串對應的屬性信息和與每個符號串對應的特征量來執(zhí)行機器學習,并且生成用于根據(jù)特征量估計屬性信息的估計函數(shù);以及輸出特征量函數(shù)和估計函數(shù)。
文檔編號G06F17/27GK102339278SQ20111019526
公開日2012年2月1日 申請日期2011年7月7日 優(yōu)先權日2010年7月14日
發(fā)明者小林由幸 申請人:索尼公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1