專利名稱:關(guān)鍵字的自動(dòng)提取裝置和方法、記錄介質(zhì)以及計(jì)算機(jī)程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用來(lái)從EPG(Electronic Program Guide電子節(jié)目指南)信息一類的內(nèi)容的標(biāo)題字符串信息和詳細(xì)字符串信息之中自動(dòng)提取關(guān)鍵字的裝置和方法、記錄介質(zhì)以及計(jì)算機(jī)程序。
背景技術(shù):
近年來(lái),在正式運(yùn)營(yíng)的數(shù)字化電視廣播中,電視臺(tái)在發(fā)送節(jié)目的影像·聲音數(shù)據(jù)的同時(shí),也發(fā)送EPG信息,其中包含著表示節(jié)目標(biāo)題的信息(標(biāo)題字符串信息)、說(shuō)明節(jié)目的詳細(xì)情況的信息(詳細(xì)字符串信息)、表示節(jié)目類型的信息等。接收數(shù)字化廣播的電視機(jī)能夠根據(jù)該EPG信息在畫面上顯示出電子節(jié)目指南。
另外,有的模擬式電視廣播中也發(fā)送這種EPG信息。
用戶在檢索想要看的節(jié)目時(shí),利用該電子節(jié)目指南,在選擇粗略的類型(例如體育、電視劇等)后,可以檢索標(biāo)題,或者閱讀檢索詳細(xì)字符串信息。
但是,由于節(jié)目標(biāo)題的命名方法千差萬(wàn)別,標(biāo)題的檢索對(duì)于用戶來(lái)說(shuō)未必是件容易的事情。另外,節(jié)目的詳細(xì)字符串信息是以文章形式記述的,有不少是長(zhǎng)達(dá)幾頁(yè),所以,檢索詳細(xì)字符串信息對(duì)于用戶來(lái)說(shuō)也很麻煩。
對(duì)此,如果能利用例如演藝人員的名字等關(guān)鍵字進(jìn)行節(jié)目檢索,對(duì)于用戶來(lái)說(shuō),檢索就會(huì)變得非常容易。然而,目前電視臺(tái)所發(fā)送的EPG信息中沒(méi)有包含獨(dú)立的關(guān)鍵字。因此,為了能夠利用關(guān)鍵字進(jìn)行檢索,就需要從EPG信息之中提取關(guān)鍵字。
以往,這種關(guān)鍵字提取方法是,用戶通過(guò)光標(biāo)等方式,從電視接收機(jī)顯示出來(lái)的電子節(jié)目指南的詳細(xì)字符串信息的文章中,指定想要用作關(guān)鍵字的字符串的開頭和末尾的詞語(yǔ)。
但是,這種現(xiàn)有的提取方法中,用戶必須親自執(zhí)行指定關(guān)鍵字的操作,因此,既繁雜,又難以在短時(shí)間內(nèi)提取多個(gè)關(guān)鍵字。
另一方面,一般的關(guān)鍵字自動(dòng)提取方法公知有所謂的日語(yǔ)形態(tài)元素解析法(日本語(yǔ)形態(tài)要素解析)。但是,該方法中的計(jì)算機(jī)程序和所使用的詞典非常龐大,并且給CPU施加了很大的負(fù)載。因此,像電視接收機(jī)這樣的CPU的處理能力和存儲(chǔ)器容量都不太大的家電產(chǎn)品中,使用這種方法是非常低效的。
進(jìn)一步,一般的關(guān)鍵字自動(dòng)提取方法公知還有所謂的字符種類分隔法(字種切リ法)。這種方法是通過(guò)檢測(cè)漢字、片假名、平假名、字母、數(shù)字等字符種類的不同來(lái)提取關(guān)鍵字。但是,僅憑借這種字符種類分隔法,無(wú)法精確地提取出節(jié)目檢索所需的關(guān)鍵字。即,對(duì)于姓是漢字而名是平假名或片假名的演藝人員名字(例如,“石田あかリ”這樣的名字),由于姓和名被分割,因而無(wú)法提取。另外,對(duì)于名以字母表示而姓以片假名表示的外國(guó)人名或姓名中間插入“·”(中點(diǎn))的外國(guó)人名(例如,“B·ドゥ-リ-”這樣的名字),由于姓和名被分隔開,也無(wú)法提取。
發(fā)明內(nèi)容
本發(fā)明借鑒了上述的問(wèn)題點(diǎn),致力于以下課題在CPU的處理能力和存儲(chǔ)器容量都不太大的家電產(chǎn)品中,也能夠從EPG信息一類的內(nèi)容的標(biāo)題字符串信息和詳細(xì)字符串信息之中高效而精確地自動(dòng)提取用戶檢索內(nèi)容所需的關(guān)鍵字。
為了解決該課題,本申請(qǐng)人提出一種關(guān)鍵字自動(dòng)提取裝置,其具備第1提取單元,使用登錄有用來(lái)表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標(biāo)題字符串信息之中提取關(guān)鍵字;第2提取單元,從該內(nèi)容的詳細(xì)字符串信息之中,進(jìn)行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
在該關(guān)鍵字自動(dòng)提取裝置中,使用登錄有用來(lái)表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標(biāo)題字符串信息(例如電視廣播中的EPG信息的標(biāo)題字符串信息)之中提取關(guān)鍵字。
另外,從內(nèi)容的詳細(xì)字符串信息(例如電視廣播的EPG信息中的詳細(xì)字符串信息)之中,使用登錄有人名的第2關(guān)鍵字詞典提取關(guān)鍵字,也利用字符種類分隔法提取關(guān)鍵字。此時(shí),只要是第2關(guān)鍵字詞典中所登錄的人名,姓是漢字而名是平假名或片假名的人名也被作為關(guān)鍵字提取出來(lái)。另外,對(duì)于第2關(guān)鍵字詞典中未登錄的人名,也可以利用字符種類分隔法,將其作為關(guān)鍵字提取出來(lái)。
這樣,從標(biāo)題字符串信息之中提取關(guān)鍵字和從詳細(xì)字符串信息之中提取關(guān)鍵字,是根據(jù)其信息分別使用相互不同的關(guān)鍵字詞典和規(guī)則(是否使用字符種類分隔法等)實(shí)現(xiàn)的,由此,能夠憑借小規(guī)模的計(jì)算機(jī)程序或詞典而精確地提取關(guān)鍵字。
由此,在CPU的處理能力和存儲(chǔ)器容量都不太大的家電產(chǎn)品中,也能夠從EPG信息一類的內(nèi)容的標(biāo)題字符串信息和詳細(xì)字符串信息之中高效而精確地自動(dòng)提取用戶檢索內(nèi)容所需的關(guān)鍵字。
此外,在該關(guān)鍵字自動(dòng)提取裝置中,作為一個(gè)實(shí)例,第1提取單元適合于從包含有第1關(guān)鍵字詞典中登錄的字符串的標(biāo)題字符串之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,提取關(guān)鍵字。
由此,能夠防止包含在標(biāo)題中的字符串之中,不適合用于(過(guò)于一般情況的)內(nèi)容檢索的字符串被包含到關(guān)鍵字中。因此,用戶使用所提取的關(guān)鍵字能夠更高效地檢索內(nèi)容。
進(jìn)而,在該關(guān)鍵字自動(dòng)提取裝置中,作為一個(gè)實(shí)例,第1提取單元適合于將包含有第1關(guān)鍵字詞典中登錄的字符串的標(biāo)題字符串之中的、以平假名、片假名、漢字、數(shù)字、字母之外的特殊字符分隔的字符串作為關(guān)鍵字提取出來(lái)。
由此,對(duì)于未被這種特殊字符分隔的標(biāo)題,該標(biāo)題所含的多個(gè)字符串不會(huì)被提取作為分隔開的關(guān)鍵字,而是該標(biāo)題本身依其原樣被提取作關(guān)鍵字。
對(duì)于未被這種特殊字符分隔的標(biāo)題,該標(biāo)題所含的各個(gè)字符串意義過(guò)于寬泛,用作內(nèi)容檢索的關(guān)鍵字幾乎不起作用(檢索結(jié)果會(huì)非常多),通常是只有使用標(biāo)題本身,才能構(gòu)成高效有用的檢索關(guān)鍵字。因此,用戶使用所提取的關(guān)鍵字(標(biāo)題本身)能夠更高效地檢索內(nèi)容。
另外,另一方面,對(duì)于以特殊字符分隔的標(biāo)題,特殊字符分隔的各個(gè)字符串會(huì)分別作為關(guān)鍵字而提取。
對(duì)于以特殊字符(例如空格或“×”等)分隔的標(biāo)題,以該特殊字符分隔的各個(gè)字符串分別發(fā)揮內(nèi)容檢索關(guān)鍵字作用,標(biāo)題本身對(duì)于檢索結(jié)果限制過(guò)大,通常起不到內(nèi)容檢索關(guān)鍵字的作用(檢索結(jié)果會(huì)為非常少,甚至為空)。因此,用戶使用所提取的關(guān)鍵字(以特殊字符分隔的各個(gè)字符串)還是能夠更高效地檢索內(nèi)容。
進(jìn)而,該關(guān)鍵字自動(dòng)提取裝置中,作為一個(gè)實(shí)例,第2提取單元適合于利用字符種類分隔法,從使用第2關(guān)鍵字詞典提取關(guān)鍵字后的詳細(xì)字符串信息的剩余部分之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,提取關(guān)鍵字。
由此,能夠防止包含在詳細(xì)字符串信息中的字符串之中的、不適合用于內(nèi)容檢索的字符串被包含到關(guān)鍵字中。因此,用戶使用所提取的關(guān)鍵字能夠更高效地檢索內(nèi)容。
進(jìn)而,在該關(guān)鍵字自動(dòng)提取裝置中,作為一個(gè)實(shí)例,第2提取單元適合于利用字符種類分隔法,將片假名和字母作為相同字符種類處理,同時(shí),當(dāng)緊挨著“·”(中點(diǎn))前面的字符是片假名或字母時(shí),就將“·”(中點(diǎn))分別當(dāng)作片假名或字母處理。
由此,名以字母表示而姓以片假名表示的外國(guó)人名或姓名中間插入“·”(中點(diǎn))的外國(guó)人名,也可以被當(dāng)作關(guān)鍵字提取出來(lái)。
進(jìn)而,該關(guān)鍵字自動(dòng)提取裝置中,還具備通過(guò)網(wǎng)絡(luò)下載第2關(guān)鍵字詞典的裝置,第2提取單元適合使用該下載的第2關(guān)鍵字詞典。
由此,能夠使用最新的詞典(收錄了最新剛剛走紅的人的名稱)作為第2關(guān)鍵字詞典,來(lái)提取關(guān)鍵字。
其次,本申請(qǐng)人提出一種關(guān)鍵字自動(dòng)提取方法,其具有第1步驟,使用登錄有用來(lái)表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標(biāo)題字符串信息之中提取關(guān)鍵字;第2步驟,從該內(nèi)容的詳細(xì)字符串信息之中,進(jìn)行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
另外,提出了一種記錄介質(zhì),其中記錄計(jì)算機(jī)可讀取的計(jì)算機(jī)程序,該計(jì)算機(jī)程序是一種關(guān)鍵字自動(dòng)提取裝置的計(jì)算機(jī)程序,其包含第1提取步驟,使用登錄有用來(lái)表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標(biāo)題字符串信息之中提取關(guān)鍵字;第2提取步驟,從該內(nèi)容的詳細(xì)字符串信息之中,進(jìn)行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
另外,提出了一種計(jì)算機(jī)程序,在控制關(guān)鍵字自動(dòng)提取裝置的計(jì)算機(jī)中執(zhí)行第1提取步驟,使用登錄有用來(lái)表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標(biāo)題字符串信息之中提取關(guān)鍵字;第2提取步驟,從該內(nèi)容的詳細(xì)字符串信息之中,進(jìn)行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
利用該關(guān)鍵字自動(dòng)提取方法、記錄介質(zhì)、計(jì)算機(jī)程序,與上述的本發(fā)明的關(guān)鍵字自動(dòng)提取裝置的說(shuō)明完全相同,在CPU的處理能力和存儲(chǔ)器容量都不太大的家電產(chǎn)品中,也能夠從EPG信息一類的內(nèi)容的標(biāo)題字符串信息和詳細(xì)字符串信息之中高效而精確地自動(dòng)提取用戶檢索內(nèi)容所需的關(guān)鍵字。
圖1是表示包含應(yīng)用了本發(fā)明的節(jié)目記錄再現(xiàn)裝置的數(shù)字電視廣播接收系統(tǒng)的概要圖。
圖2是表示圖1的節(jié)目記錄再現(xiàn)裝置的硬件結(jié)構(gòu)的框圖。
圖3是表示圖2的CPU執(zhí)行的關(guān)鍵字自動(dòng)提取處理的流程圖。
圖4是表示圖2的CPU執(zhí)行的關(guān)鍵字自動(dòng)提取處理的流程圖。
圖5是表示圖3的處理中的關(guān)鍵字提取所用的規(guī)則的附圖。
圖6是表示圖4的處理中的關(guān)鍵字提取所用的規(guī)則的附圖。
圖7是表示應(yīng)用了本發(fā)明的模擬電視廣播所使用的節(jié)目記錄再現(xiàn)裝置的硬件結(jié)構(gòu)的框圖。
具體實(shí)施例方式
下面利用
應(yīng)用了本發(fā)明的記錄·再現(xiàn)數(shù)字電視廣播節(jié)目的裝置的實(shí)例。
圖1是表示包含應(yīng)用了本發(fā)明的節(jié)目記錄再現(xiàn)裝置的數(shù)字電視廣播接收系統(tǒng)的概要圖。電視臺(tái)發(fā)送的數(shù)字廣播信號(hào)通過(guò)天線1接收后,輸入到節(jié)目記錄再現(xiàn)裝置2。節(jié)目記錄再現(xiàn)裝置2連接到包含顯示器和揚(yáng)聲器的顯示裝置3,并與因特網(wǎng)4連接。
圖2是表示節(jié)目記錄再現(xiàn)裝置2的硬件結(jié)構(gòu)的框圖。在該節(jié)目記錄再現(xiàn)裝置2中依次連接調(diào)諧器11、解調(diào)器12、解擾器(descrambler)13、多路分離器14,同時(shí),針對(duì)多路分離器14,分別依次連接影像解碼器15、影像信號(hào)處理電路17、聲音解碼器16、D/A轉(zhuǎn)換器18。
另外,調(diào)諧器11~D/A轉(zhuǎn)換器18、CPU19、ROM20、主存儲(chǔ)器(RAM)21、閃存22、遙控器用接口23、HDD(硬盤驅(qū)動(dòng)器)用接口24、因特網(wǎng)連接用的通信接口25通過(guò)系統(tǒng)總線26相互聯(lián)結(jié)。接口24上連接用于電視節(jié)目錄像的HDD(硬盤驅(qū)動(dòng)器)27。
該節(jié)目記錄再現(xiàn)裝置2上附屬的遠(yuǎn)程控制器(以下稱為遙控器)28上設(shè)置了與通常的數(shù)字廣播用電視接收機(jī)所附屬的遙控器相同的各種操作按鈕(電源按鈕、頻道選擇按鈕、錄像預(yù)約按鈕、播放按鈕、在EPG畫面上進(jìn)行選擇的方向鍵或確定鍵等)。
在觀看電視節(jié)目時(shí),輸入到節(jié)目記錄再現(xiàn)裝置2中的數(shù)字廣播信號(hào),根據(jù)遙控器28的頻道選擇操作,通過(guò)調(diào)諧器11選擇頻帶后,經(jīng)解調(diào)器12解調(diào),通過(guò)解擾器13解擾后,經(jīng)多路分離器14分離成多個(gè)頻道數(shù)量的節(jié)目影像·聲音數(shù)據(jù)包或EPG信息包。
該多個(gè)頻道數(shù)量的電視節(jié)目影像·聲音包之中,基于遙控器28的頻道選擇操作所提取的1個(gè)頻道的數(shù)據(jù)包的影像、聲音數(shù)據(jù)分別由影像解碼器15、聲音解碼器16以MPEG-2Video、MPEG-2Audio格式解碼。另外,EPG信息的包被發(fā)送到CPU19。
然后,經(jīng)影像解碼器15解碼的影像信號(hào)、利用EPG信息通過(guò)CPU19作成的電子節(jié)目指南顯示用的影像信號(hào)通過(guò)影像信號(hào)處理電路17施加向NTSC方式的變換或混頻等,從影像輸出端子29輸出,發(fā)送到圖1的顯示裝置3。
另外,經(jīng)聲音解碼器16解碼的聲音信號(hào)通過(guò)D/A轉(zhuǎn)換器18進(jìn)行模擬轉(zhuǎn)換,從聲音輸出端子30輸出,發(fā)送到圖1的顯示裝置3。
CPU19根據(jù)ROM20中保存的計(jì)算機(jī)程序和數(shù)據(jù),使用主存儲(chǔ)器21作為工作存儲(chǔ)器,對(duì)該節(jié)目記錄再現(xiàn)裝置2整體進(jìn)行控制。
CPU19執(zhí)行的處理中,除了基于遙控器28的頻道選擇操作觀看電視節(jié)目時(shí)的處理、以及基于遙控器28的錄像預(yù)約操作將電視節(jié)目錄像到HDD27的處理之外,還有關(guān)鍵字的自動(dòng)提取處理。
ROM20中保存了標(biāo)題用關(guān)鍵字詞典、標(biāo)題用排除字符串詞典、詳細(xì)信息用關(guān)鍵字詞典和詳細(xì)信息用排除字符串詞典,用作該關(guān)鍵字自動(dòng)提取處理中使用的詞典。
標(biāo)題用關(guān)鍵字詞典中登錄了“職業(yè)棒球”、“高爾夫”、“足球”、“溫泉”、“圍棋”、“日本象棋”、“電影”等表示子類型(比EPG信息中的類型信息中“體育”這樣的粗略類型更細(xì)的類型)的字符串;“戀”、“愛”這樣的字符串;職業(yè)棒球的球隊(duì)名的字符串這樣的經(jīng)常出現(xiàn)在節(jié)目標(biāo)題中的字符串之中,能夠用來(lái)有效地檢索節(jié)目的重要字符串。
標(biāo)題用排除字符串詞典中登錄了“電影”、“BS”、節(jié)目表的特有記號(hào)(例如,表示新聞節(jié)目的加了方框的字母N記號(hào))這樣的,出現(xiàn)在節(jié)目標(biāo)題中的字符串之中,作為節(jié)目檢索關(guān)鍵字過(guò)于一般化的字符串。
詳細(xì)信息用關(guān)鍵字詞典中分別登錄了經(jīng)常出現(xiàn)在電視節(jié)目中的名人(演藝人、體育選手、政治家、文化人等)的名字之中,分別登錄有只有平假名、平假名與漢字的組合、平假名與片假名的組合、漢字與片假名的組合、只有2個(gè)以下(包括2個(gè))漢字、只有6個(gè)以上(包括6個(gè))漢字的名稱字符串。另外,詳細(xì)信息用關(guān)鍵字詞典中也登錄例如“溫泉”這樣的經(jīng)常出現(xiàn)在EPG信息中的詳細(xì)字符串信息中的字符串之中,人名之外的、適合用作節(jié)目檢索關(guān)鍵字的字符串。
詳細(xì)信息用排除字符串詞典中登錄了“嘉賓”、“以上”、“導(dǎo)演”這樣的經(jīng)常出現(xiàn)在EPG信息中的詳細(xì)字符串信息中的字符串之中,不適合用作節(jié)目檢索關(guān)鍵字的字符串。
此外,關(guān)于詳細(xì)信息用關(guān)鍵字詞典,CPU19會(huì)通過(guò)因特網(wǎng)從專用站點(diǎn)下載最新內(nèi)容(收錄了最近剛出名的人的名稱等)存儲(chǔ)到閃存22。
另外,作為執(zhí)行關(guān)鍵字的自動(dòng)提取處理的前提,CPU19會(huì)在用戶的頻道選擇操作時(shí)或基于用戶的錄像預(yù)約操作進(jìn)行錄像時(shí),將多路分離器14發(fā)送過(guò)來(lái)的EPG信息的包存儲(chǔ)到閃存22。
圖3、圖4是表示CPU19執(zhí)行的關(guān)鍵字自動(dòng)提取處理的流程圖。其中,圖3是從標(biāo)題字符串信息之中提取關(guān)鍵字的處理,最初,從閃存22中存儲(chǔ)的EPG信息之中提取標(biāo)題字符串信息(步驟S1)。
接著,從該標(biāo)題字符串信息所表示的多個(gè)節(jié)目的標(biāo)題之中,查找標(biāo)題用關(guān)鍵字詞典中登錄的字符串(“高爾夫”、“足球”、“溫泉”、“圍棋”、“日本象棋”、“電影”這樣的表示子類型的字符串等)。然后,從這些節(jié)目標(biāo)題之中,將包含了該標(biāo)題用關(guān)鍵字詞典中登錄的字符串的標(biāo)題的字符串整體作為關(guān)鍵字提取對(duì)象(步驟S2)。
接著,從步驟S2所產(chǎn)生的作為關(guān)鍵字提取對(duì)象的標(biāo)題之中,將標(biāo)題用排除字符串詞典中登錄的字符串(“電影”、“BS”等)部分置換為空格(步驟S3)。
接著,從經(jīng)過(guò)步驟S3處理后的標(biāo)題的字符串之中,利用圖5所示的標(biāo)題用提取規(guī)則,提取關(guān)鍵字(步驟S4)。
根據(jù)該標(biāo)題用提取規(guī)則,該標(biāo)題的字符串未被平假名、片假名、漢字、數(shù)字、字母之外的特殊字符(空格、×、「 」等)隔開時(shí),該標(biāo)題的字符串被原樣當(dāng)作關(guān)鍵字提取出來(lái)。另一方面,當(dāng)該標(biāo)題的字符串被這種特殊字符隔開時(shí),就將特殊字符隔開的各字符串之中2個(gè)字符以上(含2個(gè))的字符串分別提取出來(lái)作為關(guān)鍵字。
不過(guò),不將“·”(中點(diǎn))當(dāng)作特殊字符。然后,當(dāng)作為關(guān)鍵字提取出來(lái)的字符串的開頭或末尾有“·”(中點(diǎn))時(shí),將刪除“·”(中點(diǎn))后的部分作為關(guān)鍵字。
最后,將步驟S4中提取的關(guān)鍵字作為標(biāo)題字符串信息中的關(guān)鍵字的列表存儲(chǔ)到閃存22(步驟S5)。
其次,圖4是從詳細(xì)字符串信息之中提取關(guān)鍵字的處理,最初,從閃存22中存儲(chǔ)的EPG信息之中提取詳細(xì)字符串信息(步驟S11)。
接著,從該詳細(xì)字符串信息之中,查找詳細(xì)信息用關(guān)鍵字詞典中登錄的字符串(名人的名稱等)。然后,從該詳細(xì)字符串信息之中,將該詳細(xì)信息用關(guān)鍵字詞典中登錄的字符串作為關(guān)鍵字提取出來(lái),同時(shí)將該字符串的一部分置換為半角空格(步驟S12)。
接著,從經(jīng)過(guò)步驟S12處理后的詳細(xì)字符串信息的字符串之中,將登錄在詳細(xì)信息用排除字符串詞典中的字符串(“嘉賓”、“以上”、“導(dǎo)演”等)的一部分置換為半角空格(步驟S13)。
接著,從經(jīng)過(guò)步驟S13處理后的詳細(xì)字符串信息的字符串之中,利用圖6所示的詳細(xì)字符串信息用提取規(guī)則,提取關(guān)鍵字(步驟S14)。
該詳細(xì)字符串信息用提取規(guī)則基本上是利用字符種類分隔法將平假名、片假名、漢字、數(shù)字、字母以及其他種類字符互相分離。
不過(guò),將片假名和字母當(dāng)作相同字符種類(不分離)。另外,當(dāng)緊挨著“·”(中點(diǎn))前面的字符是片假名或字母時(shí),就分別將“·”(中點(diǎn))當(dāng)作片假名或字母處理(不分離)。
此外,從分離開的各字符串之中,除去只有平假名的字符串、只有2個(gè)漢字以下(包括2個(gè))的字符串、只有6個(gè)漢字以上(包括6個(gè))的字符串的字符串,將其余的字符串分別作為關(guān)鍵字提取出來(lái)。不過(guò),當(dāng)作為關(guān)鍵字提取出來(lái)的字符串的開頭或末尾有“·”(中點(diǎn))時(shí),將刪除“·”(中點(diǎn))后的部分作為關(guān)鍵字。
最后,將步驟S12中提取的關(guān)鍵字和步驟S14中提取的關(guān)鍵字作為詳細(xì)字符串信息中的關(guān)鍵字的列表存儲(chǔ)到閃存22(步驟S15)。
接著,以具體實(shí)例說(shuō)明該節(jié)目記錄再現(xiàn)裝置2中節(jié)目檢索所需的關(guān)鍵字的提取。
假設(shè)在用戶的頻道選擇操作時(shí)或基于用戶的錄像預(yù)約操作進(jìn)行錄像時(shí),從多路分離器14發(fā)送過(guò)來(lái)并存儲(chǔ)到閃存22之中的EPG信息中的標(biāo)題字符串信息包含例如以下標(biāo)題(其中,□□、△△表示職業(yè)棒球隊(duì)名)。
愛的無(wú)謂紛擾職業(yè)棒球轉(zhuǎn)播□□×△△BS電影《宇宙·大戰(zhàn)》這樣,在圖3的處理中,由于“愛”、“職業(yè)棒球”、“電影”這些字符串登錄在標(biāo)題用關(guān)鍵字詞典中,在步驟S2,這些標(biāo)題其標(biāo)題字符串整體分別成為關(guān)鍵字提取對(duì)象。
此外,這些標(biāo)題之中,關(guān)于BS電影《宇宙·大戰(zhàn)》,在步驟S3,“BS”和“電影”被置換為空格。
另外,這些標(biāo)題之中,關(guān)于職業(yè)棒球轉(zhuǎn)播□□×△△,在“職業(yè)棒球轉(zhuǎn)播”和“□□”之間有空格(特殊符號(hào)),在“□□”和“△△”之間有×(特殊符號(hào)),因此,在步驟S4,字符串“職業(yè)棒球轉(zhuǎn)播”、“□□”、“△△”分別被作為關(guān)鍵字提取出來(lái)。
另外,這些標(biāo)題之中,關(guān)于“BS”、“電影”部分被空格置換的《宇宙·大戰(zhàn)》,由《》(特殊符號(hào))隔開,另外“·”(中點(diǎn))不作為特殊符號(hào)對(duì)待,因此,在步驟S4,原來(lái)的電影標(biāo)題本身——《宇宙·大戰(zhàn)》被作為關(guān)鍵字提取出來(lái)。
另外,這些標(biāo)題之中,愛的無(wú)謂紛擾沒(méi)有被特殊符號(hào)隔開,因此,在步驟S4,標(biāo)題本身——“愛的無(wú)謂紛擾”被作為關(guān)鍵字提取出來(lái)。
因此,在步驟S5,下列字符串被作為節(jié)目檢索用關(guān)鍵字存儲(chǔ)到閃存22(如上所述,□□、△△表示職業(yè)棒球隊(duì)名)。
愛的無(wú)謂紛擾職業(yè)棒球轉(zhuǎn)播□□△△宇宙·大戰(zhàn)依照此種方式,對(duì)于愛的無(wú)謂紛擾、宇宙·大戰(zhàn)這樣的未被特殊字符隔開的標(biāo)題,通過(guò)圖3的處理,其標(biāo)題所含的多個(gè)字符串不會(huì)被當(dāng)作分散的關(guān)鍵字提取,而是其標(biāo)題本身原樣作為關(guān)鍵字被提取。
未被這種特殊字符分隔的標(biāo)題,其標(biāo)題所含的“愛”、“宇宙”等各個(gè)字符串的意義過(guò)于寬泛,用作節(jié)目檢索的關(guān)鍵字時(shí)幾乎不起作用(檢索結(jié)果會(huì)非常多),通常是只有使用標(biāo)題本身,才能構(gòu)成高效有用的節(jié)目檢索關(guān)鍵字。因此,用戶使用所提取的關(guān)鍵字(標(biāo)題本身)能夠高效地檢索節(jié)目。
另外,對(duì)于宇宙·大戰(zhàn)這樣的電影標(biāo)題字符串,標(biāo)題字符串信息中,該標(biāo)題中附加的“BS”、“電影”這樣的對(duì)于節(jié)目檢索來(lái)說(shuō)過(guò)于一般化的字符串沒(méi)有包含在關(guān)鍵字中,同時(shí),該標(biāo)題字符串信息中,包圍著該標(biāo)題的《》也沒(méi)有包含在關(guān)鍵字中。因此,用戶能夠高效地檢索節(jié)目。
另外,在另一方面,對(duì)于職業(yè)棒球轉(zhuǎn)播□□×△△這樣的被特殊字符(空格或‘×’)隔開的標(biāo)題,通過(guò)圖3的處理,由特殊字符所隔開的各個(gè)字符串——職業(yè)棒球轉(zhuǎn)播、□□、△△分別被作為關(guān)鍵字提取出來(lái)。
這樣被特殊字符隔開的標(biāo)題,其由特殊字符隔開的各個(gè)字符串各自發(fā)揮節(jié)目檢索關(guān)鍵字的作用,標(biāo)題本身限定性過(guò)大,通常起不到節(jié)目檢索關(guān)鍵字的作用(比賽的兩隊(duì)(□□和△△的具體名稱)不同,就成了不同標(biāo)題,因此檢索結(jié)果會(huì)為非常少,甚至為空)。因此,用戶使用所提取的關(guān)鍵字(以特殊字符分隔的各個(gè)字符串)就能夠高效地檢索節(jié)目。
另一方面,在圖4的處理中,在步驟S12,從閃存22中存儲(chǔ)的EPG信息中的這些標(biāo)題的節(jié)目的詳細(xì)字符串信息之中,將詳細(xì)信息用關(guān)鍵字詞典中登錄的名人(愛的無(wú)謂紛擾這個(gè)節(jié)目的主持人、嘉賓,或電影宇宙·大戰(zhàn)的出場(chǎng)演員)的名稱等作為關(guān)鍵字提取出來(lái)。
此時(shí),由于姓是漢字而名是平假名或片假名的名人的名稱(例如“石田あかり”這樣的名字)也登錄在該詳細(xì)信息用關(guān)鍵字詞典中,因此這樣的名人的名稱也被作為關(guān)鍵字提取出來(lái)。
另外,由于也使用了通過(guò)因特網(wǎng)下載的最新的詳細(xì)信息用關(guān)鍵字詞典,因此最近剛走紅的人的名稱也被作為關(guān)鍵字提取出來(lái)。
另外,該詳細(xì)字符串信息之中,該名人的名稱等部分和詳細(xì)信息用排除字符串詞典中登錄的字符串(“嘉賓”、“以上”、“導(dǎo)演”等)部分在步驟S12和S13被置換為半角空格。
此外,在步驟S14,從被空格置換過(guò)的該詳細(xì)字符串信息的字符串之中,根據(jù)圖6所示的規(guī)則提取關(guān)鍵字。
此時(shí),片假名和字母被當(dāng)作相同字符種類處理,同時(shí),當(dāng)緊挨著“·”(中點(diǎn))前面的字符是片假名或字母時(shí),分別被當(dāng)作片假名或字母處理,因此,姓和名之間插入了“·”(中點(diǎn))的外國(guó)人名(例如,“B·ドゥ-リ-”)也被作為關(guān)鍵字提取出來(lái)。
另外,即使是最新的詳細(xì)信息用關(guān)鍵字詞典中也尚未登錄的人(例如初出茅廬的無(wú)名藝人)的名稱,只要不是只有平假名的名稱或只有2個(gè)漢字以下(包含2個(gè))的名稱或只有6個(gè)漢字以上(包含6個(gè))的名稱(即作為人名來(lái)說(shuō)不太常見的名稱),也被作為關(guān)鍵字提取出來(lái)。
另外,“嘉賓”、“以上”、“導(dǎo)演”之類的不適合用于節(jié)目檢索的字符串會(huì)被空格置換,因此不會(huì)被提取作關(guān)鍵字。
由此,在步驟S15,姓是漢字而名是平假名或片假名的名人名字,或最近剛剛走紅的人的名稱,或名以字母表示而姓以片假名表示的外國(guó)人名,或姓和名中間插入“·”(中點(diǎn))的外國(guó)人名,也被當(dāng)作節(jié)目檢索關(guān)鍵字存儲(chǔ)到閃存22。因此,用戶使用所提取的關(guān)鍵字能夠高效地檢索節(jié)目。
此外,用戶使用圖3、圖4的處理存儲(chǔ)到閃存22中的關(guān)鍵字進(jìn)行節(jié)目檢索的方法可以是,例如,根據(jù)遙控器28所指定的操作,CPU19產(chǎn)生節(jié)目檢索用畫面(用來(lái)將關(guān)鍵字一覽顯示的畫面,用戶從中選擇期望的關(guān)鍵字進(jìn)行檢索)的影像信號(hào),經(jīng)過(guò)影像信號(hào)處理電路17、影像輸出端子29發(fā)送到顯示裝置3這樣的適宜的方法。
如上所述,在該節(jié)目記錄再現(xiàn)裝置2中,從EPG信息中的標(biāo)題字符串信息之中提取關(guān)鍵字以及從詳細(xì)字符串信息之中提取關(guān)鍵字,是對(duì)應(yīng)各自的信息使用互不相同的關(guān)鍵字詞典和規(guī)則完成的,能夠利用小規(guī)模的計(jì)算機(jī)程序或詞典實(shí)現(xiàn)高精度的關(guān)鍵字提取。
由此,即使CPU19的處理能力或存儲(chǔ)器(ROM20或閃存22等)的容量不太大,也能夠從EPG信息中的標(biāo)題字符串信息和詳細(xì)字符串信息之中高效而精確地自動(dòng)提取用戶檢索節(jié)目所需的關(guān)鍵字。
此外,在以上的實(shí)例中,記錄·再現(xiàn)數(shù)字電視廣播的節(jié)目的裝置中應(yīng)用了本發(fā)明。但并不限定于此,記錄·再現(xiàn)模擬電視廣播的節(jié)目記錄再現(xiàn)裝置中當(dāng)然也可以應(yīng)用本發(fā)明。
圖7是表示應(yīng)用了本發(fā)明的模擬電視廣播所使用的節(jié)目記錄再現(xiàn)裝置的硬件結(jié)構(gòu)的框圖。天線31接收后輸入到節(jié)目記錄再現(xiàn)裝置41中的模擬廣播信號(hào)中的影像·聲音信號(hào)經(jīng)調(diào)諧器42選擇出頻帶,被MPEG編碼器43編碼。
觀看電視節(jié)目時(shí),該被編碼的影像·聲音數(shù)據(jù)經(jīng)MPEG解碼器47解碼,從節(jié)目記錄再現(xiàn)裝置41發(fā)送到顯示裝置61。
另一方面,在記錄電視節(jié)目時(shí),經(jīng)MPEG編碼器43編碼的影像·聲音數(shù)據(jù)經(jīng)由總線44發(fā)送到主存儲(chǔ)裝置45記錄下來(lái)。
然后,在播放時(shí),從主存儲(chǔ)裝置45讀出來(lái)的影像·聲音數(shù)據(jù)經(jīng)由總線44發(fā)送到MPEG解碼器47,經(jīng)MPEG解碼器47解碼后從節(jié)目記錄再現(xiàn)裝置41發(fā)送到顯示裝置61。
另外,從經(jīng)調(diào)諧器42選擇頻帶后的模擬廣播信號(hào)之中,利用EPG取得模塊46獲取EPG信息。該EPG信息也經(jīng)由總線44發(fā)送到主存儲(chǔ)裝置45存儲(chǔ)下來(lái)。
另外,用來(lái)與因特網(wǎng)71連接的通信接口48、ROM49、主存儲(chǔ)裝置50、輔助存儲(chǔ)裝置51、MPEG解碼器47通過(guò)總線52相互聯(lián)結(jié)。
該節(jié)目記錄再現(xiàn)裝置41也是將上述那樣的標(biāo)題用關(guān)鍵字詞典、標(biāo)題用排除字符串詞典、詳細(xì)信息用關(guān)鍵字詞典、以及詳細(xì)信息用排除字符串詞典保存在ROM49中(關(guān)于詳細(xì)信息用關(guān)鍵字詞典,通過(guò)因特網(wǎng)從專用站點(diǎn)下載最新內(nèi)容后也存儲(chǔ)到輔助存儲(chǔ)裝置51),同時(shí),對(duì)節(jié)目記錄再現(xiàn)裝置41整體進(jìn)行控制的CPU53使用這些詞典和主存儲(chǔ)裝置45中的EPG信息執(zhí)行與圖3、圖4所示相同的關(guān)鍵字自動(dòng)提取處理,將提取的關(guān)鍵字保存到輔助存儲(chǔ)裝置51。
該節(jié)目記錄再現(xiàn)裝置41也是與針對(duì)圖1、圖2的節(jié)目記錄再現(xiàn)裝置2所作的說(shuō)明完全相同,根據(jù)其信息分別使用不同的關(guān)鍵字詞典和規(guī)則來(lái)從EPG信息中的標(biāo)題字符串信息之中提取關(guān)鍵字和從詳細(xì)字符串信息之中提取關(guān)鍵字,由此,能夠憑借小規(guī)模的計(jì)算機(jī)程序或詞典而精確地提取關(guān)鍵字。
由此,即使CPU53的處理能力或存儲(chǔ)器(ROM49或輔助存儲(chǔ)裝置51等)的容量不太大,也能夠從EPG信息中的標(biāo)題字符串信息和詳細(xì)字符串信息之中高效而精確地自動(dòng)提取用戶檢索節(jié)目所需的關(guān)鍵字。
另外,在以上實(shí)例中,在與顯示裝置分離的節(jié)目記錄再現(xiàn)裝置中應(yīng)用了本發(fā)明。但并不限定于此,該節(jié)目記錄再現(xiàn)裝置與顯示裝置為一體的電視接收機(jī)、或不具有節(jié)目記錄再現(xiàn)功能的電視接收機(jī)中也可以應(yīng)用本發(fā)明。
另外,在以上實(shí)例中,使用本發(fā)明從EPG信息中的節(jié)目的標(biāo)題字符串信息、詳細(xì)字符串信息之中檢索關(guān)鍵字。但并不限定于此,使用本發(fā)明也可以從電視節(jié)目之外的內(nèi)容(例如,通過(guò)因特網(wǎng)發(fā)布的內(nèi)容)的標(biāo)題字符串信息、詳細(xì)字符串信息之中檢索關(guān)鍵字。
另外,本發(fā)明不限于以上實(shí)例,只要不背離其主旨,當(dāng)然可以采用其他的各種結(jié)構(gòu)。
如上所述,借助于本發(fā)明,在CPU的處理能力和存儲(chǔ)器容量都不太大的家電產(chǎn)品中,也能夠從EPG信息一類的節(jié)目的標(biāo)題字符串信息和詳細(xì)字符串信息之中高效而精確地自動(dòng)提取用戶檢索節(jié)目所需的關(guān)鍵字。
權(quán)利要求
1.一種關(guān)鍵字自動(dòng)提取裝置,其特征在于,具備第1提取單元,使用登錄有用來(lái)表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標(biāo)題字符串信息之中提取關(guān)鍵字;以及第2提取單元,從上述內(nèi)容的詳細(xì)字符串信息之中,進(jìn)行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
2.如權(quán)利要求1所述的關(guān)鍵字自動(dòng)提取裝置,其特征在于上述第1提取單元從包含有第1關(guān)鍵字詞典中登錄的字符串的標(biāo)題字符串之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,提取關(guān)鍵字。
3.如權(quán)利要求1所述的關(guān)鍵字自動(dòng)提取裝置,其特征在于上述第1提取單元將包含有第1關(guān)鍵字詞典中登錄的字符串的標(biāo)題字符串之中的、以平假名、片假名、漢字、數(shù)字、字母之外的特殊字符分隔的字符串作為關(guān)鍵字提取出來(lái)。
4.如權(quán)利要求1所述的關(guān)鍵字自動(dòng)提取裝置,其特征在于上述第2提取單元,從使用上述第2關(guān)鍵字詞典提取關(guān)鍵字后的上述詳細(xì)字符串信息的剩余部分之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,進(jìn)行利用字符種類分隔法的關(guān)鍵字的提取。
5.如權(quán)利要求1所述的關(guān)鍵字自動(dòng)提取裝置,其特征在于上述第2提取單元利用字符種類分隔法,將片假名和字母作為相同字符種類處理,同時(shí),當(dāng)緊挨著“·”(中點(diǎn))前面的字符是片假名或字母時(shí),就將“·”(中點(diǎn))分別當(dāng)作片假名或字母處理。
6.如權(quán)利要求1所述的關(guān)鍵字自動(dòng)提取裝置,其特征在于還具備通過(guò)網(wǎng)絡(luò)下載上述第2關(guān)鍵字詞典的單元,上述第2提取單元使用上述下載的第2關(guān)鍵字詞典。
7.一種關(guān)鍵字自動(dòng)提取方法,其特征在于,具有第1步驟,使用登錄有用來(lái)表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標(biāo)題字符串信息之中提取關(guān)鍵字;以及第2步驟,從上述內(nèi)容的詳細(xì)字符串信息之中,進(jìn)行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
8.如權(quán)利要求7所述的關(guān)鍵字自動(dòng)提取方法,其特征在于在上述第1步驟中,從包含有第1關(guān)鍵字詞典中登錄的字符串的標(biāo)題字符串之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,提取關(guān)鍵字。
9.如權(quán)利要求7所述的關(guān)鍵字自動(dòng)提取方法,其特征在于在上述第1步驟中,將包含有第1關(guān)鍵字詞典中登錄的字符串的標(biāo)題字符串之中的、以平假名、片假名、漢字、數(shù)字、字母之外的特殊字符分隔的字符串作為關(guān)鍵字提取出來(lái)。
10.如權(quán)利要求7所述的關(guān)鍵字自動(dòng)提取方法,其特征在于在上述第2步驟中,從使用上述第2關(guān)鍵字詞典提取關(guān)鍵字后的上述詳細(xì)字符串信息的剩余部分之中的、排除了登錄在指定的排除字符串詞典中的字符串之后的部分中,進(jìn)行利用字符種類分隔法的關(guān)鍵字的提取。
11.如權(quán)利要求7所述的關(guān)鍵字自動(dòng)提取方法,其特征在于在上述第2步驟中,利用字符種類分隔法,將片假名和字母作為相同字符種類處理,同時(shí),當(dāng)緊挨著“·”(中點(diǎn))前面的字符是片假名或字母時(shí),就將“·”(中點(diǎn))分別當(dāng)作片假名或字母處理。
12.如權(quán)利要求7所述的關(guān)鍵字自動(dòng)提取方法,其特征在于還具有通過(guò)網(wǎng)絡(luò)下載上述第2關(guān)鍵字詞典的步驟,在上述第2步驟中,使用上述下載的第2關(guān)鍵字詞典。
13.一種記錄有計(jì)算機(jī)可讀取的計(jì)算機(jī)程序的記錄介質(zhì),該計(jì)算機(jī)程序是一種關(guān)鍵字自動(dòng)提取裝置的計(jì)算機(jī)程序,其特征在于,包含第1提取步驟,使用登錄有用來(lái)表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標(biāo)題字符串信息之中提取關(guān)鍵字;以及第2提取步驟,從上述內(nèi)容的詳細(xì)字符串信息之中,進(jìn)行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
14.一種計(jì)算機(jī)程序,其特征在于,在控制關(guān)鍵字自動(dòng)提取裝置的計(jì)算機(jī)中執(zhí)行第1提取步驟,使用登錄有用來(lái)表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標(biāo)題字符串信息之中提取關(guān)鍵字;以及第2提取步驟,從上述內(nèi)容的詳細(xì)字符串信息之中,進(jìn)行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。
全文摘要
本發(fā)明具備第1提取單元(19),使用登錄有用來(lái)表示子類型的字符串的第1關(guān)鍵字詞典,從內(nèi)容的標(biāo)題字符串信息之中提取關(guān)鍵字;以及第2提取單元(19),從該內(nèi)容的詳細(xì)字符串信息之中,進(jìn)行使用登錄有人名的第2關(guān)鍵字詞典的關(guān)鍵字的提取、以及利用字符種類分隔法的關(guān)鍵字的提取。由此,在CPU的處理能力和存儲(chǔ)器容量都不太大的家電產(chǎn)品中,也能夠從EPG信息一類的內(nèi)容的標(biāo)題字符串信息和詳細(xì)字符串信息之中高效而精確地自動(dòng)提取用戶檢索內(nèi)容所需的關(guān)鍵字。
文檔編號(hào)G06F17/30GK1682220SQ0382238
公開日2005年10月12日 申請(qǐng)日期2003年7月30日 優(yōu)先權(quán)日2002年7月30日
發(fā)明者木付仁史, 大沼顯介, 市岡秀俊 申請(qǐng)人:索尼株式會(huì)社