專利名稱:一種epg欄目生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)字電視EPG的生成方法,尤其是涉及一種使用戶快速查找節(jié)目的 EPG欄目生成方法。
背景技術(shù):
現(xiàn)在通常都使用EPG (Electronic Program Guide,電子節(jié)目菜單)來為數(shù)字電視 提供各種業(yè)務(wù)的索引和導(dǎo)航,用戶利用EPG提供的菜單可以選擇自己喜歡的頻道,點(diǎn)播自 己喜歡的節(jié)目,查找各種信息等,在數(shù)字電視中起著非常重要的作用。但是,現(xiàn)有EPG的多 個(gè)頻道節(jié)目之間沒有關(guān)聯(lián),也沒有欄目來描述屬于同一系列的節(jié)目。這使得管理員在管理 EPG的時(shí)候沒有一個(gè)結(jié)構(gòu)化的總體框架,也使得用戶不能快速有效地使用EPG查找自己喜 歡的節(jié)目,可能需要比較長的時(shí)間才能找到自己喜歡的節(jié)目,甚至?xí)e(cuò)過。因此,如何開發(fā)一種可關(guān)聯(lián)EPG多個(gè)頻道并描述屬于同一系列的節(jié)目的EPG欄目, 以幫助管理員管理多個(gè)頻道的節(jié)目并幫助用戶快速查找到自己喜歡的節(jié)目,已成為目前急 需解決的技術(shù)難題之一。
發(fā)明內(nèi)容
本發(fā)明為解決現(xiàn)有技術(shù)EPG的多個(gè)頻道節(jié)目之間沒有關(guān)聯(lián)且沒有EPG欄目描述屬 于同一系列的節(jié)目,不利于管理和查找的技術(shù)問題,提供了一種EPG欄目生成方法。為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為設(shè)計(jì)一種EPG欄目生成方法,包 括下列步驟步驟1 對(duì)EPG中的條目進(jìn)行語法分析,將EPG條目分割為不同的詞條并賦予相應(yīng) 的權(quán)重;步驟2 對(duì)語法分析的輸出結(jié)果進(jìn)行文本聚類,根據(jù)詞條和其權(quán)重計(jì)算EPG條目的 相似度,并根據(jù)預(yù)先設(shè)定的聚類參數(shù)和EPG條目的相似度使用層次聚類法對(duì)EPG條目進(jìn)行 文本聚類分析,得到文本聚類結(jié)果;步驟3 最后將文本聚類結(jié)果以欄目層次的方式輸出新的EPG欄目。步驟1中所述的語法分析包括詞法分析和語法分析,所述詞法分析使用Iex定義 正則表達(dá)式實(shí)現(xiàn),所述語法分析使用yacc定義語法規(guī)則實(shí)現(xiàn)。步驟2中,在計(jì)算EPG條目相似性的時(shí)候,將每個(gè)條目看作是一個(gè)向量,根據(jù)權(quán)重 計(jì)算向量的相似度,EPG條目向量之間的相似性由余弦距離表述。步驟2中,聚類分析過程包括(1)將每個(gè)EPG條目都作為一類,設(shè)為初始狀態(tài);(2)根據(jù)EPG條目相似性計(jì)算出EPG條目距離,將距離最相近的兩個(gè)類合并為一 個(gè);(3)重復(fù)過程(2),直到相似性到達(dá)一個(gè)閾值為止。文本聚類步驟中合并的EPG條目中的相同詞條作為EPG欄目的標(biāo)題。
步驟3之后還包括用戶通過表示層調(diào)整聚類參數(shù),并根據(jù)調(diào)整后的聚類參數(shù)再次 進(jìn)行文本聚類的步驟。本發(fā)明通過對(duì)EPG條目進(jìn)行分析,將EPG條目分割為不同的詞條并賦予相應(yīng)的權(quán) 重,再根據(jù)權(quán)重和詞條計(jì)算EPG條目的相似性,并根據(jù)預(yù)先設(shè)定的聚類參數(shù)和EPG條目的相 似度使用層次聚類法對(duì)EPG條目進(jìn)行文本聚類分析,得到文本聚類結(jié)果并將文本聚類結(jié)果 以欄目層次的方式輸出新的EPG欄目來描述屬于同一系列的節(jié)目,從而非常有利于幫助管 理員管理這些不同或相同電視臺(tái)的節(jié)目,也可以幫助用戶很快的定位到想看的節(jié)目。
下面結(jié)合實(shí)施例和附圖對(duì)本發(fā)明進(jìn)行詳細(xì)說明,其中圖1是本發(fā)明EPG欄目生成方法的原理圖。
具體實(shí)施例方式本發(fā)明EPG欄目生成方法的目的是將EPG節(jié)目結(jié)構(gòu)化,其主要的技術(shù)思想為在分 析了 EPG條目特點(diǎn)的基礎(chǔ)上得出EPG中的節(jié)目信息實(shí)際上是由不同詞語、數(shù)字和符號(hào)組合 而成的結(jié)論(例如轉(zhuǎn)播CCTV-I新聞聯(lián)播(6月23日)),從而據(jù)此對(duì)EPG欄目進(jìn)行語法分 析,將其分割為不同的詞條并賦予相應(yīng)的權(quán)重;然后進(jìn)行文本聚類,找出相似度高的各個(gè)詞 條,這些有層次的詞條就是EPG中自動(dòng)生成的欄目。請(qǐng)參閱圖1。本發(fā)明EPG欄目生成方法包括下列步驟一、EPG條目的語法分析步驟。語法組件從EPG庫中取出多個(gè)電視臺(tái)的EPG,對(duì)其進(jìn)行并不非常嚴(yán)謹(jǐn)?shù)恼Z法分析, 其目的是為了將EPG條目分割為不同的詞條,并賦予不同的權(quán)重。因?yàn)槎鄠€(gè)電視臺(tái)的節(jié)目 可能會(huì)存在重復(fù),EPG欄目生成可以幫助管理員管理這些不同或相同電視臺(tái)的節(jié)目,也可以 幫助用戶很快的定位到想看的節(jié)目。語法的理論是我們將EPG中的條目認(rèn)為是一種非嚴(yán)謹(jǐn)?shù)脑~語、數(shù)字和符號(hào)組織起 來的描述,如電視劇紅燈記5、新證券大學(xué)堂(晚間版),語法分析的過程是首先進(jìn)行詞法 分析,然后進(jìn)行語法分析。這里我們將詞語(在下面的例子中為漢字,當(dāng)然也可以為字母或 其它語言的文字)和數(shù)字作為不同類型的自定義詞,“”和“0”等符號(hào)是關(guān)鍵字。如可 以表述為super term ‘ ,term—類似電視劇紅燈記;super term ‘ · term—類似人與自然·非洲豹;term ‘(,child term ‘),-—類似新聞播報(bào)(正午版);term number—類似大宅門 21。因此像“電視劇紅燈記5”這樣的EPG條目就會(huì)被分析為上級(jí)詞匯電視??;下 級(jí)詞匯紅燈記;數(shù)字修飾詞5。詞法分析可以使用Iex定義正則表達(dá)式實(shí)現(xiàn),語法分析則可以使用yacc定義語法 規(guī)則實(shí)現(xiàn)。二、文本聚類步驟根據(jù)權(quán)重和所述詞條計(jì)算EPG條目相似度,并根據(jù)預(yù)先設(shè)定的聚類參數(shù)和EPG條
4目相似度將EPG條目相似度在聚類參數(shù)范圍內(nèi)的EPG條目合并,得到文本聚類結(jié)果。聚類引擎將EPG條目看作是向量,并對(duì)這些向量里的標(biāo)引詞,也就是被語法分析 組件分割出來的詞條進(jìn)行相似度計(jì)算,由于這些標(biāo)引詞是有權(quán)重的,最后EPG條目之間的 距離是通過余弦距離計(jì)算得出,再根據(jù)距離對(duì)EPG條目進(jìn)行層次聚類,直到預(yù)先達(dá)到了預(yù) 先設(shè)定好的距離閾值,或者用戶滿意為止。1、EPG條目相似度的計(jì)算EPG的特性決定了文本聚類所采用的文本相似度算法應(yīng)該是基于編輯距離的,并 且在EPG中應(yīng)該是以匹配相同詞條的形式進(jìn)行計(jì)算。這是因?yàn)镋PG條目的相似是以詞條相 同的方式出現(xiàn)的,例如新證券大學(xué)堂(午間版)和新證券大學(xué)堂(晚間版),此外數(shù)字修 飾詞不參加聚類。EPG條目分析使得不同的詞條被關(guān)鍵字區(qū)分開來,并且具有了不同的權(quán)重,在文本 聚類領(lǐng)域,權(quán)重一般是由詞條在文本中的詞頻決定的,但在這里通過EPG分析決定的,這是 因?yàn)镋PG的特點(diǎn)和在計(jì)算EPG條目相似性的時(shí)候,將每個(gè)EPG條目看作是一個(gè)向量,根據(jù)權(quán) 重計(jì)算向量的相似度。EPG條目向量之間的相似度由余弦距離表述,在這里不再累述。2、EPG條目聚類我們使用層次聚類法對(duì)EPG條目進(jìn)行聚類分析,層次聚類算法根據(jù)上述1中給出 的EPG條目相似度計(jì)算方法計(jì)算每?jī)蓚€(gè)條目之間的相似度,然后按照相似度大小構(gòu)建一個(gè) 聚類層次,其聚類過程可描述如下1)、每個(gè)EPG條目都作為一類,這是初始狀態(tài)。2)、根據(jù)1中所述的EPG條目相似性計(jì)算方法所得出的EPG條目距離,將距離最相 近的兩個(gè)類合并為一個(gè)。3)、重復(fù)過程2),直到相似性到達(dá)預(yù)先設(shè)定的聚類參數(shù)閾值為止。三、新EPG欄目生成步驟文本聚類的結(jié)果作為欄目的輸出,表示層將文本聚類的結(jié)果以EPG欄目的方式表 現(xiàn)給用戶。對(duì)于同一類別中的EPG條目,提取其相同詞條作為EPG欄目的標(biāo)題。通過調(diào)整 聚類算法的相似度閾值,可以得到不同限制條件下的欄目輸出結(jié)果。用戶對(duì)欄目劃分不滿 意時(shí),可通過表示層調(diào)整聚類參數(shù),如距離閾值,進(jìn)行再次的文本聚類,如此重復(fù),直到滿意 為止。本發(fā)明基于EPG條目分析和文本聚類的方法生成一新EPG欄目,可用于數(shù)字電視,
幫助管理員管理這些不同或相同電視臺(tái)的節(jié)目,也可以幫助用戶很快的定位到想看的節(jié)目。
權(quán)利要求
一種EPG欄目生成方法,其特征在于包括下列步驟步驟1對(duì)EPG中的條目進(jìn)行語法分析,將EPG條目分割為不同的詞條并賦予相應(yīng)的權(quán)重;步驟2對(duì)語法分析的輸出結(jié)果進(jìn)行文本聚類,根據(jù)詞條和其權(quán)重計(jì)算EPG條目的相似度,并根據(jù)預(yù)先設(shè)定的聚類參數(shù)和EPG條目的相似度使用層次聚類法對(duì)EPG條目進(jìn)行文本聚類分析,得到文本聚類結(jié)果;步驟3最后將文本聚類結(jié)果以欄目層次的方式輸出新的EPG欄目。
2.根據(jù)權(quán)利要求1所述的EPG欄目生成方法,其特征在于步驟1中所述的語法分析 包括詞法分析和語法分析,所述詞法分析使用Iex定義正則表達(dá)式實(shí)現(xiàn),所述語法分析使 用yacc定義語法規(guī)則實(shí)現(xiàn)。
3.根據(jù)權(quán)利要求1所述的EPG欄目生成方法,其特征在于步驟2中,在計(jì)算EPG條目 相似性的時(shí)候,將每個(gè)條目看作是一個(gè)向量,根據(jù)權(quán)重計(jì)算向量的相似度,EPG條目向量之 間的相似性由余弦距離表述。
4.根據(jù)權(quán)利要求1所述的EPG欄目生成方法,其特征在于步驟2中,聚類分析過程包括(1)將每個(gè)EPG條目都作為一類,設(shè)為初始狀態(tài);(2)根據(jù)EPG條目相似性計(jì)算出EPG條目距離,將距離最相近的兩個(gè)類合并為一個(gè);(3)重復(fù)過程(2),直到相似性到達(dá)一個(gè)閾值為止。
5.根據(jù)權(quán)利要求4所述的EPG欄目生成方法,其特征在于文本聚類步驟中合并的EPG 條目中的相同詞條作為EPG欄目的標(biāo)題。
6.根據(jù)權(quán)利要求1所述的EPG欄目生成方法,其特征在于步驟3之后還包括用戶通 過表示層調(diào)整聚類參數(shù),并根據(jù)調(diào)整后的聚類參數(shù)再次進(jìn)行文本聚類的步驟。
全文摘要
本發(fā)明公開一種EPG欄目生成方法,包括下列步驟對(duì)EPG中的條目進(jìn)行語法分析,將EPG條目分割為不同的詞條并賦予相應(yīng)的權(quán)重;對(duì)語法分析的輸出結(jié)果進(jìn)行文本聚類,根據(jù)詞條和其權(quán)重計(jì)算EPG條目的相似度,并根據(jù)預(yù)先設(shè)定的聚類參數(shù)和EPG條目的相似度使用層次聚類法對(duì)EPG條目進(jìn)行文本聚類分析,得到文本聚類結(jié)果;最后將文本聚類結(jié)果以欄目層次的方式輸出新的EPG欄目。本發(fā)明EPG欄目生成方法可用于數(shù)字電視,以便用戶快速定位節(jié)目。
文檔編號(hào)G06F17/27GK101963974SQ20101027265
公開日2011年2月2日 申請(qǐng)日期2010年9月3日 優(yōu)先權(quán)日2010年9月3日
發(fā)明者李昌盛 申請(qǐng)人:深圳創(chuàng)維數(shù)字技術(shù)股份有限公司