亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

字體相似度及字體替換方法與流程

文檔序號:12666456閱讀:951來源:國知局
字體相似度及字體替換方法與流程

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其是指一種字體相似度和字體替換方法。



背景技術(shù):

字體是文字的表現(xiàn)形式。在文藝作品中,字體即是語言文字的載體,其豐富的外在形式又形成了獨(dú)有的字體藝術(shù)。印刷字體的選用一般與印刷內(nèi)容相關(guān),可以區(qū)分標(biāo)題的主次和篇章的重點(diǎn);以中文來說,例如黑體莊重,適合標(biāo)題;宋體濃淡適中,適合閱讀;仿宋秀麗輕盈,適合出版古籍和詩歌。對于信息時(shí)代的數(shù)字出版而言,計(jì)算機(jī)字體是出版物構(gòu)成的基礎(chǔ)要素。

一般來說,當(dāng)出現(xiàn)字體缺失的時(shí)候,閱讀器處理方式一般包括:

1)文字不出現(xiàn),用空缺符號表示;這種處理方式會(huì)嚴(yán)重影響對文章內(nèi)容的理解;

2)采用缺省字體顯示;這種方式不影響對內(nèi)容的理解,但是會(huì)影響排版的效果,或?qū)е屡馨妫?/p>

3)采用替代字體;一些閱讀器廠商內(nèi)置了一些替代字體方案,當(dāng)某種字體不存在時(shí),會(huì)用另一種字體替代;這種方式既可以保證文章內(nèi)容得以呈現(xiàn),又可以盡可能好地保證版面效果。但是這種方式仍然也還存在問題:如果替代字體也不存在如何處理?如何確定最優(yōu)視覺效果的替代字體?

想要找到最佳的替代字體就需要一種字體分類處理方法,能夠?qū)⒆睢跋嗨啤钡淖煮w歸到同一種類之中;這樣就可以在進(jìn)行字體替代的時(shí)候用同一類的字體相互替代。但是現(xiàn)有技術(shù)中缺少很好的字體分類處理方法。



技術(shù)實(shí)現(xiàn)要素:

針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明要解決的技術(shù)問題是提供一種字體相似度和字體替換方法,能夠簡單準(zhǔn)確的對字體進(jìn)行識別分類,以提高文字處理的準(zhǔn)確性。

為了解決上述問題,本發(fā)明實(shí)施例提出了一種字體相似度和字體替換方法,包括:

步驟1、根據(jù)預(yù)設(shè)的影響字體視覺效果的屬性值,分別構(gòu)造漢字文本塊圖像,以生成漢字文本塊圖像樣本庫;其中所述漢字文本塊圖像包括n×n個(gè)不交疊的漢字,其中n≥2;

步驟2、計(jì)算漢字文本塊圖像集合的紋理特征值;

步驟3、采用靜態(tài)替換方法或動(dòng)態(tài)替換方法對缺失的字體進(jìn)行替換;

其中,所述步驟1具體包括:利用常用漢字,根據(jù)預(yù)設(shè)的影響字體視覺效果的屬性值,如字體、字號、行間距、字符間距、字型等屬性,構(gòu)造出不同的漢字文本塊,以構(gòu)建漢字文本塊圖像樣本庫,其中,

不同字體,記為集合A={a1,a2,a3...ai...an}(1≤n≤k1);

不同字號,記為集合B={b1,b2,b3...bi...bn}(1≤n≤k2);

不同行間距,記為集合C={c1,c2,c3…ci…cn}(1≤n≤k3);

不同字符間距,記為集合D={d1,d2,d3…di…dn}(1≤n≤k4);

不同字型,記為集合E={e1,e2,e3,e4},4種字型分別為標(biāo)準(zhǔn)體、粗體、斜體、粗斜體。

其中,步驟2具體包括:

步驟21、構(gòu)建漢字文本塊圖像樣本庫,其中所述漢字文本塊圖像包括n×n個(gè)不交疊的漢字,其中n≥2;其中每一漢字文本塊圖像為M×N像素;根據(jù)屬性值將漢字文本圖像進(jìn)行分類,構(gòu)成集合W,記為

W={wi|i∈R,且1≤i≤k1×k2×k3×k4×4};其中R為實(shí)數(shù)

每一類文本圖像記為

wi=(x1,x2,x3,x4,x5)|x1∈A,x2∈B,x3∈C,x4∈D,x5∈E;

步驟22、分別從wi(i=1,2,3......)中選取m(m≥2)幅漢字文本塊圖像,構(gòu)成集合Ui

步驟23、分別提取m幅漢字文本塊圖像的紋理特征,得到m幅漢字文本塊圖像的紋理特征向量;其中m≥2;

步驟24、計(jì)算m個(gè)紋理特征向量的質(zhì)心Yi,即為第i類漢字文本塊wi的特征向量。

其中,所述步驟23中采用Garbor小波紋理特征提取算法提取紋理特征向量;具體包括:

步驟2311,對每幅漢字文本塊圖像進(jìn)行Gabor小波變換,選用二維Gabor濾波函數(shù):

其中,Sx、Sy是變量在x軸、y軸變化的范圍,即選定的gabor小波的窗口的大?。籪為正弦函數(shù)的頻率;theta為Gabor濾波器的方向;

其中

xp=x*cos(theta)+y*sin(theta)

yp=y(tǒng)*cos(theta)-x*sin(theta)

其中,x∈Sx,y∈Sy,theta為Gabor濾波器的方向,xp為漢字文本塊圖像通過theta方向的gabor濾波器,在x軸方向上的能量值;yp為漢字文本塊圖像通過theta方向的gabor濾波器,在y軸方向上的能量值;得到多個(gè)不同通道圖像;

步驟2312,對濾波后的圖像做傅里葉變換,將圖像變換到頻域,將圖像做歸一化處理;

步驟2313,分別提取每幅圖像多個(gè)紋理特征以得到多維特征向量;其中紋理特征包括但不限于:提取圖像的平均值Mean、標(biāo)準(zhǔn)偏差Std;其中每個(gè)通道輸出圖像的平均值Mean和標(biāo)準(zhǔn)偏差Std分別為:

其中,h(x,y)為漢字文本塊圖像在點(diǎn)(x,y)的灰度值。

經(jīng)過發(fā)明人的詳盡試驗(yàn),本發(fā)明實(shí)施例中不僅僅可以利用Gabor小波紋理特征提取算法提取紋理特征向量;事實(shí)上在大多數(shù)已有的紋理特征提取算法中,本發(fā)明實(shí)施例都可以取得令人滿意的結(jié)果。因此采用Gabor小波紋理特征提取算法只是為了舉例說明,而非對本發(fā)明實(shí)施例的限定。

其中,所述步驟3具體中利用K-means聚類算法得到每一類wi的紋理特征向量Yi,具體包括:

步驟31、通過步驟2中提取的集合Ui中所有漢字文本塊圖像的紋理特征向量,利用K-means聚類算法,得到每一類wi的紋理特征向量的質(zhì)心Yi,記為:

步驟32、對于計(jì)算兩類漢字文本塊wi與wj的紋理特征向量Yi與Yj之間的距離,構(gòu)成n×n維的矩陣,作為不同字體之間的相似度。

其中,步驟32中通過以下公式計(jì)算兩個(gè)n維特征向量Yi(yi1,yi2,...yin)與Yj(yj1,yj2,...yjn)間的歐氏距離作為字體相似度度:

其中,其中步驟32中通過以下四種公式中的任一種計(jì)算兩個(gè)n維特征向量Yi(yi1,yi2,...yin)與Yj(yj1,yj2,...yjn)間的距離作為字體相似度:

個(gè)n維特征向量Yi(yi1,yi2,...yin)與Yj(yj1,yj2,...yjn)間的歐氏距離作為字體相似度度:

兩個(gè)n維特征向量Yi(yi1,yi2,...yin)與Yj(yj1,yj2,...yjn)間的距離為曼哈頓距離,通過以下公式計(jì)算:

兩個(gè)n維特征向量Yi(yi1,yi2,...yin)與Yj(yj1,yj2,...yjn)間的距離為標(biāo)準(zhǔn)化歐氏距離,通過以下公式計(jì)算:

其中,Sk為標(biāo)準(zhǔn)差分量,記為,

兩個(gè)n維特征向量Yi(yi1,yi2,...yin)與Yj(yj1,yj2,...yjn)間的距離為向量余弦,通過以下公式計(jì)算:

經(jīng)過發(fā)明人的詳盡試驗(yàn),本發(fā)明實(shí)施例中不僅僅可以利用曼哈頓距離、標(biāo)準(zhǔn)歐氏距離、向量余弦三種度量向量相似度方法;事實(shí)上在大多數(shù)相似度計(jì)算方法中,本發(fā)明技術(shù)仍能取得令人滿意的結(jié)果。其實(shí)還有很多字體相似度的計(jì)算方法,并非只有文中提到的這三種方法。因此采用Gabor小波紋理特征提取算法只是為了舉例說明,而非對本發(fā)明實(shí)施例的限定。

其中,所述靜態(tài)替換方法包括:

步驟4、對每一類漢字文本塊wi,將其他文本塊按照與wi的相似度由大到小順序排序;得到第i類文本塊wi的相似度鏈表,構(gòu)建替換規(guī)則表;

步驟5:已知待顯示文檔中文本字體、字號、行間距、字符間距及字型的屬性值;判斷閱讀器系統(tǒng)中是否存在待顯示文檔文本塊圖像的文本字體,若系統(tǒng)中不存在該漢字文本塊圖像文本的字體,根據(jù)待顯示文檔文本字體替換規(guī)則的建立,通過查詢替換規(guī)則表,尋找最優(yōu)視覺效果替換字體;

步驟6:靜態(tài)替換方法,通過查詢替換規(guī)則表,查找替換字體,具體步驟包括:

步驟6.1:在替換規(guī)則表中,查詢第一列,定位待顯示文檔字體所在的行。如果替換規(guī)則表中不存在待顯示文檔字體,則默認(rèn)選取宋體,字號、行間距、字符間距等屬性與待顯示文檔相同。如果替換規(guī)則表中存在待顯示文檔字體,則篩選與該字體相關(guān)的所有行,繼續(xù)執(zhí)行步驟6.2。

步驟6.2:在步驟6.1篩選出的行中,查詢第二列,定位待顯示文檔字號所在的行。如果不存在待顯示文檔字號,則選取與其字號差別最小的行,并篩選與該字號相關(guān)的所有行,繼續(xù)執(zhí)行步驟6.3。

步驟6.3:在步驟6.2篩選出的行中,查詢第三列,定位待顯示文檔行間距所在的行。如果不存在待顯示文檔行間距,則選取與其行間距差別最小的行,并篩選與該行間距相關(guān)的所有行,繼續(xù)執(zhí)行步驟6.4。

步驟6.4:在步驟6.3篩選出的行中,查詢第四列,定位待顯示文檔字符間距屬性。如果不存在待顯示文檔字符間距,則選取與其字符間距差別最小的行,并篩選與該字符間距相關(guān)的所有行,繼續(xù)執(zhí)行步驟6.5。

步驟6.5:在步驟6.4篩選出的行中,查詢第五列,定位字型屬性,并得到相似度鏈表。從相似度鏈表的第一個(gè)節(jié)點(diǎn)開始,找到第一個(gè)閱讀器擁有的字體,即為替換字體。

其中,所述動(dòng)態(tài)替換方法包括:

步驟4、根據(jù)步驟2-3獲取的不同屬性的文本格式的漢字文本塊圖像的紋理特征向量,構(gòu)建每一類漢字文本塊圖像的紋理特征值的數(shù)據(jù)集合,并對該紋理特征值的數(shù)據(jù)集合,對搜索空間進(jìn)行層次劃分,構(gòu)建空間索引樹;

步驟5、已知待顯示文檔中文本字體、字號、行間距、字符間距及字型的屬性值;判斷閱讀器系統(tǒng)中是否存在待顯示文檔文本塊圖像的文本字體,根據(jù)步驟4中空間索引樹的建立,為漢字文本塊圖像的紋理特征值建立索引。

其中,所述建立索引的方法具體包括:

步驟5.1:輸入需要待顯示的漢字文本塊圖像的紋理特征值,通過遍歷步驟4構(gòu)建的空間索引樹,得到與待顯示漢字文本塊圖像中最相似的k種字體,k種字體按照與待顯示文檔相似度由大到小的順序排序,并依次判斷系統(tǒng)中是否存在這些字體;如果系統(tǒng)中存在漢字文本塊圖像替換字體,則進(jìn)行替換,如果系統(tǒng)中不存在替換字體,則查詢下一種最相近字體;

步驟5.2:如果閱讀器系統(tǒng)中不存在步驟5.1中得到的k種近鄰字體,則將步驟4中構(gòu)建的空間索引樹中的k種字體節(jié)點(diǎn)刪除,得到新的索引樹,重復(fù)步驟5.2。

本發(fā)明的上述技術(shù)方案的有益效果如下:本發(fā)明實(shí)施例提出了一種字體相似度和字體替換方法,構(gòu)造一種基于最優(yōu)視覺效果的字體分類方法,將視覺上相似的字體歸為一類,為字體替代奠定基礎(chǔ),填補(bǔ)字體分類沒有確定分類原則的空白。同時(shí)本發(fā)明實(shí)施例建立了字體替換的規(guī)則,解決電子出版物在多種平臺(tái)上閱讀時(shí),字體替換使用私有的技術(shù),造成風(fēng)格不一致,版面不美觀,甚至出現(xiàn)錯(cuò)誤(簡繁體)的問題。本發(fā)明實(shí)施例研究最優(yōu)視覺效果字體替換方法,靜態(tài)替換方法,根據(jù)字體替換規(guī)則的建立來構(gòu)建替換查詢樹,動(dòng)態(tài)替換方法,通過K-d Tree、Ball Tree或者R-Tree等算法,構(gòu)建漢字文本塊圖像的紋理特征值大規(guī)??臻g數(shù)據(jù)索引,然后對搜索空間進(jìn)行層次劃分,再進(jìn)行k-近鄰查詢,保證搜索的效率;當(dāng)待顯示文檔字體缺失時(shí),準(zhǔn)確、高效地找到最優(yōu)視覺效果的替換字體。

附圖說明

圖1為本發(fā)明實(shí)施例的出版物字體替換框架示意圖;

圖2為本發(fā)明實(shí)施例的出版物字體替換查詢樹葉子相似度鏈表節(jié)點(diǎn)示意圖。

具體實(shí)施方式

為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。

本發(fā)明實(shí)施例提出了一種字體相似度和字體替換方法,該方法典型的可以用于基于出版物的字體相似度計(jì)算和替換。本發(fā)明實(shí)施例的方法可以分為靜態(tài)替換方法和動(dòng)態(tài)替換方法,本發(fā)明對這兩個(gè)方法作為兩個(gè)實(shí)施例來進(jìn)行說明,以便于理解。

對于靜態(tài)字體替換方法,具體步驟如下:

一、出版物字體相似度的計(jì)算方法

步驟1:樣本集的構(gòu)造。

利用常用漢字,根據(jù)預(yù)設(shè)的影響字體視覺效果的屬性值,如字體、字號、行間距、字符間距、字型等屬性,構(gòu)造出不同的漢字文本塊,以得到漢字文本塊圖像,其中,

不同字體,記為集合A={a1,a2,a3...ai...an}(1≤n≤k1);

不同字號,記為集合B={b1,b2,b3...bi...bn}(1≤n≤k2);

不同行間距,記為集合C={c1,c2,c3…ci…cn}(1≤n≤k3);

不同字符間距,記為集合D={d1,d2,d3…di…dn}(1≤n≤k4);

不同字型,記為集合E={e1,e2,e3,e4},4種字型分別為標(biāo)準(zhǔn)體、粗體、斜體、粗斜體。

步驟2:計(jì)算漢字文本塊圖像集合的紋理特征值。

步驟2.1:構(gòu)建漢字文本塊圖像樣本庫,其中所述漢字文本塊圖像包括n×n(n≥2)個(gè)不交疊的漢字;根據(jù)屬性值的不同,將漢字文本圖像分為若干類,構(gòu)成集合W,記為

W={wi|i∈R(R為實(shí)數(shù))且1≤i≤k1×k2×k3×k4×4};

每一類文本圖像記為

wi=(x1,x2,x3,x4,x5)|x1∈A,x2∈B,x3∈C,x4∈D,x5∈E;

每一類文本圖像具有紋理特征向量

步驟2.2:分別從wi(i=1,2,3......)中選取m(m≥2)幅漢字文本塊圖像,構(gòu)成集合Ui。

步驟2.3:利用紋理特征提取方法,例如,用Garbor小波紋理特征提取算法,對m(m≥2)幅漢字文本塊圖像分別進(jìn)行Gabor小波變換,分別提取每幅圖像的多個(gè)通道的均值和標(biāo)準(zhǔn)偏差等紋理特征,得到m幅漢字文本塊圖像的紋理特征向量,再利用K-means等聚類算法計(jì)算m個(gè)紋理特征向量的質(zhì)心Yi,即為第i類漢字文本塊wi的特征向量。

關(guān)于字體相似度處理方法,以下列舉Gabor小波紋理特征提取方法,其特征在于,所述方法具體包括:

步驟2.3.1:對每幅漢字文本塊圖像進(jìn)行Gabor小波變換,選用二維Gabor濾波函數(shù):

其中,Sx、Sy是變量在x軸、y軸變化的范圍,即選定的gabor小波的窗口的大??;f為正弦函數(shù)的頻率;theta為Gabor濾波器的方向;

其中

xp=x*cos(theta)+y*sin(theta)

yp=y(tǒng)*cos(theta)-x*sin(theta)

其中,x∈Sx,y∈Sy,theta為Gabor濾波器的方向,xp為漢字文本塊圖像通過theta方向的gabor濾波器,在x軸方向上的能量值;yp為漢字文本塊圖像通過theta方向的gabor濾波器,在y軸方向上的能量值;

得到多個(gè)不同通道圖像;

步驟2.3.2:對濾波后的圖像做傅里葉變換,將圖像變換到頻域,將圖像做歸一化處理;

步驟2.3.3:分別提取每幅圖像的多個(gè)通道的均值和標(biāo)準(zhǔn)偏差等紋理特征,得到多維特征向量,例如提取圖像的平均值(Mean)和標(biāo)準(zhǔn)偏差(Std)表示紋理特征。每個(gè)通道輸出圖像的平均值Mean和標(biāo)準(zhǔn)偏差Std分別為:

其中,h(x,y)為漢字文本塊圖像在點(diǎn)(x,y)的灰度值。

需要指出的是,本發(fā)明技術(shù)并不局限于以上所提到的漢字文本塊紋理特征提取方法,一方面,這里選擇將漢字文本塊圖像變換到頻域上進(jìn)行分析,目的是從視覺紋理特性的角度出發(fā),提出一種字體相似度客觀度量方法。另一方面,在大多數(shù)紋理特征提取算法上,本發(fā)明技術(shù)都能取得令人滿意的結(jié)果。

步驟3:字體相似度的計(jì)算

步驟3.1:通過上述步驟,分別提取集合Ui中所有漢字文本塊圖像的紋理特征向量,利用K-means等聚類算法,得到每一類wi的質(zhì)心紋理特征向量Yi,記為:

需要指出的是,本發(fā)明技術(shù)在計(jì)算每一類文本塊的紋理特征時(shí),并不僅僅局限于以上所提到的K-means聚類算法,可根據(jù)數(shù)據(jù)集的實(shí)際情況選擇合適的算法,計(jì)算每一類wi的質(zhì)心。

步驟3.2:對于計(jì)算兩類漢字文本塊wi與wj的紋理特征向量Yi與Yj之間的距離,也即這兩類字體之間的相似度。方法如下:通過以下公式計(jì)算兩個(gè)n維特征向量Yi(yi1,yi2,...yin)與Yj(yj1,yj2,...yjn)間的歐氏距離:

需要指出的是,本發(fā)明技術(shù)并不局限于以上所提到的利用歐氏距離來作為字體相似度度量方法,其他距離計(jì)算方法同樣適用。例如

(1)曼哈頓距離,記為,

(2)標(biāo)準(zhǔn)化歐氏距離,記為,

Sk為標(biāo)準(zhǔn)差分量,記為,

(3)向量之間的夾角余弦,記為,

需要指出的是,不僅僅是前述的歐氏距離、曼哈頓距離、標(biāo)準(zhǔn)歐氏距離、向量余弦這四種度量向量相似度的方法;事實(shí)上在大多數(shù)向量之間相似度計(jì)算方法上,本發(fā)明技術(shù)都能取得令人滿意的結(jié)果。

步驟3.3:通過上述步驟計(jì)算Yi到Y(jié)j(j≠i)之間的相似度,構(gòu)成n×n維的矩陣,得到不同字體之間的相似度。

二、待顯示文檔字體替換規(guī)則的建立

步驟4:待顯示文檔文本字體替換規(guī)則的建立。

步驟4.1:執(zhí)行步驟1,得到漢字文本塊圖像樣本庫;

步驟4.2:重復(fù)執(zhí)行步驟2和步驟3,得到文本格式屬性不同對應(yīng)的漢字文本塊圖像的紋理特征向量以及相似度;

步驟4.3:根據(jù)步驟3得到不同類漢字文本塊圖像之間的相似度,對于每一類漢字文本塊圖像wi,選取多個(gè)與其最相似的漢字文本塊圖像類別,并按照與wi的相似度由大到小的順序排序,得到第i類漢字文本塊圖像wi的相似度鏈表,記為Li,相似度鏈表Li中的每一個(gè)節(jié)點(diǎn)node(j),表示wi的第j個(gè)相似度節(jié)點(diǎn),即替換字體節(jié)點(diǎn),記為node(j)={dij、aj、bj、cj、dj、ej}。

其中,dij是第i類漢字文本塊圖像wi和第j類漢字文本塊圖像wj的相似度,aj是第j類漢字文本塊圖像wj的字體屬性,bj是第j類漢字文本塊圖像wj中的字號屬性,cj是第j類漢字文本塊圖像wj中的行間距屬性,dj是第j類漢字文本塊圖像wj中的字符間距屬性,ej是第j類漢字文本塊圖像wj中的字型屬性。由此可以建立字體的替換規(guī)則表,如表1和表2所示,其中最后一欄為對應(yīng)的相似度鏈表。三、最優(yōu)視覺效果字體替換方法

步驟5:已知待顯示文檔中文本字體、字號、行間距、字符間距及字型的屬性值。判斷閱讀器系統(tǒng)中是否存在待顯示文檔文本塊圖像的文本字體,若系統(tǒng)中不存在該漢字文本塊圖像文本的字體,根據(jù)待顯示文檔文本字體,查詢替換規(guī)則表,尋找最優(yōu)視覺效果的替換字體。

步驟6:靜態(tài)替換方法,通過查詢替換規(guī)則表,查找替換字體。

靜態(tài)替換方法,具體步驟包括:

步驟6.1:在替換規(guī)則表中,查詢第一列,定位待顯示文檔字體所在的行。如果替換規(guī)則表中不存在待顯示文檔字體,則默認(rèn)選取宋體,字號、行間距、字符間距等屬性與待顯示文檔相同。如果替換規(guī)則表中存在待顯示文檔字體,則篩選與該字體相關(guān)的所有行,繼續(xù)執(zhí)行步驟6.2。

步驟6.2:在步驟6.1篩選出的行中,查詢第二列,定位待顯示文檔字號所在的行。如果不存在待顯示文檔字號,則選取與其字號差別最小的行,并篩選與該字號相關(guān)的所有行,繼續(xù)執(zhí)行步驟6.3。

步驟6.3:在步驟6.2篩選出的行中,查詢第三列,定位待顯示文檔行間距所在的行。如果不存在待顯示文檔行間距,則選取與其行間距差別最小的行,并篩選與該行間距相關(guān)的所有行,繼續(xù)執(zhí)行步驟6.4。

步驟6.4:在步驟6.3篩選出的行中,查詢第四列,定位待顯示文檔字符間距屬性。如果不存在待顯示文檔字符間距,則選取與其字符間距差別最小的行,并篩選與該字符間距相關(guān)的所有行,繼續(xù)執(zhí)行步驟6.5。

步驟6.5:在步驟6.4篩選出的行中,查詢第五列,定位字型屬性,并得到相似度鏈表。從相似度鏈表的第一個(gè)節(jié)點(diǎn)開始,找到第一個(gè)閱讀器擁有的字體,即為替換字體。

表1替換規(guī)則表

表2替換規(guī)則實(shí)例表

動(dòng)態(tài)替換方法,具體步驟如下:

一、出版物字體相似度的計(jì)算方法

步驟1:樣本集的構(gòu)造。

利用常用漢字,根據(jù)預(yù)設(shè)的影響字體視覺效果的屬性值,如字體、字號、行間距、字符間距、字型等屬性,構(gòu)造出不同的漢字文本塊,以得到漢字文本塊圖像,其中,

不同字體,記為集合A={a1,a2,a3...ai...an}(1≤n≤k1);

不同字號,記為集合B={b1,b2,b3...bi...bn}(1≤n≤k2);

不同行間距,記為集合C={c1,c2,c3…ci…cn}(1≤n≤k3);

不同字符間距,記為集合D={d1,d2,d3…di…dn}(1≤n≤k4);

不同字型,記為集合E={e1,e2,e3,e4},4種字型分別為標(biāo)準(zhǔn)體、粗體、斜體、粗斜體。

步驟2:計(jì)算漢字文本塊圖像集合的紋理特征值。

步驟2.1:構(gòu)建漢字文本塊圖像樣本庫,其中所述漢字文本塊圖像包括n×n(n≥2)個(gè)不交疊的漢字;根據(jù)屬性值的不同,將漢字文本圖像分為若干類,構(gòu)成集合W,記為

W={wi|i∈R(R為實(shí)數(shù))且1≤i≤k1×k2×k3×k4×4};

每一類文本圖像記為

wi=(x1,x2,x3,x4,x5)|x1∈A,x2∈B,x3∈C,x4∈D,x5∈E;

每一類文本圖像具有紋理特征向量

步驟2.2:分別從wi(i=1,2,3......)中選取m(m≥2)幅漢字文本塊圖像,構(gòu)成集合Ui。

步驟2.3:利用紋理特征提取方法,例如,用Garbor小波紋理特征提取算法,對m(m≥2)幅漢字文本塊圖像分別進(jìn)行Gabor小波變換,分別提取每幅圖像的多個(gè)通道的均值和標(biāo)準(zhǔn)偏差等紋理特征,得到m幅漢字文本塊圖像的紋理特征向量,再利用K-means等聚類算法計(jì)算m個(gè)紋理特征向量的質(zhì)心Yi,即為第i類漢字文本塊wi的特征向量。

關(guān)于字體相似度處理方法,以下列舉Gabor小波紋理特征提取方法,其特征在于,所述方法具體包括:

步驟2.3.1:對每幅漢字文本塊圖像進(jìn)行Gabor小波變換,選用二維Gabor濾波函數(shù):

其中,Sx、Sy是變量在x軸、y軸變化的范圍,即選定的gabor小波的窗口的大??;f為正弦函數(shù)的頻率;theta為Gabor濾波器的方向;

其中

xp=x*cos(theta)+y*sin(theta)

yp=y(tǒng)*cos(theta)-x*sin(theta)

其中,x∈Sx,y∈Sy,theta為Gabor濾波器的方向,xp為漢字文本塊圖像通過theta方向的gabor濾波器,在x軸方向上的能量值;yp為漢字文本塊圖像通過theta方向的gabor濾波器,在y軸方向上的能量值;

得到多個(gè)不同通道圖像;

步驟2.3.2:對濾波后的圖像做傅里葉變換,將圖像變換到頻域,將圖像做歸一化處理;

步驟2.3.3:分別提取每幅圖像的多個(gè)通道的均值和標(biāo)準(zhǔn)偏差等紋理特征,得到多維特征向量,例如提取圖像的平均值(Mean)和標(biāo)準(zhǔn)偏差(Std)表示紋理特征。每個(gè)通道輸出圖像的平均值Mean和標(biāo)準(zhǔn)偏差Std分別為:

其中,h(x,y)為漢字文本塊圖像在點(diǎn)(x,y)的灰度值。

需要指出的是,本發(fā)明技術(shù)并不局限于以上所提到的漢字文本塊紋理特征提取方法,一方面,這里選擇將漢字文本塊圖像變換到頻域上進(jìn)行分析,目的是從視覺紋理特性的角度出發(fā),提出一種字體相似度客觀度量方法。另一方面,在大多數(shù)紋理特征提取算法上,本發(fā)明技術(shù)都能取得令人滿意的結(jié)果。

步驟3:字體相似度的計(jì)算

步驟3.1:通過上述步驟,分別提取集合Ui中所有漢字文本塊圖像的紋理特征向量,利用K-means等聚類算法,得到每一類wi的質(zhì)心紋理特征向量Yi,記為:

需要指出的是,本發(fā)明技術(shù)在計(jì)算每一類文本塊的紋理特征時(shí),并不僅僅局限于以上所提到的K-means聚類算法,可根據(jù)數(shù)據(jù)集的實(shí)際情況選擇合適的算法,計(jì)算每一類wi的質(zhì)心。

步驟3.2:對于計(jì)算兩類漢字文本塊wi與wj的紋理特征向量Yi與Yj之間的距離,也即這兩類字體之間的相似度。方法如下:通過以下公式計(jì)算兩個(gè)n維特征向量Yi(yi1,yi2,...yin)與Yj(yj1,yj2,...yjn)間的歐氏距離:

需要指出的是,本發(fā)明技術(shù)并不局限于以上所提到的字體相似度度量方法,其他距離計(jì)算方法同樣適用。例如曼哈頓距離,記為,

標(biāo)準(zhǔn)化歐氏距離,記為,

Sk為標(biāo)準(zhǔn)差分量,記為,

計(jì)算向量之間的夾角余弦,記為,

等等,在大多數(shù)向量之間相似度計(jì)算方法上,本發(fā)明技術(shù)都能取得令人滿意的結(jié)果。

步驟3.3:通過上述步驟計(jì)算Yi到Y(jié)j(j≠i)之間的歐氏距離,構(gòu)成n×n維的矩陣,得到不同字體之間的相似度。

二、空間索引樹的建立

步驟4:漢字文本塊圖像紋理特征空間索引樹的建立。

步驟4.1:執(zhí)行步驟1,得到漢字文本塊圖像樣本庫;

步驟4.2:重復(fù)執(zhí)行步驟2和步驟3,得到不同格式屬性對應(yīng)的漢字文本塊圖像的紋理特征向量;

步驟4.3:由計(jì)算步驟4.2中獲得的每一類漢字文本塊圖像的紋理特征值構(gòu)成數(shù)據(jù)集合,按照K-d Tree、Ball Tree或者R-Tree等算法對搜索空間進(jìn)行層次劃分,構(gòu)建空間索引樹。

三、最優(yōu)視覺效果字體替換方法

已知待顯示文檔中文本字體、字號、行間距、字符間距及字型的屬性值。判斷閱讀器系統(tǒng)中是否存在待顯示文檔文本塊圖像的文本字體,根據(jù)步驟4中空間索引樹的建立,通過BBF、K-近鄰、BR等算法,為步驟2和步驟3中獲得的漢字文本塊圖像的紋理特征值建立索引,本發(fā)明以K-d Tree作為實(shí)施例。

動(dòng)態(tài)替換方法,具體步驟包括:

步驟5.1:輸入需要待顯示的漢字文本塊圖像的紋理特征值,通過BBF查找算法、BR算法等算法,遍歷步驟4構(gòu)建的空間索引樹,得到與待顯示漢字文本塊圖像中最相似的k種字體,k種字體按照與待顯示文檔相似度由大到小的順序排序,并依次判斷系統(tǒng)中是否存在這些字體。如果系統(tǒng)中存在漢字文本塊圖像替換字體,則進(jìn)行替換,如果系統(tǒng)中不存在替換字體,則查詢下一種最相近字體。

步驟5.2:如果閱讀器系統(tǒng)中不存在步驟5.1中得到的k種近鄰字體,那么將步驟4中構(gòu)建的空間索引樹中的k種字體節(jié)點(diǎn)刪除,得到新的索引樹,重復(fù)步驟5.2。

需要指出的是,K-近鄰查找的索引算法并不局限于以上所提到的K-d Tree、BallTree或者R-Tree幾種,在保證高效的查詢精確度和效率的前提下,在大多數(shù)索引算法上,本發(fā)明技術(shù)都能取到令人滿意的結(jié)果。

以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1