數(shù)據(jù)處理方法和設(shè)備的制作方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)處理方法和設(shè)備,該方法包括:圖片識(shí)別步驟,用于從圖片識(shí)別關(guān)鍵詞作為初始的檢索詞;網(wǎng)頁和候選關(guān)鍵詞獲取步驟,用于在搜索引擎中利用檢索詞進(jìn)行搜索來獲取網(wǎng)頁并從網(wǎng)頁中挖掘候選關(guān)鍵詞;評(píng)級(jí)步驟,用于基于檢索詞和/或候選關(guān)鍵詞與網(wǎng)頁之間的鏈接關(guān)系,對(duì)檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁進(jìn)行評(píng)級(jí);以及檢索詞選擇步驟,用于基于評(píng)級(jí)結(jié)果從候選關(guān)鍵詞中選擇網(wǎng)頁和候選關(guān)鍵詞獲取步驟中下次所用的檢索詞,重復(fù)執(zhí)行網(wǎng)頁和候選關(guān)鍵詞獲取步驟、評(píng)級(jí)步驟和檢索詞選擇步驟,直到滿足預(yù)定條件。根據(jù)本發(fā)明實(shí)施例,可以提高數(shù)據(jù)處理效率,更準(zhǔn)確地從圖片挖掘主題關(guān)鍵詞和主題網(wǎng)頁,從而有利于向用戶進(jìn)行后續(xù)的擴(kuò)展應(yīng)用和服務(wù)推薦。
【專利說明】數(shù)據(jù)處理方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)處理方法和設(shè)備,更具體地,涉及一種用于從圖片挖掘主題關(guān)鍵詞和主題網(wǎng)頁的方法和設(shè)備。
【背景技術(shù)】
[0002]圖片中的文字往往對(duì)了解該圖片的內(nèi)容非常重要。例如,廣告圖片中文本信息對(duì)客戶了解廣告內(nèi)容具有重要作用。利用字符識(shí)別(例如,OCR (光學(xué)字符識(shí)別))的結(jié)果和網(wǎng)絡(luò)信息可以更加全面地提取廣告的文本內(nèi)容,通過挖掘這些信息并提取廣告的主題(包括主題詞和主題網(wǎng)頁),將向客戶推薦其擴(kuò)展應(yīng)用或服務(wù)。
[0003]由于字符識(shí)別技術(shù)不能鎖定代表圖片(例如,廣告圖片)主題的關(guān)鍵詞,所以借助互聯(lián)網(wǎng)大量的文本信息,驗(yàn)證并提取廣告圖像中的文本。使用字符識(shí)別結(jié)果中的關(guān)鍵詞進(jìn)行檢索,文本聚類和匹配等數(shù)據(jù)挖掘手段,可獲取和廣告相關(guān)的主題網(wǎng)頁(檢索的網(wǎng)頁和廣告本身都表達(dá)一個(gè)內(nèi)容)。然而由于字符識(shí)別結(jié)果的具有一定不完整性或不正確性,導(dǎo)致部分關(guān)鍵詞檢索出的網(wǎng)頁可能具有發(fā)散性,生成噪音數(shù)據(jù),而且如果關(guān)鍵詞搜索的網(wǎng)頁發(fā)散,其輸入的關(guān)鍵詞的正確識(shí)別結(jié)果將被丟棄,不能召回。
[0004]因此,需要一種能夠解決上述問題的技術(shù)。
【發(fā)明內(nèi)容】
[0005]在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。但是,應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖用來確定本發(fā)明的關(guān)鍵性部分或重要部分,也不是意圖用來限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出關(guān)于本發(fā)明的某些概念,以此作為稍后給出的更詳細(xì)描述的前序。
[0006]因此,鑒于上述情形,本發(fā)明的目的是提供一種數(shù)據(jù)處理方法和設(shè)備,其能夠通過利用網(wǎng)絡(luò)挖掘所獲得的網(wǎng)頁對(duì)圖片的識(shí)別結(jié)果進(jìn)行校驗(yàn),將校驗(yàn)產(chǎn)生的候選詞再次作為檢索詞進(jìn)行網(wǎng)絡(luò)檢索和網(wǎng)絡(luò)挖掘,并根據(jù)檢索詞與網(wǎng)頁之間的鏈接關(guān)系來進(jìn)一步挖掘與圖片的主題關(guān)鍵詞和主題網(wǎng)頁。
[0007]根據(jù)本發(fā)明的實(shí)施例的一方面,提供了一種數(shù)據(jù)處理方法,其包括:圖片識(shí)別步驟,用于從圖片識(shí)別關(guān)鍵詞作為初始的檢索詞;網(wǎng)頁和候選關(guān)鍵詞獲取步驟,用于在搜索引擎中利用檢索詞進(jìn)行搜索來獲取網(wǎng)頁,并從網(wǎng)頁中挖掘候選關(guān)鍵詞;評(píng)級(jí)步驟,用于基于檢索詞和/或候選關(guān)鍵詞與網(wǎng)頁之間的鏈接關(guān)系,對(duì)檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁進(jìn)行評(píng)級(jí);以及檢索詞選擇步驟,用于基于評(píng)級(jí)結(jié)果從候選關(guān)鍵詞中選擇網(wǎng)頁和候選關(guān)鍵詞獲取中下次所用的檢索詞,其中,重復(fù)執(zhí)行網(wǎng)頁和候選關(guān)鍵詞獲取步驟、評(píng)級(jí)步驟和檢索詞選擇步驟,直到滿足預(yù)定條件為止。
[0008]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,在評(píng)級(jí)步驟中,還可以基于檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁與圖片識(shí)別結(jié)果之間的相似度來對(duì)檢索詞和/或候選關(guān)鍵詞以及所述網(wǎng)頁進(jìn)行評(píng)級(jí)。[0009]根據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,在評(píng)級(jí)步驟中,基于檢索詞和/或候選關(guān)鍵詞與網(wǎng)頁之間的鏈接關(guān)系、以及檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁與圖片識(shí)別結(jié)果之間的相似度,分別計(jì)算檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁的指向性級(jí)別和被指向性級(jí)別,并且基于指向性級(jí)別和被指向性級(jí)別中的至少一個(gè)對(duì)檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁進(jìn)行評(píng)級(jí)。
[0010]根據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,該數(shù)據(jù)處理方法還可以包括:評(píng)分步驟,用于在達(dá)到預(yù)定條件的情況下,基于指向性級(jí)別、被指向性級(jí)別以及這兩種級(jí)別的加權(quán)組合中的一種或多種,對(duì)檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁進(jìn)行評(píng)分;以及輸出步驟,基于評(píng)分結(jié)果,分別輸出滿足預(yù)定標(biāo)準(zhǔn)的檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁作為主題關(guān)鍵詞和主題網(wǎng)頁。
[0011]根據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,在網(wǎng)頁和候選關(guān)鍵詞獲取步驟中,還可以進(jìn)一步將網(wǎng)頁與圖片識(shí)別結(jié)果進(jìn)行比較來篩選網(wǎng)頁。
[0012]根據(jù)本發(fā)明的實(shí)施例的另一方面,還公開了一種數(shù)據(jù)處理設(shè)備,其包括:圖片識(shí)別單元,被配置成從圖片識(shí)別關(guān)鍵詞作為初始的檢索詞;網(wǎng)頁和候選關(guān)鍵詞獲取單元,被配置成在搜索引擎中利用檢索詞進(jìn)行搜索來獲取網(wǎng)頁,并從網(wǎng)頁中挖掘候選關(guān)鍵詞;評(píng)級(jí)單元,被配置成基于檢索詞和/或候選關(guān)鍵詞與網(wǎng)頁之間的鏈接關(guān)系,對(duì)檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁進(jìn)行評(píng)級(jí);檢索詞選擇單元,被配置成基于評(píng)級(jí)結(jié)果從候選關(guān)鍵詞中選擇網(wǎng)頁和候選關(guān)鍵詞獲取單元下次所用的檢索詞;以及控制單元,被配置成控制網(wǎng)頁和候選關(guān)鍵詞獲取單元、評(píng)級(jí)單元和檢索詞選擇單元重復(fù)執(zhí)行處理,直到滿足預(yù)定條件為止。
[0013]另外,根據(jù)本發(fā)明的實(shí)施例的另一方面,還提供了一種終端設(shè)備,該終端設(shè)備包括上述數(shù)據(jù)處理設(shè)備。這種終端設(shè)備例如可以包括移動(dòng)電話、掌上電腦、平板電腦、個(gè)人計(jì)算機(jī)7等等。
[0014]另外,根據(jù)本發(fā)明的實(shí)施例的又一方面,還提供了一種存儲(chǔ)介質(zhì),該存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行程序代碼時(shí),該程序代碼使得信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的數(shù)據(jù)處理方法。
[0015]此外,根據(jù)本發(fā)明的實(shí)施例的再一方面,還提供了一種程序產(chǎn)品,該程序產(chǎn)品包括機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行指令時(shí),該指令使得信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的數(shù)據(jù)處理方法。
[0016]因此,根據(jù)本發(fā)明的實(shí)施例,能夠提高數(shù)據(jù)處理效率,更準(zhǔn)確地從圖片挖掘主題關(guān)鍵詞和主題網(wǎng)頁,從而有利于向用戶進(jìn)行后續(xù)的擴(kuò)展應(yīng)用和服務(wù)推薦。
[0017]在下面的說明書部分中給出本發(fā)明實(shí)施例的其他方面,其中,詳細(xì)說明用于充分地公開本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,而不對(duì)其施加限定。
【專利附圖】
【附圖說明】
[0018]本發(fā)明可以通過參考下文中結(jié)合附圖所給出的詳細(xì)描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并形成說明書的一部分,用來進(jìn)一步舉例說明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。其中:
[0019]圖1是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)處理方法的流程圖;
[0020]圖2是示出根據(jù)本發(fā)明的圖片的示例;
[0021]圖3是示出檢索詞和/或候選關(guān)鍵詞與網(wǎng)頁之間的鏈接關(guān)系的示意圖;[0022]圖4是示出根據(jù)本發(fā)明的另一實(shí)施例的數(shù)據(jù)處理設(shè)備的功能配置的框圖;以及
[0023]圖5是示出作為本發(fā)明的實(shí)施例中所采用的信息處理設(shè)備的個(gè)人計(jì)算機(jī)的示例性結(jié)構(gòu)的框圖。
【具體實(shí)施方式】
[0024]在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡明起見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
[0025]在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其它細(xì)節(jié)。
[0026]以下將參照?qǐng)D1至5來詳細(xì)描述根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)處理方法和數(shù)據(jù)處理設(shè)備。
[0027]首先將參照?qǐng)D1來描述根據(jù)本發(fā)明的一個(gè)實(shí)施例的數(shù)據(jù)處理方法。如圖1所示,該數(shù)據(jù)處理方法可以包括圖片識(shí)別步驟S101、網(wǎng)頁和候選關(guān)鍵詞獲取步驟S102、評(píng)級(jí)步驟S103、檢索詞選擇步驟S104以及判斷步驟S105。優(yōu)選地,該數(shù)據(jù)處理方法還可以包括評(píng)分步驟S106以及輸出步驟S107。接下來將詳細(xì)描述各個(gè)步驟中的處理。
[0028]首先,在圖片識(shí)別步驟SlOl中,可以從圖片識(shí)別關(guān)鍵詞作為初始的檢索詞。該圖片例如可以為廣告圖片,并且例如可以采用OCR (光學(xué)字符識(shí)別)技術(shù)來從廣告圖片識(shí)別關(guān)鍵詞作為初始的檢索詞。然而,應(yīng)理解,字符識(shí)別方法不限于此,而可以采用任意適當(dāng)?shù)淖址R(shí)別方法。圖片可以是任意需要處理的圖片,例如,廣告圖片、從視頻中截取的圖片或任意其他圖片。
[0029]接下來,在網(wǎng)頁和候選關(guān)鍵詞獲取步驟S102中,可以在搜索引擎中利用所獲得的檢索詞進(jìn)行搜索來獲取網(wǎng)頁,并且從網(wǎng)頁挖掘候選關(guān)鍵詞。從搜索到的網(wǎng)頁挖掘候選關(guān)鍵詞的方法是本領(lǐng)域公知的,在此不再贅述。
[0030]優(yōu)選地,由于搜索引擎返回的網(wǎng)頁的數(shù)量非常大并且其中可能存在許多與圖片相關(guān)性較低的網(wǎng)頁,因此在網(wǎng)頁和候選關(guān)鍵詞獲取步驟S102中,還可以在挖掘候選關(guān)鍵詞之前,將搜索到的網(wǎng)頁與步驟SlOl中的圖片識(shí)別結(jié)果進(jìn)行比較,以初步對(duì)網(wǎng)頁進(jìn)行篩選,從而在一定程度上減少了數(shù)據(jù)處理量,提高了數(shù)據(jù)處理效率。
[0031 ] 在評(píng)級(jí)步驟S103中,可以基于所獲取的檢索詞和/或候選關(guān)鍵詞與網(wǎng)頁之間的鏈接關(guān)系,對(duì)檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁進(jìn)行評(píng)級(jí)。
[0032]優(yōu)選地,在評(píng)級(jí)步驟S103中,還可以基于所獲取的檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁與步驟SlOl中的圖片識(shí)別結(jié)果之間的相似度進(jìn)行評(píng)級(jí)。通過與圖片識(shí)別結(jié)果進(jìn)行匹配來進(jìn)行評(píng)級(jí),可以進(jìn)一步提高處理的準(zhǔn)確性。優(yōu)選地,可以根據(jù)接下來描述的特定編輯距離公式并通過多項(xiàng)特征融合的方式來計(jì)算相似度。
[0033]相似度的計(jì)算涉及編輯距離以及多特征選擇和融合。以下以從網(wǎng)頁中挖掘的候選關(guān)鍵詞為例來描述相似度的計(jì)算。
[0034]首先描述基于在圖片中識(shí)別出的關(guān)鍵詞的置信度的編輯距離計(jì)算方法。
[0035]因?yàn)樽址R(shí)別算法可能不是完全準(zhǔn)確,例如,字符識(shí)別出現(xiàn)錯(cuò)誤、噪音等問題,所以可以采用編輯距離算法提取從圖片中識(shí)別的關(guān)鍵詞(即,初始的檢索詞或初始的檢索詞的一部分)。編輯距離的計(jì)算是以動(dòng)態(tài)規(guī)劃方式尋找當(dāng)前最小編輯代價(jià)來實(shí)現(xiàn)的。編輯代價(jià)包括三種:增加一個(gè)字符所花費(fèi)的代價(jià),刪除一個(gè)字符所花費(fèi)的代價(jià),以及替換一個(gè)字符所花費(fèi)的代價(jià)。
[0036]在本發(fā)明的一個(gè)實(shí)施例中,對(duì)一般的編輯距離算法進(jìn)行了改進(jìn)。
[0037]由于字符識(shí)別的每個(gè)字符都具有置信度。置信度的值表示字符識(shí)別的準(zhǔn)確率。置信度越高,說明字符識(shí)別越準(zhǔn)確。因此,在本發(fā)明中,修改了編輯代價(jià)函數(shù),即,將每個(gè)字符的替換函數(shù)變換成字符的置信度。
[0038]假設(shè)從圖片中識(shí)別的關(guān)鍵詞字符串為O=O1, O2,……,Om,候選關(guān)鍵詞字符串為C=C1, C2,……,Cn,那么從字符串O到候選字符串C的編輯距離δ (O, C)如下:
[0039]δ (O, C) =min { Y ⑶ I S 為 O 到 C 的編輯序列}(I)
[0040]上述公式可遞歸定義如下:
【權(quán)利要求】
1.一種數(shù)據(jù)處理方法,包括: 圖片識(shí)別步驟,用于從圖片識(shí)別關(guān)鍵詞作為初始的檢索詞; 網(wǎng)頁和候選關(guān)鍵詞獲取步驟,用于在搜索引擎中利用所述檢索詞進(jìn)行搜索來獲取網(wǎng)頁,并從所述網(wǎng)頁中挖掘候選關(guān)鍵詞; 評(píng)級(jí)步驟,用于基于所述檢索詞和/或所述候選關(guān)鍵詞與所述網(wǎng)頁之間的鏈接關(guān)系,對(duì)所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁進(jìn)行評(píng)級(jí);以及 檢索詞選擇步驟,用于基于評(píng)級(jí)結(jié)果從所述候選關(guān)鍵詞中選擇所述網(wǎng)頁和候選關(guān)鍵詞步驟中下次所用的檢索詞, 其中,重復(fù)執(zhí)行所述網(wǎng)頁和候選關(guān)鍵詞獲取步驟、所述評(píng)級(jí)步驟和所述檢索詞選擇步驟,直到滿足預(yù)定條件為止。
2.根據(jù)權(quán)利要求1所述的方法,其中,在所述評(píng)級(jí)步驟中,還基于所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁與圖片識(shí)別結(jié)果之間的相似度來對(duì)所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁進(jìn)行評(píng)級(jí)。
3.根據(jù)權(quán)利要求2所述的方法,其中,在所述評(píng)級(jí)步驟中,基于所述檢索詞和/或所述候選關(guān)鍵詞與所述網(wǎng)頁之間的鏈接關(guān)系、以及所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁與圖片識(shí)別結(jié)果之間的相似度,分別計(jì)算所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁的指向性級(jí)別和被指向性級(jí)別,并且基于所述指向性級(jí)別和所述被指向性級(jí)別中的至少一個(gè)對(duì)所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁進(jìn)行評(píng)級(jí)。
4.根據(jù)權(quán)利要求3所述的方法,還包括: 評(píng)分步驟,用于在達(dá)到所述預(yù)定條件的情況下,基于所述指向性級(jí)別、所述被指向性級(jí)別以及這兩種級(jí)別的加權(quán)組合中的一種或多種,對(duì)所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁進(jìn)行評(píng)分;以及 輸出步驟,基于評(píng)分結(jié)果,分別輸出滿足預(yù)定標(biāo)準(zhǔn)的檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁作為主題關(guān)鍵詞和主題網(wǎng)頁。
5.一種數(shù)據(jù)處理設(shè)備,包括: 圖片識(shí)別單元,被配置成從圖片識(shí)別關(guān)鍵詞作為初始的檢索詞; 網(wǎng)頁和候選關(guān)鍵詞獲取單元,被配置成在搜索引擎中利用所述檢索詞進(jìn)行搜索來獲取網(wǎng)頁,并從所述網(wǎng)頁中挖掘候選關(guān)鍵詞; 評(píng)級(jí)單元,被配置成基于所述檢索詞和/或所述候選關(guān)鍵詞與所述網(wǎng)頁之間的鏈接關(guān)系,對(duì)所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁進(jìn)行評(píng)級(jí); 檢索詞選擇單元,被配置成基于所述評(píng)級(jí)結(jié)果從所述候選關(guān)鍵詞中選擇所述網(wǎng)頁和候選關(guān)鍵詞獲取單元下次所用的檢索詞;以及 控制單元,被配置成控制所述網(wǎng)頁和候選關(guān)鍵詞獲取單元、所述評(píng)級(jí)單元和所述檢索詞選擇單元重復(fù)執(zhí)行處理,直到滿足預(yù)定條件為止。
6.根據(jù)權(quán)利要求5所述的設(shè)備,其中,所述評(píng)級(jí)單元還被配置成基于所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁與圖片識(shí)別結(jié)果之間的相似度來對(duì)所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁進(jìn)行評(píng)級(jí)。
7.根據(jù)權(quán)利要求6所述的設(shè)備,其中,所述評(píng)級(jí)單元被配置成基于所述檢索詞和/或所述候選關(guān)鍵詞與所述網(wǎng)頁之間的鏈接關(guān)系、以及所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁與圖片識(shí)別結(jié)果之間的相似度,分別計(jì)算所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁的指向性級(jí)別和被指向性級(jí)別,并且基于所述指向性級(jí)別和所述被指向性級(jí)別中的至少一個(gè)對(duì)所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁進(jìn)行評(píng)級(jí)。
8.根據(jù)權(quán)利要求7所述的設(shè)備,還包括: 評(píng)分單元,被配置成在達(dá)到所述預(yù)定條件的情況下,基于所述指向性級(jí)別、所述被指向性級(jí)別以及這兩種級(jí)別的加權(quán)組合中的一種或多種,對(duì)所述檢索詞和/或所述候選關(guān)鍵詞以及所述網(wǎng)頁進(jìn)行評(píng)分;以及 輸出單元,被配置成基于評(píng)分結(jié)果,分別輸出滿足預(yù)定標(biāo)準(zhǔn)的檢索詞和/或候選關(guān)鍵詞以及網(wǎng)頁作為主題關(guān)鍵詞和主題網(wǎng)頁。
9.根據(jù)權(quán)利要求5所述的設(shè)備,其中,所述網(wǎng)頁和候選關(guān)鍵詞獲取單元被配置成進(jìn)一步將所述網(wǎng)頁與圖片識(shí)別結(jié)果進(jìn)行比較來篩選所述網(wǎng)頁。
10.一種終端設(shè)備,·包括根據(jù)權(quán)利要求5-9中任一項(xiàng)所述的數(shù)據(jù)處理設(shè)備。
【文檔編號(hào)】G06F17/30GK103577414SQ201210254434
【公開日】2014年2月12日 申請(qǐng)日期:2012年7月20日 優(yōu)先權(quán)日:2012年7月20日
【發(fā)明者】孫健, 夏迎炬, 楊宇航, 張明明 申請(qǐng)人:富士通株式會(huì)社