呈現(xiàn)圖像中描繪的文本的翻譯的制作方法
【專利說明】
【背景技術(shù)】
[0001]諸如智能電話的許多用戶設(shè)備都裝配有用于捕捉圖片和數(shù)字圖像的相機(jī)。用戶經(jīng)常在旅行中使用相機(jī)捕捉圖片并經(jīng)由多媒體消息或社交網(wǎng)絡(luò)站點(diǎn)分享圖片。用戶還可以使用圖像來獲取關(guān)于與目標(biāo)或位置相關(guān)的附加信息。例如,用戶可以捕捉地標(biāo)的圖像并使用所述圖像作為查詢發(fā)起互聯(lián)網(wǎng)搜索。
[0002]當(dāng)在講與用戶不同的語言的另一個(gè)國家旅行時(shí),用戶可能希望獲取用戶遇到的文本的翻譯。例如,在另一個(gè)國家內(nèi)旅行時(shí)用戶可能遇到是以外語的街道標(biāo)志,或者外語的項(xiàng)的列表。
【發(fā)明內(nèi)容】
[0003]本說明書描述了涉及基于與圖像相關(guān)聯(lián)的呈現(xiàn)場(context)呈現(xiàn)與圖像中描繪的文本有關(guān)的附加信息(例如,文本的語言翻譯)的技術(shù)。
[0004]通常,本說明書中所描述的主題的一個(gè)創(chuàng)新的方面可被具體化在包括以下動作的方法中:接收圖像;識別所述圖像中描繪的文本;基于所述圖像中描繪的所述文本的布置,從呈現(xiàn)場境中為所述圖像選擇一呈現(xiàn)場境,其中,每個(gè)呈現(xiàn)場境對應(yīng)于圖像內(nèi)文本的特定布置,并且每個(gè)呈現(xiàn)場境具有對應(yīng)的用戶界面,所述對應(yīng)的用戶界面用于呈現(xiàn)關(guān)于所述圖像中描繪的所述文本的附加信息,其中,用于每個(gè)呈現(xiàn)場境的用戶界面不同于用于其他呈現(xiàn)場境的用戶界面;識別對應(yīng)于所選擇的呈現(xiàn)場境的所述用戶界面;以及使用所識別的用戶界面來為所述圖像中描繪的所述文本的至少部分呈現(xiàn)附加信息,所述用戶界面在所述圖像之上的覆蓋中呈現(xiàn)所述附加信息。本方面的其他實(shí)施例包括被配置為執(zhí)行所述方法的所述動作、被編碼在計(jì)算機(jī)存儲設(shè)備上的對應(yīng)的系統(tǒng)、裝置和計(jì)算機(jī)程序。
[0005]這些和其他實(shí)施例可以分別可選地包括下列特征中的一個(gè)或多個(gè)。所述附加信息可以包括所識別的文本的至少部分的語言翻譯。為所述圖像選擇所述呈現(xiàn)場境包括識別所述圖像中描繪的多個(gè)單獨(dú)的文本塊以及基于所述圖像中描繪的所述多個(gè)單獨(dú)的文本塊,為所述圖像選擇所述呈現(xiàn)場境。
[0006]為所述圖像選擇所述呈現(xiàn)場境包括基于所述圖像中描繪的所述文本的所述布置,確定所述文本的第一部分相較于所述文本的至少一個(gè)其他部分被更突出地呈現(xiàn);以及響應(yīng)于所述確定,從所述呈現(xiàn)場境中選擇突出場境。
[0007]識別對應(yīng)于所選擇的呈現(xiàn)場境的所述用戶界面可以包括識別對應(yīng)于所述突出場境的突出用戶界面。為所述圖像中描繪的所述文本的至少部分呈現(xiàn)附加信息可以包括在所述文本的所述第一部分之上的覆蓋中呈現(xiàn)所述文本的所述第一部分的語言翻譯。
[0008]為所述圖像選擇所述呈現(xiàn)場境可以包括:確定所述圖像中描繪的所述文本包括地址;以及響應(yīng)于所述確定,從所述呈現(xiàn)場境中選擇地圖場境。識別對應(yīng)于所選擇的呈現(xiàn)場境的所述用戶界面可以包括識別對應(yīng)于所述地圖場境的地圖用戶界面。為所述圖像中描繪的所述文本的至少部分呈現(xiàn)附加信息可以包括在地圖的圖像內(nèi)呈現(xiàn)所述地址的語言翻譯。
[0009]識別對應(yīng)于所選擇的呈現(xiàn)場境的所述用戶界面可以包括識別對應(yīng)于所述地圖場境的地圖用戶界面。為所述圖像中描繪的所述文本的至少部分呈現(xiàn)附加信息可以包括呈現(xiàn)對應(yīng)于所述地圖的圖像內(nèi)的所述地址的標(biāo)題。所述標(biāo)題以與呈現(xiàn)所述地圖的所述圖像的設(shè)備相關(guān)聯(lián)的用戶的語言被呈現(xiàn)。
[0010]為所述圖像選擇所述呈現(xiàn)場境可以包括:識別所述圖像中描繪的單獨(dú)的文本塊;基于所述單獨(dú)的文本塊的布置以及所述單獨(dú)的文本塊的呈現(xiàn),確定所述多個(gè)單獨(dú)的文本塊屬于文本的集合;以及響應(yīng)于所述確定,從所述呈現(xiàn)場境中選擇集合場境。
[0011]識別對應(yīng)于所選擇的呈現(xiàn)場境的所述用戶界面可以包括識別對應(yīng)于所述集合場境的集合用戶界面。為所述圖像中描繪的所述文本的至少部分呈現(xiàn)附加信息可以包括在所述圖像之上的覆蓋中呈現(xiàn)每個(gè)單獨(dú)的文本塊中描繪的文本的語言翻譯。每個(gè)語言翻譯可以被呈現(xiàn)在語言翻譯的對應(yīng)文本塊之上。
[0012]通常,本說明書中所描述的主題的另一個(gè)方面可被具體化在包括以下動作的方法中:接收圖像;識別所述圖像中描繪的文本,所識別的文本在圖像中所識別的一個(gè)或多個(gè)文本塊中,每個(gè)文本塊與圖像中的其他文本塊不同;從突出場境中為所述圖像選擇突出呈現(xiàn)場境,其中,每個(gè)突出呈現(xiàn)場境對應(yīng)于在圖像內(nèi)呈現(xiàn)文本的每個(gè)文本塊的相關(guān)突出度,并且每個(gè)突出呈現(xiàn)場境具有用于呈現(xiàn)與圖像中描繪的所識別的文本有關(guān)的附加信息的對應(yīng)的用戶界面,對突出呈現(xiàn)場境的選擇是基于在圖像中描繪所識別的文本的一個(gè)或多個(gè)文本塊的相關(guān)突出度;識別對應(yīng)于所選擇的突出呈現(xiàn)場境的用戶界面;以及使用所識別的用戶界面,為所述圖像中描繪的所述文本的至少部分呈現(xiàn)附加信息,所述用戶界面在所述圖像之上的覆蓋中呈現(xiàn)所述附加信息。本方面的其他實(shí)施例包括被配置為執(zhí)行所述方法的所述動作、被編碼在計(jì)算機(jī)存儲設(shè)備上的對應(yīng)的系統(tǒng)、裝置和計(jì)算機(jī)程序。
[0013]這些和其他實(shí)施例可以分別可選地包括下列特征中的一個(gè)或多個(gè)。為所述圖像選擇所述突出呈現(xiàn)場境可以包括:基于圖像內(nèi)的單個(gè)文本塊的位置和單個(gè)文本塊中所包括的文本的大小,確定所述圖像中描繪的所述文本包括突出顯示的文本的單個(gè)文本塊;并且響應(yīng)于所述確定從突出呈現(xiàn)場境中選擇單個(gè)塊場境。單個(gè)塊場境可以對應(yīng)于在突出顯示的文本的單個(gè)文本塊之上的覆蓋中呈現(xiàn)突出顯示的文本的單個(gè)文本塊中包括的文本的語言翻譯的用戶界面。
[0014]識別圖像中描繪的文本可以包括:識別第一文本塊和不同于第一文本塊的第二文本塊,第一文本塊和第二文本塊被描繪在圖像中。為所述圖像選擇所述突出呈現(xiàn)場境可以包括:確定第一文本塊相較于第二文本塊在圖像內(nèi)被顯示得更加突出;以及響應(yīng)于所述確定,從突出呈現(xiàn)場境中選擇主-次塊場境。主-次塊場境可以對應(yīng)于呈現(xiàn)文本的主要塊的語言翻譯的用戶界面。
[0015]使用所識別的用戶界面為所述圖像中描繪的所述文本的至少部分呈現(xiàn)附加信息可以包括:在圖像之上的覆蓋中呈現(xiàn)包括在第一文本塊中的文本的語言翻譯。覆蓋可以位于圖像中的第一文本塊之上。
[0016]方面可以進(jìn)一步包括在圖像中的第二文本塊的描繪處的主-次用戶界面中呈現(xiàn)可選擇的用戶界面元素;以及響應(yīng)于接收到對可選擇的用戶界面元素的選擇,呈現(xiàn)包括在第二文本塊中的文本的語言翻譯。
[0017]確定第一文本塊相較于第二文本塊在圖像內(nèi)被顯示得更加突出可以包括:確定包括在第一文本塊中的文本大于包括在第二文本塊中的文本;以及確定第一文本塊相較于第二文本塊位于離圖像的中心更接近。
[0018]識別圖像中描繪的文本可以包括:識別第一文本塊和不同于第一文本塊的第二文本塊。第一文本塊和第二文本塊可以被描繪在圖像中。為所述圖像選擇所述突出呈現(xiàn)場境可以包括:確定第一文本塊與第二文本塊在圖像內(nèi)以基本上相等的突出度被顯示;以及響應(yīng)于所述確定,從突出呈現(xiàn)場境中選擇同等突出場境。同等突出場境可以對應(yīng)于呈現(xiàn)了具有基本上相等的突出度的文本的多個(gè)塊的語言翻譯的用戶界面。
[0019]使用所述識別的用戶界面為所述圖像中描繪的所述文本的至少部分呈現(xiàn)附加信息可以包括:在圖像之上的第一覆蓋中呈現(xiàn)包括在第一文本塊中的文本的語言翻譯,第一覆蓋位于圖像中的第一文本塊之上;以及在圖像之上的第二覆蓋中呈現(xiàn)包括在第二文本塊中的文本的語言翻譯,第二覆蓋位于圖像中的第二文本塊之上。
[0020]確定第一文本塊與第二文本塊在圖像內(nèi)以基本上相等的突出度被顯示可以包括:確定包括在第一文本塊中的文本的大小基本上等于包括在第二文本塊中的文本的大小。
[0021]通常,本說明書中所描述的主題的另一個(gè)方面可被具體化在包括以下動作的方法中:接收圖像;識別所述圖像中描繪的文本,所識別的文本在圖像內(nèi)描繪的文本塊中,每個(gè)文本塊與圖像中其他的文本塊不同;從集合呈現(xiàn)場境中為圖像選擇集合呈現(xiàn)場境,其中每個(gè)集合呈現(xiàn)場境對應(yīng)于圖像內(nèi)的文本塊的布置并且每個(gè)集合呈現(xiàn)場境具有用于呈現(xiàn)與至少一個(gè)文本塊有關(guān)的附加信息的對應(yīng)用戶界面,對集合呈現(xiàn)場境的選擇是基于圖像中描繪的文本塊的布置;識別對應(yīng)于所選擇的集合呈現(xiàn)場境的用戶界面;以及使用所識別的用戶界面,呈現(xiàn)與文本塊中的至少一個(gè)有關(guān)的附加信息。本方面的其他實(shí)施例可以包括被配置為執(zhí)行所述方法的所述動作、被編碼在計(jì)算機(jī)存儲設(shè)備上的對應(yīng)的系統(tǒng)、裝置和計(jì)算機(jī)程序。
[0022]這些和其他實(shí)施例可以分別可選地包括下列特征中的一個(gè)或多個(gè)。從集合呈現(xiàn)場境中選擇所述集合呈現(xiàn)場境可以包括:基于將每個(gè)文本塊的文本與每個(gè)其他文本塊的文本的比較,確定文本塊中的每個(gè)是彼此相關(guān)的;以及響應(yīng)于所述確定而選擇單個(gè)集合呈現(xiàn)場境。單個(gè)集合呈現(xiàn)場境可以具有在圖像之上的一個(gè)或多個(gè)覆蓋中呈現(xiàn)每個(gè)文本塊的語言翻譯的對應(yīng)用戶界面。
[0023]從集合呈現(xiàn)場境中選擇集合呈現(xiàn)場境可以包括:基于將每個(gè)文本塊的文本與每個(gè)其他文本塊的文本的比較,確定文本塊中的兩個(gè)或多個(gè)彼此不相關(guān);以及響應(yīng)于所述確定而選擇多個(gè)項(xiàng)呈現(xiàn)場境,所述多個(gè)項(xiàng)呈現(xiàn)場境具有響應(yīng)于所述確定而在單獨(dú)的顯示頁面中呈現(xiàn)每個(gè)文本框的語言翻譯的對應(yīng)用戶界面。
[0024]對應(yīng)用戶界面可以包括用于每個(gè)文本塊的用戶界面元素。當(dāng)特定文本塊的用戶界面元素被選擇時(shí),對應(yīng)用戶界面可以呈現(xiàn)特定文本塊的語言翻譯。
[0025]從集合呈現(xiàn)場境中選擇集合呈現(xiàn)場境可以包括:確定每個(gè)文本塊的背景顏色與每個(gè)其他文本塊的背景顏色基本上匹配;基于對背景顏色基本上匹配的確定,確定文本塊彼此相關(guān);以及響應(yīng)于所述確定而選擇單個(gè)集合呈現(xiàn)場境。單個(gè)集合呈現(xiàn)場境可以具有在圖像之上的一個(gè)或多個(gè)覆蓋中呈現(xiàn)每個(gè)文本塊的語言翻譯的對應(yīng)用戶界面。
[0026]從集合呈現(xiàn)場境中選擇集合呈現(xiàn)場境可以包括:將每個(gè)文本塊的大小和位置與每個(gè)其他文本塊的大小和位置比較;基于所述比較來確定文本塊相關(guān);以及響應(yīng)于所述確定而選擇單個(gè)集合呈現(xiàn)場境。單個(gè)集合呈現(xiàn)場境可以具有在圖像之上的一個(gè)或多個(gè)覆蓋中呈現(xiàn)每個(gè)文本塊的語言翻譯的對應(yīng)用戶界面。
[0027]確定文本塊相關(guān)可以包括:確定文本塊的大小基本上類似并且每對相鄰的文本塊與其他每對相鄰的文本塊在圖像內(nèi)以基本上類似的距離被隔開。
[0028]從集合呈現(xiàn)場境中選擇集合呈現(xiàn)場境可以包括:基于第一組文本塊的布置,識別第一組類似的文本塊;基于第二組文本塊的布置,識別第二組類似的文本塊,第二組文本塊不同于第一組文本塊;以及響應(yīng)于識別第一組和第二組文本塊,選擇多個(gè)集合呈現(xiàn)場境,多個(gè)集合呈現(xiàn)場境對應(yīng)于為第一組類似文本塊呈現(xiàn)附加信息的用戶界面,其與用于第二組文本塊的附加信息分離。
[0029]方面可以進(jìn)一步包括翻譯文本塊中的至少一個(gè)的文本并至少基于翻譯的文本的多個(gè)特征確定翻譯的文本的可讀性度量。可以基于可讀性度量選擇用戶界面。
[0030]方面可以進(jìn)一步包括確定圖像是菜單的圖像并確定每個(gè)文本塊與菜單中的特定項(xiàng)相關(guān)聯(lián)。選擇用戶界面可以包括選擇在特定文本塊之上的覆蓋中呈現(xiàn)每個(gè)特定文本塊的翻譯的用戶界面。
[0031 ]方面可以進(jìn)一步包括,對于每個(gè)文本塊:識別對應(yīng)于文本塊的圖像中的價(jià)格,所述價(jià)格以特定貨幣被呈現(xiàn);將所述價(jià)格轉(zhuǎn)換為不同于特定貨幣的貨幣;以及在識別的價(jià)格之上或附近的覆蓋中呈現(xiàn)轉(zhuǎn)換后的價(jià)格。
[0032]可以實(shí)現(xiàn)本說明書中所描述的主題的特定實(shí)施例,以便實(shí)現(xiàn)以下好處中的一個(gè)或多個(gè)??梢栽趫D像的場境中以更易讀的方式呈現(xiàn)圖像中描繪的文本的翻譯(或與圖像中所識別的文本有關(guān)的其他信息)??梢曰谟糜趫D像的呈現(xiàn)場境動態(tài)地選擇用于呈現(xiàn)文本的翻譯的用戶界面,使得翻譯以對用戶有用的方式被呈現(xiàn)。通過使用可讀性度量來選擇使得翻譯能夠以更加可讀的形式被呈現(xiàn)的用戶界面,改善了翻譯的可讀性和清楚度。當(dāng)多個(gè)文本塊在圖像中被識別時(shí),用戶界面可以使用戶能夠快速且簡單地在不同文本塊的翻譯之間導(dǎo)航。
[0033]本說明書中所描述的主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在以下的附圖和描述中被闡述。通過說明書、附圖和權(quán)利要求,本主題的其他特征、方面和優(yōu)勢將變得顯而易見。
【附圖說明】
[0034]圖1是呈現(xiàn)與圖像中描繪的文本相關(guān)的附加信息的示例用戶設(shè)備的框圖。
[0035]圖2描繪了用于捕捉圖像并呈現(xiàn)圖像中描繪的文本的語言翻譯的示例用戶界面的屏幕截圖。
[0036]圖3描繪了用于捕捉呈現(xiàn)圖像中描繪的文本的語言翻譯的示例用戶界面的屏幕截圖。
[0037]圖4描繪了用于呈現(xiàn)圖像中描繪的文本的語言翻譯的示例用戶界面的屏幕截圖。
[0038]圖5描繪了用于捕捉圖像并呈現(xiàn)圖像中描繪的文本的語言翻譯的示例用戶界面的屏幕截圖。
[0039]圖6描繪了用于呈現(xiàn)圖像中描繪的文本的語言翻譯的示例用戶界面的屏幕截圖。
[0040]圖7描繪了用于呈現(xiàn)圖像中描繪的文本的語言翻譯的示例用戶界面的屏幕截圖。
[0041]圖8描繪了用于呈現(xiàn)圖像中描繪的文本的語言翻譯的示例用戶界面的屏幕截圖。
[0042]圖9是用于基于為圖像選擇的突出呈現(xiàn)場境來呈現(xiàn)與圖像中描繪的文本相關(guān)的附加信息的示例過程的流程圖。
[0043]圖10描繪了用于呈現(xiàn)圖像中描繪的文本的語言翻譯的示例用戶界面的屏幕截圖。
[0044]圖11描繪了用于捕捉圖像并且呈現(xiàn)圖像中描繪的文本的語言翻譯的示例用戶界面的屏幕截圖。
[0045]圖12描繪了用于呈現(xiàn)圖像中描繪的文本的語言翻譯的示例用戶界面的屏幕截圖。
[0046]圖13是用于基于為圖像選擇的集合呈現(xiàn)場境來呈現(xiàn)與圖像中描繪的文本相關(guān)的附加信息的示例過程的流程圖。
[0047]圖14描繪了用于呈現(xiàn)被識別為具有地圖場境的圖像中描繪的文本的語言翻譯的示例用戶界面的屏幕截圖。
[0048]圖15是用于基于為圖像選擇的地圖呈現(xiàn)場境來呈現(xiàn)與圖像中描繪的文本相關(guān)的附加信息的示例過程的流程圖。
[0049]圖16是用于基于為圖像選擇的呈現(xiàn)場境來呈現(xiàn)與圖像中描繪的文本相關(guān)的附加信息的示例過程的流程圖。
[0050]各種附圖中相同的參考數(shù)字和標(biāo)號指示相同的元素。
【具體實(shí)施方式】
[0051 ] 挺述
[0052]系統(tǒng)可以識別圖像中描繪的文本,翻譯所述文本,并將所述文本的翻譯以對用戶有用的方式呈現(xiàn)。然而,當(dāng)圖像描繪了多個(gè)不同的文本塊時(shí),簡單地呈現(xiàn)圖像描繪的全部文本的翻譯對用戶來說可能會令人混淆。例如,圖像可以描繪購物中心中幾個(gè)不同商店的標(biāo)志。在單個(gè)文本塊中呈現(xiàn)每個(gè)標(biāo)志的翻譯的用戶界面可能使用戶混淆,因?yàn)橛脩艨赡懿荒茏R別一個(gè)商店的名稱在哪里結(jié)束以及其他商店的名稱從哪里開始。而且,自動地呈現(xiàn)所有翻譯會導(dǎo)致混亂的顯示,這降低了用戶體驗(yàn)。
[0053]系統(tǒng)可以基于文本在圖像內(nèi)的布置和/或其他視覺特征確定如何呈現(xiàn)翻譯。例如,系統(tǒng)可以在確定什么文本要翻譯以及如何呈現(xiàn)翻譯的文本時(shí)考慮圖像描繪的文本的特征,諸如多個(gè)文本塊之間的接近度、文本塊之間的對齊、文本之間的相似性(例如,字體大小、語族、設(shè)計(jì)樣式、顏色、背景色等等)、一個(gè)或多個(gè)集合中多個(gè)文本塊的分組和/或文本識別中的置信水平。本文中所描述的這些以及其他特征可以提供對圖像的場境以及它的文本的深入理解。例如,文本塊關(guān)于圖像的中心或焦點(diǎn)的相對位置可以指示用戶最感興趣的文本。
[0054]在一些實(shí)現(xiàn)中,例如,基于文本在圖像內(nèi)的布置和/或其他視覺特征,系統(tǒng)可以從多個(gè)呈現(xiàn)場境中選擇呈現(xiàn)場境。多個(gè)呈現(xiàn)場境可以包括一個(gè)或多個(gè)突出呈現(xiàn)場境、一個(gè)或多個(gè)集合呈現(xiàn)場境和/或一個(gè)或多個(gè)地圖呈現(xiàn)場境。突出呈現(xiàn)場境是在圖像內(nèi)突出描繪一個(gè)或多個(gè)文本塊的場境。例如,單個(gè)文本塊可以位于圖像的中心附近,或者兩個(gè)類似的突出的文本塊可以被放置在離圖像的中心類似的距離處。集合呈現(xiàn)場境是在圖像中描繪多個(gè)有區(qū)別的文本塊的場境。例如,餐廳菜單的圖像可以被歸類為集合呈現(xiàn)場境,因?yàn)槊總€(gè)菜單項(xiàng)可被視為與圖像中描繪的每個(gè)其他菜單項(xiàng)相關(guān)的單個(gè)的文本塊。地圖呈現(xiàn)場境