從社交摘要中標記興趣點的制作方法
【專利摘要】提供了一種利用標簽來使搜索引擎的本地索引中的實體的條目豐富的方法。該方法包括從實體的鄰域內獲得有關位置的社交媒體消息;從所獲得的消息中確定對實體獨特的一個或多個術語;獨立地確定一個或多個獨特的術語中的一個或多個一同出現(xiàn)的術語;以及使用一個或多個一同出現(xiàn)的術作為標簽來標記本地索引中的實體。此外,提供了一種取回與搜索結果相關聯(lián)的社交媒體消息的方法。
【專利說明】從社交摘要中標記興趣點
【背景技術】
[0001] 諸如餐廳、電影院、銀行等之類的興趣點(Ρ0Ι)表示對搜索引擎的查詢的大量份 額。搜索引擎常常具有本地(搜索)索引,其通常填充有從不同市場中的數(shù)據(jù)服務提供商(例 如,Yel lowPages?和Nokia?)處獲得的本地實體。Nokia?收集關于不同國家中的本地 商業(yè)場所信息并且在Nokia Prime Place?下提供這些信息。興趣點的所有者通常想要使它 們的商業(yè)場所響應于用戶的查詢而出現(xiàn),并且同樣,當對本地商業(yè)場所進行搜索時,用戶希 望看到盡可能多的相關的結果。有時即使所有者沒有采取任何動作,商業(yè)場所也可以出現(xiàn) 在結果中,這是由于主要的搜索引擎是從許多不同的源中拉取(pull)數(shù)據(jù)的。一些搜索引 擎允許商業(yè)場所的所有者將關于他們的商業(yè)場所的信息直接加入到本地索引中,這增加了 在本地搜索期間被發(fā)現(xiàn)的可能性,并且增加了當查看信息時看到的信息的量。一些搜索引 擎供應商出售升級服務,并且這幫助商業(yè)場所的所有者超越其它競爭者。
[0002] 然而,就其不覆蓋某些市場中的所有本地實體的方面而言,在搜索引擎的本地索 引中所發(fā)現(xiàn)的數(shù)據(jù)是不完整的。此外,可能會缺少與每個實體相關聯(lián)的屬性中的一些,例如 電話號碼、URL、分類等。當查詢具有實體的名稱或類型而實體在索引中存在時,搜索引擎中 的本地查詢具有高的概率與存儲在本地索引中的本地實體相匹配。然而,由于缺少與現(xiàn)有 的實體或不存在的實體相關聯(lián)的標簽,因此本地查詢的一部分沒有在索引中發(fā)現(xiàn)足夠的匹 配。沒有在索引中發(fā)現(xiàn)合適的匹配的該部分的查詢引起LDCG損失。DCG(折扣累積增益)是通 常在信息檢索中使用的對網(wǎng)頁搜索引擎算法或相關應用的有效性的測量。使用在搜索引擎 結果集合中的文檔的分等級的相關性尺度,DCG基于文檔在結果列表中的位置來測量文檔 的有用性、或者增益。增益從結果列表的頂部到底部逐漸累積,同時每個結果的增益在更低 的排名處(rank)打折扣。更多使用的DCG的形式是NDCG,其是DCG的標準化的版本。LDCG是 DCG的本地版本并且其用作搜索引擎領域中的主度量,以用于測量搜索引擎的本地搜索的 質量。
[0003] 因此,存在用額外的詞語(通常被稱為標簽)使已知的實體的條目豐富/完整,以使 得發(fā)現(xiàn)實體的機會將增加的需求。這些標簽幫助在本地搜索過程中增強實體與查詢的匹 配。從而,改善搜索結果的質量。
[0004] 人們傾向于通過社交網(wǎng)絡分享他們在某些Ρ0Ι中的個人經(jīng)歷。他們表達對賓館以 及對在餐廳中他們最愛吃的食物等的評論。社交摘要(feed)可以是用于發(fā)現(xiàn)在索引中不存 在的新的實體或者將標簽與現(xiàn)有的實體相關聯(lián)的的好的源。
[0005] 以下所描述的實施例不限于解決了以上所提及的問題中的任何一個或全部的實 現(xiàn)。
【發(fā)明內容】
[0006] 以下呈現(xiàn)了本公開的簡化的概要,以便向讀者提供基本的理解。該
【發(fā)明內容】
不是 本公開的詳細的綜述,并且其不標識關鍵/重要元素或描繪說明書的范圍。其唯一的目的是 以簡化的形式呈現(xiàn)在本文中所公開的概念的選擇,作為之后所呈現(xiàn)的更加詳細的說明的前 序。
[0007] 為了得到更快速、更完整、更相關的針對本地搜索的搜索結果,所提出的是向搜索 索引的本地索引中的興趣點的實體添加搜索標簽。從興趣點的鄰域內獲得有關位置的社交 媒體消息(例如,標記有地理標簽的推文或者具有與其自身相關聯(lián)的位置信息的 Facebook?或Foursquare?帖子)。接著,從所獲得的消息中確定對興趣點獨特的(特定 的、特有的)術語(terms)。隨后,獨立地確定針對獨特的術語的一個或多個一同出現(xiàn)的術 語,它們可以被用作標簽(也被稱為"關鍵字")來標記本地索引中的興趣點。從而,興趣點被 更好地表征并且可以在未來的搜索中更好地被發(fā)現(xiàn)。
[0008] 還提出了通過不僅提供搜索結果而且還提供與其相關聯(lián)的社交媒體消息來向正 在搜索引擎中輸入本地查詢的用戶提供增強的用戶體驗。從用戶處接收有關位置的搜索查 詢。從搜索查詢中提取術語。將所提取的術語與本地索引中的實體的標簽進行比較。與相關 于條目的社交媒體消息一起取回匹配的實體。從而,用戶不僅僅發(fā)現(xiàn)關于興趣點的客觀信 息(名稱、地址等),還發(fā)現(xiàn)已經(jīng)訪問了該興趣點的其它用戶的主觀觀點。因此,用戶獲得關 于該興趣點的更加完整的印象。
[0009] 通過結合附圖而參考以下的【具體實施方式】,伴隨的特征中的許多將更容易被理解 為相同的將變得更好理解。
【附圖說明】
[0010] 本說明將從以下根據(jù)附圖對【具體實施方式】的閱讀中更好地理解,其中:
[0011] 圖1示出了搜索索引的本地索引中的興趣點的條目;
[0012] 圖2示出了如何從有關位置的社交媒體消息中確定獨特的術語;
[0013] 圖3示出了如何獲得針對獨特的術語的一同出現(xiàn)的術語;
[0014]圖4a示出了呈現(xiàn)包括最相關的社交媒體消息的搜索結果的第一種方式;
[0015] 圖4b示出了呈現(xiàn)包括最相關的社交媒體消息的搜索結果的第二種方式;以及
[0016] 圖5示出了其上可以實現(xiàn)在本文中所呈現(xiàn)的方法的實施例的計算環(huán)境。
[0017] 相同的附圖標記用于指代附圖中相同的部件。
【具體實施方式】
[0018] 在下文中結合附圖所提供的【具體實施方式】旨在作為本示例的說明,并且不旨在表 示本示例可以被構建或利用的僅有的形式。說明闡述了示例的功能以及用于構建示例和對 示例進行操作的步驟的順序。然而,可以由不同的示例來完成相同或者等價的功能和順序。
[0019] 盡管本示例在本文中被描述并被示出為以臺式計算機系統(tǒng)來實現(xiàn),但所描述的系 統(tǒng)是作為示例而非限制而提供的。本領域技術人員將理解的是,本示例適用于應用在多種 不同類型的計算系統(tǒng)中。
[0020] 圖1示出了搜索引擎的本地索引中的興趣點的條目。然而,在繼續(xù)進行對圖1的具 體描述之前,將討論實施例的幾個項目。
[0021] 可以被看作后端的第一個方面是指利用一個或多個標簽來使搜索引擎的本地索 引中的實體的條目豐富的方法。獲得來自實體的鄰域內的有關位置的社交媒體消息。從所 獲得的消息中確定對實體獨特的一個或多個術語。隨后,獨立地確定針對一個或多個獨特 的術語的一個或多個一同出現(xiàn)的術語。接著,將一個或多個一同出現(xiàn)的術語用作一個或多 個標簽來標記本地索引中的實體。
[0022] 在實施例的一些中,社交媒體(平臺)是Twitter?,而在其它實施例中,社交媒體平 臺是.Facebook?或Foursquare?。概括而言,可以在所要求保護的實施例內使用允許標 記地理標簽(geo-tagging)的所有社交媒體平臺。
[0023] Twitter?是使得用戶能夠發(fā)送和閱讀消息("推文")的在線社交網(wǎng)絡和微博客服 務,所述消息是限于140個字符的文本消息。已注冊的用戶可以閱讀和發(fā)布推文,但未注冊 用戶只能閱讀推文。用戶通過網(wǎng)站界面、SMS、或者移動設備應用來訪問Twitier?。
[0024]在實施例的一些中,有關位置的社交媒體消息是標記有地理標簽的推文。標記地 理標簽是向各種媒體(例如,標記有地理標簽的照片或視頻、網(wǎng)站、SMS消息、QR代碼、或RSS 饋源)添加地理標識元數(shù)據(jù)的過程,并且是地理空間元數(shù)據(jù)的一種形式。該數(shù)據(jù)通常由煒度 和經(jīng)度坐標組成,然而他們還可以包括海拔、方位角、距離、精度數(shù)據(jù)、以及地點名稱。在幾 乎所有情況下,在標記地理標簽時所使用的地理位置數(shù)據(jù)將從全球定位系統(tǒng)(GPS)中得出, 并且基于呈現(xiàn)地球上沿著赤道從西經(jīng)180°到東經(jīng)180°,并且沿著本初子午線從北煒90°到 南煒90°的各個位置的煒度/經(jīng)度坐標系統(tǒng)。
[0025] Twitter?用戶可以啟用定位服務,這允許他選擇性地向他的推文添加位置信息。 該特征是默認關閉的,并且他將需要選擇性加入來使用該特征。一旦通過網(wǎng)絡設置或者移 動設備啟用了定位服務,Twitter⑩將能夠附加發(fā)布推文的位置的具體坐標(煒度和經(jīng)度)。 [0026] 在其它實施例中,有關位置的社交消息是標記有地理標簽的Faeebaok⑩消息。 Facebook?是在線社交網(wǎng)絡服務。用戶在使用該網(wǎng)站之前進行注冊,在這之后他們可以創(chuàng) 建個人簡檔、將其它用戶添加為朋友、交換消息、并且當朋友更新他們的簡檔時接收到自動 通知。
[0027] 在其它實施例中,社交媒體是Foursquare⑧。Foursquare?是針對移動設備(例 如,智能電話)的基于位置的社交網(wǎng)絡網(wǎng)站。用戶通過從應用程序位置附近的一系列地點中 進行選擇而使用移動網(wǎng)站、文本消息發(fā)送、或者特定于設備的應用程序而在地點處"登入"。 位置是由移動設備中的GPS硬件或者由應用程序所提供的網(wǎng)絡位置所確定的。每次登入都 獎勵用戶積分并且有時獎勵"徽章"。對一地點登入最頻繁的用戶成為"市長",而經(jīng)常登入 的用戶競爭"市長的職位"。
[0028] 概括而言,有關位置的社交媒體消息是攜帶發(fā)送該消息的位置的指示的、來自社 交媒體平臺的消息。
[0029] 在實施例的一些中,實體是興趣點(Ρ0Ι),興趣點進而是有人可以發(fā)現(xiàn)是有用的或 感興趣的具體的點位置。在實施例的一些中,興趣點是諸如商店、購物中心、餐廳、銀行、賓 館、營地、加油站、游樂園、或者旅游景點之類的商業(yè)場所。
[0030] 在實施例的一些中,本地索引中的實體的(不完整的)條目也被認為是實體的位 置。接著,訪問包含有關位置的消息的社交媒體數(shù)據(jù)庫。在Twitter?的案例中,如果對編程 者可用,則可以使用提供當前已發(fā)布的(公開的)推文的流的Firehose?服務。如果 Firehose?服務不可用,則公共的選項是通過Twitter? API來訪問Twitter?。在實施例中 的一些中,以實時的方式從數(shù)據(jù)庫中獲得社交媒體消息。接著獲得實體的鄰域內所有的有 關位置的消息。接著,從所獲得的消息中計算獨特的術語。在實施例的一些中,通過從消息 中移除停用詞來計算獨特的術語。
[0031]在計算中,停用詞是通常較短、頻繁出現(xiàn)、非特定的詞語,其在對自然語言數(shù)據(jù)(文 本)的處理之前或之后被過濾出。沒有所有的工具都使用的確切的停用詞的列表,并且這樣 的過濾器不是一直使用的。出于給定的目的,可以選擇任何詞語的分組作為停用詞。對于一 些搜索機器而言,這些是最常見的短功能詞語,例如,the、is、at、which、和on。根據(jù)反映實 體的鄰域內的術語的重要性(或相關性)的分數(shù)來對剩余的術語進行排名。
[0032]在實施例的一些中,分數(shù)基于用戶頻率-反用戶頻率度量(UF-IUF),其將在用戶的 有關位置的社交媒體消息中提及術語的用戶的數(shù)量除以在實體的鄰域內發(fā)送有關位置的 社交媒體消息的用戶的總數(shù)量。例如,如果術語被相比于在實體的鄰域內發(fā)送有關位置的 社交媒體消息的用戶的總數(shù)量而言相對多的用戶提及,則該術語得到高分。如本領域技術 人員將容易地理解的,如在上文中所使用的表達"基于"意指也可以應用在實施例中的該度 量的變型是存在的。
[0033] 在其它實施例中,分數(shù)基于術語頻率-反文檔頻率度量(TF-IDF),其是反映詞語對 集合或語料庫中的文檔有多重要的數(shù)值統(tǒng)計。在信息檢索和文本挖掘中,其常常作為加權 因數(shù)來使用。TF-IDF分數(shù)值與在文檔中出現(xiàn)詞語的次數(shù)成比例地增加,但與語料庫中的詞 語的頻率相抵消,這幫助針對一些詞語通常比其它的詞語更加常見的這一事實進行控制。
[0034] 對于本實施例而言,這意味著"文檔"是社交媒體消息,而"集合"或"語料庫"全都 是實體的鄰域內的社交媒體消息。因此,術語頻率-反文檔頻率是術語在有關位置的社交媒 體消息中出現(xiàn)的次數(shù)除以其中出現(xiàn)術語的實體的鄰域內的有關位置的社交媒體消息的數(shù) 量。換句話說,例如,當術語出現(xiàn)很多次但僅僅在很少的實體的鄰域內的有關位置社交媒體 消息中出現(xiàn)時,術語獲得高分數(shù)。再一次,TF-IDF度量的很多變型是已知的,并且可以由本 領域技術人員使用來實現(xiàn)實施例。
[0035] 如果"術語"的分數(shù)超過閾值,則該"術語"被認為是對實體"獨特的術語"。(當然, 在同等原則下,可以在數(shù)學上重新定義分數(shù)的定義,以使得分數(shù)低于閾值的術語成為獨特 的術語。)
[0036] 在實施例的一些中,通過多個實體來合計術語分數(shù)以對術語進行排名。由此,獲得 包括幾個實體的整個區(qū)域的語言模型(=對整個區(qū)域獨特的術語),這促使對某些實體獨特 的術語超過在多個實體中出現(xiàn)的更常見的術語。以經(jīng)驗為主地,已經(jīng)發(fā)現(xiàn)獲得實體的名稱 作為分數(shù)最高的術語。事實就是這樣,因為有關位置的社交媒體消息是在Ρ0Ι位置周圍選擇 的,并且這些消息中的大多數(shù)是由諸如Foursquare?之類的社交網(wǎng)絡生成的登入社交媒體 消息。
[0037]在實施例的一些中,通過利用對實體獨特的一些屬性(例如,URL、名稱、搜索引擎 的本地索引中其描述的一部分)而對有關位置的社交媒體消息進行過濾來獲得對每個實體 獨特的術語。隨后,在實施例的一些中,針對上文中的所促成的最高分數(shù)的術語來計算最頻 繁的一同出現(xiàn)的術語。最頻繁的一同出現(xiàn)的術語充當元數(shù)據(jù)標簽以利用其對實體進行標 記。通過利用(額外的)搜索標簽來使搜索引擎的本地索引中的實體的條目豐富,可以更好 地發(fā)現(xiàn)所述實體。"標簽"是被分配至一則消息的關鍵詞或術語。這類元數(shù)據(jù)幫助描述項目, 并且允許通過瀏覽或搜索而再一次發(fā)現(xiàn)該項目。
[0038] 在實施例的一些中,一同出現(xiàn)的術語是針對來自有關位置的社交媒體消息和無關 位置的社交媒體消息的獨特的術語而獨立地確定的。換句話說,對于實體的每個獨特的術 語,通過根據(jù)反映社交媒體消息(有關位置的和無關位置的)內的術語的重要性(或相關性、 有意義性)的分數(shù)而對也在包含獨特的術語的社交媒體消息內的術語(的全部或其中一些) 進行排名,從而確定一個或多個一同出現(xiàn)的術語。在實施例的一些中,分數(shù)基于術語頻率_ 反文檔頻率(TF-IDF)度量或用戶頻率-反用戶頻率(UF-IUF)度量,并且將具有比閾值更高 的分數(shù)值的那些術語作為標簽添加在實體的條目中。在實施例的一些中,不僅將一同出現(xiàn) 的術語作為標簽添加在實體的條目中,而且將已經(jīng)針對實體而確定的獨特的術語添加到本 地索引中的實體的條目中。然而,一同出現(xiàn)的術語通常比獨特的術語更加豐富(更加有意 義)。
[0039] 在實施例的一些中,從在一段時間內發(fā)布的社交媒體消息中確定一同出現(xiàn)的術 語。在實施例的一些中,一段時間是三個月,在其它實施例中,一段時間是六個月,在其它實 施例中,一段時間是一年,并且在其它實施例中,一段時間是兩年。在實施例的一些中,本地 索引中的實體與關于該實體的有關位置的社交媒體消息相關聯(lián)。
[0040] 在實施例的一些中,鄰域包括具有100米到200米的半徑的圍繞著實體的圓形區(qū) 域。在其它實施例中,鄰域包括具有500米的半徑的圍繞著實體的圓形區(qū)域。在其它實施例 中,鄰域具有方形的形狀或任何其它幾何形狀。
[0041] 另一個方面指的是具有處理單元的計算設備;以及包括存儲在其上的計算機可執(zhí) 行指令的計算機存儲介質,其中當所述計算機可執(zhí)行指令由處理單元執(zhí)行時,使得處理單 元執(zhí)行利用一個或多個標簽來使搜索引擎的本地索引中的實體的條目豐富的方法。該方法 包括從實體的鄰域中獲得有關位置的社交媒體消息。接著,通過基于用戶頻率-反用戶頻率 度量的分數(shù)而從所獲得的消息中確定對實體獨特的一個或多個術語,所述度量包括在實體 的鄰域內的、用戶的有關位置的社交媒體消息中提及術語的用戶的數(shù)量除以在實體的鄰域 內發(fā)送有關位置的社交媒體消息的用戶的總數(shù)。接著,確定針對一個或多個獨特的術語的 一個或多個一同出現(xiàn)的術語;并且,使用一個或多個一同出現(xiàn)的術語來標記本地索引中的 實體。
[0042] 可以被認為是前端的第三方面是指包括存儲于其上的計算機可執(zhí)行指令的一個 或多個計算機存儲介質,其中,當所述計算機可執(zhí)行指令由處理器執(zhí)行時,使得所述處理器 執(zhí)行將來自搜索引擎的本地索引的搜索結果提供給用戶的方法。所述方法包括從用戶處接 收有關位置的搜索查詢。接著,例如通過從搜索查詢中移除停用詞來從搜索查詢中提取(搜 索)術語。將所提取的術語與本地索引中的實體的標簽進行比較。接著,從本地索引中取回 匹配的實體以及與該實體相關聯(lián)的社交媒體消息。
[0043]在實施例的一些中,實體是興趣點。
[0044] 在實施例的一些中,與實體相關聯(lián)的社交媒體消息是表征實體或者關于實體相關 的社交媒體消息。
[0045] 在實施例的一些中,將與匹配的實體相關聯(lián)的多媒體項目返回給用戶。
[0046] 在實施例的一些中,以基于也在特定的社交媒體消息中所發(fā)現(xiàn)的實體的標簽的數(shù) 量的排名來顯示與實體相關聯(lián)的社交媒體消息。
[0047] 在實施例的一些中,以基于社交媒體消息的新鮮度的排名來顯示與實體相關聯(lián)的 社交媒體消息。較新鮮的社交媒體消息被置于頂部,而較舊的社交媒體消息被置于底部。
[0048]在實施例的一些中,多媒體項目是人們在實體中拍攝的圖像或視頻。
[0049]最后,另一個方面是指發(fā)現(xiàn)新的實體并將其加入搜索引擎的本地實體的方法。該 方法包括獲得已知的實體的鄰域中的有關位置的社交媒體消息。接著,從所獲得的消息中 確定一個或多個獨特的術語。從獨特的術語中得出實體的名稱。接著,在本地索引中搜索實 體是否已經(jīng)存在(已經(jīng)是條目)。如果沒有在本地索引中發(fā)現(xiàn)實體,則針對本地索引中的實 體而添加新的條目。
[0050] 在實施例的一些中,通過確定獨特的詞語而得出實體的名稱,并且基于UF-IUF度 量或TF-IDF度量對它們進行排名以使得實體的名稱出現(xiàn)在排名的頂部。
[0051] 盡管已經(jīng)在上文中分離地解釋了實施例的獨立的特征,但是清楚的是,可以在一 個實施例內對所述特征進行組合。
[0052] 現(xiàn)在返回圖1,其示出了針對搜索引擎的本地索引中的興趣點的條目100的示例。 該示例中的興趣點是西雅圖市的特定的PizzaHuUR)餐廳。可以看到,條目100具有幾個屬 性,例如,"名稱"、"街道"、"城市"、以及"地理位置"等,但是因為缺少屬性"郵編"、"州"、和 "URL",因此條目100是不完整的。屬性"描述"(關鍵詞)僅僅包括標簽"披薩"和"食物"。如果 某人想要搜索在西雅圖市他可以吃意大利面的餐廳,盡管該餐廳在現(xiàn)實中實際上供應意大 利面,但他將不會發(fā)現(xiàn)該特定的PizzaHut?餐廳。因此,將利用額外的搜索標簽來使該實 體的條目豐富以改善搜索結果的質量,以使得未來用戶針對她可以吃意大利面的地點進行 搜索時會在搜索結果中發(fā)現(xiàn)該特定的餐廳。
[0053]圖2示出了如何發(fā)現(xiàn)對區(qū)域內的興趣點獨特的術語。P01存儲200包含許多興趣點 的地理位置,而社交媒體平臺300提供有關位置的社交媒體消息。如果社交媒體平臺300是 Twitter⑨,則有關位置的社交媒體消息215是標記有地理標簽的推文。在Ρ0Ι存儲200已經(jīng) 傳遞了興趣點的地理位置205之后,接著將在興趣點的鄰域內(例如,在500米的半徑內,見 地圖220)所發(fā)送的所有有關位置的社交媒體消息(=Ρ0Ι候選消息225)考慮在內以建立語 言模型230。為了該目的,從所有的Ρ0Ι候選消息225中移除所有停用詞。接著,根據(jù)基于用戶 頻率-反用戶頻率(UF-IUF)度量(或者術語頻率-反文檔頻率(TF-IDF))的分數(shù)來對剩余的 術語進行排名。為了確定術語的分數(shù),將在興趣點的鄰域內的、用戶的消息中提及術語的用 戶的數(shù)量除以在興趣點的鄰域內發(fā)布消息的用戶的數(shù)量。其分數(shù)高于閾值的那些術語被認 為是對Ρ0Ι獨特的。如已經(jīng)在上文中所提及的,當根據(jù)在上文中所描述的度量對獨特的術語 進行排名時,實體名稱被排名在頂部。
[0054]圖3示出了如何在下一階段從獨特的術語中得出Ρ0Ι元數(shù)據(jù)。在該階段中,使用獨 特的術語(=基于UF-IUF(或TF-IDF)具有高分數(shù)的術語),并且針對這些獨特的術語中的每 個來確定在包含該獨特的術語的社交媒體消息中頻繁地使用了哪些其它術語。例如,如果 存在許多諸如"我在Pizza Hut吃了好吃的意大利面"之類的社交媒體消息,則術語"意大利 面"和"Pizza Hut"被認為是一同出現(xiàn)的術語。在該階段中,分析了社交媒體消息的更寬泛 的基礎。不僅將有關位置的社交媒體消息310考慮在內,還將無關位置的社交媒體消息320 考慮在內。從而,由于將更大的語料庫用作基礎,因此可以發(fā)現(xiàn)更多一同出現(xiàn)的術語。在330 處,針對每個獨特的術語,確定包含該獨特的術語的所有有關位置的社交消息310和無關位 置的社交消息320,并且將他們稱為"有關Ρ0Ι的消息"。有關Ρ0Ι的消息還在時間上限于來自 一段時間的社交媒體消息,例如,過去的六個星期。有關POI的消息中的一些或所有的術語 (除了獨特的術語之外)是按TF-IDF或UF-IUF(提及一同出現(xiàn)的術語的獨特的用戶的數(shù)量除 以使用該獨特的術語本身的獨特的用戶的總數(shù)量)度量來排名的,這意味著獨特的和常見 的一同出現(xiàn)的術語將排名較高。如果具有比閾值高的分數(shù)的那些術語還沒有被存儲在實體 的條目100中的"描述"屬性下,則將該術語作為P0I元數(shù)據(jù)標簽而添加在"描述"下。
[0055]圖4a和圖4b示出了實施例的前端,并且涉及當針對本地商業(yè)場所進行搜索時用戶 具有的增強的體驗。以基于以下的排名來顯示與實體相關聯(lián)的社交媒體消息:(a)也在特定 的社交媒體消息中發(fā)現(xiàn)的實體的Ρ0Ι元數(shù)據(jù)標簽的數(shù)量、或者(b)社交媒體消息的新鮮度、 或者(c)社交媒體消息的長度、或者(d)社交媒體消息的長度、或者(e)作者是否具有經(jīng)驗證 的賬號(作者權威)、或者(f)社交媒體消息已經(jīng)被轉發(fā)的次數(shù)、或者(g)對該社交媒體消息 回復的數(shù)量。經(jīng)排名的社交媒體消息與查詢的結果一起被顯示。與興趣點相關的社交媒體 消息示出了人們對該興趣點的反饋,或者人們關于他們對該興趣點的體驗的總體看法???以使用興趣點的地理位置信息來獲得人們在該興趣點拍攝的相關的圖像和視頻。利用其它 用戶在興趣點的體驗來增加用戶體驗設定了用戶訪問該興趣點的預期,并且當她比較多個 興趣點時,幫助她做出更好的決定。
[0056]圖4a在顯示器右半邊中示出了相關的社交媒體消息,顯示器右半邊通常示出對搜 索結果的補充材料,例如,推薦的查詢。在圖4b中,在頁面的左半邊中顯示了示出搜索的結 果的社交媒體消息。在即時回答(instant answer)中顯示了社交媒體消息。
[0057] 可替代地或另外地,在本文中所描述的功能可以至少部分由一個或多個硬件邏輯 組件執(zhí)行。例如而非限制,可以使用的說明性類型的硬件邏輯組件包括:現(xiàn)場可編程門陣列 (FPGA)、專用集成電路(ASIC)、專用標準產品(ASSP)、片上系統(tǒng)(S0C)、復雜可編程邏輯器件 (CPLD)、圖形處理單元。
[0058] 圖5示出了可以被實現(xiàn)為任何形式的計算和/或電子設備的示例性的基于計算的 設備500的各種組件,并且其中,可以實現(xiàn)使搜索引擎的本地索引中的條目豐富的方法的實 施例。
[0059]基于計算的設備500還能夠執(zhí)行向搜索引擎的本地索引526添加新的實體的條目 的方法,以及向在末端用戶計算設備522處的末端用戶提供包括相關的社交媒體消息的搜 索結果的方法?;谟嬎愕脑O備500包括一個或多個處理器502,其可以是微處理器、控制 器、或用于處理計算機可執(zhí)行指令以控制設備500的操作的任何其它合適的類型的處理器。 在例如使用片上系統(tǒng)架構的一些示例中,處理器502可以包括一個或多個固定的功能模塊 (也被稱為加速器),其在硬件(而不是軟件或固件)中實現(xiàn)下載方法的一部分??梢栽诨?計算的設備500處提供包括操作系統(tǒng)504的平臺軟件或任何其它合適的平臺軟件。提供了可 以獲得社交媒體消息以用于對消息的內容進行處理和分析的數(shù)據(jù)存儲510。基于計算的設 備500、末端用戶計算設備522、以及搜索引擎524經(jīng)由網(wǎng)絡508相互連接。
[0060]可以使用能夠由基于計算的設備500訪問的任何計算機存儲介質來提供計算機可 執(zhí)行指令。計算機存儲介質可以包括諸如存儲器512之類的計算機存儲介質和通信介質。諸 如存儲器512之類的計算機存儲介質包括以任何用于存儲信息(例如,計算機可讀指令、數(shù) 據(jù)結構、程序模塊、或其它數(shù)據(jù))的方法或技術實現(xiàn)的易失性的和非易失性的、可移動的和 不可移動的介質。計算機存儲介質包括但不限于RAM、R0M、EPR0M、EEPR0M、閃速存儲器或其 它存儲器技術、CD-ROM、數(shù)字通用盤(DVD)、或其它光存儲設備、盒式磁帶、磁帶、磁盤存儲設 備或其它磁存儲設備、或者可以用于存儲信息以供計算設備存取的任何其它介質。相反,通 信介質可以實施計算機可讀指令、數(shù)據(jù)結構、程序模塊、經(jīng)調制的數(shù)據(jù)信號(例如,載波、或 其它傳輸機制)中的其它數(shù)據(jù)。如在本文中所定義的,計算機存儲介質不包括通信介質。因 此,計算機存儲介質不被解釋為傳播信號本身??梢栽谟嬎銠C存儲介質中呈現(xiàn)傳播的信號, 但是傳播的信號本身不是計算機存儲介質的示例。
[0061] 基于計算的設備500還包括輸入/輸出控制器516,輸入/輸出控制器516被設置為 將顯示信息輸出至顯示設備518,顯示設備518可以與基于計算的設備500分離或者集成至 基于計算的設備500。顯示信息可以提供圖形用戶界面。輸入/輸出控制器516還被設置為接 收并處理來自一個或多個設備的輸入,所述一個或多個設備例如用戶輸入設備520(例如, 鼠標、鍵盤、相機、麥克風、或其它傳感器)。顯示器和鍵盤可以通過交換器連接。在一些示例 中,用戶輸入設備520可以檢測語音輸入、用戶手勢、或其它用戶動作,并且可以提供自然用 戶界面(NUI)。該用戶輸入可以用于控制下載方法、設置參數(shù)值、查看結果、以及出于其它目 的。在實施例中,如果顯示設備518是觸摸感應顯示設備,則其還可以充當用戶輸入設備 520。輸入/輸出控制器516還可以將數(shù)據(jù)輸出至除了顯示設備之外的設備,例如,本地連接 的打印設備。
[0062] 輸入/輸出控制器516、顯示設備518、以及可選地用戶輸入設備520可以包括NUI技 術,該技術使得用戶能夠以自然的方式與基于計算的設備進行交互,以避免由輸入設備(例 如,鼠標、鍵盤、遙控器等)所施加的人為限制。可以提供的NUI技術的示例包括但不限于:依 賴語音和/或話音識別、觸摸和/或觸摸筆識別(觸摸感應顯示器)、屏幕上的以及貼近屏幕 的手勢識別、空中手勢、頭部和眼部追蹤、語音和話音、視覺、觸摸、手勢、和機器智能的那些 技術。可以使用的NUI技術的其它示例包括:意圖和目的理解系統(tǒng)、使用深度相機(例如,立 體相機系統(tǒng)、紅外相機系統(tǒng)、r g b相機系統(tǒng)、以及它們的組合)的運動手勢檢測系統(tǒng)、使用加 速度計/陀螺儀的運動手勢檢測、面部識別、3D顯示、頭部、眼部、和視線追蹤、沉浸式增強現(xiàn) 實和虛擬現(xiàn)實系統(tǒng)、以及用于使用電場傳感電極來感測腦部活動的技術(EEG和有關的方 法)。
[0063] 在本文中所使用的術語"計算機"或"基于計算的設備"是指具有處理能力以使其 可以執(zhí)行指令的任何設備。本領域技術人員將理解的是,這樣的處理能力被包含在許多不 同的設備中,并且因此,術語"計算機"和"基于計算的設備"每個都包括PC、服務器、移動電 話(包括智能電話)、平板計算機、機頂盒、媒體播放機、游戲控制器、個人數(shù)字助理、以及許 多其它設備。
[0064] 在本文中所描述的方法可以由以在有形的存儲介質上的機器可讀的形式(例如, 以包括當程序在計算機上運行時適用于執(zhí)行在本文中所描述的方法中的任何一個的全部 步驟的計算機程序代碼單元的計算機程序的形式,并且其中,計算機程序可以在計算機存 儲介質上被實施)的軟件來執(zhí)行。有形的存儲介質的示例包括計算機存儲設備,其包括諸如 盤、拇指驅動器、存儲器等之類的計算機存儲介質,并且不包括傳播的信號。傳播的信號可 以被呈現(xiàn)在有形的存儲介質中,但是傳播的信號本身不是有形的存儲介質的示例。軟件可 以適用于在并行處理器上執(zhí)行或在串行處理器上執(zhí)行,以使得可以以任何合適的順序或者 同時實行方法步驟。
[0065] 這承認了軟件可以是有價值的、能夠分離地交易的商品。期望包含運行于或者控 制"啞的"或者標準的硬件以實行期望的功能的軟件。也期望包含"描述"或者限定硬件的配 置的軟件,例如HDL(硬件描述語言)軟件,以用于設計硅芯片、或者用于配置通用可編程芯 片,來實行期望的功能。
[0066] 本領域技術人員將理解的是,用于存儲程序指令的存儲設備可以跨網(wǎng)絡分布。例 如,遠程計算機可以存儲被描述為軟件的過程的示例。本地或終端計算機可以訪問遠程計 算機并且下載軟件的一部分或全部來運行程序??商娲?,本地計算機可以根據(jù)需要下載 軟件的片段,或者在本地終端處執(zhí)行一些軟件指令以及在遠程計算機(計算機網(wǎng)絡)處執(zhí)行 一些指令。本領域技術人員還將理解的是,通過利用對本領域技術人員已知的傳統(tǒng)技術,可 以由諸如DSP、可編程邏輯陣列等之類的專用電路來實行軟件指令的全部或一部分。
[0067] 對本領域技術人員顯而易見的是,可以擴展或改變在本文中所給出的任何范圍或 設備值,而不失去所尋求的效果。
[0068]盡管已經(jīng)用特定于結構特征和/或方法行為的語言描述了主題,但應當理解的是, 在所附權利要求中所定義的主題非必須限于在上文中所描述的具體的特征或行為。相反, 在上文中所描述的具體的特征和行為是作為實現(xiàn)權利要求和實施例的示例形式而公開的。
[0069] 應當理解的是,在上文中所描述的好處和優(yōu)點可以與一個實施例相關,或者可以 與幾個實施例相關。所述實施例不限于解決所述的問題那些實施例,或者具有所述的好處 和優(yōu)點中的任何一個或全部的那些實施例。還應當理解的是,所提到的"一個"項目指的是 那些項目中的一個或多個。
[0070] 可以以任何合適的順序或者在合適的情況下同時地實行在本文中所描述的方法 的步驟。額外地,可以從方法中的任何一個中刪除個別模塊而不脫離在本文中所描述的主 題的精神和范圍。在上文中所描述的示例中的任何一個的方面可以與所描述的其它示例中 的任何一個的方面相結合以形成進一步的示例,而不失去所尋求的效果。
[0071] 在本文中所使用的術語"包括"意指包括所標識的方法模塊或元素,但是這樣的模 塊或元素不包括排除性的列表,并且方法或裝置可以包含額外的模塊或元素。
[0072] 應當理解的是,僅僅作為示例給出了上文中的描述,并且可以由本領域技術人員 做出各種修改。以上的詳細說明、示例、和數(shù)據(jù)提供了對示例性實施例的使用和結構的完整 的描述。盡管已經(jīng)結合某種程度上的特殊性,或者參考一個或多個個別的實施例在上文中 描述了各種實施例,但是本領域技術人員可以對所公開的實施例做出各種改變而不脫離該 說明書的精神或范圍。
【主權項】
1. 一種對在一個或多個處理器上實現(xiàn)的搜索引擎進行修改、并且在所述搜索引擎的本 地索引中具有實體的條目的方法,所述方法包括: 通過所述搜索引擎,從所述實體的鄰域內獲得有關位置的社交媒體消息; 通過所述搜索引擎,從所獲得的消息中確定對所述實體獨特的一個或多個術語; 通過所述搜索引擎,獨立地確定針對所述一個或多個獨特的術語的一個或多個一同出 現(xiàn)的術語; 通過所述搜索引擎,將所述一個或多個一同出現(xiàn)的術語用作一個或多個標簽來標記所 述本地索引中的所述實體; 通過所述搜索引擎,從客戶端設備中接收與所述本地索引相關聯(lián)的查詢; 響應于所述查詢,通過所述搜索引擎而至少部分基于所述一個或多個標簽來包括對所 述實體的引用;以及 通過所述搜索引擎,將響應發(fā)送至所述客戶端設備。2. 根據(jù)權利要求1所述的方法,其中,確定所述一個或多個獨特的術語包括從消息中移 除停用詞,并且根據(jù)反映所述實體的所述鄰域內的術語的重要性的分數(shù)來對剩余的術語進 行排名。3. 根據(jù)權利要求2所述的方法,其中,所述分數(shù)是基于用戶頻率-反用戶頻率度量的,所 述基于用戶頻率-反用戶頻率度量包括在所述實體的所述鄰域內的、用戶的有關位置的社 交媒體消息中提及了所述術語的用戶的數(shù)量除以在所述實體的所述鄰域內發(fā)送了有關位 置的社交媒體消息的用戶的總數(shù)量。4. 根據(jù)權利要求3所述的方法,其中,所述分數(shù)是基于術語頻率-反文檔頻率度量的,所 述術語頻率-反文檔頻率度量包括在所述實體的所述鄰域內的有關位置的社交媒體消息中 術語出現(xiàn)的次數(shù)除以其中出現(xiàn)所述術語的所述實體的所述鄰域內的有關位置的社交媒體 消息的數(shù)量。5. 根據(jù)權利要求1所述的方法,其中,從有關位置的社交媒體消息和無關位置的社交媒 體消息中確定所述一同出現(xiàn)的術語。6. 根據(jù)權利要求5所述的方法,其中,獨立地確定針對所述一個或多個獨特的術語的一 個或多個一同出現(xiàn)的術語包括,根據(jù)反映所述有關位置的社交媒體消息和所述無關位置的 社交媒體消息內的術語的重要性的分數(shù),對也在包含獨特的術語的所述有關位置的社交媒 體消息和所述無關位置的社交媒體消息內的術語進行排名。7. 根據(jù)權利要求6所述的方法,其中,所述分數(shù)是基于術語頻率-反文檔頻率度量或者 用戶頻率-反用戶頻率度量的。8. -個或多個計算機存儲介質,其包括存儲在其上的計算機可執(zhí)行指令,當所述計算 機可執(zhí)行指令由處理器執(zhí)行時,使得所述處理器執(zhí)行向用戶提供來自搜索引擎的本地索引 的搜索結果的方法,所述方法包括: 從用戶處接收有關位置的搜索查詢; 從所述搜索查詢中提取術語; 將所提取的術語與所述本地索引中的實體的標簽進行比較; 取回匹配的實體以及與所述實體相關聯(lián)的社交媒體消息;以及 向所述用戶發(fā)送搜索結果,所述搜索結果引用所述匹配的實體以及與所述實體相關聯(lián) 的所述社交媒體消息。9.根據(jù)權利要求8所述的一個或多個計算機存儲介質,其中,在所取回的匹配的實體間 或者在所述匹配的實體旁邊顯示所述社交媒體消息。 1 〇.根據(jù)權利要求8所述的一個或多個計算機存儲介質,其中,按照基于也在特定的社 交媒體消息中發(fā)現(xiàn)的所述匹配的實體的標簽的數(shù)量的排名而顯示與所述實體相關聯(lián)的所 述社交媒體消息。
【文檔編號】G06F17/30GK105874452SQ201480071824
【公開日】2016年8月17日
【申請日】2014年12月5日
【發(fā)明人】R·H·A-M·曼蘇爾, J·W·佩珀, N·A·E-H·里法伊, D·M·A·M·阿卜杜拉, V·G·默多克
【申請人】微軟技術許可有限責任公司