>[0037]除了上述的對應關(guān)系外,還可以通過數(shù)理統(tǒng)計的方式來確定搜索特征詞與搜索目標詞之間的關(guān)系。通常,可以統(tǒng)計某一特征詞后出現(xiàn)的搜索目標詞和該搜索目標詞的數(shù)量確定搜索特征詞和搜索目標詞之間的條件概率,即當某一搜索特征詞出現(xiàn)后,搜索目標詞出現(xiàn)的可能性有多大。由于“搜索特征詞”和“搜索目標詞”是根據(jù)搜索應用的搜索關(guān)系確定的,存在某一搜索特征詞在某次搜索應用中為搜索詞,而在搜索應用的另外搜索中可能為關(guān)鍵詞(從搜索數(shù)據(jù)中提取得到)的情況,因此,需要確定搜索特征詞和搜索目標詞在信息搜索數(shù)據(jù)中的先后順序,以便更精確地了解搜索特征詞和搜索目標詞之間的關(guān)系。本實施例采用正向條件概率和反向條件概率對搜索特征詞和搜索目標詞之間的關(guān)系進行說明。正向條件概率為通過搜索特征詞得到搜索目標詞的條件概率,即將終端上的搜索應用在某一時間內(nèi),搜索應用中輸入的搜索詞作為搜索特征詞,根據(jù)搜索詞搜索到的關(guān)鍵詞作為搜索目標詞,在該段時間內(nèi),還可能出現(xiàn)其他搜索特征詞和搜索目標詞,則可以將通過某一搜索特征詞得到某一搜索目標詞的條件概率作為正向條件概率;同理可以得到反向條件概率(搜索特征詞和搜索目標詞在搜索應用中與搜索詞或關(guān)鍵詞的對應關(guān)系互換)。
[0038]第四步,根據(jù)所述正向條件概率、反向條件概率和初始目標詞集合確定所述搜索特征詞和搜索目標詞之間的匹配關(guān)系。
[0039]初始目標詞集合通過類型和屬性確定了搜索特征詞和搜索目標詞之間的對應關(guān)系,即初始目標詞集合是從搜索特征詞和搜索目標詞的對應關(guān)系(如詞性、屬性)得到的;正向條件概率和反向條件概率通過先后順序和數(shù)量確定了搜索特征詞和搜索目標詞之間的對應關(guān)系,即正向條件概率和反向條件概率是從數(shù)理統(tǒng)計的角度得到的。將正向條件概率、反向條件概率和初始目標詞集合結(jié)合起來,能夠準確地確定搜索特征詞和搜索目標詞之間的匹配關(guān)系。
[0040]在本實施例的一些可選的實現(xiàn)方式中,正向條件概率通過如下步驟確定:
[0041]第一步,統(tǒng)計所述信息搜索數(shù)據(jù)中,在所述搜索特征詞后出現(xiàn)的所述搜索目標詞及所述搜索目標詞的數(shù)量。
[0042]本實現(xiàn)方式通過數(shù)理統(tǒng)計的方式獲取特征詞和目標詞之間的對應關(guān)系。條件概率是指某一事件(在后事件)在另一事件(在先事件)發(fā)生條件下的概率,在本實現(xiàn)方式中,將特征詞作為在先事件,目標詞作為在后事件,統(tǒng)計特征詞后出現(xiàn)的目標詞及目標詞的數(shù)量。
[0043]第二步,將所述搜索特征詞的數(shù)量占全部所述搜索特征詞的數(shù)量的比值作為第一正向比值。
[0044]第三步,將所述搜索目標詞的數(shù)量占全部所述搜索目標詞的數(shù)量的比值作為第二正向比值。
[0045]由于信息搜索數(shù)據(jù)有多個搜索特征詞和多個搜索目標詞,并且搜索特征詞和搜索目標詞出現(xiàn)的先后順序可能發(fā)生變化。為此,本實現(xiàn)方式將搜索特征詞在先,搜索目標詞在后的方向設定為正向;反之,將由搜索目標詞在先,搜索特征詞在后的方向設定為反向。
[0046]為了統(tǒng)計每一個搜索目標詞的概率,首先要得到該搜索目標詞在全部搜索目標詞中的比重,本實現(xiàn)方式采用的方法為,通過該搜索目標詞的數(shù)量與全部搜索目標值的數(shù)量的比值作為對應該搜索目標詞的正向比值(即第二正向比值)。
[0047]第四步,根據(jù)所述第一正向比值和第二正向比值得到每個所述搜索目標詞相對于所述搜索特征詞的正向條件概率,所述正向條件概率為第一正向比值和第二正向比值的乘積,與第一正向比值的比值。
[0048]上述步驟得到的正向比值可視為該搜索目標詞在全部搜索目標詞中的概率,然后通過條件概率公式可以得到在該搜索目標詞對應的搜索特征詞出現(xiàn)的情況下,該搜索目標詞的正向條件概率,即該搜索目標詞相對于搜索特征詞的正向條件概率。
[0049]在本實施例的一些可選的實現(xiàn)方式中,反向條件概率通過如下步驟確定:
[0050]第一步,統(tǒng)計所述信息搜索數(shù)據(jù)中,在所述搜索目標詞后出現(xiàn)的所述搜索特征詞及所述搜索特征詞的數(shù)量;
[0051 ]第二步,將所述搜索目標詞的數(shù)量占全部所述搜索目標詞的數(shù)量的比值作為第一反向比值。
[0052]第三步,將所述搜索特征詞的數(shù)量占全部所述搜索特征詞的數(shù)量的比值作為第二反向比值。
[0053]第四步,根據(jù)所述第一反向比值和第二反向比值得到每個所述搜索特征詞相對于所述搜索目標詞的反向條件概率,所述反向條件概率為第一反向比值和第二反向比值的乘積,與第一反向比值的比值。
[0054]本實現(xiàn)方式得到反向條件概率的過程與上一實現(xiàn)方式得到正向條件概率的過程類似,此處不再贅述。
[0055]在本實施例的一些可選的實現(xiàn)方式中,根據(jù)所述正向條件概率、反向條件概率和初始目標詞集合確定所述搜索特征詞和搜索目標詞之間的匹配關(guān)系可以包括以下步驟:
[0056]第一步,通過所述搜索特征集合和搜索目標集合構(gòu)建二部圖。
[0057]二部圖又稱為二分圖,是指一條連線的兩個端點分別屬于兩個不相交的集合。二部圖的有關(guān)概念屬于現(xiàn)有技術(shù),此處不再一一贅述。本實現(xiàn)方式中,將特征詞組成的搜索特征集合作為第一集合,將目標詞組成的搜索目標集合作為第二集合,并且第一集合和第二集合不相交。
[0058]第二步,根據(jù)所述正向條件概率、反向條件概率和初始目標詞集合確定所述搜索特征詞和搜索目標詞之間的權(quán)重。
[0059]信息搜索數(shù)據(jù)中包括多個搜索特征詞和多個搜索目標詞,搜索特征詞和搜索目標詞之間的對應關(guān)系是相對的,不是絕對的,即,某些搜索特征詞只與特定的一個或多個搜索目標詞存在對應關(guān)系,反之,某些搜索目標詞至于特定的一個或多個搜索特征詞存在對應關(guān)系,還可能存在和某一搜索特征詞對應的搜索目標詞不在該搜索特征詞對應的初始目標詞集合內(nèi)的情況(即該搜索目標詞與其他搜索特征詞對應,同時也與該搜索特征詞對應,但在確定該搜索特征詞對應的搜索目標詞時沒有關(guān)聯(lián)到該搜索目標詞)ο因此,需要分情況考慮搜索特征詞和搜索目標詞之間的權(quán)重,本實現(xiàn)方式的方法為:若所述搜索特征詞和搜索目標詞之間包括正向條件概率和反向條件概率,并且所述搜索目標詞在所述初始目標詞集合內(nèi),則將所述搜索特征詞和搜索目標詞之間的權(quán)重設置為第一權(quán)重;若所述搜索特征詞和搜索目標詞之間包括正向條件概率或反向條件概率,并且所述搜索目標詞在所述初始目標詞集合內(nèi),則將所述搜索特征詞和搜索目標詞之間的權(quán)重設置為第二權(quán)重;若所述搜索特征詞和搜索目標詞之間包括正向條件概率或反向條件概率,并且所述搜索目標詞不在所述初始目標詞集合內(nèi),則將所述搜索特征詞和搜索目標詞之間的權(quán)重設置為第三權(quán)重;若所述搜索特征詞和搜索目標詞之間不包括正向條件概率和反向條件概率,并且所述搜索目標詞不在所述初始目標詞集合內(nèi),則將所述搜索特征詞和搜索目標詞之間的權(quán)重設置為零。
[ΟΟ?Ο]由上述描述可知,第一權(quán)重、第二權(quán)重和第三權(quán)重依次遞減,第一權(quán)重、第二權(quán)重和第三權(quán)重的具體取值視實際情況而定。
[0061]第三步,根據(jù)所述權(quán)重對所述二部圖進行圖聚類得到頻繁子圖。
[0062]頻繁子圖是一種圖結(jié)構(gòu),頻繁子圖中點與點之間的聯(lián)系和權(quán)重較大,而與頻繁子圖之外的點的聯(lián)系和權(quán)重較低,形象的描述為:一個緊密的子圖網(wǎng)絡。
[0063]將二部圖中的元素按權(quán)重進行區(qū)分,再結(jié)合圖聚類就可以得到頻繁子圖。圖聚類的方法有多種,包括圖等式法等,此處不再一一贅述。
[0064]第四步,根據(jù)頻繁子圖確定所述搜索特征詞和搜索目標詞之間的匹配關(guān)系。
[0065]得到頻繁子圖后,通過搜索特征詞能找到最相關(guān)的搜索目標詞,由于在得到頻繁子圖的過程中采用了正向條件概率和反向條件概率,這就使得頻繁子圖中的匹配關(guān)系更加準確。
[0066]步驟204,根據(jù)所述匹配關(guān)系將與所述搜索特征詞對應的所述搜索目標詞的推送信息推送給所述終端,所述推送信息用于對所述搜索目標詞進行解釋說明。
[0067]得到頻繁子圖后,就可以將目標詞對應的推送信息實時、有效地推送給終端。推送信息是對目標詞的詳細說明,包含了對目標詞多種屬性的解釋,如目標詞的概念性解釋和在具體領(lǐng)域內(nèi)的具體含義。
[0068]例如,從終端上采集的信息搜索數(shù)據(jù)包括:租房、海淀區(qū)、上地、A小區(qū)、X室X廳、X室X廳、B小區(qū)、X室X廳、X室X廳、X室X廳、X室X廳。經(jīng)信息提取可以得到搜索特征集合為{租房;海淀區(qū);上地},搜索目標集合為{A小區(qū),X室X廳、x室X廳;B小區(qū),X室X廳、x室X廳、x室X廳、x室X廳}??紤]各個特征詞和目標詞之間的先后順序和數(shù)量,再確定特征詞和目標詞之間的匹配關(guān)系得到頻繁子圖如圖3所示。由圖3可知,搜索特征集合中的特征詞“租房”與搜索目標集合中的目標詞“X室X廳”的匹配度最高,即頻繁子圖包括“租房”和“X室X廳”。
[0069]本申請?zhí)峁┑男畔⑼扑头椒把b置,首先采集終端的信息搜索數(shù)據(jù);然后對所述信息搜索數(shù)據(jù)進行信息提取得到搜索特征詞集合和搜索目標詞集合;之后通過所述搜索特征詞集合內(nèi)的搜索特征詞與搜索目標詞集合內(nèi)的搜索目標詞進行匹配來確定匹配關(guān)系,提高了信息搜索的準確性;最后根據(jù)所述匹配關(guān)系將與所述搜索特征詞對應的所述搜索目標詞的推送信息推送給所述終端,提高了推送信息的實時性。
[0070]進一步參考圖4,作為對上述各圖所示方法的實現(xiàn),本申請?zhí)峁┝艘环N信息推送裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應,該裝置具體可以應用于各種電子設備中。
[0071]如圖4所示,本實施例所述的信息推送裝置40