亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

目標信息的生成方法及裝置與流程

文檔序號:12824730閱讀:229來源:國知局
目標信息的生成方法及裝置與流程

本發(fā)明涉及計算機領(lǐng)域,具體而言,涉及一種目標信息的生成方法及裝置。



背景技術(shù):

現(xiàn)有技術(shù)中生成旅游度假產(chǎn)品信息需要工作人員在后臺手動錄入,即從大量的文本內(nèi)容中篩選出旅游度假的信息,將篩選后的信息手動錄入到客戶端后臺,用戶才可以通過客戶端前臺或者搜索引擎來瀏覽上述旅游度假產(chǎn)品信息。

這里需要說明的是,人工錄入信息是一件相應(yīng)繁瑣且容易出錯的事情,特別是當產(chǎn)品數(shù)量較多時,錄入的工作量就顯得非常大,旅游信息錄入的效率較低。

針對上述現(xiàn)有的旅游產(chǎn)品信息需要人工針對大量的文本內(nèi)容進行篩選生成,導(dǎo)致旅游產(chǎn)品信息生成的效率低的問題,目前尚未提出有效的解決方案。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例提供了一種目標信息的生成方法及裝置,以至少解決現(xiàn)有的旅游產(chǎn)品信息需要人工針對大量的文本內(nèi)容進行篩選生成,導(dǎo)致旅游產(chǎn)品信息生成的效率低的技術(shù)問題。

根據(jù)本發(fā)明實施例的一個方面,提供了一種目標信息的生成方法,包括:獲取初始文本內(nèi)容;按照預(yù)設(shè)的分詞字典對初始文本內(nèi)容進行信息點提取處理,生成多個信息點;通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息。

根據(jù)本發(fā)明實施例的另一方面,還提供了一種目標信息的生成裝置,包括:獲取單元,用于獲取初始文本內(nèi)容;處理單元,用于按照預(yù)設(shè)的分詞字典對初始文本內(nèi)容進行信息點提取處理,生成多個信息點;抽取單元,用于通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息。

在本發(fā)明實施例中,采用獲取初始文本內(nèi)容;按照預(yù)設(shè)的分詞字典對初始文本內(nèi)容進行信息點提取處理,生成多個信息點;通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息,解決了現(xiàn)有的旅游產(chǎn)品信息需要人工針對大量的文本內(nèi)容進行篩選生成,導(dǎo)致旅游產(chǎn)品信息生成的效率低的技術(shù)問題,實現(xiàn)了從已有的產(chǎn)品信息中自動抽 取出產(chǎn)品的重要信息,減少了人工錄入的時間以及降低人工錄入的錯誤率,從而提高了用戶獲取旅游產(chǎn)品信息的體驗

附圖說明

此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中:

圖1是根據(jù)本發(fā)明實施例的一種目標信息的生成方法的流程圖;

圖2是根據(jù)本發(fā)明實施例的一種目標信息的生成裝置的示意圖;以及

圖3是根據(jù)本發(fā)明實施例的一種服務(wù)器的結(jié)構(gòu)示意圖。

具體實施方式

為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當屬于本發(fā)明保護的范圍。

需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤4送?,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。

實施例一

根據(jù)本發(fā)明實施例,提供了一種目標信息的生成方法的實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

圖1是根據(jù)本發(fā)明實施例的一種目標信息的生成方法的流程圖,如圖1所示,該方法包括如下步驟:

步驟s12,獲取初始文本內(nèi)容。

具體地,在本方案中,可以通過采集終端來獲取初始文本內(nèi)容,該初始文本內(nèi)容可以是對旅游度假產(chǎn)品的基本描述信息,該基本描述信息可以包括:產(chǎn)品標題、特色以及行程的描述等信息,需要說明的是,在該基本描述信息中包含了大量無用的信息。

步驟s14,按照預(yù)設(shè)的分詞字典對初始文本內(nèi)容進行信息點提取處理,生成多個信息點。

具體地,在本方案中,可以通過處理終端按照預(yù)設(shè)的分詞字典來對上述基本描述信息進行提取處理,該提取包括分詞提取以及特征值提取,以生成多個信息點,需要說明的是,該信息點的構(gòu)成為:分詞以及分詞的特征值。

步驟s16,通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息。

具體地,在本方案中,上述處理終端可以通過預(yù)設(shè)的算法對上述多個信息點進行抽取,生成旅游產(chǎn)品信息即上述目標信息,需要說明的是,上述目標信息可以為目的地、酒店,購物以及交通信息等。

本實施例通過獲取初始文本內(nèi)容;按照預(yù)設(shè)的分詞字典對初始文本內(nèi)容進行信息點提取處理,生成多個信息點;通過預(yù)設(shè)算法對多個信息點進行抽取,生成目標信息。容易注意到,在本實施例中,只需要獲取到基本描述信息,處理終端可以自動對基本描述信息進行抽取,以生成旅游度假產(chǎn)品信息,大大的節(jié)省了錄入的時間,也可以避免因為工作量大導(dǎo)致的錯誤錄入,因此,本實施例解決了現(xiàn)有的旅游產(chǎn)品信息需要人工針對大量的文本內(nèi)容進行篩選生成,導(dǎo)致旅游產(chǎn)品信息生成的效率低的技術(shù)問題。實現(xiàn)了從已有的產(chǎn)品信息中自動抽取出產(chǎn)品的重要信息,減少了人工錄入的時間以及降低人工錄入的錯誤率,從而提高了用戶獲取旅游產(chǎn)品信息的體驗。

可選地,在步驟s12,獲取初始文本內(nèi)容之前,本實施例提供的方法還可以包括:

步驟s10,根據(jù)旅游詞匯數(shù)據(jù)庫創(chuàng)建分詞字典,其中,分詞字典中包含多個旅游產(chǎn)品詞匯以及旅游產(chǎn)品詞匯的特征。

具體地,在本方案中,上述旅游詞匯數(shù)據(jù)庫可以為通過現(xiàn)有的旅游行業(yè)的信息以及相應(yīng)的產(chǎn)品信息構(gòu)建的信息知識庫,本方案可以利用分詞工具根據(jù)上述信息知識庫構(gòu)建上述分詞字典。

可選地,步驟s14,按照預(yù)設(shè)的分詞字典對初始文本內(nèi)容進行信息點提取處理,生成多個信息點的步驟可以包括:

步驟s141,對初始文本內(nèi)容進行分割處理,生成多個子初始文本內(nèi)容。

具體地,在本方案中,可以對上述基本描述信息進行分割處理,例如,對基本描述信息進行分段或分句,生成上述多個子初始文本內(nèi)容(例如多個分段或者多個分句)。

步驟s142,使用多個旅游產(chǎn)品詞匯依次對每個子初始文本內(nèi)容進行分詞處理以及特征提取處理,生成多個信息點,其中,每個信息點至少包括:分詞以及分詞的特征值。

具體地,在本方案中,可以通過分詞字典中的多個旅游產(chǎn)品詞匯對產(chǎn)品的基本信息的文本數(shù)據(jù)進行分詞處理與特征提取,從而得到多個信息點。

需要說明的是,本方案可以通過kmp算法對上述每個子初始文本內(nèi)容進行分詞,以獲取產(chǎn)品中的全部提到的信息以及產(chǎn)品的特征。

可選地,上述預(yù)設(shè)抽取算法可以為面積算法,通過面積算法

步驟s16,通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息的步驟可以包括如下:

步驟s1601,分別統(tǒng)計多個信息點中的第一信息點在每個子初始文本內(nèi)容的出現(xiàn)頻次。

具體地,本方案可以先隨機一個信息點即上述信息點,然后統(tǒng)計在各個段落和句子當中的信息點出現(xiàn)的頻次。

步驟s1602,根據(jù)第一信息點在每個子初始文本內(nèi)容的出現(xiàn)頻次計算第一信息點的出現(xiàn)頻次的下降速率。

步驟s1603,在下降速率不超過第一閾值的情況下,確定第一信息點為目標信息。

具體地,在本方案中,可以計算上述第一信息點在各個段落和句子中的下降速率,當下降速率不超過第一閾值的情況下,則說明第一信息點為旅游產(chǎn)品的主要信息,本方案則將上述第一信息點確定為目標信息。

在一種優(yōu)選地實施例中,本方案可以通過面積算法來抽取旅游產(chǎn)品相關(guān)的信息點,即,將所有描述信息中的句子和段落作為面積,用于衡量所描述的產(chǎn)品信息的篇幅,如果一個信息點的在第一個面積內(nèi)出現(xiàn)的頻次為a,在第二個面積內(nèi)出現(xiàn)的頻次為b,則面積下降速率為q=(a-b)/b,面積下降速率可以用于尋找信息點的區(qū)域邊界,上述面積主要算法可以將所有信息點的面積按降序排序,然后按面積從大至小尋找邊界,在尋找的過程中根據(jù)信息的特征累積面積,計算相應(yīng)的面積下降速度,當下降速率及 累積面積大于設(shè)定的閾值時,停止查找,則所累積的面積為相應(yīng)的產(chǎn)品主要信息即上述目標信息。

可選地,步驟s16,通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息的步驟可以包括如下:

步驟s1604,在多個信息點中的第一信息點的特征值超過第二閾值和/或在初始文本內(nèi)容中包含與第一信息點相關(guān)聯(lián)的文本內(nèi)容的情況下,確定第一信息點為目標信息。

具體地,在本方案中,可以通過明文規(guī)則算法過濾孤立且偶爾提到的信息點:當上述第一信息點的特征值超過第二閾值,則說明該第一信息點為特征值小且自身為孤立的,而且如果在初始文本內(nèi)容的上下文有相應(yīng)文字描述第一信息點的相關(guān)信息,則認為第一信息點為無意中提到的,并不屬于旅游產(chǎn)品的主要信息即上述目標信息。

可選地,步驟s16,通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息的步驟可以包括如下:

步驟s1605,按照預(yù)設(shè)的標準信息點數(shù)據(jù)庫對初始文本內(nèi)容中的多個信息點進行過濾,將包含于標準信息點數(shù)據(jù)庫的多個信息點確定為目標信息。

具體地,在本方案中,可以通過預(yù)設(shè)的標準信息點庫來實現(xiàn)不可靠信息點的過濾,即將將包含于標準信息點數(shù)據(jù)庫的多個信息點確定為目標信息。

需要說明的是,在本方案中,可以通過語義標注算法過濾類比或者非真實的信息點:語義標注算法為采用人工知識,對大量已有的產(chǎn)品線路進行標注以及最終的結(jié)果進行記錄,利用這類數(shù)據(jù)當訓練數(shù)據(jù)進行機器學習模型訓練,使用訓練的模型對目前的產(chǎn)品數(shù)據(jù)進行數(shù)據(jù)處理,過濾類似標注不可靠的信息點。

可選地,步驟s16,通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息的步驟可以包括如下:

步驟s1606,獲取多個信息點中的第一信息點與其它多個信息點的距離。

步驟s1607,當距離不超過第二閾值的情況下,確定第一信息點為目標信息。

具體地,在本方案中,可以通過信息點間的距離來過濾多個信息點中不可靠的信息點,如果某一個信息點的距離與其它所有信息點的距離相差超過一定的閾值即上述第一閾值,則這個信息點屬于這個產(chǎn)品信息。

需要說明的是,本方案也可以通過區(qū)域計算方法來過濾多個信息點中不可靠的信息點,所有信息點的特征都在同一個區(qū)域里而只有少數(shù)信息點不在這一區(qū)域且這些少 數(shù)信息點也不在同一個區(qū)域,則排除這些少數(shù)信息點。

可選地,步驟s16,通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息的步驟可以包括如下:

步驟s1608,計算多個信息點中的第一信息點與其它多個信息點息共同出現(xiàn)在預(yù)設(shè)文本內(nèi)容中的概率。

步驟s1609,在概率超過第三閾值的情況下,確定第一信息點為目標信息。

具體地,在本方案中,可以通過共現(xiàn)關(guān)系算法過濾對信息產(chǎn)品共現(xiàn)概率較小的信息點,將共現(xiàn)概率較大(即超過第三閾值)的信息點確定為目標信息。需要說明的是,共現(xiàn)關(guān)系算法為通過現(xiàn)的有產(chǎn)品信息,通過統(tǒng)計手法,計算不同信息點相互共同出現(xiàn)在同一個產(chǎn)品中的概率大小,利用這些概率來指導(dǎo)對于一個產(chǎn)品中的信息點是否可取,例如,如果信息點a與信息點b和c共現(xiàn)的概率比較大,則產(chǎn)品中如果同時出現(xiàn)a,b,c則認為合理。如果a與b、c共現(xiàn)的概率很小,則如果產(chǎn)品中同時出現(xiàn)a,b,c則認為不合理,此時需要過濾a,以達到產(chǎn)品信息合理的效果。

可選地,在步驟s16,通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息之后,本實施例提供的方法還可以包括:

在步驟s17,將目標信息發(fā)送至搜索引擎,其中,目標信息至少包括:目的地、酒店,購物以及交通信息。

具體地,本方案可以將抽取出來的信息點數(shù)據(jù)(目標信息)提供給搜索引擎,為用戶提供搜索依據(jù)。

優(yōu)選地,本方案也可以將上述產(chǎn)品的信息點數(shù)據(jù)直接顯示在上述處理終端,為用戶提供參考。

綜上,本實施例通過獲取產(chǎn)品的基本信息,通過積累的信息知識庫對產(chǎn)品的基本信息進行分詞與特征提取,獲取產(chǎn)品的所有信息點以及特征值,通過分析產(chǎn)品并利用抽取算法(信息面積算法,明文規(guī)則算法,語義標注算法,距離計算算法,區(qū)域范圍算法,共現(xiàn)關(guān)系算法),抽取出產(chǎn)品相關(guān)的信息點,以方便用戶參考與搜索,提升用戶體驗,減少供應(yīng)商的錄入成本。

實施例二

本申請還提供了一種目標信息的生成裝置,該裝置可以用于執(zhí)行上述目標信息的生成方法,如圖2所示,該裝置可以包括:獲取單元20,用于獲取初始文本內(nèi)容;處 理單元22,用于按照預(yù)設(shè)的分詞字典對初始文本內(nèi)容進行信息點提取處理,生成多個信息點;抽取單元24,用于通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息。

本實施例通過獲取初始文本內(nèi)容;按照預(yù)設(shè)的分詞字典對初始文本內(nèi)容進行信息點提取處理,生成多個信息點;通過預(yù)設(shè)算法對多個信息點進行抽取,生成目標信息。容易注意到,在本實施例中,只需要獲取到基本描述信息,處理終端可以自動對基本描述信息進行抽取,以生成旅游度假產(chǎn)品信息,大大的節(jié)省了錄入的時間,也可以避免因為工作量大導(dǎo)致的錯誤錄入,因此,本實施例解決了現(xiàn)有的旅游產(chǎn)品信息需要人工針對大量的文本內(nèi)容進行篩選生成,導(dǎo)致旅游產(chǎn)品信息生成的效率低的技術(shù)問題。

可選地,該裝置還可以包括:創(chuàng)建單元,用于根據(jù)旅游詞匯數(shù)據(jù)庫創(chuàng)建分詞字典,其中,分詞字典中包含多個旅游產(chǎn)品詞匯。

可選地,處理單元可以包括:第一處理模塊,用于對初始文本內(nèi)容進行分割處理,生成多個子初始文本內(nèi)容;第二處理模塊,用于使用多個旅游產(chǎn)品詞匯依次對每個子初始文本內(nèi)容進行分詞處理以及特征提取處理,生成多個信息點,其中,每個信息點至少包括:分詞以及分詞的特征值。

可選地,抽取單元可以包括:統(tǒng)計模塊,用于分別統(tǒng)計多個信息點中的第一信息點在每個子初始文本內(nèi)容的出現(xiàn)頻次;第一計算模塊,用于根據(jù)第一信息點在每個子初始文本內(nèi)容的出現(xiàn)頻次計算第一信息點的出現(xiàn)頻次的下降速率;第一確定模塊,用于在下降速率不超過第一閾值的情況下,確定第一信息點為目標信息。

可選地,抽取單元可以包括:第二確定模塊,用于在多個信息點中的第一信息點的特征值超過第二閾值和/或在初始文本內(nèi)容中包含與第一信息點相關(guān)聯(lián)的文本內(nèi)容的情況下,確定第一信息點為目標信息。

可選地,抽取單元可以包括:過濾模塊,用于按照預(yù)設(shè)的標準信息點數(shù)據(jù)庫對初始文本內(nèi)容中的多個信息點進行過濾,將包含于標準信息點數(shù)據(jù)庫的多個信息點確定為目標信息。

可選地,抽取單元還可以包括:獲取模塊,用于獲取多個信息點中的第一信息點與其它多個信息點的距離;第三確定模塊,用于當距離不超過第二閾值的情況下,確定第一信息點為目標信息。

可選地,抽取單元還可以包括:第二計算模塊,用于計算多個信息點中的第一信息點與其它多個信息點息共同出現(xiàn)在預(yù)設(shè)文本內(nèi)容中的概率;第四確定模塊,用于在概率超過第三閾值的情況下,確定第一信息點為目標信息。

可選地,該裝置還可以包括:發(fā)送單元,用于將目標信息發(fā)送至搜索引擎,其中,目標信息至少包括:目的地、酒店,購物以及交通信息。

實施例三

本申請還提供了一種服務(wù)器,如圖3,該服務(wù)器可以包括:

接收端30,用于接收初始文本內(nèi)容;處理器32,用于按照預(yù)設(shè)的分詞字典對初始文本內(nèi)容進行信息點提取處理,生成多個信息點,以及通過預(yù)設(shè)抽取算法對多個信息點進行抽取,生成目標信息;發(fā)送端34,用于將目標信息發(fā)送至用戶終端。

本實施例通過獲取初始文本內(nèi)容;按照預(yù)設(shè)的分詞字典對初始文本內(nèi)容進行信息點提取處理,生成多個信息點;通過預(yù)設(shè)算法對多個信息點進行抽取,生成目標信息。容易注意到,在本實施例中,只需要獲取到基本描述信息,處理終端可以自動對基本描述信息進行抽取,以生成旅游度假產(chǎn)品信息,大大的節(jié)省了錄入的時間,也可以避免因為工作量大導(dǎo)致的錯誤錄入,因此,本實施例解決了現(xiàn)有的旅游產(chǎn)品信息需要人工針對大量的文本內(nèi)容進行篩選生成,導(dǎo)致旅游產(chǎn)品信息生成的效率低的技術(shù)問題。

上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。

在本發(fā)明的上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。

在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。

所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時, 可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可為個人計算機、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1