專利名稱:一種移動(dòng)通信用戶搜索請(qǐng)求響應(yīng)系統(tǒng)及其處理方法
技術(shù)領(lǐng)域:
本發(fā)明屬于電通信技術(shù)領(lǐng)域,涉及一種基于數(shù)據(jù)挖掘的移動(dòng)用戶搜索請(qǐng)求響應(yīng)系 統(tǒng)及其處理方法。
背景技術(shù):
互聯(lián)網(wǎng)上的信息搜索技術(shù)已經(jīng)發(fā)展了二三十年,基本上已成為了現(xiàn)代人們的生活 不可或缺的一部分?;ヂ?lián)網(wǎng)信息的爆炸式發(fā)展,使得直接獲取所需信息的可能性與便利性 大大降低。信息搜索技術(shù)的出現(xiàn),極大地解決了這一日漸擾人的問題。然而,傳統(tǒng)的信息搜索技術(shù)手段離不開電腦這一終端的支持,要求人們?cè)诠潭ǖ?場所,并且需要網(wǎng)絡(luò)暢通的條件下,才能進(jìn)行信息搜索,其局限性顯而易見。而今,移動(dòng)通信已經(jīng)邁入了 3G時(shí)代,無線網(wǎng)絡(luò)的帶寬資源越來越大,信息資源越 來越豐富。再加上移動(dòng)終端硬件技術(shù)的飛速進(jìn)步,使用手機(jī)等移動(dòng)終端上網(wǎng)的用戶越來越 多。人們已經(jīng)不再滿足于訪問有限的幾個(gè)wap網(wǎng)站,而是提出了通過手機(jī)等終端連接互聯(lián) 網(wǎng),使用搜索引擎技術(shù)來搜索訪問廣闊的互聯(lián)網(wǎng)資源。常見的解決辦法是通過使用專門的 軟件來使手機(jī)等移動(dòng)終端可以直接訪問互聯(lián)網(wǎng),讓用戶使用互聯(lián)網(wǎng)上的搜索引擎來檢索所 需要的信息。這種方法實(shí)現(xiàn)起來非常簡單,而且成本也低廉,是目前手機(jī)檢索的主要解決方案。 然而,這種方法忽視了手機(jī)檢索的特性,沒有利用起手機(jī)檢索所隱含的一些重要信息,比如 手機(jī)用戶的群體特征、用戶所處移動(dòng)環(huán)境、手機(jī)等移動(dòng)終端的硬件規(guī)格等,致使手機(jī)檢索得 到的結(jié)果并不具有個(gè)性化特征。例如,用戶輸入查詢串為“火箭”,對(duì)于不同用戶查詢意圖不 同,體育愛好者可能喜歡“籃球比賽的火箭、NBA相關(guān)賽事”等,而對(duì)于軍事專家可能喜歡“火 箭發(fā)射相關(guān)信息”等。對(duì)于不同領(lǐng)域興趣的用戶,搜索相同關(guān)鍵詞,他們意圖并不相同。即 使搜索相關(guān)的查詢?cè)~的用戶,興趣可能相同,如何有效的獲取識(shí)別用戶興趣類別偏好,有效 識(shí)別用戶搜索意圖,這是當(dāng)前研究工作的關(guān)鍵問題。再加上手機(jī)屏幕的限制,用戶如果需要 翻頁數(shù)次才能找到預(yù)期的信息,勢必會(huì)對(duì)搜索結(jié)果不甚滿意,進(jìn)而喪失對(duì)手機(jī)檢索的興趣。有鑒于此,開發(fā)適合手機(jī)等移動(dòng)終端的無線環(huán)境個(gè)性化搜索技術(shù)的呼聲越來越強(qiáng) 烈,然而這方面的解決方法卻少之又少。這些少量的解決方法雖然試圖通過發(fā)掘移動(dòng)用戶 的興趣特征,來提供個(gè)性化搜索服務(wù),但是由于著眼點(diǎn)比較狹窄,所處理的用戶信息量太 小,因此得到的結(jié)果并不令用戶十分滿意。
發(fā)明內(nèi)容
為了解決上述技術(shù)存在的問題,本發(fā)明提供了一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)系統(tǒng), 其特征在于,包括數(shù)據(jù)準(zhǔn)備模塊、挖掘處理模塊、搜索響應(yīng)模塊,所述數(shù)據(jù)準(zhǔn)備模塊,用于采集用戶信息數(shù)據(jù),所述用戶信息數(shù)據(jù)包括用戶屬性資 料和發(fā)起搜索請(qǐng)求的行為資料,建立用戶屬性資料庫和用戶搜索請(qǐng)求行為資料庫,為挖掘 處理模塊提供數(shù)據(jù)支持;
所述挖掘處理模塊,用于對(duì)所述數(shù)據(jù)準(zhǔn)備模塊提供的用戶屬性資料庫和用戶搜索 請(qǐng)求行為資料庫進(jìn)行數(shù)據(jù)挖掘分析,建立或更新用戶搜索響應(yīng)規(guī)則,并將經(jīng)過數(shù)據(jù)挖掘分 析后的數(shù)據(jù)反饋給數(shù)據(jù)準(zhǔn)備模塊;所述搜索響應(yīng)模塊,用于根據(jù)所述用戶搜索響應(yīng)規(guī)則,對(duì)用戶提出的搜索請(qǐng)求進(jìn) 行處理,給出搜索結(jié)果,并將用戶搜索行為資料反饋給所述數(shù)據(jù)準(zhǔn)備模塊。所述用戶屬性資料庫,包含用戶的性別、年齡、職業(yè)、收入信息、用戶大類;用戶屬 性資料庫包括屬性最新表和屬性歷史表,所述屬性最新表存儲(chǔ)未經(jīng)挖掘處理的原始數(shù)據(jù), 經(jīng)挖掘處理后的數(shù)據(jù)存入屬性歷史表;所述用戶行為資料庫,儲(chǔ)存用戶搜索請(qǐng)求行為資料,該行為資料庫包含了用戶標(biāo) 識(shí)、搜索關(guān)鍵字1、搜索關(guān)鍵字2、搜索關(guān)鍵字3、搜索時(shí)間、所處基站號(hào)、瀏覽內(nèi)容關(guān)鍵字1、 瀏覽內(nèi)容關(guān)鍵字2、瀏覽內(nèi)容關(guān)鍵字3 ;用戶行為資料庫包括行為最新表和行為歷史表,行 為最新表存儲(chǔ)未經(jīng)處理的用戶發(fā)起的搜索請(qǐng)求行為資料,處理后的搜索請(qǐng)求行為資料存入 行為歷史表;所述用戶搜索響應(yīng)規(guī)則庫包含以下信息用戶大類、搜索關(guān)鍵字1、搜索關(guān)鍵字2、 搜索關(guān)鍵字3、相關(guān)關(guān)鍵字1、相關(guān)關(guān)鍵字2、相關(guān)關(guān)鍵字3。本發(fā)明還提出了一種根據(jù)權(quán)利要求1所述移動(dòng)用戶搜索請(qǐng)求響應(yīng)系統(tǒng)的處理方 法,其特征在于,包括以下步驟步驟1、數(shù)據(jù)準(zhǔn)備階段采集用戶信息數(shù)據(jù),該用戶信息數(shù)據(jù)包括用戶屬性資料和 用戶搜索請(qǐng)求行為資料,建立用戶屬性資料庫和用戶搜索請(qǐng)求行為資料庫;步驟2、數(shù)據(jù)處理階段對(duì)用戶屬性資料庫和用戶搜索請(qǐng)求行為資料庫進(jìn)行數(shù)據(jù) 挖掘分析,建立或更新用戶搜索響應(yīng)規(guī)則庫;步驟3、搜索響應(yīng)階段針對(duì)移動(dòng)用戶當(dāng)前發(fā)起的搜索請(qǐng)求,訪問搜索響應(yīng)規(guī)則 庫,給出搜索結(jié)果,將用戶搜索行為資料記錄到用戶搜索請(qǐng)求行為資料庫。步驟1中所述用戶屬性資料統(tǒng)一入庫管理,進(jìn)一步包含a、建立用戶屬性資料庫,用戶屬性資料庫的字段包含用戶的性別、年齡、職業(yè)、收 入信息、用戶大類;用戶屬性資料庫包括屬性最新表和屬性歷史表,兩表結(jié)構(gòu)相同;所述屬 性最新表存未經(jīng)挖掘處理的原始數(shù)據(jù),經(jīng)挖掘處理過后存入屬性歷史表;b、建立用戶行為資料庫,所述用戶行為資料庫儲(chǔ)存用戶搜索請(qǐng)求行為資料,用戶 發(fā)起的搜索請(qǐng)求得到響應(yīng)后記載入用戶行為資料庫;該行為資料庫的字段包含用戶標(biāo)識(shí)、 搜索關(guān)鍵字1、搜索關(guān)鍵字2、搜索關(guān)鍵字3、搜索時(shí)間、所處基站號(hào)、瀏覽內(nèi)容關(guān)鍵字1、瀏覽 內(nèi)容關(guān)鍵字2、瀏覽內(nèi)容關(guān)鍵字3 ;用戶行為資料庫包括行為最新表和行為歷史表,行為最新表存儲(chǔ)未經(jīng)處理的用戶 發(fā)起的搜索請(qǐng)求行為,處理過后存入行為歷史表;步驟2中對(duì)屬性資料庫和行為資料庫進(jìn)行數(shù)據(jù)挖掘分析包括以下步驟a、首次對(duì)所述屬性最新表和行為最新表里的數(shù)據(jù)進(jìn)行挖掘處理,建立用戶搜索響 應(yīng)規(guī)則庫,所述用戶搜索響應(yīng)規(guī)則庫包含以下信息用戶大類、搜索關(guān)鍵字1、搜索關(guān)鍵字 2、搜索關(guān)鍵字3、相關(guān)關(guān)鍵字1、相關(guān)關(guān)鍵字2、相關(guān)關(guān)鍵字3。b、定期對(duì)所述屬性最新表和行為最新表進(jìn)行數(shù)據(jù)挖掘處理,根據(jù)數(shù)據(jù)挖掘結(jié)果對(duì) 所述用戶搜索響應(yīng)規(guī)則庫進(jìn)行更新;
5
C、將屬性最新表里的數(shù)據(jù)轉(zhuǎn)移到屬性歷史表,清空屬性最新表。步驟2_a中對(duì)用戶屬性最新表和行為最新表的挖掘處理,進(jìn)一步包含a、對(duì)用戶屬性最新表進(jìn)行K均值聚類計(jì)算,生成各個(gè)用戶的用戶大類屬性,所述 用戶大類屬性作為用戶搜索請(qǐng)求響應(yīng)規(guī)則的基準(zhǔn)類別;b、將聚類得到的每個(gè)用戶所屬的用戶大類寫入所述用戶行為最新表;C、根據(jù)用戶大類和搜索請(qǐng)求關(guān)鍵字,以及用戶的瀏覽內(nèi)容關(guān)鍵字,對(duì)用戶行為最 新表進(jìn)行樸素貝葉斯分類計(jì)算,得到用戶大類的請(qǐng)求關(guān)鍵字與實(shí)際瀏覽內(nèi)容關(guān)鍵字的關(guān) 系。步驟3中對(duì)用戶搜索請(qǐng)求的響應(yīng)過程,進(jìn)一步包括以下步驟a、根據(jù)用戶的屬性資料查找用戶屬性歷史表,得到用戶所屬的大類;b、根據(jù)用戶所屬的大類以及用戶發(fā)出搜索請(qǐng)求的關(guān)鍵字查找用戶搜索響應(yīng)規(guī)則 庫,找出用戶搜索請(qǐng)求響應(yīng)規(guī)則;C、向用戶發(fā)送搜索請(qǐng)求響應(yīng),并記錄用戶得到響應(yīng)后所瀏覽內(nèi)容的關(guān)鍵字,以此 更新用戶行為最新表;d、將用戶行為最新表轉(zhuǎn)移到用戶行為歷史表,清空用戶行為最新表。本發(fā)明具有如下優(yōu)點(diǎn)1)所處理的數(shù)據(jù)定義清晰,而且都可從運(yùn)營商數(shù)據(jù)庫中獲取。2)全面考慮了移動(dòng)用戶的屬性資料與行為資料,采用恰當(dāng)?shù)臄?shù)據(jù)挖掘技術(shù),是檢 索結(jié)果更加符合用戶的需求3)規(guī)則模型采用增量更新的方式,每天只需處理部分?jǐn)?shù)據(jù)即可保持規(guī)則庫的有效 性和準(zhǔn)確性。處理速度快,且不占用服務(wù)器的忙碌時(shí)段。
圖1為本發(fā)明的基于移動(dòng)用戶屬性和行為資料的搜索請(qǐng)求響應(yīng)系統(tǒng)的結(jié)構(gòu)示意 圖。圖2為本發(fā)明的三大模塊的結(jié)構(gòu)關(guān)系圖。圖3為本發(fā)明的數(shù)據(jù)的采集準(zhǔn)備流程示意圖。圖4為本發(fā)明的對(duì)用戶屬性和行為資料的分析處理流程圖。圖5為本發(fā)明的用戶搜索請(qǐng)求響應(yīng)規(guī)則生成流程圖。
具體實(shí)施例方式有關(guān)本發(fā)明的具體內(nèi)容和實(shí)施方式,現(xiàn)結(jié)合
如下本發(fā)明提供一種基于移動(dòng)用戶屬性和行為挖掘的搜索請(qǐng)求響應(yīng)方法,通過對(duì)移動(dòng) 用戶的屬性資料和行為資料進(jìn)行數(shù)據(jù)挖掘,得到該用戶提出的搜索請(qǐng)求相應(yīng)的響應(yīng)規(guī)則, 并最終可以據(jù)此規(guī)則提供給用戶符合其需求的搜索結(jié)果。本發(fā)明分為三大模塊數(shù)據(jù)準(zhǔn)備模塊、挖掘處理模塊、搜索響應(yīng)模塊。如圖1所示, 各個(gè)模塊負(fù)責(zé)獨(dú)立的功能。數(shù)據(jù)準(zhǔn)備模塊的功能包括接收用戶申請(qǐng)入網(wǎng)、建立用戶屬性庫、用戶行為庫、接 收用戶搜索請(qǐng)求;
6
挖掘處理模塊的功能包括對(duì)用戶屬性庫、用戶行為庫進(jìn)行數(shù)據(jù)挖掘、建立或更新 用戶搜索響應(yīng)規(guī)則;搜索響應(yīng)模塊的功能包括根據(jù)用戶的屬性資料查找用戶屬性歷史表,得到用戶 所屬的大類;根據(jù)用戶所屬的大類以及用戶發(fā)出搜索請(qǐng)求的關(guān)鍵字查找用戶搜索響應(yīng)規(guī)則 庫,找出用戶搜索請(qǐng)求響應(yīng)規(guī)則;向用戶發(fā)送搜索請(qǐng)求響應(yīng),并記錄用戶得到響應(yīng)后所瀏覽 內(nèi)容的關(guān)鍵字,以此更新用戶行為最新表;將用戶行為最新表轉(zhuǎn)移到用戶行為歷史表,清空 用戶行為最新表。數(shù)據(jù)準(zhǔn)備模塊、挖掘處理模塊、搜索響應(yīng)模塊三大模塊關(guān)系如圖2所示。數(shù)據(jù)準(zhǔn)備 模塊采集數(shù)據(jù),格式化儲(chǔ)存,為挖掘處理模塊提供數(shù)據(jù)支持。挖掘處理模塊對(duì)這些數(shù)據(jù)進(jìn)行 相應(yīng)的數(shù)據(jù)挖掘分析,得到響應(yīng)規(guī)則,提供給搜索響應(yīng)模塊。搜索響應(yīng)模塊根據(jù)這些響應(yīng)規(guī) 則,對(duì)用戶提出的搜索請(qǐng)求進(jìn)行處理,給出搜索結(jié)果,并且將用戶在結(jié)果中所瀏覽的內(nèi)容反 饋給數(shù)據(jù)準(zhǔn)備模塊,作為將要挖掘的用戶數(shù)據(jù)的一部分。用戶的搜索請(qǐng)求只與搜索響應(yīng)模 塊有關(guān),處理時(shí)間短,實(shí)時(shí)性高。由于本發(fā)明需要具備較高的實(shí)時(shí)性,因此數(shù)據(jù)挖掘處理和規(guī)則生成這兩個(gè)過程必 須是在用戶提出搜索請(qǐng)求前就已經(jīng)完成,而用戶提出搜索請(qǐng)求時(shí)所要處理的過程只是查找 響應(yīng)規(guī)則庫,根據(jù)規(guī)則響應(yīng)用戶搜索請(qǐng)求。因此,數(shù)據(jù)挖掘處理和規(guī)則生成這兩個(gè)處理過程 優(yōu)選在需在服務(wù)器的空閑時(shí)段完成。例如在每天凌晨兩點(diǎn)到四點(diǎn)間的時(shí)間段內(nèi),使用移動(dòng) 網(wǎng)絡(luò)的用戶極少,服務(wù)器處于空閑時(shí)段。下面將結(jié)合附圖對(duì)本發(fā)明的處理方法進(jìn)行具體介紹。1、數(shù)據(jù)準(zhǔn)備階段如圖3所示,數(shù)據(jù)準(zhǔn)備階段主要分為兩部分一部分是用戶屬性資料的數(shù)據(jù)準(zhǔn)備; 一部分是用戶行為資料的數(shù)據(jù)準(zhǔn)備。事實(shí)上,用于后面挖掘處理模塊的數(shù)據(jù)還包括了另外 一部分,即用戶瀏覽內(nèi)容的數(shù)據(jù)準(zhǔn)備。因?yàn)檫@部分?jǐn)?shù)據(jù)只有在移動(dòng)用戶搜索請(qǐng)求響應(yīng)之后 用戶瀏覽了響應(yīng)結(jié)果才能獲取,所以放在搜索響應(yīng)模塊里。用戶屬性庫結(jié)構(gòu)如下表所示。
用戶在申請(qǐng)入網(wǎng)時(shí),將會(huì)被鼓勵(lì)填寫完整的用戶資料,比如姓名、民族、性別、年 齡、生日、證件編號(hào)、地址、職業(yè)、收入水平、愛好、婚姻狀況、宗教信仰、注冊(cè)時(shí)間等,其中,性 別、年齡、職業(yè)、收入這幾項(xiàng)用戶屬性資料是后面使用聚類方法得到用戶大類的主要依據(jù)。用戶入網(wǎng)成功后,會(huì)得到一個(gè)手機(jī)號(hào),運(yùn)營商的系統(tǒng)會(huì)為用戶分配一個(gè)用戶標(biāo)識(shí)。 用戶第一次連接網(wǎng)絡(luò)時(shí),系統(tǒng)會(huì)獲取用戶手機(jī)的IMEI號(hào),并且與用戶標(biāo)識(shí)和用戶手機(jī)號(hào)關(guān) 聯(lián)在一起。用戶屬性資料生成時(shí)格式各異,有的是紙質(zhì)的,有的是電腦存儲(chǔ)的。為了實(shí)現(xiàn)對(duì)用 戶屬性資料的處理,需要將這些格式不同的數(shù)據(jù)定期匯總起來,然后統(tǒng)一按照上表的格式 存儲(chǔ)。這些格式化后的數(shù)據(jù)都存儲(chǔ)在用戶屬性最新表里。用戶屬性最新表還有一項(xiàng)是用戶大類,這項(xiàng)資料并不是直接獲取的,而是由后面 的挖掘處理模塊對(duì)最新表里的屬性數(shù)據(jù)進(jìn)行聚類分析后得到的結(jié)果。對(duì)于已經(jīng)注冊(cè)的用戶,上述的用戶屬性資料可以從運(yùn)營商的用戶資料庫中獲取, 同樣需要對(duì)取到的數(shù)據(jù)進(jìn)行格式化操作。用戶行為庫結(jié)構(gòu)如下表所示。 用戶提出搜索請(qǐng)求時(shí),數(shù)據(jù)準(zhǔn)備模塊將根據(jù)用戶的手機(jī)號(hào)查找到該用戶的用戶標(biāo) 識(shí),并且將該用戶的搜索語句提煉出關(guān)鍵字,最多三個(gè)。記錄下該用戶提出搜索請(qǐng)求時(shí)所處 的時(shí)間和基站號(hào),按照表中格式轉(zhuǎn)化之后存入到用戶行為最新表。用戶行為庫還包含了三個(gè)瀏覽內(nèi)容關(guān)鍵字,這部分?jǐn)?shù)據(jù)將有后面的搜索響應(yīng)模塊寫入。2、挖掘處理階段如圖4所示,挖掘處理階段主要分為了以下幾個(gè)步驟a、對(duì)用戶屬性最新表進(jìn)行K均值聚類分析,得到該用戶所屬的用戶大類。b、對(duì)用戶屬性最新表的每個(gè)用戶大類的搜索關(guān)鍵字和瀏覽內(nèi)容關(guān)鍵字進(jìn)行樸素 貝葉斯分類分析,生成該用戶大類的對(duì)于該搜索關(guān)鍵字的預(yù)測規(guī)則。C、將生成的用戶大類搜索響應(yīng)的預(yù)測規(guī)則存入響應(yīng)規(guī)則庫。在步驟a中,對(duì)用戶屬性最新表進(jìn)行K均值聚類分析,首先就要確定K的值。在這 里,參考羅蘭貝格公司曾經(jīng)做過的的移動(dòng)用戶分類標(biāo)準(zhǔn),本模塊將用戶分為八大類。具體分 類標(biāo)準(zhǔn)如下表所示。 依據(jù)上表中的分類標(biāo)準(zhǔn),對(duì)用戶屬性最新表進(jìn)行聚類分析,得到每個(gè)用戶所屬的 用戶大類。在用戶發(fā)起搜索請(qǐng)求和瀏覽搜索內(nèi)容時(shí),系統(tǒng)會(huì)自動(dòng)記錄用戶搜索關(guān)鍵字和瀏覽 關(guān)鍵字的次數(shù),這些次數(shù)將作為權(quán)重加入到樸素貝葉斯分類分析中來。樸素貝葉斯分類理論是基于條件概率的,搜索關(guān)鍵字和瀏覽內(nèi)容關(guān)鍵字的次數(shù)權(quán) 重比即是分析所需的條件概率。依據(jù)這一對(duì)對(duì)的條件概率,可以得出該用戶大類在搜索某個(gè)關(guān)鍵字時(shí)可能感興趣的其他關(guān)鍵字。由于本模塊的分析是基于用戶大類,而不是基于單 個(gè)用戶的。因此由本模塊生成的響應(yīng)規(guī)則除了能夠提供給用戶他所需要查找的內(nèi)容,另外 還能夠提供給用戶他所未想到但是卻感興趣的內(nèi)容,因?yàn)檫@部分內(nèi)容正是與他同屬一個(gè)大 類的其他用戶所感興趣的,而該用戶對(duì)此內(nèi)容感興趣的概率也極大。響應(yīng)規(guī)則庫結(jié)構(gòu)如下表所示。 生成的響應(yīng)規(guī)則庫結(jié)果簡單,由用戶大類、搜索關(guān)鍵字和相關(guān)關(guān)鍵字。相關(guān)關(guān)鍵字 即為挖掘處理模塊得出的結(jié)果,即用戶可能感興趣的相關(guān)內(nèi)容。由于響應(yīng)規(guī)則庫的基準(zhǔn)是用戶大類,而不是單個(gè)用戶。因此該庫的數(shù)據(jù)規(guī)模較小, 訪問起來速度非???,幾乎沒有延時(shí)影響。而且該庫的結(jié)構(gòu)簡單,相關(guān)關(guān)鍵字可以直接用于 搜索結(jié)果的個(gè)性化處理,縮短了規(guī)則的處理時(shí)間。3、搜索響應(yīng)階段如圖5所示,搜索響應(yīng)模塊執(zhí)行搜索響應(yīng)功能時(shí)包括以下幾個(gè)步驟a、用戶提出搜索請(qǐng)求,本模塊從中提取出用戶的搜索關(guān)鍵字,最多為三個(gè)。b、根據(jù)用戶手機(jī)號(hào),本模塊查找用戶屬性歷史表,得到用戶大類。C、根據(jù)用戶的用戶大類和搜索關(guān)鍵字,本模塊查找響應(yīng)規(guī)則庫,得到相應(yīng)的響應(yīng) 規(guī)則。d、根據(jù)響應(yīng)規(guī)則返回搜索結(jié)果給用戶。e、記錄用戶瀏覽內(nèi)容的關(guān)鍵字,寫入用戶行為最新庫。用戶提出搜索請(qǐng)求時(shí),本模塊將提取出用戶的手機(jī)號(hào)、搜索語句的關(guān)鍵字。根據(jù)用 戶的手機(jī)號(hào),本模塊從用戶屬性庫的用戶標(biāo)識(shí)與用戶手機(jī)號(hào)、IMEI號(hào)映射分表里查找到該 用戶的用戶標(biāo)識(shí),進(jìn)而查從用戶屬性歷史表里找到該用戶所屬的用戶大類。根據(jù)用戶大類 和搜索關(guān)鍵字,查找響應(yīng)規(guī)則庫,給出用戶可能感興趣的其他關(guān)鍵字,加入到用戶搜索響應(yīng) 結(jié)果中去。最后,記錄用戶在搜索結(jié)果中瀏覽的內(nèi)容,提取其關(guān)鍵字,寫入用戶行為最新表
11中去。該過程不涉及任何數(shù)據(jù)挖掘處理操作,所需處理時(shí)間極短,可以滿足用戶搜索請(qǐng)求的 實(shí)時(shí)性需要。 上述僅為本發(fā)明的較佳實(shí)施例而已,并非用來限定本發(fā)明實(shí)施范圍。即凡依照本 發(fā)明申請(qǐng)專利范圍所做的均等變化與修飾,皆為本發(fā)明專利范圍所涵蓋。
權(quán)利要求
一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)系統(tǒng),其特征在于,包括數(shù)據(jù)準(zhǔn)備模塊、挖掘處理模塊、搜索響應(yīng)模塊,所述數(shù)據(jù)準(zhǔn)備模塊,用于采集用戶信息數(shù)據(jù),所述用戶信息數(shù)據(jù)包括用戶屬性資料和發(fā)起搜索請(qǐng)求的行為資料,建立用戶屬性資料庫和用戶搜索請(qǐng)求行為資料庫,為挖掘處理模塊提供數(shù)據(jù)支持;所述挖掘處理模塊,用于對(duì)所述數(shù)據(jù)準(zhǔn)備模塊提供的用戶屬性資料庫和用戶搜索請(qǐng)求行為資料庫進(jìn)行數(shù)據(jù)挖掘分析,建立或更新用戶搜索響應(yīng)規(guī)則,并將經(jīng)過數(shù)據(jù)挖掘分析后的數(shù)據(jù)反饋給數(shù)據(jù)準(zhǔn)備模塊;所述搜索響應(yīng)模塊,用于根據(jù)所述用戶搜索響應(yīng)規(guī)則,對(duì)用戶提出的搜索請(qǐng)求進(jìn)行處理,給出搜索結(jié)果,并將用戶搜索行為資料反饋給所述數(shù)據(jù)準(zhǔn)備模塊。2、根據(jù)權(quán)利要求1所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)系統(tǒng),其特征在于,所述用戶屬性資料庫,包含用戶的性別、年齡、職業(yè)、收入信息、用戶大類;用戶屬性資料庫包括屬性最新表和屬性歷史表,所述屬性最新表存儲(chǔ)未經(jīng)挖掘處理的原始數(shù)據(jù),經(jīng)挖掘處理后的數(shù)據(jù)存入屬性歷史表;所述用戶行為資料庫,儲(chǔ)存用戶搜索請(qǐng)求行為資料,該行為資料庫包含了用戶標(biāo)識(shí)、搜索關(guān)鍵字1、搜索關(guān)鍵字2、搜索關(guān)鍵字3、搜索時(shí)間、所處基站號(hào)、瀏覽內(nèi)容關(guān)鍵字1、瀏覽內(nèi)容關(guān)鍵字2、瀏覽內(nèi)容關(guān)鍵字3;用戶行為資料庫包括行為最新表和行為歷史表,所述行為最新表存儲(chǔ)未經(jīng)處理的用戶發(fā)起的搜索請(qǐng)求行為資料,處理后的搜索請(qǐng)求行為資料存入行為歷史表。3、根據(jù)權(quán)利要求1所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)系統(tǒng),其特征在于,所述用戶搜索響應(yīng)規(guī)則庫包含以下信息用戶大類、搜索關(guān)鍵字1、搜索關(guān)鍵字2、搜索關(guān)鍵字3、相關(guān)關(guān)鍵字1、相關(guān)關(guān)鍵字2、相關(guān)關(guān)鍵字3。4、一種根據(jù)權(quán)利要求1所述移動(dòng)用戶搜索請(qǐng)求響應(yīng)系統(tǒng)的處理方法,其特征在于,包括以下步驟步驟1、數(shù)據(jù)準(zhǔn)備階段采集用戶信息數(shù)據(jù),該用戶信息數(shù)據(jù)包括用戶屬性資料和用戶搜索請(qǐng)求行為資料,建立用戶屬性資料庫和用戶搜索請(qǐng)求行為資料庫;步驟2、挖掘處理階段對(duì)用戶屬性資料庫和用戶搜索請(qǐng)求行為資料庫進(jìn)行數(shù)據(jù)挖掘分析,建立或更新用戶搜索響應(yīng)規(guī)則庫;步驟3、搜索響應(yīng)階段針對(duì)移動(dòng)用戶當(dāng)前發(fā)起的搜索請(qǐng)求,訪問搜索響應(yīng)規(guī)則庫,給出搜索結(jié)果,將用戶搜索行為資料記錄到用戶搜索請(qǐng)求行為資料庫。5、根據(jù)權(quán)利要求4所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)方法,其特征在于,步驟1中所述用戶屬性資料統(tǒng)一入庫管理,進(jìn)一步包含a、建立用戶屬性資料庫,用戶屬性資料庫的字段包含用戶的性別、年齡、職業(yè)、收入信息、用戶大類;用戶屬性資料庫包括屬性最新表和屬性歷史表,兩表結(jié)構(gòu)相同;所述屬性最新表存未經(jīng)挖掘處理的原始數(shù)據(jù),經(jīng)挖掘處理過后存入屬性歷史表;b、建立用戶行為資料庫,所述用戶行為資料庫儲(chǔ)存用戶搜索請(qǐng)求行為資料,用戶發(fā)起的搜索請(qǐng)求得到響應(yīng)后記載入用戶行為資料庫;該行為資料庫的字段包含用戶標(biāo)識(shí)、搜索關(guān)鍵字1、搜索關(guān)鍵字2、搜索關(guān)鍵字3、搜索時(shí)間、所處基站號(hào)、瀏覽內(nèi)容關(guān)鍵字1、瀏覽內(nèi)容關(guān)鍵字2、瀏覽內(nèi)容關(guān)鍵字3;用戶行為資料庫包括行為最新表和行為歷史表,行為最新表存儲(chǔ)未經(jīng)處理的用戶發(fā)起的搜索請(qǐng)求行為,處理過后存入行為歷史表。6、根據(jù)權(quán)利要求4所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)方法,其特征在于,步驟2中對(duì)屬性資料庫和行為資料庫進(jìn)行數(shù)據(jù)挖掘分析包括以下步驟a、首次對(duì)所述屬性最新表和行為最新表里的數(shù)據(jù)進(jìn)行挖掘處理,建立用戶搜索響應(yīng)規(guī)則庫,所述用戶搜索響應(yīng)規(guī)則庫包含以下信息用戶大類、搜索關(guān)鍵字1、搜索關(guān)鍵字2、搜索關(guān)鍵字3、相關(guān)關(guān)鍵字1、相關(guān)關(guān)鍵字2、相關(guān)關(guān)鍵字3;b、定期對(duì)所述屬性最新表和行為最新表進(jìn)行數(shù)據(jù)挖掘處理,根據(jù)數(shù)據(jù)挖掘結(jié)果對(duì)所述用戶搜索響應(yīng)規(guī)則庫進(jìn)行更新;c、將屬性最新表里的數(shù)據(jù)轉(zhuǎn)移到屬性歷史表,清空屬性最新表。7、根據(jù)權(quán)利要求6所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)方法,其特征在于,步驟2 a中對(duì)用戶屬性最新表和行為最新表的挖掘處理,進(jìn)一步包含a、對(duì)用戶屬性最新表進(jìn)行K均值聚類計(jì)算,生成各個(gè)用戶的用戶大類屬性,所述用戶大類屬性作為用戶搜索請(qǐng)求響應(yīng)規(guī)則的基準(zhǔn)類別;b、將聚類得到的每個(gè)用戶所屬的用戶大類寫入所述用戶行為最新表;c、根據(jù)用戶大類和搜索請(qǐng)求關(guān)鍵字,以及用戶的瀏覽內(nèi)容關(guān)鍵字,對(duì)用戶行為最新表進(jìn)行樸素貝葉斯分類計(jì)算,得到用戶大類的請(qǐng)求關(guān)鍵字與實(shí)際瀏覽內(nèi)容關(guān)鍵字的關(guān)系。8、根據(jù)權(quán)利要求4所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)方法,其特征在于,步驟3中對(duì)用戶搜索請(qǐng)求的響應(yīng)過程,進(jìn)一步包括以下步驟a、根據(jù)用戶的屬性資料查找用戶屬性歷史表,得到用戶所屬的大類;b、根據(jù)用戶所屬的大類以及用戶發(fā)出搜索請(qǐng)求的關(guān)鍵字查找用戶搜索響應(yīng)規(guī)則庫,找出用戶搜索請(qǐng)求響應(yīng)規(guī)則;c、向用戶發(fā)送搜索請(qǐng)求響應(yīng),并記錄用戶得到響應(yīng)后所瀏覽內(nèi)容的關(guān)鍵字,以此更新用戶行為最新表;d、將用戶行為最新表轉(zhuǎn)移到用戶行為歷史表,清空用戶行為最新表。
2、根據(jù)權(quán)利要求1所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)系統(tǒng),其特征在于,所述用戶屬性資料庫,包含用戶的性別、年齡、職業(yè)、收入信息、用戶大類;用戶屬性資 料庫包括屬性最新表和屬性歷史表,所述屬性最新表存儲(chǔ)未經(jīng)挖掘處理的原始數(shù)據(jù),經(jīng)挖 掘處理后的數(shù)據(jù)存入屬性歷史表;所述用戶行為資料庫,儲(chǔ)存用戶搜索請(qǐng)求行為資料,該行為資料庫包含了用戶標(biāo)識(shí)、搜 索關(guān)鍵字1、搜索關(guān)鍵字2、搜索關(guān)鍵字3、搜索時(shí)間、所處基站號(hào)、瀏覽內(nèi)容關(guān)鍵字1、瀏覽內(nèi) 容關(guān)鍵字2、瀏覽內(nèi)容關(guān)鍵字3 ;用戶行為資料庫包括行為最新表和行為歷史表,所述行為 最新表存儲(chǔ)未經(jīng)處理的用戶發(fā)起的搜索請(qǐng)求行為資料,處理后的搜索請(qǐng)求行為資料存入行 為歷史表。
3、根據(jù)權(quán)利要求1所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)系統(tǒng),其特征在于,所述用戶搜 索響應(yīng)規(guī)則庫包含以下信息用戶大類、搜索關(guān)鍵字1、搜索關(guān)鍵字2、搜索關(guān)鍵字3、相關(guān)關(guān) 鍵字1、相關(guān)關(guān)鍵字2、相關(guān)關(guān)鍵字3。
4、一種根據(jù)權(quán)利要求1所述移動(dòng)用戶搜索請(qǐng)求響應(yīng)系統(tǒng)的處理方法,其特征在于,包 括以下步驟步驟1、數(shù)據(jù)準(zhǔn)備階段采集用戶信息數(shù)據(jù),該用戶信息數(shù)據(jù)包括用戶屬性資料和用戶 搜索請(qǐng)求行為資料,建立用戶屬性資料庫和用戶搜索請(qǐng)求行為資料庫;步驟2、挖掘處理階段對(duì)用戶屬性資料庫和用戶搜索請(qǐng)求行為資料庫進(jìn)行數(shù)據(jù)挖掘 分析,建立或更新用戶搜索響應(yīng)規(guī)則庫;步驟3、搜索響應(yīng)階段針對(duì)移動(dòng)用戶當(dāng)前發(fā)起的搜索請(qǐng)求,訪問搜索響應(yīng)規(guī)則庫,給 出搜索結(jié)果,將用戶搜索行為資料記錄到用戶搜索請(qǐng)求行為資料庫。
5、根據(jù)權(quán)利要求4所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)方法,其特征在于,步驟1中所述 用戶屬性資料統(tǒng)一入庫管理,進(jìn)一步包含a、建立用戶屬性資料庫,用戶屬性資料庫的字段包含用戶的性別、年齡、職業(yè)、收入信 息、用戶大類;用戶屬性資料庫包括屬性最新表和屬性歷史表,兩表結(jié)構(gòu)相同;所述屬性最 新表存未經(jīng)挖掘處理的原始數(shù)據(jù),經(jīng)挖掘處理過后存入屬性歷史表;b、建立用戶行為資料庫,所述用戶行為資料庫儲(chǔ)存用戶搜索請(qǐng)求行為資料,用戶發(fā)起 的搜索請(qǐng)求得到響應(yīng)后記載入用戶行為資料庫;該行為資料庫的字段包含用戶標(biāo)識(shí)、搜索 關(guān)鍵字1、搜索關(guān)鍵字2、搜索關(guān)鍵字3、搜索時(shí)間、所處基站號(hào)、瀏覽內(nèi)容關(guān)鍵字1、瀏覽內(nèi)容 關(guān)鍵字2、瀏覽內(nèi)容關(guān)鍵字3;用戶行為資料庫包括行為最新表和行為歷史表,行為最新表存儲(chǔ)未經(jīng)處理的用戶發(fā)起 的搜索請(qǐng)求行為,處理過后存入行為歷史表。
6、根據(jù)權(quán)利要求4所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)方法,其特征在于,步驟2中對(duì)屬 性資料庫和行為資料庫進(jìn)行數(shù)據(jù)挖掘分析包括以下步驟a、首次對(duì)所述屬性最新表和行為最新表里的數(shù)據(jù)進(jìn)行挖掘處理,建立用戶搜索響應(yīng)規(guī) 則庫,所述用戶搜索響應(yīng)規(guī)則庫包含以下信息用戶大類、搜索關(guān)鍵字1、搜索關(guān)鍵字2、搜 索關(guān)鍵字3、相關(guān)關(guān)鍵字1、相關(guān)關(guān)鍵字2、相關(guān)關(guān)鍵字3 ;b、定期對(duì)所述屬性最新表和行為最新表進(jìn)行數(shù)據(jù)挖掘處理,根據(jù)數(shù)據(jù)挖掘結(jié)果對(duì)所述 用戶搜索響應(yīng)規(guī)則庫進(jìn)行更新;c、將屬性最新表里的數(shù)據(jù)轉(zhuǎn)移到屬性歷史表,清空屬性最新表。
7、根據(jù)權(quán)利要求6所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)方法,其特征在于,步驟2-a中對(duì) 用戶屬性最新表和行為最新表的挖掘處理,進(jìn)一步包含a、對(duì)用戶屬性最新表進(jìn)行K均值聚類計(jì)算,生成各個(gè)用戶的用戶大類屬性,所述用戶 大類屬性作為用戶搜索請(qǐng)求響應(yīng)規(guī)則的基準(zhǔn)類別;b、將聚類得到的每個(gè)用戶所屬的用戶大類寫入所述用戶行為最新表;C、根據(jù)用戶大類和搜索請(qǐng)求關(guān)鍵字,以及用戶的瀏覽內(nèi)容關(guān)鍵字,對(duì)用戶行為最新表 進(jìn)行樸素貝葉斯分類計(jì)算,得到用戶大類的請(qǐng)求關(guān)鍵字與實(shí)際瀏覽內(nèi)容關(guān)鍵字的關(guān)系。
8、根據(jù)權(quán)利要求4所述的一種移動(dòng)用戶搜索請(qǐng)求響應(yīng)方法,其特征在于,步驟3中對(duì)用 戶搜索請(qǐng)求的響應(yīng)過程,進(jìn)一步包括以下步驟a、根據(jù)用戶的屬性資料查找用戶屬性歷史表,得到用戶所屬的大類;b、根據(jù)用戶所屬的大類以及用戶發(fā)出搜索請(qǐng)求的關(guān)鍵字查找用戶搜索響應(yīng)規(guī)則庫,找 出用戶搜索請(qǐng)求響應(yīng)規(guī)則;C、向用戶發(fā)送搜索請(qǐng)求響應(yīng),并記錄用戶得到響應(yīng)后所瀏覽內(nèi)容的關(guān)鍵字,以此更新 用戶行為最新表;d、將用戶行為最新表轉(zhuǎn)移到用戶行為歷史表,清空用戶行為最新表。
全文摘要
本發(fā)明提供一種移動(dòng)通信用戶搜索請(qǐng)求響應(yīng)系統(tǒng)及其處理方法,包括數(shù)據(jù)準(zhǔn)備模塊、挖掘處理模塊、搜索響應(yīng)模塊。其處理方法包括數(shù)據(jù)準(zhǔn)備階段采集用戶信息數(shù)據(jù),建立用戶屬性資料庫和用戶行為資料庫;挖掘處理階段對(duì)用戶屬性資料庫和用戶行為資料庫進(jìn)行數(shù)據(jù)挖掘分析,建立或更新用戶搜索響應(yīng)規(guī)則庫;搜索響應(yīng)階段針對(duì)搜索請(qǐng)求,訪問搜索響應(yīng)規(guī)則庫,給出搜索結(jié)果,并將用戶搜索行為資料記錄到用戶搜索請(qǐng)求行為資料庫。本發(fā)明的優(yōu)點(diǎn)在于將數(shù)據(jù)挖掘技術(shù)引入到移動(dòng)用戶搜索請(qǐng)求響應(yīng)中來,并且對(duì)移動(dòng)用戶的屬性資料和行為資料同時(shí)進(jìn)行處理,使個(gè)性化搜索結(jié)果更符合用戶需求,處理過程復(fù)雜度低,響應(yīng)時(shí)間短。
文檔編號(hào)G06F17/30GK101916288SQ20101026251
公開日2010年12月15日 申請(qǐng)日期2010年8月25日 優(yōu)先權(quán)日2010年8月25日
發(fā)明者王芙蓉, 鄭兵文 申請(qǐng)人:華中科技大學(xué)