專利名稱:信息發(fā)布、查詢系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息發(fā)布、查詢系統(tǒng),更具體地說(shuō),涉及一種實(shí)現(xiàn)分類廣告信息自動(dòng)匹配的信息發(fā)布、查詢系統(tǒng)和方法。
背景技術(shù):
分類廣告信息一直是報(bào)紙、雜志等傳統(tǒng)媒體很重要的一種廣告形式,由于其內(nèi)容和人們?nèi)粘I蠲芮邢嚓P(guān),因此受到讀者的廣泛歡迎。但是由于傳統(tǒng)媒體的固有特點(diǎn),使得分類廣告信息在實(shí)時(shí)性、互動(dòng)性等方面很難滿足人們的需要。隨著互聯(lián)網(wǎng)的普及,以及電信增值業(yè)務(wù)的飛速發(fā)展,人們已經(jīng)可以通過(guò)互聯(lián)網(wǎng)或者手機(jī)短信進(jìn)行及時(shí)的發(fā)布和查詢電子分類廣告信息,電子分類廣告信息已經(jīng)得到了越來(lái)越多人的青睞。
互聯(lián)網(wǎng)上的分類廣告信息,大多是以文字形式在Web頁(yè)面上存在的。分類廣告信息一般都是由幾個(gè)不同的信息點(diǎn)構(gòu)成的,不同類型的廣告信息具有不同的信息點(diǎn),這些信息點(diǎn)決定了分類廣告信息可以轉(zhuǎn)換成一組結(jié)構(gòu)化的信息。分類廣告信息在Web頁(yè)面上有兩種表現(xiàn)形式一是用表格的形式給出,結(jié)構(gòu)信息體現(xiàn)在Html標(biāo)記上;二是用自然語(yǔ)言形式給出,信息點(diǎn)都包含在自然語(yǔ)言中。表格的形式便于查詢,但只適用于互聯(lián)網(wǎng)上,不適用于短信等電信增值業(yè)務(wù)。自然語(yǔ)言形式表達(dá)靈活,使用環(huán)境不限,但是需要進(jìn)行智能的語(yǔ)言分析和提取。
分類廣告信息的查詢,有三種方法一是進(jìn)入相應(yīng)的站點(diǎn),輸入查詢關(guān)鍵詞,查看返回結(jié)果以尋找答案;二是利用現(xiàn)有的搜索引擎,比如Google、百度等,輸入關(guān)鍵詞進(jìn)行查詢;三是通過(guò)服務(wù)代碼,連接電信增值業(yè)務(wù)的相應(yīng)內(nèi)容提供商。這三種方法各有利弊,第一種方法的優(yōu)點(diǎn)是查詢得到的信息都是相應(yīng)類別的分類廣告,其缺點(diǎn)是不同網(wǎng)站之間的信息不共享,為了同一個(gè)查詢需要在不同的網(wǎng)站填寫不同的查詢要求。第二種方法的優(yōu)點(diǎn)是這些搜索引擎都有一定的知名度,只需要一次進(jìn)入,其缺點(diǎn)是現(xiàn)有的搜索一般是網(wǎng)頁(yè)搜索,其搜索結(jié)果不能給出結(jié)構(gòu)化信息,包含大量的垃圾頁(yè)面,尋找答案費(fèi)時(shí)費(fèi)力。第三種方法的優(yōu)點(diǎn)是尋找答案快捷方便,其缺點(diǎn)是電信增值業(yè)務(wù)基本都是通過(guò)服務(wù)代碼來(lái)完成的,服務(wù)代碼不易于記憶,查詢的智能性不高,信息量有限。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問(wèn)題在于,針對(duì)現(xiàn)有技術(shù)的上述缺陷,提供一種信息發(fā)布、查詢系統(tǒng)和方法,利用自然語(yǔ)言分析技術(shù)進(jìn)行智能提取、相關(guān)性計(jì)算,從而實(shí)現(xiàn)分類廣告信息自動(dòng)匹配。
本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是構(gòu)造一種信息發(fā)布、查詢系統(tǒng),該系統(tǒng)包括終端、匹配服務(wù)器以及廣告信息庫(kù),所述終端,用于提交發(fā)布的廣告信息或查詢的請(qǐng)求;所述匹配服務(wù)器,用于接收終端請(qǐng)求,對(duì)終端請(qǐng)求進(jìn)行智能分析,并根據(jù)分析結(jié)果計(jì)算終端請(qǐng)求與廣告信息庫(kù)之間的關(guān)聯(lián)度,以及根據(jù)關(guān)聯(lián)度生成匹配結(jié)果;及所述廣告信息庫(kù),用于將信息以文本形式和結(jié)構(gòu)形式進(jìn)行存儲(chǔ)。
在本發(fā)明所述的系統(tǒng)中,所述匹配服務(wù)器具體包括廣告服務(wù)器,分析引擎以及匹配引擎,所述廣告服務(wù)器,負(fù)責(zé)廣告信息庫(kù)的建立、廣告信息庫(kù)的管理以及用戶接口;所述分析引擎,負(fù)責(zé)對(duì)用戶提交的廣告信息進(jìn)行智能分析,將廣告信息轉(zhuǎn)換成廣告結(jié)構(gòu);及所述匹配引擎,負(fù)責(zé)計(jì)算終端請(qǐng)求與廣告信息庫(kù)之間的關(guān)聯(lián)度、并依照關(guān)聯(lián)度生成匹配結(jié)果。
在本發(fā)明所述的系統(tǒng)中,所述分析引擎針對(duì)用Html標(biāo)記出結(jié)構(gòu)的廣告信息,采用模板的形式實(shí)現(xiàn)人機(jī)互動(dòng)提?。会槍?duì)自然語(yǔ)言表述的廣告信息,采用語(yǔ)義分析技術(shù),自動(dòng)進(jìn)行語(yǔ)義屬性切分,并把語(yǔ)義屬性對(duì)應(yīng)到廣告結(jié)構(gòu)框架的項(xiàng)目上,實(shí)現(xiàn)自動(dòng)提取。
在本發(fā)明所述的系統(tǒng)中,所述匹配引擎實(shí)現(xiàn)了屬性和屬性值的語(yǔ)義匹配,擺脫了關(guān)鍵詞精確匹配所帶來(lái)的漏檢率。
在本發(fā)明所述的系統(tǒng)中,所述匹配引擎的相似度綜合了邏輯運(yùn)算、關(guān)系運(yùn)算、語(yǔ)義匹配的結(jié)果,對(duì)時(shí)間、數(shù)字、地點(diǎn)、關(guān)鍵詞的項(xiàng)目進(jìn)行邏輯運(yùn)算匹配計(jì)算;對(duì)地域、數(shù)字范圍、時(shí)間范圍的項(xiàng)目進(jìn)行關(guān)系運(yùn)算匹配計(jì)算;對(duì)語(yǔ)義屬性的項(xiàng)目進(jìn)行屬性和屬性值的語(yǔ)義匹配計(jì)算。
在本發(fā)明所述的系統(tǒng)中,所述廣告服務(wù)器通過(guò)自然語(yǔ)義分析技術(shù),提供了結(jié)構(gòu)化和非結(jié)構(gòu)化的分類廣告信息的發(fā)布、查詢一體化的服務(wù),并進(jìn)一步實(shí)現(xiàn)了Web頁(yè)面、RSS、短信、WAP等方式的互聯(lián)互通。
一種信息發(fā)布、查詢方法,在通過(guò)匹配服務(wù)器與互聯(lián)網(wǎng)或服務(wù)提供商相連的廣告信息庫(kù)存儲(chǔ)有廣告信息,包括以下步驟S1.所述匹配服務(wù)器接收到終端提交廣告信息發(fā)布或查詢的請(qǐng)求;S2.所述匹配服務(wù)器計(jì)算終端請(qǐng)求與廣告信息庫(kù)之間的關(guān)聯(lián)度、并依照關(guān)聯(lián)度生成匹配結(jié)果;S3.將所述匹配結(jié)果返回所述終端。
在本發(fā)明所述的方法中,在執(zhí)行所述步驟S1之前進(jìn)一步包括S01.選擇提交廣告信息發(fā)布或查詢的請(qǐng)求的表述方式,所述表述方式具體包括結(jié)構(gòu)化表述和自然語(yǔ)言表述;S02.定制返回結(jié)果的方式,所述返回方式具體包括以Web頁(yè)面、XML數(shù)據(jù)包、即時(shí)通信或短信回復(fù)方式返回。
在本發(fā)明所述的方法中,在執(zhí)行所述步驟S2之前進(jìn)一步包括對(duì)所述請(qǐng)求進(jìn)行智能分析,具體包括提取所述廣告信息的類別;分析所述廣告信息的格式,包括自然語(yǔ)言格式和Html格式;若是自然格言格式,則分析廣告信息中的自然語(yǔ)言;若是Html格式,則提取Html頁(yè)面結(jié)構(gòu)信息;提取廣告結(jié)構(gòu)信息。
在本發(fā)明所述的方法中,所述計(jì)算終端請(qǐng)求與廣告信息庫(kù)之間的關(guān)聯(lián)度具體包括以下步驟S21.對(duì)廣告信息的類型進(jìn)行匹配計(jì)算;S22.對(duì)廣告信息的結(jié)構(gòu)框架中的每個(gè)項(xiàng)目進(jìn)行匹配計(jì)算,具體包括對(duì)時(shí)間、數(shù)字、地點(diǎn)、關(guān)鍵詞的項(xiàng)目進(jìn)行邏輯運(yùn)算匹配計(jì)算;對(duì)地域、數(shù)字范圍、時(shí)間范圍的項(xiàng)目進(jìn)行關(guān)系運(yùn)算匹配計(jì)算;對(duì)語(yǔ)義屬性的項(xiàng)目進(jìn)行屬性和屬性值的語(yǔ)義匹配計(jì)算;S23.依照關(guān)聯(lián)度的高低排序輸出匹配結(jié)果。
本發(fā)明的有益效果是,可以有效地整合分類廣告資源,為用戶提供“一站式”的發(fā)布查詢服務(wù),而且實(shí)現(xiàn)屬性和屬性值的語(yǔ)義匹配,擺脫了關(guān)鍵詞精確匹配所帶來(lái)的漏檢率,相似度綜合了邏輯運(yùn)算、關(guān)系運(yùn)算以及語(yǔ)義匹配的結(jié)果,使得匹配更加準(zhǔn)確。
下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明,附圖中圖1是本發(fā)明的信息發(fā)布、查詢系統(tǒng)的示意圖;圖2是本發(fā)明的信息發(fā)布、查詢方法的流程圖;圖3是本發(fā)明的匹配服務(wù)器中的廣告服務(wù)器的示意圖;圖4是本發(fā)明的匹配服務(wù)器中的分析引擎的流程圖;圖5是本發(fā)明的匹配服務(wù)器中的匹配引擎的流程圖。
具體實(shí)施例方式
圖1是本發(fā)明的信息發(fā)布、查詢系統(tǒng)的示意圖,如圖所示。一種信息發(fā)布、查詢系統(tǒng)包括終端、匹配服務(wù)器12以及廣告信息庫(kù)15(即圖中的廣告庫(kù)15);所述終端,用于發(fā)布、查詢信息;所述匹配服務(wù)器12,用于計(jì)算終端請(qǐng)求和廣告信息庫(kù)15之間的關(guān)聯(lián)度,實(shí)現(xiàn)自動(dòng)匹配并向終端返回結(jié)果;所述廣告信息庫(kù)15作為系統(tǒng)的存儲(chǔ)器,用于將廣告信息以廣告和廣告結(jié)構(gòu)的形式進(jìn)行存儲(chǔ)。下面對(duì)終端、匹配服務(wù)器12以及廣告信息庫(kù)15進(jìn)行具體的說(shuō)明。
終端發(fā)布、查詢信息包括但不限于以下兩種形式第一種,用戶16可以從計(jì)算機(jī)13上發(fā)布分類廣告信息或提交信息查詢請(qǐng)求,并通過(guò)互聯(lián)網(wǎng)10連接到匹配服務(wù)器12。
計(jì)算機(jī)13可以是任意一臺(tái)計(jì)算機(jī),包括但不限于,個(gè)人計(jì)算機(jī)、PDA、終端設(shè)備等,也可以是以WAP方式連接的移動(dòng)設(shè)備。
用戶16在計(jì)算機(jī)13上可以使用瀏覽器(比如IE、Firefox等),也可以使用即時(shí)通訊軟件,包括但不限有MSN、Yahoo通、騰訊QQ等,還可以使用RSS(Really Simple Syndication,簡(jiǎn)稱RSS)客戶瀏覽器。
互聯(lián)網(wǎng)10指一切可以實(shí)現(xiàn)互聯(lián)互通的網(wǎng)絡(luò)連接,包括但不限于,Internet、寬帶、局域網(wǎng)、無(wú)線網(wǎng)絡(luò)等。
第二種,用戶16也可以利用移動(dòng)通訊設(shè)備14發(fā)布分類廣告信息或提交信息查詢請(qǐng)求,并通過(guò)電信增值業(yè)務(wù)服務(wù)提供商11傳送到匹配服務(wù)器12。
移動(dòng)通訊設(shè)備14可以是手機(jī)、PDA等能實(shí)現(xiàn)短信增值業(yè)務(wù)的終端設(shè)備。用戶16在移動(dòng)通訊設(shè)備14上一般使用短信方式。電信增值業(yè)務(wù)服務(wù)提供商11是可以與匹配服務(wù)器12互聯(lián)互通的提供商,匹配服務(wù)器12可以讀取服務(wù)提供商11傳送過(guò)來(lái)的廣告數(shù)據(jù)。
匹配服務(wù)器12是整個(gè)系統(tǒng)的核心,它包括3個(gè)模塊分析引擎17、匹配引擎18以及廣告服務(wù)器19。
分析引擎17負(fù)責(zé)對(duì)用戶提交的廣告信息進(jìn)行智能分析,得到廣告信息的類別,并從廣告信息中抽取出其包含的所有的信息點(diǎn),以及各個(gè)信息點(diǎn)之間的關(guān)系,并將處理結(jié)果以廣告結(jié)構(gòu)21的形式存儲(chǔ)在廣告信息庫(kù)15中。分析引擎17的處理對(duì)象是廣告21,其處理結(jié)果是廣告結(jié)構(gòu)21;匹配引擎18負(fù)責(zé)對(duì)兩個(gè)廣告結(jié)構(gòu)(用戶提交的查詢請(qǐng)求的結(jié)構(gòu)化信息R與廣告信息庫(kù)15中的廣告結(jié)構(gòu)信息20)進(jìn)行匹配,計(jì)算它們之間的關(guān)聯(lián)度。匹配引擎18包含三種匹配運(yùn)算一是精確匹配,針對(duì)時(shí)間、數(shù)字、關(guān)鍵詞等基本數(shù)據(jù)類型;二是模糊運(yùn)算,針對(duì)地域、數(shù)字范圍等信息;三是語(yǔ)義匹配,針對(duì)一些需要屬性和屬性值之間進(jìn)行匹配的信息,例如,人的“性格”是人的一個(gè)屬性,而“可愛(ài)”是它的一個(gè)屬性值,“可愛(ài)”和“性格”之間有一定的關(guān)聯(lián)度。
廣告服務(wù)器19是匹配服務(wù)器12的對(duì)外接口,其功能如下1)接收用戶發(fā)布的廣告信息或用戶提交信息的查詢請(qǐng)求;2)利用網(wǎng)絡(luò)蜘蛛(“網(wǎng)絡(luò)蜘蛛”,學(xué)名Spider,是一個(gè)自動(dòng)程序,可以自動(dòng)地在互聯(lián)網(wǎng)中搜索信息。一個(gè)典型的網(wǎng)絡(luò)蜘蛛工作的方式,就是查看一個(gè)頁(yè)面,并從中找到相關(guān)信息,然后再?gòu)脑擁?yè)面的所有鏈接中出發(fā),繼續(xù)尋找相關(guān)的信息,以此類推,直至窮盡)主動(dòng)去指定站點(diǎn)抓取廣告信息;3)負(fù)責(zé)管理廣告信息庫(kù)15。廣告服務(wù)器19將接收到或抓取到的廣告,以廣告21的形式存儲(chǔ)到廣告信息庫(kù)15中,并調(diào)用分析引擎18從廣告21抽取出廣告結(jié)構(gòu)20,同時(shí)存儲(chǔ)在廣告信息庫(kù)中;4)負(fù)責(zé)對(duì)網(wǎng)絡(luò)蜘蛛程序的行為(抓取層次、更新策略等)進(jìn)行配置和管理;5)負(fù)責(zé)對(duì)用戶結(jié)果返回方式的定制管理,返回方式可以是Web頁(yè)面、短信回復(fù)、RSS聚合方式等;6)匹配引擎18的匹配結(jié)果,將通過(guò)廣告服務(wù)器19生成Web頁(yè)面或XML數(shù)據(jù)包以用戶定制的方式返回。
廣告信息庫(kù)15是系統(tǒng)的存儲(chǔ)器,其中廣告信息的原始內(nèi)容將以廣告21的形式存儲(chǔ)在廣告信息庫(kù)15中,廣告21包含廣告的基本屬性,包括發(fā)布時(shí)間、入庫(kù)時(shí)間、原始鏈接(URL)、有效期等;廣告結(jié)構(gòu)20是廣告21經(jīng)過(guò)分析引擎17抽取出的結(jié)構(gòu)化信息,不同類別的結(jié)構(gòu)不同,廣告結(jié)構(gòu)20包括類別信息、結(jié)構(gòu)信息等。
用戶16通過(guò)計(jì)算機(jī)13或移動(dòng)通信設(shè)備14發(fā)布的廣告,經(jīng)過(guò)匹配服務(wù)器12的廣告服務(wù)器19,以廣告21的形式存儲(chǔ)在廣告信息庫(kù)15中。同時(shí),廣告服務(wù)器19將調(diào)用分析引擎17對(duì)廣告21進(jìn)行智能分析,抽取出其中的結(jié)構(gòu)化信息,以廣告結(jié)構(gòu)20的形式存儲(chǔ)在廣告信息庫(kù)15中。用戶發(fā)布的廣告,同時(shí)作為查詢請(qǐng)求,進(jìn)行廣告匹配,并將匹配結(jié)果通過(guò)廣告服務(wù)器返回給用戶16。
用戶16通過(guò)計(jì)算機(jī)13或移動(dòng)通信設(shè)備14提交的查詢請(qǐng)求,提交給匹配服務(wù)器12,匹配服務(wù)器12調(diào)用分析引擎17對(duì)請(qǐng)求進(jìn)行分析,并抽取出其中的結(jié)構(gòu)化信息R;匹配引擎18將自動(dòng)計(jì)算信息R和廣告信息庫(kù)15中的廣告結(jié)構(gòu)20之間的關(guān)聯(lián)性,并按照關(guān)聯(lián)度生成匹配結(jié)果。匹配結(jié)果將通過(guò)廣告服務(wù)器的Web Service返回給用戶16。
圖2是本發(fā)明的信息發(fā)布、查詢方法的流程圖,如圖所示。用戶16通過(guò)計(jì)算機(jī)13以Web頁(yè)面或RSS聚合方式發(fā)布廣告或者提交查詢請(qǐng)求,其處理流程如下步驟51中,首選選擇表述方式,可以有兩種供選擇的方式,一是結(jié)構(gòu)化表述,二是自然語(yǔ)言表述;步驟52中,如果選擇結(jié)構(gòu)化表述,則繼續(xù)選擇廣告類別,并填充系統(tǒng)自動(dòng)生成的廣告結(jié)構(gòu);步驟53中,如果選擇自然語(yǔ)言,則用自然語(yǔ)言描述其請(qǐng)求;步驟54中,定制返回結(jié)果方式,此流程下返回方式可以是Web頁(yè)面、XML數(shù)據(jù)包等;步驟55中,判斷是否發(fā)布該廣告信息 如是,則該廣告信息可以被其他人匹配到;上述步驟54、55將作為用戶行為信息,上述步驟52或53的內(nèi)容作為廣告內(nèi)容,共同構(gòu)成用戶請(qǐng)求;步驟56中,將上述用戶請(qǐng)求提交給匹配服務(wù)器12;步驟57中,匹配服務(wù)器12計(jì)算出用戶請(qǐng)求和廣告信息庫(kù)15中的關(guān)聯(lián)度,并把關(guān)聯(lián)度最高的前N個(gè)結(jié)果形成匹配的廣告,并把匹配的廣告這個(gè)結(jié)果以用戶定制方式返回給用戶。
用戶16通過(guò)計(jì)算機(jī)13以即時(shí)通訊的方式或者通過(guò)移動(dòng)通信設(shè)備14以短信方式發(fā)布廣告或者提交查詢請(qǐng)求,其處理流程如下步驟51中,系統(tǒng)默認(rèn)表述方式為自然語(yǔ)言表述;步驟53中,用自然語(yǔ)言描述其請(qǐng)求;步驟54中,系統(tǒng)默認(rèn)返回結(jié)果方式為即時(shí)通訊或短信回復(fù);步驟55中,系統(tǒng)默認(rèn)為不發(fā)布;步驟54、55將作為用戶行為信息,步驟53的內(nèi)容作為廣告內(nèi)容,共同構(gòu)成用戶請(qǐng)求;步驟56中,將上述用戶請(qǐng)求提交給匹配服務(wù)器12;步驟57中,匹配服務(wù)器12計(jì)算用戶請(qǐng)求56和廣告信息庫(kù)15中的關(guān)聯(lián)度,并把關(guān)聯(lián)度最高的前N個(gè)結(jié)果形成匹配的廣告,并把匹配的廣告這個(gè)結(jié)果7以即時(shí)通訊或短信回復(fù)方式返回給用戶。
圖3是本發(fā)明的匹配服務(wù)器中的廣告服務(wù)器的示意圖,如圖所示。廣告服務(wù)器19包括三部分功能一是廣告信息庫(kù)15的建立;二是廣告信息庫(kù)15的管理;三是用戶接口。
廣告信息庫(kù)15的建立有兩種途徑1)是廣告服務(wù)器19調(diào)用網(wǎng)絡(luò)蜘蛛71,對(duì)互聯(lián)網(wǎng)10上的廣告信息自動(dòng)抓取,抓取得到的廣告,將以廣告21的形式直接保存到廣告信息庫(kù)15中,抓取的結(jié)果包括發(fā)布時(shí)間、入庫(kù)時(shí)間、原始鏈接(URL)、有效期、廣告內(nèi)容快照等。抓取管理器72對(duì)網(wǎng)絡(luò)蜘蛛71的行為進(jìn)行管理和設(shè)置,可以對(duì)抓取的深度、范圍,抓取的起始鏈接,抓取的類型(靜態(tài)頁(yè)面、JSP、ASP動(dòng)態(tài)頁(yè)面)進(jìn)行設(shè)置。同時(shí)對(duì)掃描周期、死鏈檢測(cè)周期等參數(shù)進(jìn)行管理;2)是用戶16通過(guò)廣告發(fā)布器74發(fā)布的廣告,這些廣告將以廣告21的形式直接保存到廣告信息庫(kù)15中,主要包括發(fā)布時(shí)間、入庫(kù)時(shí)間、有效期、廣告內(nèi)容等。
廣告信息庫(kù)15的管理主要包括三大功能1)是廣告信息庫(kù)15的數(shù)據(jù)庫(kù)管理和維護(hù),把新的廣告21增加到廣告信息庫(kù)15中,對(duì)超過(guò)有效期的或者網(wǎng)絡(luò)上死鏈對(duì)應(yīng)的廣告內(nèi)容21從廣告信息庫(kù)中刪除,同時(shí)刪除21對(duì)應(yīng)的廣告結(jié)構(gòu)20;2)是定期調(diào)用分析引擎17,把廣告信息庫(kù)15中的新的廣告21分析提取成廣告結(jié)構(gòu)20,實(shí)現(xiàn)廣告信息庫(kù)內(nèi)部的數(shù)據(jù)同步;3)是對(duì)廣告結(jié)構(gòu)20建立索引,以方便匹配。索引結(jié)構(gòu)以倒排索引表為主。
用戶接口實(shí)現(xiàn)用戶對(duì)廣告的發(fā)布、查詢、定制等功能。
用戶發(fā)布廣告。通過(guò)廣告發(fā)布器74,用戶填寫廣告的類別、具體內(nèi)容、時(shí)間、地點(diǎn)等信息,提交后,發(fā)布器將自動(dòng)保存信息至廣告信息庫(kù)15。同時(shí),用戶發(fā)布的信息也將發(fā)布到相應(yīng)的網(wǎng)絡(luò)服務(wù)器上。
用戶查詢廣告。通過(guò)廣告發(fā)布器74,用戶填寫查詢關(guān)鍵詞或者填寫廣告的類別、具體內(nèi)容、時(shí)間、地點(diǎn)等信息,提交后,將由廣告服務(wù)器70調(diào)用匹配引擎18進(jìn)行信息匹配,匹配引擎返回的結(jié)果,由結(jié)果生成器75按照相似度排序,并以XML、RSS、純文本等格式進(jìn)行數(shù)據(jù)打包,以用戶定制的方式返回給用戶16。
用戶定制功能。通過(guò)用戶定制接口73,用戶可以對(duì)發(fā)布、查詢、結(jié)果返回方式等行為進(jìn)行定制,用戶定制的信息將由用戶行為管理器76進(jìn)行管理。發(fā)布的定制可以選擇只發(fā)布到本網(wǎng)站,也可以選擇發(fā)布到其它聯(lián)盟網(wǎng)站。查詢的定制主要是查詢方式的定制,可以選擇以自然語(yǔ)言形式查詢,也可以選擇以填充結(jié)構(gòu)化信息的方式。結(jié)果返回方式的定制,可以選擇RSS返回、短信返回等。
廣告服務(wù)器19可以根據(jù)用戶行為管理器76實(shí)現(xiàn)個(gè)性化的用戶接口以及個(gè)性化的廣告匹配。
圖4是本發(fā)明的匹配服務(wù)器中的分析引擎的流程圖,如圖所示。分析引擎17負(fù)責(zé)把廣告21轉(zhuǎn)換成廣告結(jié)構(gòu)20。分析引擎17的處理流程如下步驟101中,提取廣告21的類別。廣告結(jié)構(gòu)信息20與廣告類別密切相關(guān),不同的類別有不同的結(jié)構(gòu)信息,廣告類別的識(shí)別是廣告分析的前提。類別提取有兩種途徑1)是網(wǎng)頁(yè)的鏈接屬性。每個(gè)網(wǎng)站都有自己的分類目錄,這些目錄信息會(huì)體現(xiàn)在其鏈接地址上,分析其鏈接地址可以得到信息的類別;2)是依據(jù)廣告中的語(yǔ)義信息,自動(dòng)進(jìn)行提取,比如“租房”一般會(huì)出現(xiàn)“租房、出租、一室一廳”等類似的概念,從這些特征概念上可以斷定其類別。類別確定后,系統(tǒng)100將自動(dòng)生成一個(gè)該類別的廣告信息結(jié)構(gòu)框架。
步驟102中,分析廣告21的格式。以網(wǎng)頁(yè)形式表述的廣告,可以是用Html標(biāo)記給出的結(jié)構(gòu)化信息,也可以是自然語(yǔ)言信息;用戶通過(guò)短信、RSS等提交的廣告,一般都是自然語(yǔ)言形式的。分析廣告格式就是確定廣告的表示方式是自然語(yǔ)言的,還是以Html標(biāo)記出的結(jié)構(gòu)化信息。前者將轉(zhuǎn)向步驟104,后者將轉(zhuǎn)向步驟103;步驟103中,提取Html頁(yè)面結(jié)構(gòu)信息。從網(wǎng)頁(yè)上的Html標(biāo)記中提取信息,并填充該類別的廣告信息框架。在該步驟中,將提供一個(gè)可視化界面,其中可以設(shè)置提取模板,模板負(fù)責(zé)把頁(yè)面上不同位置的信息填充到不同的框架項(xiàng)目中。通過(guò)模板可以人機(jī)互動(dòng)地對(duì)各種網(wǎng)站的不同風(fēng)格的頁(yè)面進(jìn)行提??;步驟104中,分析自然語(yǔ)義。自動(dòng)分析廣告中的自然語(yǔ)言,從篇章、段落、句子、詞語(yǔ)4個(gè)層次進(jìn)行分析,對(duì)其中的語(yǔ)義屬性進(jìn)行切分。例如,交友的廣告信息中,一般都有“自我描述”和“對(duì)象描述”,這是在篇章和段落一級(jí)需要分析的;同時(shí)還有對(duì)人的基本屬性的描述,身高、個(gè)性、學(xué)歷等,這是在句子一級(jí)分析的;“性格、可愛(ài)、溫柔”等詞語(yǔ)都是表示性格這個(gè)屬性的,這是在詞語(yǔ)一級(jí)分析的;步驟105中,提取廣告結(jié)構(gòu)信息。從上述步驟104分析的結(jié)果中,按照語(yǔ)義屬性的劃分,提取其中的關(guān)鍵信息并將其填充到相應(yīng)的廣告信息結(jié)構(gòu)框架項(xiàng)目中。例如,年齡、身高、體重等基本屬性,以及性格、人品等語(yǔ)義屬性。
圖5是本發(fā)明的匹配服務(wù)器中的匹配引擎的流程圖,如圖所示。
步驟201中,將廣告結(jié)構(gòu)信息(即上述的結(jié)構(gòu)化信息R)輸入到匹配引擎18中。匹配引擎18計(jì)算廣告結(jié)構(gòu)信息R和廣告信息庫(kù)15中的廣告結(jié)構(gòu)信息20之間的相似度,其輸出是按照相似度(即關(guān)聯(lián)度)高低排序的匹配結(jié)果,匹配結(jié)果是廣告信息庫(kù)15中的廣告結(jié)構(gòu)信息20的子集。
匹配引擎18的處理流程如下步驟202中,進(jìn)行廣告類型匹配。類型決定廣告信息框架,類型匹配是前提。如果類型不匹配,則不進(jìn)行下一步操作;步驟203中,對(duì)廣告結(jié)構(gòu)數(shù)據(jù)類型進(jìn)行判斷,并對(duì)廣告結(jié)構(gòu)信息框架中的每個(gè)項(xiàng)目進(jìn)行匹配若對(duì)時(shí)間、數(shù)字、地點(diǎn)、關(guān)鍵詞等項(xiàng)目,進(jìn)行邏輯運(yùn)算匹配,則執(zhí)行步驟204;若對(duì)時(shí)間范圍、數(shù)字范圍、地域等項(xiàng)目,進(jìn)行關(guān)系運(yùn)算匹配,則執(zhí)行步驟205;
若對(duì)語(yǔ)義屬性,需要進(jìn)行屬性和屬性值的語(yǔ)義匹配,則執(zhí)行步驟206。
步驟204中,對(duì)時(shí)間、數(shù)字、地點(diǎn)、關(guān)鍵詞等項(xiàng)目,進(jìn)行邏輯運(yùn)算匹配。一般對(duì)每個(gè)項(xiàng)目本身進(jìn)行精確匹配,項(xiàng)目之間進(jìn)行邏輯與操作;步驟205中,對(duì)時(shí)間范圍、數(shù)字范圍、地域等項(xiàng)目,進(jìn)行關(guān)系運(yùn)算匹配。關(guān)系運(yùn)算包括范圍關(guān)系、鄰接關(guān)系、同在關(guān)系等。范圍關(guān)系一般先進(jìn)行擴(kuò)展操作,然后再分別匹配范圍的上下界;步驟206中,對(duì)語(yǔ)義屬性,需要進(jìn)行屬性和屬性值的語(yǔ)義匹配。比如人的“性格”是人的一個(gè)屬性,而“可愛(ài)”是它的一個(gè)屬性值,“可愛(ài)”和“性格”之間有一定的關(guān)聯(lián)度;步驟207中,根據(jù)計(jì)算出的廣告信息結(jié)構(gòu)和廣告信息庫(kù)15中的廣告結(jié)構(gòu)信息20之間的相似度,按照相似度高低排序的輸出匹配結(jié)果,匹配結(jié)果是廣告信息庫(kù)15中的廣告結(jié)構(gòu)信息20的子集。
針對(duì)匹配引擎18包含三種匹配運(yùn)算,相似度計(jì)算公式定義如下1)精確匹配,針對(duì)時(shí)間、數(shù)字、關(guān)鍵詞等基本數(shù)據(jù)類型。精確匹配權(quán)值為1;2)關(guān)系運(yùn)算匹配,針對(duì)地域、數(shù)字范圍、時(shí)間范圍等信息。關(guān)系匹配取0、1二值,匹配成功取1,失敗取0;3)語(yǔ)義匹配,針對(duì)一些需要屬性和屬性值之間進(jìn)行匹配的信息。語(yǔ)義屬性匹配權(quán)值為0.5;顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若對(duì)本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種信息發(fā)布、查詢系統(tǒng),其特征在于,該系統(tǒng)包括終端、匹配服務(wù)器以及廣告信息庫(kù),所述終端,用于提交發(fā)布的廣告信息或查詢的請(qǐng)求;所述匹配服務(wù)器,用于接收終端請(qǐng)求,對(duì)終端請(qǐng)求進(jìn)行智能分析,并根據(jù)分析結(jié)果計(jì)算終端請(qǐng)求與廣告信息庫(kù)之間的關(guān)聯(lián)度,以及根據(jù)關(guān)聯(lián)度生成匹配結(jié)果;及所述廣告信息庫(kù),用于將信息以文本形式和結(jié)構(gòu)形式進(jìn)行存儲(chǔ)。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述匹配服務(wù)器具體包括廣告服務(wù)器,分析引擎以及匹配引擎,所述廣告服務(wù)器,負(fù)責(zé)廣告信息庫(kù)的建立、廣告信息庫(kù)的管理以及用戶接口所述分析引擎,負(fù)責(zé)對(duì)用戶提交的廣告信息進(jìn)行智能分析,將廣告信息轉(zhuǎn)換成廣告結(jié)構(gòu);及所述匹配引擎,負(fù)責(zé)計(jì)算終端請(qǐng)求與廣告信息庫(kù)之間的關(guān)聯(lián)度、并依照關(guān)聯(lián)度生成匹配結(jié)果。
3.如權(quán)利要求2所述的系統(tǒng),其特征在于,所述分析引擎針對(duì)用Html標(biāo)記出結(jié)構(gòu)的廣告信息,采用模板的形式實(shí)現(xiàn)人機(jī)互動(dòng)提??;針對(duì)自然語(yǔ)言表述的廣告信息,采用語(yǔ)義分析技術(shù),自動(dòng)進(jìn)行語(yǔ)義屬性切分,并把語(yǔ)義屬性對(duì)應(yīng)到廣告結(jié)構(gòu)框架的項(xiàng)目上,實(shí)現(xiàn)自動(dòng)提取。
4.如權(quán)利要求2所述的系統(tǒng),其特征在于,所述匹配引擎實(shí)現(xiàn)了屬性和屬性值的語(yǔ)義匹配,擺脫了關(guān)鍵詞精確匹配所帶來(lái)的漏檢率。
5.如權(quán)利要求2所述的系統(tǒng),其特征在于,所述匹配引擎的相似度綜合了邏輯運(yùn)算、關(guān)系運(yùn)算、語(yǔ)義匹配的結(jié)果,對(duì)時(shí)間、數(shù)字、地點(diǎn)、關(guān)鍵詞的項(xiàng)目進(jìn)行邏輯運(yùn)算匹配計(jì)算;對(duì)地域、數(shù)字范圍、時(shí)間范圍的項(xiàng)目進(jìn)行關(guān)系運(yùn)算匹配計(jì)算;對(duì)語(yǔ)義屬性的項(xiàng)目進(jìn)行屬性和屬性值的語(yǔ)義匹配計(jì)算。
6.如權(quán)利要求2所述的系統(tǒng),其特征在于,所述廣告服務(wù)器通過(guò)自然語(yǔ)義分析技術(shù),提供了結(jié)構(gòu)化和非結(jié)構(gòu)化的分類廣告信息的發(fā)布、查詢一體化的服務(wù),并進(jìn)一步實(shí)現(xiàn)了Web頁(yè)面、RSS、短信、WAP等方式的互聯(lián)互通。
7.一種信息發(fā)布、查詢方法,在通過(guò)匹配服務(wù)器與互聯(lián)網(wǎng)或服務(wù)提供商相連的廣告信息庫(kù)存儲(chǔ)有廣告信息,其特征在于,包括以下步驟S1.所述匹配服務(wù)器接收到終端提交廣告信息發(fā)布或查詢的請(qǐng)求;S2.所述匹配服務(wù)器計(jì)算終端請(qǐng)求與廣告信息庫(kù)之間的關(guān)聯(lián)度、并依照關(guān)聯(lián)度生成匹配結(jié)果S3.將所述匹配結(jié)果返回所述終端。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,在執(zhí)行所述步驟S1之前進(jìn)一步包括S01.選擇提交廣告信息發(fā)布或查詢的請(qǐng)求的表述方式,所述表述方式具體包括結(jié)構(gòu)化表述和自然語(yǔ)言表述;S02.定制返回結(jié)果的方式,所述返回方式具體包括以Web頁(yè)面、XML數(shù)據(jù)包、即時(shí)通信或短信回復(fù)方式返回。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,在執(zhí)行所述步驟S2之前進(jìn)一步包括對(duì)所述請(qǐng)求進(jìn)行智能分析,具體包括提取所述廣告信息的類別;分析所述廣告信息的格式,包括自然語(yǔ)言格式和Html格式;若是自然格言格式,則分析廣告信息中的自然語(yǔ)言;若是Html格式,則提取Html頁(yè)面結(jié)構(gòu)信息;提取廣告結(jié)構(gòu)信息。
10.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述步驟S2中,所述計(jì)算終端請(qǐng)求與廣告信息庫(kù)之間的關(guān)聯(lián)度具體包括以下步驟S21.對(duì)廣告信息的類型進(jìn)行匹配計(jì)算;S22.對(duì)廣告信息的結(jié)構(gòu)框架中的每個(gè)項(xiàng)目進(jìn)行匹配計(jì)算,具體包括對(duì)時(shí)間、數(shù)字、地點(diǎn)、關(guān)鍵詞的項(xiàng)目進(jìn)行邏輯運(yùn)算匹配計(jì)算;對(duì)地域、數(shù)字范圍、時(shí)間范圍的項(xiàng)目進(jìn)行關(guān)系運(yùn)算匹配計(jì)算;對(duì)語(yǔ)義屬性的項(xiàng)目進(jìn)行屬性和屬性值的語(yǔ)義匹配計(jì)算;S23.依照關(guān)聯(lián)度的高低排序輸出匹配結(jié)果。
全文摘要
本發(fā)明涉及一種信息發(fā)布、查詢系統(tǒng),該系統(tǒng)包括終端、匹配服務(wù)器以及廣告信息庫(kù);所述終端,用于提交發(fā)布的廣告信息或查詢的請(qǐng)求;所述匹配服務(wù)器,用于接收終端請(qǐng)求,對(duì)終端請(qǐng)求進(jìn)行智能分析,并根據(jù)終端請(qǐng)求計(jì)算終端請(qǐng)求與廣告信息庫(kù)之間的關(guān)聯(lián)度,以及根據(jù)關(guān)聯(lián)度生成匹配結(jié)果;所述廣告信息庫(kù),用于將信息以文本內(nèi)容和結(jié)構(gòu)信息的形式進(jìn)行存儲(chǔ)。本發(fā)明還同時(shí)公開(kāi)了一種信息發(fā)布、查詢方法??梢杂行У卣现T如分類廣告的信息資源,為用戶提供“一站式”的智能信息發(fā)布查詢服務(wù)。
文檔編號(hào)G06F17/30GK101075320SQ200610060700
公開(kāi)日2007年11月21日 申請(qǐng)日期2006年5月16日 優(yōu)先權(quán)日2006年5月16日
發(fā)明者申凌, 宋曉 申請(qǐng)人:申凌, 宋曉