本發(fā)明屬于信息技術(shù)領(lǐng)域,涉及一種在線旅游網(wǎng)站、比價(jià)平臺(tái)、價(jià)格一致性監(jiān)控方法,特別是涉及一種基于文本信息的房型自動(dòng)聚合方法。
背景技術(shù):
隨著在線旅游網(wǎng)站的飛速發(fā)展,酒店在線預(yù)定平臺(tái)云集,多個(gè)平臺(tái)推出了價(jià)格對(duì)比功能??梢詫?duì)比出同一房型在不同OTA(Online Travel Agent,在線旅游社,如攜程、去哪等)的價(jià)格及不同的房型的價(jià)格差距。要進(jìn)行價(jià)格對(duì)比首先要確定不同OTA酒店的匹配關(guān)系,之后再對(duì)具體的房型進(jìn)行聚合,為了降低人工成本,大多釆用自動(dòng)聚合的方法,但傳統(tǒng)的釆用字符串的聚合方法有以下不足:
●精確匹配召回率較低。
●模糊匹配準(zhǔn)確率難以控制。
●同一個(gè)基礎(chǔ)房型的表述方式不同,導(dǎo)致的無(wú)法聚合,例如:兩人間與雙人房,單人間與單間。
●同一個(gè)基礎(chǔ)房型在不同OTA上表述方式不同,導(dǎo)致的無(wú)法聚合,例如:雙床房與標(biāo)準(zhǔn)間。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)上述問(wèn)題,本發(fā)明的目的在于提供一種基礎(chǔ)房型自動(dòng)聚合方法。本發(fā)明充分利用文本信息,從文本中抽取出房型的關(guān)鍵要素,提高了聚合的魯棒性,避免無(wú)用信息對(duì)聚合過(guò)程中的干擾?;诒景l(fā)明的結(jié)果,當(dāng)用戶在網(wǎng)頁(yè)中查看某家酒店的房型信息時(shí),可從數(shù)據(jù)庫(kù)中查詢出該房型在不同來(lái)源上對(duì)應(yīng)的(已經(jīng)聚合的)房型與其進(jìn)行價(jià)格等方面的對(duì)比,用戶根據(jù)對(duì)比結(jié)果選取目標(biāo)房型。
本方法釆用如下方案對(duì)房型進(jìn)行自動(dòng)聚合:
一種基礎(chǔ)房型自動(dòng)聚合方法,其步驟為:
1)對(duì)于同一家酒店,分別從兩不同來(lái)源上獲取該酒店的房型名稱數(shù)據(jù),每組房型名稱數(shù)據(jù)中包括多個(gè)基礎(chǔ)房型名稱;
2)對(duì)每組房型名稱數(shù)據(jù)分別進(jìn)行結(jié)構(gòu)化處理,得到該組房型名稱數(shù)據(jù)中每個(gè)房型名稱的結(jié)構(gòu)化信息;其中,第一組房型名稱的結(jié)構(gòu)化信息為(a1、a2、…、ai、…、an),第二組房型名稱的結(jié)構(gòu)化信息為(b1、b2、…、bi、…、bn);n為結(jié)構(gòu)化信息中的元素總數(shù);
3)對(duì)步驟2)得到的所述結(jié)構(gòu)化信息中的元素進(jìn)行兩兩組合并計(jì)算每一組合的匹配度;
4)將基礎(chǔ)房型名稱兩兩組合生成若干候選聚合方案,得到一聚合方案候選集合;其中,任一候選聚合方案(a1-bi、a2-bj、…、ai-bk、…、an-bm)中每一組合ai-bk的匹配度均大于設(shè)定閾值;bi、bj、…、bk、…、bm均為第二組房型名稱的結(jié)構(gòu)化信息中的元素;
5)根據(jù)每一候選聚合方案中的各組合的匹配度,計(jì)算該候選聚合方案的綜合得分;將綜合得分最高的候選聚合方案做為最終聚合結(jié)果。
進(jìn)一步的,使用決策樹(shù)算法計(jì)算所述匹配度;所述決策樹(shù)算法構(gòu)建的樹(shù)結(jié)構(gòu)為二叉樹(shù)或非二叉樹(shù),其中,每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的測(cè)試,連接非葉節(jié)點(diǎn)的分支代表該非葉節(jié)點(diǎn)對(duì)應(yīng)的特征屬性在該特征屬性的值域上的輸出,每個(gè)葉節(jié)點(diǎn)存放一個(gè)類(lèi)別。
進(jìn)一步的,計(jì)算所述匹配度的方法為:
31)從房型名稱的結(jié)構(gòu)化信息中確定待匹配的特征;
32)對(duì)每種特征進(jìn)行度量得到該特征的增益率;
33)選擇增益率最大的特征進(jìn)行分裂,形成該房型名稱的決策樹(shù);
34)將決策樹(shù)上的葉子節(jié)點(diǎn)標(biāo)記上對(duì)應(yīng)元素組合的匹配度。
進(jìn)一步的,所述結(jié)構(gòu)化信息的生成方法為:
41)對(duì)房型名稱數(shù)據(jù)進(jìn)行規(guī)范化處理;
42)對(duì)步驟41)規(guī)范化后的文本進(jìn)行分詞,得到房型名稱的詞序列;
43)從所述詞序列中進(jìn)行要素抽取,并標(biāo)注要素類(lèi)別,形成所述結(jié)構(gòu)化信息。
進(jìn)一步的,得到所述詞序列的方法為:首先采用基于詞典的最大匹配分詞方法對(duì)步驟41)規(guī)范化后的文本進(jìn)行分詞,然后對(duì)于有歧義的分詞采用序列標(biāo)注的分詞方法進(jìn)行分詞,得到所述詞序列。
進(jìn)一步的,得到所述詞序列的方法為:對(duì)于待分詞的漢子序列,采用正向最大匹配和逆向最大匹配分別依次尋找匹配的最長(zhǎng)詞典詞,如果該漢子序列中存在沒(méi)有被匹配上的單詞,則將其作為單字詞處理,直至該漢字序列處理完畢;對(duì)于正向最大匹配和逆向最大匹配不一致的單詞作為有歧義的分詞,采用有監(jiān)督的序列標(biāo)注的分詞方法進(jìn)行分詞。
進(jìn)一步的,步驟43)的實(shí)現(xiàn)方法為:對(duì)于所述詞序列中的每一個(gè)詞,判斷其是否在設(shè)定知識(shí)庫(kù)中,如果在則將該詞抽取出來(lái)并根據(jù)知識(shí)庫(kù)標(biāo)記相應(yīng)的類(lèi)型;形成所述結(jié)構(gòu)化信息。
進(jìn)一步的,構(gòu)建所述知識(shí)庫(kù)的方法為:首先初始化若干關(guān)鍵詞;然后對(duì)每條房型名稱文本統(tǒng)計(jì)關(guān)鍵詞左鄰、右鄰若干個(gè)字以內(nèi)所有可能的詞的頻次;過(guò)濾掉頻次小于設(shè)定閾值的詞;然后對(duì)剩余的詞進(jìn)行篩選得到所述知識(shí)庫(kù)。
房型自動(dòng)聚合方法分為三個(gè)階段:
1.抽取房型信息中的要素。要素是指房型的重要特征,例如“床型”、“房間設(shè)施”等。具體步驟如下:
a)對(duì)文本進(jìn)行規(guī)范化。例如統(tǒng)一中文標(biāo)點(diǎn)、統(tǒng)一全角半角字符、統(tǒng)一中文數(shù)字以及繁體中文轉(zhuǎn)簡(jiǎn)體中文等操作。
b)文本分詞,基于詞典和統(tǒng)計(jì)的方法對(duì)基礎(chǔ)房型文本進(jìn)行分詞。
c)結(jié)構(gòu)化數(shù)據(jù),根據(jù)知識(shí)庫(kù)抽取房型名稱要素信息,包括“床數(shù)”、“人數(shù)”、“床型”、“是否有窗”、“設(shè)備”等等。知識(shí)庫(kù)的構(gòu)建方法參見(jiàn)具體實(shí)施方式。
2.計(jì)算各個(gè)房型之間的匹配度。匹配度是指同一家酒店的不同基礎(chǔ)房型之間匹配關(guān)系的概率。該階段我們使用上一階段抽取的房型名稱要素,通過(guò)使用決策樹(shù)算法計(jì)算它們的匹配度。
3.房型聚合。通過(guò)聚合策略,選擇最優(yōu)的聚合方案。
與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:
相較于傳統(tǒng)的通過(guò)字符串相似度的聚合的方式,本發(fā)明召回率提升了27%,準(zhǔn)確率提高了5%。
附圖說(shuō)明
圖1為本發(fā)明的方法流程圖。
具體實(shí)施方式
下面通過(guò)實(shí)施例的方式進(jìn)一步說(shuō)明本發(fā)明,但并不因此將本發(fā)明限制在所述的實(shí)施例范圍之中。
本發(fā)明的聚合方法流程如圖1所示,其步驟包括:
步驟1獲取兩組房型名稱數(shù)據(jù)。
從數(shù)據(jù)庫(kù)中查詢出同一家酒店在兩個(gè)不同來(lái)源上(比如分別從攜程網(wǎng)站和藝龍網(wǎng)站上)的基礎(chǔ)房型名稱。這樣本發(fā)明便可以得到兩組數(shù)據(jù),每組數(shù)據(jù)中包括多個(gè)基礎(chǔ)房型名稱。
步驟2第一組數(shù)據(jù)處理。
在上一步可以得到要進(jìn)行匹配的兩組基礎(chǔ)房型名稱數(shù)據(jù)。本步驟將對(duì)第一組房型名稱數(shù)據(jù)中的每一個(gè)基礎(chǔ)房型名稱進(jìn)行結(jié)構(gòu)化處理,得到該組房型名稱中每個(gè)房型名稱的結(jié)構(gòu)化信息。具體的結(jié)構(gòu)化處理步驟包括:
21)文本規(guī)范化
本步驟對(duì)基礎(chǔ)房型名稱進(jìn)行規(guī)范化處理,得到規(guī)范化后的文本。文本規(guī)范化的意義有兩個(gè),一是將擁有相同意義的不同文本轉(zhuǎn)換成統(tǒng)一格式,二是將文本中無(wú)意義并且干擾后續(xù)處理的內(nèi)容進(jìn)行刪除。規(guī)范化的處理給后續(xù)的分析減輕了負(fù)擔(dān)。具體的規(guī)范化的內(nèi)容有:
a)對(duì)中文標(biāo)點(diǎn)以及英文大小寫(xiě)做統(tǒng)一。例如:去除空格,以及半角、全角括號(hào)的統(tǒng)一。
b)將繁體中文轉(zhuǎn)換成簡(jiǎn)體中文。
c)將近義詞進(jìn)行規(guī)范。例如:“標(biāo)準(zhǔn)間”、“標(biāo)準(zhǔn)房”,統(tǒng)一規(guī)范為“標(biāo)準(zhǔn)房”
d)將縮寫(xiě)進(jìn)行規(guī)范,例如:“商套”規(guī)范為“商務(wù)套房”
22)文本分詞
上一步驟中,得到了基礎(chǔ)房型名稱的規(guī)范化文本,該步驟對(duì)規(guī)范化后的文本進(jìn)行分詞,得到基礎(chǔ)房型名稱的詞序列。中文分詞是中文自然語(yǔ)言處理的基礎(chǔ)步驟,本發(fā)明分詞采用詞典分詞和統(tǒng)計(jì)分詞融合的方法。首先采用基于詞典的最大匹配分詞方法,針對(duì)分詞有歧義的部分再采用序列標(biāo)注的分詞方法。
基于詞典的最大匹配分詞方法,給定詞典,對(duì)于待分詞的漢字序列(基礎(chǔ)房型名稱的規(guī)范化文本),依次尋找匹配的最長(zhǎng)詞典詞,無(wú)匹配者則將該字作為單字詞處理,直至該漢字序列處理完畢。按照對(duì)漢字序列掃描方向的不同,該方法又可以分為:正向最大匹配(從左向右匹配)和逆向最大匹配(從右向左匹配)。例如,對(duì)于序列“當(dāng)原子結(jié)合成分子時(shí)”,正向最大匹配結(jié)果為“當(dāng)|原子|結(jié)合|成|分子|時(shí)”,而逆向最大匹配結(jié)果為“當(dāng)|原子|結(jié)合|成分|子時(shí)”。
顯然,正向最大匹配和逆向最大匹配都不能很好地處理切分歧義問(wèn)題。正向最大匹配和逆向最大匹配也可以結(jié)合形成雙向最大匹配,雙向匹配時(shí)正向和逆向匹配不一致的地方,往往是潛在歧義的地方。有歧義往往需要根據(jù)具體上下文確認(rèn)分詞結(jié)果。有監(jiān)督的序列標(biāo)注方法能夠充分的挖掘上下文的豐富特征,因此有歧義的情況下本發(fā)明引入序列標(biāo)注方法消除歧義。該方法將詞的切分問(wèn)題轉(zhuǎn)換為字的分類(lèi)問(wèn)題,每個(gè)字根據(jù)其在詞中的不同位置,賦予不同的位置類(lèi)別標(biāo)記,比如詞首、詞中、詞尾和單字詞。基于這樣的標(biāo)記序列,很容易確定句子的切分方式。其中,B(Begin)、M(Middle)、E(End)、S(Single)分別表示詞首、詞中、詞尾、單字詞。有了字的標(biāo)記序列,符合正則表達(dá)式“S”或“B(M)*E”的字序列表示一個(gè)詞,從而很容易地完成句子切分。為了實(shí)現(xiàn)序列標(biāo)注任務(wù),本發(fā)明采用條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF),該模型在自然語(yǔ)言處理中得到廣泛應(yīng)用,并取得了很大成功。具體特征包括:前一個(gè)字、當(dāng)前字、后一個(gè)字、前一個(gè)字與當(dāng)前字、當(dāng)前字與后一個(gè)字,以及基于這些一元特征的二元特征。條件隨機(jī)場(chǎng)模型利用提取的這些特征,預(yù)測(cè)出的每個(gè)字的類(lèi)別標(biāo)記。
最大匹配方法的詞典以及有監(jiān)督的條件隨機(jī)場(chǎng)模型的訓(xùn)練學(xué)習(xí)語(yǔ)料都來(lái)自本發(fā)明人工標(biāo)注的1萬(wàn)條基礎(chǔ)房型名稱。
23)結(jié)構(gòu)化數(shù)據(jù)
上一步驟中得到了基礎(chǔ)房型名稱的詞序列,該步驟會(huì)對(duì)詞序列抽取文本中的關(guān)鍵要素,并標(biāo)注相應(yīng)的要素類(lèi)別,形成基礎(chǔ)房型名稱的結(jié)構(gòu)化信息。結(jié)構(gòu)化的信息包括“床數(shù)”、“人數(shù)”、“床型”、“是否有窗”、“設(shè)備”等等。其意義在于,生成的結(jié)構(gòu)化的數(shù)據(jù)不需考慮字符串之間的先后順序及內(nèi)容是否完全一致等問(wèn)題,便于下一階段基于規(guī)則等進(jìn)行匹配。
結(jié)構(gòu)化信息的生成步驟如下:
1.遍歷分詞后的詞序列
2.對(duì)于每一個(gè)詞,判斷是在知識(shí)庫(kù)中,如果存在則將該詞抽取出來(lái)并根據(jù)知識(shí)庫(kù)標(biāo)記相應(yīng)的類(lèi)型。
3.將每個(gè)詞的結(jié)果進(jìn)行整合形成結(jié)構(gòu)化的信息。
舉例例如房型名稱的分詞結(jié)果為“標(biāo)準(zhǔn)三人間”,結(jié)構(gòu)化的信息為“{"SourceBaseName":"標(biāo)準(zhǔn)三人間","PersonNum":["三人"],"Adj":["標(biāo)準(zhǔn)"]}”。
抽取方法基于知識(shí)庫(kù),對(duì)于在文本中出現(xiàn)并且也包含于字典中要素進(jìn)行提取并標(biāo)注其類(lèi)別。
知識(shí)庫(kù)的構(gòu)建基于種子關(guān)鍵詞,具體步驟如下:
1.首先初始化種子關(guān)鍵詞。初始關(guān)鍵詞由人工添加。
2.在批量的房型名稱文本中,對(duì)每條基礎(chǔ)房型名稱文本統(tǒng)計(jì)關(guān)鍵詞左鄰、右鄰4個(gè)字以內(nèi)所有可能的詞的頻次。
3.過(guò)濾掉頻次小于設(shè)定閾值的詞。
4.對(duì)剩余的詞進(jìn)行人工篩選。
步驟3第二組數(shù)據(jù)處理
上一步驟中,對(duì)第一組數(shù)據(jù)進(jìn)行了處理,本步驟采用和上一步驟同樣的方式對(duì)每二組房型數(shù)據(jù)進(jìn)行處理,得到每二組數(shù)據(jù)的每個(gè)基礎(chǔ)房型名稱的結(jié)構(gòu)化信息。具體的處理方式可參見(jiàn)上一步驟。
步驟4確定匹配關(guān)系
經(jīng)過(guò)步驟2和步驟3,分別得到了兩組基礎(chǔ)房型名稱的結(jié)構(gòu)化信息。在這一步中,對(duì)兩組基礎(chǔ)房型名稱的結(jié)構(gòu)化信息進(jìn)行兩兩組合并對(duì)該組合中的兩個(gè)房型計(jì)算匹配度,得到每種組合的匹配度。例如兩組數(shù)據(jù)分別為[a1,a2]、[b1,b2],經(jīng)過(guò)本步驟處理后可得到{a1-b1=0.3,a1-b2=0.6,a2-b2=0.8},其中a1,a2,b1,b2為基礎(chǔ)房型名稱,a1-b1=0.3表示,房型a1與房型b1的匹配度為0.3。
兩個(gè)房型的匹配度是指兩個(gè)房型有多大的概率是匹配關(guān)系。此類(lèi)問(wèn)題可以轉(zhuǎn)換成二分類(lèi)問(wèn)題。匹配度的計(jì)算使用決策樹(shù)算法。決策樹(shù)(decision tree)是一個(gè)樹(shù)結(jié)構(gòu)(可以是二叉樹(shù)或非二叉樹(shù))。其每個(gè)“非葉”節(jié)點(diǎn)表示一個(gè)特征屬性上的測(cè)試,每個(gè)分支代表這個(gè)特征屬性在該特征屬性的值域上的輸出(例如“床數(shù)是否一致”這個(gè)特征,值域是[不一致,缺省,一致]),而每個(gè)葉節(jié)點(diǎn)存放一個(gè)類(lèi)別(即匹配或不匹配)。決策樹(shù)的匹配度計(jì)算方式是從根節(jié)點(diǎn)開(kāi)始,測(cè)試待分類(lèi)項(xiàng)中相應(yīng)的特征屬性,并按照其值選擇輸出分支,直到到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)存放的類(lèi)別作為決策結(jié)果。決策樹(shù)的生成是本步驟的關(guān)鍵,下面給出其具體的生成步驟:
41)根據(jù)業(yè)務(wù)知識(shí)從結(jié)構(gòu)化信息中選擇特征,具體特征如下:
1.“原始文本是否一致”取值范圍:[不一致,缺省,一致]
2.“范化后的文本是否一致”取值范圍:[不一致,缺省,一致]
3.“人數(shù)是否一致”取值范圍:[不一致,缺省,一致]
4.“床數(shù)是否一致”取值范圍:[不一致,缺省,一致]
5.“床型是否一致”取值范圍:[不一致,缺省,一致,規(guī)則相似]
6.“是否有窗”取值范圍:[不一致,缺省,一致]
7.“修飾詞是否一致”取值范圍:[不一致,缺省,一致,規(guī)則相似]
8.“剩余項(xiàng)是否一致”取值范圍:[不一致,缺省,一致]
9.“臥室是否一致”取值范圍:[不一致,缺省,一致]
10.“房型是否一致”取值范圍:[不一致,缺省,一致]
11.“設(shè)備是否一致”取值范圍:[不一致,缺省,一致]
12.“大廳是否一致”取值范圍:[不一致,缺省,一致]
13.“景觀是否一致”取值范圍:[不一致,缺省,一致]
14.“房型級(jí)別是否一致”取值范圍:[不一致,缺省,一致]
15.“入住人性別是否一致”取值范圍:[不一致,缺省,一致]
16.“房間號(hào)是否一致”取值范圍:[不一致,缺省,一致]
17.“有無(wú)發(fā)票是否一致”取值范圍:[不一致,缺省,一致]
18.“樓號(hào)是否一致”取值范圍:[不一致,缺省,一致]。
注:規(guī)則相似的“規(guī)則”是指,不同OTA對(duì)房型的命名規(guī)范不同,存在特定規(guī)則,例如:攜程的“雙床房”與藝龍的“標(biāo)準(zhǔn)間”指的是同一個(gè)房型。
42)分裂屬性度量標(biāo)準(zhǔn)
在這里使用ID3算法分裂屬性度量標(biāo)準(zhǔn)(也就是對(duì)從上一步確定的每種特征)進(jìn)行度量得到每個(gè)特征的增益率。根據(jù)信息論,期望信息越小,信息增益越大,從而純度越高。所以ID3算法的核心思想就是以信息增益度量屬性選擇,選擇分裂后信息增益最大的屬性進(jìn)行分裂。下面先定義幾個(gè)要用到的概念。
設(shè)D為用類(lèi)別對(duì)訓(xùn)練元組進(jìn)行的劃分,則D的熵(entropy)表示為:
其中pi表示第i個(gè)類(lèi)別在整個(gè)訓(xùn)練元組中出現(xiàn)的概率,可以用屬于此類(lèi)別元素的數(shù)量除以訓(xùn)練元組元素總數(shù)量作為估計(jì)。熵的實(shí)際意義表示是D中元組的類(lèi)標(biāo)號(hào)所需要的平均信息量。
本發(fā)明將訓(xùn)練元組D按屬性A進(jìn)行劃分,則A對(duì)D劃分的期望信息為:
而信息增益即為兩者的差值:
gain(A)=in fo(D)-in foA(D)
43)決策樹(shù)的生成
計(jì)算每個(gè)特征的增益率,然后選擇增益率最大的特征進(jìn)行分裂。最后形成樹(shù)形結(jié)構(gòu)。
44)標(biāo)記匹配度
在生成樹(shù)形結(jié)構(gòu)之后,就可以得到這個(gè)樹(shù)整體的準(zhǔn)確率了,但這樣還是不夠的。為了能夠讓算法適應(yīng)不同的需求,我們將樹(shù)上的葉子節(jié)點(diǎn)標(biāo)記上匹配度。利用測(cè)試集樣本,計(jì)算所有葉子結(jié)點(diǎn)的準(zhǔn)確率,計(jì)算方式為所有通過(guò)該葉子結(jié)點(diǎn)的樣本數(shù)量比上其中分類(lèi)正確的樣本數(shù)量。
決策樹(shù)的訓(xùn)練學(xué)習(xí)語(yǔ)料都來(lái)自本發(fā)明人工標(biāo)注的1萬(wàn)個(gè)基礎(chǔ)房型數(shù)據(jù)。
使用決策樹(shù)進(jìn)行決策的過(guò)程就是從根節(jié)點(diǎn)開(kāi)始,測(cè)試待分類(lèi)項(xiàng)中相應(yīng)的特征屬性,并按照其值選擇輸出分支,直到到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)存放的類(lèi)別作為決策結(jié)果,該葉子結(jié)點(diǎn)的準(zhǔn)確率即為匹配度。
步驟5房型聚合
以上步驟只是計(jì)算出了兩組數(shù)據(jù)各個(gè)房型之間的匹配度。本步驟的目的是生成聚合方案,如果存在多個(gè)聚合方案時(shí)選擇最優(yōu)解。步驟如下:
1.窮舉兩組房型的所有組合,構(gòu)成候選聚合方案候選集合。例如,經(jīng)過(guò)上一步得到了兩組房型之間的匹配度為{a1-b1=0.3,a1-b2=0.6,a2-b2=0.8},其中a1,a2是第一組房型數(shù)據(jù),b1,b2是第二組房型數(shù)據(jù)。a1-b1=0.3表示,房型a1與房型b1的匹配度為0.3??梢钥吹絘1分別與b1,b2之間都存在匹配關(guān)系,因此候選聚合方案應(yīng)該包含兩種即為{a1-b1,a2-b2}、{a1-b2,a2-b1}。
2.對(duì)于每個(gè)候選聚合方案,將方案中各個(gè)組合的匹配度求和,得到該候選聚合方案的綜合得分。
3.選擇綜合得分最高的候選聚合方案為最終聚合結(jié)果。
例如,第一組房型名稱為[a1,a2,a3],第二組房型名稱為[b1,b2,b3],匹配度計(jì)算后的結(jié)果為:
a1->b1匹配度為1
a2->b2匹配度為0.5
a2->b3匹配度為0.3
a3->b2匹配度為0.5
a3->b3匹配度為0.7
那么候選聚合方案有兩種,分別為:
1、a1-b1,a2-b2,a3-b3綜合得分為1+0.5+0.7=2.2
2、a1-b1,a2-b3,a3-b2綜合得分為1+0.3+0.5=1.8
因?yàn)榉桨?的得分為綜合得分最高的方案,因?yàn)樽詈蟮木酆辖Y(jié)果為方案1。
雖然以上描述了本發(fā)明的具體實(shí)施方式,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說(shuō)明,本發(fā)明的保護(hù)范圍是由所附權(quán)利要求書(shū)限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實(shí)質(zhì)的前提下,可以對(duì)這些實(shí)施方式做出多種變更或修改,但這些變更和修改均落入本發(fā)明的保護(hù)范圍。