本發(fā)明涉及人工智能領域,具體涉及一種基于增強聚類的機器學習算法及該算法的應用。
背景技術:
機器學習是數(shù)據(jù)科學的核心,是現(xiàn)代人工智能的本質,它的主要目的是從數(shù)據(jù)中挖掘出有價值、有意義的信息。機器學習的策略包括分析學習、類比學習、歸納學習、聯(lián)接學習、增強學習等多種類型。其中,增強學習的機制是通過與環(huán)境的試探性交互獲取某種強化信號,作為對系統(tǒng)行為的一種獎懲,在不斷的序列優(yōu)化中獲得最優(yōu)的結果。按照學習形式,機器學習可分為有監(jiān)督學習和無監(jiān)督學習,無監(jiān)督學習著重于發(fā)現(xiàn)數(shù)據(jù)本身的特點,用于處理未被標記的模板集。數(shù)據(jù)聚類是無監(jiān)督學習的主流方法之一。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。
技術實現(xiàn)要素:
本發(fā)明的目的在于提出一種新的基于增強聚類的機器學習算法,其基本機制是通過與環(huán)境的不斷交互,獲得增強信號作為指導數(shù)據(jù)聚類的基礎,最終獲得最適應環(huán)境的種群。該算法具有易于實施、可應用領域廣泛、魯棒性強等優(yōu)點,可以廣泛應用圖像、文本、音頻等基礎數(shù)據(jù)的實時在線優(yōu)化,在數(shù)據(jù)不斷積累中獲得優(yōu)化的特征模板。
為實現(xiàn)上述目的,本發(fā)明所采用的技術方案是一種基于增強聚類的機器學習算法,至少包括以下步驟:
s1、分析目標對象的基礎數(shù)據(jù)的特征,隨機編寫n個特征模板,其中,每個特征模板可將基礎數(shù)據(jù)劃分為符合該特征模板的數(shù)據(jù)和不符合該特征模板的數(shù)據(jù);
s2、應用步驟s1編寫的n個特征模板,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行分類測試;
s3、統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率,并預設分類的失敗標準為分類失敗率n%;計算所有特征模板匹配成功率的平均值xmean與最大值xmax,以及最大值與平均之差為xd;
若xd不大于n%,則認為n個特征模板分類水平一致,均能達到目標要求,則至s7;
若xd大于n%,則依次計算成功率最大值xmax與其余各特征模板成功率之間的距離δx1,若δx1<xd,則將對應的特征模板作為較好的特征模板子集,并形成待測試特征模板集合;反之則淘汰該特征模板;
s4、針對步驟s3產(chǎn)生的測試特征模板集合,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行分類測試;
s5、統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率,計算所有特征模板匹配成功率的平均值xmean與最大值xmax,以及最大值與平均之差為xd;
若xd不大于n%,則認為n個特征模板分類水平一致,均能達到目標要求,則至s7;
若xd大于n%,則依次計算成功率最大值xmax與其余各特征模板成功率之間的距離δx2,若δx2<xa,其中xa不大于xd,則將對應的特征模板作為較好的特征模板子集,并形成待測試特征模板集合;反之則淘汰該特征模板;
s6、重復步驟s4和s5,直到達到預設的分類成功率閾值;
s7、機器學習過程結束,并選取n個特征模板中成功率最高者作為最優(yōu)的特征識別方案。
本發(fā)明機器學習算法一個優(yōu)選方案中,s3的方法還包括:從淘汰的特征模板子集中隨機抽取z個的特征模板,與較好的特征模板子集組合形成待測試特征模板集合。
s5的方法還包括:從淘汰的特征模板子集中隨機抽取z個的特征模板,與較好的特征模板子集組合形成新的待測試特征模板集合。
通過淘汰掉的特征模板中隨機抽取一定數(shù)量的特征模板,與符合要求的特征模板共同組成新的特征模板組,降低了隨機因素對算法的影響,進一步提高了算法精度。
本發(fā)明機器學習算法的另一個優(yōu)選方案為:在s3中,對匹配成功率的平均值xmean與最大值xmax求差值xd時,所得差值xd采用向上取整法,即當差值xd為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”;
其計算公式為:xd=roundup(xmax-xmean)。
再進一步的改進中,本發(fā)明在s5的所述δx2<xa中,xa=xd/2;即將s5迭代過程中的判斷標準降低為首次的一半,進而得到符合要求模板與淘汰模板,迭代過程中將判斷標準降低到,進一步提高了算法精度。
進一步的,s3中分類失敗率n%的預設是根據(jù)工作環(huán)境的實際情況和需求進行預設的。
進一步的,s1中選擇特征模板是無需進行標記的。
更進一步的,s1中目標對象的基礎數(shù)據(jù)包括文本、圖像和音頻。
在本發(fā)明優(yōu)選的方案中,所述特征模板的數(shù)量n為10-30。
本發(fā)明另一方面還提供了上述基于增強聚類的機器學習算法的應用,其可應用于工業(yè)產(chǎn)品圖像的視覺識別、文本數(shù)據(jù)的數(shù)據(jù)分析或者音頻文件的特征提取。
本發(fā)明所提出的一種基于增強聚類的機器學習算法在各特征模板匹配成功率的最大值與平均值差值較大時,通過多次迭代試驗獲取能達到目標要求的特征模板,作為后續(xù)數(shù)據(jù)分類的依據(jù),該算法精度高,獲得的目標要求的特征模板更為準確,符合預期效果。
本發(fā)明機器學習算法具有易于實施、可應用領域廣泛、魯棒性強等優(yōu)點,可以廣泛應用圖像、文本、音頻等基礎數(shù)據(jù)的實時在線優(yōu)化,在數(shù)據(jù)不斷積累中獲得優(yōu)化的特征模板。
附圖說明
圖1為本發(fā)明基于增強聚類的機器學習算法的原理圖;
圖2為實施例1隨機選取的特征模板;
圖3為實施例1第一次迭代試驗匹配結果圖表;
圖4為實施例1第二次迭代試驗匹配結果圖表;
圖5為實施例1第三次迭代試驗匹配結果圖表;
圖6為實施例1第四次迭代試驗匹配結果圖表;
圖7為實施例1第五次迭代試驗匹配結果圖表;
圖8為實施例1聚類迭代均值與迭代次數(shù)之間關系。
圖9為實施例2隨機選取的特征模板;
圖10為實施例2第一次迭代試驗匹配結果圖表;
圖11為實施例2第二次迭代試驗匹配結果圖表;
圖12為實施例2第三次迭代試驗匹配結果圖表;
圖13為實施例2第四次迭代試驗匹配結果圖表;
圖14為實施例2聚類迭代均值與迭代次數(shù)之間關系。
圖15為實施例3第一次迭代試驗匹配結果圖表;
圖16為實施例3第二次迭代試驗匹配結果圖表;
圖17為實施例3第三次迭代試驗匹配結果圖表;
圖18為實施例3聚類迭代均值與迭代次數(shù)之間關系。
具體實施方式
下面結合附圖和實施例,對本發(fā)明基于增強聚類的機器學習算法的具體實施方式作進一步描述。以下實施例僅用于更加清楚地說明本發(fā)明的技術方案,而不能以此來限制本發(fā)明的保護范圍;有關技術領域的普通技術人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護范圍應由各權利要求限定。
圖1為基于增強聚類的機器學習算法的原理圖。所述機器學習算法包括下述步驟。
步驟1、首先分析文本、圖像、音頻等基礎數(shù)據(jù)的特征,隨機編寫n個特征模板ti=1~n,每個特征模板理論上都能夠將基礎數(shù)據(jù)分為符合該特征模板的數(shù)據(jù)和不符合該特征模板的數(shù)據(jù)等兩類。
實際上由于外部環(huán)境存在一定的不確定性或隨機干擾,就會導致有的特征模板無法完成對基礎數(shù)據(jù)的有效分類,則需要通過增強聚類學習找出“分類成功率”最高的特征模板。
步驟2、應用上一步編寫的n個特征模板ti=1~n,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行分類測試。
步驟3、統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率,根據(jù)工作環(huán)境的實際情況和需求,預設分類的失敗標準為n%,計算所有特征模板匹配成功率的平均值xmean與最大值xmax,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,則xd的計算公式如(1)所示。
若最大值與均值之差xd不大于預設的分類失敗率n%,則認為n個特征模板分類水平一致,均能達到目標要求,機器學習過程即結束并隨機選取n個特征模板中成功率最高者作為最優(yōu)的特征識別方案,作為處理后續(xù)獲得數(shù)據(jù)分類的依據(jù)。
若最大值與均值之差xd大于n%,則依次計算成功率最大值與其余各特征模板成功率之間的距離δx,若δx<xd,則將對應的特征模板作為當前較好的特征模板,反之則淘汰該特征模板,從而將原來的n個特征模板ti=1~n分成了較好的特征模板子集
為了防止偶然惡意淘汰情況的發(fā)生,從淘汰的特征模板子集
上述模板匹配成功率最大值與平均值之間差值的計算公式如下:
xd=roundup(xmax-xmean)(1)
步驟4、針對上一步產(chǎn)生的測試特征模板集合
步驟5、統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率,計算所有特征模板匹配成功率的平均值xmean與最大值xmax,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均值之差為xd,則xd的計算公式如(1)所示。
若最大值與均值之差xd不大于預設的分類失敗率n%,則認為n個特征模板分類水平一致,均能達到目標要求,機器學習過程即結束并隨機選取n個特征模板中成功率最高者作為最優(yōu)的特征識別方案,作為處理后續(xù)獲得數(shù)據(jù)分類的依據(jù)。
若最大值與均值之差xd大于n%,則依次計算成功率最大值與其余各特征模板成功率之間的距離δx,若δx<xd/2,則將對應的特征模板作為當前較好的特征模板,反之則淘汰該特征模板,從而將原來的k+z個特征模板
為了防止偶然惡意淘汰情況的發(fā)生,從淘汰的特征模板子集
6)重復4)、5),直到達到預設的分類成功率閥值。
本發(fā)明的機器學習算法中,通過首次迭代試驗或上一次迭代試驗篩選出的較好特征模板進行下一組迭代試驗,直至試驗中某組特征模板能夠滿足處理后的匹配成功率的最大值與平均值差值不大于預設分類標準則認為所選均能達到目標要求,并將所得特征模板作為處理后續(xù)獲得數(shù)據(jù)分類的依據(jù)。本發(fā)明基于增強聚類的機器學習算法易于實施,魯棒性強,其可應用領域廣泛。下述則是按照現(xiàn)有的應用領域分別對增強聚類的機械學習算法具體分成下述3個實施例。
實施例1
在工業(yè)生產(chǎn)過程中,特別是在現(xiàn)代的自動化生產(chǎn)線上,需要對產(chǎn)品進行分揀、篩選等工作,相對于傳統(tǒng)的檢驗方法,機器視覺技術具有快速、準確、可靠與智能化等優(yōu)點,通過應用本文所述的機器學習算法,可進一步提高產(chǎn)品檢驗的一致性、產(chǎn)品生產(chǎn)的安全性。本實施例即為對于一具體工件應用基于增強聚類的機器學習算法的視覺識別。
1)首先分析所用工件基礎數(shù)據(jù)的特征,隨機編寫20個特征模板,即n=20,如圖2所示,每個特征模板理論上都能夠將基礎數(shù)據(jù)分為符合該特征模板的數(shù)據(jù)和不符合該特征模板的數(shù)據(jù)等兩類,但實際上由于外部環(huán)境存在一定的不確定性或隨機干擾,就會導致有的特征模板無法完成對基礎數(shù)據(jù)的有效分類,下面通過增強聚類學習找出“分類成功率”最高的特征模板。
2)應用上一步編寫的20個特征模板,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第一次分類迭代測試。
3)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率,根據(jù)工作環(huán)境的實際情況和需求,預設分類的失敗標準為n%=1%。
計算所有特征模板匹配成功率,如圖3所示,可以得到最大匹配成功率xmax=97%,通過計算可以求得平均匹配成功率xmean=92.45%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,可得xd=5%。
最大值與均值之差為5%大于預設的分類失敗率1%,則依次計算成功率最大值與其余各特征模板成功率之間的距離δx;若δx≤5%,則將對應的特征模板作為當前較好的特征模板,反之則淘汰該特征模板,根據(jù)計算可得,從而將原來的20個特征模板分成了較好的特征模板子集為
為了防止偶然惡意淘汰情況的發(fā)生,從淘汰的特征模板子集中隨機抽取z個的特征模板,本次試驗中z=2,即隨機抽取的模板子集
4)針對上一步產(chǎn)生的測試特征模板集合,篩選出14個特征模板,即n=14,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第二次分類迭代測試。
5)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率。
計算所有特征模板匹配成功率,如圖4所示,可以得到最大匹配成功率xmax=100%,通過計算可以求得平均匹配成功率為xmean=96.85%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,可得xd=4%。
最大值與均值之差為4%大于預設的分類失敗率1%,則依次計算成功率最大值與其余各特征模板成功率之間的距離δx,若δx≤2%,則將對應的特征模板作為當前較好的特征模板,反之則淘汰該特征模板,根據(jù)計算可得,從而將原來的14個特征模板分成了較好的特征模板子集為
為了防止偶然惡意淘汰情況的發(fā)生,從淘汰的特征模板子集中隨機抽取z個的特征模板,本次試驗中z=2,即隨機抽取的模板子集
6)針對上一步產(chǎn)生的測試特征模板集合,篩選出8個特征模板,即n=8,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第三次分類迭代測試。
7)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率。
計算所有特征模板匹配成功率,如圖5所示,可以得到最大匹配成功率xmax=100%,通過計算可以求得平均匹配成功率xmean=98.42%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,即可得xd=2%。
最大值與均值之差為2%大于預設的分類失敗率1%,則依次計算成功率最大值與其余各特征模板成功率之間的距離δx,若δx≤1%,則將對應的特征模板作為當前較好的特征模板,反之則淘汰該特征模板,根據(jù)計算可得,從而將原來的8個特征模板分成了較好的特征模板子集為
為了防止偶然惡意淘汰情況的發(fā)生,從淘汰的特征模板子集中隨機抽取z個的特征模板,本次試驗中z=2,即隨機抽取的模板子集
8)針對上一步產(chǎn)生的測試特征模板集合,篩選出6個特征模板,即n=6,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第四次分類迭代測試。
9)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率。
計算所有特征模板匹配成功率,如圖6所示,可以得到最大匹配成功率xmax=100%,通過計算可以求得平均匹配成功率xmean=99%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,即可得xd=1%。
最大值與均值之差為1%與預設的分類失敗率1%相等,但由于其中一組存在δx>1%的現(xiàn)象,故須再次對該組進行驗證,消除偶然因素影響,則將對應的特征模板作為當前較好的特征模板,反之則淘汰該特征模板,根據(jù)計算可得,從而將原來的6個特征模板分成了較好的特征模板子集為
為了防止偶然惡意淘汰情況的發(fā)生,從淘汰的特征模板子集中隨機抽取z個的特征模板,但由于只有一組不符合要求,在淘汰中隨機抽取,則z=1,只抽取模板9,與較好的特征模板子集組合形成新的待測試特征模板集合,即參與下次計算特征模板集合為
10)針對上一步產(chǎn)生的測試特征模板集合,篩選出6個特征模板,即n=6,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第五次分類迭代測試。
11)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率。
計算所有特征模板匹配成功率,如圖7所示,可以得到最大匹配成功率xmax=100%,通過計算可以求得平均匹配成功率為xmean=99.83%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,即可得xd=1%。
最大值與均值之差為1%與預設的分類失敗率1%相等,且無某一特征模板存在δx>1%的現(xiàn)象,故通過增強聚類學習找出“分類成功率”最高的特征模板為:模板1、模板5、模板6、模板9、模板10、模板14。則認為6個特征模板分類水平一致,均能達到目標要求,機器學習過程即結束并隨機選取6個特征模板中成功率最高者作為最優(yōu)的特征識別方案,作為處理后續(xù)獲得數(shù)據(jù)分類的依據(jù)。
12)聚類迭代均值與迭代次數(shù)之間關系如圖8所示。
實施例2
本實施例為對一玩具應用基于增強聚類的機器學習算法的視覺識別,具體包括下述步驟。
1)首先分析所用玩具基礎數(shù)據(jù)的特征,隨機編寫20個特征模板,即n=20,如圖9所示,每個特征模板理論上都能夠將基礎數(shù)據(jù)分為符合該特征模板的數(shù)據(jù)和不符合該特征模板的數(shù)據(jù)等兩類。
但實際上由于外部環(huán)境存在一定的不確定性或隨機干擾,就會導致有的特征模板無法完成對基礎數(shù)據(jù)的有效分類,下面通過增強聚類學習找出“分類成功率”最高的特征模板。
2)應用上一步編寫的20個特征模板,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第一次分類迭代測試。
3)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率。
根據(jù)工作環(huán)境的實際情況和需求,預設分類的失敗標準為n%=1%,計算所有特征模板匹配成功率,如圖10所示,可以得到最大匹配成功率xmax=100%,通過計算可以求得平均匹配成功率為xmean=87.85%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,可得xd=13%。
最大值與均值之差為13%大于預設的分類失敗率1%,則依次計算成功率最大值與其余各特征模板成功率之間的距離δx,若δx≤13%,則將對應的特征模板作為當前較好的特征模板,反之則淘汰該特征模板,根據(jù)計算可得,從而將原來的20個特征模板分成了較好的特征模板子集為
為了防止偶然惡意淘汰情況的發(fā)生,從淘汰的特征模板子集中隨機抽取z個的特征模板,本次試驗中z=2,即隨機抽取的模板子集
4)針對上一步產(chǎn)生的測試特征模板集合,篩選出16個特征模板,即n=16,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第二次分類迭代測試。
5)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率。
計算所有特征模板匹配成功率,如圖11所示,可以得到最大匹配成功率xmax=100%,通過計算可以求得平均匹配成功率為xmean=91.81%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,即可得xd=9%。
最大值與均值之差為9%大于預設的分類失敗率1%,則依次計算成功率最大值與其余各特征模板成功率之間的距離δx,若δx≤4.5%,則將對應的特征模板作為當前較好的特征模板,反之則淘汰該特征模板,根據(jù)計算可得,從而將原來的16個特征模板分成了較好的特征模板子集為
為了防止偶然惡意淘汰情況的發(fā)生,從淘汰的特征模板子集中隨機抽取z個的特征模板,本次試驗中z=2,即隨機抽取的模板子集
6)針對上一步產(chǎn)生的測試特征模板集合,該組中篩選出13個特征模板,即n=13,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第三次分類迭代測試。
7)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率。
計算所有特征模板匹配成功率,如圖12所示,可以得到最大匹配成功率xmax=100%,通過計算可以求得平均匹配成功率為xmean=96.33%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,可得xd=4%。
最大值與均值之差為4%大于預設的分類失敗率1%,則依次計算成功率最大值與其余各特征模板成功率之間的距離δx,若δx≤2%,則將對應的特征模板作為當前較好的特征模板,反之則淘汰該特征模板,根據(jù)計算可得,從而將原來的12個特征模板分成了較好的特征模板子集為
為了防止偶然惡意淘汰情況的發(fā)生,從淘汰的特征模板子集中隨機抽取z個的特征模板,但由于該次淘汰模板與上次從淘汰模板中所篩選出的兩組模板相同,故不再進行提取,則z=0,直接使用較好模板進行下一次試驗,即參與下次計算特征模板集合為
8)針對上一步產(chǎn)生的測試特征模板集合,篩選出11個特征模板,即n=11,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第四次分類迭代測試。
9)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率。
計算所有特征模板匹配成功率,如圖13所示,可以得到最大匹配成功率xmax=100%,通過計算可以求得平均匹配成功率xmean=99.9%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,可得xd=1%。
最大值與均值之差為1%與預設的分類失敗率1%相等,且無某一特征模板存在δx>1%的現(xiàn)象,故通過增強聚類學習找出“分類成功率”最高的特征模板為:模板1、模板2、模板3、模板4、模板11、模板14、模板16、模板17、模板18、模板19、模板20。則認為11個特征模板分類水平一致,均能達到目標要求,機器學習過程即結束并隨機選取11個特征模板中成功率最高者作為最優(yōu)的特征識別方案,作為處理后續(xù)獲得數(shù)據(jù)分類的依據(jù)。
10)聚類迭代均值與迭代次數(shù)之間關系如圖14所示。
實施例3
對某家it公司銷售筆記本電腦產(chǎn)品情況進行調研,得到消費者是否購買筆記本電腦的統(tǒng)計表,對購買與不購買筆記本電腦的消費者進行特征分類:年齡特征分為老、中、青;收入特征分為高、中、低;是否為在校學生;信譽優(yōu)秀與良好四個特征分類。根據(jù)上述特征,應用本文所述算法,對潛在客戶進行預測,避免潛在客戶的流失。其中有部分與銷售人員進行溝通后購買了筆記本電腦,記為成功并計數(shù)1,另一部分并沒購買記為失敗并計數(shù)0,對其進行算法處理,進而對潛在客戶進行預測。
本實施例中為對一消費者統(tǒng)計文本中應用基于增強聚類的機器學習算法獲得潛在客戶的實施方案,具體包括下述步驟。
1)首先分析所用統(tǒng)計文本基礎數(shù)據(jù)的特征,隨機編寫11個特征模板,分別為:青高否,中高否,老中否,老低是,中低是,青中否,青低是,老中是,青中是,中中否,中高是,共11組特征模板,即n=11。每個特征模板理論上都能夠將基礎數(shù)據(jù)分為符合該特征模板的數(shù)據(jù)和不符合該特征模板的數(shù)據(jù)等兩類。
但實際上由于外部環(huán)境存在一定的不確定性或隨機干擾,就會導致有的特征模板無法完成對基礎數(shù)據(jù)的有效分類,下面通過增強聚類學習找出“分類成功率”最高的特征模板。
2)應用上一步編寫的11個特征模板,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第一次分類迭代測試。
3)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率,根據(jù)工作環(huán)境的實際情況和需求,預設分類的失敗標準為n%=10%,計算所有特征模板匹配成功率,如圖15所示,可以得到最大匹配成功率xmax=100%,通過計算可以求得平均匹配成功率為xmean=38.4%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,可得xd=62%。
最大值與均值之差為62%大于預設的分類失敗率10%,則依次計算成功率最大值與其余各特征模板成功率之間的距離δx,若δx≤62%,則將對應的特征模板作為當前較好的特征模板,反之則淘汰該特征模板,根據(jù)計算可得,從而將原來的11個特征模板分成了較好的特征模板子集為
為了防止偶然惡意淘汰情況的發(fā)生,需從淘汰的特征模板子集中隨機抽取z個的特征模板,但由于模板1與模板6匹配成功率為0,故不再從其中抽取,即參與下次計算特征模板集合為
4)針對上一步產(chǎn)生的測試特征模板集合,篩選出9個特征模板,即n=9,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第二次分類迭代測試。
5)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率,計算所有特征模板匹配成功率,如圖16所示,可以得到最大匹配成功率xmax=100%,通過計算可以求得平均匹配成功率xmean=84.6%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,可得xd=16%。
最大值與均值之差為16%大于預設的分類失敗率10%,則依次計算成功率最大值與其余各特征模板成功率之間的距離δx,若δx≤8%,則將對應的特征模板作為當前較好的特征模板,反之則淘汰該特征模板,根據(jù)計算可得,從而將原來的9個特征模板分成了較好的特征模板子集為
為了防止偶然惡意淘汰情況的發(fā)生,從淘汰的特征模板子集中隨機抽取2個的特征模板,但由于該組淘汰模板匹配成功率并未發(fā)生太大改變,故直接淘汰,即參與下次計算特征模板集合為
6)針對上一步產(chǎn)生的測試特征模板集合,篩選出7個特征模板,即n=7,在工作環(huán)境下依次對在線獲得的數(shù)據(jù)進行第三次分類迭代測試。
7)統(tǒng)計分類測試結果,得到每一個特征模板分類的成功率,計算所有特征模板匹配成功率,如圖17所示,可以得到最大匹配成功率xmax=100%,通過計算可以求得平均匹配成功率xmean=100%,對匹配成功率的最大值與平均值求差,所得差值采用向上取整法,即當差值為非整數(shù)時,則將其小數(shù)位省略掉,整數(shù)位向上進“1”,設最大值與平均之差為xd,如公式(1)所示,可得xd=0。
最大值與均值之差為0小于預設的分類失敗率10%,迭代結束,故通過增強聚類學習找出“分類成功率”最高的特征模板為:模板2、模板5、模板7、模板8、模板9、模板10、模板11。則認為7個特征模板分類水平一致,均能達到目標要求,機器學習過程即結束并隨機選取7特征模板中成功率最高者作為最優(yōu)的特征識別方案,作為處理后續(xù)獲得數(shù)據(jù)分類的依據(jù)。
8)聚類迭代均值與迭代次數(shù)之間關系如圖18所示。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明技術原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。