技術(shù)總結(jié)
本發(fā)明是一種基于多路分塊的漸近式實體識別方法,該方法為:多路分塊生成相交的塊,通過構(gòu)建分塊圖消除塊冗余,初始化塊信用度和候選對信用度,將候選對按照信用度排序,并依次插入到候選隊列;接著,迭代地進行以下三個步驟,(1)處理候選隊列的候選對,(2)根據(jù)識別結(jié)果來更新一部分候選對的信用度,(3)根據(jù)更新的候選對的信用度來調(diào)整候選隊列的順序,并逐漸輸出識別出的重復(fù)的數(shù)據(jù)對象對,不斷重復(fù)這三步直到候選隊列為空。采用本發(fā)明的漸近式實體識別方法,給定較短時間預(yù)算,可以識別出更多的重復(fù)的數(shù)據(jù)對象;通過動態(tài)地估計塊的冗余度來更新候選對的信用度,實時地選擇最可能匹配的候選對來進行識別,保證了高漸近性。
技術(shù)研發(fā)人員:申德榮;孫琛琛;寇月;聶鐵錚;于戈
受保護的技術(shù)使用者:東北大學(xué)
文檔號碼:201710122912
技術(shù)研發(fā)日:2017.03.03
技術(shù)公布日:2017.06.30