微美全息開發(fā)基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘聚類算法系統(tǒng)
互聯(lián)網(wǎng) 數(shù)據(jù)量呈爆炸式增長,數(shù)據(jù)對社會生產(chǎn)和生活的影響越來越大,數(shù)據(jù)挖掘技術(shù)的應(yīng)用也越來越廣泛。數(shù)據(jù)挖掘過程是一個反復(fù)多次的人機(jī)交互過程,它包括定義問題、建立數(shù)據(jù)挖掘庫、分析數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建立模型、評估模型等。主要的數(shù)據(jù)挖掘算法包括關(guān)聯(lián)分析、序列模式挖掘、分類算法及聚類算法等。
據(jù)了解,WIMI微美全息開發(fā)了基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘聚類優(yōu)化算法系統(tǒng)。在聚類分析中,數(shù)據(jù)按照一定的規(guī)則進(jìn)行劃分,數(shù)據(jù)劃分為類后,使類之間的相似性較小,類內(nèi)的相似性較大。數(shù)據(jù)分析結(jié)果不僅可以揭示數(shù)據(jù)之間的內(nèi)在聯(lián)系和差異,還可為進(jìn)一步的數(shù)據(jù)分析和知識發(fā)現(xiàn)提供重要依據(jù)。
WIMI開發(fā)基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘聚類優(yōu)化算法包含幾下幾種方法:
(1)分區(qū)方法:該方法可以找到球形互斥簇,簇的中心用均值或中心點表示。該算法適用于具有固定簇數(shù)和較小數(shù)據(jù)集的聚類問題。通過隨機(jī)搜索策略,使得大規(guī)模數(shù)據(jù)聚類具有高效性和良好的可擴(kuò)展性。分區(qū)聚類算法通常易于并行化,近年來在大數(shù)據(jù)處理平臺上非常活躍。
(2)層次化方法:該方法基于層次分解聚類的思想,其根據(jù)數(shù)據(jù)點之間的相似性進(jìn)行層次分解,生成具有層次結(jié)構(gòu)的嵌套聚類樹。自下而上的層次分解對應(yīng)于凝聚法,自上而下的層次分解則對應(yīng)于分裂法。
(3)基于密度的方法:該算法可以找到具有不同規(guī)則形狀的聚類,而無需強(qiáng)制改變聚類的形狀。它適用于不規(guī)則數(shù)量和隨機(jī)形狀的聚類,具有減少甚至消除噪聲的優(yōu)點。其將具有足夠密度的區(qū)域劃分為簇,并在有噪聲的空間數(shù)據(jù)庫中找到任意形狀的簇,它根據(jù)采樣點的局部密度,將簇定義為具有連接密度的最大點集合。
(4)基于網(wǎng)格的方法:該算法將量化的網(wǎng)格空間聚類,速度快,計算能力強(qiáng)。將空間劃分為多個網(wǎng)格,并對網(wǎng)格上的數(shù)據(jù)進(jìn)行分析。
(5)模型聚類:模型聚類算法假設(shè)數(shù)據(jù)是根據(jù)特定的概率分布混合的,該概率分布致力于在數(shù)據(jù)和給定模型之間找到最佳擬合。
在這個海量數(shù)據(jù)的時代,數(shù)據(jù)挖掘極其重要,其應(yīng)用越來越廣泛,其重要性也越來越明顯。只要企業(yè)擁有具有分析價值和需求的數(shù)據(jù)倉庫或數(shù)據(jù)庫,就可以進(jìn)行有目的的數(shù)據(jù)挖掘,獲取有價值的數(shù)據(jù)。
而聚類優(yōu)化算法可處理具有多維和不相關(guān)特征的數(shù)據(jù),聚類方法的選擇直接決定了數(shù)據(jù)挖掘的質(zhì)量。為了提高聚類的質(zhì)量,人們不斷探索更好的聚類分析方法。
WIMI開發(fā)的基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘聚類優(yōu)化算法可以根據(jù)預(yù)設(shè)的警告值自動合并粒度較小的聚類結(jié)果,從而有效地防止了由于指定的聚類數(shù)過多而導(dǎo)致的不合理聚類結(jié)果的發(fā)生。人工神經(jīng)網(wǎng)絡(luò)具有高度非線性學(xué)習(xí)能力和對噪聲數(shù)據(jù)的容錯能力,并且其具有很強(qiáng)的提取規(guī)則知識的能力,利用人工神經(jīng)網(wǎng)絡(luò)模型來處理數(shù)據(jù)和挖掘知識具有非常明顯的優(yōu)越性。