免费 无码进口视频|欧美一级成人观看|亚洲欧美黄色的网站|高清无码日韩偷拍|亚太三区无码免费|在找免费看A片色片一区|激情小说亚洲精品|91人妻少妇一级性av|久久国产综合精品日韓|一级美女操逼大片

論文范文

基于深度學習的不完整大數(shù)據(jù)填充算法論文

時間:2022-10-05 21:23:55 論文范文 我要投稿
  • 相關(guān)推薦

基于深度學習的不完整大數(shù)據(jù)填充算法論文范文

  1引言

基于深度學習的不完整大數(shù)據(jù)填充算法論文范文

  隨著互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)及電子商務(wù)技術(shù)的興起和發(fā)展,數(shù)據(jù)正以前所未有的速度增長。大數(shù)據(jù)的研究和應(yīng)用時代己經(jīng)到來。在大數(shù)據(jù)的采集和傳輸過程中,每個環(huán)節(jié)都可能出現(xiàn)故障,導致很多大數(shù)據(jù)集中存在著大量的缺失。大數(shù)據(jù)的不完整性為大數(shù)據(jù)的分析和處理帶來巨大的挑戰(zhàn)。因此,不完整數(shù)據(jù)的填充對大數(shù)據(jù)的分析和處理具有重要的意義。

  近些年,國內(nèi)外研究人員提出了很多不完整數(shù)據(jù)填充方法。包括基于最大期望的數(shù)據(jù)填充算法叫基于模糊聚類的填充算法以及基于最近鄰對象的填充算法等。這些算法在填充小規(guī)模數(shù)據(jù)集方面取得了顯著的效果。然而在填充不完整大數(shù)據(jù)方面,精度急劇下降。這是由于大數(shù)據(jù)存在著豐富的信息維度,而傳統(tǒng)的數(shù)據(jù)填充算法不能體現(xiàn)大數(shù)據(jù)的深度特征。

  針對這個問題,本文提出一種基于深度學習的不完整大數(shù)據(jù)填充算法。

  2填充自動編碼機

  本文構(gòu)建的深度填充網(wǎng)絡(luò)以填充自動編碼機為基礎(chǔ)模塊,從完整數(shù)據(jù)子集中隨機采取一部分數(shù)據(jù)對象作為實例訓練填充自動編碼機的網(wǎng)絡(luò)參數(shù)。在構(gòu)造填充自動編碼過程中,使用選中的數(shù)據(jù)對象模擬缺失數(shù)據(jù)對象,隨機地將每個實例數(shù)據(jù)對象的部分屬性值置,模擬不完整對象作為填充自動編碼機的輸入,通過最小化重構(gòu)數(shù)據(jù)與實例原型來訓練網(wǎng)路參數(shù)。

  根據(jù)隨機梯度下降算法,每當從數(shù)據(jù)集中選擇一個實例進行訓練,填充自動編碼機首先隨機地選擇該實例的部分屬性,將其屬性值置。,得到一對數(shù)據(jù),然后通過如下公式對自動編碼機的權(quán)值進行一次更新。如此更新網(wǎng)絡(luò)參數(shù),直到整個網(wǎng)絡(luò)趨于穩(wěn)定。

  3深度填充網(wǎng)絡(luò)與數(shù)據(jù)填充

  本文以填充自動編碼機為基礎(chǔ)模塊,構(gòu)建三層網(wǎng)絡(luò)模型。每一層網(wǎng)絡(luò)輸出都將作為上一層網(wǎng)絡(luò)的輸入,最上層作為提取的特征輸出。訓練過程分為預訓練和微調(diào)兩個階段。首先自下而上地進行逐層訓練獲得網(wǎng)絡(luò)初始化參數(shù),最終通過反向傳播算法對全局參數(shù)進行微調(diào)。

  為了獲取網(wǎng)絡(luò)逐層訓練監(jiān)督對象,首先利用實例數(shù)據(jù)作為輸入構(gòu)建疊加自動編碼機,獲得實例數(shù)據(jù)的兩層特征。本文以未經(jīng)處理的原始實例數(shù)據(jù)二作為網(wǎng)絡(luò)輸入,在最下層可獲取第一層特征,把特征作為上一層網(wǎng)絡(luò)的輸入,獲得第二層特征,該訓練過程是局部的,即第二層網(wǎng)絡(luò)更新本層的網(wǎng)絡(luò)權(quán)重,對下層網(wǎng)絡(luò)沒有影響。通過這種方式可以初始化疊層網(wǎng)絡(luò)參數(shù),最后通過反向傳播算法對網(wǎng)絡(luò)全局參數(shù)進行微調(diào)。如此能夠獲得對應(yīng)于原始數(shù)據(jù)實例的兩層特征。

  從數(shù)據(jù)中逐一取出實例對深度實例網(wǎng)絡(luò)進行訓練,每訓練一次,對網(wǎng)絡(luò)參數(shù)進行一次更新,直到整個網(wǎng)絡(luò)趨于穩(wěn)定,獲得最終的網(wǎng)絡(luò)參數(shù)。在獲得網(wǎng)絡(luò)參數(shù)之后,本文首先抽取不完整數(shù)據(jù)集中每個數(shù)據(jù)對象的深度特征。對于不完整數(shù)據(jù)對象二而言,首先將其缺失屬性的屬性值置。

  4實驗分析

  為了驗證本文提出的算法(DLDBI)的有效性,將本文提出的算法和兩種填充算法FIMUS和DMI進行對比。本文采用的數(shù)據(jù)集采自數(shù)字家庭與無線傳感網(wǎng)絡(luò)實驗室,數(shù)據(jù)集總量達到10U每個數(shù)據(jù)對象包含650個數(shù)值屬性。我們首先人為地從數(shù)據(jù)集中刪除一部分數(shù)據(jù),模擬不完整數(shù)據(jù)集,在填充完成之后,將填充值與真實值進行比較,得到算法的填充精度。

  本文人工制造兩種缺失值,單模式缺失和多模式缺失。在單模式缺失中,每個數(shù)據(jù)對象只允許含有一個缺失值,多模式缺失則允許每個數(shù)據(jù)對象含有多個缺失值。本文分別從數(shù)據(jù)集中選擇15%和10%的數(shù)據(jù)對象并刪除這些數(shù)據(jù)對象的部分屬性值,模擬缺失數(shù)據(jù)。 本文使用兩個標準來衡量算法的填充精度。第一個標準被稱標準,該標準用于衡量填充值與真實值的匹配程度, 對于任何一種缺失組合,本文提出的算法所得到的都明顯高于其他兩種算法。除此之外,隨著數(shù)據(jù)缺失率的增大,算法FIMUS和DMI所得到的都在下降,即這兩種算法的填充精度隨著數(shù)據(jù)缺失率的增大面降低。而本文提出的算法的填充精度一直保持在一個很高的水平之上。因此,本文提出的算法的填充精度明顯高于FIMUS和DMI。

  對于任何一種缺失組合,本文提出的算法所得到的RMSE都明顯低于其他兩種算法。隨著數(shù)據(jù)缺失率的增大,算法FIMUS和DM所得到的RMSE不斷升高,即這兩種算法的填充精度隨著數(shù)據(jù)缺失率的增大而降低。而本文提出的算法的得到的RMSE一直低。因此,就RMSE而言,本文提出的算法的填充精度明顯高于FIMUS和DMI。

  本文提出的算法填充精度相對比較穩(wěn)定。具體的說,當數(shù)據(jù)缺失率在1%到10%之間,值能夠穩(wěn)定的保持在。此外,對于任意一種缺失率而言,單缺失模式的填充精度明顯高于多缺失模型的填充精度,這是因為多填充模式缺失數(shù)據(jù)大,對特征提取和還原造成的干擾高于單缺失模式。

  5結(jié)束語

  本文提出一種基于深度學習的不完整大數(shù)據(jù)填充算法,算法針對大數(shù)據(jù)具有豐富的信息維度,構(gòu)建深度填充網(wǎng)絡(luò)類提取大數(shù)據(jù)的深度特征,進而對缺失值進行還原。實驗結(jié)果表明本文提出的算法能夠有效的提高數(shù)據(jù)填充精度。在下一步工作中,探索如何提高多缺失模式下的數(shù)據(jù)填充精度。

【基于深度學習的不完整大數(shù)據(jù)填充算法論文】相關(guān)文章:

Hadoop物聯(lián)網(wǎng)數(shù)據(jù)挖掘的算法分析論文10-10

基于SVM的重復網(wǎng)頁檢測算法分析論文10-11

基于Excel的數(shù)據(jù)加密方案的論文范文10-07

基于旅游管理的時空數(shù)據(jù)模型研究論文10-08

計算機通信中DES數(shù)據(jù)加密算法應(yīng)用論文10-09

基于大數(shù)據(jù)的旅游服務(wù)供應(yīng)鏈管理研究論文10-09

深度學習在金融風險管理的應(yīng)用論文10-08

基于GABP算法的計算機復雜網(wǎng)絡(luò)可靠性評估方法研究論文10-08

深度學習在金融風險管理中的應(yīng)用論文10-08

自動排課算法的分析論文10-11