教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

數(shù)據清洗概述:數(shù)據質量的評價指標

更新時間:2022年07月22日11時42分 來源:傳智教育 瀏覽次數(shù):

好口碑IT培訓

  數(shù)據質量的評價指標主要包括數(shù)據的準確性(accuracy)、完整性(completeness)、簡潔性(concision)及適用性(applicability),其中數(shù)據的準確性、完整性和簡潔性是為了保證數(shù)據的適用性。下面針對數(shù)據質量的主要評價指標進行詳細的介紹。

  1.準確性

  數(shù)據的準確性就是要求數(shù)據中的噪聲盡可能少。為提高數(shù)據的準確性,需對數(shù)據集進行降噪處理。對于數(shù)據中偏離常規(guī)、分散的小樣本數(shù)據,一般可視為噪聲或異常數(shù)據,可通過最常用的異常值檢測方法聚類進行處理。

  2.完整性

  完整性指的是數(shù)據信息是否存在缺失的狀況。數(shù)據缺失的情況可能是整條數(shù)據記錄缺失,也可能是數(shù)據中某個字段信息的記錄缺失。不完整的數(shù)據所能借鑒的價值會大大降低,也是數(shù)據質量更為基礎的一項評估標準。

  數(shù)據質量的完整性比較容易評估,一般通過數(shù)據統(tǒng)計中的記錄值和唯一值進行評估。例如,網站日志訪問量就是一個記錄值,平時的日訪問量在1000左右,突然某天降到100,就需要檢查數(shù)據是否存在缺失了。

  3.簡潔性

  簡潔性就是要盡量選擇重要的本質屬性,并消除冗余。進行決策時,決策者往往抓住反映問題的主要因素,而不需要把問題的細節(jié)都搞得很清楚。在數(shù)據挖掘時,特征的個數(shù)越多,產生噪聲的機會就越大。一些不必要的屬性既會增大數(shù)據量,又會影響挖掘數(shù)據的質量。因此,選擇較小的典型特征集不僅符合決策者的心理,而且還容易挖掘到簡潔有價值的信息。

  4.適用性

  適用性是評價數(shù)據質量的重要標準。建立數(shù)據倉庫的目的是進行數(shù)據挖掘、支持決策分析,而在現(xiàn)實世界中很難挖掘到滿意的數(shù)據,但是我們可以盡量獲取符合要求的數(shù)據。數(shù)據的質量是否能滿足決策的需要是適用性的關鍵所在。盡管前面已經強調了數(shù)據的準確性、完整性和簡潔性,但歸根結底是為了數(shù)據的實際效用。從數(shù)據的實際效用上講,適用性才是評價數(shù)據質量的核心準則。

0 分享到:
和我們在線交談!