首頁Python+大數據技術文章正文

數據分析怎樣進行數據清洗？【詳細講解】

更新時間:2022年08月30日18時30分來源:傳智教育瀏覽次數:

數據清洗的基本流程一共分為5個步驟，分別是數據分析、定義數據清洗的策略和規(guī)則、搜尋并確定錯誤實例、糾正發(fā)現的錯誤以及干凈數據回流。下面通過一張圖描述數據清洗的基本流程，具體如圖所示。

數據清洗的基本流程

接下來針對圖中數據清洗的基本流程進行詳細講解。

1.數據分析

數據分析是數據清洗的前提和基礎，通過人工檢測或者計算機分析程序的方式對原始數據源的數據進行檢測分析，從而得出原始數據源中存在的數據質量問題。

2.定義數據清洗的策略和規(guī)則

根據數據分析出的數據源個數和數據源中的“臟”數據程度定義數據清洗策略和規(guī)則，并選擇合適的數據清洗算法。

3.搜尋并確定錯誤實例

搜尋并確定錯誤實例步驟包括自動檢測屬性錯誤和檢測重復記錄的算法。

手工檢測數據集中的屬性錯誤需要花費大量的時間、精力以及物力，并且該過程本身很容易出錯，所以需要使用高效的方法自動檢測數據集中的屬性錯誤，主要檢測方法有基于統(tǒng)計的方法、聚類方法和關聯(lián)規(guī)則方法。

檢測重復記錄的算法可以對兩個數據集或者一個合并后的數據集進行檢測，從而確定同一個現實實體的重復記錄，即匹配過程。檢測重復記錄的算法有基本的字段匹配算法、遞歸字段匹配算法等。

4.糾正發(fā)現的錯誤

根據不同的“臟”數據存在形式的不同，執(zhí)行相應的數據清洗和轉換步驟解決原始數據源中存在的質量問題。需要注意的是，對原始數據源進行數據清洗時，應該將原始數據源進行備份，以防需要撤銷清洗操作。

為了便于處理單數據源、多數據源以及單數據源與其他數據源合并的數據質量問題，一般需要在各個數據源上進行數據轉換操作，具體如下。

(1)從原始數據源的屬性字段中抽取值(屬性分離)

原始數據源的屬性一般包含很多信息，這些信息有時需要細化成多個屬性，便于后續(xù)清洗重復記錄。

(2)確認并改正

確認并改正輸入和拼寫的錯誤，然后盡可能地使該步驟自動化。若是基于字典查詢拼寫錯誤，則更利于發(fā)現拼寫的錯誤。

(3)標準化

為了便于記錄實例匹配和合并，應該將屬性值轉換成統(tǒng)一格式。

5.干凈數據回流

當數據被清洗后，干凈的數據替代原始數據源中的“臟”數據，這樣可以提高信息系統(tǒng)的數據質量，還可避免將來再次抽取數據后進行重復的清洗工作。

最新資訊