結論:データスクリーニングは「事前準備が9割」

データスクリーニングで一番大切なのは、

👉 最初の「データ調査」と「作業方針の決定」です。

ここをしっかりやらないと、

  • 何度もやり直しになる
  • エラーが出続ける
  • 集計結果が違う

といった問題が必ず発生します。

👉 逆にここを丁寧にやれば、後の作業はスムーズに進みます。


全体の流れ(まずはこれを理解)

データスクリーニングは、次の順番で進めます。

  1. 入出力データの調査(最重要)
  2. 作業方針の決定(最重要)
  3. 誤字・脱字の修正
  4. 不要データの削除
  5. 不足データの追加
  6. 表記の統一
  7. 項目の順序調整
  8. 名寄せ(表記ゆれの統一)
  9. 文字コードの調整
  10. ファイル形式の調整

1. 入出力データの調査(ここがすべての土台)

① データを準備する

まずは次の2つを用意します。

  • 入力データ(元データ)
  • 出力データ(理想の形)

ポイント(初心者がよく見落とす)

👉 「正しく動いた実績データ」を用意するのが最強

もし無い場合は:

手順

  • 少量データを作る
  • 実際にシステムに読み込ませる
  • 正しく動いた結果を保存する

② 入出力の違いをチェックする

以下をチェックします👇

  • 不要な項目はある?
  • 足りない項目はある?
  • 表記が違う?(例:全角/半角)
  • 文字コードは同じ?
  • ファイル形式は同じ?

よくあるミス

「見た目が同じだからOK」と思う → 実はシステム的には別物


2. 作業方針の決定(設計図を作る)

調査結果をもとに、

👉 「どう変換するか」を決めます。

手順

  • 作業を細かく分解
  • 順番を決める
  • フローを作る

例(シンプルな流れ)

誤字・脱字修正 → データ表記統一 → 名寄せ → CSV出力

(図1)作業方針の策定

👉 入力データから出力データに至るまでの作業を分解し、作業の流れを組み立てる。

重要な考え方

👉 これは「プログラム設計」と同じ。

  • 小さく分ける
  • 順番を決める
  • 検証できる形にする

3. 誤字・脱字の修正

特徴

人が入力したデータはほぼ確実にミスあり。

対応方法

  • 目視チェック
  • ツール(エディタや表計算ツール等)の検索やソート機能を活用

よくある例

  • 「株式会社」と「株式會社」
  • 「東京」と「とうきょう」

4. 不要データの削除

何を削除する?

  • 不要な列
  • 空白(特にスペース)

**よくある落とし穴

  • "あああ"
  • "あああ "
  • " あああ"

👉 全部「別データ」として扱われます。

手順

  • 表計算ツール等のTRIM関数でスペース削除
  • 表計算ツール等で不要列を削除

5. 不足データの追加

ケース

必須項目が足りない。

対応方法

  • 空の列を追加
  • 必要なら別データと結合(マージ)

(図2)システムからの抽出データ

よくある例

  • 会社コードしかなく名前がない
  • 部署コードがない

6. 表記の統一(超重要)

なぜ必要?

👉 集計結果がズレるから

統一ルール例

  • 数字 全角 → 半角

  • カンマ削除 ¥1,000 → 1000

  • 日付 2026/04/01 → 2026-04-01

  • 単位 1L → 1000(mlに統一)


7. 項目の順序調整

特に重要なのはCSV。

👉 順番が違うと読み込めない場合あり。

入力:日付,会社名,売上 出力:会社名,売上,日付

手順

  • 出力データの並びを確認
  • 並び替え

8. 名寄せ(表記ゆれの統一)

これは何?

👉 同じ意味あいのものを同じ名前にする作業。

よくある例

  • ㈱A商事
  • (株)A商事
  • 株式会社A商事

👉 全て「株式会社A商事」に統一。

実務あるある

入力データは、「システムやプログラム」で管理しているが、下記の理由で、汎用の「その他」を利用し、実名を摘要に手入力している。その為、取引先が一意にならない。

  • 実務にマスタ更新が間に合わない
  • マスタが更新が、滞っている
取引先 摘要
(株)A商事
㈱A商事
株式会社A商事
その他 B商事
その他 C商事

対応方法

  • 対応表(マッピング表)を作る
  • 表計算ツールのLOOKUP関数などで変換する

9. 文字コードの調整

重要な理由

👉 文字化けの原因

よくある組み合わせ

  • Shift-JIS
  • UTF-8

対応方法

  • エディタやツール(コード変換)で変換
  • ツール(表計算ツール等)で、保存時に指定

10. ファイル形式の調整

入力データと出力データのファイル形式(CSV, XML, JSON等)が異なる場合、

👉 ツール等を利用して、出力データに合わせてファイル形式を変換。

  • CSV → JSON
  • XML → CSV

注意点

  • 連携したい「システムやプログラム」のファイル読み込み形式の事前チェックが必要

よくある失敗パターン

他の記事であまり触れられない、実務での失敗です👇

❌ いきなり加工を始める

→ 必ずやり直し

❌ ルールを決めずに修正

→ データがバラバラになる

❌ 手作業に頼りすぎる

→ ミスが増える


実務で使えるコツ

① 1回で完璧を目指さない

→ 小さく試す

② 変換ルールを「見える化」

→ 名寄せ時の変換ルールを表計算ツールなどを利用して、対応表にする。

👉 問題があった時の切り分けや、変換ルールの追加に強い。

③ 作業を再利用できる形にする

→ 元ネタの項目は上書きせず、何度も繰り返し試せるように残しておく。 → マクロ・スクリプト化

👉 繰り返し試せるようにする。


まとめ

  • 最重要は「データ調査」と「作業方針決定」
  • 作業方針決定は「設計」がすべて
  • 表記統一と名寄せが品質を左右する
  • 小さく試してから本番に進むのが成功のコツ