結論:データスクリーニングは「事前準備が9割」
データスクリーニングで一番大切なのは、
👉 最初の「データ調査」と「作業方針の決定」です。
ここをしっかりやらないと、
- 何度もやり直しになる
- エラーが出続ける
- 集計結果が違う
といった問題が必ず発生します。
👉 逆にここを丁寧にやれば、後の作業はスムーズに進みます。
全体の流れ(まずはこれを理解)
データスクリーニングは、次の順番で進めます。
- 入出力データの調査(最重要)
- 作業方針の決定(最重要)
- 誤字・脱字の修正
- 不要データの削除
- 不足データの追加
- 表記の統一
- 項目の順序調整
- 名寄せ(表記ゆれの統一)
- 文字コードの調整
- ファイル形式の調整
1. 入出力データの調査(ここがすべての土台)
① データを準備する
まずは次の2つを用意します。
- 入力データ(元データ)
- 出力データ(理想の形)
ポイント(初心者がよく見落とす)
👉 「正しく動いた実績データ」を用意するのが最強
もし無い場合は:
手順
- 少量データを作る
- 実際にシステムに読み込ませる
- 正しく動いた結果を保存する
② 入出力の違いをチェックする
以下をチェックします👇
- 不要な項目はある?
- 足りない項目はある?
- 表記が違う?(例:全角/半角)
- 文字コードは同じ?
- ファイル形式は同じ?
よくあるミス
「見た目が同じだからOK」と思う → 実はシステム的には別物
2. 作業方針の決定(設計図を作る)
調査結果をもとに、
👉 「どう変換するか」を決めます。
手順
- 作業を細かく分解
- 順番を決める
- フローを作る
例(シンプルな流れ)
誤字・脱字修正 → データ表記統一 → 名寄せ → CSV出力

👉 入力データから出力データに至るまでの作業を分解し、作業の流れを組み立てる。
重要な考え方
👉 これは「プログラム設計」と同じ。
- 小さく分ける
- 順番を決める
- 検証できる形にする
3. 誤字・脱字の修正
特徴
人が入力したデータはほぼ確実にミスあり。
対応方法
- 目視チェック
- ツール(エディタや表計算ツール等)の検索やソート機能を活用
よくある例
- 「株式会社」と「株式會社」
- 「東京」と「とうきょう」
4. 不要データの削除
何を削除する?
- 不要な列
- 空白(特にスペース)
**よくある落とし穴
- "あああ"
- "あああ "
- " あああ"
👉 全部「別データ」として扱われます。
手順
- 表計算ツール等のTRIM関数でスペース削除
- 表計算ツール等で不要列を削除
5. 不足データの追加
ケース
必須項目が足りない。
対応方法
- 空の列を追加
- 必要なら別データと結合(マージ)

よくある例
- 会社コードしかなく名前がない
- 部署コードがない
6. 表記の統一(超重要)
なぜ必要?
👉 集計結果がズレるから
統一ルール例
-
数字 全角 → 半角
-
カンマ削除 ¥1,000 → 1000
-
日付 2026/04/01 → 2026-04-01
-
単位 1L → 1000(mlに統一)
7. 項目の順序調整
特に重要なのはCSV。
👉 順番が違うと読み込めない場合あり。
例
入力:日付,会社名,売上 出力:会社名,売上,日付
手順
- 出力データの並びを確認
- 並び替え
8. 名寄せ(表記ゆれの統一)
これは何?
👉 同じ意味あいのものを同じ名前にする作業。
よくある例
- ㈱A商事
- (株)A商事
- 株式会社A商事
👉 全て「株式会社A商事」に統一。
実務あるある
入力データは、「システムやプログラム」で管理しているが、下記の理由で、汎用の「その他」を利用し、実名を摘要に手入力している。その為、取引先が一意にならない。
- 実務にマスタ更新が間に合わない
- マスタが更新が、滞っている
| 取引先 | 摘要 |
|---|---|
| (株)A商事 | |
| ㈱A商事 | |
| 株式会社A商事 | |
| その他 | B商事 |
| その他 | C商事 |
対応方法
- 対応表(マッピング表)を作る
- 表計算ツールのLOOKUP関数などで変換する
9. 文字コードの調整
重要な理由
👉 文字化けの原因
よくある組み合わせ
- Shift-JIS
- UTF-8
対応方法
- エディタやツール(コード変換)で変換
- ツール(表計算ツール等)で、保存時に指定
10. ファイル形式の調整
入力データと出力データのファイル形式(CSV, XML, JSON等)が異なる場合、
👉 ツール等を利用して、出力データに合わせてファイル形式を変換。
例
- CSV → JSON
- XML → CSV
注意点
- 連携したい「システムやプログラム」のファイル読み込み形式の事前チェックが必要
よくある失敗パターン
他の記事であまり触れられない、実務での失敗です👇
❌ いきなり加工を始める
→ 必ずやり直し
❌ ルールを決めずに修正
→ データがバラバラになる
❌ 手作業に頼りすぎる
→ ミスが増える
実務で使えるコツ
① 1回で完璧を目指さない
→ 小さく試す
② 変換ルールを「見える化」
→ 名寄せ時の変換ルールを表計算ツールなどを利用して、対応表にする。
👉 問題があった時の切り分けや、変換ルールの追加に強い。
③ 作業を再利用できる形にする
→ 元ネタの項目は上書きせず、何度も繰り返し試せるように残しておく。 → マクロ・スクリプト化
👉 繰り返し試せるようにする。
まとめ
- 最重要は「データ調査」と「作業方針決定」
- 作業方針決定は「設計」がすべて
- 表記統一と名寄せが品質を左右する
- 小さく試してから本番に進むのが成功のコツ