名寄せとは?(1)~「同じ人」をまとめる作業~|データ分析用語を解説
f t p h l
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)
「名寄せ」とはデータの中から「同じ人」をまとめる作業です
今回は「名寄せ(なよせ)」という言葉について説明します。名寄せとは「複数の個人データの中から名前や電話番号などの情報を手がかりに”同じ人”をまとめる作業」です。
例えば「Aという企業がライバルであったBという企業を吸収合併した」としましょう。その時、A社はB社の顧客データを自社のデータベースに取り込みたいと考えます。でも、もともとライバル同士であったA社とB社の顧客データはほとんどが重複していてそのままデータベースに追加することができません。「A社のデータベースには存在しないがB社のデータベースには存在するデータ」だけを取り込みたいのです。しかしここでまた問題が発生します。A社B社ともに自社内の顧客データには一意となる「顧客ID」が採番されており自社内での顧客一意性の管理はできています(弊社記事:”データが一意となるとは”も併せてお読みください)。ところがA社とB社ではこの顧客IDが異なります。A社の顧客ID100番とB社の顧客ID100番のかたは違うお客様なのです。この様な場合、もはや「データの中身」から「B社の顧客ID30番のかたはA社の顧客ID100番だった。B社の顧客ID31番のかたはA社のデータベースには存在しなかった。」という一致を見つけていくしかありません。この「一致を見つけて、人間をまとめる作業」こそが「名寄せ」作業なのです。
名寄せには「キー」がある
この名寄せ作業は大変です。また「完璧な名寄せ作業」はほぼ不可能といっていいでしょう。世の中には同姓同名の方々もたくさんいらっしゃいます。また転勤などで住所を頻繁に変更される方も多いからです。加えて次回説明する「表記ゆれ」も大きな問題です。実は2007年ごろから問題になっている「年金記録問題」もこの名寄せ作業の難しさが、問題の解決をより困難にする一旦となっています。そんな名寄せ作業の概略を以下に説明します。
Note:
世の中には「名寄せツール」というソフトウェアが存在します。以下に説明する概略をより複雑かつ緻密に処理することによって名寄せ精度の向上を実現するソフトウェアです。
名寄せ作業は、データの中に含まれている項目を「キー」として使用します。このキーが「どのぐらい同じか?」を比較して「XさんとZさんは同じ人である」という判定を行っています。
[名寄せの判定として使われる一般的なキー]
- 氏名
- ふりがな
- 生年月日
- 性別
- 住所
- 自宅電話番号
- 携帯電話番号
- emailアドレス
次回はこれらのキーを使って名寄せ作業を行っていく上で問題となる「表記ゆれ」について説明します。
【連載記事:名寄せとは?】
f t p h l