名寄せとは?(2)~表記ゆれについて~|データ分析用語を解説

AUTHOR :   ギックス

本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1)

名寄せの大敵「表記ゆれ」

今回は「名寄せ(なよせ)」という言葉に関する説明の第二回です。前回「名寄せとは複数の個人データの中から名前や電話番号などの情報を手がかりに”同じ人”をまとめる作業です」と説明させていただきました。今回は名寄せ作業を行っていく上で問題となる「表記ゆれ」について説明します。参考までに前回掲載した「名寄せ作業に利用されるキー」を再掲します。
[名寄せの判定として使われる一般的なキー]

  1. 氏名
  2. ふりがな
  3. 生年月日
  4. 性別
  5. 住所
  6. 自宅電話番号
  7. 携帯電話番号
  8. emailアドレス

表記ゆれとは?

前回「名寄せ作業は大変です」と申し上げましたがその一因が「表記ゆれ」という現象です。「表記ゆれ」とは「同じモノを表現しているのに文字が違う」という現象です。この現象が「単純にコンピュータ上で文字の一致を行えば名寄せができる」という結果を阻んでいるのです。
[表記ゆれの例]
1.氏名
代表的な例が「髙島さん」と「高島さん」です。前者の「髙」は一昔前のシステムでは正常に処理されない文字として有名でした。髙島さんご本人もそのことをよくお分かりでご自分の氏名を記述される際に普通の「高」の文字をお使いになる場合も多かったのです。他には「斉(齋)藤さん」「渡辺(邊)さん」などの表記ゆれも頻繁に発生します。
2.ふりがな
これは氏名にくらべたら表記ゆれは少ないですが、たとえばタレントの中川翔子さんのご本名は「しようこ」さんでいらっしゃいます。こういった例も表記ゆれを起こす一因であり「第三者が情報を転記する場合」などに発生しうることです。
3.生年月日
これは表記のゆれが少ない項目です。和暦・西暦の記述ゆれは一般的ですが、プログラム上で変換ルールに則った変換処理をすることで正確に変換できます。この「表記ゆれが少ない」そして「後から変更される確率が非常に低い」ことから、生年月日は名寄せ処理においては非常に強力なキーとなります。
4.性別
これも生年月日、表記のゆれが少ない項目です。
5.住所
住所!住所!住所!これが大敵です。弊社ギックスの住所は「東京都港区三田一丁目4番28号」ですが、

  • 記述方式が多岐にわたり→「一丁目4番28号」や「1の4の28」
  • 上位の住所が省略されることも多く→港区は東京23区の他、名古屋市と大阪市にも存在します。中央区にいたっては東京23区ほか9市に存在します
  • 名前と違って誤記入も起こしやすく
  • 変則的な上記方法も多い→例:京都における「上ル」「下ル」

代表的な表記ゆれだけでも上記の例が挙がってきます。まさに名寄せ泣かせともいえる項目です。ちなみにみなさんがインターネット上のサイトに住所を入力される時、住所の入力欄が分割されていて入力がわずらわしかった経験はありませんか?実はこれには「住所の入力欄を分割することによって表記のゆれ幅を小さくして正確な住所を把握したい」というサイト運営者の意図がこめられているのです。
6.自宅電話番号
7.携帯電話番号
これも生年月日、表記のゆれが少ない項目です。
8.emailアドレス
これが最も表記ゆれの小さい項目をいえます。emailアドレスは書式が決まっており違反するものはemailアドレスとして使用できないからです。表記ゆれという意味ではありがたい項目ですが一人のかたが複数のemailアドレスを持つことも多いので「同じ人をまとめる」能力は低い名寄せキーではあります。(同じemailアドレスは同じ人である事がほとんどなので、「同じ人です!と判別する」能力は高い名寄せキーです。)
次回はこれらのキーを使って名寄せ作業を行っていく上での難しさの一端を説明します。

【連載記事:名寄せとは?】
  1. 「同じ人」をまとめる作業
  2. 表記ゆれについて (本稿)
  3. 代表的なパターン

データ分析用語:索引

SERVICE