課題は残るも、着実に進歩する顔認識技術

ジェフ・ヘクト

最高レベルのラボシステムは、人間とほぼ同等レベルの顔認識能力を備えるまでに進歩している。しかしその能力は、セキュリティや警察業務といった要件の厳しい分野への適用や、ソーシャルメディアでの広範な使用に耐えるだけの水準に達しているのだろうか。

私たちは、目にしたものを解釈して人間の顔を認識するように仕組まれた脳を生まれながらにして備えている。機械による顔認識は、光センサや赤外線センサによって収集されたデータに対するコンピュータ解析を拠り所とする。しかし、半世紀にもわたって取り組みが続けられているにもかかわらず、人間と同じように顔を認識する方法をいかにしてコンピュータに教えるかという問題は、未だ完全には解明されていない。
 顔認識は一見、パターン認識というシンプルな問題のように見えるかもしれないが、実際には顔は、コンピュータ認識に対して特に複雑な問題を呈する。顔は三次元であるため、二次元画像や検出器に現れる外観は、視野角、照明角度、照明の性質といった要因に依存する。また顔は、人間の表情によって変化する。笑っているとき、顔をしかめたとき、舌を出したときでは見え方が異なる。髪型、眼鏡、化粧、体重によっても外観は異なって見える。
 それでも顔を簡単に確認できることから、顔認識は生体認証において非常に魅力的な手段となっている。米連邦捜査局(FBI:Federal Bureau of Investigation)や米国土安全保障省(DHS:Department of Homeland Security)は、警察業務やセキュリティを目的とした顔認識システムを開発している。民間企業も、民間セキュリティシステムや、ソーシャルネットワーク上の写真のラベル付けを対象とした顔認識に取り組んでいる。Android搭載端末や米アップル社(Apple)製スマートフォンには、起動してカメラに顔を向けることによって端末のロックを解除できるアプリケーションが提供されており、紛失や盗難時に端末をロックできるようになっている。

公的用途と民間用途

警察機関は何年も前に、標準的なフォーマットで写真を撮影すれば顔が認識しやすいことに気が付いた。正面と横向きの顔写真が昔から変わらず警察で使用されるのは、そのためである。政府機関は、正式な本人確認用写真に対する厳格な標準フォーマットを定めており、眼鏡を外すこと、自然な表情をとること、カメラを直視することを求めている。眼鏡を外したことでカメラに焦点を合わせられなければ、指示に従っていないとみなされる可能性もあるが、このような標準的な写真が本人確認用に最適であると考えられている。
 FBIが10億ドルを投じて開発したNGI(Next Generation Identification:次世代認証)プログラムの顔認識に使用される写真リポジトリに含まれるのは、すべて標準フォーマットの犯罪者顔写真である。2012年2月に開始されたパイロットプログラムでは、警察機関によって提供された、およそ1300万枚もの正面向きの犯罪者顔写真からなるリポジトリが使用されている。同システムは、提示された写真をリポジトリの中の写真と電子的に比較し、コンピュータによって順位付けされた一致候補のリストを生成する。ここでの課題は、監視カメラやソーシャルメディアといった多様な情報源から収集された、標準フォーマットではない写真に対して、一致する候補を検索することである。順位付けは、警察が捜査で参考にするためのものであり、本人であることを証明するものではない。
 このパイロットプログラムの目標は、「顔認識プロセスを試験し、方針や処理の問題を解決し、プライバシー保護対策を確立し、ユーザの懸念に対処すること」だと、FBI高官のジェローム・ペンダー氏(Jerome Pender)は2012年、米上院司法小委員会に対して語っている(1)。提示された写真は、写真リポジトリには追加されなかった。その写真の中の人物は、はっきりと身元が確認されたわけではないためである。この慣行は、同システムがより大規模なデータベースを装備して稼働を開始する、2014年夏の終わりまで継続される予定である。
 DHS の BOSS(Biometric Optical Surveillance System:生体光学監視システム)は、群衆を録画したビデオの中に映る人々をコンピュータで本人確認するといった、さらに野心的な目標を掲げている(2)。しかし、確実な確認はきわめて困難な作業であり、群衆が写る写真は、視野角や照明を超える難題をもたらす。カメラは一般的に、群衆からかなり離れた場所に設置されており、個々の顔は低い解像度で録画される。また、人々は帽子やフードをかぶっていたり、サングラスをかけていたりする場合もある。
 民間の顔認識アプリケーションは一般的に要件が異なり、通常は写真ではなく人間を確認することが求められる。アクセス制御用の生体認証システムは、限られた数の人物を正確に認識することによって、それ以外のユーザにはアクセスを許可しないようにする。スマートフォンのロック解除では、1人の人物を高い信頼性で確認することが求められる。米マイクロソフト社(Microsoft)のKinectは、モーションセンサによってユーザの顔の3Dプロファイルを作製して、ゲームのプレーヤーを識別するため、正確さが極めて重要というわけではない。
 ソーシャルメディア上の顔認識は、人間ではなく写真を対象とする必要があるが、Facebookの友達ステータスといった画像以外のデータを利用して、写真に写っている可能性の高い人物の数を限定することができる。誤りがあっても、通常は重大な問題とはみなされないが、誤認識が決まりの悪い事態につながることはあり得る。

多様な技術

コンピュータによる二次元の顔認識ではまず、写真の中から顔を検出することが行われる。続いて図1に示すように、鼻の頭、目や口の端、あごの先といった主要な形状特徴の位置を特定してデジタル化する必要がある。この情報を解析することにより、コンピュータは写真が正面から撮影されたものであるかどうかを判断する。そうでない場合は、視野角を推定して、対象とする顔のデジタル表現においてその角度を補正する必要がある。その後、顔の形状特徴のデジタル化された位置を、犯罪者顔写真のように制御された条件下で撮影された身元確認済みの顔写真ライブラリ内の写真と比較する。

図1

図1 顔の主要ポイントが示されたアル・カポネ(Al Capone)の古い顔写真(出典:米司法省およびウィキメディア[Wikimedia])。顔認識は、目と口の両端、鼻と口の先端、あごと眉毛上の点といった主要ポイントの識別に基づいている。これらの識別ポイントの中には、広く使用されるものもあれば、特定のアルゴリズムにおいてのみ使用されるものもある。3Dセンサを利用すれば、顔に対する同様のマッピングを三次元で行うことができる。

(もっと読む場合は出典元へ)
出典元
https://ex-press.jp/wp-content/uploads/2014/11/PF_LFWJ2014_11-11.pdf