2021.11.30

画像認識とは

今回の記事では、画像認識について解説していきます。これまで画像認識に触れることのなかった読者の方でも、最新の活用事例などを通して画像認識の理解を深めていけるよう、丁寧に説明していきます。

画像認識技術が創り出す新しい社会の形

近年、急成長を遂げているAI技術が様々な領域で、社会の仕組みをより良い方向へと変えていっています。本記事では、その中でも画像認識技術にスポットを当てて解説していきます。

画像認識という技術は、人間の視覚をイメージすると理解しやすくなっています。
人間は目を通じて、様々な情報を得ています。例えば公園を歩いている時、私達の目には、木や遊具、人、看板などなど、様々なものが映っています。この中から目的に応じて必要な情報に注目することで、人は自分のやりたいことを実現しています。遊具で遊びたいと思っている人が、すれ違う人一人一人に反応してしまっていてはなかなか遊具にたどり着くことができません。目的とする遊具を見つけ、そこにつながる道に注意を向けているからこそ、遊具に辿り着けるわけです。このように定められた目的の達成にとって必要な画像情報を取捨選択できるということが、画像認識技術の重要な点となっています。

人間の行動を画像認識が大きく変えようとしている代表的な例に、運転があります。運転という行為において、人間が必要としている情報は何でしょうか?
走行可能な道路はもちろん、他の車や歩行者、さらには道路標識などが考えられるでしょう。従ってこれらの情報をAIが完全に収集することができれば、自動運転の実現は大きく近づきます。
そして近年の技術発展により、こちらの動画で紹介されているように、他の車の認識や歩行者の認識などが非常に高い制度で行うことができるようになってきており、近い未来に自動運転が我々の日常に溶け込んでいても不思議ではありません。


画像認識とは

大まかな画像認識の特徴を掴んでいただいたところで、次は画像認識技術そのものについて、少し掘り下げて解説していきます。

現在主流となっているAI技術の一つとしての画像認識技術では、主に物体認識、顔認識、文字認識の三つの対象を主な認識対象として発達しています。
認識対象がどうであれ、一般的な画像認識は以下のようなフローで行われます。
最初の画像入力の段階では、AIに対して何らかのデータが与えられます。これは人間が手動で与える場合もあれば、カメラなどを通じて自動的に入手される場合もあります。

二番目の画像処理の段階では、画像を細かくAIが精査し、画像データを特徴量と呼ばれる数値に分解していきます。この特徴量という概念は、AIが与えられたデータを認識するための言葉のようなもので、通常人間には理解することが困難なものとなっています。人間に理解可能なレベルで例えるなら、顔認識を例とすると、眉毛の数、口の数などのようなものになります。

そして最後に画像認識の段階では、画像処理で得られた特徴量データを、AIの中に蓄積されたデータに照合し、その画像が何である可能性が高いかを出力します。


画像認識の歴史

画像認識の歴史として、大きく三つの源流に分けて考えると分かりやすいです。
まず一つ目の最も古い時代からの画像認識の源流としては、20世紀中盤頃から発達し始めたパターン認識技術として画像認識が用いられた時代あります。この頃は手書き文字認識など、比較的簡単な文字などから、特徴量を抽出し、それにより画像を認識するという試みがなされていました。
この頃に開発された画像認識技術の中で、現代も利用されている最も身近な例はバーコードです。バーとスペースだけで数字や文字を表現するこのシンプルな技術は、現代にまで受け継がれていることからも、画期的な発明であったと言えるでしょう。

次の時代の源流としては、20世紀後半頃からコンピュータビジョンとして画像認識が用いられた流れがあります。
この時代には、人工衛星画像の画像改善や、CT画像の解析が行われるようになり、さらには多視点画像を用いての3次元シーンの再構成などの研究もなされるようになりました。実務的にはあくまでも工場における外観検査など、製造業などでの活用にとどまっていました。

そして三つ目の時代の源流としては、現在の人工知能の一分野としての画像認識技術ということになります。機械学習技術などの情報処理技術の飛躍的な進展に伴い、画像認識技術も飛躍的な高まりを見せることとなりました。
次の章で、もう少しこの人工知能時代の画像認識について詳しく見ていきましょう。


AI時代の画像認識の仕組み

AI時代の画像認識では、畳み込みニューラルネットワーク(CNN)という技術がその発展を支えています。CNN以前には、画像認識技術では、空間的情報を無視した画像処理が行われており、結果として非効率な学習構造となっていたのですが、見事にこの欠点も克服し、画像処理の効率化に成功した技術であると言えます。

CNNという技術では、畳み込み層とプーリング層という二つの特徴的なレイヤーが組み込まれていることが特徴的です。
畳み込み層では複数のフィルターを通して学習が行われます。例えば縦方向のエッジに反応するフィルター、横方向のエッジに反応するフィルターなどです。

プーリング層では、基本的に学習は行われず対象領域を要約するような作業が行われます。その後の処理に必要な情報を厳選し、作業を効率化していくような役割を担っていると言えます。

このCNNという技術によって、画像認識分野でのA Iの性能は爆発的な高まりを見せました。


画像認識の活用事例

AI時代の画像認識の仕組みについて簡単に解説してきたところで、最後は様々な活用事例をご紹介します。
これまで説明してきた内容を頭に入れた上で、活用事例を見ていくことでより一層深い理解が得られるのではないでしょうか。

オンラインミーティングにおける顔認知

顔認知AIは、カメラでの人物トラッキングからセキュリティーなどこれまでも様々な事例が排出されてきています。
その中からご紹介するのは、コロナ禍でオンラインミーティングをする機会も増えてきたこの状況下で、画面上のスピーカーの顔をAIが自動で認識し、その人に紐づいたデータを提供してくれるサービスです。

接触機会がオンラインに限られてしまうことも多いからこそ、必要とされるAIサービスであると言えるでしょう。

医療における画像診断

医療においては、画像診断技術が発展してきています。
医療業界において、内視鏡やレントゲン写真などによって、人間の体内環境をデータ化することで可視化し、それに基づいて診断を行うということが広く行われてきました。データ化された情報に基づいて診断するという行為は、AIの得意分野そのものであり、現在、医療分野における画像診断が普及しつつあります。

こちらの画像では、AIが自動でCT画像を分析し、各臓器や部位のセグメンテーションを行い、それにより医療の効率化に寄与しています。

不良品検知

主に工場などで行われる不良品検知は、これまで人力によって行われることも多く、人的コストのかかる分野でした。
こちらの外観検査A Iでは、教師データとして外観を学習させることにより、不良品を検知することができるようになっています。
疲れ知らずのAIの強みをうまく活用した事例となっています。

アパレルにおけるフィッティング体験

次の事例は、ファッション業界での活用事例です。
この事例では、AIが人間の動きなどを自動で分析することで、バーチャルなフィッティング体験を創造しています。

コロナ禍で実際のフィッティングに心理的抵抗感を感じる方も増える中、AIがその課題解決に寄与する優れた事例と言えるのではないでしょうか。


まとめ

今回の記事では、画像認識の特徴や仕組み、実際の活用事例などをご紹介してきました。人間の行動に寄り添ったAIサービスには、今後も画像認識AIのさらなる発展が期待されることを体感いただけたでしょうか。

ぜひ今後とも画像認識を含めたさらなるAI技術の発展に興味を持っていっていただけたら幸いです。

この記事・サービスに関するお問い合わせはこちらから

EVENT & SEMINAR

イベント&セミナー

ご案内

FOR MORE INFO

資料ダウンロード

電通デジタルが提供するホワイトペーパーや調査資料をダウンロードいただけます

メールマガジン登録

電通デジタルのセミナー開催情報、最新ソリューション情報をお届けします

お問い合わせ

電通デジタルへの各種お問い合わせはこちらからどうぞ