f:id:graffity:20180730134247j:plain

ARは視覚の代替、拡張にあります。ベースとなる技術である、Computer Visionは、2012年のDeepLearningのブレイクスルーにより、毎年たくさんのComputerVisionの研究が発表されることから始まりました。初めはクラウド上で動くものでしかなかったこのテクノロジーは、今やスマホでサクサク動く時代へ。 AR普及するのに欠かせない、ComputerVisionテクノロジーを今回はピックアップしたいなと思います。

INDEX

顔認識
画像分類
物体識別
物体追跡
セマンティックセグメンテーション
インスタンスセグメンテーション
姿勢認識

1. 顔認識

f:id:graffity:20180730132726j:plain

顔認識は、顔から特徴点を抽出するテクノロジーです。現在利用されているARのユースケースでは、ダントツであるFaceFilterがそうですね。近年急速に普及している、Avatarも同様なテクノロジーを利用しています。

iPhoneXではdepthセンサーより、より細かく特徴点を把握できるので、Avatarの表現をよりリアルにすることができました。これが画像ベースでできると非常に面白い世界になりそうですね。

以下のMeMojiでは、なんとDisneyのキャラクターになりきっています。子供に人気が出そうなユースケースですね。

www.youtube.com

2. 画像分類

f:id:graffity:20180729215049j:plain

画像分類は、画像のラベルを予測するテクノロジーです。

画像分類の学習から予測までのステップは以下です。

訓練データとして、N個の画像とそれぞれの画像にK個のラベルを用意します。
DeepLearningでN個のインプットデータと、K個のラベルを学習させます。
ある画像を入れた時に、K個のどれに分類されるかを予測します。

シンプルなステップですが、画像を正確に予測していくことが難しい。より具体的に分類したければしたいほど難しいです。大量なデータとそのラベル、そしてAIエンジニアの力量が必要な分野です。

実際にPiterestでは、大量なデータをオンラインで集め、画像分類を使った画像検索を提供しています。 f:id:graffity:20180729215823j:plain

どのような画像検索かは、こちらのDemoより！

f:id:graffity:20180730134026g:plain

3. 物体識別

f:id:graffity:20180729220342j:plain

物体認識とは、画像の物体それぞれに対して、ラベルとその領域を予測するテクノロジーです。

自動運転の要素技術であることから、大手IT企業が研究開発を進め、リアルタイムに精度高く識別ができています。

You Only Look Once (YOLO)
Single Shot MultiBox Detector (SSD)
Region-Based Fully Convolutional Networks

あたりで検索するとモデルにたどり着けると思います。

以下はYOLOを使った物体識別です。

www.youtube.com

4. 物体追跡

物体追跡とは、あるシーンの中の物体がどのように動いたかトラッキングし、今後どのように動くかを予測するテクノロジーです。

こちらも自動運転に必要な要素技術なので、TeslaやUberなどが研究開発をしており業界をリードしています。

fully-convolutional network tracker というモデルが有名です。デモはこちらから。

www.youtube.com

5. セマンティックセグメンテーション

f:id:graffity:20180729221920j:plain

セマンティックセグメンテーションとは、画像のそれぞれのピクセルが、車、自転車などの概念に属するのかを予測できるテクノロジーです。上記の写真だと、人・道・車・木・歩道などを識別することがピクセル単位でできています。物体識別とは違って、ピクセル単位で予測できることが一番大きな特徴になります。

以下が有名なモデルになります。 * Dilated Convolutions * DeepLa * RefineNet.

Tensorflowで作った、Dilated ConvolutionsのDemoがこちらになります。 www.youtube.com

6. インスタンスセグメンテーション

f:id:graffity:20180730131032j:plain

インスタンスセグメンテーションは、セマンティックセグメンテーションをさらに深め、上記の画像のように、車や人をさらに識別してセグメンテーションするテクノロジーです。

Mask R-CNNあたりが有名ですね。以下がデモになります。

www.youtube.com

7. 姿勢認識

姿勢認識は、画像から人の体を認識し、ボーンを予測するテクノロジーです。この技術は、Vtuberに使われている技術ですね。

OpenPoseというモデルが有名で、デモはこちらから。

www.youtube.com

このボーンを予測するという文脈では、ジェスチャー認識もあります。 2018年のF8で、Facebookが研究している発表していました。こちらもスマホARで使える未来は近いですね。

f:id:graffity:20180730132145p:plain

8. まとめ

「ARイノベーションを牽引するComputerVision7選」ということで、ワクワクする未来感のあるテクノロジーと出会えたらに嬉しいです。個人的にもテクノロジーが好きなので、率先して深くリサーチしていければと思います。まだまだ公には出ていないCV技術はあると思いますので、定期的に発信していければと思います。

このようなCV技術を使い、早く人類がARの未来に近づけるよう頑張っていきます。

Graffity Tech Blog

Graffity株式会社のエンジニアブログ

ARイノベーションを牽引するComputerVision7選

INDEX

1. 顔認識

2. 画像分類

3. 物体識別

4. 物体追跡

5. セマンティックセグメンテーション

6. インスタンスセグメンテーション

7. 姿勢認識

8. まとめ

参考記事