DETRと呼ばれる手法で画像から物体を検知するAIを実装した。
画像をAIに渡すと、物体を枠で囲んで名前とともに教えてくれるものだ。

DETRはCNNなどの画像認識のニューラルネットワークと組み合わせて構成されている。
特徴はその内部にTransformerという機能が入っていることだ。
Transformerを使うと、「画像のどの部分に注目すべきか」を動的に導くことができる。

例えば「うさぎの画像」で考えてみた時に、Transformerはフォーカスが当たっていない背景を無視し、
フォーカスの当たっている前面にいる物体(ここではうさぎのこと)に注目するようになる。

そうやって、画像認識のニューラルネットワークで得た画像の特徴を使って、さらにどの部分が大切かを計算する。
その結果、精度の高い物体検知ができるようになっている。

しかし、実装してしばらく運用していてわかったことは、
同じ物体が少し被っている場合や、物体の前に何か障害物があり、
一部分が隠れている場合など、上手く検知してくれないことがある。
また、検知した物体が何かを間違えることもよくある。
猫や犬など身近な存在は間違えないが、レッサーパンダとかになるとダメ。

この辺りはまた課題として改善していこうと思う。

Contact
AI に関するお問い合わせは、当サイトのContactページのフォームよりお問い合わせください。