Why machine vision is the next frontier for AI
The buzz around artificial intelligence, or AI, has been growing strong over the past year. We’ve never been closer to unlocking the benefits of this technology. 2016 will see new kinds of AI-powered devices as we make progress on one of the most difficult challenges in AI: getting our devices to understand what they are seeing.
AIにとってマシーンビジョンが次のフロンティアである理由
人工知能(AI)をめぐる話題はここ数年増加の一途をたどっている。この技術のメリットがこれほど広く知られるようになったことはかつてない。2016年は、AIで最も難しい課題の1つ、すなわちデバイスが見ているものを理解させるという課題への対処が進展していくにつれ、新たな種類のAIで動くデバイスを目にすることになろう。
Why would a machine need to see? Vision is a primary sense and one of the main mediums in which we live our lives. In order for machines to be able to relate to humans and provide the support we need, it is imperative they can observe and behave in the visual realm. This can be in the form of a small camera that helps a blind person “see” and contextualize the world around them or a home surveillance system that can correctly identify the difference between a stray cat, moving tree branches outside, and a burglar.
なぜマシーンは見る必要があるのだろうか?視覚は重要な感覚で、私たちが生きていくのに欠かせない要素の1つだ。マシーンが人間と関わり、必要なサポートができるようにするためには、視覚領域でものを見て行動できなくてはならない。これは例えば、目の見えない人が「見える」よう手助けをして、その人の周りの文脈を提供できるような小さなカメラの形態を取るか、 野良猫や戸外で揺れ動く木の枝と強盗の違いを正しく見分けられる自宅監視システムのようなものとなるだろう。
As devices play a progressively integral part in our daily lives, we have seen an increasing number of applications fail without adequate visual capabilities, including a myriad of midair drone collisions and robot vacuums that “eat” things they shouldn’t.
デバイスが私たちの生活に取り入れられるようになるにつれて、視覚機能が不十分なために応用を失敗したケースをたくさん見てきた。例えば空中でのドローンの衝突や、吸い込んではいけないものを吸い込むロボット掃除機などである。
Machine vision, a rapidly growing branch of AI that aims to give machines sight comparable to our own, has made massive strides over the past few years thanks to researchers applying specialized neural networks to help machines identify and understand images from the real world. From that starting point in 2012, computers are now capable of doing everything from identifying cats on the Internet to recognizing specific faces in a sea of photos, but there is still a ways to go. Today, we’re seeing machine vision leave the data center and be applied to everything from autonomous drones to sorting our food.
AIで成長著しいマシーンビジョンは、私たちと同じような視覚をマシーンに与えようとするものだが、特別な神経ネットワークを応用してマシーンが現実世界からのイメージを特定・理解できるようにする研究のおかげでここ数年、かなりの進歩を見せてきた。2012年から始まってコンピュータは今や、インターネット上の猫を見分けることから、たくさんの画像の中から特定の顔を認識することまで、あらゆることができるようになっているが、まだまだとも言える。現在、マシーンビジョンはデータセンターから離れ、自動操縦ドローンや食品の仕分けまであらゆる用途に応用されている。
A common analogy to understanding machine vision versus our own can be found when comparing the flight of birds to that of airplanes. Both will ultimately rely on fundamental physics (e.g. Bernoulli’s Principle) to help lift them into the air, but that doesn’t mean a plane will flap its wings to fly. Just because people and machines may see the same things and the way those images are interpreted may even have some commonalties, the final results can still be vastly different.
マシーンビジョンと私たちの視覚を理解するアナロジーとして、鳥と航空機の飛行を比較してみると良い。どちらも最終的には空中に持ち上がるという基本的な物理学に左右されるが (例えばベルヌーイの法則など)、それは飛行機が翼を上げ下げすることを意味しない。 人とマシーンが同じものを見て、その解釈にも一定の共通性があるという理由があっても、最終的な結果は大きく違ってくる可能性がある。
While basic image classification has become far easier, when it comes to extracting meaning or information from abstract scenes, machines face a whole new set of problems. Optical illusions are a great example of how far machine vision still has to go.
Everyone is probably familiar with the classic illusion of two silhouettes facing one another. When a person looks at this image, they aren’t limited to just seeing abstract shapes. Their brain inserts further context, allowing them to identify multiple parts of the image, seeing two faces or a vase, all from the same image.
基本的なイメージの分類は簡単にできるようになった一方で、抽象的な状況から意味や情報を抽出する作業となると、マシーンはたちどころに困難に直面する。視覚上の幻覚があるところを見ると、マシーンビジョンにはまだまだ課題が多い。
2つのシルエットがお互い向き合うという昔からある幻覚には馴染みがあることだろう。このイメージを見るとき、抽象的な形状を捉えられないだけにとどまらない。その人の脳は別のコンテキストを挿入して、イメージの複数の部分を認識できるよう、同一イメージから2つの顔あるいは壺状のものを見せるのだ。
When we run this same image through a classifier (you can find several free ones on the Internet), we quickly realize how hard this is for a machine to understand. A basic classifier doesn’t see two faces or a vase, instead, it sees things like a hatchet, hook, bulletproof vest, and even an acoustic guitar. While the system is admittedly uncertain any of those things are actually in the image, it shows just how challenging this can become.
これと同じイメージを分類器(インターネット上で無料のものを見つけられる)を使って実行してみると、マシーンが理解をするというのはいかに難しいことかを即座に実感できる。ベーシックな分類器は2つの顔か壺を認識できない。その代わり、これを手斧、フック、防弾チョッキ、さらにはアコースティックギターに見てしまう。見たところこのシステムは不確実だが、こうしたものは実際にイメージの中にあるため、ここにはいかに難しい課題があるかを示している。
This problem becomes even more difficult if we look at something more complicated, like a painting from Beverly Doolittle. While everyone who sees this image may not be able to spot every face on the canvas, they will almost instantly see there is more to the picture than meets the eye.
Running this image through the same classifier, our results run the gamut from something like a valley or a stone wall to the completely off-base Grifola Frondosa (a type of mushroom) or an African chameleon. While the classifier can understand the general sense of the image, it fails to see the hidden faces within the picture.
この実験をさらに複雑なもの、例えばBeverly Doolittleの絵などを見ることで実施してみると、問題はさらに困難となる。このイメージを見る人は誰であれ、カンバスに描かれたそれぞれの顔を見分けることはできないかもしれず、その絵に対して、実際目にしているものよりもさらに多くのものを即座に見てしまうだろう。
先ほどと同じ分類器を使ってイメージを見ると、渓谷や石の壁といったようなものから、完全に型崩れしたマイタケ(キノコの一種)やアフリカにいるカメレオンに至るまで、実に幅広いものが見えるという結果が得られた。分類器はイメージの全体的な感覚は捉えられるものの、絵の中に隠された顔を見分けることはできないのだ。
To understand why this is such a challenge, you need to consider why vision is so complex. Just like these images, the world is a messy place. Navigating the world isn’t as simple as building an algorithm to parse through data, it requires experience and understanding of real situations that allow us to act accordingly.
Robots and drones face a myriad of these obstacles that may be out of the norm, and figuring out how to overcome these challenges is a priority for those looking to capitalize on the AI revolution.
どうしてこのような問題が起きるかを理解するためには、視覚が複雑である理由を考えなくてはならない。この3つのイメージのように世界は乱雑ともいえる場所である。世界をナビゲートするのはデータで説明するためのアルゴリズムを構築するほど単純なものではなく、結果をもとに行動できるよう、現実の状況の経験と理解が求められる。
ロボットやドローンは数多くの想定外の障害に直面するが、AI革命でキャピタライズしようとしている人は、こうした問題の克服方法を理解することが最優先の課題となる。
With the continued adoption of technologies like neural networks and specialized machine vision hardware, we are rapidly closing the gap between human and machine vision. One day soon, we may even start to see robots with visual capabilities going above and beyond our own, enabling them to carry out numerous complex tasks and operate completely autonomously within our society.
Remi El-Ouazzane is CEO of Movidius, a startup combining algorithms with custom hardware to provide visual intelligence to connected devices.
神経ネットワークや特別なマシーンビジョンハードウェアといった技術の採用が続く中、人間とマシーンの視覚の間にあるギャップは急速に縮まりつつある。近い将来、視覚機能を備えたロボットが私たち人間の能力を超え、多くの複雑なタスクをこなし、私たちの社会の中で全自動でオペレーションを行う日が来るかもしれない。
Remi El-Ouazzane氏はMovidius社という、アルゴリズムとカスタマイズされたハードウェアを組み合わせてコネクテッドデバイスにビジュアルインテリジェンスを提供するスタートアップのCEOである。