How Google’s using big data and machine-learning to aid drug discovery
From answering heath-related questions in its search results to a fitness data platform for developers, Google is becoming increasingly ingrained in the fabric of our daily health-and-wellbeing habits. But behind the scenes, the Internet giant is also working to expedite the discovery of drugs that could prove vital to finding cures for many human ills.
ビッグデータと機械学習を薬の発見に利用するGoogleの方法
検索結果に表示される健康関連の質問に対して回答するといったことから、開発者向けのフィットネスデータ・プラットフォームにいたるまで、わたしたちの日常における健康や福利の習慣にGoogleが深く入り込んできている。しかし、このインターネットの巨人はこの裏で、人間の多数の病に対する治療法を見つける上で不可欠となり得る、薬の発見をも進めているのだ。
Working with Stanford University’s Pande Lab, Google Research has introduced a paper called “Massively Multitask Networks for Drug Discovery” [PDF], which looks at how using data from a myriad of different sources can better determine which chemical compounds will serve as “effective drug treatments for a variety of diseases.”
Google ResearchがStanford UniversityのPande Labと協力し、『Massively Multitask Networks for Drug Discovery』[PDF]という論文を発表した。「多種多様な病気に有効な薬物療法」として機能を果たす化合物は何か、ということに関してよりよい決定を下すには、無数のさまざまな情報源のデータの利用が役立つと考察している。
While the paper itself doesn’t reveal any major medical breakthroughs, it does point to how deep learning can be used to crunch huge data-sets and accelerate drug discovery. Deep learning is a system that involves training systems called artificial neural networks on lots of information derived from key data inputs, and then introducing new information to the mix. You might want to check out our guide to five emerging deep learning startups to watch in 2015.
論文自体が医療的な大発見を明らかにしているわけではないが、膨大なデータセットを高速処理したり、薬剤の発見を加速させたりするためにディープラーニング(深層学習)を使う方法を提示している。入力した重要データから導き出した大量の情報を複数の人工ニューラルネットワーク(人工神経回路網)という組織網が網羅しているが、ディープラーニングとはその組織網を教育し、その組織網の混合に新情報を導入するシステムである。弊社では、2015年に注目すべき5つのディープラーニング・スタートアップを記事で紹介しているので、そちらをご覧になってはいかがだろう。
“One encouraging conclusion from this work is that our models are able to utilize data from many different experiments to increase prediction accuracy across many diseases,” explained the multi-authored Google Research blog post. “To our knowledge, this is the first time the effect of adding additional data has been quantified in this domain, and our results suggest that even more data could improve performance even further.”
Google said it worked at a scale “18x larger than previous work,” and tapped a total of 37.8 million data points across 200+ individual biological processes.
「この研究から得られる心強い結果のひとつは、我々のモデルは多数の異なる実験からのデータを活用し、多くの疾病を横断して予測精度を高めることができる点です」と複数の著者によって書かれたGoogle Researchのブログ記事で説明されている。「我々が知る限り、この分野でデータを追加することの効果が定量化されたのは、これが初めてです。この結果は、データが多ければ多いほど、さらに良い結果が生み出される可能性を示唆しています」
Googleは、この研究は「以前の研究より18倍大きい」規模で行われたと述べ、200を超える個人の生物学的プロセスを通じて、合計3,780万点のデータを取り出したとしている。
“Because of our large scale, we were able to carefully probe the sensitivity of these models to a variety of changes in model structure and input data,” Google said. “In the paper, we examine not just the performance of the model but why it performs well and what we can expect for similar models in the future.”
This feeds into a bigger trend we’ve seen of late, with many of the big tech companies investing resources in deep learning. Last year, Twitter, Google, and Yahoo all acquired deep learning startups, while Facebook and Baidu made significant hires in this realm. Netflix and Spotify carried out work in this area too.
「研究の規模が大きかったため、我々はそれらのモデルについて、モデル構造や入力データを様々に変化させた場合の感度を注意深く精査することができました」とGoogleは述べる。「論文では、モデルのパフォーマンスを調査するだけではなく、なぜそれがうまく働くのか、将来同じようなモデルがあった場合、何が期待できるのかについても分析しました」
今回の件は、ここ最近の大きな流れを後押しする。大手テック系企業の多くがディープラーニングに資源を投資しているという流れだ。Twitter、Google、Yahooは昨年、それぞれディープラーニング関連のスタートアップを買収し、FacebookとBaiduはこの分野に多くの人を雇った。NetflixとSpotifyもまた、この分野に取り組んだ。
At VentureBeat’s HealthBeat conference last October, we looked at how the future of health care could lean heavily on robotics, analytics, and artificial intelligence (AI). Feeding into this diagnostic element is treatment discovery, which is increasingly turning to AI, big data, and deep learning too, as we’re seeing with this latest research from Google and Stanford.
By automating and improving predictive techniques, this should not only speed up the drug discovery process but cut the costs. From the Google report:
VentureBeatが主催した昨年10月のHealthBeatカンファレンスで、我々はヘルスケアが将来、ロボット工学、アナリティクス、人工知能(AI)にどれほど多く頼ることになるかについて考察した。GoogleとStanfordによるこの最新の研究を見てもわかるように、診断的要素から治療法を発見するにあたり、ますます人工知能やビッグデータ、ディープラーニングが注目されてきている。
このことは自動化と予測技術の改善により、医薬品の発見プロセスをスピードアップするだけでなくコストも削減するだろう。Googleのレポートは以下のように述べている。
Discovering new treatments for human diseases is an immensely complicated challenge. Prospective drugs must attack the source of an illness, but must do so while satisfying restrictive metabolic and toxicity constraints. Traditionally, drug discovery is an extended process that takes years to move from start to finish, with high rates of failure along the way.
In short, testing millions of compounds can take a long time, so anything that can increase the chances of striking a successful combination can only be a good thing. This is where machine learning at scale may help.
人間の病気に対して新しい治療法を発見することは、非常に複雑な課題だ。医薬品として有望な物質は病気の元を攻撃しなければならないのはもちろん、代謝や毒性に対する制限も同時に満たす必要がある。従来から医薬品の発見は、始めから終わりまで何年もかかるような、長い期間を要するプロセスだ。また、その途中で失敗だとわかる率も高い。
要するに、何百万もの化合物をテストするには長い時間がかかる。だから、うまくいく組み合わせに当たる機会が増えれば増えるほどいいのだ。大規模な機械学習が活躍できる可能性があるのは、そこである。