『FigureEight』研究の可能性を広げるAIプラットフォーム〜LabTech海外事例最前線〜

 機械学習アルゴリズムを構築するためには、大量の高品質なデータが欠かせない。しかし、タグ付けされた画像や自然言語処理のための対訳コーパスのようなトレーニングデータの作成は、人手を要する地道なものだ。そこで役に立つのがHuman-in-the-Loop AIプラットフォーム、FigureEightだ。

人の手なくして機械学習は成り立たない

 画像認識に自然言語処理、ディープラーニングが話題になり、第3のAIブーム真っ只中だが、構築過程で人間の判断や手作業を必要としないアルゴリズムは存在しない。特定の作業を自動化するシステムを作ったとしても、どこかのポイントでそのシステムの精度を人間がチェックする必要がある。

 人間のような汎用性のある強いAIが存在しない限り、AI研究、AI技術を用いた研究、AIを搭載したサービスの開発、いずれにおいても、目的の課題に特化したデータセットと学習が必要だ。

 

世界中の人間と協力しよう

 データに注釈を付けたり、ラベルを貼ったりするプロセスを“Human-in-the-Loop”(HITL)と呼ぶ。FigureEightは、大量のトレーニングデータを作成し、人間の目でモデルを調整し、さらにアルゴリズムによる出力を検証するというHITL AIのプラットフォームであり、テキスト分類、コンピュータビジョンアルゴリズム、情報検索モデルなどあらゆるモデルの改善に役立つ。


出典:https://www.figure-eight.com/resources/human-in-the-loop/

「人間とAIがお互いの強みを生かしながらいかにして課題に取り組むか」これは、現在私たちの社会が直面している大きなテーマだ。FigureEightは、データにラベルを付けるために人間の知能を使用するというだけでなく、機械学習とヒューマンインテリジェンスを組み合わせたテクノロジープラットフォームとしての印象をよりよく反映するため、2018年4月に、これまで“CrowdFlower”だったブランド名を“FigureEight”に変更した。

 さらにFigureEightはリブランディングと同時に、コンピュータビジョン・ヒューマンコンピュータインタラクション・自然言語処理の3つの分野に力を入れ、注釈プロセスの精度と処理能力の向上に成功している。

 FigureEightのAIプラットフォームでは、複雑ではないが、膨大な量を処理しようと思うと、一人でやるには時間がかかりすぎる作業をアウトソースするのに適している。たとえば、感情分析、分類のためのトレーニングデータ作成コンテンツの管理、ビジネスリストの確認(データベースの確認)、データの収集とデータベースの強化、検索の関連性評価、画像転写といったものだ。

 タスクを細分化し、アウトソースすることで、低コストかつ短時間で大量のデータを用意することができるというのは、膨大な量のデータを扱う研究者にとって、大きなメリットと言えるだろう。

FigureEightをはじめよう

 いきなりFigureEightを使おうと思っても、何から始めたらよいかわからない。そんな人のために、ビデオチュートリアルが用意されている。さっそくサンプルジョブを作成して、動画を見ながら使い方をマスターしよう。


”Introduction to Figure Eight”

 数分程度の各レッスン動画では、データの追加方法からjob(FigureEightでは、委託する作業を”job”と呼ぶ)の作成と設定、実施中の管理と、結果のチェックまでの流れを見ることができる。レッスンの途中では、サンプルデータをダウンロードすることができ、自分の作りたいjobのイメージを膨らませることができる。

 アルゴリズムはデータから学ぶ。優れたモデルを構築するためにはトレーニングデータが優れていなければならない。クラウドソーシングでデータを集めるとなると、コントリビューターの語学力や理解度に不安を感じるかもしれない。

 FigureEightでは、コントリビューターはこれまでの作業実績でレベル1からレベル3までに分けられており、設定からjobを公開する対象を選ぶことができる。さらに、テスト質問を用意することで、jobの開始時とjobの最中に回答の正確さをチェックすることができ、回答の精度が低いコントリビューターは除外されるようになっている。

 報酬額は、1ページに表示する行数と、1ページあたりに支払う金額を設定することで定められる。設定ページで、job全体でかかる費用の計算をしながら単価を決めるとよい。アカウントに口座情報を登録して資金を追加すれば、報酬はFigureEightを通してコントリビューターに自動的に支払われることになる。

日本での活用例

 FigureEightの旧ブランド名であるCrowd Flowerは、心理研究におけるデータ収集や、画像とテキストを使った感情分類、マーケティングにおける提案など、すでに様々な分野で実際に使われている。

FigureEightは世界中にコントリビューターを持っている。国内にも機械学習用のクラウドソーシングサービスを提供する企業はあるが、FigreEightのような世界規模のプラットフォームを利用することは、集めるデータの偏りを小さくできたり、日本にいながら海外からの多様な情報を集めることができたりとメリットは大きい。

研究の効率化

 AIの応用が多方面でなされ、日々新しい論文が発表されていく今日、世界のスピードについていけるかどうかは、いかに効率よく研究を進められるかにかかっている。今後、ますます FigureEightのようなプラットフォームを上手に活用した、面白い研究が出てくることが期待される。

LabTech海外事例最前線

 研究の未来をデザインするメディアLab-Onが、研究を加速させる様々なLabTechを紹介する本連載「LabTech海外事例最前線」は毎月新しい調査を報告しています。バックナンバーはこちらから。

関連キーワード
ハウツーの関連記事
  • 『Emerald Cloud Lab』次世代の実験は全てが遠隔操作!〜LabTech海外事例最前線〜
  • 『ORCID』で実現する研究者のID管理 〜LabTech海外事例最前線〜
  • 『rescale』で加速する大規模シミュレーション研究〜LabTech海外事例最前線〜
  • オンラインTeXエディタ"Overleaf"で共同研究をスムーズに
  • 研究者向けSNS”Academia.edu”は世界の研究を加速する
  • 『FigureEight』研究の可能性を広げるAIプラットフォーム〜LabTech海外事例最前線〜
おすすめの記事