クラウド名刺管理サービス「Sansan」や無料の名刺管理アプリ「Eight」を提供するSansan株式会社(サンサン、東京・渋谷)が総額42億円の大型資金調達を行ったとして、IT業界中心に話題がもちきりだ。

そんなSansan株式会社が、7月29日、学生向けの「Kaggle」勉強会「Kaggle Student Meetup by Sansan」を開催。データ解析周辺の研究をしている修士・博士の学生を対象に、東京と京都の2カ所の会場をWeb中継でつなぎ、約100名が参加した。

Kaggleユーザー53万6000人(2016年5月時点)のうち、世界で94人、日本人では4人しかいないKaggle Grandmaster保有者であるSansanメンバーのプレゼンをはじめ、国際的なデータ解析コンペティションで入賞経験のあるメンバーもコンペティションでのアプローチやデータ解析のテクニックについて講演した。熱気あふれる当日の模様をレポートする。

Kaggleとは?

Kaggleとは、一言で言うとデータサイエンティストがデータ解析の能力を切磋琢磨し合うプラットフォームだ。企業や研究者がコンペ形式で課題を提示し、与えられたDatasetsに対してより高い正答率(Score)を競い合う。提出されたモデルの予測精度に基づき採点・ランキング付けされる仕組みで、今年4月には賞金総額100万ドルのコンペ も開催された。

Sansanで活躍するデータサイエンティスト達

そんな世界中のデータサイエンティストが参加するデータ解析コンペティションのプラットフォーム「Kaggle」の学生向け勉強会である「Kaggle Student Meetup by Sansan」。

最初のプレゼンターはKaggle Expertの中野 良則氏だ。大学では金融工学・数理ファイナンスを学び、 金融業界でシステム開発やモデル構築に携わってきたというが、株価予測をすべくデータ解析の世界に飛び込んだ。プレゼンでは、データ解析コンペティションの仕組みやよくあるタスク、一般的に注意すべきポイントが解説され、またコンペティションでスタンダードとなっているXGBoostというライブラリについても紹介された。

二人目のプレゼンターはKaggle Masterの黒柳 敬一氏。慶應義塾大学大学院理工学研究科に在籍していた頃は、凝縮系の物性物理学の理論(冷却原子気体のボーズ・アインシュタイン凝縮のアンダーソン局在など)の研究を行っていたという。前職では、データサイエンスを活用したコンサルティングを行っており、さまざまな領域のデータ分析に従事していた。今回黒柳氏は、「Airbnb New User Bookingsの事例で学ぶStacking応用編について」というテーマで発表を行った。Airbnb New User Bookingsのコンペティションで2位を受賞した黒柳氏がStackingについての基礎を解説し、実際に2位の決め手となった応用事例を紹介した。

最後のプレゼンターは日本人で4人しかいないというKaggle Grandmaster保持者の小嵜 耕平氏だ。奈良先端科学技術大学院大学情報科学研究科博士前期課程を修了後、博士後期課程を単位認定退学。複数のIT企業や金融・保険会社でソフトウェアエンジニアリングやデータ解析業務に携わり、現在はフリーランスとしても活動している。「深層学習の応用をはじめとして、コンピュータビジョン分野における技術や研究、その応用に注目が集まっている」ことから、画像処理にテーマを絞ったコンペティションにおける解法や技術・ワザが紹介された。

Sansanがデータサイエンス領域に注力するワケ

名刺管理サービスを展開するSansanが、データサイエンス領域にここまで力を注ぐ理由。それは、Sansanが保有する「ビジネスの出会い」のデータベースにあるという。

SansanのR&D部門であるData Strategy & Operation Center(略称 DSOC)はデータサイエンスを中心とした研究部門であるが、研究そのものを目的とせず、サービスを通じて世の中に価値を届けることをミッションとしている。このDSOCには、画像処理・機械学習のスペシャリストやデータサイエンティストなど十数名が在籍(KaggleのGrandmasterも2名在籍)しており、名刺をもとにした人脈のデータベースを活用しながらよりよいサービスづくりに日夜研究を進めているという。

■Sansan株式会社のデータの価値

Sansan株式会社がこれまで構築したデータベースは、データの量、正確性、特異性といった特長を有しています。

独自の名刺データ化システム『GEES』を通じて、年間数億枚の名刺がデータ化されています。単に数億の個人情報の蓄積ではなく、数億の「出会いの情報」が蓄積されているのです。これは他のSNSには存在し得ない量、そして網羅性といえます。

そもそも名刺が持っている情報の正確性に加え、『Sansan』が過去約10年に渡ってデータ化してきたデータベースは、テクノロジーとオペレータのチェックによって非常に高い精度を有しています。この正確性は、機械学習のトレーニングデータとして大きな強みとなっています。

DSOCウェブサイトより

イベント後の懇親会の様子

参加した大学院生からは、「Kaggleの課題の取り組み方や、仮説の立て方、検証の仕方と行ったプロセスがわかって勉強になった。」「普段の研究は泥臭いことも多く、自分の能力にどこまで価値があるのかわからなかったが、データサイエンスのエキスパート達も地道な作業を積み重ねて功績を得ていることがわかりモチベーションが沸いた。」「機械学習について最前線の話を聞くことができ興味深かった。また、プレゼンターのスキルの高さに驚いた。」といった声が聞かれた。

SansanのDSOC R&Dグループでは、類まれなデータベースを新たな価値につなげるべく、機械学習、画像処理、データ分析を専攻する学生を通年募集している。自分のスキルを活かしたい、現在の研究だけでは物足りない学生は気軽に応募してみてはいかがだろうか?(→応募、連絡はこちらから。)

LabBase「ラボベース」は研究内容やスキルを登録しておくだけで、スカウトなどを通して企業とつながれます。さらに、研究生活の困りごとを解決したり、学生間や産学間の交流を促進する機能が追加される予定です。

研究内容に興味を持った企業と、スカウトやアピールを通してつながれるLabBaseの登録はこちら!