dondakeshimoの丸太

データサイエンス/Webアプリケーション/

機械学習の勉強会「夏のトップカンファレンス論文読み会」に参加して来た

勉強会?的なものに初?挑戦

すみません。文字化けみたいになりました。 本日abejaさんが企画する 夏のトップカンファレンス論文読み会 に参加して来ました! abejaさんの名前からわかる通り、機械学習の論文読み会です。 企業が主催する勉強会というものに参加したのが初めてのようなもので、 (何回か就活系で行ったことある気もする)しれっと緊張してました。

abeja-innovation-meetup.connpass.com

参加動機として、日頃から参加させていただいている実装クラブのスラックに 本読み会の情報が流れて来て、先輩に筆者のようなへぼエンジニアが参加しても意義はあるのか? と、問うたところ 「正直よくわからん!」 と言われたので行って来ました!笑 予習ばっちしって状態で行く予定でしたが、何も間に合わず前半の人が何を話すかの把握程度での 参加となってしまいましたが、 その中で筆者がなんとなく思ったことなどをまとめていきます。

ディープラーニングは今尚最盛期

まだまだディープラーニングへの熱は冷めてない模様。 一部のトップリサーチャーなどはもう飽きたという声も上がりつつも、 全体のトレンドとしてはまだまだ来ている。 一方で、火付け役となったDCNNは論文がガンガン出てくるような状況ではなく、 GANやRNNなどのCNN以外のディープラーニングの技術が来ている様子。 CNNに関してはこれまでにでた技術を礎として、 その上に何を構築するかのフェーズに入ってきているとのこと、 そんな中、

CNNの畳み込み方には改善の余地がある

という論文を読んでくださったのがyosuke_shinyaさん。 少し、内容が難しくて理解できていない部分の方が多いのですが、 ざっくり言うと既存の画像認識では矩形を設定して畳み込んでいるが、 絶対矩形じゃない方が制度出るよね!その効率的なアルゴリズム考えたよ! みたいな感じだと思います。 すみません。やっぱり何もわかってないかもです。 既存の画像認識で難しかった小さい物体の検出や精度向上が期待されるみたいです!

DNNの見える化

DNNといえばブラックボックスで そのくせにハイパーパラメータが大量にあって、 いや、なんか知らんけどめっちゃいいの出てきたすごない? みたいな分野かなと思っていたのですが、 実際結構そう言う部分があってそこに問題意識もあるようで、 中間層の見える化が進んでいるようです。 これができるようになったらハイパーパラメータの数が減るかもしれないし、 ハイパーパラメータの最適化もすぐ済ませることができると思うから お買い得技術だなと思って聞いていました。

データがやはり大事だが…

データ作成をしている人たちがちゃんといてだな

質のいいデータこそが質の良いモデル作成に必須であることは周知の事実らしいですが、 金銭的コストも時間的コストも持って行かれてかつ、 面白くない という問題だらけのデータ作成問題?アノテーション問題が横たわっているらしいです。 逆にそこに目をつけてデータを売ったり、 有益なデータセットを作成するのも大事な仕事、研究だったようで、 データが命 っていうことはなんども聞いていた気がしたけど、 データ産業の大きさがなんとなく体感できてよかったなと思いました。 また、片岡さんという方がおっしゃっていましたが、 データセットを作るような研究をしていると 問題を出す側に回ることができるそうで、そうすることで 時代を引っ張るような大きな流れを生み出すリサーチャーになれる可能性が出てくるとのこと。 なるほどです。

高価なデータを効果的に利用するという観点

坂井さんという方が発表していらっしゃった内容は、 半教師なし学習です。 正直な話、今日の読み会に出席してトレンドなどとこの発表を聞くまでは 教師の有無に関してわかっているようで何もわかっていませんでした。 教師なしとはつまり強化学習であると思っていたくらいです。 半教師で精度が出せる話を丁寧にしていただいたのですが、 これまた正直な話、多分半分もわかっていないです。 ただ、概念的な説明からしていただいて、そっちの方は理解できたかなと。 ラベル付きのデータセットはコストがかかるので、 ラベルがないデータをうまく使って、コストを抑えることができないか、 また、現実的にラベル付きデータを作成しながら学習させるよりも 大量のラベルなしデータでさらに精度の良い学習ができないか。 というのがモチベーションだと思います。 その中で発表していただいたのはうまくラベル付きとなしを混ぜて行くというもので、 案外それでも精度が出るらしいです。 なるほどです。

今回の勉強会を終えて

わかったこと

  • DCNNに関してはかなりモジュール化が進んでいる
  • DCNNを使って何かをするために最新の技術をサーベイしまくるとかはもう必要なさそう
  • データは死ぬほど重要だから大事に扱う
  • データのうまい使い方はいくらでも出てきそうだからサーベイした方が良さそう?
  • 勉強会に参加することでモチベーションが上がる
  • 機械系の筆者が行くような企業がいっぱい来てたからみんなDL勉強中
  • インターンこそ現代就活最大の武器
  • セカンドエキスパートは最強らしい
  • DNNはツールだから自分の専門に持ち帰ると良い
    • そうすることでDNNのメンターもつくかも!
  • とりあえず実装して遊ぶことから始める
  • (その場では)わからなくてもいいから勉強会に参加するのは大事
  • 大企業でDLの企画?を通すのはなかなか難しい
  • やっぱり数学も大事かも

これからやるべきこと

  • とりあえず実装 -> 現在3D GANを実装というか実装済みのものを理解せんとしてます
  • 最低限の数学的知識を得る(特に表記がわからないという絶望的状況からの脱却)
  • 情報蒐集の網を広げる -> このような勉強会があればまた参加したいなと

以上です!雑なまとめですみません!何か情報があれば教えてくれるとありがたいです。発表者の皆さんお疲れ様でした!