regonn&curry.fm

regonnとcurrypurinがデータサイエンス・機械学習(主にKaggle)について話します。新しい働き方や量子コンピュータ、VR等寄り道もしていきます。

3. Twitterの質問に答えていきます

2018年09月17日

MP3ファイルをダウンロード

内容紹介

れごんとカレーちゃんがデータサイエンス(主にKaggle)について話していきます。今回はTwitterやマシュマロで飛んできた質問などに答えていきます。

出演者


regonn

currypurin

質問

  • ポッドキャスト聞いてから Signate の存在を知りました。Kaggle 関連の話が面白かったのでもっと聞きたいです。例えば、最近コンピティションで話題の技術や、自分が参加したコンピティションではどういうことを考えてモデル作成の戦略を立てているか、などなど @ハシビロコウさんより
    • 最近話題の技術(どちらも最新ではないが、必須?)
      • LightGBM
        • マイクロソフト作成
        • 早い!!精度が高い、大量の特徴量も入れられる、
        • kaggle-ja で共有されていた xgboost LightGBM CatBoost の比較記事
      • アンサンブル
        • 相関が低い予想をアンサンブルし、スコアを上げる
    • Santander コンペで金メダルをとった戦略
      • 失点を減らす
        • フォーラムをつねにチェック
        • リークを見つける
      • 加点を狙う
        • 他の人が見つけていないことをみつける
        • ポイントを絞る
          • 時間は有限なので、キーとなりそうなところに集中
  • 画像のコンペは好きじゃない、と思われるのはなぜですか?優秀なモデルを持ってきて力技勝負になっちゃうとかでしょうか(マシュマロ)
    • 画像のコンペを真剣にやろうとすると、GPU が必須になる
    • GPU が必要なためか参加人数は増えない傾向にある
    • 個人的には画像のコンペは楽しい
      • 技術の進歩すごいって感じられる
      • 人間の認識能力もすごいと感じる
    • 前処理とかも難しいブログ記事なども少ない
      • 少ないという意味は、殆どがサンプルコードを動かして Mnist 解析するだけみたいな気もしてる
      • 論文を読んでいく必要がある

jupyter の tips

  • Jupyter Tips 募集中への回答です。PyCharm + Jupyter NoteBook を使うことによって PyCharm の強力なコードの自動補完が利用出来て便利です。
    • jupyter notebook と PyCharm
      • Jetbrains 系は Professional 版(お値段高め)と Community 版(無料)がある
        • 違いは web 開発機能とかなので機械学習で利用するのであればいけそう

気になるニュース

田中 TOM

量子コンピュータ関連

オレオレ機械学習ライブラリ構想(機械学習名古屋第1 7 回勉強会)

  • 機械学習のアルゴリズムに関係ない部分多すぎ問題
    • 試したものがちゃんと記録される・再現できる
    • 煩わしいデータ管理をどうにかしたい
    • モデル管理をちゃんとしたい
  • オレオレライブラリって結構大事でみんな Kaggle に夢中すぎてやってない分野も多い気がする

    • 自分も Julia から Neural Network Console フォーマット向けのオレオレライブラリとか書いてる

今日の一句

  • 抜け道を先ゆく風や彼岸花 恋言