Aug
29
オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
PFN とヤフーのエンジニアがオンプレML基盤の取り組みについて議論します!
Organizing : 株式会社Preferred Networks、ヤフー株式会社
Registration info |
オンライン参加枠 Free
Attendees
|
---|---|
参加者への情報 |
(参加者と発表者のみに公開されます)
|
Description
本イベントについて
オンプレミスの Kubernetes クラスタ上に構築された機械学習基盤を持つ PFN とヤフーのエンジニアが自社での取り組みについて語り尽くします!
2回目の開催の今回は、前回からの新しい取り組み、また共通のトピックに対して両社から発表、議論します。
- GPU スケジューリングや断片化にどんな対策をしてる?
- どんな Kubernetes コントローラ/Operator を開発してる?
- 最近どんな障害あった?
- どんなチーム構成で取り組んでいるのか教えて!
次のワードに関心のある方はぜひご参加ください。
- Kubernetes
- オンプレミス
- 機械学習
- MLOps
- GPU/MN-Core
- ネットワーク
- ストレージ
- 利用者コミュニケーション
タイムスケジュール
時間 | 内容 | スピーカー |
---|---|---|
19:00-19:05 | オープニング | - |
19:05-19:25 | ヤフーのオンプレ機械学習基盤 AIプラットフォームについて | ヤフー株式会社 |
19:25-19:45 | 続・PFN のオンプレML基盤の取り組み | 株式会社Preferred Networks |
19:45-19:50 | 5分休憩 | - |
19:50-21:00 | PFN、ヤフーのエンジニアが発表、質問し合う、パネルディスカッション | - |
19:05-19:25: ヤフーのオンプレ機械学習基盤 AIプラットフォームについて
by @kuromt_, ヤフー株式会社
19:25-19:45: 続・PFN のオンプレML基盤の取り組み
by Hidehito Yabuuchi (GitHub: ordovicia), 株式会社Preferred Networks
19:50-21:00: PFN、ヤフーのエンジニアが発表、質問し合う、パネルディスカッション!
共通のトピックについて両社のエンジニアが5分間で取り組みを発表し、その後質問し合います。参加者のみなさんからの質問も受け付けますのでどしどし投稿してください。
- GPU のスケジューリングや断片化にどんな対策をしてる?
- どんな Kubernetes コントローラ/Operator を開発してる?
- 最近どんな障害あった?
- どんなチーム構成で取り組んでいるのか教えて!
参加方法
本イベントはオンラインでの配信のみです。イベントの視聴をご希望の方は、本イベントサイトから申し込みください。
配信 URL は、申し込み後本イベントサイトの「参加者への情報」から参照いただけます。
参加費
無料
採用情報
株式会社Preferred Networks
PFNでは大規模機械学習プラットフォームを開発・運用するエンジニアを募集しています。
械学習プラットフォームチームでは、製造・交通・バイオ・ヘルスケア・金融・ロボット等、多岐にわたる利用者の研究開発を加速させるため、Kubernetesなどクラウドネイティブ技術を活用した大規模機械学習プラットフォームの開発に挑戦し続けています。日進月歩で進化している機械学習にフォーカスした計算技術を低レイヤーから高レイヤーまでトータルに吸収できる環境です。
過去の取り組み発表のスライド:
- PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜
- PFNのML/DL基盤を支えるKubernetesにおける自動化 / DevOpsDays Tokyo 2021
- How to Schedule Machine Learning Workloads Nicely In Kubernetes #CNDT2020 / Cloud Native Days Tokyo 2020
- Kubernetesによる機械学習基盤への挑戦
- Preferred Networksの機械学習クラスタを支える技術
PFN採用全体ページ: https://www.preferred.jp/ja/careers/
ヤフー株式会社
【AIプラットフォーム領域】にてKubernetesを使った機械学習基盤の開発・運用に興味があるエンジニアを募集しています。 GPUを含むサーバから構成されたオンプレミスKubernetesの運用、MLOpsを支える各種OSSや内製プロダクトの機能開発や保守を含め、高い裁量で業務を進められます。
ブログ
スライド
主催企業
株式会社Preferred Networks
Preferred Networks(PFN)は、深層学習などの最先端の技術を最短路で実用化することで、これまで解決が困難であった現実世界の課題解決を目指しています。自動運転、製造、運輸、バイオ、ヘルスケア、ロボットといった多岐に渡る事業領域で、数多くの分野の研究者が日々 Kubernetes で構築された GPU クラスタで機械学習を行っています。
ヤフー株式会社
ヤフーでは、メディア、広告、検索、コマース、決済金融など多岐にわたるサービスで、膨大なデータを活用した改善を日々行なっています。AIプラットフォームチームは社内のデータサイエンティスト向けに機械学習のためのサービスやツールを提供し、継続的かつ効率的なデータ活用の仕組み作りに取り組んでいます。