注目の良書を取り上げAI/機械学習の知識や実装力を高める無料オンライン勉強会。人気シリーズの第4弾で強化学習をテーマにした『ゼロから作るDeep Learning ❹』を取り上げています。
当勉強会では書籍の内容を確認しながらポイントごとに立ち止まり意見を交換。インタラクティブに理解を深める1時間です。
10月20日(木)は6章「TD法」からスタートします。
6章 TD法
(著:斎藤 康毅,『ゼロから作るDeep Learning ❹』,目次より引用, 2022年04月, 発行元:O’Reilly Japan, Inc., ISBN:978-4-87311-975-5)
6.1 TD法による方策評価
6.1.1 TD法の導出
6.1.2 MC法とTD法の比較
6.1.3 TD法の実装
6.2 SARSA
6.2.1 方策オン型のSARSA
6.2.2 SARSAの実装
6.3 方策オフ型のSARSA
6.3.1 方策オフ型と重点サンプリング
6.3.2 方策オフ型のSARSAの実装
6.4 Q学習
6.4.1 ベルマン方程式とSARSA
6.4.2 ベルマン最適方程式とQ学習
6.4.3 Q学習の実装
6.5 分布モデルとサンプルモデル
6.5.1 分布モデルとサンプルモデル
6.5.2 サンプルモデル版のQ学習
6.6 まとめ
学習共有サービス「Leranavi」やe-Learningサービス「Leranaviオンライン」、無料読書会参加者同士の質問・情報交換用Slackチャンネルも併せてご活用いただけます。今回も書籍の選定から当勉強会のSlackワークスペースにて行いました。
ご質問・ご相談はconnpassまたはソレイユデータ道場の申し込みフォームよりお気軽にお問い合わせください。
書籍はご自身で入手のうえ、ご参加ください。
書籍情報

ゼロから作るDeep Learning ❹
斎藤 康毅 著