Пер. с англ. Волошко Р. — СПб.: Питер, 2023. — 464 с.: ил. — (Библиотека программиста). — ISBN: 978-5-4461-3944-6.
Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах. Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
Предисловие
Вступление
Благодарности
О книге
Для кого эта книга
Структура издания
О коде
От издательства
Об авторе
Введение в глубокое обучение с подкреплениемЧто такое глубокое обучение с подкреплением
Прошлое, настоящее и будущее глубокого обучения с подкреплением
Целесообразность глубокого обучения с подкреплением
Определение четких обоюдных ожиданий
Подведем итогиМатематические основы обучения с подкреплениемЭлементы обучения с подкреплением
MDP: двигатель среды
Подведем итогиБаланс краткосрочных и долгосрочных целейЦель агента, принимающего решения
Планирование оптимальных последовательностей действий
Подведем итогиБаланс между сбором и использованием информацииПроблема интерпретации оценочной обратной связи
Стратегическое исследование
Подведем итогиОценка поведения агентаУчимся прогнозировать ценность политик
Прогноз на основе нескольких шагов
Подведем итогиУлучшение поведения агентовАнатомия агентов обучения с подкреплением
Оптимизация политик поведения
Разделение поведения и обучения
Подведем итогиБолее действенные и эффективные способы достижения целей,Улучшение политик с помощью достоверных целей
Агенты, которые взаимодействуют, обучаются и планируют
Подведем итогиВведение в ценностно ориентированное глубокое обучение с подкреплением ,Тип обратной связи, который используют агенты глубокого обучения с подкреплением
Введение в аппроксимацию функций для обучения с подкреплением...
NFQ: первая попытка реализовать ценностно ориентированное глубокое обучение с подкреплением
Подведем итогиБолее стабильные ценностно ориентированные методыDQN: делаем RL похожим на контролируемое обучение
Двойная DDQN: борьба с завышением прогнозов
функций ценности действий
Подведем итогиЦенностно ориентированные методы с эффективным использованием выборокДуэльная DDQN: архитектура нейросети, рассчитанная на обучение с подкреплением
PER: приоритетное воспроизведение полезного опыта
Подведем итогиМетоды градиента политик и "актер-критик"REINFORCE: обучение политик на основе результатов
VPG: формирование функции ценности
A3C: параллельное обновление политики
GAE: надежное прогнозирование преимущества
A2C: синхронное обновление политик
Подведем итогиПродвинутые методы "актер-критик"DDPG: аппроксимация детерминированной политики
TD3: лучшие оптимизации для DDPG
SAC: максимизация ожидаемой выгоды и энтропии
PPO: ограничение этапа оптимизации
Подведем итогиПуть к сильному искусственному интеллектуВажные темы, которые были рассмотрены, и те,
которые остались без внимания
Углубленные аспекты AGI
Что дальше?
Подведем итоги