Зарегистрироваться
Восстановить пароль
FAQ по входу

Моралес Мигель. Грокаем глубокое обучение с подкреплением

  • Файл формата djvu
  • размером 5,47 МБ
Моралес Мигель. Грокаем глубокое обучение с подкреплением
Пер. с англ. Волошко Р. — СПб.: Питер, 2023. — 464 с.: ил. — (Библиотека программиста). — ISBN: 978-5-4461-3944-6.
Мы учимся, взаимодействуя с окружающей средой, и получаемые вознаграждения и наказания определяют наше поведение в будущем. Глубокое обучение с подкреплением привносит этот естественный процесс в искусственный интеллект и предполагает анализ результатов для выявления наиболее эффективных путей движения вперед. Агенты глубокого обучения с подкреплением могут способствовать успеху маркетинговых кампаний, прогнозировать рост акций и побеждать гроссмейстеров в Го и шахматах. Давайте научимся создавать системы глубокого обучения на примере увлекательных упражнений, сопровождаемых кодом на Python с подробными комментариями и понятными объяснениями. Вы увидите, как работают алгоритмы, и научитесь создавать собственных агентов глубокого обучения с подкреплением, используя оценочную обратную связь.
Предисловие
Вступление
Благодарности
О книге
Для кого эта книга
Структура издания
О коде
От издательства
Об авторе
Введение в глубокое обучение с подкреплением
Что такое глубокое обучение с подкреплением
Прошлое, настоящее и будущее глубокого обучения с подкреплением
Целесообразность глубокого обучения с подкреплением
Определение четких обоюдных ожиданий
Подведем итоги
Математические основы обучения с подкреплением
Элементы обучения с подкреплением
MDP: двигатель среды
Подведем итоги
Баланс краткосрочных и долгосрочных целей
Цель агента, принимающего решения
Планирование оптимальных последовательностей действий
Подведем итоги
Баланс между сбором и использованием информации
Проблема интерпретации оценочной обратной связи
Стратегическое исследование
Подведем итоги
Оценка поведения агента
Учимся прогнозировать ценность политик
Прогноз на основе нескольких шагов
Подведем итоги
Улучшение поведения агентов
Анатомия агентов обучения с подкреплением
Оптимизация политик поведения
Разделение поведения и обучения
Подведем итоги
Более действенные и эффективные способы достижения целей,
Улучшение политик с помощью достоверных целей
Агенты, которые взаимодействуют, обучаются и планируют
Подведем итоги
Введение в ценностно ориентированное глубокое обучение с подкреплением ,
Тип обратной связи, который используют агенты глубокого обучения с подкреплением
Введение в аппроксимацию функций для обучения с подкреплением...
NFQ: первая попытка реализовать ценностно ориентированное глубокое обучение с подкреплением
Подведем итоги
Более стабильные ценностно ориентированные методы
DQN: делаем RL похожим на контролируемое обучение
Двойная DDQN: борьба с завышением прогнозов
функций ценности действий
Подведем итоги
Ценностно ориентированные методы с эффективным использованием выборок
Дуэльная DDQN: архитектура нейросети, рассчитанная на обучение с подкреплением
PER: приоритетное воспроизведение полезного опыта
Подведем итоги
Методы градиента политик и "актер-критик"
REINFORCE: обучение политик на основе результатов
VPG: формирование функции ценности
A3C: параллельное обновление политики
GAE: надежное прогнозирование преимущества
A2C: синхронное обновление политик
Подведем итоги
Продвинутые методы "актер-критик"
DDPG: аппроксимация детерминированной политики
TD3: лучшие оптимизации для DDPG
SAC: максимизация ожидаемой выгоды и энтропии
PPO: ограничение этапа оптимизации
Подведем итоги
Путь к сильному искусственному интеллекту
Важные темы, которые были рассмотрены, и те,
которые остались без внимания
Углубленные аспекты AGI
Что дальше?
Подведем итоги
  • Возможность скачивания данного файла заблокирована по требованию правообладателя.
  • С условиями приобретения этих материалов можно ознакомиться здесь.