deep reinforcement learning in a handful of trials with ... › media › slides › nips › 2018...

26

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models Kurtland Chua , Roberto Calandra, Rowan McAllister, Sergey Levine University of California, Berkeley

Upload: others

Post on 07-Jul-2020

4 views

Category:

Documents

0 download

Report

Download

Embed Size (px):

TRANSCRIPT

Page 1: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

Kurtland Chua, Roberto Calandra, Rowan McAllister, Sergey LevineUniversity of California, Berkeley

Page 2: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

How Long Does Learning Take?

~800,000 grasp

attempts

~21 million games

~50 million frames

[Mnih et al. 2015]

[Silver et al. 2017]

[Levine et al. 2017]

Page 3: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Can we speed this up?

Page 4: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Model-Based Reinforcement Learning

OptimizePolicy

ExecutePolicy

Train Dynamics Model

Page 5: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Comparative Performance on HalfCheetah

Page 6: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Comparative Performance on HalfCheetah

Page 7: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deterministic Neural Nets as Models

Page 8: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deterministic Neural Nets as Models

Page 9: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deterministic Neural Nets as Models

Page 10: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deterministic Neural Nets as Models

Page 11: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Deterministic Neural Nets as Models

Page 12: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Probabilistic Neural Nets as Models

Page 13: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Probabilistic Ensembles as Models

Page 14: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Probabilistic Ensembles as Models

Page 15: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 16: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 17: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 18: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 19: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 20: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 21: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 22: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 23: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 24: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Trajectory Sampling for State Propagation

Page 25: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

Experimental Results

Page 26: Deep Reinforcement Learning in a Handful of Trials with ... › media › Slides › nips › 2018 › 220cd(06-15... · Deep Reinforcement Learning in a Handful of Trials u sing

https://github.com/kchua/handful-of-trialshttps://sites.google.com/view/drl-in-a-handful-of-trials

Code:Website:

Deep Reinforcement Learning in a Handful of Trials using Probabilistic Dynamics Models

Kurtland Chua Roberto Calandra Rowan McAllister Sergey Levine

Data efficientCompetitive asymptotic

performanceEasy to implement

Poster #165

Handful of Leaves 3

Schedules of reinforcement. Schedules of Reinforcement Continuous reinforcement refers to reinforcement being administered to each instance of a response

Guide to Historical Reinforcement - SRIA Concrete 2017 Historical Reinforcement... · Guide to Historical Reinforcement ... reinforcement material properties to use when checking

Handful of Salt

Fats Waller - Handful of Keys

A Handful of Topics

Learning to Control a Low-Cost Manipulator using Data ... · a handful of trials—from scratch. Our manipulator is inaccurate and provides no pose feedback. For learning a controller

Handful of Salt - PJALS

Reinforcement Learning - Multi-Agent Reinforcement

Deep Learning Workshop Reinforcement Learning Section · No need to collect data before training A lot of simulation trials required Opens up AI applications intractable today Training

CORROSION ENGINEERING REVIEW - Aegion · steel reinforced concrete repair/reinforcement and corrosion protection system. Field trials are planned for this year. • CRTS completed

‘Grobb’ a Handful of Talent!

A Handful of Dust by Evelyn Waugh

Jane Passy a Handful of Sounds

Deep Reinforcement Learning in a Handful of Trials using …€¦ · Gal et al., 2016, Depeweg et al., 2016], the par-ticular details of the implementation and design decisions in

Eick: Reinforcement Learning. Reinforcement Learning Introduction Passive Reinforcement Learning Temporal Difference Learning Active Reinforcement Learning

Reinforcement Learning and Deep Reinforcement Learningcse.ucdenver.edu/.../Class-22-Reinforcement-learning-DL.pdf · 2018. 11. 28. · Outlines 1 Principles of Reinforcement Learning

A Handful of dreams

AIESEC University - Handful Informations About Tunisia

A Handful of Hell (Book Preview)

Deep Reinforcement Learning in a Handful of Trials using ...€¦ · smooth dynamics that are often present in robotics [Fu et al., 2016, Mordatch et al., 2016, Nagabandi et al.,

A Small Handful directed by Jim Petosa

Deep Reinforcement Learning in a Handful of Trials …papers.nips.cc/paper/7725-deep-reinforcement-learning-in...Deep Reinforcement Learning in a Handful of Trials using Probabilistic

Handful a Day does Not = Healthy

i HANDFUL OF POPULAR MAXIMS. - Archivearchive.org/download/handfulofpopular01jacoiala/handful... · 2007. 2. 1. · II WTT AHANDFULOFPOPULARMAXIMS CURRENTINSANSKRITLITERATURE. COLLECTEDBY

A handful of wearable devices

A Handful of Dreams Hilary Wilde

Reinforcement Learning Lecture Inverse Reinforcement Learningipvs.informatik.uni-stuttgart.de/mlr/wp-content/uploads/2017/07/09... · Reinforcement Learning Inverse Reinforcement

Inverse Reinforcement Learning CS885 Reinforcement

From Reinforcement Learning to Deep Reinforcement …fagostin/assets/files/...Keywords: Machine learning · Reinforcement learning Deep learning · Deep reinforcement learning 1 Introduction

Deep Reinforcement Learning in a Handful of Trials using ... · decisions [Atkeson and Santamaría, 1997, Kocijan et al., 2004, Deisenroth et al., 2014]. MBRL is appealing because

Trials 11 TRIALS

500 Kobe Pre-Accelerator Demo Day >> Handful

Reinforcement Learning Das Reinforcement Learning-Problem Alexander Schmid

Clinical Trials - Office of Behavioral and Social Sciences ... trials usually involve a program of studies from initial exploratory studies on a handful of subjects to large trials