query-efficient imitation learning for end-to-end ... · • supervised learning • alvinn net...

Query-Efficient Imitation Learningfor End-to-End Simulated Driving

Jiakai Zhang, Kyunghyun Cho

New York University

Introduction• End-to-end learning for self-driving

• Related work

Learning method• Convolutional neural network

• Imitation learning using SafeDAgger

Experiment• Setup

• Results

Conclusion and future work

Overview

Introduction

End-to-end learning for self-driving

• Sensory input from front-facing camera

• Control signal

Steering Brake

Introduction

Related work

• Supervised learning

• ALVINN net [Pomerleau 1989]

• DeepDriving [Chen et al. 2015]

• End-to-end learning for self-driving cars [Bojarski et al. 2016]

• Imitation learning

• DAgger [Ross, Gordon, and Bagnell 2010]

• SafeDAgger [Zhang and Cho 2017]

DAgger algorithm

Dataset 𝐷0 Policy 𝜋1Initialize

Policy 𝜋𝑖 = 𝛽𝑖𝜋∗ + (1 − 𝛽𝑖) 𝜋𝑖

Dataset 𝐷𝑖 = 𝐷′ ∪ 𝐷𝑖−1

Dataset 𝐷′

Policy 𝜋𝑖

Iteration

Return Best policy 𝜋𝑖

Disadvantage:

• Query a reference policy

constantly

• Safe issue to environment

SafeDAgger algorithm

Dataset 𝐷0 Policy 𝜋1Initialize

Dataset 𝐷𝑖 = 𝐷′ ∪ 𝐷𝑖−1

Dataset𝐷′ not safe

Policy 𝜋𝑖

Iteration

Return Best policy 𝜋𝑖

Safety classifier 𝑐1

Policy 𝜋𝑖 = 𝛽𝑖𝜋∗ + (1 − 𝛽𝑖) 𝜋𝑖

Safety classifier 𝑐𝑖

Safety classifier 𝑐1

Safety classifier 𝑐𝑖Advantage:

• Query-efficient

• Safety feature

Safety classifier

• Deviation of a primary policy from a reference

policy defined

• Optimal safety classifier defined as

Learning safety classifier

• Minimize a binary cross-entropy loss

Experiment – Setup

TORCS – Open source racing game

Training tracks

Test tracks

Experiment – Model

Input image – 3x160x72

Convolutional layer – 64x3x3

Max Pooling – 2x2

Convolutional layer – 128x5x5

Fully connected layer

Control

signals

Environment

variables

Primary policy

Feature map

Fully connected layer

Safety value

Safety classifier

Optimization algorithm: stochastic gradient descent

ResultsSafe Frames

Unsafe Frames

Evaluation on test tracks

1. Mean squared error of steering angle

2. Damage per lap

3. Number of laps

4. Portion of time driven by a reference policy

Results

Dashed curve – with traffic

Solid curve – without traffic

Mean squared error of steering angle

Results

# of Dagger Iterations

Damage per Lap

Results

Number of Laps

Results

Avg. # o

Portion of time driven by a reference policy

Results

Conclusion Proposed SafeDAgger algorithm

• Query efficient

• Safety feature

End-to-end simulated driving

• Trained a convolutional neural network to drive in TORCS with traffic

Future work Evaluate SafeDAgger in the real world

Learn to use temporal information

query-efficient imitation learning for end-to-end ... · • supervised learning • alvinn net...

Documents

end-to-end incremental learning -...

airbnb’s end-to-end machine learning infrastructure

dlbooster: boosting end-to-end deep learning workflows

end-to-end learning for answering structured queries

end-to-end driving from vision with deep-learning

end to end e learning™ 19 may

end-to-end learning: using neural networks for vehicle

end-to-end differentiable physics for learning and...

activestereonet: end-to-end self-supervised learning for...

machine and deep learning with matlab · machine learning...

deepdriving: learning affordance for direct perception in...

learning-based region selection for end-to-end gaze …

end-to-end learning for autonomous driving robots

deepdriving: learning affordance for direct...

toward exploring end-to-end learning algorithms for ... ·...

learning diverse models for end-to-end ensemble tracking

end-to-end learning from spectrum data: a deep …1...

handwritten text segmentation via end-to-end learning of

deepdriving: learning affordance for direct …...car...

differentiable particle filters: end-to-end learning with...