lecture 29: optimization and neural nets cs4670/5670: computer vision kavita bala slides from andrej...

Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei http://vision.stanford.edu/teaching/cs2

Upload: arleen-hoover

Post on 19-Dec-2015

226 views

Category:

Documents

0 download

Report

Download

Tags:

Embed Size (px):

TRANSCRIPT

Lecture 29: Optimization and Neural Nets

CS4670/5670: Computer VisionKavita Bala

Slides from Andrej Karpathy and Fei-Fei Lihttp://vision.stanford.edu/teaching/cs231n/

Today

• Optimization• Today and Monday: Neural nets, CNNs

– Mon: http://cs231n.github.io/classification/– Wed: http://cs231n.github.io/linear-classify/– Today:

• http://cs231n.github.io/optimization-1/• http://cs231n.github.io/optimization-2/

http://cs231n.github.io/classification/

http://cs231n.github.io/linear-classify/

http://cs231n.github.io/optimization-1/

http://cs231n.github.io/optimization-2/

Page 3: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Summary

Page 4: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Other loss functions

• Scores are not very intuitive

• Softmax classifier– Score function is same– Intuitive output: normalized class probabilities– Extension of logistic regression to multiple classes

Page 5: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Softmax classifier

Interpretation: squashes values into range 0 to 1

Page 6: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Cross-entropy loss

Page 7: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Aside: Loss function interpretation

• Probability– Maximum Likelihood Estimation (MLE)– Regularization is Maximum a posteriori (MAP)

estimation

• Cross-entropy H– p is true distribution (1 for the correct class), q is

estimated – Softmax classifier minimizes cross-entropy– Minimizes the KL divergence (Kullback-Leibler)

between the distribution: distance between p and q

Page 8: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

SVM vs. Softmax

Page 9: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Summary• Have score function and loss function

– Will generalize the score function• Find W and b to minimize loss

– SVM vs. Softmax• Comparable in performance• SVM satisfies margins, softmax optimizes probabilities

Page 10: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Gradient Descent

Page 11: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Step size: learning rateToo big: will miss the minimumToo small: slow convergence

Page 12: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Analytic Gradient

Page 13: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Page 14: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Gradient Descent

Page 15: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Mini-batch Gradient Descent

Page 16: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Stochastic Gradient Descent (SGD)

Page 17: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Summary

Page 18: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Page 19: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Page 20: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Page 21: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Where are we?

• Classifiers: SVM vs. Softmax• Gradient descent to optimize loss functions

– Batch gradient descent, stochastic gradient descent

– Momentum– Numerical gradients (slow, approximate), analytic

gradients (fast, error-prone)

Page 22: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Derivatives

• Given f(x), where x is vector of inputs– Compute gradient of f at x:

Page 23: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Examples

Page 24: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Page 25: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Page 26: Lecture 29: Optimization and Neural Nets CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Backprop gradients

• Can create complex stages, but easily compute gradient

Lecture 12 - Stanford University CS231n: Convolutional ...cs231n.stanford.edu/slides/2016/winter1516_lecture12.pdf · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 12 - 22

Lecture 27: Recognition Basics CS4670/5670: Computer Vision Kavita Bala Slides from Andrej Karpathy and Fei-Fei Li

Lecture 7: Convolutional Neural Networksvision.stanford.edu/.../2016/winter1516_lecture7.pdf · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 7 - 50 27 Jan 2016 The brain/neuron

Image Classification pipeline Lecture 2 - Stanford Universitycs231n.stanford.edu/slides/2016/winter1516_lecture2.pdf · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 2 - 2

Lecture 8: Spatial Localization and Detectioncs231n.stanford.edu/slides/2016/winter1516_lecture8.pdf · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 8 - 1 1 Feb 2016 Lecture

Lecture 6: Training Neural Networks, Part II · * Original slides borrowed from Andrej Karpathy and Li Fei-Fei, Stanford cs231n comp150dl 1 Tuesday February 7, 2017 Lecture 6: Training

Lecture 2: Image Classification pipelinecs231n.stanford.edu/slides/2015/lecture2.pdf · Fei-Fei Li & Andrej Karpathy Lecture 2 - 32 7 Jan 2015 Summary - Image Classification: We are

Lecture 3: Loss functions and Optimizationvision.stanford.edu/.../slides/2016/winter1516_lecture3.pdfFei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 3 - 10 11 Jan 2016 Suppose:

Lecture 6: Training Neural Networks, Part 2cs231n.stanford.edu/slides/2016/winter1516_lecture6.pdfFei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 6 - 11 25 Jan 2016 Training

DenseCap: Fully Convolutional Localization Networks for Dense … · DenseCap: Fully Convolutional Localization Networks for Dense Captioning Justin Johnson Andrej Karpathy Li Fei-Fei

Linear Classification Lecture 3 - Artificial Intelligencevision.stanford.edu/teaching/cs231n/slides/2015/lecture3.pdf · Fei-Fei Li & Andrej Karpathy Lecture 2 - 20 7 Jan 2015 2

Recurrent Neural Networks - Artificial Intelligencevision.stanford.edu/teaching/cs231n/slides/2016/... · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 10 - 38 8 Feb 2016

Obj2Text: Generating Visually Descriptive Language from ...text. bitrary images has received considerable atten-tion (Vinyals et al.,2015;Karpathy and Fei-Fei, 2015;Mao et al.,2015)

Lecture 6: Training Neural Networks, Part 2vision.stanford.edu/teaching/cs231n/slides/2016/... · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 6 - 3 25 Jan 2016 Mini-batch

Deep Compression - Semantic Scholar · 2018-10-23 · Pruning RNN and LSTM Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 10 -51 8 Feb 2016 Explain Images with Multimodal Recurrent

Lecture 12 - Stanford Universityvision.stanford.edu/.../cs231n/slides/2016/winter1516_lecture12.pdf · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 12 ... Fei-Fei Li & Andrej

Administrative - Stanford Universitycs231n.stanford.edu/slides/2016/winter1516_lecture15.pdfFei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 15 -Lecture 15 - 16 7 Mar 2016 And

DenseCap: Fully Convolutional Localization Networks for ... · DenseCap: Fully Convolutional Localization Networks for Dense Captioning Justin Johnson Andrej Karpathy Li Fei-Fei Department

VISUALIZING AND UNDERSTANDING RECURRENT NEURAL NETWORKS Presented By: Collin Watts Wrritten By: Andrej Karpathy, Justin Johnson, Li Fei-fei

Object Discovery in 3D scenes via Shape Analysis · Object Discovery in 3D scenes via Shape Analysis Andrej Karpathy, Stephen Miller and Li Fei-Fei Abstract—We present a method

Lecture 2: Image Classification pipeline - Artificial Intelligencevision.stanford.edu/teaching/cs231n/slides/2015/lecture2.pdf · Fei-Fei Li & Andrej Karpathy Lecture 2 - 32 7 Jan

ML with Tensorflow-new - GitHub Pages › ml › lec12.pdf · 2017-10-02 · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 10 -16 8 Feb 2016 Recurrent Neural Network x RNN

ML with Tensorflow-new - GitHub Pageshunkim.github.io/ml/lec12.pdf · e.g. Machine Translation seq of words -> seq of words. Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture

ML with Tensorflow-new - GitHub Pageshunkim.github.io/ml/lec11.pdf · 2017-10-02 · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 7 -68 27 Jan 2016 Case Study: AlexNet [Krizhevsky

Abstract arXiv:1612.08354v1 [cs.CV] 26 Dec 20162016), object tagging (Karpathy & Fei-Fei,2015), text to image search (Wang et al.,2016), and so on. For all these works, how to achieve

Lecture 7: Convolutional Neural Networks - Stanford …cs231n.stanford.edu/slides/2016/winter1516_lecture7.pdfLecture 7: Convolutional Neural Networks Fei-Fei Li & Andrej Karpathy

Convolution Layer...Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 7 -13 27 Jan 2016 32 32 3 Convolution Layer 32x32x3 image 5x5x3 filter 1 number: the result of taking a dot

Lecture 4: Backpropagation and Neural Networks part 1vision.stanford.edu/teaching/cs231n/slides/2016/winter1516_lecture… · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture

CS60010: Deep Learningsudeshna/courses/DL18/... · Deep Visual -Semantic Alignments for Generating Image Descriptions, Karpathy and Fei -Fei Show and Tell: A Neural Image Caption

Deep Visual-Semantic Alignments for Generating Image ... · Deep Visual-Semantic Alignments for Generating Image Descriptions Andrej Karpathy Li Fei-Fei Department of Computer Science,

Lecture 5: Training Neural Networks, Part I - GitHub Pages · Widrow and Hoff, ~1960: Adaline/Madaline * Original slides borrowed from Andrej Karpathy and Li Fei-Fei, Stanford cs231n

Lecture 13 - vision.stanford.eduvision.stanford.edu/.../2016/winter1516_lecture13.pdf · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 13 - 24 Feb 2016 Learnable Upsampling:

FOIL it! Find One mismatch between Image and Language ......by using ‘neuraltalk’ (Karpathy and Fei-Fei, 2015) loss 11 Andrej Karpathy and Fei-Fei Li “Deep Visual-Semantic Alignments

Deep Fragment Embeddings for Bidirectional Image Sentence ... · Deep Fragment Embeddings for Bidirectional Image Sentence Mapping Andrej Karpathy Armand Joulin Li Fei-Fei Department

ML with Tensorflow-new - GitHub Pages · Fei-Fei Li & Andrej Karpathy & Justin Johnson Lecture 7 -68 27 Jan 2016 Case Study: AlexNet [Krizhevsky et al. 2012] Full (simplified) AlexNet

lecture 29: optimization and neural nets cs4670/5670: computer vision kavita bala slides from andrej...

Documents

softmax slide

summary slide

q slide

eduteachingcs231n slide

analytic gradient slide

slow convergence slide

crossentropy loss slide

errorprone slide