building and monitoring services at lithium

Building and Monitoring Services at Lithium(fault tolerance, resiliency and monitoring)

Paul Cichonski, Senior Software Engineer

@paulcichonski

Services at Lithium Use:

Failure is a Constant, Need to Avoid Cascading Failure

Image Source: Netflix Hystrix: https://github.com/Netflix/Hystrix/wiki

We All Know How to Simulate Failure:

But how do we develop code to deal with failure?

Need to build fault tolerant and resilient services... How?

Clustering, for high-availability, is not enough to protect against cascading failure

#1 Fail Fast: use timeouts aggressively

#2 Use circuit breakers on network calls

#3 Use async communication when possible

#4 Have well thought-out backpressure mechanisms

#5 Use cross-region (or cross-datacenter) replication

#6 Failure models should be built into the business requirements of a service

Even with all of that, your app will still fail, so how do you recover quickly?

Devops/Cloudops Model: OODA

Observe and Orient: you need metrics and dashboards

You Need Metrics

• Reduce “map/territory” confusion• We use Yammer Metrics

– Timers– Meters– Histograms

• We use them a lot– Every class has at least one metric, most

have multiple

You Need to Visualize the Metrics

You Need Dashboards Keyed to Business Functionality

Use alerting as a last resort (because sometimes we need to sleep)

Decide and Act: you need robust CI and fast code roll-outs

Rinse and Repeat

building and monitoring services at lithium

lithium use

use circuit breakers

use crossregion

use async communication

failure models

monitoring services

resilient services

lithium fault tolerance

Technology

building battery arrays with lithium-ion cells€¦ ·...

building, monitoring and maintaining a grid

lithium ion battery monitoring system ad7280a...lithium ion...

lithium ion battery offgas monitoring

citywide nonprofit monitoring and capacity building...

state-of-charge determination in imbalanced lithium-ion...

building america’s leading lithium hydroxide business

monitoring and evaulation capacity building

self monitoring blood glucose system … monitoring blood...

off-gas monitoring for lithium ion battery health and safety

building battery arrays with lithium-ion cells

estimating and monitoring the costs of building roads in...

model-based condition monitoring for lithium-ion …...

monitoring building structure.pdf

usaf capacity building- monitoring and evaluation

monitoring building performance

ahfc building monitoring system project

open building information monitoring

tool wear monitoring for ultrasonic metal welding of...

prognostics and health monitoring for lithium-ion...