A Utility Criterion for Markov Decision Processes

Stratton C. Jaquette
Stratton C. Jaquette
Systems Control, Inc., Palo Alto
Search for more papers by this author

Systems Control, Inc., Palo Alto

Published Online:1 Sep 1976https://doi.org/10.1287/mnsc.23.1.43

Abstract

Optimality criteria for Markov decision processes have historically been based on a risk neutral formulation of the decision maker's preferences. An explicit utility formulation, incorporating both risk and time preference and based on some results in the axiomatic theory of choice under uncertainty, is developed. This forms an optimality criterion called utility optimality with constant aversion to risk. The objective is to maximize the expected utility using an exponential utility function. Implicit in the formulation is an interpretation of the decision process which is not sequential. It is shown that optimal policies exist which are not necessarily stationary for an infinite horizon stationary Markov decision process with finite state and action spaces. An example is given.

Volume 23, Issue 1

September 1976

Pages 1-107

Article Information

Metrics

Information

Published Online:September 01, 1976

Cite as

Stratton C. Jaquette, (1976) A Utility Criterion for Markov Decision Processes. Management Science 23(1):43-49.

https://doi.org/10.1287/mnsc.23.1.43

PDF download

Available Issues

Available Issues

Available Issues

Available Issues

Available Issues

Available Issues

Available Issues

Available Issues

Available Issues

A Utility Criterion for Markov Decision Processes

Abstract

Volume 23, Issue 1

Article Information

Metrics

Information

Cite as

Sign Up for INFORMS Publications Updates and News