Variance-Penalized Markov Decision Processes

Jerzy A. Filar
Jerzy A. Filar
Department of Mathematics, University of Maryland, Baltimore County Campus, Catonsville, Maryland 21228
Search for more papers by this author
,
L. C. M. Kallenberg
L. C. M. Kallenberg
University of Leiden, Leiden, The Netherlands
Search for more papers by this author
,
Huey-Miin Lee
Huey-Miin Lee
The Johns Hopkins University, Baltimore, Maryland
Search for more papers by this author

Jerzy A. Filar

Department of Mathematics, University of Maryland, Baltimore County Campus, Catonsville, Maryland 21228

Search for more papers by this author

L. C. M. Kallenberg

University of Leiden, Leiden, The Netherlands

Search for more papers by this author

Huey-Miin Lee

The Johns Hopkins University, Baltimore, Maryland

Search for more papers by this author

Published Online:1 Feb 1989https://doi.org/10.1287/moor.14.1.147

Abstract

We consider a Markov decision process with both the expected limiting average, and the discounted total return criteria, appropriately modified to include a penalty for the variability in the stream of rewards. In both cases we formulate appropriate nonlinear programs in the space of state-action frequencies (averaged, or discounted) whose optimal solutions are shown to be related to the optimal policies in the corresponding “variance-penalized MDP.” The analysis of one of the discounted cases is facilitated by the introduction of a “Cartesian product of two independent MDPs.”

Cited by
- Team variance optimization of n-player stochastic games with separately controlled chains
  5 February 2026 | Discrete Event Dynamic Systems, Vol. 36, No. 1
- Independent policy gradient-based reinforcement learning for economic and reliable energy management of multi-microgrid systems
  7 April 2026 | Discrete Event Dynamic Systems, Vol. 36, No. 1
- Monte Carlo simulation for the optimization of maintenance strategies in degrading systems
  1 August 2025 | Research in Mathematics, Vol. 12, No. 1
- AoI-aware transmission control in real-time mmwave energy harvesting systems: a risk-sensitive reinforcement learning approach
  Digital Communications and Networks, Vol. 11, No. 3
- Risk-averse multi-agent reinforcement learning with distributional mean-variance formulation
- Linear quadratic control with risk constraints
  Automatica, Vol. 174
- Mean–Variance optimization in discrete-time decision processes with general utility function
  Automatica, Vol. 174
- Evaluating the performance and robustness of PIR and QIR maintenance strategies using Monte Carlo method
  18 February 2025 | Monte Carlo Methods and Applications, Vol. 31, No. 1
- On the Optimal Deterministic Policy Learning in Chance-Constrained Markov Decision Processes
  IEEE Control Systems Letters, Vol. 9
- Time-Consistency in the Mean–Variance Problem: A New Perspective
  IEEE Transactions on Automatic Control, Vol. 70, No. 1
- Entropic risk for turn-based stochastic games
  Information and Computation, Vol. 301
- Teamwork Reinforcement Learning With Concave Utilities
  IEEE Transactions on Mobile Computing, Vol. 23, No. 5
- Discrete Markov Processes and Numerical Algorithms for Markov Chains
  13 January 2024
- A unified algorithm framework for mean-variance optimization in discounted Markov decision processes
  European Journal of Operational Research, Vol. 311, No. 3
- Approximate solutions to constrained risk-sensitive Markov decision processes
  European Journal of Operational Research, Vol. 310, No. 1
- Augmenting Markov Cohort Analysis to Compute (Co)Variances: Implications for Strength of Cost-Effectiveness
  Gordon B. Hazen
  13 September 2022 | INFORMS Journal on Computing, Vol. 34, No. 6
- An optimistic value iteration for mean–variance optimization in discounted Markov decision processes
  Results in Control and Optimization, Vol. 8
- Risk-Sensitive Reinforcement Learning via Policy Gradient Search
  15 June 2022 | Foundations and Trends® in Machine Learning, Vol. 15, No. 5
- Process-based risk measures and risk-averse control of discrete-time systems
  3 November 2018 | Mathematical Programming, Vol. 191, No. 1
- Efficient algorithms for Risk-Sensitive Markov Decision Processes with limited budget
  International Journal of Approximate Reasoning, Vol. 139
- Risk-Sensitive Piecewise-Linear Policy Iteration for Stochastic Shortest Path Markov Decision Processes
  7 October 2020
- Finding Feasible Policies for Extreme Risk-Averse Agents in Probabilistic Planning
  13 October 2020
- Risk Sensitive Stochastic Shortest Path and LogSumExp: From Theory to Practice
  13 October 2020
- Optimal forest management under financial risk aversion with discounted Markov decision process models
  Canadian Journal of Forest Research, Vol. 49, No. 7
- A Sensitivity‐Based Construction Approach to Variance Minimization of Markov Decision Processes
  8 August 2018 | Asian Journal of Control, Vol. 21, No. 3
- Risk-sensitive inverse reinforcement learning via semi- and non-parametric methods
  22 May 2018 | The International Journal of Robotics Research, Vol. 37, No. 13-14
- Risk measurement and risk-averse control of partially observable discrete-time Markov systems
  23 February 2018 | Mathematical Methods of Operations Research, Vol. 88, No. 2
- Approximate Value Iteration for Risk-Aware Markov Decision Processes
  IEEE Transactions on Automatic Control, Vol. 63, No. 9
- Stochastic Optimization in a Cumulative Prospect Theory Framework
  IEEE Transactions on Automatic Control, Vol. 63, No. 9
- Quantitative assessments of performance and robustness of maintenance policies for stochastically deteriorating production systems
  31 August 2017 | International Journal of Production Research, Vol. 56, No. 3
- Risk-aware semi-Markov decision processes
- Trading performance for stability in Markov decision processes
  Journal of Computer and System Sciences, Vol. 84
- A Real-Time Variable Cost-Based Maintenance Model
  28 January 2017
- Variable Cost-Based Maintenance and Inventory Model
  28 January 2017
- Variance-constrained actor-critic algorithms for discounted and average reward MDPs
  5 August 2016 | Machine Learning, Vol. 105, No. 3
- Extreme Risk Averse Policy for Goal-Directed Risk-Sensitive Markov Decision Process
- Solving Markov decision processes with downside risk adjustment
  11 June 2016 | International Journal of Automation and Computing, Vol. 13, No. 3
- Analyzing operational risk-reward trade-offs for start-ups
  European Journal of Operational Research, Vol. 247, No. 2
- A price-setting newsvendor problem under mean-variance criteria
  European Journal of Operational Research, Vol. 247, No. 2
- Mean-Variance Problems for Finite Horizon Semi-Markov Decision Processes
  27 November 2014 | Applied Mathematics & Optimization, Vol. 72, No. 2
- Risk aversion in belief-space planning under measurement acquisition uncertainty
- Index policies for optimal mean-variance trade-off of inter-delivery times in real-time sensor networks
- Semi-Markov decision processes with variance minimization criterion
  9 August 2014 | 4OR, Vol. 13, No. 1
- Resource Allocation: Realizing Mean-Variability-Fairness Tradeoffs
  IEEE Transactions on Automatic Control, Vol. 60, No. 1
- A Convex Analytic Approach to Risk-Aware Markov Decision Processes
  SIAM Journal on Control and Optimization, Vol. 53, No. 3
- Beyond exponential utility functions: A variance-adjusted approach for risk-averse reinforcement learning
- A unified framework for risk-sensitive Markov control processes
- Variance-penalized Markov decision processes: dynamic programming and reinforcement learning techniques
  18 March 2014 | International Journal of General Systems, Vol. 43, No. 6
- Markov Decision Problems Where Means Bound Variances
  Alessandro Arlotto,
  Noah Gans,
  J. Michael Steele
  8 May 2014 | Operations Research, Vol. 62, No. 4
- Computational Methods for Risk-Averse Undiscounted Transient Markov Models
  Özlem Çavuş,
  Andrzej Ruszczyński
  31 March 2014 | Operations Research, Vol. 62, No. 2
- A decision support system for mean–variance analysis in multi-period inventory control
  Decision Support Systems, Vol. 57
- Algorithmic aspects of mean–variance optimization in Markov decision processes
  European Journal of Operational Research, Vol. 231, No. 3
- Trading Performance for Stability in Markov Decision Processes
- Stochastic Dominance-Constrained Markov Decision Processes
  SIAM Journal on Control and Optimization, Vol. 51, No. 1
- Risk-Sensitive Markov Control Processes
  SIAM Journal on Control and Optimization, Vol. 51, No. 5
- Variance-minimization of Markov control processes with pathwise constraints
  Optimization, Vol. 61, No. 12
- Dominance-constrained Markov decision processes
- Resource allocation: Realizing mean-variability-fairness tradeoffs
- Variance-penalized response-adaptive randomization with mismeasurement
  Journal of Statistical Planning and Inference, Vol. 142, No. 7
- A real-time variable cost-based maintenance model from prognostic information
- Stochastic policy search for variance-penalized semi-Markov control
- Target-sensitive control of Markov and semi-Markov processes
  12 October 2011 | International Journal of Control, Automation and Systems, Vol. 9, No. 5
- A Budget-Sensitive Approach to Scheduling Maintenance in a Total Productive Maintenance (TPM) Program
  20 April 2015 | Engineering Management Journal, Vol. 23, No. 3
- Finite horizon Markov control with one-step variance penalties
- Reinforcement learning for model building and variance-penalized control
- On step sizes, stochastic shortest paths, and survival probabilities in Reinforcement Learning
- SEMI-MARKOV DECISION PROCESSES
  22 October 2007 | Probability in the Engineering and Informational Sciences, Vol. 21, No. 4
- Markov Decision Processes with Variance Minimization: A New Condition and Approach
  Stochastic Analysis and Applications, Vol. 25, No. 3
- Bias and Variance Approximation in Value Function Estimates
  Shie Mannor,
  Duncan Simester,
  Peng Sun,
  John N. Tsitsiklis,
  1 February 2007 | Management Science, Vol. 53, No. 2
- On the total reward variance for continuous-time Markov reward chains
  14 July 2016 | Journal of Applied Probability, Vol. 43, No. 4
- A risk-sensitive approach to total productive maintenance
  Automatica, Vol. 42, No. 8
- Time Consistent Dynamic Risk Measures
  26 January 2006 | Mathematical Methods of Operations Research, Vol. 63, No. 1
- On mean reward variance in semi-Markov processes
  19 November 2005 | Mathematical Methods of Operations Research, Vol. 62, No. 3
- Computational approaches to variance-penalized Markov decision processes
  Journal of Statistics and Management Systems, Vol. 8, No. 2
- Stochastic optimization of forward recursive functions
  Journal of Mathematical Analysis and Applications, Vol. 292, No. 1
- Stochastic Target Hitting Time and the Problem of Early Retirement
  IEEE Transactions on Automatic Control, Vol. 49, No. 3
- On the Set of Optimal Policies in Variance Penalized Markov Decision Chains
- Optimal Solutions for Undiscounted Variance Penalized Markov Decision Chains
- An algorithm for finding reliably schedulable plans
- Finite State and Action MDPS
- Achieving Target State-Action Frequencies in Multichain Average-Reward Markov Decision Processes
  Dmitry Krass,
  O. J. Vrieze,
  1 August 2002 | Mathematics of Operations Research, Vol. 27, No. 3
- Optimal policy for minimizing risk models in Markov decision processes
  Journal of Mathematical Analysis and Applications, Vol. 271, No. 1
- Notes on average Markov decision processes with a minimum-variance criterion
  Operations Research Letters, Vol. 30, No. 2
- Finite Horizon Portfolio Risk Models with Probability Criterion
- On Modeling Risk in Markov Decision Processes
- Non-homogeneous Markov Decision Processes with a Constraint
  Journal of Mathematical Analysis and Applications, Vol. 214, No. 1
- Markov decision programming–the moment optimal problem for the first-passage model
  17 February 2009 | The Journal of the Australian Mathematical Society. Series B. Applied Mathematics, Vol. 38, No. 4
- Finite-horizon variance penalised Markov decision processes
  1 March 1997 | Operations-Research-Spektrum, Vol. 19, No. 1
- Using Markov decision processes to optimize a nonlinear functional of the final distribution, with manufacturing applications
- Notes on variance in randomized reward Markov decision processes
  Journal of Information and Optimization Sciences, Vol. 18, No. 1
- Mean-Variance Analysis in Infinite Horizon Non-Discounted Markov Decision Processes: Technical Note
  Journal of Information and Optimization Sciences, Vol. 16, No. 2
- A mathematical programming approach to a problem in variance penalised Markov decision processes
  OR Spektrum, Vol. 15, No. 4
- Bibliography
  27 May 2008
- Survey of linear programming for standard and nonstandard Markovian control problems. Part I: Theory
  ZOR - Methods and Models of Operations Research, Vol. 40, No. 1
- Risk-Sensitive Planning with Probabilistic Decision Graphs
- Mean-variance criteria in an undiscounted Markov decision process
  European Journal of Operational Research, Vol. 69, No. 2
- Computational approaches to variance-penalised Markov decision processes
  1 June 1992 | Operations-Research-Spektrum, Vol. 14, No. 2
- Multi-objective discounted Markov decision processes with expectation and variance criteria
  International Journal of Systems Science, Vol. 23, No. 6
- A Solution for the Variance-Penalized Markov Decision Problem Based on Parametric Linear Programming
- Remarks on maximal meanstandard devition ratio in undiscounted mdps
  28 November 2010 | Optimization, Vol. 26, No. 3-4
- Markov Decision Problems and State-Action Frequencies
  SIAM Journal on Control and Optimization, Vol. 29, No. 4
- Solution strategies for variance minimization problems
  Computers & Mathematics with Applications, Vol. 21, No. 2-3
- Variability sensitive Markov decision processes
- Markov optimization problems: state-action frequencies revisited

cover image Mathematics of Operations Research

Volume 14, Issue 1

February 1989

Pages 1-187

Article Information

Metrics

Information

Published Online:February 01, 1989

Cite as

Jerzy A. Filar, L. C. M. Kallenberg, Huey-Miin Lee, (1989) Variance-Penalized Markov Decision Processes. Mathematics of Operations Research 14(1):147-161.

https://doi.org/10.1287/moor.14.1.147

Keywords

PDF download

Available Issues

Available Issues

Available Issues

Available Issues

Available Issues

Available Issues

Available Issues

Variance-Penalized Markov Decision Processes

Abstract

Volume 14, Issue 1

Article Information

Metrics

Information

Cite as

Keywords

Sign Up for INFORMS Publications Updates and News