凸函数优化 Convex Optimization

凸函数 (Convex Function)

定义 (Definition)

一个函数 $f : R^{n} \to R$ 是凸的，如果对于所有 $x, y \in R^{n}$ 和 $λ \in [0, 1]$ ，满足

A function $f : R^{n} \to R$ is convex if for all $x, y \in R^{n}$ and $λ \in [0, 1]$ , the following holds:

f (λ x + (1 - λ) y) \leq λ f (x) + (1 - λ) f (y)

一阶条件 (First-order Condition)

一个可微函数 $f$ 是凸的，当且仅当对所有 $x, y \in R^{n}$ ，满足

A differentiable function $f$ is convex if and only if for all $x, y \in R^{n}$ , the following holds:

f (y) \geq f (x) + \nabla f (x)^{T} (y - x)

其中 $\nabla f (x)$ 是 $f$ 在 $x$ 处的梯度向量

where $\nabla f (x)$ is the gradient vector of $f$ at $x$

二阶条件 (Second-order Condition)

一个两次可微函数 $f$ 是凸的，当且仅当对于所有 $x \in R^{n}$ ，Hessian 矩阵 $\nabla^{2} f (x)$ 半正定

A twice-differentiable function $f$ is convex if and only if for all $x \in R^{n}$ , the Hessian matrix $\nabla^{2} f (x)$ is positive semidefinite

Hessian 矩阵 (Hessian Matrix)

定义 (Definition)

Hessian 矩阵是由函数 $f$ 的所有二阶偏导数组成的方阵，记作 $\nabla^{2} f (x)$

The Hessian matrix is a square matrix of second-order partial derivatives of a function $f$ , denoted as $\nabla^{2} f (x)$

\nabla^{2} f (x) = \frac{\partial ^{2} f}{\partial x _{1}^{2}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{1}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{1}} \frac{\partial ^{2} f}{\partial x _{1} \partial x _{2}} \frac{\partial ^{2} f}{\partial x _{2}^{2}} ⋮ \frac{\partial ^{2} f}{\partial x _{n} \partial x _{2}} \dots \dots ⋱ \dots \frac{\partial ^{2} f}{\partial x _{1} \partial x _{n}} \frac{\partial ^{2} f}{\partial x _{2} \partial x _{n}} ⋮ \frac{\partial ^{2} f}{\partial x _{n}^{2}}

性质 (Properties)

对称性：如果 $f$ 二次可微，则 Hessian 矩阵 $\nabla^{2} f (x)$ 是对称的 Symmetry: If $f$ is twice differentiable, then the Hessian matrix $\nabla^{2} f (x)$ is symmetric
半正定性：如果 $f$ 是凸函数，则 $\nabla^{2} f (x)$ 是半正定的 Positive semi-definiteness: If $f$ is a convex function, then $\nabla^{2} f (x)$ is positive semidefinite

矩阵求导 (Matrix Calculus)

梯度 (Gradient)

向量 $x \in R^{n}$ 的函数 $f (x)$ 的梯度是一个包含所有偏导数的列向量

The gradient of a function $f (x)$ with respect to a vector $x \in R^{n}$ is a column vector containing all partial derivatives

\nabla f (x) = \frac{\partial f}{\partial x _{1}} \frac{\partial f}{\partial x _{2}} ⋮ \frac{\partial f}{\partial x _{n}}

雅可比矩阵 (Jacobian Matrix)

向量值函数 $f : R^{n} \to R^{m}$ 的雅可比矩阵是一个 $m \times n$ 的矩阵，包含所有一阶偏导数

The Jacobian matrix of a vector-valued function $f : R^{n} \to R^{m}$ is an $m \times n$ matrix containing all first-order partial derivatives

J_{f} = \frac{\partial f _{1}}{\partial x _{1}} \frac{\partial f _{2}}{\partial x _{1}} ⋮ \frac{\partial f _{m}}{\partial x _{1}} \frac{\partial f _{1}}{\partial x _{2}} \frac{\partial f _{2}}{\partial x _{2}} ⋮ \frac{\partial f _{m}}{\partial x _{2}} \dots \dots ⋱ \dots \frac{\partial f _{1}}{\partial x _{n}} \frac{\partial f _{2}}{\partial x _{n}} ⋮ \frac{\partial f _{m}}{\partial x _{n}}

矩阵的导数 (Derivatives of Matrices)

如果 $A$ 是一个 $m \times n$ 的常数矩阵， $x \in R^{n}$ 是一个变量向量，则 $A x$ 对 $x$ 的导数是 $A$

If $A$ is an $m \times n$ constant matrix and $x \in R^{n}$ is a variable vector, then the derivative of $A x$ with respect to $x$ is $A$

\frac{\partial ( A x )}{\partial x} = A

矩阵和向量求导法则 (Rules for Matrix and Vector Derivatives)

矩阵求导法则 (Matrix Derivative Rules)

对于标量函数 $f (x)$ ， $x \in R^{n}$ ，梯度 $\nabla f (x)$ 是一个列向量 For a scalar function $f (x)$ , $x \in R^{n}$ , the gradient $\nabla f (x)$ is a column vector

\nabla f (x) = \frac{\partial f}{\partial x _{1}} \frac{\partial f}{\partial x _{2}} ⋮ \frac{\partial f}{\partial x _{n}}

对于矩阵 $A \in R^{m \times n}$ 和向量 $x \in R^{n}$ ， $A x$ 对 $x$ 的导数是 $A$ For a matrix $A \in R^{m \times n}$ and a vector $x \in R^{n}$ , the derivative of $A x$ with respect to $x$ is $A$

\frac{\partial ( A x )}{\partial x} = A

对于矩阵 $A \in R^{n \times n}$ 和向量 $x \in R^{n}$ ， $x^{T} A x$ 对 $x$ 的导数是 $2 A x$ For a matrix $A \in R^{n \times n}$ and a vector $x \in R^{n}$ , the derivative of $x^{T} A x$ with respect to $x$ is $2 A x$

\frac{\partial ( x ^{T} A x )}{\partial x} = 2 A x

对于标量函数 $f (A x)$ ，其中 $f : R^{m} \to R$ 和 $A \in R^{m \times n}$ ，导数是 $A^{T} \nabla f (A x)$ For a scalar function $f (A x)$ , where $f : R^{m} \to R$ and $A \in R^{m \times n}$ , the derivative is $A^{T} \nabla f (A x)$

\frac{\partial f ( A x )}{\partial x} = A^{T} \nabla f (A x)

Zephyr's Notes on ISCS & CBMS, UTokyo

Explorer

Explorer

凸函数优化

凸函数优化 Convex Optimization

凸函数 (Convex Function)

定义 (Definition)

一阶条件 (First-order Condition)

二阶条件 (Second-order Condition)

Hessian 矩阵 (Hessian Matrix)

定义 (Definition)

性质 (Properties)

矩阵求导 (Matrix Calculus)

梯度 (Gradient)

雅可比矩阵 (Jacobian Matrix)

矩阵的导数 (Derivatives of Matrices)

矩阵和向量求导法则 (Rules for Matrix and Vector Derivatives)

矩阵求导法则 (Matrix Derivative Rules)

Graph View

Table of Contents

Backlinks