Det a матрицы что это: Определитель матрицы | это… Что такое Определитель матрицы?

Matrix derivative (preview) · GitHub

\meta
\title Производные и градиенты
\author Илья Щуров
\affiliation НИУ ВШЭ
\project
Машинное обучение для факультета экономики, 2017-18 учебный год
\url http://wiki.cs.hse.ru/Машинное_обучение_(факультет_экономических_наук)
\lang ru
В машинном обучении часто приходится находить производные и градиенты от
функций, заданных в виде каких-то операций над матрицами. n$. Если в
этом пространстве введён базис и в этом базисе $h=(h_1, \ldots, h_n)$, то любой такой
функционал имеет вид $Ah=a_1 h_1+\ldots a_n h_n$. В этом случае $a_k$,
$k=1,\ldots, n$ — это частная производная функции $f$ по $x_k$:
\equation \label eq:differential
Ah = \frac{\partial f}{\partial x_1}(x)h_1+\ldots+\frac{\partial f}{\partial x_n}(x)h_n
Эта штука более известна как \emph{дифференциал} функции нескольких переменных. Мы будем обозначать его через $df_{x}$, то есть $df_{x}(h)=Ah$. 1$, $k=1,
\ldots, m$. Тогда матрица отображения $A$ — это матрица частных производных:
\eq
A_{ij}=\frac{\partial f_i}{\partial x_j}(x).
Эта матрица также известна как матрица Якоби. Мы будем обозначать
соответствующее отображение через $D_{x}f$.
\remark
Само понятие производной не требует введения какого-либо базиса и каких-либо
координат. 1$. Его
\emph{градиентом} в точке $x$ называется такой вектор $u$, что
\eq
df_{x}(h)=\langle u, h\rangle,
где $df_{x}$ — дифференциал функции $f$ в точке $x$.
Это определение замечательно своей бескоординатностью: оно не требует введения
частных производных, а требует только наличия скалярного произведения. Тем не
менее, если скалярное произведение задаётся стандартным образом ($\langle u, v
\rangle = u_1 v_1 + \ldots + u_n v_n$), то градиент оказывается вектором,
составленным из частных производных, как мы и привыкли. Действительно, в правой
части формулы \ref{eq:differential} написано скалярное произведение вектора
$\frac{\partial f}{\partial x_1}(x), \ldots, \frac{\partial f}{\partial
x_n}(x)$ и вектора $h$.
Мы будем обозначать градиент через $\nabla_{x} f$.
\section Некоторые стандартные производные
Здесь мы используем данные выше определения для вычисления некоторых производных
и градиентов. В дальнейшем мы будем использовать матричную нотацию, вектор $u\in
\mathbb R^n$ будет отождествляться с вектор-столбцом (матрицей с одним столбцом
и $n$ строками), транспонирование будет обозначаться верхним индексом $T$. T)x.
\subsection След
Рассмотрим функцию «след» $\newcommand{\Tr}{\mathop{\mathrm{Tr}}}\Tr$ из пространства матриц в числа. Для матрицы $A=(a_{ij})$ след определяется как сумма диагональных элементов:
\eq
\Tr A = a_{11} + \ldots + a_{nn}
След играет важную роль в дальнейшем, поскольку с его помощью можно легко
записать скалярное произведение между матрицами. Действительно, давайте введём в
пространстве матриц базис, состоящий из матриц, у которых на $ij$-ом месте стоит
1, а на всех остальных местах — нули. 2}$, записывая, например,
все компоненты матрицы по строкам в качестве компонент этого вектора. Так
матрица
\eq
\begin{pmatrix} a_{11} & a_{12} \\\\
a_{21} & a_{22}
\end{pmatrix}
превращается в вектор $(a_{11}, a_{12}, a_{21}, a_{22})$.
Если ввести теперь на матрицах скалярное произведение так же, как на векторах,
то оно будет записываться в виде
\equation \label eq:ABTR
\langle A, B \rangle = \Tr (A^TB).
Проверка этого факта проводится непосредственым вычислением, которое мы
предлагаем сделать читателю самостоятельно.
\subsection Производная и градиент следа
Найдём теперь производную следа в точке $X$. Аргументом следа является
матрица, поэтому мы получим «производную по матрице» и $X$ тоже является
матрицей.
\eq
\Tr(X+H)=\Tr(X)+\Tr(H).
Это равенство следует из определения следа. Таким образом, производная следа
— это тоже след, $D_{X} \Tr(H)=\Tr(H)$.
Чему равен градиент следа? Иными словами, какую матрицу $W$ нужно взять, чтобы
скалярное произведение $H$ с этой матрицей равнялось $\Tr(H)$. Из формулы
\ref{eq:ABTR} видим, что $W=E$, тождественная матрица.
Конечно, аналогичный результат можно было бы получить (вероятно, даже проще)
исходя из координатного определения следа.
\subsection Производная и градиент определителя
Рассмотрим отображение $f(A)=\det A$. {-1}H$ через $Y$. Пусть собственные значения $Y$ равны
$\lambda_1, \ldots, \lambda_n$. Поскольку $H$ маленькая, то $Y$ тоже маленькая и
её собственные значения маленькие. Определитель не меняется при заменах базиса,
поэтому перейдём к жорданову базису для $H$. Матрица $E$ при этом переходе не
изменится (она вообще в любом базисе выглядит как тождественная). Получающаяся
при этом матрица верхнетреугольная и на её диагонали стоят числа $1+\lambda_1,
\ldots, 1+\lambda_n$. Определитель верхнетреугольной матрицы равен произведению
чисел на диагонали и значит
\eq
\det (E+Y)=(1+\lambda_1)\cdot(1+\lambda_n)=1+(\lambda_1 + \ldots +
\lambda_n)+o(\|Y\|)
Здесь мы воспользовались тем, что собственные значения маленкие и их
произведения имеют ещё больший порядок малости.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

© 2015 - 2019 Муниципальное казённое общеобразовательное учреждение «Таловская средняя школа»

Карта сайта