Исследовать функцию на экстремум двух переменных: Исследовать на экстремум функции двух переменных

Матрица Гессе онлайн

Назначение сервиса. Онлайн-калькулятор используется для нахождения матрицы Гессе и определения вида функции (выпуклая или вогнутая). Решение оформляется в формате Word. Для функции одной переменной f(x) определяются интервалы выпуклости и вогнутости.
  • Решение онлайн
  • Видеоинструкция

f(x1,x2,x3) =

Находить в точке X0: x1 = , x2 = , x3 =

Правила ввода функций:

  1. Все переменные выражаются через x1,x2,x3

Дважды непрерывно дифференцируемая функция f(x) является выпуклой (вогнутой) тогда и только тогда, когда матрица Гессе функции f(x) по x положительно (отрицательно) полуопределена для всех x (см.

точки локальных экстремумов функции многих переменных).

Критические точки функции:

  • если гессиан положительно определён, то x0 — точка локального минимума функции f(x),
  • если гессиан отрицательно определён, то x0 — точка локального максимума функции f(x),
  • если гессиан не является знакоопределённым (принимает как положительные, так и отрицательные значения) и невырожден (det G(f) ≠ 0), то x0 — седловая точка функции f(x).
Положительная определенность:
  • все диагональные элементы матрицы должны быть положительны;
  • все ведущие главные определители должны быть положительны.
Для положительно полуопределённых матриц критерий Сильвестра звучит подобным образом: Форма положительно полуопределена тогда и только тогда, когда все главные миноры неотрицательны. Если матрица Гессе в точке положительно полуопределена (все главные миноры неотрицательные), то это точка минимума (однако, если гессиан полуопределен, а один из миноров равен 0, то это может быть и седловая точка.
Нужны дополнительные проверки).

Положительная полуопределенность:

  • все диагональные элементы неотрицательны;
  • все главные определители неотрицательны.
Главный определитель – это определитель главного минора.

Квадратная симметрическая матрица порядка n, элементами которой являются частные производные целевой функции второго порядка, называется матрицей Гессе и обозначается:

Для того, чтобы симметрическая матрица была положительно определена, необходимо и достаточно, чтобы все ее диагональные миноры были положительны, т.е. для матрицы
A
= (aij) положительные.

Отрицательная определенность.
Для того чтобы симметрическая матрица была отрицательно определена, необходимо и достаточно, чтобы имели место неравенства:
(-1)k Dk> 0, k =1,.., n.
Другими словами, для того, чтобы квадратичная форма была отрицательно определённой, необходимо и достаточно, чтобы знаки угловых миноров матрицы квадратичной формы чередовались, начиная со знака минус. Например, для двух переменных, D1 < 0, D2 > 0.

Если гессиан полуопределен, то это может быть и точка перегиба. Нужны дополнительные исследования, которые могут быть проведены по одному из следующих вариантов:

  1. Понижение порядка. Делается замена переменных. Например, для функции двух переменных это
    y=x
    , в итоге получаем функцию одного переменного x. Далее исследуется поведение функции на прямых y=x и y=-x. Если в первом случае функция в исследуемой точке будет иметь минимум, а в другом случае максимум (или наоборот), то исследуемая точка представляет собой седловую точку.
  2. Нахождение собственных значений гессиана. Если все значения положительные, функция в исследуемой точке имеет минимум, если все отрицательные – имеется максимум.
  3. Исследование функции f(x) в окрестности точки ε. Переменные x заменяются на x0+ε. Далее необходимо доказать, что функция f(x0+ε) от одной переменной ε, либо больше нуля (тогда x0 точка минимума), либо меньше нуля (тогда x0 точка максимума).

Примечание. Чтобы найти обратный гессиан достаточно найти обратную матрицу.

Пример №1. Какие из следующих функций являются выпуклыми или вогнутыми: f(x) = 8x12+4x1x2+5x22.
Решение. 1. Найдем частные производные.


2. Решим систему уравнений.
-4x1+4x2+2 = 0
4x1-6x2+6 = 0
Получим:
а) Из первого уравнения выражаем x1 и подставляем во второе уравнение:
x2 = x2+1/2
-2x2+8 = 0
Откуда x2 = 4
Данные значения x2 подставляем в выражение для x1. Получаем: x1 = 9/2
Количество критических точек равно 1.
M1(9/2;4)

3. Найдем частные производные второго порядка.



4. Вычислим значение этих частных производных второго порядка в критических точках M(x0;y0).
Вычисляем значения для точки M1(9/2;4)



Строим матрицу Гессе:

D1 = a11 < 0, D2 = 8 > 0
Поскольку диагональные миноры имеют различные знаки, то о выпуклости или вогнутости функции ничего сказать нельзя.

Пример №2. Выяснить, является ли функция f(x) = 2x12 + x22 + sin(x1 + x2) выпуклой в пространстве R2.
Решение. Дважды дифференцируемая функция является выпуклой в пространстве R

2, если главные угловые миноры матрицы Гессе неотрицательны. Запишем матрицу Гессе – матрицу вторых производных:

Угловые миноры Δi соответственно равны: Таким образом, D1> 0, D2 > 0 при всех значениях x∈R2, т. е. функция f(x) выпукла.

Пример №3. Является ли функция f(x) = x1+2*x1*x2+4*x2 выпуклой, вогнутой?
Решение. 1. Найдем частные производные.

2. Решим систему уравнений.
2•x2+1 = 0
2•x1+4 = 0
Получим:
Количество критических точек равно 2.
M1(0;-1/2), M2(-2;0)
3. Найдем частные производные второго порядка.



4. Вычислим значение этих частных производных второго порядка в критических точках M(x

0;y0).
Вычисляем значения для точки M1(0;-1/2)



Строим матрицу Гессе:


D1 = a11 = 0, то вопрос о вогнутости или выпуклости функции остается открытым.
Вычисляем значения для точки M2(-2;0)



Строим матрицу Гессе:
D1 = a11 = 0, то вопрос о вогнутости или выпуклости функции остается открытым.

Пример №4. Выяснить, является ли функция выпуклой в пространстве R2.
Решение. Запишем матрицу Гессе – матрицу вторых производных:

Угловые миноры равны:


Таким образом, D1> 0, D2 > 0 при всех значениях x∈R2, т.е. функция f(x) выпукла.

Экстремум функции двух переменных

Экстремум функции двух переменных

 

Экстремум функции двух переменных

 

Говорят, что функция имеет максимум в точке , т.е. при , если для всех точек , достаточно близких к точке и отличных от неё.


Говорят, что функция имеет минимум в точке , т.е. при , если для всех точек , достаточно близких к точке и отличных от неё.


Максимум и минимум функции называются экстремумами функции.


Теорема
(необходимое условие экстремума функции двух переменных). Если функция достигает экстремума при , то каждая частная производная первого порядка от или обращается в нуль при этих значениях аргументов, или не существует.


Теорема
(достаточное условие экстремума функции двух переменных). Пусть в некоторой области, содержащей точку функция имеет непрерывные частные производные до третьего порядка включительно. Пусть, кроме того, точка является критической точкой функции , т.е.
,
тогда при :
1) имеет максимум, если дискриминант и , где ;
2) имеет минимум, если дискриминант и ;
3) не имеет ни минимума, ни максимума, если дискриминант ;
4) если , то экстремум может быть, а может и не быть (требуется дополнительное исследование).

 

Примеры решения задач

Пример 1. Исследовать на экстремум функцию .

Решение.

На первом шаге, в соответствие с достаточным условием экстремума функции двух переменных, найдем точки, удовлетворяющие условию:


Частные производные первого порядка от функции равны:


Приравняем их к нулю и решим систему уравнений:


Выпишем отдельно первое уравнение системы и найдем его корни:



Подставим найденные значения переменной во второе уравнение системы:

и

Таким образом, получили две точки и , в которых будет продолжено исследование функции на экстремум.


На втором шаге найдем все вторые частные производные от функции :

 

На третьем шаге для каждой из точек и установим наличие экстремума функции (для этого вычислим значения вторых производных и найдем знак дискриминанта в указанных точках).


1) Для точки :


Так как дискриминант больше нуля и , то функция имеет минимум в точке :
.

2) Для точки :

Так как дискриминант меньше нуля, то функция не имеет в точке ни минимума, ни максимума.

Ответ: в точке функция имеет минимум.


Math Tutor — Extra — Функции дополнительных переменных

Math Tutor — Extra — Функции дополнительных переменных

Обычное определение локального экстремума вполне естественно переносится на случае большего количества переменных.

Определение.
Пусть f — функция, определенная в некоторой окрестности точки ∈&реальные; п .

Мы говорим, что f имеет локальный максимум при , или это ж () является локальным максимумом, если существует окрестность U  =  U () такой, что ж () ≥ ж () для всех ∈ U .

Мы говорим, что f имеет локальный минимум при , или это ж () является локальным минимумом, если существует окрестность U  =  U () такой, что ж () ≤ ж () для всех ∈ U .

На рисунке ниже для случая двух переменных показаны два локальных максимума на слева и локальный минимум справа.

Вот как мы также представляем себе эти понятия для большего количества измерений. Местный максимум обладает тем свойством, что если мы разрезаем график через эту точку в любом направлении (переходя таким образом к ситуации одной переменной), то мы все равно иметь локальный максимум в обычном смысле на этом срезе. аналогичный свойство верно для каждого локального минимума.

В большем количестве измерений есть новый тип поведения, мы видим это на картинке. между двумя холмами. Если мы разрежем там график плоскостью в направлении ведущей между холмами, то мы видим локальный максимум на срезе там в Долина. Однако, если мы разрезаем график по перпендикулярной вертикали плоскости (проходящей через две вершины), затем в долине видим местную минимум на срезе. Такие точки называются седлами или седловыми точками и мы сталкиваемся с ними при расследовании экстрамы, поэтому их обычно учитывают среди точек для изучения, когда вопрос касается экстремумов.

Как найти эти локальные экстремумы? Процедура похожа на исследование локальных экстремумов функций одной переменной. Грубо говоря, сначала находим кандидатов с помощью первой производной, затем классифицируем их используя вторую производную.

Если мы разрежем граф произвольной вертикальной плоскостью через некоторую локальную экстрим, мы также получаем экстремум на срезе, поэтому производная в в это направление должно быть равно нулю. Если все направленные производные должны быть равны нулю, то градиент при (как вектор) должен быть также ноль.

Другое рассуждение: в локальном экстремуме касательная плоскость должна быть горизонтальной, поэтому его нормальный вектор должен быть вертикальным. Мы наблюдали в предыдущая глава что в качестве вектора нормали можно взять вектор

Этот вектор является вертикальным в точности, если () = 0 для всех i , т.е. ∇ ж () = .

Теорема.
Пусть f — функция, определенная в некоторой окрестности точки ∈&реальные; п . Если f имеет локальный экстремум при и градиент там существует, то ∇ ж () = .

Точки, где ∇ ж () = называются неподвижными точками . С немного удачи, мы можем найти их, решив систему n уравнений () = 0 для n неизвестных x 1 ,…, x n .

Как обычно утверждение не работает в обратную сторону, не каждый стационарная точка является локальным экстремумом. Достаточно вспомнить седловые точки, которые стационарные точки, но не экстремумы. Поэтому, когда мы находим стационарные точки, мы необходимо их классифицировать. Для этого воспользуемся критерием Сильвестра. Легче запомнить его условия, если вы можете себе представить, что на самом деле происходит там.

Локальный максимум можно узнать по тому, что он является максимумом на всех срезов, в частности, при резке параллельно осям. В одной переменной ситуации мы легко распознаем локальный максимум, используя вторую производную, поэтому в случае большего количества измерений мы ожидаем, что локальный максимум будет удовлетворять () < 0 для всех и . Аналогично, для локального минимума ожидаем () > 0 для всех и .

Теперь сосредоточимся на случае двух переменных. Все экстремумы (максимумы и минимумы) имеют одну общую черту — признаки ( х , и ) и ( х , и ) должны быть согласованы, что можно выразить с помощью условия ( x , y )⋅( x , y ) > 0. И наоборот, если ( x , y )⋅( x , y ) < 0, то знаки должны отличаться, в одном срезе мы видим максимум, в другой минимум, и мы, очевидно, получаем здесь седло.

Мы видим, что произведение несмешанных вторых производных может служить основной инструмент для различения седел и экстремумов. И как только мы находим это рассматриваемая точка является крайностью, то различать максимум и как минимум достаточно проверить на каком-то срезе, то есть мы просто проверяем на знак произвольной несмешанной второй производной, например ( х , и ).

Эти наблюдения не были полностью ошибочными, но есть неприятная зазор. Мы заметили, что экстремум имеет положительное произведение двух секунд. производные, но на самом деле нужно другое направление. Если мы обнаружим, что произведение положительное, значит ли это, что у нас локальный экстремум? К сожалению нет.

Проблема заключается в том, что мы также должны учитывать смешанные производные, то есть мы должны рассмотреть все элементы матрицы Гесса

Выше мы использовали произведение его диагонали для принятия первого решения, возможно, это напомнило читателю определитель. оказывается что это действительно так работает, det( H ) > 0 указывает на крайность, det( H ) < 0 указывает на седло. Получаем следующий алгоритм.

1. Решив уравнение ∇ ф ( х , у ) = , то есть система

находим стационарные точки.

2. Для каждой стационарной точки находим соответствующую матрицу Гесса H  =  H ().

3. Если det( H ) < 0, тогда есть седло на .

4. Если det( H ) > 0, то есть локальный экстремум в . Это локальный максимум, если () < 0, это локальный минимум, если () > 0,

Когда в ключевые моменты появляются нули, то этот алгоритм дает сбой, мы ничего не знаем и должны использоваться более продвинутые методы. Это отдельная тема вступление.

Если мы хотим обобщить эту процедуру для большего количества переменных, мы должны посмотреть на него под другим углом. Сначала мы замечаем, что на шаге 4 мы на самом деле также проверка знака некоторой матрицы, а именно подматрицы H , заданной формулой его верхний левый угол. Это интересное вдохновение. Мы представляем себе (большая) матрица H и спрашиваем, что можно ожидать от ее верхнего левого субдетерминанты всех размеров, они традиционно обозначаются Δ и . Чтобы избежать более глубокой теории, мы предполагаем теперь, что все смешанные производные равны нулю, поэтому H — диагональная матрица, тогда определитель — это просто произведение диагональ.

Напомним, что в случае локального максимума мы ожидаем () < 0 для всех i , тогда как в случае локального минимума ожидаем () > 0 для всех и .

  • Первый субдетерминант — это верхняя левая запись H , то есть

    Он должен быть отрицательным для максимума, положительным для минимума.

  • Второй поддетерминант задается матрицей 2 × 2 в верхний левый угол Н , т.е.

    Он должен быть положительным как для максимума, так и для минимума.

  • Третий поддетерминант задается матрицей 3×3 в верхний левый угол H , т.е.

    Он должен быть отрицательным для максимума, положительным для минимума.

Вы, конечно, можете решить, как это должно продолжаться. Для максимумов знаки чередуются, для минимумов все субдетерминанты оказываются положительными.

Если есть какая-то другая прогрессия знаков, то у нас нет максимума или минимальным, а если некоторые из определителей равны нулю, то весь процедура не удалась, и мы не знаем, что происходит в .

Наши наблюдения о диагонали H в целом верны.

Теорема (критерий Сильвестра).
Пусть f определено и имеет непрерывные частные производные второго порядка на некоторая окрестность точки стационарный на ф , т.е. ∇ f () = 0. Пусть H будет матрицей Гесса f при , позволять Δ и — его верхние левые субдетерминанты.

Если Δ i  > 0 для всех и , то ж () является локальным минимумом.

Если Δ 1  < 0, Δ 2  > 0, Δ 3  < 0, и так далее до (−1) n Δ n  > 0, тогда ф () является локальным максимумом.

Алгоритм исследования локальных экстремумов для

ф ().

1. Решив уравнение ∇ ж () = , то есть система

находим стационарные точки.

2. Для каждой стационарной точки находим соответствующую матрицу Гесса H  =  H ().

3. Оцениваем субдетерминанты Δ и , то есть определители верхних левых подматриц размера я × я .

4. Если Δ i  > 0 для всех i , то есть локальный минимум при .
Если знаки чередуются Δ 1  < 0, Δ 2  > 0, Δ 3  < 0,..., то есть локальный максимум при .

Пример.
Находим классифицируемые локальные экстремумы функции f ( x , y , z ) = 2 x y 2  − 4 x y  +  x 2  +  z 2  − 2 z .

Сначала находим стационарные точки. Уравнение ∇ ж () = в этом случае

Это система из трех уравнений с тремя переменными, это звучит обнадеживающе, но уравнения нелинейны, так что вся хорошая теория бесполезна. Как мы решаем общие системы?

Начнем с того, что заметим, что третье уравнение не зависит от остальных, так точно z  = 1. Что дальше? Самый надежный метод – удаление. мы продолжаем выражать определенные переменные из уравнений и подставлять их в другие, тем самым уменьшая количество уравнений и неизвестных. Здесь мы могли используйте первое уравнение, чтобы найти x  = 2 y  −  y 2 и подставьте это в второе уравнение, создающее уравнение третьей степени с неизвестными y , если повезет, с этим можно справиться с помощью умного факторинга (попробуйте). Однако, это немного похоже на приключение, полезно знать некоторые альтернативы.

Мы сосредоточимся на втором уравнении, которое мы перепишем как 4 x ( y  — 1) = 0. Если мы можем создать продукт с одной стороны и ноль с другой, мы достигнем цели. джекпот. В данном конкретном случае мы видим, что есть две возможности, x  = 0 или y  = 1,

Случай y  = 1 изменяет первое уравнение на −2 + 2  x  = 0, то есть x  = 1 и у нас есть первая стационарная точка (1,1,1).

Дело x  = 0 превращает первое уравнение в г 2  — 2 г  = 0 и есть два решения: y  = 0 и y  = 2. Таким образом, мы получаем еще две стационарные точки, (0,0,1) и (0,2,1).

Теперь нам нужно исследовать все три стационарные точки, поэтому нам нужен метод Гесса. матрица. Подготовим вторые частные производные, благодаря симметрии достаточно, чтобы вычислить шесть из них:

Матрица Гесса

Вот так:

Точка (1,1,1):

Знаки идут +, +, +, поэтому f (1,1,1) = −2 является локальным минимумом.

Точка (0,0,1):

Знаки идут +, -, -, следовательно f (0,0,1) = −1 не является локальным экстремумом.

Точка (0,2,1):

Знаки идут +, +, -, следовательно f (0,2,1) = 3 не является локальным экстремумом.

Пример.
Исследуем локальные экстремумы функции f ( x , y ) =  x y e x y 2 /2 .

Сначала находим стационарные точки.

Поскольку экспонента всегда положительна, мы можем разделить уравнения на нее и решить уравнения (1 +  x ) y  = 0 и x (1 −  y   2  ) = 0 вместо. Переписали уравнения к выгодной форме произведения и первый дает две возможности.

Если y  = 0, то из второго уравнения имеем x  = 0. и стационарная точка (0,0).

Если x  = −1, то из второго уравнения получаем имеют y  = ±1. Мы нашли стационарные точки (−1,−1),(−1,1).

Подготовим вторые частные производные:

Матрица Гесса

Термин e x y 2 /2 всегда положителен, поэтому мы выносим его из всех записей, это не повлияет на знаки определителей. Достаточно использовать матрица

Так как у нас есть функция двух переменных, мы используем первый алгоритм, где мы сначала проверяем Δ 2 .

Точка (0,0):

следовательно, Δ 2  = −1 < 0 и f (0,0) = 0 — седло.

Точка (−1,1):

следовательно, Δ 2  = 2 > 0 а у нас местный экстрим. С Δ 1  = 1 > 0, f (−1,1) = − e −3/2 является локальным минимумом.

Точка (-1,-1):

следовательно, Δ 2  = 2 > 0 а у нас местный экстрим. С Δ 1  = -1 < 0, f (-1,-1) =  e -3/2 является локальным максимумом.


Функции большего количества переменных: Интеграл
Back to Extra — Функции большего количества переменных

Алгоритм поиска локальных/глобальных минимумов, функция двух переменных

спросил

Изменено 10 лет, 3 месяца назад

Просмотрено 2к раз

Пусть у нас есть функция двух переменных:

 z=f(x,y) = . ...
 

Можете ли вы посоветовать какой-либо подходящий метод (просто алгоритмизируемый, быстрая сходимость) для вычисления локального экстремума на некоторых интервалах или глобального экстремума?

Спасибо за помощь.

  • алгоритм
  • функция
  • минимум

4

Градиентный спуск — разумный выбор для поиска локальных минимумов функций, если вы можете вычислить градиент.

В зависимости от конкретного домена — иногда есть и другие решения.
Например, для Linear-Least-Squares (который используется для регрессии в области машинного обучения) можно найти локальные (и глобальные, функция в данном случае выпуклая) — можно использовать нормальные уравнения

РЕДАКТИРОВАТЬ: Как было предложено в комментариях: Если у вас нет никакой информации о функции, вы можете использовать алгоритм восхождения на холм , где вы выбираете кандидатов, куда продвигаться (вам нужно взять выборка, потому что направлений бесконечное множество, если функция вещественных чисел) — и выбрал наиболее перспективное.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *