Puntos estacionarios y matriz Hessiana


En cálculo de funciones de varias variables a veces nos olvidamos del objetivo de toda nuestra teoría, primero hacemos un amplio estudio de nuestros espacios estudiando su topología y propiedades luego introducimos las funciones definidas de un en varias variables (campos escalares y vectoriales) hacemos un estudio de ellas con sus propiedades y características, y básicamente es hacer una generalización de lo que ya teníamos en nuestras funciones de una variable tal es el caso del teorema del valor medio, la regla de la cadena y como expondré aquí el polinomio de Taylor y los puntos estacionarios (críticos en funciones de una variable). Nuestro objetivo es ahora conocer cómo se comportan, en que momento llegan a su máximo o mínimo, o en qué momento cambian
de rumbo (de ser crecientes a decrecientes).
Para nuestro estudio vamos a necesitar las siguientes definiciones.

Definición 1 Supongamos que $f$ es diferenciable en $a$. Si $\nabla f(a)=0$ el punto $a$ se llama punto estacionario de $f$.

Recordando la interpretación geoemétrica del gradiente nos estaría diciendo que en $a$, el punto estacionario, se tiene un plano tangente a la función que es normal al gradiente, es decir normal al vector $O=(0,0,..,0)$, estos puntos estacionarios serán de 3 tipos dependiendo de como se comporten en las proximidades del punto $a$, se definen de la siguiente manera.

Definición 2 Se dice que un campo escalar $f$ tiene un máximo relativo en un punto $a$ si $f(x)\le f(a)$ para todo $x\in B(a,\varepsilon)$ para cierta bola contenida en el dominio. Análogamente se dice que es un mínimo absoluto si se cumple que $f(x)\geq f(a)$ para todo $x\in B(a,\varepsilon)$.

Definición 3 Un punto estacionario se llama de ensilladura si toda bola $B(a,\varepsilon)$ contiene puntos $x$ tales que $f(x)<f(a)$ y otros tales que $f(x)>f(a)$.

Nótese que definición 2 no depende de que sea un punto estacionario, pero el hecho de que $a$ sea un punto estacionario nos indica que debe de ser máximo, mínimo o punto de ensilladura. Hasta ahora solo hemos dado las definiciones, las cuales no nos dan un método para conocer cuál de los casos se presenta, para ello tendremos que hacer uso de nuestras habilidades ya sea algebraicas o en este caso por medio de la aproximación, se verá que en algunos casos será muy fácil determinar cuando algo es máximo o mínimo.

En las funciones de una sola variable vimos que cualquier función derivable la podíamos expresar mediante el polinomio de Taylor, el polinomio nos era de ayuda al momento de querer aproximar valores, este polinomio tiene su versión más fuerte para campos escalares, la demostración de que el polinomio es válido es completamente basada en la del polinomio de una sola variable, el polinomio es: $$f(a+y)-f(a)=\sum _{ i=1 }^{ n }{ { D }_{ i }f(a)y_{ i } } +\frac { 1 }{ 2! } \sum _{ i=1 }^{ n }{ \sum _{ j=1 }^{ n }{ { D }_{ ij }f(a)y_{ i }y_{ j } } } +...+\frac { 1 }{ n! } \sum _{ i=1 }^{ n }{ \sum _{ j=1 }^{ n }{ ...\sum _{ k=1 }^{ n }{ { D }_{ ij..k }f(a){ y }_{ i }y_{ j }...{ y }_{ k } } } } +{ \left\| y \right\| }^{ n }{ E }_{ n }(a,y)$$Donde${ \left\| y \right\| }^{ n }{ E }_{ n }(a,y)$ tiende a $0$ cuando $y$ tiende a $0$, la demostración es sencilla en el sentido de que solo es nesesario aplicar la regla de la cadena varias veces, o empezar con los primeros términos y verificar si que es valido para n.

La expresión se ve demasiado difícil de manejar, la forma en la que nos ayudara será el polinomio de grado 2, lo que nosotros queremos estudiar es cómo se comporta la función es los alrededores
del punto $a$ para ello nos sera de mayor utlilidad el polinomio de grado 2 $$f(a+y)-f(a)=\sum _{ i=1 }^{ n }{ { D }_{ i }f(a)y_{ i } } +\frac { 1 }{ 2! } \sum _{ i=1 }^{ n }{ \sum _{ j=1 }^{ n }{ { D }_{ ij }f(a)y_{ i }y_{ j } } } +{ \left\| y \right\| }^{ 2 }{ E }_{ 2 }(a,y)$$De
esa expresión notemos 2 cosas importantes, la primera es que la primer suma es el gradiente producto punto con $y$ tal que $\sum _{ i=1 }^{ n }{ { D }_{ i }f(a)y_{ i } }=\nabla f(a) \cdot y $, y la segunda parte importante es que el segundo termino es un producto de tres matrices, si pensamos al vector $y$ como una matriz y construimos una matriz compuesta con todas las segundas derivadas de la función $f$, a esa matriz se le llama matriz Hessiana y se define como

$$H(x)=\begin{bmatrix}{D}_{11}f(x) & {D}_{12}f(x) & ... & {D}_{1n}f(x)\\
{D}_{21}f(x) & {D}_{22}f(x) & ... & {D}_{2n}f(x)\\
\vdots & ... & \ddots & \vdots\\
{D}_{n1}f(x) & {D}_{n1}f(x) & ... & {D}_{nn}f(x)
\end{bmatrix}$$

Entonces el segundo termino del polinomio lo podriamos expresar como el producto de las matrices $y$, $H(x)$ y $y^t$ es decir $$\frac { 1 }{ 2! } \sum _{ i=1 }^{ n }{ \sum _{ j=1 }^{ n }{ { D }_{ ij }f(a)y_{ i }y_{ j } } }=\frac { 1 }{ 2! }yH(a)y^t$$
Lo interesante de esto es que cuando $a$ sea un punto estacionario el polinomio sera $$f(a+y)-f(a)=\frac { 1 }{ 2! } \sum _{ i=1 }^{ n }{ \sum _{ j=1 }^{ n }{ { D }_{ ij }f(a)y_{ i }y_{ j } } } +{ \left\| y \right\| }^{ 2 }{ E }_{ 2 }(a,y)$$ycomo el residuo tiende a $0$ para valores pequeños de $y$ podemos decir que el signo de la diferencia $f(a+y)-f(a)$ va a estar definida por el signo de la matriz hessiana.

Tenemos la teoría de algebra lineal para el estudio de la matriz hessiana que nos servirá de herramienta para determinar la naturaleza de la matriz.

Ahora que ya conocemos que es lo que denota la diferencia $f(a+y)-f(a)$ podemos estudiar como se comporta, notemos que el termino ${ \left\| y \right\| }^{ 2 }{ E }_{ 2 }(a,y)$ es tan pequeño como nosotros queramos, ya que nosotros seleccionamos la dirección $y$, entonces podemos asegura que el signo algebraico de la diferencia esta completamente en función de $yH(a)y^t$, y los signos que denotan el producto de una matriz de la forma $ABA^t$ esta determinada por los valores propios de $B$, se sigue el siguiente teorema

Teorema 1 Sea $f$ un campo escalar con segundas derivadas continuas $D_{ij}$ en una bola $B(a,\varepsilon)$ entonces:

a) Si todos los valores propios de $H(a)$ son positivos, $f$ tiene un mínimo relativo en $a$.

b) Si todos los valores propios de $H(a)$ son negativos, $f$ tiene un máximo relativo en $a$.

c) Si $H(a)$ tiene valores propios positivos y negativos, $f$ tiene un punto de ensilladura en $a$.

La demostración la pueden encontrar en ($[1]$, págs 379-380), cuando
habíamos definido lo que es un punto de ensilladura, máximo o mínimo, no se menciona la forma en la que podían ser encontrados y como clasificar un punto estacionario en cualquiera de las 3 opciones que tenemos.
El teorema tiene una deficiencia, y es que el hecho de que haya mínimo relativo, máximo relativo o punto de ensilladura implique que al menos existan los valores propios de la matriz hessiana, de hecho en muchos casos la matriz hessiana se anula impidiéndonos que podamos calcular
valor propio alguno, es por ello que hay que tomar el teorema con cuidado.

Ejemplo Sea el campo escalar definido por $f(x,y)=\sin (x) \cosh (y)$, encontrar los puntos estacionarios y la naturaleza de ellos.

Para encontrar los puntos estacionarios calculamos el gradiente y lo igualamos a $0$ $$\nabla f(x,y)= (\cos (x)\cosh (y),\sinh (y) \sin (x))=(0,0)$$
Resolvemos el siguiente sistema de ecuaciones $$\cos (x)\cosh (y)=0\quad.\quad.\quad.(1)$$
$$\sinh (y)\sin(x)=0\quad.\quad.\quad.(2)$$ De $(1)$ notemos que $\cosh (y)>0$ para todo $y$, lo que implica que $\cos (x)=0$ por lo tanto el valor de $x$ es de la forma $\pi n + \frac{\pi}{2}$, sustityendo en $(2)$ obtenemos $\sinh (y) \sin (\pi n + \frac{\pi}{2})=\sinh (y)=0$ la unica
solución para que el seno hiperbolico valga $0$ es solo para $y=0$, entonces las soluciones de nuestro sistema de ecuaciones son de la forma $(\pi n + \frac{\pi}{2},0)$, teniendo infinitos puntos estacionarios.
Calculamos todas las segundas derivadas para construir la matriz hessiana.
$$\frac { { \partial }^{ 2 }f(x,y) }{ \partial { x }^{ 2 } } =-\sin(x) \cosh (y) \quad \frac { { \partial }^{ 2 }f(x,y) }{ \partial { y }^{ 2 } } =\cosh (y)\sin (x)$$$$\frac { { \partial }^{ 2 }f(x,y) }{ \partial { y }\partial { x } } =\cos (x)\sinh (x)=\frac { { \partial }^{ 2 }f(x,y) }{ \partial { x }\partial { y } }$$
Construyendo la matriz hessiana

$$H_{f}(x,y)=\left(\begin{matrix}-\sin (x)\cosh (y) & \cosh (y) \sin(x)\\
\cosh (y)\sin (x) & \cosh (y) \sin(x)
\end{matrix}\right)$$
Y evaluamos en nuestro punto estacionario
$$H_{f}(\pi n+\frac{\pi}{2},0)=\left(\begin{matrix}-1 & 0\\
0 & 1
\end{matrix}\right)$$

Y por ultimo recordemos la forma de calcular los valores propios de una matriz (si fuera nula nos pueden ser calculados), solo se toma la ecuación $det(\lambda I - H_f(\pi n + \frac{\pi}{2}))=0$ y resolvemos para $\lambda$
$$\left|\begin{matrix}\lambda+1 & 0\\
0 & \lambda-1
\end{matrix}\right|=(\lambda+1)(\lambda-1)=0$$
Asi $\lambda =1 $ ó $\lambda = -1 $ esto lo que nos indica es que todos los puntos $(\pi n + \frac{\pi}{2},0)$ son de ensilladura

FUENTES
$[1]$ Apostol, T.M., Calculus, Vol. II, 2nda. Edición, Editorial Reverté, Waltman Massachusetts, 1967.
$[2]$ Bartle, R. M., The Elements of Real Analysis, Wiley International, Estados Unidos, 1964.
$[3]$ Ho man, Kenneth, Linear Algebra, Second edition, Prentice-Hall, Inc, New Jersey, 1971.
$[4]$ Jose María Rocha Martínez y Gabriel D. Villa Salvador, Calculo in nitesimal de varias variables reales vol.1,
http://www.ctrl.cinvestav.mx/~gvilla/CalculoIII.pdf

Comentarios