8.5: Explorando Mk - la prueba de la “basura total”

Última actualización
Guardar como PDF

Page ID: 54320

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Un problema que surge a veces en la optimización de máxima verosimilitud ocurre cuando en lugar de un pico, la superficie de probabilidad tiene una “cresta” larga y plana de valores de parámetros igualmente probables. En el caso del modelo Mk, es común encontrar que todos los valores de q mayores que un cierto valor tienen la misma probabilidad. Esto se debe a que por encima de cierto ritmo, la evolución ha sido tan rápida que todas las huellas de la historia de evolución de ese personaje han sido arrasadas. Después de este punto, los estados de carácter de cada linaje son aleatorios, y no tienen relación con la forma del árbol filogenético. Nuestras técnicas de optimización no funcionarán en este caso porque no hay valor de q que tenga una probabilidad mayor que otros valores. Una vez que nos metemos en la cresta, todos los valores de q tienen la misma probabilidad.

Para los modelos Mk, existe una prueba simple que nos permite reconocer cuando la superficie de verosimilitud tiene una cresta larga, y no se pueden estimar los valores q. Me gusta llamar a esta prueba la prueba de “basura total” porque puede decirte si tus datos son “basura” con respecto a la inferencia histórica —es decir, tus datos no tienen información sobre patrones históricos de cambio de rasgos. Uno puede predecir estados igual de bien eligiendo cada especie al azar.

Para llevar a cabo la prueba de basura total, imagina que solo estás dibujando valores de rasgos al azar. Es decir, cada especie tiene alguna probabilidad p de tener estado de carácter 0, y cierta probabilidad (1 − p) de tener estado 1 (también se puede generalizar esta prueba a modelos multiestado). Esta probabilidad es fácil de anotar. Para un árbol de tamaño\(n\), la probabilidad de dibujar n ₀ especies con estado 0 es:

\[L_{garbage} = p^{n_0}(1 − p)^{n − n_0} \label{8.2}\]

Esta ecuación da la probabilidad del modelo de “basura total” para cualquier valor de p. La ecuación 8.1 se relaciona con una distribución binomial (carente solo del término factorial). También sabemos por teoría de probabilidad que la estimación ML de p es n ₀/n, con verosimilitud dada por la fórmula anterior.

Ahora considere la superficie de verosimilitud del modelo Mk. Cuando las superficies de probabilidad Mk tienen crestas largas, casi siempre son para valores altos de q — y cuando la tasa de transición de los cambios de carácter es alta, este modelo converge a nuestro modelo de “dibujo de sombrero” (o “basura”). La cresta de verosimilitud se encuentra en el valor que se toma exactamente de la ecuación 8.10 anterior.

Así, se puede comparar la probabilidad de nuestro modelo Mk con el modelo de basura total. Si el valor de verosimilitud máxima de q tiene la misma verosimilitud que nuestro modelo de basura, entonces sabemos que estamos en una cresta de la superficie de verosimilitud y q no se puede estimar. Tampoco tenemos capacidad de hacer ninguna declaración sobre la evolución pasada de nuestro carácter —en particular, no podemos estimar el estado de carácter ancestral con precisión alguna. Por el contrario, si la probabilidad del modelo Mk es mayor que el modelo de basura total, entonces nuestros datos contienen alguna información histórica. También podemos hacer esta comparación usando AIC, considerando que el modelo de basura total tiene un solo parámetro p.

Para los escuamates, tenemos n = 258 y n ₀ = 207. Calculamos p = n ₀/n = 207/258 = 0.8023256. Entonces la probabilidad de nuestro modelo de basura es

L _{g a r b a g e} = p ^{n ₀} (1 − p) ^{n − n ₀} = 0.8023256 ²⁰⁷(1 − 0.8023256) ⁵¹ = 1.968142 e − 56.

Sin embargo, este cálculo es más fácil y útil en una escala de registro natural:

l n L _{g a r b a g e} = n ₀ ⋅ l n (p) + (n − n ₀) ⋅ l n (1 − p) =207 ⋅ l n (0.8023256) +51 ⋅ l n (1 − 0.8023256) = − 128.2677.

Compare esto con la probabilidad logarítmica de nuestro modelo Mk, l n L = −80.487176, y verá que el modelo de basura es un ajuste terrible a estos datos. De hecho, hay alguna información histórica sobre los rasgos de las especies en nuestros datos.