11.5: Modelos de Muestreo y Nacimiento-Muerte

Última actualización
Guardar como PDF

Page ID: 54413

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Es importante pensar en el muestreo a la hora de ajustar modelos de Nacimiento-Muerte a árboles filogenéticos. Si falta alguna especie en su árbol filogenético, conducirán a estimaciones de parámetros sesgadas. Esto se debe a que las especies faltantes son desproporcionadamente propensas a conectarse con el árbol en ramas cortas, en lugar de largas. Si tomamos muestras aleatoriamente de linajes de un árbol, terminaremos subestimando mal tanto las tasas de especiación como de extinción (e inferir desaceleraciones erróneamente; ver capítulo 12).

Afortunadamente, también se han elaborado las matemáticas para el muestreo incompleto de árboles filogenéticos reconstruidos. Hay dos formas de hacerlo, dependiendo de cómo se muestree realmente el árbol. Si consideramos que las especies faltantes son aleatorias con respecto a los taxones incluidos en el árbol, entonces se puede usar una fracción de muestreo uniforme para contabilizarlas. Por el contrario, a menudo nos encontramos en la situación en la que tenemos puntas en nuestro árbol que son representantes individuales de diversos clados (por ejemplo géneros). Normalmente conocemos la diversidad de estos clados no muestreados en nuestro árbol de representantes. Seguiré (Höhna et al. 2011; Höhna 2014) y me referiré a este enfoque como muestreo representativo (y la alternativa previa como muestreo uniforme).

Para el enfoque de muestreo uniforme, utilizamos el marco anterior de calcular hacia atrás a través del tiempo, pero modificamos los puntos de partida para cada punta en el árbol para reflejar f, la probabilidad de muestreo de una especie (siguiendo a Fitzjohn et al. (2009)):

(eq. 11.22)

D _N (0) =1 − f

E (0) = f

Repitiendo los cálculos anteriores a lo largo de las ramas y en los nodos, pero con las condiciones iniciales anteriores, obtenemos la siguiente verosimilitud (FitzJohn et al. 2009):

(eq. 11.23)

\[ \begin{aligned} L(t_1, t_2, \dots, t_n) = \lambda^{n-1} \big[ \prod_{k = 1}^{2n-2} e^{(\lambda-\mu)(t_{k,b} - t_{k,t})} \cdot \\ \frac{(f \lambda - (\mu - \lambda(1-f))e^{(\lambda - \mu)t_{k,t}})^2}{(f \lambda - (\mu - \lambda(1-f))e^{(\lambda - \mu)t_{k,b}})^2} \big] \end{aligned} \]

Nuevamente, la fórmula anterior es proporcional a la verosimilitud total, que es:

(eq. 11.24)

\[ L(\tau) = (n-1)! \frac{\lambda^{n-2} \big[ \prod_{k = 1}^{2n-2} e^{(\lambda-\mu)(t_{k,b} - t_{k,t})} \cdot \frac{(f \lambda - (\mu - \lambda(1-f))e^{(\lambda - \mu)t_{k,t}})^2}{(f \lambda - (\mu - \lambda(1-f))e^{(\lambda - \mu)t_{k,b}})^2} \big]}{[1-E(t_{root})]^2} \]

(eq. 11.25)

\[ E(t_{root}) = 1 - \frac{\lambda-\mu}{\lambda - (\lambda-\mu)e^{(\lambda - \mu)t_{root}}} \]

Para el muestreo representativo, un enfoque es considerar los datos divididos en dos partes, filogenética y taxonómica. La parte taxonómica es la edad del tallo y la diversidad existente de los clados no muestreados, mientras que la parte filogenética es la relación entre esos clados. Siguiendo Rabosky y Lovette (2007), entonces podemos calcular:

(eq. 11.26)

L _{t o t a l} = L _{p h y l o g e n e t i}c ⋅ L _{t a x o n o m i c}

Donde L _{p h y l o g e n e t i c} puede calcularse usando la ecuación 11.18 y L _{t a x o n o m i c} calculado para cada clado usando la ecuación 10.16 y luego multiplicado para obtener la verosimilitud general.

Hay dos extensiones a este enfoque que vale la pena mencionar. Uno es el modelo de muestreo diversificado (“DS”) de Hohna (2011). Este modelo hace una suposición diferente: al muestrear n taxones de un conjunto global de m, se han incluido los nodos n − 1 más profundos. El enfoque de Hohna permite a los usuarios ajustar un modelo con muestreo representativo pero sin requerir la asignación de diversidad existente a cada clado. Otro enfoque, de Stadler y Smrckova (2016), calcula las probabilidades de árboles muestreados representativamente y puede adaptarse a modelos de especiación y extinción variables en el tiempo (ver capítulo 12).