14.4: Mapeo de Lectura - Alineación Espaciada de

Última actualización
Guardar como PDF

Page ID: 54973

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

La idea detrás del mapeo de lectura es alinear las lecturas secuenciadas con un genoma de referencia. Los algoritmos de alineación de secuencias discutidos en capítulos anteriores no funcionarán para este caso debido a la escala del problema. El objetivo es alinear millones de lecturas con el genoma y tomaría demasiado tiempo si cada una estuviera alineada individualmente. En su lugar, presentaremos el enfoque de Alineación de Semillas Espaciadas. Este proceso comienza usando el genoma de referencia para crear una tabla hash de 8 meros, que no tienen que ser contiguos. Las posiciones de estas semillas espaciadas almacenadas se mapean a la tabla hash. Usando estos 8-meros espaciados, cada lectura se compara con cada posición posible en el genoma de referencia y se califica en función del número de coincidencias de pares de bases (Figura 2).

Con mayor precisión, para cada posición, es posible calcular la puntuación usando la ecuación q _MS = −10 log ₁₀ (1 − P (i|G, q)), donde P (i|G, q) representa la probabilidad de que la lectura, q, se mapee a la posición i del genoma de referencia G. Más detalles sobre la obtención de esta puntuación se pueden encontrar en la Figura 13.2.

Es posible ajustar los parámetros de este método para alterar la sensibilidad, velocidad y memoria

Figura 14.2: Método de k-mer espaciado para mapear lecturas al genoma de referencia

del algoritmo. El uso de semillas k-mer más pequeñas permite una coincidencia de pares de bases menos precisa (mayor sensibilidad), pero requiere que se intenten más coincidencias. Las semillas más pequeñas ocupan menos memoria, mientras que las semillas más grandes corren más rápido.

Existen métodos distintos al descrito anteriormente para realizar esta alineación. El más popular de los cuales es el enfoque Burrows-Wheeler. La transformación Burrows-Wheeler es un algoritmo aún más eficiente para mapear lecturas y se discutirá en un capítulo posterior. Es capaz de acelerar el proceso de búsqueda de coincidencias en el genoma grande reordenando el genoma en una permutación muy específica. Esto permite que las lecturas se emparejen únicamente en función de la longitud de la lectura y no del genoma. Como una mejor tecnología de secuenciación permite longitudes de lectura más grandes, se necesitarán desarrollar más algoritmos para manejar el procesamiento adicional.

A diferencia de Chip-seq, una tecnología similar, RNA-seq es más compleja. Esto se debe a que el mapeador de lectura necesita preocuparse por pequeños exones intercalados entre intrones grandes y poder encontrar ambos lados de un exón. Esta complejidad se puede superar mediante el uso de la técnica de emparejamiento de semillas espaciadas anteriormente mencionada, y detectando cuando dos k-meros de la misma lectura están separados por una larga distancia. Esto señalaría un posible intrón y puede ser fijo extendiendo luego los k-meros para llenar huecos (métodos SNO). Otro método es basar el alineamiento en lecturas contiguas, las cuales se fragmentan aún más en regiones de 20-30 pb. Estas regiones se remapean y las posiciones con dos o más alineaciones diferentes se marcan como uniones de empalme. Los alineadores de exón primero son más rápidos que los métodos anteriores, pero tienen un costo: no logran diferenciar los psuedogenes, los genes presplicados y los genes transpuestos.