9.7: El algoritmo BLASTP

Última actualización
Guardar como PDF

Page ID: 53980

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

En BLASTP, la secuencia de consulta se divide en todas las palabras posibles de 3 letras usando una ventana móvil. Se calcula una puntuación numérica para cada palabra sumando los valores para los aminoácidos de la matriz BLOSUM62. Palabras con una puntuación de 12 o más, es decir, palabras con aminoácidos más conservados, se recogen en el conjunto inicial de búsqueda BLASTP. BLASTP siguiente amplía el conjunto de búsqueda agregando sinónimos que difieren de las palabras en una posición. Solo los sinónimos con puntuaciones superiores a un valor umbral se agregan al conjunto de búsqueda. NCBI BLASTP utiliza un umbral predeterminado de 10 para los sinónimos, pero esto puede ser ajustado por el usuario. Usando este conjunto de búsqueda, BLAST escanea rápidamente una base de datos e identifica secuencias de proteínas que contienen dos o más palabras/sinónimos del conjunto de búsqueda. Estas secuencias se apartan para la siguiente fase del proceso BLASTP, donde estos partidos cortos sirven como semillas para alineaciones más extendidas en ambas direcciones desde el partido original. BLAST mantiene un puntaje crudo corriendo a medida que extiende los partidos. Cada nuevo aminoácido aumenta o disminuye la puntuación en bruto. Se asignan penalizaciones por desajustes y por brechas entre las dos alineaciones. En los ajustes predeterminados del NCBI, la presencia de una brecha trae una penalización inicial de 11, que aumenta en 1 por cada aminoácido faltante. Una vez que la puntuación cae por debajo de un nivel establecido, la alineación cesa. Las puntuaciones sin procesar se convierten en puntuaciones de bits mediante la corrección de la matriz de puntuación utilizada en la búsqueda y el tamaño del espacio de búsqueda de la base de datos.

Visión general del proceso BLASTP.
La secuencia de consulta EAGLES se divide en palabras de tres letras o sinónimos que se utilizan como conjunto de búsqueda contra
registros en una base de datos de proteínas o nucleótidos traducidos. Consulte el texto para obtener más detalles.

Los datos de salida de BLASTP incluyen una tabla con las puntuaciones de bits para cada alineación así
como su valor E, o “puntaje esperado”. El valor E indica el número de alineaciones con
esa puntuación de bits en particular que se esperaría que ocurriera únicamente por casualidad en el espacio de búsqueda. Las alineaciones con las puntuaciones de bits más altas (y los valores E más bajos) se enumeran en la parte superior de la tabla. Para coincidencias perfectas o casi perfectas, el valor E se reporta como cero; esencialmente no hay posibilidad de que la coincidencia ocurra aleatoriamente. El valor E toma en cuenta tanto la longitud de la coincidencia como el tamaño de la base de datos que se encuestó. Cuanto más larga sea la alineación, y/o cuanto mayor sea el espacio de búsqueda en la base de datos, menos probable es que una alineación en particular ocurra estrictamente por casualidad.

En algunos casos, el alineamiento puede no extenderse a lo largo de toda la longitud de la proteína o puede haber huecos entre las regiones alineadas de las secuencias. “Puntuación máxima” es la puntuación de bits para la región alineada con la puntuación más alta. “Puntuación total” agrega las puntuaciones de bits para todas las regiones alineadas. Cuando no hay huecos en una alineación, las puntuaciones totales y máximas son las mismas. La “Cobertura de consulta” se refiere a la fracción de la secuencia de consulta donde la puntuación de alineación está por encima del valor umbral. BLASTP también reporta el porcentaje de aminoácidos alineados que son idénticos en dos secuencias como “Ident”.