9.4: Los algoritmos BLAST se utilizan para buscar bases de datos
- Page ID
- 53999
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Existen muchos algoritmos diferentes para buscar bases de datos de secuencias, pero los algoritmos BLAST son algunos de los más populares, por su velocidad. Como verás a continuación, la clave de la velocidad de BLAST es su uso de alineaciones locales que sirven como semillas para alineaciones más extensas. De hecho, BLAST es un acrónimo de Basic Local Alignment Search Tool (Altschul et al. , 1990). Un conjunto de herramientas BLAST para la búsqueda de secuencias de nucleótidos y proteínas está disponible para su uso en el sitio NCBI. Ya se utilizó el algoritmo BLASTN para buscar coincidencias de nucleótidos entre los cebadores de PCR y el ADN genómico (Capítulo 7). En este laboratorio, utilizará el algoritmo BLASTP para buscar homologos de proteínas Met de S. cerevisiae en otros organismos.
Las búsquedas BLAST comienzan con una secuencia de consulta que se comparará con las bases de datos de secuencias especificadas por el usuario. A medida que los algoritmos trabajan a través de los datos, computan la probabilidad de que cada coincidencia potencial haya surgido solo por casualidad, lo que no sería consistente con una relación evolutiva. Los algoritmos BLAST comienzan dividiendo la secuencia de consulta en una serie de “palabras” cortas superpuestas y asignando valores numéricos a
las palabras. Las palabras por encima de un valor umbral para significancia estadística se utilizan entonces para buscar bases de datos. El tamaño de palabra predeterminado para BLASTN es de 28 nucleótidos. Debido a que solo hay cuatro nucleótidos posibles en el ADN, se esperaría que una secuencia de esta longitud ocurriera aleatoriamente una vez por cada 428, o 1017, nucleótidos, que es mucho más larga que cualquier genoma. El tamaño de palabra predeterminado para BLASTP es de tres aminoácidos. Debido a que las proteínas contienen 20 aminoácidos diferentes, se esperaría que una secuencia tripeptídica surgiera aleatoriamente una vez por cada 8000 tripéptidos, que es más larga que cualquier proteína. La siguiente figura describe la estrategia básica utilizada por los algoritmos BLAST.
Descripción general de la estrategia utilizada en los algoritmos BLAST
BLASTN y BLASTP utilizan una ventana rodante para desglosar una secuencia de consultas en palabras y sinónimos de palabras que forman
un conjunto de búsqueda. Al menos dos palabras o sinónimos en el conjunto de búsqueda deben coincidir con una secuencia objetivo en la base de datos, para que esa
secuencia sea reportada en los resultados.
En este laboratorio, utilizaremos el algoritmo BLASTP, el cual es más útil que BLASTN para estudiar la evolución de proteínas. A diferencia de BLASTN, BLASTP pasa por alto mutaciones génicas sinónimos que no cambian un aminoácido. Las sustituciones sinónimas no afectan la función de un pro- teína y, por lo tanto, no se seleccionarían en contra durante la evolución. BLASTP utiliza una matriz de exploración ponderada, BLOSUM 62 (Henikoff & Henikoff, 1999), que influye en las frecuencias con las que se han producido sustituciones de aminoácidos particulares durante la evolución de proteínas.
Volveremos a esta discusión sobre BLASTP después de una introducción y oportunidad de trabajar con la matriz BLOSUM62.