7.1: Uso de Hojas de Cálculo para Estadísticas
- Page ID
- 149270
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Objetivos de aprendizaje
- Puedes hacer la mayoría, tal vez todas tus estadísticas usando una hoja de cálculo como Excel. Aquí hay algunos consejos generales.
Introducción
Si eres como la mayoría de los biólogos, puedes hacer todas tus estadísticas con hojas de cálculo como Excel. Es posible que pases meses obteniendo las nuevas técnicas biológicas más sofisticadas tecnológicamente para funcionar, pero al final podrás analizar tus datos con una simple prueba de chi-cuadrado,\(t\) —test, anova unidireccional o regresión lineal. Las capacidades gráficas de las hojas de cálculo facilitan la inspección de datos para detectar errores y valores atípicos, buscar relaciones no lineales y distribuciones no normales y mostrar sus resultados finales. Incluso si vas a usar algo como SAS o SPSS o\(R\), habrá muchas veces en las que es más fácil ingresar primero tus datos en una hoja de cálculo, inspeccionarlos en busca de errores, ordenarlos y organizarlos, luego exportarlos a un formato adecuado para tu paquete de estadísticas de fancy-schmancy.
Algunos estadísticos desprecian a Excel para las estadísticas. Una de sus principales quejas es que no puede hacer pruebas más sofisticadas. Si bien es cierto que no se pueden hacer estadísticas avanzadas con Excel, eso no hace que sea incorrecto usarlo para estadísticas simples; que Excel no pueda hacer análisis de componentes principales no hace que su respuesta para una\(t\) prueba —test de dos muestras sea incorrecta. Si estás en un campo que requiere complicados análisis multivariados, como epidemiología o ecología, definitivamente tendrás que usar algo más avanzado que las hojas de cálculo. Pero si estás haciendo experimentos de laboratorio bien diseñados y simples, es posible que puedas analizar todos tus datos con los tipos de pruebas que puedes hacer en hojas de cálculo.
La queja más grave sobre Excel es que algunos de los procedimientos dieron resultados incorrectos (McCullough y Heiser 2008, Yalta 2008). La mayoría de estos problemas fueron con procedimientos más avanzados que los cubiertos en este manual, como el suavizado exponencial, o fueron errores en la forma en que Excel analiza conjuntos de datos muy inusuales que es poco probable que obtengas de un experimento real. Después de años de quejarse, Microsoft finalmente solucionó muchos de los problemas en Excel 2010 (Keeling y Pavur 2011). Entonces, para las pruebas estadísticas que describo en este manual, me siento seguro de que puedes usar Excel y obtener resultados precisos.
Una alternativa gratuita a Excel es Calc, parte del paquete OpenOffice.org gratuito y de código abierto. Calc hace casi todo lo que hace Excel, con las excepciones suficientes para ser molesto. Calc abrirá archivos Excel y podrá guardar archivos en formato Excel. El paquete OpenOffice.org está disponible para Windows, Mac y Linux. OpenOffice.org también incluye un procesador de textos (como Word) y un software de presentación (como PowerPoint).
Gnumeric suena como un buen programa de hoja de cálculo gratuito y de código abierto; si bien es utilizado principalmente por usuarios de Linux, se puede hacer que funcione con Mac. No lo he usado, así que no sé qué tan bien funcionarán mis hojas de cálculo con él.
Las instrucciones de esta página web se aplican tanto a Excel como a Calc, a menos que se indique lo contrario.
Tareas básicas de hoja de cálculo
Voy a asumir que sabes cómo introducir datos en una hoja de cálculo, copiar y pegar, insertar y eliminar filas y columnas, y otras tareas sencillas. Si eres un principiante completo, es posible que quieras ver tutoriales sobre el uso de Excel aquí o aquí. Aquí hay algunas otras cosas que serán útiles para manejar datos.
Separar texto en columnas
Excel
Cuando copia columnas de datos de una página web o documento de texto, luego las pega en una hoja de cálculo de Excel, todos los datos estarán en una columna. Para poner los datos en varias columnas, seleccione las celdas que desea convertir, luego elija “Texto a columnas...” en el menú Datos. Si eliges “Delimitado”, puedes decirle que las columnas están separadas por espacios, comas o algún otro carácter. Marque la casilla “Tratar delimitadores consecutivos como uno” (en Excel) o la casilla “Fusionar delimitadores” (en Calc) si los números pueden estar separados por más de un espacio, más de una pestaña, etc. Los datos se ingresarán en las columnas a la derecha de la columna original, así que asegúrese de que estén vacíos.
Si eliges “Ancho fijo” en lugar de “Delimitado”, puedes hacer cosas como decirle que los primeros\(10\) caracteres van en columna\(1\), los siguientes\(7\) caracteres van en columna\(2\), y así sucesivamente.
Si pegas más texto en la misma hoja de cálculo de Excel, automáticamente se separará en columnas usando los mismos delimitadores. Si quieres desactivar esto, selecciona la columna donde quieres pegar los datos, elige “Texto a columnas...” en el menú Datos y elige “Delimitado”. Después deshaga clic en todas las casillas para delimitadores (espacios, comas, etc.) y haga clic en “Finalizar”. Ahora pega tus datos en la columna.
Relleno en serie
Lo usarás principalmente para numerar un montón de filas o columnas. Numerarlos te ayudará a realizar un seguimiento de qué fila es cuál, y será especialmente útil si quieres ordenar los datos, luego ponerlos de nuevo en su orden original más tarde. Pon el primer número de tu serie en una celda y selecciónalo, luego elige “Rellenar: Serie...” en el menú Editar. Elige “Filas” o “Columnas” dependiendo de si quieres que la serie esté en una fila o en una columna, establece el “Valor de paso” (la cantidad en la que sube la serie; normalmente usarás 1) y el “Valor Stop” (el último número de la serie). Entonces, si tuvieras un montón de datos en\(B2\) las celdas\(E101\) y quisieras numerar las filas, pondrías una celda\(1\) en\(A2\), elegirías “Columnas”, establecerías el “Valor de paso” en\(1\) y el “Valor de parada” en\(100\), y los números\(1\) a través se\(100\) ingresarían en células\(A2\) a través de\(A101\).
Clasificación
Para ordenar un montón de datos, seleccione las celdas y elija “Ordenar” en el menú Datos. Si la primera fila de su conjunto de datos tiene encabezados de columna que identifican lo que hay en cada columna, haga clic en “Mi lista tiene encabezados”. Puedes ordenar por varias columnas; por ejemplo, podrías ordenar los datos de un grupo de pollos por “Raza” en columna\(A\), “Sexo” en columna\(C\) y “Peso” en columna\(B\), y ordenaría los datos por razas, luego dentro de cada raza tienen todas las hembras primero y luego todos los machos, y dentro de cada combinación de raza/sexo los pollos serían listados de menor a mayor.
Si has ingresado un montón de datos, es una buena idea ordenar cada columna de números y mirar los valores más pequeños y mayores. Esto puede ayudarte a detectar números con decimales mal colocados y otros errores de escritura atroces, ya que serán mucho más grandes o mucho más pequeños que los números correctos.
Graficando
Ver la página web sobre graficar con Excel. Dibujar algunos gráficos rápidos es otra buena manera de verificar tus datos en busca de rarezas. Por ejemplo, si has ingresado la altura y la longitud de las piernas de un grupo de personas, dibuja una gráfica rápida con la altura en el\(X\) eje y la longitud de las piernas en el\(Y\) eje. Las dos variables deben estar bastante correlacionadas, así que si ves algún valor atípico que mide\(2.10\) metros de altura y tiene una pierna de solo\(0.65\) metros de largo, sabes que debes verificar dos veces los datos de esa persona.
Referencias de celdas absolutas y relativas
En la fórmula\(=B1+C1\) "”,\(B1\) y\(C1\) son referencias de celda relativas. Si esta fórmula está en la celda\(D1\), "\(B1\)" significa “esa celda que está a dos celdas a la izquierda”. Cuando copia celda\(D1\) en celda\(D2\), la fórmula se convierte en "\(=B2+C2\)“; cuando la copia en celda\(G1\), se convertiría en"\(=E1+F1\)”. Esto es una gran cosa de las hojas de cálculo; por ejemplo, si tienes columnas largas de números en columnas\(A\)\(B\) y y quieres saber la suma de cada par, no necesitas escribir "\(=B1+C1\)" en celda\(D1\), luego escribe "\(=B2+C2\)" en celda\(D2\), luego escribe "\(=B3+C3\)” en la celda\(D3\), y así sucesivamente; simplemente escribe "\(=B1+C1\)" una vez en la celda\(D1\), luego la copia y pega en todas las celdas de la columna\(D\) a la vez.
A veces no quieres que las referencias de celda cambien cuando copias una celda; en ese caso, debes usar referencias de celda absolutas, indicadas con un signo de dólar. Un signo de dólar antes de la letra significa que la columna no cambiará al copiar y pegar en una celda diferente. Si ingresa ""\(=\$B1+C1\) "en la celda\(D1\), luego la copia en la celda\(E1\), cambiará a"\(=\$B1+D1\) “; la\(C1\) cambiará a\(D1\) porque la has copiado una columna encima, pero la\(B1\) no cambiará porque tiene un signo de dólar frente a ella. Un signo de dólar antes del número significa que la fila no cambiará; si ingresa "\(=B\$1+C1\)" en la celda\(D1\) y luego la copia a la celda\(D2\), cambiará a "\(=B\$1+C2\)”. Y un signo de dólar antes tanto de la columna como de la fila significa que nada cambiará; si ingresa "\(=\$B\$1+C1\)" en la celda\(D2\) y luego la copia en la celda\(E2\), cambiará a "\(=\$B\$1+D2\)”. Entonces, si tuvieras\(100\) números en columna\(B\), podrías ingresar "\(=B1-\text {AVERAGE}(B\$1:B\$100)\)" en celda\(C1\), copiarlo en celdas\(C2\) a través de\(C100\), y cada valor en columna\(B\) tendría el promedio de\(100\) los números restados de ella.
Pasta Especial
Cuando una celda tiene una fórmula en ella (como "\(=B1*C1+D1^2\)“), se ve el resultado numérico de la fórmula (como"\(7.15\) “) en la hoja de cálculo. Si copia y pega esa celda, la fórmula se pegará en la nueva celda; a menos que la fórmula solo tenga referencias absolutas de celda, mostrará un resultado numérico diferente. Incluso si usa solo referencias de celda absolutas, el resultado de la fórmula cambiará cada vez que cambie los valores en\(B1,\; C1\; or\; D1\). Cuando desee copiar y pegar el número que resulta de una función en Excel, elija “Pegar especial” en el menú Editar y luego haga clic en el botón que dice “Valores”. El número (\(7.15\), en este ejemplo) se pegará en la celda.
En Calc, elija “Pegar especial” en el menú Editar, desmarque las casillas etiquetadas “Pegar todo” y “Fórmulas” y marque la casilla etiquetada “Números”.
Cambiar formato de número
El formato predeterminado en Excel y Calc muestra\(9\) dígitos a la derecha del punto decimal, si la columna es lo suficientemente ancha. Por ejemplo, el\(P\) valor correspondiente a un chi-cuadrado de\(4.50\) con\(1\) grado de libertad, encontrado con “=CHIDIST (4.50, 1)”, se mostrará como\(0.033894854\). Este número de dígitos es casi siempre ridículo. Para cambiar el número de decimales que se muestran en una celda, elija “Celdas...” en el menú Formato, luego elija la pestaña “Número”. En “Categoría”, elija “Número” y dígale cuántos decimales desea mostrar. Para el\(P\) valor anterior, probablemente solo necesitarías tres dígitos,\(0.034\). Tenga en cuenta que esto solo cambia la forma en que se muestra el número; todos los dígitos aún están en la celda, simplemente son invisibles.
La desventaja de establecer el formato “Número” a un número fijo de dígitos es que se redondearán a números muy pequeños\(0\). Así, si estableces el formato a tres dígitos a la derecha del decimal, “=CHIDIST (24.50,1)” se mostrará como “0.000" cuando sea realmente\(0.00000074\). El formato predeterminado (formato “General”) utiliza automáticamente la notación científica para números muy pequeños o grandes, y se mostrará\(7.4309837243E-007\), lo que significa\(7.43\times 10^{-7}\); eso es mejor que simplemente redondear a\(0\), pero todavía tiene demasiados dígitos. Si ves un\(0\) en una hoja de cálculo donde esperas un número distinto de cero (como un\(P\) valor), cambia el formato para volver a General.
Para\(P\) valores y otros resultados en las hojas de cálculo vinculadas a este manual, creé un formato definido por el usuario que usa\(6\) dígitos a la derecha del punto decimal para números más grandes, y notación científica para números más pequeños. Lo hice eligiendo “Celdas” en el menú Formato y pegando lo siguiente en la caja etiquetada como “Código de formato”:
\[[>0.00001]0.\#\#\#\#\#\#;[<-0.00001]0.\#\#\#\#\#\#;0.00E-00\]
Esto se mostrará\(0\) como\(0.00E00\), pero por lo demás funciona bastante bien.
Si una columna es demasiado estrecha para mostrar un número en el formato especificado, se redondearán los dígitos a la derecha del punto decimal. Si hay demasiados dígitos a la izquierda del punto decimal para mostrarlos todos, la celda contendrá "\(\#\#\#\)”. Asegúrate de que tus columnas sean lo suficientemente anchas como para mostrar todos tus números.
Funciones útiles de hoja de cálculo
Hay cientos de funciones en Excel y Calc; aquí están las que me parecen más útiles para la estadística y el manejo general de datos. Tenga en cuenta que donde el argumento (la parte entre paréntesis) de una función es "\(Y\)“, significa un solo número o una sola celda en la hoja de cálculo. Donde el argumento dice "\(Ys\)“, significa más de un número o celda. Ver PROMEDIO (Ys) para un ejemplo.
Todos los ejemplos aquí se dan en formato Excel. Calc usa un punto y coma en lugar de una coma para separar múltiples parámetros; por ejemplo, Excel usaría “=ROUND (A1, 2)” para devolver el valor en celda\(A1\) redondeada a\(2\) decimales, mientras que Calc usaría “=ROUND (A1; 2)”. Si importa un archivo Excel a Calc o exporta un archivo Calc a formato Excel, Calc convierte automáticamente entre comas y punto y coma. No obstante, si escribes una fórmula en Calc con una coma en lugar de un punto y coma, Calc actúa como si no tuviera idea de lo que estás hablando; todo lo que dice es "#NAME?”.
He escrito los nombres de las funciones en mayúsculas para que destaquen, pero puedes usar letras minúsculas.
Funciones matemáticas
ABS (Y) Devuelve el valor absoluto de un número.
EXP (Y)\(e\) Regresa a la\(y^{th}\) potencia. Esta es la inversa de LN, lo que significa que “=EXP (LN (Y))” es igual\(Y\).
LN (Y) Devuelve el logaritmo natural (logaritmo a la base e) de\(Y\).
LOG10 (Y) Devuelve la base-\(10\) logaritmo de\(Y\). La inversa de LOG es elevar\(10\) a la\(Y^{th}\) potencia, lo que significa “=10^ (LOG10 (Y))” devuelve\(Y\).
RAND () Devuelve un número pseudoaleatorios, igual o mayor que cero y menor que uno. Debe usar paréntesis vacíos para que la hoja de cálculo sepa que RAND es una función. Para un número pseudoaleatorio en algún otro rango, simplemente multiplica; así “=RAND () *79" te daría un número mayor o igual a\(0\) y menor que\(79\). El valor cambiará cada vez que ingreses algo en cualquier celda. Un uso de números aleatorios es para asignar aleatoriamente individuos a diferentes tratamientos; podrías ingresar “=RAND ()” junto a cada individuo, Copiar y Pegar Especial los números aleatorios, Ordenar los individuos en función de la columna de números aleatorios, luego asignar los primeros\(10\) individuos al placebo, el siguiente \(10\)individuos a\(10 mg\) de la droga de ensayo, etc.
Un número “pseudoaleatorio” es generado por una función matemática; si empezaste con el mismo número inicial (la “semilla”), obtendrías la misma serie de números. El generador de números pseudoaleatorios de Excel basa su semilla en la hora dada por el reloj interno de la computadora, por lo que no obtendrá la misma semilla dos veces. Hay problemas con el generador de números pseudoaleatorios de Excel que lo hacen inapropiado para simulaciones serias de Monte Carlo, pero los números que produce son lo suficientemente aleatorios para cualquier cosa que sea probable que hagas como biólogo experimental.
REDONDO (Y, dígitos) Devuelve\(Y\) redondeado al número especificado de dígitos. Por ejemplo, si la celda\(A1\) contiene el número\(37.38\), devuelve “=REDONDO (A1, 1)”\(37.4\), “=REDONDO (A1, 0)” y devuelve\(37\) “=REDONDO (A1, -1)”\(40\). Los números que terminan en\(5\) se redondean hacia arriba (lejos de cero), por lo que “=REDONDO (37.35,1)” devuelve\(37.4\) y “=REDONDO (-37.35)” devuelve\(-37.4\).
SQRT (Y) Devuelve la raíz cuadrada de\(Y\).
SUM (Ys) Devuelve la suma de un conjunto de números.
Funciones lógicas
Y (logical_test1, logical_test2,...) Devuelve TRUE si logical_test1, logical_test2... son todos verdaderos, de lo contrario devuelve FALSE. Como ejemplo, digamos que\(A1,\; B1\; \text {and}\; C1\) todas las celdas contienen números, y quieres saber si todas son mayores que\(100\). Una forma de averiguarlo sería con el enunciado “=AND (A1>100, B1>100, C1>100)”, que devolvería VERDADERO si los tres fueran mayores que\(100\) y FALSO si alguno no fuera mayor que\(100\).
IF (logical_test, A, B) Devuelve\(A\) si la prueba lógica es verdadera,\(B\) si es falsa. Como ejemplo, digamos que tienes\(1000\) filas de datos en columnas\(A\) a través\(E\), con un número de ID único en columna\(A\), y quieres verificar si hay duplicados. Ordena los datos por columna\(A\), así que si hay algún número de ID duplicado, serán adyacentes. Después en la celda\(F1\), ingrese “=IF (A1=A2, “duplicado”, "ok”). Esto ingresará la palabra “duplicar” si el número en\(A1\) es igual al número en\(A2\); de lo contrario, ingresará la palabra “ok”. Luego copie esto en celdas\(F2\) a través de\(F999\). Ahora puedes escanear rápidamente a través de las filas y ver dónde están los duplicados.
ISNUMBER (Y) Devuelve TRUE si\(Y\) es un número, de lo contrario devuelve FALSO. Esto puede ser útil para identificar celdas con valores faltantes. Si desea verificar los valores en las celdas\(A1\)\(A1000\) para los datos faltantes, puede ingresar “=IF (ISNUMBER (A1), “OK”, “FALTANTE”)” en la celda\(B1\), copiarlo en celdas\(B2\) a\(B1000\), y luego cada celda en\(A1\) que no contenía un número tendría “FALTA” al lado de ella en la columna \(B\).
O (prueba_lógica1, prueba_lógica2,...) Devuelve TRUE si uno o más de logical_test1, logical_test2... son verdaderos, de lo contrario devuelve FALSE. Como ejemplo, digamos que\(A1,\; B1\; \text{and}\; C1\) todas las celdas contienen números, y quieres saber si alguna es mayor que\(100\). Una forma de averiguarlo sería con el enunciado “=OR (A1>100, B1>100, C1>100)”, que devolvería VERDADERO si uno o más fueran mayores a 100 y FALSO si los tres no fueran mayores a 100.
Funciones estadísticas
PROMEDIO (Ys) Devuelve la media aritmética de un conjunto de números. Por ejemplo, “=PROMEDIO (B1.. B17)” daría la media de los números en celdas\(B1..B17\), y “=PROMEDIO (7, A1, B1.. C17)” daría la media de\(7\), el número en celda\(A1\), y los números en las celdas\(B1..C17\). Tenga en cuenta que Excel solo cuenta aquellas celdas que tienen números en ellas; podría ingresar “=PROMEDIO (A1:A100)”, poner números en celdas\(A1\) a\(A9\), y Excel calcularía correctamente la media aritmética de esos\(9\) números. Esto es cierto para otras funciones que operan en un rango de celdas.
BINOMDIST (S, K, P, cumulative_probability) Devuelve la probabilidad binomial de obtener\(S\) “éxitos” en los\(K\) ensayos, bajo la hipótesis nula de que es la probabilidad de éxito\(P\). El argumento “cumulative_probability” debe ser VERDADERO si quieres la probabilidad acumulativa de obtener\(S\) o menos éxitos, mientras que debería ser FALSO si quieres la probabilidad de obtener exactamente\(S\) éxitos. (Calc usa\(1\) y\(0\) en lugar de VERDADERO y FALSO.) Esto ha sido renombrado “BINOM.DIST” en versiones más recientes de Excel, pero aún puede usar “BINOMDIST”.
CHIDIST (Y, df) Devuelve la probabilidad asociada a una variable,\(Y\), es decir, chi-cuadrado distribuido con\(df\) grados de libertad. Si usas SAS o algún otro programa y da el resultado como “Chi-sq=78.34, 1 d.f., P<0.0001", puedes usar la función CHIDIST para averiguar cuán pequeño es tu\(P\) valor; en este caso, “=CHIDIST (78.34, 1)” rinde\(8.67\times 10^{-19}\). Esto ha sido renombrado CHISQ.DIST.RT en versiones más recientes de Excel, pero aún puedes usar CHIDIST.
CONFIANZA (alfa, desviación estándar, tamaño de muestra) Devuelve el intervalo de confianza de una media, asumiendo que conoce la desviación estándar de la población. Debido a que no conoces la desviación estándar de la población, nunca debes usar esta función; en cambio, consulta la página web sobre intervalos de confianza para obtener instrucciones sobre cómo calcular correctamente el intervalo de confianza.
COUNT (Ys) Cuenta el número de celdas en un rango que contienen números; si ha ingresado datos en celdas\(A1\) a través de\(A9,\; A11,\; \text{and}\; A17\), “=COUNT (A1:A100)” cederá\(11\).
COUNTIF (Ys, criterio) Cuenta el número de celdas en un rango que cumplen con el criterio dado.
“=COUNTIF (D1:E1100,50)” contaría el número de celdas en el rango\(D1:E100\) que fueran iguales a\(50\);
“=COUNTIF (D1:E1100, ">50")” contaría el número de celdas que tenían números mayores que\(50\) (anote las comillas alrededor de “>50");
“=COUNTIF (D1: E1100, F3)” contaría el número de celdas que tenían el mismo contenido que la celda\(F3\);
“=COUNTIF (D1:E1100, "Bob”)” contaría el número de celdas que contenían solo la palabra “Bob”. Se pueden usar comodines; “?” representa exactamente un personaje, entonces “¿Bo?” contaría “Bob” o “Boo” pero no “Bobble”, mientras que “Bo*” contaría “Bob”, “Boo”, “Bobble” o “Bodacious”.
DEVSQ (Ys) Devuelve la suma de cuadrados de desviaciones de puntos de datos de la media. Esto es lo que los estadísticos refieren como la “suma de cuadrados”. Yo uso esto en la configuración de hojas de cálculo para hacer anova, pero probablemente nunca necesitarás esto.
FDIST (Y, df1, df2) Devuelve el valor de probabilidad asociado a una variable\(Y\),, que se\(F\) distribuye con\(df1\) grados de libertad en el numerador y\(df2\) grados de libertad en el denominador. Si usas SAS o algún otro programa y da el resultado como “F=78.34, 1, 19 d.f., P<0.0001", puedes usar la función FDIST para averiguar cuán pequeño es tu\(P\) valor; en este caso, “=FDIST (78.34, 1, 19)” rinde\(3.62\times 10^{-8}\). Las versiones más recientes de Excel llaman a esta función F.DIST.RT, pero aún puedes usar FDIST.
MEDIAN (Ys) Devuelve la mediana de un conjunto de números. Si el tamaño de la muestra es par, esto devuelve la media de los dos números medios.
MIN (Ys) Devuelve el mínimo de un conjunto de números. Útil para encontrar el rango, que es MAX (Ys) -MIN (Ys).
MAX (Ys) Devuelve el máximo de un conjunto de números.
NORMINV (probabilidad, media, desviación_estándar) Devuelve la inversa de la distribución normal para una media y desviación estándar dadas. Esto es útil para crear un conjunto de números aleatorios que normalmente se distribuyen, que puedes usar para simulaciones y demostraciones de enseñanza; si pegas “=NORMINV (RAND () ,5,1.5)” en un rango de celdas, obtendrás un conjunto de números aleatorios que normalmente se distribuyen con una media de\(5\) y un estándar desviación de\(1.5\).
RANK.AVG (X, Ys, type) Devuelve el rango de\(X\) en el conjunto de\(Ys\). Si type se establece en\(0\), el número más grande tiene un rango de\(1\); si type se establece en\(1\), el número más pequeño tiene un rango de\(1\). Por ejemplo, si las celdas\(A1:A8\) contienen los números\(10,\; 12,\; 14,\; 14,\; 16,\; 17,\; 20,\; 21\) “=RANK (A2, A$1:A$8, 0)” devuelve\(7\) (el número\(12\) es el\(7^{th}\) más grande en esa lista), y “=RANK (A2, A$1:A$8, 1)” devuelve\(2\) (es el segundo más pequeño).
La función “RANK.AVG” da rangos promedio a los lazos; para el conjunto de números anterior, regresaría “=RANK.AVG (A3, A$1:A$8, 0)”\(5.5\), porque los dos valores de\(14\) están empatados para el quinto mayor. Las versiones anteriores de Excel y Calc no tienen RANK.AVG; tienen RANK, que manejaban los lazos incorrectamente con fines estadísticos. Si estás usando Calc o una versión anterior de Excel, esta fórmula muestra cómo obtener rangos con vínculos manejados correctamente:
\[=\text{AVERAGE}(\text{RANK}(A1,\; A\$1:A\$8,\; 0),\; 1+\text{COUNT}(A\$1:A\$8)-\text{RANK}(A\$1,\; A\$1:A\$8,\; 1))\]
STDEV (Ys) Devuelve una estimación de la desviación estándar basada en una muestra poblacional. Esta es la función que debes usar para la desviación estándar.
STDEVP (Ys) Devuelve la desviación estándar de valores de una población entera, no solo de una muestra. Nunca debes usar esta función.
SUM (Ys) Devuelve la suma de los\(Ys\).
SUMSQ (Ys) Devuelve la suma de los valores al cuadrado. Tenga en cuenta que los estadísticos utilizan “suma de cuadrados” como término abreviado para la suma de las desviaciones cuadradas de la media. SUMSQ no le da la suma de cuadrados en este sentido estadístico; para la suma estadística de cuadrados, use DEVSQ. Probablemente nunca usará SUMSQ.
TDIST (Y, df, colas) Devuelve el valor de probabilidad asociado a una variable\(Y\),, que se\(t\) distribuye con\(df\) grados de libertad y colas iguales a uno o dos (casi siempre querrás la prueba de dos colas). Si usas SAS o algún otro programa y da el resultado como “t=78.34, 19 d.f., P<0.0001", puedes usar la función TDIST para averiguar cuán pequeño es tu\(P\) valor; en este caso, “=TDIST (78.34, 19, 2)” rinde\(2.55\times 10^{-25}\). Las versiones más recientes de Excel han renombrado esta función T.DIST.2T, pero aún puedes usar TDIST.
VAR (Ys) Devuelve una estimación de la varianza basada en una muestra poblacional. Esta es la función que debes usar para varianza.
VARP (Ys) Devuelve la varianza de valores de una población entera, no sólo de una muestra. Nunca debes usar esta función.
Referencias
Keeling, K.B., y R.J. Pavur. 2011. Precisión estadística del software de hojas de cálculo. Estadístico Americano 65:265-273.
McCullough, B.D., y D.A. Heiser. 2008. Sobre la exactitud de los procedimientos estadísticos en Microsoft Excel 2007. Estadística Computacional y Análisis de Datos 52:4570-4578.
Yalta, A.T. 2008. La exactitud de las distribuciones estadísticas en Microsoft Excel 2007. Estadística Computacional y Análisis de Datos 52:4579-4586.