5.2: Sonido y Audio, Imagen y Gráficos, Animación y Video
- Page ID
- 154346
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Introducción
En las siguientes secciones se describen diversos tipos de datos que podrías encontrar, además de datos gráficos estáticos, en archivos multimedia.
Detalles de la actividad
La animación por computadora se encuentra en algún lugar entre el mundo inmóvil de las imágenes fijas y el mundo en tiempo real de las imágenes de video. Todas las secuencias animadas que se ven en programas educativos, renderizaciones CAD en movimiento y juegos de computadora son secuencias de animación animadas por computadora (y en muchos casos, generadas por computadora).
La animación tradicional de dibujos animados es poco más que una serie de celdas de obras de arte, cada una de las cuales contiene una ligera variación posicional de los sujetos animados. Cuando un gran número de estas células se muestra en secuencia y a un ritmo rápido, las figuras animadas aparecen al ojo humano para moverse.
Una secuencia animada por computadora funciona exactamente de la misma manera, es decir, se crea una serie de imágenes de un sujeto; cada imagen contiene una perspectiva ligeramente diferente sobre el sujeto animado. Cuando estas imágenes se visualizan (reproducen) en la secuencia adecuada y a la velocidad adecuada (velocidad de fotogramas), el sujeto parece moverse.
La animación computarizada es en realidad una combinación de imágenes fijas y en movimiento. Cada fotograma, o celda, de una animación es una imagen fija que requiere compresión y almacenamiento. Un archivo de animación, sin embargo, debe almacenar los datos de cientos o miles de fotogramas de animación y también debe proporcionar la información necesaria para reproducir los fotogramas utilizando el modo de visualización y la velocidad de fotogramas adecuados.
Los formatos de archivo de animación solo son capaces de almacenar imágenes fijas y no información de video real. Sin embargo, es posible que la mayoría de los formatos multimedia contengan información de animación, porque la animación es en realidad un tipo de datos mucho más fácil que el video de almacenar.
Los esquemas de compresión de imágenes utilizados en los archivos de animación también suelen ser mucho más simples que la mayoría de los utilizados en la compresión de video. La mayoría de los archivos de animación utilizan un esquema de compresión delta, que es una forma de codificación de longitud de ejecución que almacena y comprime solo la información que es diferente entre dos imágenes (en lugar de comprimir cada fotograma de imagen por completo). El RLE es relativamente fácil de descomprimir sobre la marcha.
Almacenar animaciones usando un formato multimedia también produce el beneficio de agregar sonido a la animación (¿qué es una caricatura sin sonido?). La mayoría de los formatos de animación no pueden almacenar el sonido directamente en sus archivos y deben confiar en almacenar el sonido en un archivo de disco separado que es leído por la aplicación que está reproduciendo la animación.
Las animaciones no son solo para entretener a niños y adultos. Las secuencias animadas son utilizadas por los programadores CAD para rotar objetos 3D para que puedan ser observados desde diferentes perspectivas; los datos matemáticos recopilados por una aeronave o satélite pueden ser renderizados en una secuencia animada de vuelo por vuelo. Los efectos especiales de película se benefician enormemente por la animación por computadora.
Video Digital
Un paso más allá de la animación es el video transmitido. Tu grabadora de televisión y video son mucho más complejos que un proyector de cine casero de 8 mm y la pared de tu cocina. Hay muchas señales complejas y estándares complicados que están involucrados en la transmisión de esas reposiciones nocturnas a través de las ondas y el cable. Sólo en los últimos años una computadora personal ha podido trabajar con datos de video en absoluto.
Los datos de video normalmente ocurren como señales analógicas continuas. Para que una computadora procese estos datos de video, debemos convertir las señales analógicas a un formato digital no continuo. En un formato digital, los datos de video se pueden almacenar como una serie de bits en un disco duro o en la memoria de la computadora.
El proceso de convertir una señal de video en un flujo de bits digital se denomina conversión analógico-digital (conversión A/D), o digitalización. La conversión A/D se produce en dos etapas:
- El muestreo captura datos de la transmisión de video.
- La cuantificación convierte cada muestra capturada en un formato digital.
Cada muestra capturada del flujo de video se almacena normalmente como un entero de 16 bits. La velocidad a la que se recolectan las muestras se denomina frecuencia de muestreo. La frecuencia de muestreo se mide en el número de muestras capturadas por segundo (muestras/segundo). Para el video digital, es necesario capturar millones de muestras por segundo.
La cuantificación convierte el nivel de una muestra de señal de video en un valor binario discreto. Este valor se aproxima al nivel de la muestra de señal de video original. El valor se selecciona comparando la muestra de video con una serie de valores de umbral predefinidos. El valor del umbral más cercano a la amplitud de la señal muestreada se utiliza como valor digital.
Una señal de video contiene varios componentes diferentes que se mezclan en la misma señal. Este tipo de señal se llama señal de video compuesta y no es realmente útil en video de computadora de alta calidad. Por lo tanto, una señal de video compuesta estándar generalmente se separa en sus componentes básicos antes de ser digitalizada.
El formato de señal de video compuesto definido por el sistema de televisión en color NTSC (National Television Standards Committee) se utiliza en Estados Unidos. Los sistemas de televisión en color PAL (Phase Alternation Line) y SECAM (Sequential Coleur Avec Memoire) se utilizan en Europa y no son compatibles con NTSC. La mayoría de los equipos de video de computadora admiten uno o más de estos estándares del sistema.
Los componentes de una señal de video compuesta normalmente se decodifican en tres señales separadas que representan los tres canales de un modelo de espacio de color, como RGB, YUV o YIQ. Aunque el modelo RGB se usa con bastante frecuencia en imágenes fijas, los modelos YUV, YIQ o YCbCr se usan con mayor frecuencia en imágenes de video en movimiento. La práctica televisiva usa YUV o modelos de color similares porque los canales U y V se pueden reducir para reducir el volumen de datos sin degradar materialmente la calidad de la imagen.
Una vez que la señal de video se convierte a un formato digital, los valores resultantes se pueden representar en un dispositivo de visualización como píxeles. Cada píxel es una mancha de color en la pantalla de video, y los píxeles están dispuestos en filas y columnas al igual que en un mapa de bits. Sin embargo, a diferencia de un mapa de bits estático, los píxeles de una imagen de video se actualizan constantemente para detectar cambios en intensidad y color. Esta actualización se llama escaneo, y ocurre 60 veces por segundo en señales de video NTSC (50 veces por segundo para PAL y SECAM).
Una secuencia de video se muestra como una serie de fotogramas. Cada fotograma es una instantánea de un momento en el tiempo de los datos de video en movimiento, y es muy similar a una imagen fija. Cuando los fotogramas se reproducen en secuencia en un dispositivo de visualización, se crea una representación de los datos de video originales. En video en tiempo real la velocidad de reproducción es de 30 cuadros por segundo. Esta es la tasa mínima necesaria para que el ojo humano pueda combinar con éxito cada fotograma de video en una imagen continua y en movimiento suave.
Un solo fotograma de datos de video puede ser bastante grande en tamaño. Un fotograma de video con una resolución de 512 x 482 contendrá 246,784 píxeles. Si cada píxel contiene 24 bits de información de color, el marco requerirá 740.352 bytes de memoria o espacio en disco para almacenar. Asumiendo que hay 30 fotogramas por segundo para video en tiempo real, ¡una secuencia de video de 10 segundos sería de más de 222 megabytes de tamaño! Está claro que no puede haber video de computadora sin al menos un método eficiente de compresión de datos de video.
Hay muchos métodos de codificación disponibles que comprimirán los datos de video. La mayoría de estos métodos implican el uso de un esquema de codificación de transformada, generalmente empleando una Transformada de Fourier o de Coseno Discreta (DCT). Estas transformaciones reducen físicamente el tamaño de los datos de video al desechar selectivamente partes innecesarias de la información digitalizada.
Los esquemas de compresión por transformación generalmente descartan del 10 por ciento al 25 por ciento o más de los datos de video originales, dependiendo en gran medida del contenido de los datos de video y de qué calidad de imagen se considera aceptable.
Por lo general, una transformación se realiza en un fotograma de video individual. La transformación en sí misma no produce datos comprimidos. Descarta únicamente datos no utilizados por el ojo humano. Los datos transformados, llamados coeficientes, deben tener compresión aplicada para reducir aún más el tamaño de los datos. Cada trama de datos puede comprimirse usando un Huffman o algoritmo de codificación aritmética, o incluso un esquema de compresión más complejo como JPEG. Este tipo de codificación intraframe generalmente da como resultado relaciones de compresión entre 20:1 y 40:1 dependiendo de los datos en la trama. Sin embargo, incluso mayores proporciones de compresión pueden resultar si, en lugar de mirar fotogramas individuales como si fueran imágenes fijas, miramos múltiples fotogramas como imágenes temporales.
En una secuencia típica de video, muy pocos datos cambian de fotograma a fotograma. Si codificamos solo los píxeles que cambian entre fotogramas, la cantidad de datos requeridos para almacenar un solo fotograma de video disminuye significativamente. Este tipo de compresión se conoce como compresión delta interframe, o en el caso del video, compensación de movimiento. Los esquemas típicos de compensación de movimiento que codifican solo deltas de cuadro (datos que han cambiado entre fotogramas) pueden, dependiendo de los datos, lograr relaciones de compresión superiores a 200:1. Este es solo un tipo posible de método de compresión de video. Existen muchos otros tipos de esquemas de compresión de video, algunos de los cuales son similares y algunos de los cuales son diferentes.
Audio Digital
Todos los formatos de archivo multimedia son capaces, por definición, de almacenar información sonora. Los datos de sonido, como los gráficos y los datos de video, tienen sus propios requisitos especiales cuando se leen, escriben, interpretan y comprimen. Antes de mirar cómo se almacena el sonido en un formato multimedia debemos mirar cómo el sonido en sí se almacena como datos digitales. Todos los sonidos que escuchamos ocurren en forma de señales analógicas. Un sistema de grabación de audio analógico, como una grabadora convencional, captura toda la forma de onda de sonido y la almacena en formato analógico en un medio como cinta magnética.
Debido a que las computadoras son ahora dispositivos digitales es necesario almacenar información sonora en un formato digitalizado que las computadoras puedan usar fácilmente. Un sistema de grabación de audio digital no graba toda la forma de onda como lo hacen los sistemas analógicos (la excepción son los sistemas de Cinta de Audio Digital [DAT]). En cambio, una grabadora digital captura una forma de onda a intervalos específicos, llamada frecuencia de muestreo. Cada instantánea en forma de onda capturada se convierte a un valor entero binario y luego se almacena en cinta magnética o disco.
El almacenamiento de audio como muestras digitales se conoce como Modulación por Código de Pulso (PCM). PCM es un algoritmo simple de cuantificación o digitalización (conversión de audio a digital), que convierte linealmente todas las señales analógicas en muestras digitales. Este proceso se usa comúnmente en todos los CD-ROMs de audio.
La modulación diferencial por código de pulso (DPCM) es un esquema de codificación de audio que cuantifica la diferencia entre las muestras en lugar de las muestras mismas. Debido a que las diferencias se representan fácilmente por valores más pequeños que los de las propias muestras, se pueden usar menos bits para codificar el mismo sonido (por ejemplo, la diferencia entre dos muestras de 16 bits puede ser solo de cuatro bits de tamaño). Por esta razón, DPCM también se considera un esquema de compresión de audio.
Otro esquema de compresión de audio, que utiliza la cuantificación de diferencias, es la Modulación por Código de Pulso Diferencial Adaptativo (ADPCM). DPCM es un algoritmo no adaptativo. Es decir, no cambia la forma en que codifica los datos en función del contenido de los datos. DPCM utiliza el número de bits de muestra para representar cada nivel de señal. ADPCM, sin embargo, es un algoritmo adaptativo y cambia su esquema de codificación en función de los datos que está codificando. ADPCM se adapta específicamente usando menos bits para representar señales de nivel inferior que para representar señales de nivel superior. Muchos de los esquemas de compresión de audio más utilizados se basan en ADPCM.
Los datos de audio digital son simplemente una representación binaria de un sonido. Estos datos se pueden escribir en un archivo binario usando un formato de archivo de audio para almacenamiento permanente de la misma manera que los datos de mapa de bits se conservan en un formato de archivo de imagen. Los datos pueden ser leídos por una aplicación de software, pueden enviarse como datos a un dispositivo de hardware e incluso pueden almacenarse como un CD-ROM.
La calidad de una muestra de audio se determina comparándola con el sonido original del que se muestreó. Cuanto más idéntica sea la muestra al sonido original, mayor será la calidad de la muestra. Esto es similar a comparar una imagen con el documento o fotografía original del que se escaneó.
La calidad de los datos de audio está determinada por tres parámetros:
- Resolución de la muestra
- Frecuencia de muestreo
- Número de canales de audio muestreados
La resolución de la muestra está determinada por el número de bits por muestra. Cuanto mayor sea el tamaño del muestreo, mayor será la calidad de la muestra. Así como la calidad aparente (resolución) de una imagen se reduce al almacenar menos bits de datos por píxel, también se reduce la calidad de una grabación de audio digital al almacenar menos bits por muestra. Los tamaños de muestreo típicos son ocho bits y 16 bits.
La frecuencia de muestreo es el número de veces por segundo que se leyó la forma de onda analógica para recopilar datos. Cuanto mayor sea la frecuencia de muestreo, mayor será la calidad del audio. Una alta frecuencia de muestreo recopila más datos por segundo que una frecuencia de muestreo más baja, por lo que requiere más memoria y espacio en disco para almacenar. Las frecuencias de muestreo comunes son 44.100 kHz (mayor calidad), 22.254 kHz (calidad media) y 11.025 kHz (calidad inferior). Las frecuencias de muestreo generalmente se miden en los términos de procesamiento de señal hercios (Hz) o kilohercios (kHz), pero el término muestras por segundo (muestreos/ segundo) es más apropiado para este tipo de medición.
Una fuente de sonido puede ser muestreada usando un canal (muestreo monoaural) o dos canales (muestreo estéreo). El muestreo de dos canales proporciona mayor calidad que el muestreo mono y, como habrás adivinado, produce el doble de datos duplicando el número de muestras capturadas. Muestreo de un canal por un segundo a 11 mil muestras/segundo produce 11 mil muestras. Muestreo de dos canales a la misma velocidad, sin embargo, produce 22 mil muestras/segundo.
La cantidad de datos binarios producidos por el muestreo incluso de unos pocos segundos de audio es bastante grande. Diez segundos de datos muestreados a baja calidad (un canal, resolución de muestra de 8 bits, 11.025 muestreos/segundo frecuencia de muestreo) producen aproximadamente 108K de datos (88.2 Kbits/segundo).
Agregar un segundo canal duplica la cantidad de datos para producir casi un archivo 215K (176 Kbits/segundo). Si aumentamos la resolución de la muestra a 16 bits, el tamaño de los datos se duplica nuevamente a 430K (352 Kbits/segundo). Si ahora aumentamos la frecuencia de muestreo a 22.05 KMuestreos/segundo, la cantidad de datos producidos se duplica nuevamente a 860K (705.6 Kbits/segundo). Con la más alta calidad generalmente utilizada (dos canales, resolución de muestreo de 16 bits, 44,1 Ksamples/segundo frecuencia de muestreo), nuestros 10 segundos de audio ahora requieren 1.72 megabytes (1411.2 Kbits/segundo) de espacio en disco para almacenar.
Considera cuán poca información se puede almacenar realmente en 10 segundos de sonido. La canción musical típica tiene al menos tres minutos de duración. Los videos musicales tienen una duración de cinco a 15 minutos. Un programa de televisión típico tiene una duración de 30 a 60 minutos. Los videos de películas pueden tener una duración de tres horas o más. Estamos hablando de mucho espacio en disco aquí.
Una solución para los requisitos de almacenamiento masivo de datos de audio de alta calidad es la compresión de datos. Por ejemplo, el estándar CD-DA (Compact Disc-Digital Audio) realiza muestreo mono o estéreo utilizando una resolución de muestreo de 16 bits y una frecuencia de muestreo de 44.1 muestras/ segundo, lo que lo convierte en un formato de muy alta calidad tanto para aplicaciones de música como de lenguaje. Almacenar cinco minutos de información de CD-DA requiere aproximadamente 25 megabytes de espacio en disco, solo la mitad de la cantidad de espacio que se requeriría si los datos de audio estuvieran descomprimidos.
Los datos de audio, en común con la mayoría de los datos binarios, contienen una buena cantidad de redundancia que se puede eliminar con la compresión de datos. Los métodos de compresión convencionales utilizados en muchos programas de archivo (zoo y pkzip, por ejemplo) y formatos de archivo de imagen no hacen un muy buen trabajo al comprimir datos de audio (típicamente 10 por ciento a 20 por ciento). Esto se debe a que los datos de audio están organizados de manera muy diferente a los datos ASCII o binarios que normalmente manejan este tipo de algoritmos.
Los algoritmos de compresión de audio, como los algoritmos de compresión de imágenes, se pueden clasificar como con pérdida y sin pérdida. Los métodos de compresión sin pérdidas no descartan ningún dato. El paso de descompresión produce exactamente los mismos datos que fueron leídos por el paso de compresión. Una forma simple de compresión de audio sin pérdidas es codificar Huffman las diferencias entre cada muestra sucesiva de 8 bits. La codificación Huffman es un algoritmo de compresión sin pérdidas y, por lo tanto, los datos de audio se conservan en su totalidad.
Los esquemas de compresión con pérdida descartan datos basados en las percepciones del sistema psicoacústico del cerebro humano. Partes de sonidos que el oído no puede oír, o al cerebro no le importan, pueden descartarse como datos inútiles.
Un algoritmo debe tener cuidado al descartar datos de audio. El oído es muy sensible a los cambios en el sonido. El ojo es muy indulgente sobre dejar caer un fotograma de video aquí o reducir la cantidad de colores allí. El oído, sin embargo, nota incluso ligeros cambios en los sonidos, especialmente cuando se entrena específicamente para reconocer infidelidades y discrepancias audiales. No obstante, cuanto mayor sea la calidad de una muestra de audio, más datos se requerirán para almacenarla. Al igual que con los esquemas de compresión de imágenes con pérdida, a veces necesitarás tomar una decisión subjetiva entre la calidad y el tamaño de los datos.
Audio
Actualmente no existe un “formato de intercambio de archivos de audio” que sea ampliamente utilizado en la industria del audio por computadora. Dicho formato permitiría escribir, leer y transportar fácilmente una amplia variedad de datos de audio entre diferentes plataformas de hardware y sistemas operativos.
La mayoría de los formatos de archivo de audio existentes, sin embargo, son muy específicos de la máquina y no se prestan para intercambiar muy bien. Varios formatos multimedia son capaces de encapsular una amplia variedad de formatos de audio, pero no describen ningún nuevo formato de datos de audio en sí mismos.
Muchos formatos de archivos de audio tienen encabezados tal como lo hacen los archivos de imagen. Su información de cabecera incluye parámetros particulares de datos de audio, incluyendo frecuencia de muestreo, número de canales, resolución de muestra, tipo de compresión, etc. También se incluye un campo de identificación (número “mágico”) en varios encabezados de formato de archivo de audio.
Varios formatos contienen solo datos de audio sin procesar y sin encabezado de archivo. Cualquier parámetro que estos formatos utilicen son de valor fijo y por lo tanto serían redundantes para almacenar en un encabezado de archivo. Los formatos orientados a flujos contienen paquetes (fragmentos) de información incrustados en puntos estratégicos dentro de los propios datos de audio sin procesar. Dichos formatos son muy dependientes de la plataforma y requerirían un lector o convertidor de formato de archivo de audio para tener conocimiento previo de cuáles son estos valores de parámetros.
La mayoría de los formatos de archivo de audio pueden identificarse por sus tipos de archivo o extensiones. Algunos formatos de archivo de sonido comunes son:
- .AU Sun Microsystems
- .SND SIGUIENTE
- HCOM Apple Macintosh
- .COV SoundBlaster
- .WAV Microsoft Forma de onda
- AIFF Manzana/SGI
- 8SVX Manzana/SGI
Un formato multimedia puede elegir definir su propio formato de datos de audio interno o simplemente encapsular un formato de archivo de audio existente. Los archivos Microsoft Waveform son archivos RIFF con un solo componente de archivo de audio Waveform, mientras que los archivos QuickTime de Apple contienen sus propias estructuras de datos de audio exclusivas de los
MIDI Estándar
La Interfaz Digital de Instrumentos Musicales (MIDI) es un estándar de la industria para representar el sonido en formato binario. MIDI no es un formato de audio, sin embargo. No almacena sonidos muestreados digitalmente reales. En cambio, MIDI almacena una descripción de sonidos, de la misma manera que un formato de imagen vectorial almacena una descripción de una imagen y no los datos de imagen en sí.
El sonido en los datos MIDI se almacena como una serie de mensajes de control. Cada mensaje describe un evento sonoro usando términos como tono, duración y volumen. Cuando estos mensajes de control se envían a un dispositivo compatible con MIDI (el estándar MIDI también define el hardware de interconexión utilizado por los dispositivos MIDI y el protocolo de comunicaciones utilizado para intercambiar la información de control) la información en el mensaje es interpretada y reproducida por el dispositivo.
Los datos MIDI pueden comprimirse, al igual que cualquier otro dato binario, y no requieren algoritmos de compresión especiales en la forma en que lo hacen los datos de audio.
Conclusión
La actividad introdujo los diversos formatos de datos que son posibles en un multimedia, también explicó las conversiones posibles, por ejemplo, muestreo, cuantificación y animaciones
Evaluación
1. ¿Qué es la conversión digital? es una característica muy útil que convierte un voltaje analógico en un pin a un número digital. Al convertir del mundo analógico al mundo digital, podemos comenzar a usar la electrónica para interactuar con el mundo analógico que nos rodea.
ej., la conversión analógica a digital es un proceso electrónico en el que una señal continuamente variable (analógica) se cambia, sin alterar su contenido esencial, en una señal multinivel (digital).
La entrada a un convertidor analógico-digital (ADC) consiste en un voltaje que varía entre un número teóricamente infinito de valores. Ejemplos son las ondas sinusoidales, las formas de onda que representan el habla humana y las señales de una cámara de televisión convencional. La salida del ADC, en contraste, tiene niveles o estados definidos. El número de estados es casi siempre una potencia de dos —es decir, 2, 4, 8, 16, etc. Las señales digitales más simples tienen sólo dos estados, y se llaman binarias. Todos los números enteros se pueden representar en forma binaria como cadenas de unos y ceros.
2.Explicar MIDI
MIDI (Musical Instrument Digital Interface) es un protocolo diseñado para grabar y reproducir música en sintetizadores digitales que es compatible con muchas marcas de tarjetas de sonido de computadora personal. Originalmente destinado a controlar un teclado de otro, se adoptó rápidamente para la computadora personal. En lugar de representar el sonido musical directamente, transmite información sobre cómo se produce la música. El conjunto de comandos incluye note-ons, note-offs, velocidad clave, pitch bend y otros métodos para controlar un sintetizador. Las ondas sonoras producidas son las que ya están almacenadas en una tablilla de ondas en el instrumento receptor o tarjeta de sonido.