Ventanas.  virus  Cuadernos.  Internet.  oficina.  Utilidades.  Conductores

La segunda parte del ciclo está dedicada a las funciones de optimización del rango dinámico de las imágenes. En él, explicaremos por qué se necesitan tales soluciones, consideraremos varias opciones para su implementación, así como sus ventajas y desventajas.

Abraza la inmensidad

Idealmente, la cámara debería capturar la imagen del mundo circundante tal como lo percibe una persona. Sin embargo, debido al hecho de que los mecanismos de "visión" de la cámara y del ojo humano son significativamente diferentes, existen una serie de limitaciones que no permiten cumplir esta condición.

Uno de los problemas que antes enfrentaban los usuarios de cámaras de película y ahora enfrentan los propietarios de cámaras digitales es la incapacidad de capturar adecuadamente escenas con grandes diferencias de luz sin el uso de dispositivos especiales y/o técnicas de filmación especiales. Las características del aparato visual humano hacen posible percibir igualmente bien los detalles de escenas de alto contraste tanto en áreas iluminadas como oscuras. Desafortunadamente, el sensor de la cámara no siempre es capaz de capturar la imagen tal como la vemos.

Cuanto mayor sea la diferencia de brillo en la escena fotografiada, mayor será la probabilidad de pérdida de detalle en las luces y/o sombras. Como resultado, en lugar de un cielo azul con nubes exuberantes en la imagen, solo se obtiene una mancha blanquecina, y los objetos ubicados en las sombras se convierten en siluetas oscuras indistintas o incluso se fusionan con el entorno.

La fotografía clásica utiliza la noción latitud fotográfica(ver barra lateral para más detalles). Teóricamente, la latitud fotográfica de las cámaras digitales está determinada por la profundidad de bits del convertidor de analógico a digital (ADC). Por ejemplo, al utilizar un ADC de 8 bits, teniendo en cuenta el error de cuantificación, el valor teóricamente alcanzable de la latitud fotográfica será de 7 EV, para un ADC de 12 bits - 11 EV, etc. Sin embargo, en dispositivos reales, el rango dinámico de las imágenes es en mismo máximo teórico debido a la influencia de varios tipos de ruido y otros factores.

Una gran diferencia en los niveles de brillo es un grave
problema de fotografia EN este caso capacidades de la cámara
no fue suficiente para transmitir adecuadamente la mayoría
áreas claras de la escena, y como resultado, en lugar de un área azul
el cielo (marcado con un trazo) resultó ser un "parche" blanco

El valor de brillo máximo que puede detectar un sensor fotosensible está determinado por el nivel de saturación de sus celdas. El valor mínimo depende de varios factores, incluida la cantidad de ruido térmico de la matriz, el ruido de transferencia de carga y el error del ADC.

También vale la pena señalar que la latitud fotográfica de la misma cámara digital puede variar según el valor de sensibilidad establecido en la configuración. El rango dinámico máximo se puede lograr ajustando la llamada sensibilidad básica (correspondiente al valor numérico mínimo posible). A medida que aumenta el valor de este parámetro, el rango dinámico disminuye debido al aumento del nivel de ruido.

La latitud fotográfica de los modelos modernos de cámaras digitales equipadas con sensores grandes y ADC de 14 o 16 bits es de 9 a 11 EV, que es significativamente mayor en comparación con las mismas características de las películas negativas en color de formato de 35 mm (4 a 5 EV en promedio). ). Por lo tanto, incluso las cámaras digitales relativamente económicas tienen suficiente latitud fotográfica para capturar adecuadamente la mayoría de las escenas típicas de fotografía amateur.

Sin embargo, hay un problema de otro tipo. Está relacionado con las restricciones impuestas por los estándares existentes para la grabación de imágenes digitales. Usando el formato JPEG con 8 bits por canal de color (que ahora se ha convertido en el estándar de facto para grabar imágenes digitales en la industria informática y la tecnología digital), es incluso teóricamente imposible guardar una imagen con una latitud fotográfica de más de 8 EV. .

Supongamos que el ADC de la cámara le permite obtener una imagen con una profundidad de bits de 12 o 14 bits, que contiene detalles distinguibles tanto en las luces como en las sombras. Sin embargo, si la latitud fotográfica de esta imagen supera los 8 EV, entonces en el proceso de conversión a un formato estándar de 8 bits sin ningún paso adicional (es decir, simplemente descartando bits "extra"), parte de la información registrada por el el sensor fotosensible se perderá.

Rango dinámico y latitud fotográfica

En términos simples, el rango dinámico se define como la relación entre el valor máximo de brillo de una imagen y su valor mínimo. En la fotografía clásica se utiliza tradicionalmente el término latitud fotográfica que, de hecho, significa lo mismo.

El ancho del rango dinámico se puede expresar como una relación (por ejemplo, 1000:1, 2500:1, etc.), pero la escala logarítmica es la más utilizada. En este caso, se calcula el valor del logaritmo decimal de la relación entre el brillo máximo y su valor mínimo, y el número va seguido de la letra D mayúscula (¿de la densidad inglesa? - densidad), ¿con menos frecuencia? - la abreviatura OD (¿del inglés densidad óptica? - densidad óptica). Por ejemplo, si la relación entre el valor de brillo máximo y el valor mínimo de cualquier dispositivo es 1000:1, el rango dinámico será 3,0 D:

Para medir la latitud fotográfica, tradicionalmente se utilizan las llamadas unidades de exposición, denotadas por la abreviatura EV (del inglés valores de exposición; los profesionales a menudo se refieren a ellos como "pies" o "pasos"). Es en estas unidades donde el valor de compensación de la exposición suele establecerse en los ajustes de la cámara. Aumentar el valor de la latitud fotográfica en 1 EV equivale a duplicar la diferencia entre los niveles de brillo máximo y mínimo. Así, la escala EV también es una escala logarítmica, pero en este caso para calcular los valores numéricos se utiliza un logaritmo de base 2. La latitud fotográfica será de 8 EV:

La compresión es un compromiso razonable

Mayoría manera efectiva conservar toda la información de la imagen capturada por el sensor fotosensible de la cámara es grabar imágenes en formato RAW. Sin embargo, no todas las cámaras tienen esta función, y no todos los fotógrafos aficionados están preparados para realizar el arduo trabajo de seleccionar ajustes individuales para cada toma.

Para reducir la posibilidad de pérdida de detalle en imágenes de alto contraste convertidas dentro de la cámara a JPEG de 8 bits, se han introducido dispositivos de muchos fabricantes (y no solo compactos, sino también SLR). funciones especiales, permitiendo sin la intervención del usuario comprimir el rango dinámico de las imágenes guardadas. Al reducir el contraste general y perder una pequeña parte de la información de la imagen original, estas soluciones permiten conservar en formato JPEG de 8 bits los detalles de luces y sombras registrados por el sensor sensible a la luz del dispositivo, incluso si el el rango dinámico de la imagen original resultó ser más amplio que 8 EV.

Uno de los pioneros en el desarrollo de esta dirección fue la empresa HP. Lanzada en 2003, la cámara digital HP Photosmart 945 fue la primera en el mundo en implementar la tecnología HP Adaptive Lightling, que compensa automáticamente la falta de luz en las áreas oscuras de las imágenes y, por lo tanto, conserva los detalles de las sombras sin riesgo de sobreexposición (que es muy importante cuando se toman escenas de alto contraste). El algoritmo de HP Adaptive Lightling se basa en los principios establecidos por el científico inglés Edwin Land en la teoría de la percepción visual humana RETINEX.

Menú de funciones de iluminación adaptativa de HP

¿Cómo funciona la Iluminación Adaptativa? Después de obtener una imagen de imagen de 12 bits, se extrae de ella una imagen monocromática auxiliar, que en realidad es un mapa de luz. Al procesar la imagen, este mapa se usa como una máscara que le permite ajustar el grado de exposición a una imagen bastante compleja. filtro digital en la imagen Así, en las zonas correspondientes a los puntos más oscuros del mapa, el impacto sobre la imagen de la futura imagen es mínimo, y viceversa. Este enfoque le permite mostrar detalles en las sombras iluminando selectivamente estas áreas y, en consecuencia, reduciendo el contraste general de la imagen resultante.

Cabe señalar que cuando la función de iluminación adaptable está habilitada, la imagen capturada se procesa de la manera descrita anteriormente antes de que la imagen final se escriba en un archivo. Todas las operaciones descritas se realizan automáticamente, y el usuario solo puede seleccionar uno de los dos modos de Iluminación Adaptativa en el menú de la cámara (nivel de exposición bajo o alto) o desactivar esta función.

En términos generales, muchas de las funciones específicas de las cámaras digitales modernas (incluidos los sistemas de reconocimiento facial discutidos en el artículo anterior) son algún tipo de subproductos o productos de conversión de proyectos de investigación que se llevaron a cabo originalmente para clientes militares. En lo que respecta a las funciones de optimización del rango dinámico de imágenes, uno de los proveedores más conocidos de este tipo de soluciones es Apical. Los algoritmos creados por sus empleados, en particular, son la base del funcionamiento de la función SAT (Tecnología de ajuste de sombras, tecnología de corrección de sombras) implementada en varias cámaras digitales de Olympus. Brevemente, el funcionamiento de la función SAT se puede describir de la siguiente manera: en función de la imagen de la imagen original, se crea una máscara correspondiente a las áreas más oscuras y luego el nivel de exposición se corrige automáticamente para estas áreas.

Sony también adquirió una licencia por el derecho a utilizar los desarrollos de Apical. Muchos modelos de cámaras compactas de la serie Cyber-shot y de las cámaras SLR de la serie alpha tienen la llamada función de optimización de rango dinámico (Dynamic Range Optimizer, DRO).

Fotos tomadas con la HP Photosmart R927 apagada (arriba)
y la iluminación adaptativa activada

La corrección de imagen cuando se activa DRO se realiza durante el procesamiento de imagen inicial (es decir, antes de que se escriba el archivo JPEG terminado). En la versión básica, DRO tiene una configuración de dos etapas (en el menú, puede seleccionar el modo estándar o extendido de su operación). Cuando se selecciona el modo estándar, según el análisis de la imagen, la exposición se corrige para el valor de exposición y luego se aplica una curva de tono a la imagen para nivelar el balance general. El modo avanzado utiliza un algoritmo más complejo que le permite realizar correcciones tanto en sombras como en luces.

Los desarrolladores de Sony trabajan constantemente para mejorar el algoritmo DRO. Por ejemplo, en la cámara SLR a700, cuando el modo DRO avanzado está activado, es posible seleccionar una de las cinco opciones de corrección. Además, es posible guardar tres variantes de una imagen a la vez (una especie de horquillado) con diferentes configuraciones de DRO.

Muchas cámaras digitales Nikon tienen D-Lighting, que también se basa en algoritmos Apical. Es cierto que, a diferencia de las soluciones descritas anteriormente, D-Lighting se implementa como un filtro para procesar imágenes previamente guardadas utilizando una curva de tono, cuya forma le permite aclarar las sombras, manteniendo el resto de la imagen sin cambios. Pero dado que en este caso se procesan imágenes de 8 bits listas para usar (y no la imagen original del cuadro, que tiene una mayor profundidad de bits y, en consecuencia, un rango dinámico más amplio), las posibilidades de D-Lighting son muy limitadas. El usuario puede obtener el mismo resultado procesando la imagen en un editor gráfico.

Al comparar fragmentos ampliados, se ve claramente que las áreas oscuras de la imagen original (izquierda)
cuando la función de iluminación adaptativa está activada, se vuelven más claras

También hay una serie de soluciones basadas en otros principios. Por lo tanto, en muchas cámaras de la familia Panasonic Lumix (en particular, DMC-FX35, DMC-TZ4, DMC-TZ5, DMC-FS20, DMC-FZ18, etc.), se implementa la función de reconocimiento de iluminación (Exposición inteligente), que es un parte integrante del sistema intelectual Control automático tiro iA. La función Exposición inteligente se basa en el análisis automático de la imagen del cuadro y la corrección de las áreas oscuras de la imagen para evitar la pérdida de detalles en las sombras, así como (si es necesario) la compresión del rango dinámico de las escenas de alto contraste.

En algunos casos, la operación de la función de optimización del rango dinámico proporciona no solo ciertas operaciones para procesar la imagen de la imagen original, sino también la corrección de los ajustes de disparo. Por ejemplo, en los nuevos modelos de cámaras digitales Fujifilm (en particular, en la FinePix S100FS), se implementa la función de ampliar el rango dinámico (Wide Dynamic Range, WDR) que, según los desarrolladores, permite aumentar la latitud fotográfica en uno o dos pasos (en términos de configuración: 200 y 400%).

Cuando la función WDR está activada, la cámara toma fotografías con una compensación de exposición de -1 o -2 EV (dependiendo de la configuración seleccionada). Por lo tanto, la imagen del marco está subexpuesta; esto es necesario para preservar la máxima información sobre los detalles en los aspectos más destacados. Luego, la imagen resultante se procesa utilizando una curva de tonos, lo que le permite nivelar el balance general y ajustar el nivel de negro. Luego, la imagen se convierte al formato de 8 bits y se graba como un archivo JPEG.

La compresión de rango dinámico permite retener más detalles
en luces y sombras, pero la consecuencia inevitable de tal impacto
es una disminución en el contraste general. En la imagen inferior
la textura de las nubes está mucho mejor trabajada, sin embargo
debido al menor contraste, esta variante de la imagen
se ve menos natural

Una función similar denominada Ampliación del rango dinámico se implementa en varias cámaras Pentax compactas y SLR (Optio S12, K200D, etc.). Según el fabricante, el uso de la función Dynamic Range Enlargement permite aumentar la latitud fotográfica de las imágenes en 1 EV sin perder detalles en luces y sombras.

Una función similar denominada Prioridad de tono de realce (HTP) se implementa en una serie de modelos SLR de Canon (EOS 40D, EOS 450D, etc.). Según la información del manual de usuario, activar HTP permite obtener un mejor detalle en las altas luces (más concretamente, en el rango de niveles de 0 a 18% de gris).

Conclusión

Resumamos. La función de compresión de rango dinámico incorporada le permite convertir la imagen original con un amplio rango dinámico en un archivo JPEG de 8 bits con daños mínimos. En ausencia de guardado de fotogramas RAW, el modo de compresión de rango dinámico permite al fotógrafo utilizar todo el potencial de su cámara al capturar escenas de alto contraste.

Por supuesto, tenga en cuenta que la compresión del rango dinámico no es una cura milagrosa, sino un compromiso. La preservación de los detalles en las altas luces y/o las sombras tiene el costo de un mayor ruido en las áreas oscuras de la imagen, un contraste reducido y un cierto engrosamiento de las transiciones tonales suaves.

Como cualquier función automática, el algoritmo de compresión de rango dinámico no es una solución totalmente universal que te permita mejorar absolutamente cualquier imagen. Por lo tanto, tiene sentido activarlo solo en aquellos casos en los que realmente se necesita. Por ejemplo, para fotografiar una silueta con un fondo bien desarrollado, la función de compresión de rango dinámico debe estar desactivada; de lo contrario, la trama espectacular se estropeará irremediablemente.

Al concluir la consideración de este tema, debe tenerse en cuenta que el uso de funciones de compresión de rango dinámico no le permite "sacar" detalles en la imagen resultante que no fueron capturados por el sensor de la cámara. Para obtener un resultado satisfactorio al fotografiar escenas de alto contraste, es necesario utilizar dispositivos adicionales (por ejemplo, filtros de degradado para fotografiar paisajes) o técnicas especiales (como tomar varias tomas con horquillado de exposición y luego combinarlas en una sola imagen usando Tone Mapping tecnología).

El siguiente artículo se centrará en la función de disparo en ráfaga.

Continuará

© 2014 sitio

O latitud fotográfica El material fotográfico es la relación entre los valores de exposición máximos y mínimos que se pueden capturar correctamente en la imagen. Aplicado a la fotografía digital, el rango dinámico es en realidad equivalente a la relación de los valores máximos y mínimos posibles de útil señal eléctrica generada por el fotosensor durante la exposición.

El rango dinámico se mide en pasos de exposición (). Cada paso corresponde a duplicar la cantidad de luz. Entonces, por ejemplo, si una determinada cámara tiene un rango dinámico de 8 EV, esto significa que el valor máximo posible de la señal útil de su matriz está relacionado con el mínimo como 2 8: 1, lo que significa que la cámara es capaz de capturar objetos que difieren en brillo dentro de un cuadro no más de 256 veces. Más precisamente, puede capturar objetos con cualquier brillo, sin embargo, los objetos cuyo brillo supere el valor máximo permitido aparecerán en blanco deslumbrante en la imagen, y los objetos cuyo brillo esté por debajo del valor mínimo aparecerán en negro azabache. Los detalles y la textura se distinguirán solo en aquellos objetos cuyo brillo se ajuste al rango dinámico de la cámara.

Para describir la relación entre el brillo de los sujetos fotografiados más claros y más oscuros, a menudo se utiliza el término no del todo correcto "rango dinámico de la escena". Sería más correcto hablar del rango de brillo o del nivel de contraste, ya que el rango dinámico suele ser una característica del dispositivo de medición (en este caso, la matriz de una cámara digital).

Desafortunadamente, el rango de brillo de muchas hermosas escenas que encontramos en la vida real puede exceder significativamente el rango dinámico de una cámara digital. En tales casos, el fotógrafo se ve obligado a decidir qué objetos se deben trabajar con gran detalle y cuáles se pueden dejar fuera del rango dinámico sin comprometer la intención creativa. Para aprovechar al máximo el rango dinámico de su cámara, a veces es posible que no necesite tanto una comprensión profunda del principio de funcionamiento del fotosensor como un instinto artístico desarrollado.

Factores que limitan el rango dinámico

El límite inferior del rango dinámico lo establece el nivel de ruido intrínseco del fotosensor. Incluso una matriz apagada genera una señal eléctrica de fondo llamada ruido oscuro. Además, la interferencia ocurre cuando se transfiere una carga a un convertidor de analógico a digital, y el ADC en sí mismo introduce un cierto error en la señal digitalizada, el llamado. ruido de muestreo.

Si toma una foto en completa oscuridad o con la tapa del objetivo puesta, la cámara solo grabará este ruido sin sentido. Si se permite que una cantidad mínima de luz llegue al sensor, los fotodiodos comenzarán a acumular una carga eléctrica. La magnitud de la carga, y por tanto la intensidad de la señal útil, será proporcional al número de fotones capturados. Para que aparezcan detalles significativos en la imagen, es necesario que el nivel de la señal útil supere el nivel del ruido de fondo.

Por lo tanto, el límite inferior del rango dinámico o, en otras palabras, el umbral de sensibilidad del sensor puede definirse formalmente como el nivel de señal de salida en el que la relación señal/ruido es mayor que uno.

El límite superior del rango dinámico está determinado por la capacitancia de un solo fotodiodo. Si durante la exposición cualquier fotodiodo acumula una carga eléctrica del valor máximo para sí mismo, entonces el píxel de la imagen correspondiente al fotodiodo sobrecargado se volverá absolutamente blanco y la irradiación adicional no afectará su brillo de ninguna manera. Este fenómeno se llama recorte. Cuanto mayor sea la capacidad de sobrecarga del fotodiodo, más señal podrá dar en la salida antes de que alcance la saturación.

Para mayor claridad, pasemos a la curva característica, que es un gráfico de la dependencia de la señal de salida con la exposición. El eje horizontal es el logaritmo binario de la radiación recibida por el sensor y el eje vertical es el logaritmo binario de la magnitud de la señal eléctrica generada por el sensor en respuesta a esta radiación. Mi dibujo es en gran medida arbitrario y solo tiene fines ilustrativos. La curva característica de un fotosensor real tiene una forma un poco más compleja y el nivel de ruido rara vez es tan alto.

Dos puntos de inflexión críticos son claramente visibles en el gráfico: en el primero de ellos, el nivel de señal útil cruza el umbral de ruido, y en el segundo, los fotodiodos alcanzan la saturación. Los valores de exposición entre estos dos puntos constituyen el rango dinámico. En este ejemplo abstracto, es igual, como puedes ver fácilmente, a 5 EV, es decir la cámara es capaz de digerir cinco duplicaciones de exposición, lo que equivale a una diferencia de brillo de 32 veces (2 5 = 32).

Las zonas de exposición que componen el rango dinámico no son equivalentes. Las zonas superiores tienen una mayor relación señal-ruido y, por lo tanto, se ven más limpias y detalladas que las inferiores. Como resultado, el límite superior del rango dinámico es muy real y perceptible: el recorte corta la luz ante la más mínima sobreexposición, mientras que el límite inferior se ahoga discretamente en el ruido, y la transición al negro no es tan nítida como al blanco.

La dependencia lineal de la señal en la exposición, así como una meseta nítida, son características únicas del proceso fotográfico digital. A modo de comparación, eche un vistazo a la curva característica condicional de la película fotográfica tradicional.

La forma de la curva y especialmente el ángulo de inclinación dependen en gran medida del tipo de película y del procedimiento para su revelado, pero la diferencia principal y conspicua entre el gráfico de película y el digital permanece sin cambios: la naturaleza no lineal de la dependencia de la densidad óptica de la película en el valor de exposición.

El límite inferior de la latitud fotográfica de la película negativa está determinado por la densidad del velo, y el límite superior está determinado por la densidad óptica máxima alcanzable de la fotocapa; para películas reversibles, lo contrario es cierto. Tanto en las sombras como en las altas luces se observan curvas suaves de la curva característica, indicando una caída del contraste al acercarse a los límites del rango dinámico, debido a que la pendiente de la curva es proporcional al contraste de la imagen. Por lo tanto, las áreas de exposición que se encuentran en el centro del gráfico tienen el máximo contraste, mientras que el contraste se reduce en las luces y las sombras. En la práctica, la diferencia entre la película y la matriz digital es especialmente notable en las altas luces: donde en la imagen digital las luces se queman por el recorte, en la película los detalles aún se distinguen, aunque con poco contraste, y la transición a El color blanco puro se ve suave y natural.

En sensitometría se utilizan incluso dos términos independientes: en realidad latitud fotográfica, limitada por una sección relativamente lineal de la curva característica, y latitud fotográfica útil, que incluye, además de sección lineal Vea también la parte inferior y el hombro del gráfico.

Es de destacar que al procesar fotografías digitales, por regla general, se les aplica una curva en forma de S más o menos pronunciada, aumentando el contraste en medios tonos a costa de reducirlo en sombras y luces, lo que le da a la imagen digital un aspecto más aspecto natural y agradable a la vista.

Profundidad de bits

A diferencia de la matriz de una cámara digital, la visión humana se caracteriza por, digamos, una visión logarítmica del mundo. Las duplicaciones sucesivas de la cantidad de luz las percibimos como cambios iguales en el brillo. Los números de luz pueden incluso compararse con octavas musicales, porque los cambios dobles en la frecuencia del sonido se perciben al oído como un único intervalo musical. Otros órganos de los sentidos funcionan según el mismo principio. La no linealidad de la percepción amplía en gran medida el rango de la sensibilidad humana a los estímulos de intensidad variable.

Al convertir un archivo RAW (no importa, usando la cámara o en un convertidor RAW) que contiene datos lineales, los llamados. curva gamma, que está diseñada para aumentar de forma no lineal el brillo de una imagen digital, alineándola con las características de la visión humana.

Con la conversión lineal, la imagen es demasiado oscura.

Después de la corrección gamma, el brillo vuelve a la normalidad.

La curva gamma, por así decirlo, estira los tonos oscuros y comprime los tonos claros, haciendo que la distribución de las gradaciones sea más uniforme. El resultado es una imagen de apariencia natural, pero el ruido y los artefactos de muestreo en las sombras inevitablemente se vuelven más perceptibles, lo que solo se ve exacerbado por la pequeña cantidad de niveles de brillo en las zonas inferiores.

Distribución lineal de gradaciones de brillo.
Distribución uniforme tras aplicar la curva gamma.

ISO y rango dinámico

A pesar de que la fotografía digital utiliza el mismo concepto de fotosensibilidad del material fotográfico que en la fotografía con película, debe entenderse que esto sucede únicamente por tradición, ya que los enfoques para cambiar la fotosensibilidad en la fotografía digital y con película difieren fundamentalmente.

Aumentar la velocidad ISO en fotografía tradicional significa cambiar de una película a otra con un grano más grueso, es decir, hay un cambio objetivo en las propiedades del propio material fotográfico. En una cámara digital, la sensibilidad a la luz del sensor está rígidamente establecida por sus características físicas y no puede cambiarse literalmente. Al aumentar el ISO, la cámara no cambia la sensibilidad real del sensor, sino que solo amplifica la señal eléctrica generada por el sensor en respuesta a la irradiación y ajusta el algoritmo para digitalizar esta señal en consecuencia.

Una consecuencia importante de esto es la disminución del rango dinámico efectivo en proporción al aumento de ISO, ya que junto con la señal útil también aumenta el ruido. Si en ISO 100 se digitaliza todo el rango de valores de señal, desde cero hasta el punto de saturación, entonces en ISO 200 solo se toma como máximo la mitad de la capacidad de los fotodiodos. Con cada duplicación de la sensibilidad ISO, el tope superior del rango dinámico parece cortarse y los pasos restantes se elevan en su lugar. Es por eso que el uso de valores ISO ultra altos carece de significado práctico. Con el mismo éxito, puede iluminar la foto en el convertidor RAW y obtener un nivel de ruido comparable. La diferencia entre aumentar el ISO y aclarar artificialmente la imagen es que cuando se aumenta el ISO, la señal se amplifica antes de entrar en el ADC, lo que significa que el ruido de cuantificación no se amplifica, a diferencia del propio ruido del sensor, mientras que en el convertidor RAW están sujetos a amplificación, incluidos los errores de ADC. Además, reducir el rango de digitalización significa un muestreo más preciso de los valores restantes. señal de entrada.

Por cierto, bajar el ISO por debajo del valor base (por ejemplo, a ISO 50), que está disponible en algunos dispositivos, no amplía en absoluto el rango dinámico, sino que simplemente atenúa la señal a la mitad, lo que equivale a oscurecer el imagen en el convertidor RAW. Esta función puede incluso considerarse perjudicial, ya que utilizar un valor ISO submínimo provoca que la cámara aumente la exposición, lo que, al permanecer invariable el umbral de saturación del sensor, aumenta el riesgo de clipping en las altas luces.

Valor real del rango dinámico

Hay una serie de programas como (DxO Analyzer, Imatest, RawDigger, etc.) que te permiten medir el rango dinámico de una cámara digital en casa. En principio, esto no es muy necesario, ya que los datos de la mayoría de las cámaras se pueden encontrar libremente en Internet, por ejemplo, en DxOMark.com.

¿Deberíamos creer los resultados de tales pruebas? Bastante. Con la única salvedad de que todas estas pruebas determinan el rango dinámico efectivo o, por así decirlo, técnico, es decir, la relación entre el nivel de saturación y el nivel de ruido de la matriz. Para el fotógrafo, el rango dinámico útil es de primordial importancia, es decir. la cantidad de zonas de exposición que realmente le permiten capturar información útil.

Como recordará, el umbral de rango dinámico lo establece el nivel de ruido del fotosensor. El problema es que, en la práctica, las zonas bajas, que técnicamente ya están incluidas en el rango dinámico, aún contienen demasiado ruido para ser utilizadas de manera útil. Aquí, mucho depende del disgusto individual: cada uno determina el nivel de ruido aceptable para sí mismo.

Mi opinión subjetiva es que los detalles en las sombras empiezan a verse más o menos decentes con una relación señal-ruido de al menos ocho. Sobre esa base, defino el rango dinámico útil para mí como el rango dinámico técnico menos unas tres paradas.

Por ejemplo, si una cámara réflex tiene un rango dinámico de 13 EV, que es muy bueno según los estándares actuales, según pruebas confiables, entonces su rango dinámico útil será de unos 10 EV, que, en general, también es bastante bueno. Por supuesto, estamos hablando de disparar en RAW, con un ISO mínimo y una profundidad de bits máxima. Cuando se dispara en JPEG, el rango dinámico depende en gran medida de la configuración de contraste, pero en promedio, se deben descartar otras dos o tres paradas.

A modo de comparación: las películas reversibles en color tienen una latitud fotográfica útil de 5 a 6 pasos; las películas negativas en blanco y negro dan de 9 a 10 paradas con procedimientos estándar de revelado e impresión, y con ciertas manipulaciones, hasta 16 a 18 paradas.

Resumiendo lo anterior, intentemos formular algunas reglas simples, cuya observancia lo ayudará a exprimir al máximo el rendimiento del sensor de su cámara:

  • El rango dinámico de una cámara digital está completamente disponible solo cuando se dispara en RAW.
  • El rango dinámico disminuye a medida que aumenta el ISO, así que evite un ISO alto a menos que sea absolutamente necesario.
  • El uso de profundidades de bits más altas para archivos RAW no aumenta el rango dinámico real, pero mejora la separación tonal en las sombras a expensas de más niveles de brillo.
  • Exposición a la derecha. Las zonas de exposición superiores siempre contienen la máxima información útil con el mínimo ruido y deben utilizarse de la forma más eficaz. Al mismo tiempo, no se olvide del peligro del recorte: los píxeles que han alcanzado la saturación son absolutamente inútiles.

Y lo más importante, no se preocupe demasiado por el rango dinámico de su cámara. Está bien con el rango dinámico. Su capacidad para ver la luz y gestionar adecuadamente la exposición es mucho más importante. Un buen fotógrafo no se quejará de la falta de latitud fotográfica, sino que intentará esperar a una iluminación más cómoda, o cambiar el ángulo, o utilizar el flash, en una palabra, actuará de acuerdo a las circunstancias. Te diré más: algunas escenas solo se benefician de que no encajan en el rango dinámico de la cámara. A menudo, la abundancia innecesaria de detalles solo necesita ocultarse en una silueta negra semiabstracta, lo que hace que la foto sea concisa y rica.

El alto contraste no siempre es malo, solo necesita poder trabajar con él. Aprenda a explotar las debilidades del equipo, así como sus fortalezas, y se sorprenderá de cuánto se expande su creatividad.

¡Gracias por su atención!

Vasili A.

post scriptum

Si el artículo resultó ser útil e informativo para usted, puede apoyar amablemente el proyecto contribuyendo a su desarrollo. Si no le gustó el artículo, pero tiene ideas sobre cómo mejorarlo, sus críticas serán aceptadas con no menos gratitud.

No olvides que este artículo está sujeto a derechos de autor. Se permite la reimpresión y las citas siempre que haya un enlace válido a la fuente original, y el texto utilizado no debe distorsionarse ni modificarse de ninguna manera.

Este grupo de métodos se basa en el hecho de que las señales transmitidas están sujetas a transformaciones de amplitud no lineales, y en las partes de transmisión y recepción de las no linealidades son mutuamente inversas. Por ejemplo, si el transmisor usa una función no lineal Öu, el receptor usa u 2 . La aplicación sucesiva de funciones recíprocas conducirá al hecho de que la transformación general permanezca lineal.

La idea de los métodos de compresión de datos no lineales es que el transmisor pueda, con la misma amplitud de las señales de salida, transmitir mayor rango cambios en el parámetro transmitido (es decir, un rango dinámico más grande). Gama dinámica es la relación entre la amplitud de señal permitida más grande y la más pequeña, expresada en unidades relativas o decibeles:

; (2.17)
. (2.18)

El deseo natural de aumentar el rango dinámico mediante la reducción de U min está limitado por la sensibilidad del equipo y el aumento de la influencia de la interferencia y el ruido intrínseco.

La mayoría de las veces, la compresión del rango dinámico se realiza utilizando un par de logaritmos recíprocos y funciones de potenciación. La primera operación de cambio de amplitud se llama compresión(compresión), el segundo - expansión(estirar). La elección de estas funciones está relacionada con su mayor oportunidad compresión.

Al mismo tiempo, estos métodos también tienen desventajas. El primero de ellos es que el logaritmo de un número pequeño es negativo y en el límite:

es decir, la sensibilidad es altamente no lineal.

Para reducir estas deficiencias, ambas funciones se modifican por sesgo y aproximación. Por ejemplo, para canales telefónicos, la función aproximada tiene la forma (tipo A,):

donde A=87.6. La ganancia de la compresión en este caso es de 24dB.

La compresión de datos por procedimientos no lineales se implementa por medios analógicos con grandes errores. El uso de herramientas digitales puede mejorar significativamente la precisión o la velocidad de la conversión. Al mismo tiempo, el uso directo de los fondos Ciencias de la Computación(es decir, cálculo directo de logaritmos y exponentes) no dará el mejor resultado debido al bajo rendimiento y la acumulación de errores de cálculo.

La compresión de datos por compresión debido a limitaciones de precisión se utiliza en casos no críticos, por ejemplo, para la transmisión de voz por canales telefónicos y de radio.

Codificación eficiente

Los códigos eficientes fueron propuestos por K. Shannon, Fano y Huffman. La esencia de los códigos radica en el hecho de que son desiguales, es decir, con un número desigual de dígitos, y la longitud del código es inversamente proporcional a la probabilidad de que ocurra. Otra gran característica de los códigos eficientes es que no requieren delimitadores, es decir caracteres especiales separando combinaciones de códigos vecinos. Esto se logra siguiendo regla simple: los códigos más cortos no son el comienzo de otros más largos. En este caso, el flujo continuo de bits se decodifica sin ambigüedades porque el decodificador detecta primero los patrones más cortos. Códigos efectivos por mucho tiempo eran puramente académicos, pero recientemente se han utilizado con éxito en la formación de bases de datos, así como en la compresión de información en modernos módems y archivadores de software.

Debido a la irregularidad, se introduce la longitud de código promedio. Longitud promedio: expectativa matemática de la longitud del código:

además, l cf tiende a H(x) desde arriba (es decir, l cf > H(x)).

El cumplimiento de la condición (2.23) se hace más fuerte a medida que aumenta N.

Hay dos tipos de códigos eficientes: Shannon-Fano y Huffman. Pongamos un ejemplo para conseguirlos. Suponga que las probabilidades de los caracteres en la secuencia tienen los valores dados en la Tabla 2.1.

Tabla 2.1.

Probabilidades de símbolo

norte
Pi 0.1 0.2 0.1 0.3 0.05 0.15 0.03 0.02 0.05

Los símbolos están clasificados, es decir, se presentan en una serie en orden descendente de probabilidades. Después de eso, según el método de Shannon-Fano, se repite periódicamente el siguiente procedimiento: todo el grupo de eventos se divide en dos subgrupos con las mismas (o aproximadamente las mismas) probabilidades totales. El procedimiento continúa hasta que un elemento permanece en el siguiente subgrupo, después de lo cual se elimina este elemento y las acciones especificadas continúan con los restantes. Esto continúa hasta que solo queda un elemento en los dos últimos subgrupos. Continuemos con la consideración de nuestro ejemplo, que se resume en la Tabla 2.2.

Tabla 2.2.

Codificación de Shannon-Fano

norte Pi
4 0.3 I
0.2 I II
6 0.15 I I
0.1 II
1 0.1 I I
9 0.05 II II
5 0.05 II I
7 0.03 II II I
8 0.02 II

Como se puede ver en la Tabla 2.2, el primer símbolo con probabilidad p 4 = 0.3 participó en dos procedimientos de división en grupos y ambas veces cayó en el grupo con el número I. En consecuencia, se codifica con un código de dos dígitos II. El segundo elemento en la primera etapa de partición pertenecía al grupo I, en el segundo, al grupo II. Por lo tanto, su código es 10. Los códigos de los caracteres restantes no necesitan comentarios adicionales.

Por lo general, los códigos no uniformes se representan como árboles de código. Un árbol de códigos es un gráfico que indica las combinaciones de códigos permitidas. Las direcciones de los bordes de este gráfico se establecen preliminarmente, como se muestra en la figura 2.11 (la elección de las direcciones es arbitraria).

Según el gráfico, se guían de la siguiente manera: hacen una ruta para el símbolo seleccionado; el número de bits para él es igual al número de aristas en la ruta, y el valor de cada bit es igual a la dirección de la arista correspondiente. La ruta se traza desde el punto de partida (en el dibujo está marcado con la letra A). Por ejemplo, la ruta al vértice 5 consta de cinco aristas, de las cuales todas excepto la última tienen dirección 0; obtenemos el código 00001.

Para este ejemplo, calculamos la entropía y la longitud promedio de una palabra.

H(x) = -(0,3 log 0,3 + 0,2 log 0,2 + 2 0,1 log 0,1+ 2 0,05 log 0,05+

0,03 registro 0,03 + 0,02 registro 0,02) = 2,23 bits

lav = 0,3 2 + 0,2 2 + 0,15 3 + 0,1 3 + 0,1 4 + 0,05 5 +0,05 4+

0.03 6 + 0.02 6 = 2.9 .

Como puede ver, la longitud promedio de las palabras está cerca de la entropía.

Los códigos de Huffman se construyen de acuerdo con un algoritmo diferente. El procedimiento de codificación consta de dos pasos. En la primera etapa, se lleva a cabo secuencialmente una compresión única del alfabeto. Compresión única: reemplaza los dos últimos caracteres (con las probabilidades más bajas) con uno, con una probabilidad total. La compresión se realiza hasta que quedan dos caracteres. Al mismo tiempo, se completa la tabla de codificación, en la que se anotan las probabilidades resultantes, y también se representan las rutas a lo largo de las cuales pasan los nuevos símbolos en la siguiente etapa.

En la segunda etapa, se lleva a cabo la codificación real, que comienza desde la última etapa: al primero de los dos caracteres se le asigna un código de 1, al segundo - 0. Después de eso, pasan a la etapa anterior. Los códigos de la siguiente etapa se asignan a los caracteres que no participaron en la compresión en esta etapa, y el código del carácter obtenido después del pegado se asigna dos veces a los dos últimos caracteres y se agrega al código del carácter superior 1, el inferior - 0. Si el personaje no participa más en el pegado, su código permanece sin cambios. El procedimiento continúa hasta el final (es decir, hasta la primera etapa).

La Tabla 2.3 muestra la codificación de Huffman. Como puede verse en la tabla, la codificación se llevó a cabo en 7 etapas. A la izquierda están las probabilidades de los símbolos, a la derecha, los códigos intermedios. Las flechas muestran los movimientos de los símbolos recién formados. En cada etapa, los dos últimos caracteres difieren solo en el bit menos significativo, que corresponde a la técnica de codificación. Calcular la longitud media de las palabras:

lav = 0,3 2 + 0,2 2 + 0,15 3 ++ 2 0,1 3 + +0,05 4 + 0,05 5 + 0,03 6 + 0,02 6 = 2,7

Esto está aún más cerca de la entropía: el código es aún más eficiente. En la fig. 2.12 muestra el árbol de códigos de Huffman.

Tabla 2.3.

Codificación Huffman

norte Pi código I II tercero IV V VI VII
0.3 0.3 11 0.3 11 0.3 11 0.3 11 0.3 11 0.4 0 0.6 1
0.2 0.2 01 0.2 01 0.2 01 0.2 01 0.3 10 0.3 11 0.4 0
0.15 0.15 101 0.15 101 0.15 101 0.2 00 0.2 01 0.3 10
0.1 0.1 001 0.1 001 0.15 100 0.15 101 0.2 00
0.1 0.1 000 0.1 000 0.1 001 0.15 100
0.05 0.05 1000 0.1 1001 0.1 000
0.05 0.05 10011 0.05 1000
0.03 0.05 10010
0.02

Ambos códigos satisfacen el requisito de una decodificación inequívoca: como puede verse en las tablas, las combinaciones más cortas no son el comienzo de códigos más largos.

A medida que aumenta el número de símbolos, aumenta la eficiencia de los códigos, por lo que en algunos casos se codifican bloques más grandes (por ejemplo, si estamos hablando sobre textos, puede codificar algunas de las sílabas, palabras e incluso frases más comunes).

El efecto de introducir dichos códigos se determina comparándolos con un código uniforme:

(2.24)

donde n es el número de dígitos del código uniforme, que se reemplaza por uno efectivo.

Modificaciones de códigos Huffman

El algoritmo clásico de Huffman se refiere a dos pasos, es decir, requiere primero un conjunto de estadísticas sobre símbolos y mensajes, y luego los procedimientos descritos anteriormente. Esto es un inconveniente en la práctica, ya que aumenta el tiempo de procesamiento de mensajes y la acumulación de diccionarios. Los métodos de un solo paso son los más utilizados, en los que se combinan los procedimientos de acumulación y codificación. Estos métodos también se denominan compresión adaptativa de Huffman [46].

La esencia de la compresión adaptativa según Huffman se reduce a la construcción del árbol de código inicial y su posterior modificación tras la llegada de cada carácter siguiente. Como antes, los árboles aquí son binarios, es decir de cada vértice del árbol de gráficos viene un máximo de dos arcos. Es costumbre llamar al vértice inicial el padre, y los siguientes dos vértices asociados con él, los hijos. Introduzcamos el concepto del peso de un vértice: este es el número de caracteres (palabras) correspondientes a un vértice dado, obtenido al enviar la secuencia original. Obviamente, la suma de los pesos de los hijos es igual al peso del padre.

Después de la introducción del siguiente símbolo de la secuencia de entrada, se revisa el árbol de código: se recalculan los pesos de los vértices y, si es necesario, se reorganizan los vértices. La regla de permutación de vértices es la siguiente: los pesos de los vértices inferiores son los más pequeños y los vértices de la izquierda del gráfico tienen los pesos más pequeños.

Al mismo tiempo, los vértices están numerados. La numeración comienza desde los vértices inferiores (colgantes, es decir, sin hijos) de izquierda a derecha, luego se transfiere al nivel superior, y así sucesivamente. hasta la numeración del último vértice inicial. En este caso, se logra el siguiente resultado: cuanto menor es el peso del vértice, menor es su número.

La permutación se realiza principalmente para vértices colgantes. Al reorganizar, se debe tener en cuenta la regla formulada anteriormente: los vértices con un peso grande también tienen un número mayor.

Después de pasar por la secuencia (también llamada control o prueba), se asignan combinaciones de códigos a todos los vértices colgantes. La regla de asignación de código es similar a la anterior: el número de bits de código es igual al número de vértices a través de los cuales pasa la ruta desde la fuente hasta el vértice colgante dado, y el valor de un bit particular corresponde a la dirección desde el padre al "hijo" (digamos, moverse hacia la izquierda desde el padre corresponde al valor 1, a la derecha - 0).

Las combinaciones de códigos resultantes se ingresan en la memoria del dispositivo de compresión junto con sus contrapartes y forman un diccionario. El uso del algoritmo es el siguiente. La secuencia comprimida de caracteres se divide en fragmentos según el diccionario disponible, después de lo cual cada uno de los fragmentos se reemplaza por su código del diccionario. Los fragmentos que no se encuentran en el diccionario forman nuevos vértices colgantes, ganan peso y también se ingresan en el diccionario. Por lo tanto, se forma un algoritmo de reabastecimiento de diccionario adaptativo.

Para aumentar la eficiencia del método, es deseable aumentar el tamaño del diccionario; en este caso, se aumenta la relación de compresión. En la práctica, el tamaño de un diccionario es de 4 a 16 KB de memoria.


Ilustremos el algoritmo anterior con un ejemplo. En la fig. 2.13 muestra el diagrama original (también llamado árbol de Huffman). Cada vértice del árbol se muestra mediante un rectángulo en el que se ingresan dos dígitos a través de una fracción: el primero indica el número del vértice, el segundo, su peso. Como puede ver, se cumple la correspondencia entre los pesos de los vértices y sus números.

Supongamos ahora que el símbolo correspondiente al vértice 1 aparece por segunda vez en la secuencia de prueba. El peso del vértice ha cambiado, como se muestra en la Fig. 2.14, como resultado de lo cual se viola la regla de numeración de vértices. En la siguiente etapa, cambiamos la ubicación de los vértices colgantes, para lo cual intercambiamos los vértices 1 y 4 y volvemos a numerar todos los vértices del árbol. El gráfico resultante se muestra en la Fig. 2.15. A continuación, el procedimiento continúa de la misma manera.

Cabe recordar que cada nodo colgante del árbol de Huffman corresponde a un determinado personaje o grupo de ellos. El padre se diferencia de los hijos en que el grupo de caracteres que le corresponde es un carácter más corto que el de sus hijos, y estos hijos difieren en el último carácter. Por ejemplo, el padre coincide con los caracteres "kar"; entonces los niños pueden tener las secuencias "kara" y "karp".

El algoritmo anterior no es académico y se usa activamente en programas de archivo, incluso cuando se comprimen datos gráficos (se discutirán a continuación).

Algoritmos de Lempel-Ziva

Estos son los algoritmos de compresión más utilizados en la actualidad. Se utilizan en la mayoría de los programas: archivadores (por ejemplo, PKZIP, ARJ, LHA). La esencia de los algoritmos radica en el hecho de que un cierto conjunto de caracteres se reemplaza durante el archivo por su número en un diccionario especialmente formado. Por ejemplo, la frase "Número saliente para su carta...", que se encuentra a menudo en la correspondencia comercial, puede ocupar la posición 121 en el diccionario; luego, en lugar de transmitir o almacenar dicha frase (30 bytes), puede almacenar el número de frase (1,5 bytes en BCD o 1 byte en binario).

Los algoritmos llevan el nombre de los autores que los propusieron por primera vez en 1977. De estos, el primero es LZ77. Para archivar, se crea la llamada ventana deslizante de mensajes, que consta de dos partes. La primera parte, de mayor formato, sirve para formar un diccionario y tiene un tamaño del orden de varios kilobytes. La segunda parte, más pequeña (generalmente hasta 100 bytes) recibe los caracteres actuales del texto que se está viendo. El algoritmo intenta encontrar un conjunto de caracteres en el diccionario que coincida con los recibidos en la ventana gráfica. Si esto tiene éxito, se forma un código que consta de tres partes: el desplazamiento en el diccionario relativo a su subcadena inicial, la longitud de esta subcadena y el carácter que sigue a esta subcadena. Por ejemplo, la subcadena seleccionada consta de los caracteres "app" (6 caracteres en total), el carácter que le sigue es "e". Entonces, si la subcadena tiene la dirección (lugar en el diccionario) 45, entonces la entrada en el diccionario se verá como "45, 6. e". Después de eso, el contenido de la ventana se desplaza una posición y la búsqueda continúa. Así, se forma un diccionario.

La ventaja del algoritmo es un algoritmo de compilación de diccionario fácilmente formalizado. Además, es posible descomprimir sin el diccionario inicial (es deseable tener una secuencia de prueba al mismo tiempo): el diccionario se forma durante la descompresión.

Las desventajas del algoritmo aparecen cuando aumenta el tamaño del diccionario: aumenta el tiempo de búsqueda. Además, si aparece una cadena de caracteres en la ventana actual que no está en el diccionario, cada carácter se escribe con un código de tres elementos, es decir No es compresión, sino expansión.

mejores características tiene el algoritmo LZSS propuesto en 1978. Tiene diferencias en el mantenimiento de la ventana corrediza y los códigos de salida del compresor. Además de la ventana, el algoritmo forma un árbol binario similar al árbol de Huffman para acelerar la búsqueda de coincidencias: cada subcadena que sale de la ventana actual se agrega al árbol como uno de los hijos. Este algoritmo le permite aumentar adicionalmente el tamaño de la ventana actual (es deseable que su valor sea igual a la potencia de dos: 128, 256, etc. bytes). Los códigos de secuencia también se forman de manera diferente: se introduce un prefijo adicional de 1 bit para distinguir los caracteres no codificados de los pares de "desplazamiento, longitud".

Se obtiene un grado de compresión aún mayor cuando se utilizan algoritmos como LZW. Los algoritmos descritos anteriormente tienen un tamaño de ventana fijo, lo que hace imposible ingresar frases más largas que el tamaño de la ventana en el diccionario. En los algoritmos LZW (y su predecesor LZ78), la ventana gráfica tiene un tamaño ilimitado y el diccionario acumula frases (y no una colección de caracteres, como antes). El diccionario tiene una longitud ilimitada y el codificador (descodificador) funciona en el modo de espera de frase. Cuando se forma una frase que coincide con el diccionario, se devuelve el código de coincidencia (es decir, el código de esa frase en el diccionario) y el código del carácter que le sigue. Si, a medida que se acumulan los caracteres, se forma una nueva frase, también se ingresa en el diccionario, así como una más corta. El resultado es un procedimiento recursivo que proporciona una codificación y decodificación rápida.

Característica adicional La compresión proporciona una codificación comprimida de caracteres repetidos. Si en la secuencia siguen algunos caracteres en una fila (por ejemplo, en el texto pueden ser caracteres de "espacio", en una secuencia numérica: ceros consecutivos, etc.), entonces tiene sentido reemplazarlos con un par de "caracteres". ; longitud" o "signo, longitud". En el primer caso, el código indica el signo con el que se codificará la secuencia (normalmente 1 bit), luego el código del carácter repetido y la longitud de la secuencia. En el segundo caso (previsto para los caracteres repetidos más frecuentes), el prefijo simplemente indica el signo de las repeticiones.

En un momento en que los investigadores apenas comenzaban a resolver el problema de crear una interfaz de voz para computadoras, a menudo tenían que fabricar su propio equipo que le permitiera ingresar información de audio en una computadora, así como también enviarla desde una computadora. Hoy en día, estos dispositivos pueden tener sólo un interés histórico, ya que las computadoras modernas pueden equiparse fácilmente con dispositivos de entrada y salida de sonido, como adaptadores de sonido, micrófonos, auriculares y altavoces.

No entraremos en los detalles de la estructura interna de estos dispositivos, pero hablaremos sobre cómo funcionan y daremos algunas recomendaciones para elegir dispositivos informáticos de sonido para trabajar con sistemas de síntesis y reconocimiento de voz.

Como dijimos en el capítulo anterior, el sonido no es más que vibraciones del aire, cuya frecuencia se encuentra en el rango de frecuencia percibido por una persona. En diferentes personas, los límites exactos del rango de frecuencias audibles pueden variar, pero se cree que las vibraciones del sonido se encuentran en el rango de 16 a 20 000 Hz.

La tarea de un micrófono es convertir las vibraciones del sonido en vibraciones eléctricas, que luego pueden amplificarse, filtrarse para eliminar la interferencia y digitalizarse para la entrada. informacion de sonido en la computadora.

De acuerdo con el principio de funcionamiento, los micrófonos más comunes se dividen en carbón, electrodinámico, condensador y electret. Algunos de estos micrófonos requieren una fuente de corriente externa para su funcionamiento (por ejemplo, los micrófonos de carbón y de condensador), mientras que otros, bajo la influencia de las vibraciones del sonido, son capaces de generar de forma independiente un voltaje eléctrico alterno (estos son los micrófonos electrodinámicos y electret).

También puede separar los micrófonos por propósito. Hay micrófonos de estudio que se pueden sostener en la mano o montar en un soporte, hay micrófonos de radio que se pueden enganchar a la ropa, etc.

También hay micrófonos diseñados específicamente para computadoras. Estos micrófonos generalmente se montan en un soporte colocado sobre la superficie de la mesa. Micrófonos de computadora se puede combinar con auriculares, como se muestra en la fig. 2-1.

Arroz. 2-1. Auriculares con micrófono

¿Cómo elegir entre toda la variedad de micrófonos el que mejor se adapta a los sistemas de reconocimiento de voz?

En principio, puedes experimentar con cualquier micrófono que tengas, siempre y cuando se pueda conectar al adaptador de audio de tu computadora. Sin embargo, los desarrolladores de sistemas de reconocimiento de voz recomiendan comprar un micrófono que esté a una distancia constante de la boca del orador durante la operación.

Si la distancia entre el micrófono y la boca no cambia, entonces el nivel promedio de la señal eléctrica proveniente del micrófono tampoco cambiará demasiado. Esto tendrá un impacto positivo en la calidad de los modernos sistemas de reconocimiento de voz.

¿Cuál es el problema aquí?

Una persona puede reconocer con éxito el habla, cuyo volumen varía en un rango muy amplio. El cerebro humano es capaz de filtrar el habla tranquila del ruido, como el ruido de los automóviles que circulan por la calle, las conversaciones extrañas y la música.

En cuanto a los sistemas modernos de reconocimiento de voz, sus habilidades en esta área dejan mucho que desear. Si el micrófono está sobre una mesa, cuando gire la cabeza o cambie la posición de su cuerpo, la distancia entre su boca y el micrófono cambiará. Esto cambiará el nivel de salida del micrófono, lo que a su vez degradará la confiabilidad del reconocimiento de voz.

Por lo tanto, cuando trabaje con sistemas de reconocimiento de voz, los mejores resultados se obtendrán si utiliza un micrófono conectado a los auriculares, como se muestra en la Fig. 2-1. Al usar un micrófono de este tipo, la distancia entre la boca y el micrófono será constante.

También llamamos su atención sobre el hecho de que todos los experimentos con sistemas de reconocimiento de voz se realizan mejor en reclusión en una habitación tranquila. En este caso, la influencia de la interferencia será mínima. Por supuesto, si necesita elegir un sistema de reconocimiento de voz que pueda funcionar en condiciones de fuerte interferencia, entonces las pruebas deben realizarse de manera diferente. Sin embargo, hasta donde saben los autores del libro, la inmunidad al ruido de los sistemas de reconocimiento de voz sigue siendo muy, muy baja.

El micrófono realiza para nosotros la conversión de vibraciones de sonido en vibraciones de corriente eléctrica. Estas fluctuaciones se pueden ver en la pantalla del osciloscopio, pero no se apresure a ir a la tienda a comprar este costoso dispositivo. Todos los estudios oscilográficos los podemos realizar con un ordenador convencional equipado con un adaptador de sonido, por ejemplo, un adaptador Sound Blaster. Más adelante te diremos cómo hacerlo.

En la fig. 2-2 hemos mostrado el oscilograma de la señal sonora obtenida al pronunciar un sonido largo a. Esta forma de onda se adquirió usando el programa GoldWave, del cual hablaremos más adelante en este capítulo del libro, así como usando un adaptador de audio Sound Blaster y un micrófono similar al que se muestra en la fig. 2-1.

Arroz. 2-2. Oscilograma de la señal de audio

El programa GoldWave le permite estirar la forma de onda a lo largo del eje del tiempo, lo que le permite ver los detalles más pequeños. En la fig. 2-3 hemos mostrado un fragmento estirado del oscilograma del sonido a mencionado anteriormente.

Arroz. 2-3. Fragmento de un oscilograma de una señal de audio

Tenga en cuenta que la magnitud de la señal de entrada del micrófono cambia periódicamente y toma valores tanto positivos como negativos.

Si solo estuviera presente una frecuencia en la señal de entrada (es decir, si el sonido fuera "limpio"), la forma de onda recibida del micrófono sería sinusoidal. Sin embargo, como ya dijimos, el espectro de los sonidos del habla humana consiste en un conjunto de frecuencias, como resultado de lo cual la forma del oscilograma de la señal del habla está lejos de ser sinusoidal.

Una señal cuya magnitud cambia continuamente con el tiempo, la llamaremos Señal analoga. Esta es la señal que viene del micrófono. A diferencia de lo analógico, señal digital es un conjunto de valores numéricos que cambian discretamente en el tiempo.

Para que una computadora procese una señal de audio, debe convertirse de forma analógica a digital, es decir, presentarse como un conjunto de valores numéricos. Este proceso se llama digitalización analógica.

La digitalización de una señal de audio (y cualquier señal analógica) se realiza mediante un dispositivo especial llamado Conversor analógico a digital ADC (Convertidor analógico a digital, ADC). Este dispositivo está ubicado en la placa del adaptador de sonido y es un microcircuito de aspecto ordinario.

¿Cómo funciona un convertidor de analógico a digital?

Mide periódicamente el nivel de la señal de entrada y emite un valor numérico del resultado de la medición en la salida. Este proceso se ilustra en la Fig. 2-4. Aquí, los rectángulos grises marcan los valores de la señal de entrada, medidos con un determinado intervalo de tiempo constante. El conjunto de dichos valores es la representación digitalizada de la señal analógica de entrada.

Arroz. 2-4. Mediciones de la dependencia de la amplitud de la señal en el tiempo.

En la fig. En la Figura 2-5, mostramos la conexión de un convertidor de analógico a digital a un micrófono. En este caso, la entrada x 1 se alimenta Señal analoga, y se toma una señal digital de las salidas u 1 -u n.

Arroz. 2-5. Conversor analógico a digital

Los convertidores de analógico a digital se caracterizan por dos parámetros importantes: la frecuencia de conversión y el número de niveles de cuantificación de la señal de entrada. La selección adecuada de estos parámetros es fundamental para lograr una digitalización adecuada de una señal analógica.

¿Con qué frecuencia necesita medir el valor de amplitud de la señal analógica de entrada para que la información sobre los cambios en la señal analógica de entrada no se pierda como resultado de la digitalización?

Parecería que la respuesta es simple: la señal de entrada debe medirse con la mayor frecuencia posible. De hecho, cuanto más a menudo un convertidor de analógico a digital realice tales mediciones, mejor rastreará los cambios más pequeños en la amplitud de la señal de entrada analógica.

Sin embargo, las mediciones excesivamente frecuentes pueden conducir a un aumento injustificado del flujo de datos digitales y una pérdida de recursos informáticos en el procesamiento de la señal.

Afortunadamente, Buena elección la frecuencia de conversión (frecuencia de muestreo) es bastante simple de hacer. Para ello, basta con referirse al teorema de Kotelnikov, conocido por los especialistas en el campo del procesamiento digital de señales. El teorema establece que la frecuencia de conversión debe ser el doble de la frecuencia máxima del espectro de la señal convertida. Por lo tanto, para digitalizar sin perder la calidad de la señal de audio, cuya frecuencia se encuentra en el rango de 16-20 000 Hz, debe seleccionar una frecuencia de conversión que no sea inferior a 40 000 Hz.

Tenga en cuenta, sin embargo, que en los equipos de audio profesionales, la frecuencia de conversión se selecciona varias veces mayor que el valor especificado. Esto se hace para lograr un muy Alta calidad sonido digitalizado. Para los sistemas de reconocimiento de voz, esta cualidad no es relevante, por lo que no llamaremos su atención sobre esta elección.

¿Y qué frecuencia de conversión se necesita para digitalizar el sonido del habla humana?

Dado que los sonidos del habla humana se encuentran en el rango de frecuencia de 300-4000 Hz, la frecuencia de conversión mínima requerida es de 8000 Hz. Cuantos sean programas de computador el reconocimiento de voz utiliza la tasa de conversión estándar de 44 000 Hz para los adaptadores de audio convencionales. Por un lado, tal tasa de conversión no conduce a un aumento excesivo en el flujo de datos digitales y, por otro lado, asegura la digitalización del habla con suficiente calidad.

En la escuela, nos enseñaron que con cualquier medida, surgen errores que no se pueden eliminar por completo. Dichos errores surgen debido a la resolución limitada de los instrumentos de medición y también debido al hecho de que el proceso de medición en sí mismo puede introducir algunos cambios en el valor medido.

El convertidor de analógico a digital representa la señal analógica de entrada como un flujo de números de capacidad limitada. Los adaptadores de audio convencionales contienen bloques ADC de 16 bits capaces de representar la amplitud de la señal de entrada como 216 = 65536 valores diferentes. Los dispositivos ADC en equipos de audio de gama alta pueden ser de 20 bits, lo que proporciona una mayor precisión en la representación de la amplitud de la señal de audio.

Los modernos sistemas y programas de reconocimiento de voz se crearon para computadoras convencionales equipado con adaptadores de audio convencionales. Por lo tanto, para realizar experimentos con reconocimiento de voz, no necesita comprar un adaptador de audio profesional. Un adaptador como Sound Blaster es muy adecuado para digitalizar el habla para un mayor reconocimiento.

Junto con la señal útil, generalmente ingresan varios ruidos al micrófono: ruido de la calle, ruido del viento, conversaciones extrañas, etc. El ruido tiene un impacto negativo en la calidad de los sistemas de reconocimiento de voz, por lo que debe abordarse. Una de las formas que ya hemos mencionado es que los sistemas de reconocimiento de voz de hoy en día se utilizan mejor en una habitación tranquila, permaneciendo a solas con la computadora.

Sin embargo, no siempre se pueden crear las condiciones ideales, por lo que debe utilizar métodos especiales para eliminar las interferencias. Para reducir el nivel de ruido, se utilizan trucos especiales en el diseño de micrófonos y filtros especiales que eliminan las frecuencias del espectro de la señal analógica que no transmiten información útil. Además, se utiliza una técnica como la compresión del rango dinámico de los niveles de la señal de entrada.

Hablemos de todo esto en orden.

filtro de frecuencia Un dispositivo que convierte el espectro de frecuencias de una señal analógica se llama. En este caso, en el proceso de transformación se produce la selección (o absorción) de oscilaciones de determinadas frecuencias.

Puede pensar en este dispositivo como una especie de caja negra con una entrada y una salida. En relación con nuestra situación, se conectará un micrófono a la entrada del filtro de frecuencia y un convertidor de analógico a digital se conectará a la salida.

Los filtros de frecuencia son diferentes:

filtros de paso bajo;

filtros de paso alto

Pasando filtros de paso de banda

bloqueando los filtros de paso de banda.

Filtros de paso bajo(filtro de paso bajo) elimina del espectro de la señal de entrada todas las frecuencias cuyos valores están por debajo de un cierto umbral de frecuencia, dependiendo de la configuración del filtro.

Dado que las señales de audio se encuentran en el rango de 16 a 20 000 Hz, todas las frecuencias por debajo de 16 Hz se pueden cortar sin degradar la calidad del sonido. Para el reconocimiento de voz, el rango de frecuencia de 300-4000 Hz es importante, por lo que las frecuencias por debajo de 300 Hz pueden eliminarse. En este caso, todos los ruidos, cuyo espectro de frecuencia se encuentra por debajo de 300 Hz, se eliminarán de la señal de entrada y no interferirán con el proceso de reconocimiento de voz.

Asimismo, filtros de paso alto(filtro de paso alto) elimina del espectro de la señal de entrada todas las frecuencias por encima de un cierto umbral de frecuencia.

Los humanos no pueden escuchar sonidos a frecuencias de 20 000 Hz o más, por lo que pueden eliminarse del espectro sin que se produzca un deterioro notable en la calidad del sonido. En cuanto al reconocimiento de voz, todas las frecuencias por encima de 4000 Hz se pueden cortar, lo que conducirá a una reducción significativa en el nivel de interferencia de alta frecuencia.

Filtro de paso de banda(filtro de paso de banda) se puede considerar como una combinación de un filtro de paso bajo y un filtro de paso alto. Tal filtro detiene todas las frecuencias por debajo del llamado frecuencia de paso inferior, así como arriba frecuencia de paso superior.

Por lo tanto, para un sistema de reconocimiento de voz, es conveniente un filtro de paso de banda de paso, que retrasa todas las frecuencias, excepto las frecuencias en el rango de 300-4000 Hz.

En cuanto a los filtros de parada de banda (band-stop filter), le permiten eliminar del espectro de la señal de entrada todas las frecuencias que se encuentran en un rango determinado. Tal filtro es conveniente, por ejemplo, para suprimir el ruido que ocupa una determinada parte continua del espectro de la señal.

En la fig. 2-6 hemos mostrado la conexión de un filtro de paso.

Arroz. 2-6. Filtrado de la señal de audio antes de digitalizar

Debo decir que los adaptadores de sonido habituales instalados en el ordenador tienen un filtro de paso de banda por el que pasa la señal analógica antes de la digitalización. El ancho de banda de dicho filtro generalmente corresponde al rango de señales de audio, es decir, 16-20 000 Hz (en diferentes adaptadores de audio, los valores de las frecuencias superior e inferior pueden variar ligeramente).

Pero, ¿cómo lograr un ancho de banda más estrecho de 300-4000 Hz, correspondiente a la parte más informativa del espectro del habla humana?

Por supuesto, si le gusta diseñar equipos electrónicos, puede hacer su propio filtro a partir de un chip amplificador operacional, resistencias y condensadores. Esto es exactamente lo que hicieron los primeros creadores de los sistemas de reconocimiento de voz.

Sin embargo, los sistemas industriales de reconocimiento de voz deben poder funcionar en equipos informáticos estándar, por lo que la forma de fabricar un filtro de paso de banda especial no es adecuada aquí.

En cambio, en sistemas modernos el procesamiento del habla utiliza el llamado filtros de frecuencia digitales implementado en el software. Esto se hizo posible después UPC la computadora se ha vuelto lo suficientemente poderosa.

Un filtro de frecuencia digital implementado en el software convierte una señal digital de entrada en una señal digital de salida. Durante el proceso de conversión, el programa procesa de manera especial el flujo de valores numéricos de la amplitud de la señal proveniente del convertidor de analógico a digital. El resultado de la conversión también será un flujo de números, pero este flujo corresponderá a la señal ya filtrada.

Hablando del convertidor de analógico a digital, notamos una característica tan importante como la cantidad de niveles de cuantificación. Si se instala un convertidor de analógico a digital de 16 bits en el adaptador de audio, luego de la digitalización, los niveles de la señal de audio se pueden representar como 216 = 65536 valores diferentes.

Si hay pocos niveles de cuantificación, entonces los llamados ruido de cuantización. Para reducir este ruido, los sistemas de digitalización de audio de alta calidad deben utilizar convertidores de analógico a digital con el número máximo de niveles de cuantificación disponibles.

Sin embargo, existe otro truco para reducir el efecto del ruido de cuantificación en la calidad de la señal de audio, que se utiliza en los sistemas de grabación de sonido digital. Usando esta técnica, la señal pasa a través de un amplificador no lineal antes de la digitalización, lo que enfatiza las señales con una pequeña amplitud de señal. Este dispositivo amplifica señales débiles más fuerte que fuerte.

Esto se ilustra mediante el gráfico de la amplitud de la señal de salida frente a la amplitud de la señal de entrada que se muestra en la Fig. 2-7.

Arroz. 2-7. Amplificación no lineal antes de la digitalización

En el paso de volver a convertir el audio digitalizado en analógico (que analizaremos más adelante en este capítulo), la señal analógica vuelve a pasar a través de un amplificador no lineal antes de enviarse a los altavoces. Esta vez, se usa un amplificador diferente que enfatiza las señales de gran amplitud y tiene una característica de transferencia (dependencia de la amplitud de la señal de salida de la amplitud de la señal de entrada) que es opuesta a la utilizada durante la digitalización.

¿Cómo puede ayudar todo esto a los creadores de sistemas de reconocimiento de voz?

Una persona, como saben, es bastante buena para reconocer el habla pronunciada en un susurro bajo o en una voz bastante alta. Se puede decir que el rango dinámico de los niveles de volumen del habla reconocida con éxito para una persona es bastante amplio.

de hoy sistemas informáticos Desafortunadamente, el reconocimiento de voz aún no puede presumir de esto. Sin embargo, para expandir ligeramente el rango dinámico especificado antes de la digitalización, puede pasar la señal del micrófono a través de un amplificador no lineal, característica de transferencia que se muestra en la Fig. 2-7. Esto reducirá el nivel de ruido de cuantificación al digitalizar señales débiles.

Los desarrolladores de sistemas de reconocimiento de voz, una vez más, se ven obligados a centrarse principalmente en adaptadores de sonido disponibles en el mercado. No proporcionan la conversión de señal no lineal descrita anteriormente.

Sin embargo, es posible crear el software equivalente a un amplificador no lineal que convierte la señal digitalizada antes de pasarla al módulo de reconocimiento de voz. Y aunque dicho amplificador de software no podrá reducir el ruido de cuantificación, se puede usar para enfatizar los niveles de señal que transportan la mayor parte de la información del habla. Por ejemplo, puede reducir la amplitud de las señales débiles, eliminando así el ruido de la señal.

Pensemos en la pregunta: ¿por qué necesitamos subir el volumen? Para escuchar sonidos bajos que no son audibles en nuestras condiciones (por ejemplo, si no puede escuchar en voz alta, si hay ruido extraño en la habitación, etc.). ¿Es posible amplificar los sonidos bajos, pero no los fuertes? Resulta que puedes. Esta técnica se llama Compresión de Rango Dinámico (DRC). Para hacer esto, debe cambiar el volumen actual constantemente: los sonidos bajos se amplifican, los fuertes no. La ley más simple del cambio de volumen es lineal, es decir, el volumen cambia según la ley output_loudness = k * input_loudness, donde k es el factor de compresión del rango dinámico:

Figura 18. Compresión de rango dinámico.

Para k = 1, no se realiza ningún cambio (el volumen de salida es igual al volumen de entrada). Tenedor< 1 громкость будет увеличиваться, а динамический диапазон - сужаться. Посмотрим на график (k=1/2) - тихий звук, имевший громкость -50дБ станет громче на 25дБ, что значительно громче, но при этом громкость диалогов (-27дБ) повысится всего лишь на 13.5дБ, а громкость самых громких звуков (0дБ) вообще не изменится. При k >1 - el volumen disminuirá y el rango dinámico aumentará.

Veamos los gráficos de sonoridad (k = 1/2: compresión DD a la mitad):

Figura 19. Gráficos de sonoridad.

Como puede ver en el original, había sonidos muy bajos, 30 dB por debajo del nivel de los diálogos, y sonidos muy fuertes: 30 dB por encima del nivel de los diálogos. Eso. el rango dinámico fue de 60dB. Después de la compresión, los sonidos fuertes son solo 15 dB más altos y los sonidos suaves son 15 dB más bajos que el diálogo (el rango dinámico ahora es de 30 dB). Por lo tanto, los sonidos fuertes se vuelven mucho más silenciosos y los sonidos suaves se vuelven mucho más fuertes. ¡En este caso, no se produce ningún desbordamiento!

Ahora pasemos a los histogramas:

Figura 20. Un ejemplo de compresión.

Como puedes ver claramente, a +30dB de ganancia, la forma del histograma se conserva bien, lo que significa que los sonidos fuertes quedan bien definidos (no llegan al máximo y no se cortan, como sucede con la ganancia simple). Esto produce sonidos suaves. El histograma muestra esto pobremente, pero la diferencia es muy notable de oído. La desventaja del método son los mismos saltos de volumen. Sin embargo, el mecanismo de su aparición difiere de los saltos de volumen que se producen durante el recorte, y su carácter es diferente: aparecen principalmente con una amplificación muy fuerte de sonidos bajos (y no cuando se cortan los sonidos fuertes, como ocurre con amplificación convencional). Un nivel excesivo de compresión conduce a un aplanamiento de la imagen del sonido: todos los sonidos tienden al mismo volumen e inexpresividad.

Los sonidos bajos de gran amplificación pueden hacer que el ruido de la grabación se vuelva audible. Por lo tanto, se aplica un algoritmo ligeramente modificado en el filtro para que el nivel de ruido suba menos:

Figura 21. Subiendo el volumen, sin aumentar el ruido.

Aquellos. a un nivel de volumen de -50dB, se produce la inflexión de la función de transferencia y el ruido se amplificará menos (línea amarilla). En ausencia de tal inflexión, el ruido será mucho más fuerte (línea gris). Semejante modificación sencilla reduce significativamente la cantidad de ruido incluso a niveles de compresión muy altos (compresión 1:5 en la figura). El nivel "DRC" en el filtro establece el nivel de ganancia para sonidos más bajos (a -50dB), por lo que El nivel de compresión 1/5 que se muestra en la figura corresponde al nivel de +40dB en la configuración del filtro.

Si nota un error, seleccione un fragmento de texto y presione Ctrl + Enter
COMPARTIR: