Toda imagen es una convolución

Cada cámara, cada microscopio, cada telescopio, cada ojo — todos mienten un poco. La imagen que producen nunca es exactamente lo que hay ahí fuera. Está suavizada, ligeramente borrosa, sutilmente distorsionada. No por un defecto de fabricación (aunque eso también), sino por la naturaleza misma de la luz y de los sistemas que la capturan. Entender exactamente cómo se degrada la imagen es entender la convolución.

¿Qué es una convolución?

La idea es más sencilla de lo que parece. Imagina que tienes una imagen perfecta — cada punto es infinitamente nítido. Ahora imagina que tu sistema óptico no sabe producir un punto perfecto. Cuando le das un punto de luz, produce una manchita — quizá una campana de Gauss, quizá un disco, quizá una elipse alargada. Esa manchita es la PSF (Point Spread Function): la respuesta del sistema a un punto.

Ahora, la imagen real que ves se construye así: en cada punto brillante de la imagen ideal, el sistema «estampa» una copia de su PSF, escalada por el brillo de ese punto. La suma de todas esas estampas es la imagen convolucionada. Si la PSF es grande, los puntos se expanden mucho y la imagen queda borrosa. Si la PSF es un punto perfecto (una delta), no hay degradación — cada punto se reproduce tal cual.

Selecciona diferentes imágenes de entrada y diferentes kernels (PSFs) para ver cómo la convolución transforma la imagen. Prueba a aumentar el tamaño del kernel y observa cómo se pierde el detalle:

Explorar

Imagen

Kernel / PSF

Sigma 3

Entrada f(x,y)

Kernel h(x,y)

Salida g = f ⊛ h

Desenfoque gaussiano — cada punto se extiende como una campana de Gauss

Fíjate: con el kernel delta, la salida es idéntica a la entrada. Eso es porque convolucionar con una delta es la operación identidad — no hace nada. Cualquier otro kernel redistribuye la luz y degrada la imagen. El gaussiano la suaviza uniformemente. El movimiento horizontal la estira en una dirección. El desenfoque circular la difumina como si el foco estuviera mal ajustado.

La Point Spread Function: la huella del sistema

La PSF lo dice todo sobre un sistema óptico. Es su huella digital. «Dime tu PSF y te diré todo sobre la calidad de tu imagen.»

¿Cómo se mide? Conceptualmente es simple: dale al sistema una fuente puntual y mira qué sale. Un sistema perfecto produce un punto perfecto. Un sistema real produce una mancha. La forma de esa mancha — gaussiana, disco de Airy, elipse, lo que sea — codifica todas las aberraciones, la difracción y las limitaciones del sistema.

Arriba verás una fuente puntual y lo que el sistema produce a partir de ella. Abajo, la imagen ideal y la imagen que realmente ve el sistema. Mueve el deslizador de aberración para ver cómo una PSF más grande destruye progresivamente el detalle:

Explorar

Tipo de PSF

Aberración 3

¿Qué ve el sistema cuando mira un solo punto?

Fuente puntual

Lo que el sistema produce (PSF)

¿Y qué pasa con una imagen completa?

Imagen ideal

Imagen a través del sistema

PSF gaussiano — modelo genérico de desenfoque suave

Con aberración baja, la imagen es nítida — la PSF es casi un punto. Al aumentar la aberración, la PSF crece y la imagen se degrada. El astigmatismo es particularmente interesante: la PSF es una elipse, así que el desenfoque es distinto en el eje horizontal y en el vertical. El resultado es una imagen que se ve «estirada» en una dirección.

El teorema de convolución

Aquí viene la conexión con todo lo que hemos visto antes. Si la imagen de salida es la convolución de la imagen de entrada con la PSF:

g(x,y) = \iint f(x',y') \, h(x-x', y-y') \, dx' \, dy'

entonces, en el dominio de Fourier, la convolución se convierte en una simple multiplicación:

G(u,v) = F(u,v) \cdot H(u,v)

Demostración del teorema de convolución

Partimos de la transformada de Fourier de la convolución $g = f * h$ :

G(u,v) = \iint g(x,y) \, e^{-2\pi i(ux+vy)} dx\,dy

Sustituimos $g(x,y) = \iint f(x',y') \, h(x-x', y-y') \, dx'\,dy'$ :

G = \iint \!\! \iint f(x',y') \, h(x-x', y-y') \, e^{-2\pi i(ux+vy)} dx'\,dy'\,dx\,dy

Cambio de variable: $\xi = x - x'$ , $\eta = y - y'$ . Entonces $x = \xi + x'$ y la exponencial se separa:

G = \underbrace{\iint f(x',y') \, e^{-2\pi i(ux'+vy')} dx'\,dy'}_{F(u,v)} \cdot \underbrace{\iint h(\xi,\eta) \, e^{-2\pi i(u\xi+v\eta)} d\xi\,d\eta}_{H(u,v)}

La integral se factoriza en el producto $F(u,v) \cdot H(u,v)$ . ∎

Este es el teorema de convolución. Donde $F(u,v) = \mathcal{F}\{f\}$ es el espectro de la imagen ideal, $H(u,v) = \mathcal{F}\{h\}$ es la transformada de la PSF (que se llama Optical Transfer Function, OTF), y $G(u,v)$ es el espectro de la imagen degradada.

¿Te suena? En el artículo 04 vimos que el sistema 4f filtra la imagen multiplicando su espectro por una máscara $H(u,v)$ en el plano de Fourier. Eso es exactamente lo mismo: el sistema 4f es una máquina de convolución. La máscara $H(u,v)$ es la OTF, y su transformada inversa $h(x,y)$ es la PSF. La diferencia es que en el sistema 4f elegimos nosotros la máscara; en un sistema óptico real, la «máscara» la impone la física — la difracción, las aberraciones, el tamaño finito de las lentes.

La energía también se conserva de manera elegante. Por el teorema de Parseval:

\iint |g(x,y)|^2 \, dx\,dy = \iint |F(u,v)|^2 \, |H(u,v)|^2 \, du\,dv

Cada frecuencia espacial de la imagen se atenúa por el factor $|H(u,v)|^2$ . Las frecuencias donde $|H|$ es cercano a 1 pasan casi intactas. Donde $|H|$ es cercano a 0, esa información se pierde.

La MTF: la tarjeta de presentación de un sistema óptico

A los ingenieros ópticos no les basta con ver la PSF — quieren un número que diga qué tan bien el sistema preserva el contraste a cada frecuencia espacial. Ese número es la MTF (Modulation Transfer Function):

\text{MTF}(u,v) = |H(u,v)|

La MTF va de 1 (contraste perfecto — esa frecuencia pasa sin atenuación) a 0 (contraste cero — esa frecuencia se pierde completamente). La frecuencia donde la MTF cae por debajo de un umbral convenido (típicamente 0.5 o 0.1) define la resolución práctica del sistema.

Explora cómo diferentes PSFs producen diferentes MTFs. A la izquierda, la PSF. En el centro, la MTF en 2D (DC en el centro, frecuencia creciente hacia los bordes). A la derecha, el perfil radial — la curva que aparece en las reseñas de objetivos fotográficos y que los ingenieros ópticos usan para comparar lentes:

Explorar

Tipo de PSF

Tamaño 4

PSF h(x,y)

MTF = |H(u,v)|

Perfil radial de la MTF

PSF gaussiano — MTF gaussiana (caída suave y monótona)

Observa las diferencias: una PSF gaussiana produce una MTF que cae suavemente — nunca llega a cero, pero atenúa las frecuencias altas cada vez más. Una PSF de desenfoque circular (pillbox) produce una MTF con lóbulos: algunas frecuencias caen a cero y luego reaparecen con contraste invertido. Una PSF cuadrada produce una MTF tipo sinc con ceros periódicos. Y la PSF delta, naturalmente, da una MTF plana — transmite todo por igual.

La línea amarilla punteada marca MTF = 0.5. A la izquierda de donde la curva azul cruza esa línea, el sistema preserva al menos la mitad del contraste. A la derecha, el contraste se pierde rápidamente. Cuanto más a la derecha caiga ese cruce, mejor es el sistema.

¿Y esto para qué sirve?

La convolución, la PSF y la MTF no son abstracciones de laboratorio. Son las herramientas que se usan en la práctica:

Evaluación de objetivos: las curvas de MTF aparecen en cada reseña de lentes fotográficos. Un objetivo «más nítido» es uno cuya MTF se mantiene alta a frecuencias más altas. Cuando dices que una lente «resuelve más», estás diciendo que su MTF cae más tarde.
Deconvolución: si conoces la PSF, puedes (parcialmente) deshacerla. En Fourier, la imagen degradada es $G = F \cdot H$ . Si divides por $H$ , recuperas $F$ . En la práctica hay ruido y la cosa es más sutil, pero el principio es ese. Es el tema del artículo 06.
Óptica adaptativa: los telescopios astronómicos miden la PSF en tiempo real (usando una estrella guía) y deforman un espejo para corregirla. El objetivo: acercar la PSF a una delta. Cuanto más puntiaguda la PSF, más nítida la imagen.
Imagen médica: en CT, MRI y ultrasonido, cada modalidad tiene su propia PSF. Caracterizarla es esencial para interpretar las imágenes correctamente y para aplicar algoritmos de reconstrucción.

Y el adelanto obligado: si toda imagen es una convolución, ¿se puede deshacer? ¿Se puede recuperar la imagen ideal a partir de la degradada? Eso es la deconvolución y la recuperación de fase — el tema del artículo 06.

Ejercicios

Ejercicio 1

Usa el explorador de MTF de arriba. Selecciona la PSF gaussiana y observa su curva de MTF. Luego selecciona la PSF de desenfoque circular (pillbox) con un tamaño similar. Compara las dos curvas de MTF. ¿Cuál de las dos tiene una frecuencia de corte (donde MTF cruza la línea de 0.5) más alta? ¿Cuál muestra lóbulos (ceros y rebotes)? ¿Qué PSF preferirías en un sistema óptico y por qué?

Solución

La PSF gaussiana produce una MTF que cae suavemente como una gaussiana en frecuencia: $\text{MTF}(u) = e^{-2\pi^2 \sigma^2 u^2}$ . Nunca llega exactamente a cero, pero decae rápidamente.

La PSF de desenfoque circular (pillbox) produce una MTF tipo $|2J_1(\pi D u)/(\pi D u)|$ , que tiene ceros periódicos. En esos ceros, la MTF pasa por cero y luego rebota con contraste invertido (artefactos de inversión de contraste).

Para un mismo ancho, la gaussiana suele cruzar MTF = 0.5 a una frecuencia ligeramente menor, pero tiene un comportamiento más limpio: no produce inversión de contraste. La pillbox puede transmitir algo de señal a frecuencias más altas, pero con esos molestos lóbulos. En general, una PSF gaussiana es preferible porque la degradación es monótona y predecible — no hay artefactos de inversión.

Ejercicio 2

En el explorador de MTF, selecciona la PSF delta (punto perfecto). ¿Cómo es su MTF? Ahora piensa: si un sistema óptico tiene una frecuencia de corte en $u_c = 200\,\text{ciclos/mm}$ , ¿cuál es el detalle más fino (en micrómetros) que puede resolver? Si la MTF cae al 50% en $u_{50} = 100\,\text{ciclos/mm}$ , ¿qué contraste tendría una rejilla con esa frecuencia en la imagen?

Solución

La PSF delta produce una MTF plana e igual a 1 para todas las frecuencias: transmite todo sin atenuación. Es el sistema perfecto (inalcanzable en la práctica).

La frecuencia de corte $u_c = 200\,\text{ciclos/mm}$ significa que el periodo mínimo resoluble es:

d_{\min} = \frac{1}{u_c} = \frac{1}{200} \,\text{mm} = 5\,\mu\text{m}

Si la MTF vale 0.5 en $u_{50} = 100\,\text{ciclos/mm}$ , una rejilla con esa frecuencia espacial tendrá su contraste reducido al 50% del original. Si el objeto tiene un contraste de 100% ( $I_{\max}/I_{\min} = \infty$ ), la imagen tendrá un contraste del 50%. Los detalles a esa frecuencia se ven, pero con la mitad de la «fuerza» del original.