Orígenes del Reconocimiento Facial

El reconocimiento facial automatizado es un concepto que se introdujo en los años 60. Fue entonces cuando se desarrolló el primer sistema semiautomático para reconocimiento facial, que requería del administrador para localizar rasgos (ojos, orejas, nariz y boca) en las fotografías antes de que este calculara la distancia a puntos de referencia comunes y se comparasen los datos. En los años 70 Goldstein, Harmon, & Lesk, usaron 21 marcadores subjetivos específicos tales como el color del cabello y el grosor de labios para automatizar el reconocimiento facial, pero los marcadores seguían
requiriendo un proceso manual. En 1988 se produjo un hito cuando Kirby & Sirovich aplicaron el análisis de componentes principales (PCA), una técnica estándar del álgebra lineal, al problema del reconocimiento facial y demostraron que se necesitaban menos de 100 valores para codificar la imagen de una cara convenientemente alineada y
normalizada. En 1991 Turk & Pentland, utilizando las técnica de eigenfaces, como se llamó al método de Kirby & Sirovich, demostraron que el error residual podía ser utilizado para detectar caras en las imágenes, un descubrimiento que permitió desarrollar sistemas de reconocimiento fiables en tiempo real. Si bien la aproximación era un tanto forzada por factores ambientales, creó sin embargo un interés significativo en posteriores desarrollos de éstos sistemas.

Captura de imagen en los sistemas de reconocimiento

En el estudio del reconocimiento facial podemos observar dos enfoques predominantes: el geométrico (basado en rasgos) y el fotométrico (basado en lo visual). Debido a las investigaciones desarrolladas han surgido distintos sistemas y algoritmos para intentar el reconocimiento; y se distinguen principalmente por el proceso de captura de imágenes que necesitan y por el procesado posterior que se realiza con ellas. En los apartados siguientes se explican las diferencias debidas al método de captura de imágenes durante la fase de entrenamiento del sistema y la fase de reconocimiento.

Sistemas de reconocimiento facial 2D y 3D

Existe gran variedad de métodos para el reconocimiento facial que utilizan imágenes de intensidad en 2D (las fotos normales que hemos visto siempre), pero el problema principal para su correcto funcionamiento es común y se debe a tres causas: pose, iluminación y variación de la expresión. Cualquier cambio en estos tres elementos puede causar la degradación del funcionamiento del sistema de reconocimiento. El cambio de pose puede variar drásticamente la apariencia de una cara, y en algunos casos la diferencia puede ser mayor que la que haya respecto a la cara de otra persona, por lo tanto el reconocimiento se puede complicar mucho. Lo mismo ocurre en el caso de la iluminación y del cambio de la expresión facial.

Algunas técnicas intentan solventar el problema a través de una perspectiva 3D. La mayoría intenta reconstruir modelos faciales 3D a través de múltiples imágenes de la misma persona adquiridas con un sistema multicámara o directamente con dispositivos 3D como lásers y escáners. La ventaja de usar datos 3D (representación de imágenes de 180º en coordenadas cilíndricas) es que además de la textura, disponemos de información de profundidad y el sistema de reconocimiento es más robusto frente a los cambios de iluminación, pose y expresión ya que la profundidad no cambia aunque estos aspectos de la imagen si lo hagan.

Sin embargo el principal inconveniente de estos métodos es la adquisición de datos en 3D en la fase de reconocimiento. La exactitud de los algoritmos de reconstrucción 3D está relacionada con los parámetros de adquisición, por lo tanto, se necesita un escenario controlado donde sus componentes estén bien calibrados y sincronizados, además de la cooperación del individuo a reconocer. Estas condiciones pueden tenerse en la fase de entrenamiento, cuando la base de datos se construye o extiende, pero no durante la fase de reconocimiento. La mayoría de las aplicaciones de seguridad y control de acceso presentan escenarios sin control donde sólo disponemos de una foto o imagen en 2D del sujeto a reconocer.