Investigadores de China proponen ‘NeuralMarker’: un marco para aprender la correspondencia de marcadores generales

Imagine que dibuja una línea en un cuadro de video en particular y desea conservar esa línea en los siguientes cuadros. Eso significa que debe determinar las ubicaciones correspondientes en cada cuadro con respecto al cuadro de referencia y determinar con precisión el movimiento de píxeles en diversas condiciones, como cambio de punto de vista, deformación y cambio de rayos. Es extremadamente difícil estimar todos estos cambios.

Encontrar posiciones coincidentes en una imagen de referencia para cada píxel en el marcador de consulta es el objetivo de la estimación de correspondencia de marcador general. Un marcador general es un marcador arbitrario proporcionado por el usuario. La correspondencia general de marcadores es un componente fundamental de varias aplicaciones posteriores, incluida la realidad aumentada (AR) basada en marcadores y la edición de video. Se puede usar para incrustar anuncios en el video, editar videos rápidamente, agregar objetos en escenas de realidad aumentada, editar imágenes con preservación de rayos, etc.

Los métodos tradicionales estiman la correspondencia del marcador ajustando una homografía con pocas características. Estos modelos solo pueden manejar la traslación SE(3) de un plano (es decir, rotación, traslación y reflexión). Por lo tanto, no son capaces de manejar marcadores distorsionados y no brindan buenos resultados si la traducción es excesiva.

Los métodos basados ​​en el aprendizaje profundo proporcionaron un aumento significativo del rendimiento en muchos dominios, y lo mismo se aplica a la estimación de correspondencia. Aunque logra un rendimiento impresionante, los métodos basados ​​en el aprendizaje profundo consumen muchos datos, y anotar la correspondencia densa en píxeles para entrenar el método de correspondencia del marcador lleva mucho tiempo y es costoso. Por lo tanto, NeuralMaker está entrenado en un conjunto de datos sintético.

Dado que los principales desafíos en la estimación de correspondencias provienen de dos aspectos, que son la estimación de la geometría y la estimación de la apariencia, se propone NeuralMaker para abordar ambos aspectos.

Primero el FlyingMarkers Se genera un conjunto de datos sintéticos, que consta de emparejamientos de imágenes de marcadores con correspondencias densas de verdad de campo. FlyingMarkers genera una imagen de referencia sintética deformando un marcador después de una transformación geométrica generada aleatoriamente y mezclándolo con la imagen de fondo de referencia. Se alienta a la red neuronal a aprender diferentes movimientos de marcadores mediante el entrenamiento con FlyingMarkers.

En segundo lugar, se propone una nueva función de pérdida de distancia epipolar simétrica (SED), que permite aprender correspondencias densas a partir de imágenes posadas. La imagen de referencia en situaciones del mundo real puede contener grandes fluctuaciones de apariencia que son difíciles de sintetizar. Además, si el codificador de características de la imagen solo se entrena en imágenes de síntesis, estará sesgado por esas fotos. Así, NeuralMaker también se entrena con fotografías reales para dar cuenta de diferentes situaciones de apariencia real. Las correspondencias proyectadas basadas en las posturas de la cámara están limitadas por la pérdida de la distancia epipolar simétrica (SED). NeuralMarker es excepcionalmente resistente en situaciones de iluminación adversas y evita el sesgo de imagen sintética gracias a su aprendizaje con la pérdida SED.

Sin utilizar un modelo de homografía, NeuralMarker calcula directamente las correspondencias densas a nivel de píxel del marcador y la imagen completos, aprovechando al máximo la información de apariencia y eliminando las limitaciones de plano. Supera significativamente a los métodos existentes y permite nuevas aplicaciones interesantes, como la edición de video y la realidad aumentada en condiciones de iluminación desafiantes.

Este fue un breve resumen del artículo de NeuralMaker. Tienen un excelente sitio web de demostración con ejemplos y el código si desea obtener más información al respecto.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'NeuralMarker: A Framework for Learning General Marker Correspondence'. All Credit For This Research Goes To Researchers on This Project. Check out the paper.

Please Don't Forget To Join Our ML Subreddit


Ekrem Çetinkaya recibió su B.Sc. en 2018 y M.Sc. en 2019 de la Universidad Ozyegin, Estambul, Türkiye. Escribió su M.Sc. tesis sobre eliminación de ruido de imágenes utilizando redes convolucionales profundas. Actualmente está cursando un doctorado. Licenciada en la Universidad de Klagenfurt, Austria, y trabajando como investigadora en el proyecto ATHENA. Sus intereses de investigación incluyen el aprendizaje profundo, la visión artificial y las redes multimedia.


Fuente del artículo

¿Que te ha parecido?

Deja un comentario