Investigadores del MIT, Cornell y la Universidad McGill crearon un nuevo modelo de aprendizaje automático que, por sí solo, descubre reglas lingüísticas que a menudo coinciden con las creadas por expertos humanos.

La capacidad de los humanos para desarrollar teorías sobre el mundo es una característica fundamental de la inteligencia. La historia registrada de la ciencia es donde esta habilidad se muestra más visiblemente, aunque también aparece de formas más sutiles en la cognición diaria y durante el desarrollo infantil. La creación de técnicas para comprender, e incluso automatizar potencialmente, el proceso de desarrollo de teorías es un objetivo fundamental tanto para la inteligencia artificial como para la ciencia cognitiva computacional.

Durante mucho tiempo, los lingüistas creyeron que sería un desafío educar a una máquina para analizar los sonidos del habla y los patrones de las palabras como los humanos. Sin embargo, científicos del MIT, la Universidad de Cornell y la Universidad McGill ya han logrado avances en esta área. Han demostrado la capacidad de un sistema de IA para aprender por sí mismo la gramática y las estructuras fonológicas de un lenguaje humano.

El modelo de aprendizaje automático desarrolla reglas que explican por qué las formas de esas palabras varían cuando se les dan palabras e instancias de cómo esas palabras cambian para comunicar diferentes funciones gramaticales (como tiempo, caso o género) en un idioma. Para obtener mejores resultados, este modelo también puede aprender automáticamente patrones lingüísticos de alto nivel que se aplican a muchos otros idiomas.

Se usaron 58 idiomas diferentes en problemas de libros de texto de lingüística que los investigadores usaron para entrenar y evaluar el modelo. Cada número contenía un conjunto específico de palabras y modificaciones de palabras relacionadas. Para el 60% de los problemas, el modelo proporcionó las reglas apropiadas para representar esas alteraciones en la forma de las palabras.

Este enfoque podría usarse para investigar hipótesis lingüísticas y observar variaciones mínimas en los significados de las palabras en muchos idiomas. Es particularmente especial porque el sistema aprende modelos utilizando pequeños fragmentos de datos, como unas pocas docenas de palabras, que las personas entienden fácilmente. Además, el sistema utiliza numerosos conjuntos de datos diminutos en lugar de uno solo grande. Esto está más cerca de cómo los científicos proponen hipótesis: observar numerosos conjuntos de datos relacionados y desarrollar modelos para explicar fenómenos en esos conjuntos de datos.

Los investigadores optaron por investigar la relación entre la fonología y la morfología en su esfuerzo por crear un sistema de inteligencia artificial que pudiera entrenar automáticamente un modelo a partir de numerosos conjuntos de datos relacionados.

Debido a que muchos idiomas comparten características básicas similares y los ejercicios de los libros de texto resaltan ciertos fenómenos lingüísticos, los datos de los libros de texto de lingüística son un excelente banco de pruebas. Los estudiantes universitarios también pueden manejar los problemas de los libros de texto con bastante sencillez, pero a menudo tienen una comprensión previa de la fonología de conferencias anteriores a las que recurren mientras piensan en nuevas dificultades.

Los investigadores utilizaron un método de aprendizaje automático llamado Programa de Aprendizaje Bayesiano para crear un modelo que pudiera aprender gramática o un conjunto de reglas para juntar palabras. Usando este método, el modelo crea un programa de computadora para abordar un desafío.

El programa, en este caso, es la gramática que el modelo cree que es el medio más plausible de explicar las palabras y sus significados en un problema lingüístico. Crearon el modelo utilizando Sketch, un conocido sintetizador de software creado por Solar-Lezama en el MIT.

Los investigadores utilizaron un método de aprendizaje automático llamado Programa de Aprendizaje Bayesiano para crear un modelo que pudiera aprender gramática o un conjunto de reglas para juntar palabras. Usando este método, el modelo crea un programa de computadora para abordar un desafío.

El programa, en este caso, es la gramática que el modelo cree que es el medio más plausible de explicar las palabras y sus significados en un problema lingüístico. Crearon el modelo utilizando Sketch, un conocido sintetizador de software creado por Solar-Lezama en el MIT.

Además, se probó el modelo para ver si podía aprender algunas plantillas de reglas fonológicas universales que pudieran usarse para todos los problemas.

Los investigadores esperan aplicar este concepto en el futuro para resolver problemas imprevistos en varios otros campos. También podrían usar el método en más circunstancias cuando sea posible aplicar conocimientos avanzados en conjuntos de datos relacionados.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'Synthesizing theories of human language with Bayesian program induction'. All Credit For This Research Goes To Researchers on This Project. Check out the paper and reference article.

Please Don't Forget To Join Our ML Subreddit


Tanushree Shenwai es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Bhubaneswar. Es una entusiasta de la ciencia de datos y tiene un gran interés en el ámbito de aplicación de la inteligencia artificial en varios campos. Le apasiona explorar los nuevos avances en tecnologías y su aplicación en la vida real.


¿Que te ha parecido?

Deja un comentario