Modelo de incrustación nuevo y mejorado

Nos complace anunciar un nuevo modelo de integración que es significativamente más capaz, rentable y más fácil de usar. el nuevo modelo, text-embedding-ada-002reemplaza cinco modelos separados para búsqueda de texto, similitud de texto y búsqueda de código, y supera a nuestro modelo anterior más capaz, Davinci, en la mayoría de las tareas, mientras que su precio es un 99,8 % más bajo.

Leer documentación

Las incrustaciones son representaciones numéricas de conceptos convertidos en secuencias numéricas, lo que facilita que las computadoras comprendan las relaciones entre esos conceptos. Desde el lanzamiento inicial del extremo OpenAI/embeddings, muchas aplicaciones han incorporado incrustaciones para personalizar, recomendar y buscar contenido.

Puede consultar el punto final /embeddings para el nuevo modelo con dos líneas de código utilizando nuestro Biblioteca Python de OpenAItal como se podía con los modelos anteriores:

import openai
response = openai.Embedding.create(
  input="porcine pals say",
  model="text-embedding-ada-002"
)

Mejoras en el modelo

Rendimiento más fuerte. text-embedding-ada-002 supera a todos los modelos de incrustación antiguos en tareas de búsqueda de texto, búsqueda de código y similitud de oraciones y obtiene un rendimiento comparable en la clasificación de texto. Para cada categoría de tarea, evaluamos los modelos en los conjuntos de datos utilizados en viejas incrustaciones.





Unificación de capacidades. Hemos simplificado significativamente la interfaz del punto final /embeddings al fusionar los cinco modelos separados que se muestran arriba (text-similarity, text-search-query, text-search-doc, code-search-text y code-search-code) en un único modelo nuevo. Esta representación única funciona mejor que nuestros modelos de incrustación anteriores en un conjunto diverso de puntos de referencia de búsqueda de texto, similitud de oraciones y búsqueda de código.

Contexto más largo. La longitud del contexto del nuevo modelo se incrementa por un factor de cuatro, de 2048 a 8192, lo que hace que sea más conveniente trabajar con documentos largos.

Tamaño de incrustación más pequeño. Las nuevas incrustaciones tienen solo 1536 dimensiones, una octava parte del tamaño de davinci-001 incrustaciones, lo que hace que las nuevas incrustaciones sean más rentables al trabajar con bases de datos vectoriales.

Precio reducido. Hemos reducido el precio de los nuevos modelos de empotrar en un 90% respecto a los modelos antiguos del mismo tamaño. El nuevo modelo logra un rendimiento mejor o similar al de los antiguos modelos Davinci a un precio un 99,8% inferior.

En general, el nuevo modelo de incrustación es una herramienta mucho más poderosa para el procesamiento del lenguaje natural y las tareas de código. Estamos entusiasmados de ver cómo nuestros clientes lo utilizarán para crear aplicaciones aún más capaces en sus respectivos campos.

Limitaciones

El nuevo text-embedding-ada-002 el modelo no tiene un rendimiento superior text-similarity-davinci-001 en el punto de referencia de clasificación de sondeo lineal SentEval. Para tareas que requieren entrenar una capa lineal de peso ligero sobre vectores de incrustación para la predicción de clasificación, sugerimos comparar el nuevo modelo con text-similarity-davinci-001 y elegir el modelo que ofrezca un rendimiento óptimo.

Consulte la sección Limitaciones y riesgos en la documentación de incrustaciones para conocer las limitaciones generales de nuestros modelos de incrustaciones.

Ejemplos de API de incrustaciones en acción

calendario IA es un producto de divulgación de ventas que utiliza incrustaciones para hacer coincidir el argumento de venta correcto con los clientes correctos de un conjunto de datos que contiene 340 millones de perfiles. Esta automatización se basa en la similitud entre las incorporaciones de los perfiles de los clientes y los argumentos de venta para clasificar las coincidencias más adecuadas, eliminando entre el 40 y el 56 % de la orientación no deseada en comparación con su enfoque anterior.

Nociónla empresa de espacio de trabajo en línea, utilizará las nuevas incorporaciones de OpenAI para mejorar la búsqueda de Notion más allá de los sistemas de coincidencia de palabras clave actuales.


Leer documentación

Fuente del artículo

Deja un comentario