WebGPT: respuesta a preguntas asistida por navegador con comentarios humanos

A diferencia de ChatGPT de la misma compañía, WebGPT si navega por internet para analizar nuestro comportamiento. Según la introducción (excerpt) de su artículo en arXiv, OpenAI describe la idea:

(sic) Ajustamos GPT-3 para responder preguntas largas mediante un entorno de navegación web basado en texto, lo que permite que el modelo busque y navegue por la web. Al configurar la tarea para que pueda ser realizada por humanos, podemos entrenar modelos en la tarea mediante el aprendizaje por imitación y luego optimizar la calidad de la respuesta con comentarios humanos. Para facilitar la evaluación humana de la precisión de los hechos, los modelos deben recopilar referencias mientras navegan en apoyo de sus respuestas. Entrenamos y evaluamos nuestros modelos en ELI5, un conjunto de datos de preguntas realizadas por los usuarios de Reddit. Nuestro mejor modelo se obtiene mediante el ajuste fino de GPT-3 utilizando la clonación de comportamiento y luego realizando un muestreo de rechazo contra un modelo de recompensa entrenado para predecir las preferencias humanas. Las respuestas de este modelo son preferidas por humanos el 56% del tiempo a las de nuestros demostradores humanos.

¿Que es WebGPT ?

WebGPT es una herramienta desarrollada por OpenAI que permite a los usuarios hacer preguntas a un modelo de lenguaje entrenado para dar respuestas precisas y relevantes. La herramienta utiliza una versión mejorada del modelo GPT-3 de OpenAI, que es uno de los modelos de lenguaje más grandes y precisos jamás creados. GPT-3 es capaz de generar texto coherente y relevante en respuesta a una amplia variedad de preguntas, y WebGPT aprovecha esta capacidad para ofrecer respuestas precisas y relevantes a las preguntas de los usuarios.

Además, la herramienta permite a los usuarios agregar comentarios humanos a las respuestas del modelo para mejorar aún más la precisión y relevancia de las mismas. Esto permite que la herramienta evolucione y mejore continuamente a medida que se utiliza y se le aportan más comentarios humanos. Según se menciona en su documentación, las respuestas del modelo WebGPT son preferidas por los humanos en un 56% de los casos en comparación con las de los demostradores humanos y en un 69% de los casos en comparación con la respuesta más votada en Reddit. Esto sugiere que el modelo WebGPT es muy preciso y relevante para las preguntas de los usuarios.

El modelo se entrenó utilizando un entorno de navegación web basado en texto, en el que se le daba un resumen escrito del estado actual del entorno (incluyendo la pregunta, el texto de la página en la que se encontraba el cursor y otros datos) y debía emitir uno de los comandos disponibles (como realizar una búsqueda en Bing, hacer clic en un enlace o desplazarse por la página) para responder a la pregunta. Mientras el modelo navegaba, también podía citar extractos de la página actual, los cuales se registraban para su posterior uso como referencias.

En resumen, WebGPT es una herramienta muy útil para quienes desean obtener respuestas precisas y relevantes a sus preguntas de manera rápida y sencilla.

Métodos que se han utilizado

Son variados y diferentes, los métodos que utilizó OpenAI para entrenar el modelo WebGPT. Utilizaron modelos preentrenados de la familia GPT-3, en tamaños de 760M, 13B y 175B, y aplicaron cuatro métodos principales de entrenamiento: clonación de comportamientos (BC), modelado de recompensas (RM), aprendizaje por refuerzo (RL) y muestreo de rechazo (mejor de n).

El método de clonación de comportamientos implicó afinar el modelo sobre las demostraciones humanas utilizando aprendizaje supervisado, con las órdenes emitidas por los demostradores humanos como etiquetas. El modelado de recompensas partió del modelo BC y eliminó la capa final de no incrustación, entrenando un modelo que recibía una pregunta y una respuesta con referencias y emitía una recompensa escalar.

El método de aprendizaje por refuerzo ajustó el modelo BC en el entorno de navegación web utilizando PPO (Proximal Policy Optimization), un algoritmo de aprendizaje por refuerzo.Finalmente, el muestreo de rechazo implicó muestrear un número fijo de respuestas del modelo BC o RL y seleccionar la mejor clasificada por el modelo de recompensa. Este es un método alternativo de optimización contra el modelo de recompensa que no requiere entrenamiento adicional, pero utiliza más tiempo de inferencia.

Continuaremos con este tema, que seguro dará que hablar en próximas fechas.- Hasta entonces te dejo el enlace al documento: https://arxiv.org/pdf/2112.09332v3.pdf

Deja un comentario