Notas sobre Bard

Esta entrada se actualiza constantemente con lo que se va conociendo sobre Bard. Algún día será una buena referencia.

El anuncio de Google del 6 de febrero de 2023 destacó sus objetivos con este modelo:

Hemos estado trabajando en un servicio de inteligencia artificial conversacional experimental, impulsado por LaMDA, al que llamamos Bard. Y hoy, estamos dando otro paso adelante al abrirlo a evaluadores de confianza antes de que esté más disponible para el público en las próximas semanas.

Bard busca combinar la amplitud del conocimiento del mundo con el poder, la inteligencia y la creatividad de nuestros grandes modelos lingüísticos. Se basa en información de la web para proporcionar respuestas frescas y de alta calidad. Bard puede ser una salida para la creatividad y una plataforma de lanzamiento para la curiosidad, ayudándote a explicar los nuevos descubrimientos del Telescopio Espacial James Webb de la NASA a un niño de 9 años, o aprender más sobre los mejores delanteros del fútbol en este momento, y luego hacer ejercicios. para desarrollar tus habilidades. (- Blog de Google 6/feb/2023 )

Papel LaMDA 2

El documento LaMDA 2 brinda detalles muy específicos sobre el modelo. El modelo está ajustado a la retroalimentación humana, pero no usan ese término en el documento:

Cuantificamos la seguridad usando una métrica basada en un conjunto ilustrativo de valores humanos, y encontramos que filtrar las respuestas candidatas usando un clasificador LaMDA ajustado con una pequeña cantidad de datos anotados por el crowdworker ofrece un enfoque prometedor para mejorar la seguridad del modelo.

Conjunto de datos

  • El conjunto de datos de Google LaMDA 2 se llama ‘Infiniset’ y es diferente al conjunto de datos de tokens 780B de Google PaLM.
  • Infiniset contiene 1,56 T de palabras (1560 B de palabras), que Google tokenizó en 2,81 T de tokens (2810 B de tokens). Esto está a la par con el conjunto de datos MassiveText de DeepMind de tokens 2.35T (tokens 2350B) en 10.5TB de datos.
  • Suponiendo la misma tokenización que MassiveText , Infiniset de Bard totaliza 12,55 TB de datos de texto.

LaMDA 2 y el conjunto de datos Infiniset de Bard se componen de:

Nconjunto de datosTokens de porcentajeTamaño sin formato (GB)Tokens (G)
1Diálogos de foros públicos (supongamos que Reddit, Twitter)50%6,2771,405
2C4 (rastreo común)12,5%1,569351
3Codifique documentos de sitios relacionados con la programación, como sitios de preguntas y respuestas, tutoriales, etc. (suponga que GitHub, Stack Overflow, Hacker News)12,5%1,569351
4Wikipedia (inglés)*12,5%1,569351
5Documentos web en inglés (tal vez datos de Google Books)6,5%816182
6Documentos web que no están en inglés (tal vez datos de Google Books)6,5%816182
Total100,5%12.616 GB2822B

* Wikipedia en inglés tiene aproximadamente 60 GB de texto sin comprimir en 2023. Las páginas de historial pueden tener más de 14 TB de texto sin comprimir adicional. No está claro cómo y por qué Google extrajo 1.500 GB en lugar de los 6-13 GB estándar de datos de texto de Wikipedia limpios y filtrados que utilizan la mayoría de los demás laboratorios de IA .

Conjunto de datos Google LaMDA 2/Bard. 

Comparación del tamaño del conjunto de datos por interés:

FechaModelo + recuento de parámetrosfichas
ene/2020Google Meena 2.6B (predecesor de LaMDA)61B/10B entrenado
mayo/2020Open AI GPT-3 175B499/300B entrenado
febrero/2022Google LaMDA 2 137B2.81T
mar/2022DeepMind Chinchilla 70B2.35T/1.4T entrenado
abr/2022Google Palm 540B780B/780B entrenado

Comparación del tamaño del conjunto de datos entre LaMDA 2 y otros modelos actuales.

Acceso web

Al igual que Microsoft Bing Chat , Bard parece tener acceso web durante la inferencia. Del artículo de LaMDA 2:

[Para capacitación,] creamos un conjunto de herramientas (TS) que incluye un sistema de recuperación de información… TS toma una sola cadena como entrada y genera una lista de una o más cadenas. Cada herramienta en TS espera una cadena y devuelve una lista de cadenas… el sistema de recuperación de información puede tomar «¿Cuántos años tiene Rafael Nadal?» y generar [«Rafael Nadal / Edad / 35»]. El 

sistema de recuperación de información también es capaz de devolver fragmentos de contenido de la web abierta, con sus correspondientes URL. El TS prueba una cadena de entrada en todas sus herramientas y produce una lista final de cadenas de salida concatenando las listas de salida de cada herramienta en el siguiente orden: calculadora, traductor y sistema de recuperación de información. Una herramienta devolverá una lista vacía de resultados si no puede analizar la entrada (por ejemplo, la calculadora no puede analizar «¿Cuántos años tiene Rafael Nadal?») y, por lo tanto, no contribuye a la lista de salida final…

Decidimos afinar nuestro modelo de lenguaje para proporcionar atribuciones para sus respuestas al buscar sus afirmaciones usando un conjunto de herramientas …

La interfaz del conjunto de herramientas utilizadas aquí es idéntica al servicio utilizado por el algoritmo en el momento de la inferencia . Dada una consulta de texto general, el sistema de recuperación de información devuelve un conjunto de fragmentos breves de solo texto en orden de clasificación. Los fragmentos de contenido web abierto incluyen direcciones URL para su fuente … Cuando el usuario ha terminado de ejecutar las consultas, tiene la oportunidad de reescribir la declaración del modelo para incluir afirmaciones bien fundamentadas. Si usaron contenido web abierto, les pedimos que citen las URL necesarias para respaldar cualquier respuesta que contenga información relacionada con el mundo externo. Las direcciones URL se pueden agregar al final del mensaje o, si el contexto lo justifica, se pueden adjuntar en línea a palabras específicas en la respuesta usando el formato Markdown.

Luego ajustamos LaMDA para realizar dos tareas… En el momento de la inferencia, la salida del modelo se dirige al sistema de recuperación de información o al usuario , dependiendo de si la primera cadena generada es ‘TS’ o ‘Usuario’.

La generación de consultas se basa completamente en el ajuste fino del modelo y no hay un componente heurístico. La salida del modelo determina el número de consultas ( el bucle de investigación continúa hasta que el modelo genera una salida dirigida al usuario ), pero imponemos un máximo en el momento de la inferencia para eliminar la posibilidad de un bucle infinito. El máximo es un parámetro del modelo de servicio. En el ejemplo actual, se establece en cuatro.

Disponibilidad

El modelo LaMDA está cerrado, con una disponibilidad muy limitada de salidas filtradas a través de AI Test Kitchen de Google. Google Bard estará disponible para los usuarios en el primer trimestre de 2023. Aún no hay más información disponible hasta mediados de febrero de 2023.

Deja un comentario