Esta entrada se actualiza constantemente con lo que se va conociendo sobre Bard. Algún día será una buena referencia.
El anuncio de Google del 6 de febrero de 2023 destacó sus objetivos con este modelo:
Hemos estado trabajando en un servicio de inteligencia artificial conversacional experimental, impulsado por LaMDA, al que llamamos Bard. Y hoy, estamos dando otro paso adelante al abrirlo a evaluadores de confianza antes de que esté más disponible para el público en las próximas semanas.
Bard busca combinar la amplitud del conocimiento del mundo con el poder, la inteligencia y la creatividad de nuestros grandes modelos lingüísticos. Se basa en información de la web para proporcionar respuestas frescas y de alta calidad. Bard puede ser una salida para la creatividad y una plataforma de lanzamiento para la curiosidad, ayudándote a explicar los nuevos descubrimientos del Telescopio Espacial James Webb de la NASA a un niño de 9 años, o aprender más sobre los mejores delanteros del fútbol en este momento, y luego hacer ejercicios. para desarrollar tus habilidades. (- Blog de Google 6/feb/2023 )
Papel LaMDA 2
El documento LaMDA 2 brinda detalles muy específicos sobre el modelo. El modelo está ajustado a la retroalimentación humana, pero no usan ese término en el documento:
Cuantificamos la seguridad usando una métrica basada en un conjunto ilustrativo de valores humanos, y encontramos que filtrar las respuestas candidatas usando un clasificador LaMDA ajustado con una pequeña cantidad de datos anotados por el crowdworker ofrece un enfoque prometedor para mejorar la seguridad del modelo.
Conjunto de datos
- El conjunto de datos de Google LaMDA 2 se llama ‘Infiniset’ y es diferente al conjunto de datos de tokens 780B de Google PaLM.
- Infiniset contiene 1,56 T de palabras (1560 B de palabras), que Google tokenizó en 2,81 T de tokens (2810 B de tokens). Esto está a la par con el conjunto de datos MassiveText de DeepMind de tokens 2.35T (tokens 2350B) en 10.5TB de datos.
- Suponiendo la misma tokenización que MassiveText , Infiniset de Bard totaliza 12,55 TB de datos de texto.
LaMDA 2 y el conjunto de datos Infiniset de Bard se componen de:
N | conjunto de datos | Tokens de porcentaje | Tamaño sin formato (GB) | Tokens (G) |
1 | Diálogos de foros públicos (supongamos que Reddit, Twitter) | 50% | 6,277 | 1,405 |
2 | C4 (rastreo común) | 12,5% | 1,569 | 351 |
3 | Codifique documentos de sitios relacionados con la programación, como sitios de preguntas y respuestas, tutoriales, etc. (suponga que GitHub, Stack Overflow, Hacker News) | 12,5% | 1,569 | 351 |
4 | Wikipedia (inglés)* | 12,5% | 1,569 | 351 |
5 | Documentos web en inglés (tal vez datos de Google Books) | 6,5% | 816 | 182 |
6 | Documentos web que no están en inglés (tal vez datos de Google Books) | 6,5% | 816 | 182 |
Total | 100,5% | 12.616 GB | 2822B |
* Wikipedia en inglés tiene aproximadamente 60 GB de texto sin comprimir en 2023. Las páginas de historial pueden tener más de 14 TB de texto sin comprimir adicional. No está claro cómo y por qué Google extrajo 1.500 GB en lugar de los 6-13 GB estándar de datos de texto de Wikipedia limpios y filtrados que utilizan la mayoría de los demás laboratorios de IA .
Conjunto de datos Google LaMDA 2/Bard.
Comparación del tamaño del conjunto de datos por interés:
Fecha | Modelo + recuento de parámetros | fichas |
---|---|---|
ene/2020 | Google Meena 2.6B (predecesor de LaMDA) | 61B/10B entrenado |
mayo/2020 | Open AI GPT-3 175B | 499/300B entrenado |
febrero/2022 | Google LaMDA 2 137B | 2.81T |
mar/2022 | DeepMind Chinchilla 70B | 2.35T/1.4T entrenado |
abr/2022 | Google Palm 540B | 780B/780B entrenado |
Comparación del tamaño del conjunto de datos entre LaMDA 2 y otros modelos actuales.
Acceso web
Al igual que Microsoft Bing Chat , Bard parece tener acceso web durante la inferencia. Del artículo de LaMDA 2:
[Para capacitación,] creamos un conjunto de herramientas (TS) que incluye un sistema de recuperación de información… TS toma una sola cadena como entrada y genera una lista de una o más cadenas. Cada herramienta en TS espera una cadena y devuelve una lista de cadenas… el sistema de recuperación de información puede tomar «¿Cuántos años tiene Rafael Nadal?» y generar [«Rafael Nadal / Edad / 35»]. Elsistema de recuperación de información también es capaz de devolver fragmentos de contenido de la web abierta, con sus correspondientes URL. El TS prueba una cadena de entrada en todas sus herramientas y produce una lista final de cadenas de salida concatenando las listas de salida de cada herramienta en el siguiente orden: calculadora, traductor y sistema de recuperación de información. Una herramienta devolverá una lista vacía de resultados si no puede analizar la entrada (por ejemplo, la calculadora no puede analizar «¿Cuántos años tiene Rafael Nadal?») y, por lo tanto, no contribuye a la lista de salida final…
Decidimos afinar nuestro modelo de lenguaje para proporcionar atribuciones para sus respuestas al buscar sus afirmaciones usando un conjunto de herramientas …
La interfaz del conjunto de herramientas utilizadas aquí es idéntica al servicio utilizado por el algoritmo en el momento de la inferencia . Dada una consulta de texto general, el sistema de recuperación de información devuelve un conjunto de fragmentos breves de solo texto en orden de clasificación. Los fragmentos de contenido web abierto incluyen direcciones URL para su fuente … Cuando el usuario ha terminado de ejecutar las consultas, tiene la oportunidad de reescribir la declaración del modelo para incluir afirmaciones bien fundamentadas. Si usaron contenido web abierto, les pedimos que citen las URL necesarias para respaldar cualquier respuesta que contenga información relacionada con el mundo externo. Las direcciones URL se pueden agregar al final del mensaje o, si el contexto lo justifica, se pueden adjuntar en línea a palabras específicas en la respuesta usando el formato Markdown.
Luego ajustamos LaMDA para realizar dos tareas… En el momento de la inferencia, la salida del modelo se dirige al sistema de recuperación de información o al usuario , dependiendo de si la primera cadena generada es ‘TS’ o ‘Usuario’.
La generación de consultas se basa completamente en el ajuste fino del modelo y no hay un componente heurístico. La salida del modelo determina el número de consultas ( el bucle de investigación continúa hasta que el modelo genera una salida dirigida al usuario ), pero imponemos un máximo en el momento de la inferencia para eliminar la posibilidad de un bucle infinito. El máximo es un parámetro del modelo de servicio. En el ejemplo actual, se establece en cuatro.
Disponibilidad
El modelo LaMDA está cerrado, con una disponibilidad muy limitada de salidas filtradas a través de AI Test Kitchen de Google. Google Bard estará disponible para los usuarios en el primer trimestre de 2023. Aún no hay más información disponible hasta mediados de febrero de 2023.