FAQs: ¿Cómo entreno mi propio ChatGPT o GPT-3?

Quiero ejecutar ChatGPT localmente. ¿Cómo entreno mi propio ChatGPT o GPT-3? ¿Me puedes explicar en términos sencillos cómo podemos hacerlo?

Claro que si, faltaria mas. Es realmente muy fácil. Para llegar a los estándares del modelo davinci GPT-3 175B (y superiores), necesitará lo siguiente:

Hardware de entrenamiento: acceso a una supercomputadora con aproximadamente 10 000 GPU y aproximadamente 285 000 núcleos de CPU . Si no puedes comprarlo, podrías hacer lo que hizo OpenAI con Microsoft, gastando sus mil millones de dólares (USD) para alquilarlo.
Dotación de personal: para la capacitación, necesitará acceso a científicos de datos con nivel de doctorado más inteligentes del mundo. OpenAI le pagó a su científico jefe, Ilya Sutskever, $1.9 millones de dólares por año (USD) en 2016, y tienen un equipo de 120 personas. Un presupuesto >$200 millones para dotar de personal el primer año, estaría bien.
Tiempo (recopilación de datos): EleutherIA tardó entre 12 y 18 meses planificar, recopilar, limpiar y preparar los datos para Pile . Pile tiene solo ~ 400B tokens, debes encontrar alguna manera datos de calidad como «The Pile» y aumentarlos al menos cuatro veces para incluso hacer algo similar al nuevo estándar de eficiencia, DeepMind’s Chinchilla 70B (1400B tokens), y es posible que venga bién unos pocos TB para superar a GPT-3.
Tiempo (entrenamiento): Un modelo de este tipo llevará entre 9 y 12 meses de entrenamiento, y eso si todo sale a la perfección. Es posible que debas ejecutarlo varias veces y que debas entrenar varios modelos en paralelo. Las cosas salen mal y pueden estropear completamente los resultados (consulte el documento GPT-3 , el GLM-130B de China y el libro de registro OPT-175B de Meta AI ).
Inferencia: Computadoras bastante robustas, además de recursos de personal de DevOps, pero esta es la menor de sus preocupaciones. ¡Buena suerte!

¿ChatGPT está aprendiendo de nosotros? ¿Es sensible?

En Absoluto, ningún modelo de lenguaje a la fecha es sensible/consciente. Estos modelos se deben considerar solo como predictores de texto muy, muy buenos. Este tipos de modelos de IA se entrenan para predecir la siguiente palabra o símbolo, y eso es todo. Actualmente los modelos de IA son completamente estáticos y no tienen pensamiento ni conciencia.

¿ChatGPT está copiando datos?

No, GPT no está copiando datos.  Está utilizando mucha información eso es cierto, alguna con más de 2 siglos de antigüedad y ciertamente ChatGPT ha realizado conexiones entre miles de millones de palabras. Estas conexiones se mantienen y los datos originales se descartan. Lo explica muy bien el Dr. Alan Thomson (creador original de esta FAQ) en este video ‘IA para humanos’ para ver en profundidad cómo se entrena GPT-3 en datos .

Deja un comentario