TensorFlow Decision Forests ( TF-DF ) es una biblioteca para entrenar, ejecutar e interpretar modelos árboles de decisión (p. ej., Random Forests, Gradient Boost Trees) en TensorFlow. TF-DF admite clasificación, regresión, clasificación y mejora.
¿ Qué son los TensorFlow Decision Forests ?
Los TensorFlow Decision Forests son un tipo de modelo de aprendizaje automático que se basa en el concepto de un bosque de árboles de decisiones. En general, un bosque de árboles de decisiones es un conjunto de árboles de decisiones que trabajan juntos para hacer predicciones.
Cada árbol en el bosque se construye utilizando un subconjunto diferente de los datos de entrada, lo que permite que cada árbol pueda aprender de forma ligeramente diferente. Cuando se hace una predicción, cada árbol en el bosque emite una predicción y el resultado final se determina mediante una votación entre todos los árboles.
Los TF-DF se basan en este mismo principio,y utilizan la biblioteca de código abierto TensorFlow diseñada para facilitar el desarrollo y la implementación de modelos de aprendizaje automático, por lo que utilizar TensorFlow para construir un bosque de árboles de decisiones puede ser una buena manera de aprovechar esta herramienta para mejorar el rendimiento del modelo.
Un ejemplo Sencillo
Supongamos que queremos hacer un modelo que nos ayude a determinar si una persona tiene diabetes o no en función de ciertos factores como la edad, el peso y el índice de masa corporal (IMC). Para hacer esto, podríamos construir un bosque de árboles de decisiones utilizando TensorFlow.
Primero, necesitamos recopilar datos de personas que ya han sido diagnosticadas con diabetes, junto con información sobre sus edades, pesos y IMCs. Luego, usamos estos datos para entrenar el modelo. Durante el entrenamiento, el modelo construiría varios árboles de decisiones utilizando diferentes subconjuntos de los datos de entrada. Cada árbol se construiría de tal manera que pudiera hacer predicciones precisas sobre si una persona tiene diabetes o no en función de su edad, peso y IMC.
Una vez que el modelo esté entrenado, podríamos utilizarlo para hacer predicciones sobre personas que no hayan sido diagnosticadas con diabetes. Para hacer una predicción, simplemente ingresaríamos la edad, el peso y el IMC de la persona en cuestión en el modelo y este nos devolvería una predicción sobre si la persona tiene diabetes o no. La predicción final se determinaría mediante una votación entre todos los árboles del bosque.
Los bosques de decisión son muy eficaces cuando tienes un conjunto de datos tabular (datos que puedes representar en una hoja de cálculo, un archivo CSV o una tabla de base de datos). Los datos tabulares son uno de los formatos de datos más comunes, y los bosques de decisión deben ser tu solución preferida para modelarlos. Para Google Sheet TensorFlow ha lanzado una herramienta, llamada Simple ML for Sheets.
Simple ML for Sheets
Simple ML es un complemento para Google Sheets con capacidades de ML estructuradas en tareas : las tareas para principiantes son capacidades de ML altamente automatizadas que no requieren que los usuarios conozcan ML. Tales tareas son adecuadas para todos. Por ejemplo, puede predecir valores faltantes o detectar valores anormales sin tener que preocuparse de cómo hacerlo.
Simple ML también es útil para los expertos en ML que desean iterar o crear prototipos rápidamente en conjuntos de datos tabulares pequeños (por ejemplo, <1 millón de ejemplos). Simple ML ofrece capacidades clásicas como entrenamiento , evaluación , ejecución o análisis de un modelo. Los usuarios pueden exportar un modelo a TensorFlow, a Colab, a TF Serving o simplemente llamar al modelo en C++, Go y JavaScript. El entrenamiento generalmente toma sólo unos segundos. Esto es espectacular para iteraciones rápidas.
Añadiré algún ejemplo , mientras tanto puedes revisar su tutorial aquí: https://simplemlforsheets.com/tutorial.html