La tendencia actual a tener un impacto más amplio en las ciencias sociales es a través del aprendizaje automático automatizado. Debido a que las personas en ciencias sociales por lo general no tienen conocimientos sólidos de matemáticas, estadísticas o programación, el aprendizaje automático automatizado les permite utilizar el aprendizaje automático como una caja negra. Todo lo que hay que hacer es recopilar datos, y el aprendizaje automático automatizado generará modelos de aprendizaje automático de alta calidad para la predicción.
Este es un ejemplo del uso de aprendizaje automático automatizado para predecir el rendimiento de los estudiantes en la escuela. Los datos son realmente datos del mundo real de las escuelas portuguesas. En realidad, es bastante sencillo de usar. Espero que esto responda a su pregunta.
El enlace original al tutorial es desde aquí:
Uso del aprendizaje automático de máquinas para predecir el rendimiento de los estudiantes
En este tutorial, le mostraremos cómo utilizar técnicas de aprendizaje automático para resolver problemas de ciencia de datos en el mundo real. Más específicamente, prediciendo el rendimiento del alumno. Aprovechamos la técnica de automatización de aprendizaje automático de última generación, Wuttoo (Automated Machine Learning), para lograr este objetivo sin experiencia en aprendizaje automático y programación.
Problema
Aunque el nivel educativo de la población portuguesa ha mejorado en las últimas décadas, las estadísticas mantienen a Portugal al final de Europa debido a sus altas tasas de fracaso estudiantil. En particular, la falta de éxito en las clases básicas de Matemáticas y la lengua portuguesa es extremadamente grave. Es deseable conocer el logro final de la probabilidad de los estudiantes en una etapa temprana de la escuela y generar un plan educativo específico para cada estudiante para mejorar su rendimiento antes de que sea demasiado tarde. Por lo tanto, el objetivo es crear un modelo de aprendizaje automático que pueda predecir el rendimiento de los estudiantes basándose en datos históricos. Dado que podemos representar el desempeño de los estudiantes en base a una puntuación de 0 a 20, formulamos el problema como un problema de regresión.
Pasos
Usaremos el aprendizaje automático para modelar el desempeño de los estudiantes como un problema de regresión. Los datos se recogen en base a estudiantes de Portugal [1]. Primero seleccionamos características (también llamadas atributos) que determinan qué datos queremos recopilar para el modelado. Luego enviamos los datos recopilados a Wuttoo, que generará automáticamente un modelo óptimo de aprendizaje automático para la predicción.
Selección de características y recopilación de datos
El primer paso es encontrar características deseables que se consideren relevantes para el desempeño de los estudiantes. Aquí se necesitan conocimientos de dominio en educación. Las siguientes 30 características están seleccionadas en este problema:
- escuela – escuela de estudiantes (binario: ‘GP’ – Gabriel Pereira o ‘MS’ – Mousinho da Silveira)
- sexo – sexo del estudiante (binario: ‘F’ – femenino o ‘M’ – masculino)
- edad – edad del estudiante (numérico: de 15 a 22)
- dirección – tipo de domicilio del estudiante (binario: ‘U’ – urbano o ‘R’ – rural)
- famsize – tamaño de la familia (binario: ‘LE3’ – menor o igual a 3 o ‘GT3’ – mayor que 3)
- Pstatus – estado de convivencia de los padres (binario: ‘T’ – viviendo juntos o ‘A’ – aparte)
- Medu – educación de la madre (numérica: 0 – ninguna, 1 – educación primaria (4º grado), 2 – 5º a 9º grado, 3 – educación secundaria o 4 – educación superior)
- Fedu – educación del padre (numérico: 0 – ninguno, 1 – educación primaria (4º grado), 2 – 5º a 9º grado, 3 – educación secundaria o 4 – educación superior)
- Mjob – trabajo de la madre (nominal: ‘maestro’, ‘salud’ relacionado con el cuidado, civil ‘servicios’ (por ejemplo, administrativo o policial), ‘at_home’ u ‘otro’)
- Fjob: trabajo del padre (nominal: ‘maestro’, ‘salud’ relacionado con el cuidado, civil ‘servicios’ (por ejemplo, administrativo o policial), ‘at_home’ u ‘otro’)
- razón – razón para elegir esta escuela (nominal: cerca de ‘casa’, ‘reputación’ de la escuela, preferencia de ‘curso’ u ‘otra’)
- tutor – tutor del estudiante (nominal: ‘madre’, ‘padre’ u ‘otro’)
- tiempo de viaje: tiempo de viaje de la casa a la escuela (numérico: 1 – <15 min., 2 - 15 a 30 min., 3 - 30 min. a 1 hora, o 4 -> 1 hora)
- tiempo de estudio – tiempo de estudio semanal (numérico: 1 – <2 horas, 2 - 2 a 5 horas, 3 - 5 a 10 horas, o 4 -> 10 horas)
- fallas: número de fallas de clases pasadas (numérico: n si 1 <= n <3, si no 4)
- schoolsup – apoyo extra educativo (binario: sí o no)
- famsup – apoyo educativo familiar (binario: sí o no)
- pagado – clases extra pagadas dentro de la materia del curso (matemáticas o portugués) (binario: sí o no)
- actividades – actividades extracurriculares (binario: sí o no)
- guardería – guardería asistida (binario: sí o no)
- superior – quiere tomar educación superior (binario: sí o no)
- Internet: acceso a Internet en casa (binario: sí o no)
- romántico – con una relación romántica (binario: sí o no)
- famrel – calidad de las relaciones familiares (numérico: de 1 – muy malo a 5 – excelente)
- tiempo libre – tiempo libre después de la escuela (numérico: de 1 – muy bajo a 5 – muy alto)
- goout – salir con amigos (numérico: de 1 – muy bajo a 5 – muy alto)
- Dalc – consumo de alcohol en la jornada laboral (numérico: de 1 – muy bajo a 5 – muy alto)
- Walc – consumo de alcohol durante el fin de semana (numérico: de 1 – muy bajo a 5 – muy alto)
- salud – estado de salud actual (numérico: de 1 – muy malo a 5 – muy bueno)
- Ausencias – Número de ausencias escolares (numéricas: de 0 a 93)
Una vez que se eligen las características, estamos listos para recopilar datos. Por lo general, se necesitan al menos 25 filas de datos para el modelado para que sean estadísticamente significativos. En general, cuantas más filas tenga el bateador. Tenemos 395 filas de datos y las almacenamos en un archivo .csv, que se muestra en la siguiente captura de pantalla. Los datos se pueden encontrar en la estera del estudiante [1].

En el archivo .csv, las filas están separadas por un salto de línea, y cada campo está separado por “,”. El objetivo de predicción, que es el rendimiento del alumno, está etiquetado como “clase” en el atributo, como se muestra en la siguiente captura de pantalla. Se debe seguir este formato para que Wuttoo procese los datos.

Modelado
Hay dos opciones para este problema: (1) Modelado instantáneo y (2) Modelado integral. Si bien el modelado instantáneo es rápido y gratuito, el modelado integral toma más tiempo en el modelado pero proporciona modelos de mejor calidad.
Primero intentamos el modelado instantáneo. El archivo .csv debe cargarse para iniciar una tarea de modelado instantáneo . Inicie sesión en Wuttoo, en el panel de tareas, haga clic en ” Agregar una tarea de modelado instantáneo ” en el panel de control. Por favor, consulte la captura de pantalla a continuación.

Después de cargar el archivo .csv en la tarea de modelado instantáneo , espere hasta que finalice el modelado (generalmente en unos minutos). El resultado que obtenemos se muestra en la siguiente captura de pantalla:

Como se muestra, el modelado instantáneo con las características actuales seleccionadas y los datos recopilados le permite a Wuttoo obtener un modelo con un error cuadrático medio de 19.46 y un error absoluto promedio de 3.23. Mientras que Mean Squared Error es un poco más difícil de visualizar, Mean Absolute Error es relativamente intuitivo . Lo que significa es que para la predicción futura utilizando el modelo, esperamos una diferencia de predicción promedio de 3.23 con respecto al rendimiento real del estudiante. Por ejemplo, si un estudiante tendrá un rendimiento de 15, el modelo puede predecirlo entre 15 +/- 3.23. El rendimiento del alumno, como se mencionó, varía de 0 a 20.
Mejora de la precisión
Si queremos obtener un modelo más preciso utilizando las funciones actuales seleccionadas y los datos recopilados, necesitamos pasar al modelado integral. Para agregar una tarea de modelado integral , inicie sesión en Wuttoo y seleccione ” Agregar una tarea de modelado integral ” en el panel de tareas (consulte la captura de pantalla a continuación).

La siguiente captura de pantalla muestra el progreso de la capacitación en Modelado integral . Hay una pequeña cantidad de tarifa por hora cobrada por Wuttoo en Modelado integral. Podemos terminar el proceso de capacitación en cualquier momento en función del progreso.

Como se ve, después de 6 horas de entrenamiento, observamos que el error cuadrático medio converge a alrededor de 12, mejorado de 19.64 en el modelado instantáneo .
Predicción
Una vez que obtenemos el modelo (ya sea de Instant Modeling o Comprehensive Modeling ), podemos usarlo para la predicción. Vaya a la tarea que acabamos de utilizar para crear nuestro modelo, luego haga clic en “Predicción en línea”. Luego pegue una fila de datos para la predicción. Tenga en cuenta que la fila de los datos debe conservar el orden de las funciones utilizadas en la capacitación. Ese es el orden en que cada atributo debe seguir al de nuestro archivo .csv. El atributo “clase” debe eliminarse ya que esto es lo que vamos a predecir. Wuttoo predecirá automáticamente el rendimiento de los estudiantes en función de la fila de datos ingresada aquí. Wuttoo también proporciona la API REST para la predicción, lo cubriremos más adelante en nuestro tema avanzado.
Referencia:
[1] P. Cortez y A. Silva. Uso de la minería de datos para predecir el rendimiento de los estudiantes de secundaria. En A. Brito y J. Teixeira Eds., Actas de la 5ta Conferencia de TECnología de FUture BUsiness (FUBUTEC 2008) págs. 5-12, Oporto, Portugal, abril de 2008, EUROSIS, ISBN 978-9077381-39-7.