¿Cuál es el estado actual de la investigación académica que aplica el aprendizaje automático y las matemáticas a las ciencias sociales?

Déjame hablar por economistas y otros pueden agregar perspectivas sobre otras ciencias sociales.

Las herramientas del aprendizaje automático solo están apareciendo en la economía. Sedhil Mullainathan, un economista brillante, recientemente dio la conferencia Hahn en las reuniones de la Royal Economic Society sobre el uso de big data y el aprendizaje automático (http://live.wavecast.co/res-annu…). Fue emocionante y controvertido y totalmente inesperado. Los economistas empíricos temen que se les inculque la minería de datos: “necesitas entender el mundo, no simplemente describirlo”, dice la oración que recitamos. Por lo tanto, damos mucha importancia al método científico (teorías falsificables; por lo tanto, a la formalización) y a la inferencia causal (de ahí el uso de ECA, variables instrumentales, etc.). La aplicación principal del aprendizaje automático es desarrollar mejores teorías iniciales para pruebas de validez futuras y externas. En lugar de reemplazar muchas de nuestras herramientas tradicionales, el aprendizaje automático puede ayudarnos a evitar serias deficiencias en teoría y complementar nuestro propio análisis empírico. Muchos científicos de la computación social, como Sandy Pentland, Sinan Aral, David Centola, David Lazer y otros, han demostrado cuán gratificantes pueden ser estos enfoques (http://www.ncbi.nlm.nih.gov/pmc/…).

Pero este trabajo es muy nuevo. Incluso el trabajo de Mullainathan (junto con el extraordinario Jon Kleinberg) aún no se ha publicado en el momento de escribir este artículo. Por lo tanto, es definitivamente un área de investigación en la que probablemente se hará mucho progreso en el futuro más cercano.

Edición: Kleinberg y Mullainathan han publicado un documento de trabajo: Página en cornell.edu. Echa un vistazo aquí: la página de inicio de Jon Kleinberg.

La tendencia actual a tener un impacto más amplio en las ciencias sociales es a través del aprendizaje automático automatizado. Debido a que las personas en ciencias sociales por lo general no tienen conocimientos sólidos de matemáticas, estadísticas o programación, el aprendizaje automático automatizado les permite utilizar el aprendizaje automático como una caja negra. Todo lo que hay que hacer es recopilar datos, y el aprendizaje automático automatizado generará modelos de aprendizaje automático de alta calidad para la predicción.

Este es un ejemplo del uso de aprendizaje automático automatizado para predecir el rendimiento de los estudiantes en la escuela. Los datos son realmente datos del mundo real de las escuelas portuguesas. En realidad, es bastante sencillo de usar. Espero que esto responda a su pregunta.

El enlace original al tutorial es desde aquí:

Uso del aprendizaje automático de máquinas para predecir el rendimiento de los estudiantes


En este tutorial, le mostraremos cómo utilizar técnicas de aprendizaje automático para resolver problemas de ciencia de datos en el mundo real. Más específicamente, prediciendo el rendimiento del alumno. Aprovechamos la técnica de automatización de aprendizaje automático de última generación, Wuttoo (Automated Machine Learning), para lograr este objetivo sin experiencia en aprendizaje automático y programación.

Problema

Aunque el nivel educativo de la población portuguesa ha mejorado en las últimas décadas, las estadísticas mantienen a Portugal al final de Europa debido a sus altas tasas de fracaso estudiantil. En particular, la falta de éxito en las clases básicas de Matemáticas y la lengua portuguesa es extremadamente grave. Es deseable conocer el logro final de la probabilidad de los estudiantes en una etapa temprana de la escuela y generar un plan educativo específico para cada estudiante para mejorar su rendimiento antes de que sea demasiado tarde. Por lo tanto, el objetivo es crear un modelo de aprendizaje automático que pueda predecir el rendimiento de los estudiantes basándose en datos históricos. Dado que podemos representar el desempeño de los estudiantes en base a una puntuación de 0 a 20, formulamos el problema como un problema de regresión.

Pasos

Usaremos el aprendizaje automático para modelar el desempeño de los estudiantes como un problema de regresión. Los datos se recogen en base a estudiantes de Portugal [1]. Primero seleccionamos características (también llamadas atributos) que determinan qué datos queremos recopilar para el modelado. Luego enviamos los datos recopilados a Wuttoo, que generará automáticamente un modelo óptimo de aprendizaje automático para la predicción.

Selección de características y recopilación de datos

El primer paso es encontrar características deseables que se consideren relevantes para el desempeño de los estudiantes. Aquí se necesitan conocimientos de dominio en educación. Las siguientes 30 características están seleccionadas en este problema:

  1. escuela – escuela de estudiantes (binario: ‘GP’ – Gabriel Pereira o ‘MS’ – Mousinho da Silveira)
  2. sexo – sexo del estudiante (binario: ‘F’ – femenino o ‘M’ – masculino)
  3. edad – edad del estudiante (numérico: de 15 a 22)
  4. dirección – tipo de domicilio del estudiante (binario: ‘U’ – urbano o ‘R’ – rural)
  5. famsize – tamaño de la familia (binario: ‘LE3’ – menor o igual a 3 o ‘GT3’ – mayor que 3)
  6. Pstatus – estado de convivencia de los padres (binario: ‘T’ – viviendo juntos o ‘A’ – aparte)
  7. Medu – educación de la madre (numérica: 0 – ninguna, 1 – educación primaria (4º grado), 2 – 5º a 9º grado, 3 – educación secundaria o 4 – educación superior)
  8. Fedu – educación del padre (numérico: 0 – ninguno, 1 – educación primaria (4º grado), 2 – 5º a 9º grado, 3 – educación secundaria o 4 – educación superior)
  9. Mjob – trabajo de la madre (nominal: ‘maestro’, ‘salud’ relacionado con el cuidado, civil ‘servicios’ (por ejemplo, administrativo o policial), ‘at_home’ u ‘otro’)
  10. Fjob: trabajo del padre (nominal: ‘maestro’, ‘salud’ relacionado con el cuidado, civil ‘servicios’ (por ejemplo, administrativo o policial), ‘at_home’ u ‘otro’)
  11. razón – razón para elegir esta escuela (nominal: cerca de ‘casa’, ‘reputación’ de la escuela, preferencia de ‘curso’ u ‘otra’)
  12. tutor – tutor del estudiante (nominal: ‘madre’, ‘padre’ u ‘otro’)
  13. tiempo de viaje: tiempo de viaje de la casa a la escuela (numérico: 1 – <15 min., 2 - 15 a 30 min., 3 - 30 min. a 1 hora, o 4 -> 1 hora)
  14. tiempo de estudio – tiempo de estudio semanal (numérico: 1 – <2 horas, 2 - 2 a 5 horas, 3 - 5 a 10 horas, o 4 -> 10 horas)
  15. fallas: número de fallas de clases pasadas (numérico: n si 1 <= n <3, si no 4)
  16. schoolsup – apoyo extra educativo (binario: sí o no)
  17. famsup – apoyo educativo familiar (binario: sí o no)
  18. pagado – clases extra pagadas dentro de la materia del curso (matemáticas o portugués) (binario: sí o no)
  19. actividades – actividades extracurriculares (binario: sí o no)
  20. guardería – guardería asistida (binario: sí o no)
  21. superior – quiere tomar educación superior (binario: sí o no)
  22. Internet: acceso a Internet en casa (binario: sí o no)
  23. romántico – con una relación romántica (binario: sí o no)
  24. famrel – calidad de las relaciones familiares (numérico: de 1 – muy malo a 5 – excelente)
  25. tiempo libre – tiempo libre después de la escuela (numérico: de 1 – muy bajo a 5 – muy alto)
  26. goout – salir con amigos (numérico: de 1 – muy bajo a 5 – muy alto)
  27. Dalc – consumo de alcohol en la jornada laboral (numérico: de 1 – muy bajo a 5 – muy alto)
  28. Walc – consumo de alcohol durante el fin de semana (numérico: de 1 – muy bajo a 5 – muy alto)
  29. salud – estado de salud actual (numérico: de 1 – muy malo a 5 – muy bueno)
  30. Ausencias – Número de ausencias escolares (numéricas: de 0 a 93)

Una vez que se eligen las características, estamos listos para recopilar datos. Por lo general, se necesitan al menos 25 filas de datos para el modelado para que sean estadísticamente significativos. En general, cuantas más filas tenga el bateador. Tenemos 395 filas de datos y las almacenamos en un archivo .csv, que se muestra en la siguiente captura de pantalla. Los datos se pueden encontrar en la estera del estudiante [1].

En el archivo .csv, las filas están separadas por un salto de línea, y cada campo está separado por “,”. El objetivo de predicción, que es el rendimiento del alumno, está etiquetado como “clase” en el atributo, como se muestra en la siguiente captura de pantalla. Se debe seguir este formato para que Wuttoo procese los datos.

Modelado

Hay dos opciones para este problema: (1) Modelado instantáneo y (2) Modelado integral. Si bien el modelado instantáneo es rápido y gratuito, el modelado integral toma más tiempo en el modelado pero proporciona modelos de mejor calidad.

Primero intentamos el modelado instantáneo. El archivo .csv debe cargarse para iniciar una tarea de modelado instantáneo . Inicie sesión en Wuttoo, en el panel de tareas, haga clic en ” Agregar una tarea de modelado instantáneo ” en el panel de control. Por favor, consulte la captura de pantalla a continuación.

Después de cargar el archivo .csv en la tarea de modelado instantáneo , espere hasta que finalice el modelado (generalmente en unos minutos). El resultado que obtenemos se muestra en la siguiente captura de pantalla:

Como se muestra, el modelado instantáneo con las características actuales seleccionadas y los datos recopilados le permite a Wuttoo obtener un modelo con un error cuadrático medio de 19.46 y un error absoluto promedio de 3.23. Mientras que Mean Squared Error es un poco más difícil de visualizar, Mean Absolute Error es relativamente intuitivo . Lo que significa es que para la predicción futura utilizando el modelo, esperamos una diferencia de predicción promedio de 3.23 con respecto al rendimiento real del estudiante. Por ejemplo, si un estudiante tendrá un rendimiento de 15, el modelo puede predecirlo entre 15 +/- 3.23. El rendimiento del alumno, como se mencionó, varía de 0 a 20.

Mejora de la precisión

Si queremos obtener un modelo más preciso utilizando las funciones actuales seleccionadas y los datos recopilados, necesitamos pasar al modelado integral. Para agregar una tarea de modelado integral , inicie sesión en Wuttoo y seleccione ” Agregar una tarea de modelado integral ” en el panel de tareas (consulte la captura de pantalla a continuación).

La siguiente captura de pantalla muestra el progreso de la capacitación en Modelado integral . Hay una pequeña cantidad de tarifa por hora cobrada por Wuttoo en Modelado integral. Podemos terminar el proceso de capacitación en cualquier momento en función del progreso.

Como se ve, después de 6 horas de entrenamiento, observamos que el error cuadrático medio converge a alrededor de 12, mejorado de 19.64 en el modelado instantáneo .

Predicción

Una vez que obtenemos el modelo (ya sea de Instant Modeling o Comprehensive Modeling ), podemos usarlo para la predicción. Vaya a la tarea que acabamos de utilizar para crear nuestro modelo, luego haga clic en “Predicción en línea”. Luego pegue una fila de datos para la predicción. Tenga en cuenta que la fila de los datos debe conservar el orden de las funciones utilizadas en la capacitación. Ese es el orden en que cada atributo debe seguir al de nuestro archivo .csv. El atributo “clase” debe eliminarse ya que esto es lo que vamos a predecir. Wuttoo predecirá automáticamente el rendimiento de los estudiantes en función de la fila de datos ingresada aquí. Wuttoo también proporciona la API REST para la predicción, lo cubriremos más adelante en nuestro tema avanzado.

Referencia:

[1] P. Cortez y A. Silva. Uso de la minería de datos para predecir el rendimiento de los estudiantes de secundaria. En A. Brito y J. Teixeira Eds., Actas de la 5ta Conferencia de TECnología de FUture BUsiness (FUBUTEC 2008) págs. 5-12, Oporto, Portugal, abril de 2008, EUROSIS, ISBN 978-9077381-39-7.

Esa es una pregunta de doble cañón. Las matemáticas se han utilizado en las ciencias sociales durante mucho tiempo. El trabajo serio realizado por un número de personas con talento matemático ha continuado durante el tiempo que ha habido ciencias sociales, que se remontan a Daniel Bernoulli en 1738 y John Graunt, el fundador de la ciencia actuarial, en el siglo XVII. En el siglo XIX, figuras como Adolphe Quetelet y Francis Galton comenzaron a recopilar muchos datos altamente descriptivos junto con algunos estudios en su mayoría descriptivos, mientras que varias personas, como CS Pearce y Gustav Fechner, sentaron las bases de la experimentación.

Muchas de las ciencias sociales de principios a mediados del siglo XX, en los días de la “gran teorización”, tenían grandes aspiraciones en el mismo sentido que la física, pero sin el rigor matemático y la conexión profunda entre la experimentación y la teorización que caracteriza a la física. (Piensa en Freud o en Sorokin). Eso se ha ido en su mayor parte, pero no puedes dar sentido a áreas como la economía sin muchas matemáticas. Otras ciencias sociales no son tan matemáticas en el nivel teórico como la economía, pero el análisis estadístico que se realiza puede ser bastante complicado. En general, el nivel de matemáticas esperado de los estudiantes graduados está aumentando.

El aprendizaje automático es quizás una historia diferente. No considero que el NM sea algo especialmente novedoso en ese sentido, por lo que también las ciencias sociales y del comportamiento han impulsado las cosas. Las necesidades de procesamiento de datos en el Censo de 1890 llevaron a la fundación de IBM, por ejemplo. A finales del siglo XIX y principios del siglo XX, junto con los grandes teóricos, hubo algunos desarrollos realmente importantes que surgieron en gran parte de las ciencias sociales que proporcionan la base para los métodos de LD.

  • La invención de Gustav Fechner de la regresión binaria (1867)
  • La invención de Yule del análisis de regresión múltiple en 1897, seguida por la invención de Pearson de Análisis de componentes principales (1898), seguida rápidamente por la invención de Spearman de Análisis de factor (1904) y los refinamientos de Thurstone (1920).
  • Escalamiento multidimensional, que comenzó principalmente como un método para analizar similitudes de color en la teoría de la tricromacia, como lo estudian figuras como Newton y Helmholtz. El método matemático principal fue presentado por primera vez en un artículo de Psicardrika por Eckard y Young en 1936, y se elaboró ​​mucho desde entonces. Fue abandonado en gran parte por personas de la psicología a finales de los 70, pero desde entonces ha sido recogido por los quimiométricos.
  • La distancia de Mahalanobis como una generalización de la distancia euclidiana para la clasificación en un problema antropológico (década de 1930) utilizando los resultados de la relatividad general.
  • Los mínimos cuadrados parciales fueron inventados por Herman Wold, un economista, y su hijo Svante, un químico.
  • Los métodos de Flinders Petrie para la separación en arqueología, que son la base de métodos como el análisis de correspondencia, que en sí mismo es un método de MDS métrico.
  • La formulación de Paul Lazarsfeld del Análisis de clase latente (1950) como parte del proyecto American Soldier. El análisis de conglomerados también ha sido muy contribuido y utilizado por los científicos sociales. Algunos de los grandes nombres en el campo incluyen a Larry Hubert (uno de mis profesores de posgrado), Jacqueline Meulman y Willem Heiser.
  • Grandes cantidades de trabajo de estadísticas para conjuntos de datos bastante grandes se realizaron por primera vez para analizar las pruebas de rendimiento como lugares como ETS, que tenía una conexión cercana con los Laboratorios Bell y el departamento de estadísticas de Princeton y las EEI en los puntos altos de todos los lugares.

En resumen, no veo que el aprendizaje automático sea algo revolucionario, al menos en términos matemáticos, aunque el hecho de que la informática sea tan barata ahora puede potencialmente cambiar las cosas, suponiendo que la calidad de los datos pueda mantenerse alta.

Dicho esto, el aprendizaje automático moderno tardará un tiempo en abrirse camino en las ciencias sociales. Parte de esto es tradición, pero gran parte de esto es que las aplicaciones de ML en áreas como transacciones en línea, motores de recomendación y detección de fraudes son comparativamente sencillas. Realmente no necesitas tener una explicación de nada, solo un conjunto de regularidades predecibles para explotar. Además, los datos son casi ilimitados y en algunos sentidos son buenos, aunque aún están sujetos a cantidades masivas de sesgo de selección.