Dime lo que “tuiteas” y te diré si aprobarás en el colegio

Redacción

Ivan Smirnov, Investigador Principal del Laboratorio de Ciencias Sociales Computacionales del Instituto de Educación de la Universidad HSE, ha creado un modelo informático que puede distinguir a los que tienen un alto rendimiento académico de los que tienen un bajo rendimiento en función de sus publicaciones en los medios sociales.

 

El modelo de predicción utiliza un análisis textual matemático que registra el vocabulario de los usuarios (su alcance y los campos semánticos de los que se extraen los conceptos), los caracteres y símbolos, la longitud de los mensajes y la longitud de las palabras.

 

Cada palabra tiene su propia clasificación (una especie de coeficiente intelectual). Los temas científicos y culturales, las palabras inglesas y las palabras y posts de mayor longitud tienen una alta calificación y sirven como indicadores de un buen rendimiento académico. La abundancia de emojis, palabras o frases enteras escritas en mayúsculas, y el vocabulario relacionado con horóscopos, la conducción de vehículos y el servicio militar indican grados inferiores en la escuela. Al mismo tiempo, los mensajes pueden ser bastante cortos, de forma que incluso los tweetsson bastante informativos. El estudio fue apoyado por una subvención de la Fundación Rusa para la Ciencia (RSF), y se publicó un artículo detallando los resultados del estudio en la revista EPJ Data Science.

 

El estudio de Smirnov utilizó una muestra representativa de datos de un trabajo previo de la Universidad HSE. El estudio traza las trayectorias profesionales de 4.400 estudiantes de 42 regiones rusas de escuelas secundarias que participan en el PISA (Programa de Evaluación de Estudiantes Internacionales). Los datos también incluyen datos sobre las cuentas VK (Vkontakte, la red social más popular en Rusia) de los estudiantes (3.483 de los estudiantes participantes consintieron en proporcionar esta información).

“Como este tipo de datos, en combinación con los rastros digitales, es difícil de obtener, casi nunca se utiliza”, dice Smirnov. En cambio, este tipo de datos permite desarrollar un modelo fiable que puede ser aplicado a otros entornos. Y los resultados pueden ser extrapolados a todos los demás estudiantes, tanto de secundaria como de preparatoria.

 

[Img #62154]

 

Correlación de Pearson entre las características comunes del texto y el rendimiento académico. (Foto: I. Smirnov)

 

Los mensajes de las páginas VK que se pueden ver públicamente se usaron como muestra de entrenamiento: esto incluyó un total de 130.575 mensajes de 2.468 sujetos que tomaron el examen PISA en 2012. La prueba permitió al investigador evaluar la aptitud académica del estudiante, así como su capacidad para aplicar sus conocimientos en la práctica. El estudio solo incluyó mensajes VK públicamente visibles de los participantes que dieron su consentimiento.

 

Al desarrollar y probar el modelo de la prueba de PISA, solo se utilizaron las puntuaciones en lectura de los estudiantes como indicador de aptitud académica, aunque hay tres pruebas en total: lectura, matemáticas y ciencias. PISA define la aptitud para la lectura como “comprender, utilizar, reflexionar y comprometerse con los textos escritos para lograr sus objetivos, desarrollar su conocimiento y potencial y participar en la sociedad”. El examen tiene seis niveles de competencia. Se considera que los estudiantes que sacan un 2 cumplen solo el nivel básico, mínimo, mientras que los que sacan un 5 o 6 se consideran estudiantes fuertes.

En el estudio, se realizó un aprendizaje automático no supervisado con representaciones de vectores de palabras aparecidas en los mensajes de VK (un total de 1.900 millones de palabras, con 2,5 millones de palabras únicas). Luego se combinó con un modelo de aprendizaje automático supervisado más simple que se entrenó en posiciones individuales y se le enseñó a predecir los resultados del PISA.

 

“Representamos cada puesto como un vector de 300 dimensiones promediando sobre las representaciones vectoriales de todas sus palabras constituyentes”, escribe Smirnov. “Estas representaciones de los puestos se utilizaron para entrenar un modelo de regresión lineal para predecir los resultados del PISA de los autores de los mensajes”.

 

Por “predecir”, el investigador no se refiere a la predicción futura, sino más bien a la correlación entre los resultados calculados y las puntuaciones reales que los estudiantes obtuvieron en el examen PISA, así como sus puntuaciones USE (que están disponibles públicamente en línea en forma agregada, es decir, las puntuaciones medias por escuela). En la fase preliminar, el modelo aprendió a predecir los datos del PISA. En el modelo final, los cálculos se compararon con los resultados de USE de los graduados de la escuela secundaria y de los que ingresan a la universidad.

 

Se suponía que el modelo final debía ser capaz de reconocer de manera fiable si un estudiante fuerte o flojo había escrito un determinado post en medios sociales, o en otras palabras, diferenciarlos según su rendimiento académico. Después del período de entrenamiento, el modelo era capaz de distinguir los posts escritos por estudiantes que obtuvieron una puntuación alta o baja en el PISA (niveles 5-6 y niveles 0-1) con una precisión del 93,7%. En cuanto a la comparabilidad entre el PISA y la USE, aunque estas dos pruebas difieren, los estudios han demostrado que las puntuaciones de los estudiantes en las dos pruebas están fuertemente correlacionadas entre sí.

 

Pero ¿puede aplicarse el modelo a otros sitios de medios sociales? “He comprobado lo que pasaría si, en lugar de los posts en VK, le diéramos al modelo tweets escritos por los mismos usuarios”, dice Smirnov. “Resultó que la calidad del modelo no disminuye significativamente”. Pero como solo había un número suficiente de cuentas de twitter para el conjunto de datos de la universidad (2.836), el análisis se realizó solo en este conjunto.

 

Es importante que el modelo funcione con éxito en los conjuntos de datos de diferentes sitios de medios sociales, como VK y Twitter, demostrando así que puede ser eficaz en diferentes contextos. Esto significa que puede aplicarse ampliamente. Además, el modelo puede utilizarse para predecir características muy diferentes, desde el rendimiento académico de los estudiantes hasta los ingresos o la depresión.

Noticias

Síguenos en redes