¿Cómo puede un científico de datos ser mejor en la disputa de datos?

Nunca estoy seguro de si debo responder preguntas técnicas para “científicos de datos con experiencia”. Mi opinión sobre esto es sobre lo que hago para mejorar las habilidades de los miembros de mi equipo, incluidas las mías. La diferencia está en el contexto y la perspectiva, pero espero que pueda incorporar esto en sus rutinas diarias.

Mi opinión sobre la discusión de datos es que no hay una solución preestablecida. Cada producto de datos tiene un conjunto de datos donde se desempeñará mejor. La negociación de datos es el medio para alcanzar ese conjunto de datos. El problema es que el conjunto de datos es desconocido.

La primera parte es la adquisición de datos . Como veo, la adquisición de datos es una gran parte de la disputa de datos y para mí es el enlace faltante en muchos MOOC donde los conjuntos de datos ya están disponibles. Dependiendo de su contexto, puede tener una hasta docenas de fuentes de datos. Múltiples fuentes de datos de múltiples formatos es el peor escenario al que se enfrenta un científico de datos cuando se trata de la adquisición de datos.

Las habilidades aquí varían entre las fuentes de datos y los formatos. A veces es simple SQL, otras es MapReduce. Muy a menudo es la tubería de datos completa. Aprenderlos ocurre a lo largo del tiempo, proyecto por proyecto.

Para mejorar el conocimiento y la experiencia a propósito, aliento a:

  • Que cada adquisición de datos de productos de datos se tome tan en serio como los modelos de construcción. Esto significa que espero que el rendimiento de la consulta, el procedimiento o el flujo de datos se mida y se tenga en cuenta para el producto de datos final.
  • Analistas y científicos para discutir soluciones con ingenieros de datos. En Miniclip solo los ingenieros de datos se ocupan de las líneas de datos, por lo que este es un esfuerzo de varios equipos. En las compañías donde los científicos de datos también hacen pipelines, un sistema de amigos, ya sea en equipo o por proyecto, tal vez sea una gran solución. Tenemos un sistema de amigos en funcionamiento, más sobre esto a continuación. Pero no elimina la comunicación con los ingenieros de datos.
  • Que nuevos métodos y tecnologías sean considerados y probados. Esto mejora nuestro propio conocimiento interno sobre cosas que no hemos probado y, a veces, sucede algo grandioso. Aunque no a menudo, solo a veces. 🙂 Pero al menos aprendemos algo nuevo.

La segunda parte es la ingeniería de características . Incluyo la exploración de datos y la limpieza aquí, pero estos dos están algo cubiertos por la experiencia de la mayoría de los puestos junior. Entonces, lo que queda es cómo interactúan los datos con el modelo.

Las habilidades nunca terminan. Escucho cosas en podcasts que nunca escuché cada dos semanas. Para agregar a eso hay diferentes maneras de lograr el mismo objetivo. Entonces, la mejora se trata de aprender cosas nuevas y desafiar las ya conocidas.

Para mejorar el conocimiento y la experiencia a propósito, aliento a:

  • ¡Aprendizaje! Todos los miembros de mi equipo tienen a su disposición el 20% de su tiempo de trabajo para utilizarlo como lo deseen. Si bien no digo explícitamente que el objetivo es la ingeniería de características, el aprendizaje, el intento y la investigación a menudo se agregan a la ingeniería de características. Mi mayor salto fue con las reglas de asociación, por ejemplo.
  • Compartiendo Todos los miembros de mi equipo presentarán dos cosas nuevas por año al resto del equipo. Esto es parte de sus objetivos. La consecuencia es la difusión del conocimiento, a menudo relacionado con el punto anterior.
  • Revisiones de código. Cada pieza de análisis, cada producto de datos es revisado por pares. No puedo enfatizar cuánto ha mejorado todo esto, incluida la disputa de datos.
  • Sistema de amigos. Todos los miembros del equipo tienen un amigo con quien discuten lo que quieran. Lo que hay que tener en cuenta es que los amigos aceleran la mejora, pero en lo que respecta al aprendizaje, es relativamente rápido.

Para terminar, lo que importa es que su disputa de datos sea objetiva y que sus mejoras tengan un propósito. Esto es muy difícil de adquirir sin problemas reales y datos reales.

  1. Aprender de los mejores

Experfy es un mercado de consultoría de big data basado en el Laboratorio de Innovación de Harvard. TechCrunch llama a Experfy un “McKinsey en la nube para la consultoría de big data” y Datanami lo llama el “Uber de los proyectos de big data”. Con más de 25,000 expertos en datos, Experfy es ahora el mayor mercado de consultoría de Big Data e IoT del mundo.

Además, Experfy ha lanzado recientemente una plataforma de capacitación en colaboración con líderes de la industria de Harvard, Amazon, Apple y otras compañías líderes. Se ha lanzado con 40 cursos y tiene otros 100 en trámite que agregaremos en los próximos meses.

Hay muchos cursos sobre la gestión de datos y recomiendo altamente este certificado:

Manipulación de datos en R

Este curso le enseñará de principio a fin cómo convertir sus datos en R de manera eficiente y pulirlos para que sean lo mejor posible. Esto le permitirá a usted o a su equipo enfocarse después de este paso en el modelado estadístico, la visualización, los informes, el intercambio o cualquier otra tarea de postprocesamiento que desee realizar. La confianza, la confiabilidad y la reproducibilidad en la adquisición y preparación de sus datos son la base para poder maximizar el valor de sus datos.

2. La práctica hace la perfección.

Buena suerte en el estudio.

  1. Práctica
  2. Práctica
  3. Práctica
  4. Guarde las técnicas en un lugar al que pueda acceder rápidamente desde cualquier lugar, como Dropbox o Evernote. Cada vez que aprendo una nueva técnica de R o Python que creo que volveré a usar, pero no tan pronto como para no olvidarla, la guardo en Dropbox. Siempre lo hago en contexto, simplemente renombro mi archivo de análisis con el nombre de lo que estoy haciendo, como groupByIntoGraphs.R o conditionalReplaceInTblDf.R. Pueden pasar 6 meses o más hasta que lo vuelva a hacer, así que es importante que pueda encontrarlo rápidamente.
  5. Si está realmente atascado en cómo obtener datos en la forma o el formato que necesita, dibuje en una libreta o pizarra. Alejarse de la pantalla puede ayudarlo a despejar su mente y permitirle ver sus datos desde un ángulo diferente.

Eso es todo, para mí. Realmente es un 90% de práctica. No sabe lo que no sabe y no sabrá lo que no sabe hasta que necesite saberlo. Acepta nuevos desafíos y cultivarás nuevas habilidades.