Nunca estoy seguro de si debo responder preguntas técnicas para “científicos de datos con experiencia”. Mi opinión sobre esto es sobre lo que hago para mejorar las habilidades de los miembros de mi equipo, incluidas las mías. La diferencia está en el contexto y la perspectiva, pero espero que pueda incorporar esto en sus rutinas diarias.
Mi opinión sobre la discusión de datos es que no hay una solución preestablecida. Cada producto de datos tiene un conjunto de datos donde se desempeñará mejor. La negociación de datos es el medio para alcanzar ese conjunto de datos. El problema es que el conjunto de datos es desconocido.
La primera parte es la adquisición de datos . Como veo, la adquisición de datos es una gran parte de la disputa de datos y para mí es el enlace faltante en muchos MOOC donde los conjuntos de datos ya están disponibles. Dependiendo de su contexto, puede tener una hasta docenas de fuentes de datos. Múltiples fuentes de datos de múltiples formatos es el peor escenario al que se enfrenta un científico de datos cuando se trata de la adquisición de datos.
Las habilidades aquí varían entre las fuentes de datos y los formatos. A veces es simple SQL, otras es MapReduce. Muy a menudo es la tubería de datos completa. Aprenderlos ocurre a lo largo del tiempo, proyecto por proyecto.
- La psicología dice que haces cualquier cosa durante 21 días seguidos, se convierte en un hábito. ¿Hay una explicación médica para ello?
- ¿Cómo se “trabaja” uno en la personalidad? Qué difícil o posible es cambiarlo.
- Cómo volverse menos amargo y más proactivo.
- ¿Cuáles son algunas de las habilidades que puedes enseñarte y terminar haciendo 6 figuras?
- ¿Cuáles son algunas técnicas para fortalecerse emocionalmente?
Para mejorar el conocimiento y la experiencia a propósito, aliento a:
- Que cada adquisición de datos de productos de datos se tome tan en serio como los modelos de construcción. Esto significa que espero que el rendimiento de la consulta, el procedimiento o el flujo de datos se mida y se tenga en cuenta para el producto de datos final.
- Analistas y científicos para discutir soluciones con ingenieros de datos. En Miniclip solo los ingenieros de datos se ocupan de las líneas de datos, por lo que este es un esfuerzo de varios equipos. En las compañías donde los científicos de datos también hacen pipelines, un sistema de amigos, ya sea en equipo o por proyecto, tal vez sea una gran solución. Tenemos un sistema de amigos en funcionamiento, más sobre esto a continuación. Pero no elimina la comunicación con los ingenieros de datos.
- Que nuevos métodos y tecnologías sean considerados y probados. Esto mejora nuestro propio conocimiento interno sobre cosas que no hemos probado y, a veces, sucede algo grandioso. Aunque no a menudo, solo a veces. 🙂 Pero al menos aprendemos algo nuevo.
La segunda parte es la ingeniería de características . Incluyo la exploración de datos y la limpieza aquí, pero estos dos están algo cubiertos por la experiencia de la mayoría de los puestos junior. Entonces, lo que queda es cómo interactúan los datos con el modelo.
Las habilidades nunca terminan. Escucho cosas en podcasts que nunca escuché cada dos semanas. Para agregar a eso hay diferentes maneras de lograr el mismo objetivo. Entonces, la mejora se trata de aprender cosas nuevas y desafiar las ya conocidas.
Para mejorar el conocimiento y la experiencia a propósito, aliento a:
- ¡Aprendizaje! Todos los miembros de mi equipo tienen a su disposición el 20% de su tiempo de trabajo para utilizarlo como lo deseen. Si bien no digo explícitamente que el objetivo es la ingeniería de características, el aprendizaje, el intento y la investigación a menudo se agregan a la ingeniería de características. Mi mayor salto fue con las reglas de asociación, por ejemplo.
- Compartiendo Todos los miembros de mi equipo presentarán dos cosas nuevas por año al resto del equipo. Esto es parte de sus objetivos. La consecuencia es la difusión del conocimiento, a menudo relacionado con el punto anterior.
- Revisiones de código. Cada pieza de análisis, cada producto de datos es revisado por pares. No puedo enfatizar cuánto ha mejorado todo esto, incluida la disputa de datos.
- Sistema de amigos. Todos los miembros del equipo tienen un amigo con quien discuten lo que quieran. Lo que hay que tener en cuenta es que los amigos aceleran la mejora, pero en lo que respecta al aprendizaje, es relativamente rápido.
Para terminar, lo que importa es que su disputa de datos sea objetiva y que sus mejoras tengan un propósito. Esto es muy difícil de adquirir sin problemas reales y datos reales.