¿Cuál puede ser una posible línea de tiempo para mejorar mis habilidades de ciencia de datos en 1-2 años en 15-20 horas / semana?

Usted mencionó que tendría de 15 a 20 horas por semana para el desarrollo profesional. Eres afortunado eso es una gran cantidad de tiempo si se utiliza correctamente. Recomendaría varias cosas para acelerar sus habilidades en los próximos uno o dos años, enumerados en orden de prioridad pero en paralelo:

1) Vaya a la base de datos de aprendizaje automático de la UCI (con el título de Google) y pruebe muchos de los problemas. Establecer una meta para producir resultados razonables en 100 conjuntos de datos en dos años. Al principio, tomará más de lo requerido una semana por conjunto de datos, pero lo hará más rápido a medida que aprende, y al desarrollar sus propias herramientas para automatizar algunas tareas. Comience con las regresiones en Excel como una línea de base, y para conocer las limitaciones a las que se enfrenta la mayoría de las personas, luego concéntrese en R y cualquier complemento que desee probar.

2) Obtenga un mentor que se siente con usted para almorzar dos o tres veces al mes. Este mentor debe ser un científico de datos, un estadístico o un ingeniero con experiencia significativa en aprendizaje automático. Hable sobre los problemas y lo que se necesita para resolverlos. Muestre a su mentor los resultados de su proyecto UCI y sus métodos, y obtenga retroalimentación.

3) Lee como el infierno. Documentos académicos de aprendizaje automático, páginas de Wikipedia sobre conceptos y frases que no ha escuchado, libros sobre todo lo relacionado razonablemente con la teoría y la práctica de la ciencia de datos.

4) Tomar cursos en línea en temas relacionados.

Muévase rápido, no se deje atrapar por hacer pequeñas mejoras incrementales o intente mejorar los resultados publicados. Simplemente realice esta gran cantidad de proyectos en conjuntos de datos relativamente pequeños de UCI para que esté expuesto a una amplia variedad de problemas. Olvida lo “grande” en “big data” hasta más tarde. En este momento, necesita desarrollar su percepción intuitiva para resolver problemas, y cómo los diversos métodos de aprendizaje automático y estadístico difieren tanto en el enfoque como en los resultados. No se deje atrapar por la teoría académica, la adhesión religiosa a un solo método o lo último y nuevo. Solo resuelva los problemas y preste atención a cómo las diferentes medidas de éxito tienen implicaciones para el uso práctico de los resultados.

Durante los próximos dos años, minimice la cantidad de algoritmos y enfoques que desarrolle por sí mismo; el único desarrollo que debe hacer es utilizar scripts para el procesamiento previo de datos y la automatización de tareas repetitivas. Después de los dos años, sabrás si debes inventar y desarrollar algo. Se paciente; construye tu fundación primero

Y siempre escriba una pequeña declaración de problemas al comienzo de cada proyecto, y una declaración al final sobre cómo esto podría beneficiar a alguien, y calcule la magnitud del beneficio y cuántas personas en todo el mundo experimentarán ese beneficio en comparación con la regresión estándar. Como ejercicio mental, pregúntese cuánto podría cobrar por ese beneficio si la gente comprara su modelo. Este proceso te ayudará a mantenerte enfocado en los aspectos prácticos de tus habilidades. También lo ayudará a aprender a definir las métricas de éxito correctamente para cualquier conjunto de datos.

Haga esto durante dos años y avanzará sus habilidades de ciencia de datos más rápido que el 99% de los nuevos profesionales, y tendrá un cuerpo de trabajo asesino como un apéndice a su currículum.

Has hecho una gran elección de carrera. Ahora supera a tus compañeros. Buena suerte.

Esta pregunta ha sido modificada y la siguiente respuesta es solo para la pregunta original.

Lo sentimos, será imposible convertirse en un experto en 1 año. Después de 1 año, probablemente seguirá siendo un principiante, y después de 2 años podría estar en el nivel intermedio. Las habilidades que enumeraste son un buen comienzo, pero eso es todo lo que son. Habiéndome graduado en 2012 y ahora trabajando como científico de datos, puedo decir que ser experto en CS y matemáticas es lo mínimo para calificar para un puesto de científico de datos. Aquí hay algunas razones por las que los avances en la ciencia de datos se producen lentamente:

  • La ciencia de datos / Big data es extremadamente nueva. Si no está trabajando en una empresa con un equipo de tecnología / desarrollo bien establecido, es probable que su empresa no tenga la infraestructura necesaria para realizar un análisis de datos avanzado que vaya más allá de cosas simples como agrupar y contar. Encontrará que las cosas que deben registrarse y son necesarias para el análisis de datos no se están registrando. Posteriormente, llevará tiempo construir los conjuntos de datos que desea tener para el análisis.
  • Al igual que los desarrolladores de software, los proyectos de ciencia de datos requieren muchas y muchas iteraciones. A diferencia del software dev, estas iteraciones no sucederán rápidamente. Encontrará errores en su análisis, o que sus conclusiones no son aplicables a ciertos tipos de personas. Estos problemas son fáciles de solucionar, ya que solo son cambios en sus algoritmos. Los más difíciles de solucionar son cuando se da cuenta de que sus datos son malos o que necesita registrar más datos. En estas situaciones, usted está a merced del tiempo hasta que se construye un nuevo conjunto de datos.
  • La ciencia de datos se parece mucho a la investigación, y aunque utiliza muchos CS no es como la ingeniería. En ingeniería, planifica cómo se supone que funcionan las cosas, las construye de acuerdo con sus diseños, las rompe y las rediseña. A lo largo de este proceso, siempre tiene una idea de cómo avanzar: A / B / C necesita tener una interfaz común, X / Y / Z tienen estos errores, etc. En Data Science no está operando en sus propios planes, está tratando de identificar los patrones de otras personas, y le garantizo que hay grandes partes de personas que se comportan de una manera que usted no esperaría. Comenzará con una fase exploratoria en la que solo está tratando de comprender los datos y algunos patrones de alto nivel sobre los demás, y solo cuando se identifiquen estos patrones podrá encontrar algún tipo de estrategia para un análisis real. La fase exploratoria puede repetirse varias veces a medida que obtiene datos de diferentes fuentes, algunas de las cuales serán útiles y otras no, lo que solo agrega más tiempo hasta que se inicia el análisis real.
  • A veces estudiarás un problema durante mucho tiempo y luego llegarás a la conclusión de que no se puede resolver (como los problemas en los que trabajaste en la escuela de posgrado). En algunos problemas, lo mejor que puedes hacer es, literalmente, el grupo. -y el análisis de la cuenta. Es posible que los algoritmos que surgen de la investigación no sean aplicables a usted, tendrá que hacer algunos ajustes para ver si puede redefinirlos para su situación, tropezar y arruinar algunas matemáticas y luego darse por vencido.

Todo esto lleva tiempo para procesarlo. Un solo análisis puede llevar fácilmente de 3 a 6 meses o más. Cuando acabe de graduarse, probablemente sea como yo, donde su primer proyecto demora 6 meses, y tal vez su segundo proyecto solo demore 3. En 1 año puede obtener un total de 3 proyectos realizados. Dado que la ciencia de la información es un campo interdisciplinario único, solo habrás rastreado una pequeña parte de lo que es la ciencia de la información con esos 3 proyectos, y por eso diría que aún serás un principiante.

Hola amigos, este es Abhijit. Soy analista de datos de profesión y entusiasta del aprendizaje automático. Me encanta resolver problemas del mundo real con la ayuda de ML Algorithms.

Y, recientemente, también he comenzado un canal de YouTube, ” ANALYTICS MANTRA “.

Un destino completo para todos los entusiastas de la ciencia de datos y el aprendizaje automático. Estamos creciendo este canal de día y de noche.

Solicito a todos los lectores aquí, para ir al enlace, explorar los videos y si te gustan esos videos, SUSCRÍBETE . B’coz nos motiva !!!

Herramientas básicas: no importa para qué tipo de compañía esté entrevistando, probablemente se esperará que sepan cómo usar las herramientas del oficio. Esto significa un lenguaje de programación estadística, como R o Python, y un lenguaje de consulta de base de datos como SQL.

Estadísticas básicas: al menos una comprensión básica de las estadísticas es vital como científico de datos. Un entrevistador me dijo una vez que muchas de las personas que entrevistó ni siquiera podían proporcionar la definición correcta de un valor p. Debería estar familiarizado con las pruebas estadísticas, las distribuciones, los estimadores de máxima probabilidad, etc. ¡Piense de nuevo en su clase de estadísticas básicas! Este también será el caso del aprendizaje automático, pero uno de los aspectos más importantes de su conocimiento estadístico será comprender cuándo diferentes técnicas son (o no son) un enfoque válido. Las estadísticas son importantes en todos los tipos de compañías, pero especialmente en aquellas basadas en datos donde el producto no está enfocado en los datos y las partes interesadas del producto dependerán de su ayuda para tomar decisiones y diseñar / evaluar experimentos.

Aprendizaje automático: si está en una empresa grande con grandes cantidades de datos, o trabaja en una empresa en la que el producto en sí está impulsado especialmente por los datos, es posible que desee familiarizarse con los métodos de aprendizaje automático. Esto puede significar cosas como k vecinos más cercanos, bosques aleatorios, métodos de conjunto, todas las palabras de moda de aprendizaje automático. Es cierto que muchas de estas técnicas se pueden implementar utilizando las bibliotecas R o Python; por lo tanto, no es necesariamente un factor de ruptura si no eres el experto más importante del mundo en cómo funcionan los algoritmos. Más importante es entender las pulsaciones generales y comprender realmente cuándo es apropiado usar diferentes técnicas.

Cálculo multivariable y álgebra lineal: de hecho, se le puede solicitar que obtenga algunos de los resultados de aprendizaje automático o estadísticas que emplee en otra parte de su entrevista. Incluso si no lo está, su entrevistador puede hacerle algunas preguntas básicas de cálculo multivariable o de álgebra lineal, ya que forman la base de muchas de estas técnicas. Puede que se pregunte por qué un científico de datos tendría que entender esto si hay un montón de implementaciones listas para usar en Sklearn o R. La respuesta es que, en cierto punto, puede valer la pena que lo construya un equipo de ciencia de datos. Sus propias implementaciones en casa. Comprender estos conceptos es muy importante en las empresas donde el producto está definido por los datos y las pequeñas mejoras en el rendimiento predictivo o la optimización del algoritmo pueden llevar a grandes ganancias para la empresa.

El “científico de datos” se usa a menudo como un título general para describir trabajos que son drásticamente diferentes.

Munging de datos: muchas veces, los datos que está analizando serán complicados y difíciles de manejar . Debido a esto, es muy importante saber cómo tratar las imperfecciones en los datos. Algunos ejemplos de imperfecciones de datos incluyen valores faltantes, formato de cadena inconsistente (por ejemplo, ‘New York’ versus ‘new york’ versus ‘ny’) y formato de fecha (‘2014-01-01’ vs. ’01 / 01/2014 ‘ , tiempo de Unix vs. marcas de tiempo, etc.). Esto será más importante en las pequeñas empresas en las que usted es un primer contratante de datos, o las empresas impulsadas por los datos en las que el producto no está relacionado con los datos (especialmente porque esta última a menudo ha crecido rápidamente sin prestar mucha atención a la limpieza de los datos), pero esto La habilidad es importante para que todos la tengan.

Visualización y comunicación de datos : la visualización y comunicación de datos es increíblemente importante, especialmente en las empresas jóvenes que toman decisiones basadas en datos por primera vez o en empresas donde los científicos de datos son vistos como personas que ayudan a otros a tomar decisiones basadas en datos. Cuando se trata de comunicarse, esto significa describir sus hallazgos o la forma en que las técnicas funcionan con las audiencias, tanto técnicas como no técnicas. En cuanto a la visualización, puede ser de gran ayuda estar familiarizado con las herramientas de visualización de datos como ggplot y d3.js. Es importante no solo estar familiarizado con las herramientas necesarias para visualizar datos, sino también con los principios detrás de la codificación visual de datos y la comunicación de información.

Ingeniería de software: si está realizando una entrevista en una empresa más pequeña y es una de las primeras contrataciones de ciencia de datos, puede ser importante tener una sólida formación en ingeniería de software. Usted será responsable de manejar una gran cantidad de registros de datos y, potencialmente, del desarrollo de productos basados ​​en datos.

Pensando como un científico de datos: las empresas quieren ver que eres un solucionador de problemas (basado en datos). Es decir, en algún momento durante el proceso de su entrevista, es probable que se le pregunte sobre algún problema de alto nivel, por ejemplo, sobre una prueba que la empresa puede querer realizar o un producto basado en datos que tal vez desee desarrollar. Es importante pensar qué cosas son importantes y cuáles no. ¿Cómo debería usted, como científico de datos, interactuar con los ingenieros y gerentes de producto? ¿Qué métodos debes usar? ¿Cuándo tienen sentido las aproximaciones?

La ciencia de los datos aún es incipiente y está mal definida como campo. Conseguir un trabajo consiste tanto en encontrar una empresa cuyas necesidades coincidan con sus habilidades como en desarrollarlas. Este escrito se basa en mis propias experiencias de primera mano. Me encantaría saber si ha tenido experiencias similares (o en contraste) durante su propio proceso.

Un poco de programación en shell es todo lo que necesitas para comenzar.

Participar en un proyecto de ciencia de datos de código abierto, como

Contenido calculado / tsvm

Lo que estamos haciendo al tratar de hacer es establecer un conjunto de proyectos de investigación de código abierto, colaboración, ciencia de datos / aprendizaje automático.

que corresponden al trabajo descrito en mi blog.

Aprendizaje automático

Estos proyectos están diseñados para proyectos de investigación científica de buena fe que requieren recopilar nuestros propios datos y diseñar experimentos que prueben sistemáticamente ideas teóricas específicas.

A diferencia de Kaggle, que es aislado, competitivo y predefinido, estos proyectos están destinados a ser compartidos, colaborativos y requieren un pensamiento científico para enmarcar el problema.

Cada proyecto involucra

1. Comprensión matemática y avance.
2. experimentos de ciencia de datos
3. desarrollando un código

Estamos muy abiertos a tener colaboradores interesados ​​en hacer investigación de ciencia de datos novedosos

¿Qué es la ciencia de datos?

Existe un gran interés por los expertos en información inteligente en organizaciones, oficinas abiertas y organizaciones benéficas. La oferta de expertos que pueden trabajar adecuadamente con la información a escala está limitada, y se refleja en el rápido aumento de las tasas de pago para los ingenieros de información, investigadores de información, analistas y analistas de información. La capacidad lógica y administrativa importante para beneficiarse lo más posible de Big Data es un desafío crítico y apremiante (para los EE. UU.) “. El informe evalúa que habrá de cuatro a cinco millones de ocupaciones en los EE. UU. Que requieren capacidades de investigación de la información para 2018, y que se pueden cubrir grandes cantidades de puestos a través de la preparación o el reciclaje. Los creadores también extienden el requisito de 1.5 millones más de directores e investigadores con profundas habilidades científicas y especializadas “que pueden hacer las consultas correctas y gastar las consecuencias del examen de gran cantidad de información adecuadamente.

Las mediciones registradas debajo hablan de este interés notable y en desarrollo para los investigadores de la información.

Formación en línea de Datascience

Lee esto, es el mejor post para este tema.
¿Cómo me convierto en un científico de datos?

Un experto es casi por definición alguien que ha pasado más de 1 o 2 años trabajando en algo. Sigue esforzándote por ser mejor, pero planea pasar los próximos 8-10 años en ello. Entonces serás un experto.

Edit: La pregunta original se refería a cómo convertirse en un experto en ciencia de datos en 1 o 2 años. Dado que la pregunta se ha editado después de que la respondí, mi respuesta no es relevante, pero la dejo como está.

Tengo este enlace en mi lista de tareas pendientes:

datasciencemasters / go

Parece ser un currículo muy actualizado administrado por la comunidad para la ciencia de datos. Le sugiero que lo analice, ya que puede ayudar a redefinir su enfoque de lo que es posible en el marco de tiempo dado. La gente detrás de esto es muy amigable y atractiva.

Esta es una gran base. Creo que lo más importante es aplicar su conocimiento a problemas reales. Trate de encontrar oportunidades para hacer eso en su nuevo rol.