Como ya mencionó Roman Trusov, solo debe usar el cuaderno Jupyter [1] (abreviado JN de ahora en adelante) para fines de creación de prototipos .
Escribir código limpio y mantenible en JN (y en general, en formato de cuaderno) es muy complicado .
A veces es posible. Databricks [2] (un proveedor famoso de servicios de Spark) incluso ha lanzado un flujo de trabajo utilizando computadoras portátiles. Revisa su publicación en el blog [3] si tienes curiosidad.
La mayoría de las veces no lo es: el código se vuelve redundante, gran cantidad de acoplamiento entre los detalles de implementación y los datos, la ejecución dependiente del estado …
- Cómo hacerse fuerte en el plan de negocios y financiero.
- Cómo concentrarme en mi carrera cuando me siento atrapado en la vida.
- Estoy en la clase 12 y no puedo estudiar por más de 2 horas. ¿Cuáles son algunos consejos para aumentar mi concentración y motivación?
- Como decidirme
- ¿Cómo definir la motivación y la inspiración? Lo que te ayuda a mantenerte más fuerte y mejor.
Para mitigar los límites de JN, he adoptado el siguiente flujo de trabajo :
- Implementar rápidamente un POC.
- Refactorizar células similares en funciones
- Mueva estas funciones a diferentes scripts (digamos uno para el procesamiento de datos, uno para funciones útiles, uno para el aumento de datos …)
- Mejore: haga que sean más generales, escriba pruebas unitarias, envíe una solicitud de extracción para que sus colegas / compañeros lo revisen …
Dicho esto, a veces dejo visualizaciones dentro de un JN ya que es más conveniente.
Si está buscando alternativas y le importa la reproducibilidad, existe una nueva herramienta de creación de informes llamada stitch [4]
Tom Augspurger [5] (su autor) ha escrito una publicación en el blog sobre la herramienta que explica los problemas que intenta resolver. Compruébelo [6] si desea una alternativa a los JN para informar.
La mejor de las suertes.
Si le ha gustado leer esta respuesta, asegúrese de seguirme para obtener más información: http://quora.com/profile/Yassine…
Notas al pie
[1] Proyecto Jupyter
[2] Hacer grandes datos simples con Databricks
[3] Flujos de trabajo de portátiles: la forma más fácil de implementar tuberías de Apache Spark
[4] puntada – puntada 0.3.4 documentación
[5] Tom Augspurger (@TomAugspurger) | Gorjeo
[6] DatasFrame