Grandes datos

Detrás de escena: un día en la vida de un científico de datos

Detras de escena un dia en la vida de unLa científica de datos Dana Seidel en el trabajo.
Imagen: Dana Seidel

Dana Seidel estaba «deambulando por el campo de Alberta siguiendo manadas de alces» tratando de descubrir sus patrones de movimiento, qué comen, qué los hace regresar al mismo lugar, cuando tuvo una epifanía: los datos pueden ayudar a responder estas preguntas.

Mirar: Plataforma Snowflake Data Warehouse: una hoja de trucos (PDF gratuito) (República tecnológica)

En ese momento, estaba estudiando para obtener una maestría en la Universidad de Alberta y estaba interesada en rastrear la actividad de los ciervos y alces, así como también de otros importantes recolectores. Seidel se dio cuenta de que podía usar su experiencia en matemáticas y ecología en Cornell para ayudar a evaluar modelos que pudieran responder estas preguntas. Continuó sus estudios y obtuvo un Ph.D. En UC Berkeley, se la ha relacionado con el movimiento de animales y la transmisión de enfermedades, que monitorea en parte mediante la recopilación de datos de los collares. Es un poco como un Fitbit, explicó Seidel, «rastrea donde quiera que vaya durante el día», produciendo puntos de datos GPS que se pueden vincular a datos terrestres como imágenes satelitales, proporcionando una ventana a los movimientos de esta vida silvestre.

Informes de big data de lectura obligada

Seidl, de 31 años, hizo la transición de la academia a la iniciativa empresarial, trabajando como científico jefe de datos en la empresa de agricultura vertical interior Plenty. O se llamaría a sí misma «científica de datos interesada en datos de series de tiempo espacio-temporales».

Mirar: Detrás de escena: un día en la vida de un desarrollador de JavaScript independiente (República tecnológica)

Seidel nació en Tennessee pero creció en Kansas. Tiene 31 años, lo que dice que es «viejo» para el mundo de las startups. Como alguien que «invirtió en una carrera y luego cambió» cuando tenía 20 años, no necesariamente tenía la misma experiencia en la industria que sus colegas. Entonces, aunque está agradecida por su experiencia, un título no es un requisito, dijo.

«No estoy segura de que mi doctorado me ayude con mi trabajo actual», dijo. Sin embargo, un área en la que sí la ayudó fue la oportunidad de realizar una pasantía en Google Maps, Quantitative Analyst y RStudio, donde adquirió experiencia en el desarrollo de software.

LEER  Cómo adoptar el enfoque Moneyball para los datos y análisis comerciales

“Pero no creo que escribir más artículos sobre el ántrax y las cebras realmente convenza a nadie de que soy científica de datos”, dijo.

Seidel aprendió su lenguaje de programación favorito, R, en la universidad y comenzó a crear bases de datos en su programa de maestría. Ella dice que «tiende a aprender por sí misma cómo usar estas herramientas en paralelo con estos cursos». «Esa es la verdadera codificación, la resolución creativa de problemas».

Mirar: Descripción del puesto: Director de datos (Edición Premium de Tecnopedia)

Seidel dijo que el campo de la ciencia de datos tiene una década de antigüedad; anteriormente era la estadística. «La idea de alguien con experiencia en estadística o que comprenda el modelado inferencial o el aprendizaje automático ha existido por mucho más tiempo que lo que llamamos un científico de datos», dice, no hasta el último año de su doctorado en una maestría en ciencia de datos.

Además, el término «científico de datos» es muy amplio. Entre los científicos de datos, pueden existir muchos trabajos diferentes. «Algunos científicos de datos están muy enfocados en el análisis avanzado. Algunos científicos de datos solo procesan el lenguaje natural», dijo. El trabajo incluye muchas habilidades diferentes, dijo, que incluyen «habilidades de gestión de proyectos, habilidades de datos, habilidades analíticas, habilidades de pensamiento crítico».

Seidel asesora a otras personas interesadas en ingresar al campo, comenzando con una hora de café semanal para mujeres en aprendizaje automático y ciencia de datos en Berkeley. ¿Primer consejo? «Les diría: ‘Tienes las habilidades'», dijo Seidel. Muchos jóvenes estudiantes, especialmente mujeres, no se dan cuenta de cuánto saben ya. «No creo que a menudo nos comuniquemos a nosotros mismos de manera positiva, todas las cosas que sabemos cómo hacer y cómo transformar», dijo.

Para aquellos interesados ​​en la transición de la academia a la industria, también recomienda adquirir experiencia en el desarrollo de software y las mejores prácticas, que pueden faltar en la educación formal. «Si conoce algunas prácticas estándar de la industria, como control de versiones y secuencias de comandos git y bash, entonces tiene algo de este lenguaje, algo de conocimiento y puede ser un colaborador más efectivo». Seidel también recomienda aprender SQL, en En su opinión , es uno de los lenguajes más fáciles, lo que ella llama «la lingua franca del análisis de datos y la ciencia de datos». Aunque creo que es algo que definitivamente puede aprender en el trabajo, si está trabajando en un equipo de ciencia de datos industriales, será la principal forma de acceder a los datos. Van a tener grandes bases de datos con datos, y necesitas una forma de comunicar eso «, dice. También recomienda desarrollar habilidades a través de eventos como 25 Days to Code y otras formas de demostrar un estilo de codificación limpio. «Es mucho de trabajo preliminar, y es trabajo preliminar no remunerado hasta que consigues un trabajo en la industria, pero realmente puede ayudarte a sobresalir», dijo.

Mirar: 5 cosas que debe saber sobre la ciencia de datos (República tecnológica)

En una mañana típica, mientras trabaja desde casa, Seidel está tomando un café y respondiendo mensajes de Slack en la oficina de su casa/estudio de acolchado. Comprueba si hay preguntas sobre los datos, problemas con el tablero o preguntas sobre la salud de las plantas. Los ingenieros de software que trabajan con los datos también pueden tener preguntas, dijo. A menudo hay una reunión de scrum por la mañana en la que trabajan con el equipo de sprint (que se reúne cada dos semanas) y el flujo de trabajo ágil.

“Tengo una posición única en la que puedo flotar entre los diversos scrums de datos que hacemos, tenemos un scrum de rendimiento de granja versus un equipo de percepción o un equipo de infraestructura de datos”, explicó Seidel. «Puedo decidir: ¿con qué voy a contribuir en este sprint?» Hay dos reuniones de liderazgo a la semana en las que ella lidera sobre software y datos, donde puede escuchar sobre otros trabajos en progreso y lo que se avecina, y ella dijo que era una de las reuniones más importantes para ella porque pudo escuchar de primera mano «cuando las cosas cambian en el lado del software, o cuando las operaciones tienen nuevos requisitos para el software o los datos entrantes».

Por la tarde, tiene mucho tiempo de desarrollo «para profundizar en cualquier problema en el que estaba trabajando en ese sprint», dice.

Mirar: Cómo convertirse en un científico de datos: una hoja de trucos (República tecnológica)

Seidel gestiona el almacén de datos y se asegura de que el flujo de datos «se presente al usuario final en el modelo de datos central». La semana pasada, participó en un scrum de rendimiento de la granja, «validando las medidas de la granja, pensando con anticipación en las nuevas medidas que debemos recopilar y pensando en las medidas en nuestra granja del sur de San Francisco, donde las medidas se transmiten desde varios miles de dispositivos». Ella necesita garantizar mediciones precisas de todo, desde la temperatura hasta el flujo de riego para garantizar la salud de las plantas y responder preguntas como: «¿Por qué la rúcula de la semana pasada creció mejor que la de esta semana?»

La primera orden del día es saber si están midiendo lo correcto y luego replicar: «Oh, bueno, ¿qué quieres que expliquen los datos? ¿Qué pregunta estás haciendo?» Dijo que necesitaba mantenerse unos pasos por delante. y pregunte: «¿Qué nuevas fuentes de datos necesito entender que necesitamos apoyar?»

¿La parte más difícil del trabajo? «Realmente odio no tener una respuesta. Odio tener que decir: ‘No, aún no hemos medido esa cosa. ‘ O, ‘Lo haremos en el próximo sprint’. Equilibrar dar respuestas a las personas versus brindarles las herramientas para acceder a las respuestas por sí mismos es un desafío diario, con el objetivo final de hacer que los datos sean accesibles, dijo.

Y luego decir: «Oh, sí, los datos están ahí, es esta consulta simple» o «Oh, ¿has visto esta herramienta que construí hace un año que hace esto?» es realmente reconfortante.

“Ayudar a alguien a aprender cómo hacer y responder preguntas a partir de datos es como darle superpoderes”, dijo Seidel.

Leer más artículos de esta serie

LEER  iOS 15.2: Cómo asignar contactos antiguos para permitir la recuperación de datos en las cuentas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba