Grandes datos

Por qué la ciencia de datos es solo matemáticas y escritura de la escuela primaria

Aunque seguimos mitificando la ciencia de datos, su trabajo más importante es muy básico.

Imagen: iStockphoto/anyaberkut

Diga la palabra «ciencia de datos» y le vendrán a la mente imágenes de una hélice de procesamiento de números, o un científico espacial que trabaja a tiempo parcial como intérprete para un clúster empresarial de Hadoop. pero, Según Noah Lorencientífico de datos en Basecamp: «La mayoría de los científicos de datos solo hacen aritmética».

¿matemáticas básicas? ¿En serio? ¿Es por eso que las empresas pagan altos salarios para reclutar y retener empleados? ¿Alguien que sepa sumar y restar?

Sí, hay dos caminos a seguir…

La respuesta, por supuesto, es «tal vez». Depende del público objetivo. Como describí anteriormente, la ciencia de datos se divide en dos categorías: ciencia de datos para consumo humano y ciencia de datos para consumo de máquinas.

Ver también: Descripción del trabajo: Científico de datos (Tech Pro Research)

Para este último, la ciencia de datos «involucra modelos digitales complejos que ingieren grandes cantidades de datos y extraen información utilizando aprendizaje automático y algoritmos, y luego actúan de forma autónoma para mostrar ciertos anuncios o negociar acciones en tiempo real». Los científicos de datos, los científicos de datos orientados a máquinas necesitan «una gran fluidez matemática, estadística y computacional para construir modelos que puedan hacer buenas predicciones rápidamente». Michael Lee escribió.

Esta puede ser nuestra visión para un científico de datos en general, pero las habilidades anteriores son muy diferentes de las requeridas para prosperar en la ciencia de datos centrada en el ser humano.

LEER  El gigante de los cosméticos Sephora multado por violar la ley de privacidad del consumidor de California

«[N]Los números no pueden hablar por sí mismos. Hablamos por ellos. Les damos significado», Famoso estadístico Nate SilverEn el momento en que comenzamos a recopilar datos, sesgamos nuestros datos al decidir qué recopilaremos, sin mencionar los tipos de preguntas que haremos. No hay datos imparciales, ya sea para máquinas o personas.

El sesgo es el estado natural de todos los datos.

Una vez que entendemos esto, el papel del científico de datos centrado en el ser humano se vuelve claro: ayudar a que los datos cuenten una historia clara. En una entrevista con el director ejecutivo de ZoomData, Justin Langseth, advirtió contra las expectativas frívolas de la ciencia de datos impulsada por máquinas, argumentando que «los conocimientos algorítmicos… pueden generar falsos positivos que confundirían a cualquier revisor humano. Vuélvanse locos o desconfíen del sistema».

Por el contrario, la visualización de datos tiene una participación humana explícita que facilita la «exploración» [which can] Lleva a… ‘Ajá perspicacia’. «

En resumen, una buena ciencia de datos requiere una buena narración y visualización de datos. Todos comienzan con matemáticas básicas.

Esto me hace preguntarme…

Esto nos lleva de vuelta a Lorang, quien advierte: «Las matemáticas más ‘complejas’ que he hecho en las últimas dos semanas son algunos análisis de potencia y pruebas de significancia».

Entonces, ¿a qué dedica todo su tiempo como científico de datos altamente remunerado?

«La mayor parte de lo que hago es escribir consultas SQL para obtener datos, realizar operaciones aritméticas básicas con esos datos (calcular diferencias, percentiles, etc.), graficar los resultados y escribir explicaciones o párrafos de sugerencias», dice Lorang.

¿En serio? real.

«No escribí ningún algoritmo, ni construí ningún motor de recomendación, ni implementé sistemas de aprendizaje profundo ni construí redes neuronales».

Si bien deja espacio para una ciencia de datos más «sofisticada» en el futuro, insiste en que Basecamp no la necesita ahora, y otros probablemente tampoco:

Un pequeño y sucio secreto de la moda actual de la «ciencia de datos» es que la mayoría de lo que la gente dice sobre la ciencia de datos no es lo que las empresas realmente necesitan. Las empresas necesitan información precisa y procesable que les ayude a decidir cómo gastar su tiempo y recursos. El aprendizaje automático es mejor para resolver un pequeño conjunto de problemas comerciales; la mayoría de ellos solo necesitan buenos datos y comprender las implicaciones que se obtienen mejor utilizando métodos simples.

En su opinión, las empresas necesitan comprender mejor sus datos, que es un problema inherentemente humano. Langseth se hizo eco de este sentimiento, diciéndome que «la mejor [data] Visual[ization] Es una manera para que la gente común que conoce el sistema empresarial vea rápidamente que el efecto visual coincide con el sistema. »

Mirar: Científicos de datos: cómo contratarlos y aprovecharlos al máximo (ZDNet)

Al final, Lorang declara: «Saber lo que es importante es la verdadera clave para ser un científico de datos efectivo». Y, a menudo, parece reducirse al sentido común, algunas matemáticas y la capacidad de contar una historia con datos.

LEER  Desarrollo de una estrategia de Business Intelligence: 5 elementos clave

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba