Grandes datos

Los desafíos que enfrenta la ciencia de datos en 2023 y cuatro formas de abordarlos

Descubrir el valor de los datos, integrar software de código abierto, pequeños grupos de talentos y los problemas éticos que rodean a los datos son áreas problemáticas, en un nuevo informe de ciencia de datos.

istock 1148438339
análisis de volumen de datos e industria de la informática ilustración 3d
Imagen: Getty Images/iStockphoto

Un informe sobre el estado de la ciencia de datos de la empresa de software Anaconda encontró que la ciencia de datos no es de ninguna manera una parte estable del negocio. De hecho, tiene varios desafíos serios que superar.

Mirar: Tableau Business Analytics Platform: hoja de referencia (descarga gratuita en PDF) (República tecnológica)

Afortunadamente, el informe de Anaconda proporciona Cuatro recomendaciones que las organizaciones deberían enfocarse en abordar los problemas que descubrieron en sus encuestas a profesionales de la ciencia de datos: falta de realización de valor, preocupaciones sobre el uso de herramientas de código abierto, dificultades para encontrar y retener talento, y preocupaciones éticas sobre los datos y el sesgo del modelo.

«Instituciones dependientes [data science] La comprensión de cómo integrarlo, apoyarlo y explotarlo aún se está desarrollando», dice el informe.

Las cuatro áreas problemáticas identificadas por Anaconda son clave para la evolución continua de la ciencia de datos desde una parte emergente del negocio empresarial hasta una parte fundamental de la planificación del trabajo futuro.

1. Obtenga valor de la ciencia de datos

Este problema se deriva principalmente de las barreras de producción, como la gestión de dependencias y entornos, la falta de habilidades organizativas necesarias para implementar modelos de producción y problemas de seguridad.

LEER  Philips quiere combinar los datos de Fitbit y los registros médicos con la nueva plataforma de datos en la nube HealthSuite

Combinados, estos tres problemas llevan al 52 % de los profesionales de la ciencia de datos a decir que no pueden demostrar el impacto de la ciencia de datos en los resultados comerciales. Esto varía según la industria, siendo los profesionales de datos de atención médica los que tienen más dificultades para probar los beneficios, con un 66 % que dice que a veces o nunca lo hace, mientras que solo un 29 % dice lo mismo cuando se trata de consultoría.

«Será cada vez más importante poner en producción los resultados de la ciencia de datos, lo que requerirá que los líderes y los científicos de datos eliminen las barreras para el despliegue, y que los científicos de datos aprendan a comunicar el valor de su trabajo», recomienda el informe.

2. Dificultad para integrar herramientas de ciencia de datos de código abierto

Según el informe, el lenguaje de programación de código abierto Python domina a los científicos de datos, y el 75 por ciento dice que lo usa con frecuencia o siempre en su trabajo.

A pesar de la popularidad del software de código abierto en la ciencia de datos, el 30 % de los encuestados dijo que no hizo nada para proteger sus canalizaciones de código abierto. Los encuestados prefirieron el software de análisis de código abierto porque sintieron que era más rápido para innovar y se adaptaba mejor a sus necesidades, pero Anaconda concluyó que las preocupaciones de seguridad pueden indicar que las organizaciones tardan en adoptar herramientas de código abierto.

«Las organizaciones deben adoptar un enfoque proactivo para integrar soluciones de código abierto
Ingrese a la tubería de desarrollo y asegúrese de que los científicos de datos no tengan que usar sus herramientas favoritas fuera de los límites de la política”, recomienda el informe.

Una advertencia aquí: Anaconda es el creador de una plataforma de ciencia de datos basada en Python de código abierto. Dado que las personas encuestadas fueron reclutadas a través de las redes sociales y la base de datos de correo electrónico de Anaconda, sus hallazgos tienden a favorecer los productos de código abierto.

3. Dificultad para encontrar y retener científicos de datos calificados

Hay varias capas de problemas para resolver aquí. Primero, el informe encontró que lo que los estudiantes están aprendiendo y lo que las universidades están enseñando no es necesariamente lo que las empresas necesitan que proporcionen los nuevos científicos de datos.

Dos de las brechas de habilidades citadas con más frecuencia por las empresas (la gestión de big data y las habilidades de ingeniería) ni siquiera se encuentran entre las 10 mejores habilidades que las universidades ofrecen a los estudiantes de ciencia de datos.

Otra capa de preocupación proviene de la retención de talento, que según el informe está estrechamente relacionada con la frecuencia con la que los profesionales de la ciencia de datos pueden demostrar el valor de su trabajo. Sin embargo, en general, el 44% de los científicos de datos dijeron que planean buscar un trabajo diferente dentro del próximo año.

Anaconda hace tres propuestas para solucionar este problema:

  • Las empresas deben trabajar con las instituciones educativas para garantizar que sus programas enseñen a los estudiantes las habilidades que necesitan las empresas.
  • Los empleadores deben diseñar programas integrales de retención de ciencia de datos que incluyan ayudar a los empleados a aprender a expresar el valor de su trabajo y brindar oportunidades de capacitación y crecimiento.
  • Asegúrese de que los científicos de datos tengan la oportunidad de capacitarse para aumentar el valor de sus contribuciones.

4. Eliminar el sesgo y explicar el aprendizaje automático

«En todas las tendencias identificadas en nuestra investigación, descubrimos que abordar el sesgo y
sea ​​justo y deje que el aprendizaje automático reciba la mayor atención», dice el informe.

La ética, la responsabilidad y la equidad son cuestiones que están comenzando a surgir en torno al aprendizaje automático y la inteligencia artificial, y Anaconda dice que las empresas «deben tratar la ética, la explicabilidad y la equidad como vectores de riesgo estratégicos, y prestar atención y cuidado en consecuencia».

Si bien es importante abordar el sesgo inherente a los modelos de aprendizaje automático y la ciencia de datos, no se está haciendo: solo el 15 % de los encuestados dijo que había implementado soluciones de mitigación de sesgos, y solo el 19 % lo hizo para facilitar la interpretación.

El treinta y nueve por ciento de las empresas encuestadas dijeron que no tienen planes para abordar el sesgo en la ciencia de datos y el aprendizaje automático, y el 27 por ciento dijo que no tienen planes para hacer que el proceso sea más explicable.

«Además de los problemas éticos, la falta de atención activa a estos problemas crea riesgos estratégicos competitivos, financieros e incluso legales para las empresas e instituciones», dijo el informe.

La solución que recomienda Anaconda es que los científicos de datos actúen como líderes y traten de impulsar el cambio en sus organizaciones. «Hacerlo mejorará la posición de la disciplina en las organizaciones que dependen de ella y, lo que es más importante, traerá la innovación y las habilidades de resolución de problemas por las que la profesión es conocida para abordar problemas críticos que afectan a la sociedad».

LEER  Databricks adquiere MosaicML y su IA generativa por 1.300 millones de dólares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba