Grandes datos

6 mitos sobre big data desmentidos

dbgraph

La computación en la nube, los avances en la velocidad del procesamiento de datos y la entrada masiva de datos de fuentes como Internet de las Cosas significan que las empresas ahora están recopilando volúmenes de datos nunca antes vistos. Big data ahora es más grande que nunca. Pero organizar, procesar y comprender los datos sigue siendo un gran desafío para muchas organizaciones.

Cobertura de Big Data de lectura obligada

¿Su empresa todavía tiene dificultades para entender qué es Big Data y cómo administrarlo? Aquí hay 6 mitos sobre big data de expertos para ayudarlo a diferenciar entre lo real y lo falso en el mundo de big data.

1. Big data significa «muchos» datos

Big data es la palabra de moda en estos días. Pero su verdadero significado a menudo sigue sin estar claro. Algunas personas simplemente se refieren a los grandes datos como una gran cantidad de datos. Sin embargo, esto no es del todo cierto. Es un poco más complicado que eso. Big data se refiere a cómo los conjuntos de datos estructurados (como las hojas de Excel) o los conjuntos de datos no estructurados (como los metadatos en los correos electrónicos) se combinan con datos como el análisis de redes sociales o los datos de IoT para formar una historia más grande. Las historias de big data muestran las tendencias de lo que sucede dentro de una organización, una historia que las técnicas de análisis tradicionales luchan por capturar.

Jim Adler, director de datos del Toyota Research Institute, también tiene un buen punto: los datos son calidad. «Es como el agua: cuando está en un vaso, es muy manejable. Pero cuando está en una inundación, es abrumador. Cuando la escala de datos crece 100 o 1000 veces, en los sistemas de análisis de datos que trabajan en una sola máquina son va a ser arrastrado Entonces, seguro, pequeños prototipos, grandes arquitectos «.

LEER  Cisco Talos informa sobre una nueva variante del ransomware Babuk dirigido a servidores Exchange

2. Los datos deben estar limpios

“El mito más grande es que tienes que tener datos limpios para hacer análisis», dijo Arijit Sengupta, CEO de BeyondCore. «Nadie tiene datos limpios. Toda esta idea loca de que tengo que limpiarlo para analizar no funciona. Lo que haces es hacer un análisis «suficientemente bueno». Aunque los datos están sucios, toma sus datos y los analiza. Esto muestra dónde tiene problemas de calidad de datos. A pesar de los problemas de calidad de los datos, puedo mostrarte algunos patrones muy buenos. Ahora puede concentrarse en los esfuerzos de calidad de los datos para mejorar los datos y obtener mejores conocimientos. «

Megan Beauchemin, directora de inteligencia comercial y análisis de InOutsource, está de acuerdo. «Muchas veces, las organizaciones pondrán estos esfuerzos en un segundo plano porque sus datos no están limpios. No es necesario. La implementación de aplicaciones de análisis iluminará visualmente los puntos débiles de los datos», dijo. «Una vez que se identifican estas deficiencias, se puede desarrollar un plan de limpieza. La aplicación de análisis puede utilizar un mecanismo para resaltar los esfuerzos de limpieza y monitorear el progreso».

Ver también: Descripción del trabajo: Big Data Modeler (Tech Pro Research)

«Si sus datos no están limpios, creo que esa es una razón más para unirse», dijo Beauchermin. “Una vez que conectas estos datos y los haces realidad visualmente en una aplicación, ves las conexiones y ves que los datos se unen, descubres rápidamente las deficiencias de los datos”. y proporcione puntos de referencia a medida que limpia los datos.

3. Espera a que tus datos sean perfectos

Aquí hay otra razón por la que no debe esperar para limpiar sus datos: «Cuando limpia sus datos, tienen tres meses, por lo que tiene datos obsoletos», dijo Sengupta. Por lo tanto, la información ya no es relevante.

Sengupta habló sobre una reunión en la que Josh Bartman de First Interstate Bank hizo un punto importante. «Josh mostró cómo hizo el análisis, encontró el problema, cambió el análisis, volvió a ejecutar el análisis. Dijo: ‘Mire, mi intervalo de análisis es de solo cuatro o cinco minutos. Entonces, si puedo ejecutar el análisis, encontrar el problema». , solucionar el problema, volver a ejecutar el análisis y mirar el informe después de cuatro o cinco minutos cambiaría la forma en que realicé el análisis’”.

VER: 10 expertos en big data para seguir en Twitter (Tecnopedia)

Sengupta lo compara con la antigua forma de codificación. «Terminé todo y luego codifiqué. Pero ahora, todos están haciendo codificación ágil», dijo. «Escribes algo, lo pruebas, ves cómo mejorarlo y luego lo haces mejor. El mundo ha cambiado y la gente todavía actúa como si fuera la forma antigua de hacer las cosas».

4. Lago de datos

Los lagos de datos, en términos generales, son repositorios que almacenan grandes cantidades de datos estructurados y estructurados en bruto, y a menudo se mencionan en el contexto de los grandes datos.

El único problema es que, a pesar de su alta frecuencia de citas, no existen, dijo Adler. «Los datos de una organización no se vierten en un lago de datos. Se organizan en «silos de datos» departamentales que fomentan la experiencia dedicada. También brindan responsabilidad y transparencia».

5. Analizar datos es costoso

¿Tiene miedo de comenzar a procesar datos debido al supuesto gasto que implican las herramientas de análisis de datos? Buenas noticias para usted: con las herramientas de datos gratuitas disponibles en la actualidad, cualquiera puede comenzar a analizar big data.

Además, según Sengupta, el bajo costo de la computación en la nube hoy en día significa que «realmente se pueden hacer cosas que antes no eran posibles».

6. Los algoritmos de las máquinas reemplazarán a los analistas humanos

Sengupta ve una dicotomía interesante en el enfoque para analizar big data. «Hay una división en la que, por un lado, alguien dice: ‘Voy a poner a miles de científicos de datos en este problema’. Luego, alguien dice: ‘El aprendizaje automático lo hará todo. Será completamente automatizado, ‘» él dijo.

Sin embargo, Sengupta cree que ninguna solución funcionará. «No hay suficientes científicos de datos y los costos aumentan rápidamente», dijo. «Además, los usuarios comerciales tienen años de inicios de sesión de dominio y una intuición sobre su negocio. Cuando traes a un científico de datos y dices, ‘ese tipo hará esto y te dirá qué hacer’, eso en realidad hace que sea completamente incorrecto. adopción de estos conocimientos. Los científicos de datos a menudo no entienden nuestro negocio lo suficiente como para entenderlo realmente de inmediato».

Es un mito que el científico de datos «perfecto» comprenda completamente cómo funciona un negocio en particular y cómo funcionan sus datos, dijo Sengupta. «Esa persona no existe».

De hecho, Sengupta dice: «La mayoría de los proyectos de ciencia de datos en realidad no se implementan porque es muy difícil. Lleva meses completarlos y, cuando se completa, sus preocupaciones son demasiado antiguas».

Sin embargo, también hay problemas con la dependencia excesiva del aprendizaje automático. «Me dio una respuesta, pero no una explicación. Me dijo qué hacer, no por qué», dijo. «A la gente no le gusta que le digan qué hacer, especialmente las máquinas mágicas».

La clave, dice, no son solo las respuestas, son las explicaciones y los consejos.

Por un lado, los científicos de datos se centrarán cada vez más en problemas realmente difíciles, dijo. «Piense en una época en que cada departamento y empresa tenía un departamento de procesamiento de datos y una unidad de procesamiento de números. Las empresas de Fortune 500 tenían una «unidad de procesamiento de datos» y una «unidad de procesamiento de números». Básicamente se convirtieron en Excel, Word, y PowerPoint”.

Aún así, las personas son expertas en el procesamiento de datos y números.

«Si voy a Morgan Stanley, créanme, todavía hay personas que son expertas en procesamiento de datos y procesamiento de números. Todavía existen. Tienen diferentes títulos y diferentes trabajos, pero en situaciones realmente avanzadas, estas personas todavía existen. Pero 80- El 90% pasará a Excel, Word y PowerPoint. En lo que respecta a los grandes datos, así es como debería funcionar el mundo».

LEER  Los expertos elogian que GDPR alcance un hito de cinco años

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba