Grandes datos

Por qué el tamaño de la muestra es clave para el análisis predictivo de datos

Para utilizar Big Data para el análisis predictivo, debe tomar en serio el tamaño de su muestra y comprender los riesgos de las suposiciones de muestreo.

predictive data analytics thumb 090413previamente
Una de las preguntas más comunes que me harán en la era de los grandes datos
El Six Sigma Black Belt es «¿Cuántos datos debemos recopilar?».
Lo que me asusta es que ya no escucho esta pregunta con tanta frecuencia.

Tener
Hay mucha confusión en torno al muestreo en estos días.Los clientes me dicen que no deberíamos
Preocúpese por el tamaño de la muestra porque estamos recopilando muchos datos, es obvio
Nuestro tamaño de muestra es suficiente.Un cliente dijo que no se necesitaba muestreo
porque sus máquinas pueden manejar todos
datos.

Este
Los ejecutivos que deberían preocuparse por el muestreo no hablaron con los científicos de datos
Quien piensa que la discusión no es importante.Si usted es uno tratando de usar un gran
Datos para el análisis predictivo, debe tomarse en serio el tamaño de la muestra.

Eso es todo
en la muestra

error
son más fáciles de resolver en los juicios sobre el muestreo, aunque conducen a
El mayor problema al que se enfrentan los estrategas de big data.

primero
Lo que es más importante, no piense que está recopilando todos los datos (es decir, población
datos), no necesita preocuparse por el tamaño de la muestra.si estas haciendo
Análisis predictivo (si desea aprovechar grandes
datos en su estrategia corporativa), todos los datos que recopila son una muestra.incluso
Si recopila muchos datos cada segundo, una parte de su población
Involucrando un futuro en el que no puede recopilar datos.

LEER  GitLab anuncia GitLab 16, nueva plataforma AI-DevSecOps

por
Por ejemplo, puede tener datos de flujo de clics que está tratando de analizar
comportamiento digital.Asumiendo que su poderosa máquina puede manejar cada
Haga clic en tiempo real.Esto es increíble, pero el objetivo de recopilar estos datos es
para predecir el comportamiento futuro.Todavía no hay datos sobre este comportamiento futuro.
Sucedió, pero sigue siendo parte de sus datos demográficos.Además, no
Digamos que recopila suficientes datos porque son muchos; su
La intuición puede tener razón, pero es mejor conocer las estadísticas reales que
Tomarlo por seguro.

como un
Líder, estoy de acuerdo en que debe dejar el trabajo pesado a los datos
científicos. Sin embargo, la discusión sobre el tamaño de la muestra es una discusión,
debe ser resuelto.El truco es
diálogo.

que sabes
Tu no sabes

existir
Para determinar el tamaño de muestra correcto, debe hablar con sus datos
científicos.Hay decisiones ejecutivas ocultas en supuestos
Extraído de las características del tamaño de la muestra; estas decisiones a menudo se pasan por alto o
Deje que los científicos de datos lo hagan.Para bien o para mal, hay reglas.
Los analistas dan el visto bueno a muchos de estos valores.Estos suelen ser
Expresado de forma predeterminada en cualquier software que utilicen sus científicos de datos; en
La mayoría de las veces, el valor predeterminado se acepta y nunca se discute.no es tu manera
Se deben tomar decisiones estratégicas.

Los dos
La decisión más importante implica cuánto riesgo desea aceptar en sus suposiciones.
Hay dos tipos de riesgo: El riesgo de que tome alguna acción
Cuándo no, y el riesgo de no actuar
debería.

nos deja
Suponga que está tratando de definir un segmento de clientes clave basado en
Datos de comportamiento recopilados de su flujo de clics.Las estadísticas muestran claramente
Su grupo de clientes objetivo se comporta de manera diferente al resto de usted
cliente.Con esta información, dedicará recursos adicionales para hacer
Asegúrese de que este segmento clave de clientes permanezca comprometido. Pero considere las siguientes preguntas:

  • ¿Qué tan seguro estás de las estadísticas? ¿Estás dispuesto a arriesgar un 5% de posibilidades de que las estadísticas no sean correctas?
  • Si las estadísticas muestran que su grupo de clientes objetivo no
    ¿Cómo se comporta de manera diferente a otros clientes?le gustaría
    ¿Demostrar que estas estadísticas están equivocadas con un 10% de probabilidad?

Estas
es un incumplimiento común para este tipo de riesgo; sin embargo, si su estrategia es
Comparte, tú deberías ser el que haga estas llamadas.

Ahí
Algunas otras cosas que debe saber sobre el tamaño de su muestra
fáciles de controlar; se relacionan con cuánta variación hay en su muestra
Basado en lo que desea medir y cuán preciso desea medir
esa medida.

Por ejemplo, puede calcular el compromiso
Rango continuo de 1 a 100.Cuando empiezas a construir un personaje, le asignas un
Compromiso para provocar a sus mejores clientes.habrá desviaciones
Dentro de cada rol, la cantidad de diferencias afecta la cantidad de sus datos
Debe recopilarse; si la diferencia es grande, se necesitan más datos.deberías esperar
Este es un proceso iterativo para determinar el tamaño de la muestra.de ninguna manera
Conozca sus diferencias antes de comenzar a recopilar datos.

En conclusión

Este
La única forma de saber si ha recopilado suficientes datos para hacer una predicción es
Conozca su tolerancia a ambos riesgos y recopile información
Variaciones en sus muestras.Tienes que iniciar una conversación con tus datos
Los científicos y los colectivos entienden las características de las muestras.
De lo contrario, solo está tomando una apuesta sin educación con muchas empresas.
dinero.

LEER  Excel Ideas: herramienta inteligente de visualización de datos

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba