Cap. 6 — Experimentación e investigación causal

Investigación de Mercado · Capítulo 6

Experimentación e
investigación causal

Paula Pereda Suárez · Universidad de Montevideo

Hoja de ruta

¿Qué vamos a aprender hoy?

Caso de apertura + concepto de causalidad

Tres condiciones de causalidad + terminología experimental

Validez interna y externa + variables extrañas

Tipos de diseños experimentales — notación y lógica

A/B testing digital + prueba de mercado

LatAm, ética + cierre

Sección 01

¿Qué significa
que X causa Y?

Causalidad: el sentido común vs. la ciencia

Caso de apertura · Rite Aid Drug Company

Compras en el punto de venta: ¿el audio vende?

Pregunta de decisión gerencial

¿Los anuncios de radio dentro de la tienda causan un aumento en las compras de los productos anunciados?

20 farmacias seleccionadas estadísticamente equivalentes (tamaño, ubicación, antigüedad, afluencia)
10 farmacias → grupo experimental (con radio); 10 → grupo de control (sin radio)
Resultado: ventas significativamente superiores en tiendas con anuncios — y el diseño permitía atribuirlo causalmente

⏸ Pregunta inicial

¿Por qué no alcanzaba con comparar las ventas antes y después de instalar el radio en las tiendas? ¿Qué otras cosas podrían haber cambiado en ese período?

Concepto central · Malhotra Cap. 6

Dos significados de "X causa Y"

Sentido común

Determinista: X es la única causa de Y. Siempre que ocurre X, ocurre Y. "La campaña causó el aumento de ventas" implica que sin ella no hubiera habido ningún aumento.

Significado científico

Probabilístico: X aumenta la probabilidad de Y. No es la única causa, y la relación no es perfecta. El investigador busca que X sea una causa de Y, controlando el resto.

✏ Dibujar en pizarrón: diagrama de causa múltiple — "ventas" en el centro, con flechas desde "publicidad", "precio", "estacionalidad", "acciones del competidor". X causa Y pero no es la única causa.

⏸ Para pensar

¿Cuándo el gerente de marketing dice "nuestra campaña de Instagram causó el pico de ventas de marzo" — está usando el significado cotidiano o el científico? ¿Qué necesitaría para poder decirlo científicamente?

Caso LatAm · Mercado Libre

¿El envío gratis causa mayor conversión o solo la revela?

Correlación observada: los productos con envío gratis tienen 3× más conversión — ¿el envío gratis la causa o los mejores vendedores lo ofrecen?
Problema de confusión: los vendedores con envío gratis también tienen mejor reputación, mejores fotos y precios más competitivos
La solución causal: A/B test — mismos productos, mismo vendedor, mismo precio. La única diferencia: el badge de "envío gratis" aparece o no según asignación aleatoria del usuario
Resultado causal: el envío gratis tiene efecto incremental positivo — pero menor al de la correlación observada. La diferencia: el sesgo de selección inflaba el correlacional

🌎 LatAm

Mercado Libre opera en 18 países de América Latina y corre más de 200 experimentos activos en simultáneo. El equipo de growth tiene una infraestructura experimental comparable a la de Amazon o eBay.

Correlación ≠ causalidad · pregunta diagnóstico

¿Por qué la correlación NO prueba que el envío gratis causa las ventas?

EL PROBLEMA

Los mejores vendedores tienen: mayor reputación, mejores fotos, mejores descripciones, más reseñas, precios más competitivos — y además pueden costear el envío gratis. La correlación puede reflejar que el vendedor mejor en todo tiene más ventas, no que el envío las causa.

CORRELACIÓN ESPURIA POR VARIABLE CONFUNDIDORA

Tanto el envío gratis como las ventas altas son consecuencias del mismo factor subyacente: la calidad general del vendedor. La correlación entre ambas no implica que una cause la otra.

EL EJEMPLO CLÁSICO

En verano aumentan tanto las heladerías abiertas como los ahogados en playas — correlación positiva alta. Nadie concluiría que las heladerías causan ahogamientos: ambas son causadas por el calor. Esa correlación es espuria.

⏸ Para la clase

¿Qué variables podrían estar detrás de la correlación entre envío gratis y ventas? ¿Cuántas explicaciones alternativas se les ocurren antes de aceptar la causal?

Sección 02

Las tres condiciones
de causalidad

Ninguna sola es suficiente — las tres deben satisfacerse

Malhotra 2016 — p. 157

Condiciones necesarias para inferir causalidad

Variación concomitante

X e Y deben variar juntas según la hipótesis. Si no existe covariación, X no puede ser causa de Y — aunque coincidan en el tiempo.

Orden temporal

X debe preceder o ser simultánea a Y. Una causa no puede ocurrir después de su efecto. En el diseño experimental: el tratamiento se aplica antes de medir la VD.

Eliminación de factores alternativos

Deben descartarse explicaciones rivales. Esto es lo más difícil — y es precisamente lo que el diseño experimental busca garantizar con control y aleatorización.

Las tres condiciones — dónde falla cada una

Covariación engaña · orden es ambiguo · alternativas nunca se descartan del todo

CONDICIÓN 1 PUEDE ENGAÑAR — CORRELACIÓN ESPURIA

La covariación es la condición más fácil de detectar —y la más engañosa. Dos variables pueden correlacionar sin que ninguna cause a la otra, porque ambas son efectos de una tercera variable Z. La correlación necesaria, pero no suficiente.

CONDICIÓN 2 — EL PROBLEMA DE LOS ESTUDIOS TRANSVERSALES

Si mido satisfacción y lealtad en la misma encuesta, no puedo saber si la satisfacción produce lealtad o si los clientes leales valoran mejor el servicio retroactivamente. Cuando las variables se miden simultáneamente, la dirección causal es ambigua. El experimento resuelve esto estructuralmente.

CONDICIÓN 3 — NUNCA SE SATISFACE ABSOLUTAMENTE

Nunca se puede descartar todo factor alternativo con certeza absoluta. Lo que el diseño experimental hace es reducir progresivamente las explicaciones rivales plausibles hasta que la hipótesis causal sea la más parsimoniosa. La aleatorización es la herramienta más poderosa para esto.

Caso LatAm · Nubank (Brasil)

¿El límite de crédito más alto causa mayor retención?

Condición 1 — Variación concomitante

Datos históricos: usuarios con límites mayores tienen retención superior. La covariación existe — pero puede ser espuria.

Condición 2 — Orden temporal

Experimento: se asigna el límite mayor ANTES de medir retención a 12 meses. El tratamiento precede al efecto medido.

Condición 3 — Eliminación de alternativas

Aleatorización garantiza equivalencia: mismo perfil crediticio, edad, ingresos. La diferencia en retención se atribuye causalmente al límite.

⏸ Pregunta

¿Qué condición quedaría comprometida si Nubank ofreciera el límite mayor solo a usuarios que ya hubieran hecho 3 compras? ¿Por qué? (Condición 3 — los usuarios con 3+ transacciones son sistemáticamente más activos y comprometidos antes del tratamiento: hay sesgo de selección)

Terminología en acción · Spotify

Identificar VI, VD, grupos y variables extrañas en un caso real

CONTEXTO

Spotify quiere saber si una nueva sección de recomendaciones de podcasts en español en la pantalla de inicio produce oyentes nuevos entre usuarios que actualmente no escuchan podcasts en ARG, MEX y COL.

VI — LO QUE SE MANIPULA

Presencia o ausencia de la sección de recomendaciones de podcasts en la pantalla de inicio

VD — LO QUE SE MIDE

Minutos de podcasts escuchados por semana. Tasa de conversión de no-oyente a oyente habitual

UNIDADES DE PRUEBA

Usuarios activos que no escucharon ningún podcast en los últimos 90 días

VARIABLES EXTRAÑAS

Género musical preferido · antigüedad en plataforma · dispositivo principal · franja horaria de escucha

✏ Pedir a un voluntario que repita VI, VD y variables extrañas con el caso Rite Aid de apertura. Si hay dudas, resolver antes de continuar.

Sección 03

El lenguaje del
experimento

Variables, grupos, notación simbólica

Malhotra 2016 — pp. 159–161

Conceptos fundamentales del diseño experimental

Variable independiente (VI)

La que el investigador manipula. Precio, diseño, mensaje, canal. También llamada "tratamiento" o "factor".

Variable dependiente (VD)

La que se mide para detectar el efecto. Ventas, conversión, intención de compra, tiempo en sitio.

Variables extrañas

Todas las variables distintas a la VI que pueden afectar la VD. Son la amenaza principal a la validez interna.

Unidades de prueba

Individuos, grupos, tiendas o regiones sobre los que se aplica el tratamiento.

Grupo experimental

Las unidades que reciben el tratamiento (X).

Grupo de control

Las unidades que no reciben el tratamiento. Son el punto de comparación.

✏ Dibujar en pizarrón: Figura 6.3 de Malhotra — el esquema de definición de símbolos del experimento. X = tratamiento, O = observación, R = asignación aleatoria. El tiempo avanza →

Notación estándar — Malhotra 2016

Cómo leer el lenguaje de los diseños

Aplicación del tratamiento (VI). Puede haber X₁, X₂ para distintos niveles.

O₁ · O₂

Observación/medición de la VD. O₁ = pretest (antes), O₂ = postest (después).

Asignación aleatoria de las unidades a los grupos. La R es la garantía de equivalencia.

Ejemplo: diseño de solo postest con grupo de control

R: X → O₁   (grupo experimental)
R: — → O₁   (grupo de control)

La R garantiza que los grupos son equivalentes antes del tratamiento — por eso no se necesita pretest. Este es el diseño estándar del A/B testing moderno.

Sección 04

Validez interna
y externa

La tensión central del diseño experimental

Malhotra 2016 — p. 162, Figura 6.4

Dos dimensiones de validez en todo experimento

Validez interna

¿La VI realmente causó los cambios en la VD?

Requisito mínimo básico. Sin validez interna, los resultados no dicen nada. La garantiza el control de variables extrañas + aleatorización.

Validez externa

¿Los resultados se generalizan al mundo real?

A otras poblaciones, momentos, contextos. Los experimentos de laboratorio la sacrifican en favor del control interno.

La tensión irreducible: cuanto más se controla el ambiente (↑ validez interna), menos se parece al mercado real (↓ validez externa). La solución de Malhotra: usar diseños de laboratorio en etapas exploratorias, diseños de campo para confirmar y generalizar.

✏ Dibujar en pizarrón: Figura 6.4 de Malhotra — el diagrama bifurcado de validez interna (¿causó?) vs. validez externa (¿generaliza?).

Malhotra 2016 — pp. 163+ · Variables de confusión

Fuentes de variables extrañas que amenazan la validez interna

Variable extraña	Descripción breve	Ejemplo en LATAM
Historia	Evento externo ocurre durante el experimento	Estallido social chileno durante experimento de Falabella (2019)
Maduración	Cambio natural de las unidades con el tiempo	Consumidores aprenden a usar banca digital durante el experimento
Administración de pruebas	El pretest afecta el postest	Encuesta de satisfacción previa sensibiliza a los clientes sobre calidad de servicio
Sesgo de selección	Grupos no equivalentes antes del experimento	Asignar envío gratis solo a los mejores vendedores de Mercado Libre
Mortalidad experimental	Abandono diferencial entre grupos	Usuarios del grupo con nueva UI abandonan la app más; solo quedan los que se adaptan bien
Regresión estadística	Valores extremos regresan a la media	Seleccionar tiendas con ventas excepcionalmente bajas para el grupo experimental

Caso · Historia como variable extraña

Falabella Chile y el experimento interrumpido (octubre 2019)

Diseño: nuevas pantallas interactivas en 20 tiendas (10 experimental, 10 control), para medir efecto en ventas de electrónica
El problema: el 18 de octubre de 2019 comenzó el estallido social — tiendas experimentales en zonas de concentración de manifestaciones sufrieron cierres adicionales
Resultado: cualquier diferencia entre grupos reflejaba la geografía del conflicto, no el efecto de las pantallas — validez interna destruida
La variable extraña de historia: un evento externo afectó diferencialmente a los grupos, imposibilitando la atribución causal

⏸ Pregunta para el aula

¿Qué opciones tenía Falabella? ¿Cancelar, suspender y reiniciar, o intentar controlar estadísticamente el efecto del estallido? ¿Cuál recomendarías?

Sección 05

Tipos de diseños
experimentales

Preexperimentales · Verdaderos · Estadísticos

Malhotra 2016 — pp. 163–169

Tres familias de diseños — criterios clave

Criterio	Preexperimental	Experimental verdadero	Estadístico
Grupo de control	✗ No	✓ Sí	✓ Sí
Aleatorización (R)	✗ No	✓ Sí	✓ Sí
Validez interna	Baja	Alta	Alta
Variables independientes	1	1	2 o más
Detecta interacciones entre VI	✗ No	✗ No	✓ Sí
Uso típico	Exploración inicial	Investigación causal estándar	Optimización multivariable

✏ Dibujar en pizarrón: la escala de "poder causal" — de izquierda (bajo control, alta rapidez) a derecha (alto control, mayor costo y tiempo). Los preexperimentales a la izquierda, los estadísticos a la derecha.

Diseños preexperimentales — Malhotra pp. 164–165

Tres diseños sin aleatorización ni grupo de control

Estudio de caso único: X → O₁
Se aplica tratamiento y se mide. Sin pretest ni control. No permite ninguna inferencia causal.

Pretest-postest con un grupo: O₁ → X → O₂
La diferencia O₂−O₁ se atribuye a X, pero historia, maduración y efecto del pretest no están controlados.

Diseño del grupo estático: X → O₁ (experimental) / — → O₁ (control) — sin R
Hay control pero sin aleatorización. Sesgo de selección es la amenaza principal.

R ausente → grupos no equivalentes → sesgo de selección → inferencia causal inválida

Diseños experimentales verdaderos — Malhotra pp. 166–167

Dos diseños con aleatorización — el estándar de oro

EV1 — Pretest-postest con grupo de control

R: O₁ → X → O₂ (experimental)
R: O₁ → — → O₂ (control)

Ventajas: controla historia, maduración, sesgo de selección. Limitación: interacción pretest-tratamiento (los premuestreados pueden reaccionar diferente).

EV2 — Solo postest con grupo de control ★

R: X → O₁ (experimental)
R: — → O₁ (control)

El más limpio. La R garantiza equivalencia previa — no hace falta pretest. Elimina el efecto de reactividad. Es el diseño estándar del A/B testing moderno.

Diseño estadístico — Malhotra pp. 168–169

Diseño factorial: medir dos VI y su interacción

Interacción

Ocurre cuando el efecto de una VI depende del nivel de otra VI. Solo un diseño factorial puede detectarla.

Ejemplo — iFood (Brasil): factorial 2×2 para notificaciones push

	Mediodía	7pm
Oferta de descuento	✓ Alta conversión	Conversión media
Recordatorio de carrito	Conversión baja	✓ Alta conversión

La interacción es clave: el descuento funciona mejor a mediodía; el recordatorio funciona mejor a las 7pm. Un experimento con un solo factor hubiera perdido este insight — y posiblemente hubiera llegado a la conclusión equivocada.

✏ Dibujar en pizarrón: la tabla factorial 2×2 — Factor A (filas) × Factor B (columnas). Marcar las 4 celdas y mostrar cómo los efectos de A dependen del nivel de B.

⏸ Pregunta

Si iFood solo hubiera testeado descuento vs. recordatorio sin manipular el horario, ¿qué conclusión habría sacado? ¿Por qué estaría equivocada? (Habría promediado los efectos de ambos horarios y posiblemente concluido que el tipo de mensaje no importa — cuando cada uno tiene un horario óptimo muy diferente. La interacción hace incomprensible el efecto de cada factor por separado)

Sección 06

A/B testing digital
y prueba de mercado

El experimento como herramienta de decisión empresarial

Experimentación en la web — Malhotra p. 169 (actualizado)

A/B testing: el diseño de solo postest en la era digital

¿Por qué es un experimento verdadero?

Aleatorización automática → grupos equivalentes. Solo difiere la versión del elemento probado. Medición comportamental real (clics, compras), no auto-reporte.

Ventajas sobre el experimento clásico

Escala masiva de unidades de prueba. Bajo costo marginal. Velocidad: resultados en días, no meses. Múltiples experimentos simultáneos.

Limitaciones que Malhotra no anticipó

Peeking problem · Sesgo de novedad · Spillover entre grupos · p-hacking con muchos tests simultáneos · Validez externa limitada (solo usuarios de la app)

🌎 Escala LatAm

Mercado Libre: 200+ experimentos activos. Rappi y Nubank tienen equipos dedicados a experimentación. La infraestructura experimental es hoy una ventaja competitiva real.

A/B testing — cuatro limitaciones críticas

Lo que Malhotra no podía anticipar en 2016

Peeking problem: parar el experimento al ver p < 0,05 infla los falsos positivos. Si reviso los resultados cada hora y paro cuando hay resultado positivo, la probabilidad real de falso positivo puede superar el 30 %, no el 5 % nominal.

Efecto de novedad: los usuarios responden positivamente a cualquier elemento nuevo en una interfaz conocida. Experimentos cortos pueden capturar novedad y confundirla con un efecto genuino del diseño.

Spillover / contaminación: en plataformas de comunidad, usuarios del grupo control pueden ver contenido generado por el grupo experimental. El tratamiento contamina al control y subestima el efecto real.

Validez externa parcial: los usuarios de la app son más jóvenes, urbanos y digitalmente activos que el mercado total. Los resultados pueden no generalizarse a segmentos offline — especialmente relevante en LATAM donde esos segmentos son mayoría.

Malhotra 2016 — pp. 171–175

Prueba de mercado: el experimento de campo a escala real

Definición

Experimento controlado en mercados de prueba limitados que replica el programa nacional de marketing planeado. Reduce el riesgo antes de una decisión irreversible de lanzamiento.

Objetivo 1

Determinar la aceptación real del producto en condiciones reales de mercado — ¿los consumidores lo compran cuando tienen que pagarlo ellos?

Objetivo 2

Probar niveles alternativos de la mezcla de marketing — ¿qué precio, distribución, campaña funciona mejor en el mercado de prueba?

📖 Caso desactualizado — Malhotra

McDonald's Mac Snack Wrap: exitoso en la prueba de mercado, pero discontinuado globalmente después de 2016. El éxito en la prueba no garantiza el éxito a largo plazo — limitación del método.

Caso LatAm · Banco Central do Brasil — Pix (2020)

Del piloto al sistema de pagos más usado de LATAM

Piloto restringido (ago–sep 2020): instituciones seleccionadas + usuarios en regiones específicas — una prueba de mercado real antes del lanzamiento masivo
VI manipuladas: límites de transferencia, horarios de disponibilidad, número de instituciones participantes, requisitos de onboarding
VD medidas: tasa de adopción, volumen, incidencias de fraude, tiempo de procesamiento, satisfacción
Lo que reveló el piloto: el onboarding era demasiado complejo para usuarios mayores y zonas rurales con baja conectividad → simplificación antes del lanzamiento
Post-lanzamiento: 4,000 millones de transacciones mensuales en 2023 — el sistema de pago más adoptado en la historia de Brasil

⏸ Para pensar

¿Qué problema de validez tiene un piloto geográfico restringido — interna o externa? (Validez externa, no interna. El diseño puede ser causalmente válido dentro del mercado piloto, pero las regiones seleccionadas pueden no representar la diversidad demográfica, infraestructura bancaria y conectividad del país completo)

Malhotra 2016 — pp. 163 y 171 (actualizado)

Laboratorio vs. campo: la elección estratégica

Dimensión	Laboratorio	Campo	Digital (A/B test)
Control variables extrañas	Alto	Bajo	Alto (aleatorización)
Validez interna	Alta	Media	Alta
Validez externa	Baja	Alta	Media (solo usuarios digitales)
Costo	Medio	Alto	Bajo
Reactividad del participante	Alta	Baja	Muy baja (comportamiento real)
Velocidad	Días	Meses	Días

Innovación 2024: entornos de compra virtual (Kantar, Nielsen) combinan el control del laboratorio con el realismo perceptual del campo — especialmente valiosos para LATAM donde los experimentos de campo son logísticamente complejos.

Sección 07

LatAm, ética
y cierre

Desafíos regionales + dilemas éticos en experimentación

🌎 Contexto LatAm — Experimentación en la región

Por qué experimentar en LATAM es más difícil

Alta heterogeneidad intra-país: São Paulo ≠ Nordeste de Brasil; Buenos Aires ≠ interior de Argentina. Los mercados de prueba tienen baja representatividad nacional.
Volatilidad macro: inflación, devaluaciones y crisis pueden ocurrir durante el experimento, actuando como variables de historia que destruyen la validez interna.
Fragmentación regulatoria: LGPD (Brasil), Ley 25.326 (Argentina), LFPDPPP (México), Ley 18.331 (Uruguay) — distintos marcos para el uso de datos en experimentos.
Baja penetración digital: los A/B tests solo capturan a usuarios digitales — más urbanos, jóvenes y de mayores ingresos. El mercado total es más diverso.
Informalidad económica: los canales informales (ferias, mercados de pulgas) no son capturables con diseños experimentales estándar.

Malhotra 2016 — p. 176 + actualización (Facebook 2014)

Dilemas éticos en la investigación causal

Ocultamiento del propósito

Revelar el objetivo destruiría la validez. Malhotra: debe hacerse de forma ética, sin violar derechos. Solución: debriefing posterior al experimento.

Artefactos de demanda

Los participantes modifican su conducta si identifican el propósito. Son amenaza metodológica y ética: el "experimento" ya no mide el comportamiento real.

Caso Facebook (2014) — límite ético

700,000 usuarios con feeds de noticias manipulados para estudiar contagio emocional — sin consentimiento informado real. Legalmente permitido por ToS; éticamente cuestionado por la comunidad académica y la opinión pública.

🌎 Marco regulatorio LatAm

LGPD (Brasil, 2020) + Ley 25.326 (Argentina) + LFPDPPP (México) + Ley 18.331 (Uruguay): consentimiento informado obligatorio para experimentos con datos personales.

Ética en experimentación — caso límite

¿Un diseño técnicamente válido puede ser éticamente inaceptable?

EL CASO

Una empresa de e-commerce latinoamericana quiere hacer un A/B test donde a usuarios identificados como adolescentes por el algoritmo se les muestra publicidad de bebidas energéticas de alto contenido en cafeína. Al grupo de control no se les muestra. El diseño experimental es técnicamente correcto.

MARCO REGULATORIO POR PAÍS

Uruguay: Ley 18.331 + regulación de publicidad a menores. Brasil: ECA + LGPD. Argentina: Ley 25.326 + protecciones para menores. México: LFPDPPP.

⏸ Para la clase

¿Es éticamente aceptable aunque el diseño sea técnicamente válido? ¿La eficacia del experimento justifica el uso en esta población? ¿Qué diferencia hay entre lo que es legal y lo que es ético?

No hay respuesta única. El objetivo es articular que validez técnica y aceptabilidad ética son dimensiones independientes.

Fuentes del capítulo

Bibliografía — Capítulo 6

Malhotra, N. K. (2016). Investigación de mercados. Pearson. Cap. 6, pp. 154–179.

Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press.

Gordon, B. et al. (2019). Inefficiencies in Digital Advertising Markets. Journal of Marketing, 83(1), 7–25.

Kramer, A. et al. (2014). Experimental evidence of massive-scale emotional contagion through social networks. PNAS, 111(24), 8788–8790.

Imbens, G. & Rubin, D. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.

Banco Central do Brasil (2023). Relatório de Pagamentos Pix 2023. bcb.gov.br

Mercado Libre (2024). Annual Report 2023. investors.mercadolibre.com

Síntesis del capítulo 6

La causalidad
se diseña

— La correlación describe; el experimento explica
— Tres condiciones necesarias: covariación, orden temporal, eliminación de alternativas
— Validez interna (¿causó?) vs. validez externa (¿generaliza?) — tensión irreducible
— El A/B testing digital es el diseño de solo postest con grupo de control — escalado
— En LATAM: volatilidad macro, regulación fragmentada y baja penetración digital elevan el costo metodológico

Capítulo 6 · Malhotra 2016 Paula Pereda Suárez · Universidad de Montevideo