Investigación de Mercado · Capítulo 6
Experimentación e
investigación causal
Paula Pereda Suárez · Universidad de Montevideo
Hoja de ruta
¿Qué vamos a aprender hoy?
Caso de apertura + concepto de causalidad
Tres condiciones de causalidad + terminología experimental
Validez interna y externa + variables extrañas
Tipos de diseños experimentales — notación y lógica
A/B testing digital + prueba de mercado
LatAm, ética + cierre
Sección 01
¿Qué significa
que X causa Y?
Causalidad: el sentido común vs. la ciencia
Caso de apertura · Rite Aid Drug Company
Compras en el punto de venta: ¿el audio vende?
Pregunta de decisión gerencial
¿Los anuncios de radio dentro de la tienda causan un aumento en las compras de los productos anunciados?
  • 20 farmacias seleccionadas estadísticamente equivalentes (tamaño, ubicación, antigüedad, afluencia)
  • 10 farmacias → grupo experimental (con radio); 10 → grupo de control (sin radio)
  • Resultado: ventas significativamente superiores en tiendas con anuncios — y el diseño permitía atribuirlo causalmente
⏸ Pregunta inicial
¿Por qué no alcanzaba con comparar las ventas antes y después de instalar el radio en las tiendas? ¿Qué otras cosas podrían haber cambiado en ese período?
Concepto central · Malhotra Cap. 6
Dos significados de "X causa Y"
Sentido común
Determinista: X es la única causa de Y. Siempre que ocurre X, ocurre Y. "La campaña causó el aumento de ventas" implica que sin ella no hubiera habido ningún aumento.
Significado científico
Probabilístico: X aumenta la probabilidad de Y. No es la única causa, y la relación no es perfecta. El investigador busca que X sea una causa de Y, controlando el resto.
Dibujar en pizarrón: diagrama de causa múltiple — "ventas" en el centro, con flechas desde "publicidad", "precio", "estacionalidad", "acciones del competidor". X causa Y pero no es la única causa.
⏸ Para pensar
¿Cuándo el gerente de marketing dice "nuestra campaña de Instagram causó el pico de ventas de marzo" — está usando el significado cotidiano o el científico? ¿Qué necesitaría para poder decirlo científicamente?
Caso LatAm · Mercado Libre
¿El envío gratis causa mayor conversión o solo la revela?
  • Correlación observada: los productos con envío gratis tienen 3× más conversión — ¿el envío gratis la causa o los mejores vendedores lo ofrecen?
  • Problema de confusión: los vendedores con envío gratis también tienen mejor reputación, mejores fotos y precios más competitivos
  • La solución causal: A/B test — mismos productos, mismo vendedor, mismo precio. La única diferencia: el badge de "envío gratis" aparece o no según asignación aleatoria del usuario
  • Resultado causal: el envío gratis tiene efecto incremental positivo — pero menor al de la correlación observada. La diferencia: el sesgo de selección inflaba el correlacional
🌎 LatAm
Mercado Libre opera en 18 países de América Latina y corre más de 200 experimentos activos en simultáneo. El equipo de growth tiene una infraestructura experimental comparable a la de Amazon o eBay.
Correlación ≠ causalidad · pregunta diagnóstico
¿Por qué la correlación NO prueba que el envío gratis causa las ventas?
EL PROBLEMA
Los mejores vendedores tienen: mayor reputación, mejores fotos, mejores descripciones, más reseñas, precios más competitivos — y además pueden costear el envío gratis. La correlación puede reflejar que el vendedor mejor en todo tiene más ventas, no que el envío las causa.
CORRELACIÓN ESPURIA POR VARIABLE CONFUNDIDORA
Tanto el envío gratis como las ventas altas son consecuencias del mismo factor subyacente: la calidad general del vendedor. La correlación entre ambas no implica que una cause la otra.
EL EJEMPLO CLÁSICO
En verano aumentan tanto las heladerías abiertas como los ahogados en playas — correlación positiva alta. Nadie concluiría que las heladerías causan ahogamientos: ambas son causadas por el calor. Esa correlación es espuria.
⏸ Para la clase
¿Qué variables podrían estar detrás de la correlación entre envío gratis y ventas? ¿Cuántas explicaciones alternativas se les ocurren antes de aceptar la causal?
Sección 02
Las tres condiciones
de causalidad
Ninguna sola es suficiente — las tres deben satisfacerse
Malhotra 2016 — p. 157
Condiciones necesarias para inferir causalidad
1
Variación concomitante
X e Y deben variar juntas según la hipótesis. Si no existe covariación, X no puede ser causa de Y — aunque coincidan en el tiempo.
2
Orden temporal
X debe preceder o ser simultánea a Y. Una causa no puede ocurrir después de su efecto. En el diseño experimental: el tratamiento se aplica antes de medir la VD.
3
Eliminación de factores alternativos
Deben descartarse explicaciones rivales. Esto es lo más difícil — y es precisamente lo que el diseño experimental busca garantizar con control y aleatorización.
Las tres condiciones — dónde falla cada una
Covariación engaña · orden es ambiguo · alternativas nunca se descartan del todo
CONDICIÓN 1 PUEDE ENGAÑAR — CORRELACIÓN ESPURIA
La covariación es la condición más fácil de detectar —y la más engañosa. Dos variables pueden correlacionar sin que ninguna cause a la otra, porque ambas son efectos de una tercera variable Z. La correlación necesaria, pero no suficiente.
CONDICIÓN 2 — EL PROBLEMA DE LOS ESTUDIOS TRANSVERSALES
Si mido satisfacción y lealtad en la misma encuesta, no puedo saber si la satisfacción produce lealtad o si los clientes leales valoran mejor el servicio retroactivamente. Cuando las variables se miden simultáneamente, la dirección causal es ambigua. El experimento resuelve esto estructuralmente.
CONDICIÓN 3 — NUNCA SE SATISFACE ABSOLUTAMENTE
Nunca se puede descartar todo factor alternativo con certeza absoluta. Lo que el diseño experimental hace es reducir progresivamente las explicaciones rivales plausibles hasta que la hipótesis causal sea la más parsimoniosa. La aleatorización es la herramienta más poderosa para esto.
Caso LatAm · Nubank (Brasil)
¿El límite de crédito más alto causa mayor retención?
Condición 1 — Variación concomitante
Datos históricos: usuarios con límites mayores tienen retención superior. La covariación existe — pero puede ser espuria.
Condición 2 — Orden temporal
Experimento: se asigna el límite mayor ANTES de medir retención a 12 meses. El tratamiento precede al efecto medido.
Condición 3 — Eliminación de alternativas
Aleatorización garantiza equivalencia: mismo perfil crediticio, edad, ingresos. La diferencia en retención se atribuye causalmente al límite.
⏸ Pregunta
¿Qué condición quedaría comprometida si Nubank ofreciera el límite mayor solo a usuarios que ya hubieran hecho 3 compras? ¿Por qué? (Condición 3 — los usuarios con 3+ transacciones son sistemáticamente más activos y comprometidos antes del tratamiento: hay sesgo de selección)
Terminología en acción · Spotify
Identificar VI, VD, grupos y variables extrañas en un caso real
CONTEXTO
Spotify quiere saber si una nueva sección de recomendaciones de podcasts en español en la pantalla de inicio produce oyentes nuevos entre usuarios que actualmente no escuchan podcasts en ARG, MEX y COL.
VI — LO QUE SE MANIPULA
Presencia o ausencia de la sección de recomendaciones de podcasts en la pantalla de inicio
VD — LO QUE SE MIDE
Minutos de podcasts escuchados por semana. Tasa de conversión de no-oyente a oyente habitual
UNIDADES DE PRUEBA
Usuarios activos que no escucharon ningún podcast en los últimos 90 días
VARIABLES EXTRAÑAS
Género musical preferido · antigüedad en plataforma · dispositivo principal · franja horaria de escucha
Pedir a un voluntario que repita VI, VD y variables extrañas con el caso Rite Aid de apertura. Si hay dudas, resolver antes de continuar.
Sección 03
El lenguaje del
experimento
Variables, grupos, notación simbólica
Malhotra 2016 — pp. 159–161
Conceptos fundamentales del diseño experimental
Variable independiente (VI)
La que el investigador manipula. Precio, diseño, mensaje, canal. También llamada "tratamiento" o "factor".
Variable dependiente (VD)
La que se mide para detectar el efecto. Ventas, conversión, intención de compra, tiempo en sitio.
Variables extrañas
Todas las variables distintas a la VI que pueden afectar la VD. Son la amenaza principal a la validez interna.
Unidades de prueba
Individuos, grupos, tiendas o regiones sobre los que se aplica el tratamiento.
Grupo experimental
Las unidades que reciben el tratamiento (X).
Grupo de control
Las unidades que no reciben el tratamiento. Son el punto de comparación.
Dibujar en pizarrón: Figura 6.3 de Malhotra — el esquema de definición de símbolos del experimento. X = tratamiento, O = observación, R = asignación aleatoria. El tiempo avanza →
Notación estándar — Malhotra 2016
Cómo leer el lenguaje de los diseños
X
Aplicación del tratamiento (VI). Puede haber X₁, X₂ para distintos niveles.
O₁ · O₂
Observación/medición de la VD. O₁ = pretest (antes), O₂ = postest (después).
R
Asignación aleatoria de las unidades a los grupos. La R es la garantía de equivalencia.
Ejemplo: diseño de solo postest con grupo de control
R: X → O₁   (grupo experimental)
R: — → O₁   (grupo de control)
La R garantiza que los grupos son equivalentes antes del tratamiento — por eso no se necesita pretest. Este es el diseño estándar del A/B testing moderno.
Sección 04
Validez interna
y externa
La tensión central del diseño experimental
Malhotra 2016 — p. 162, Figura 6.4
Dos dimensiones de validez en todo experimento
Validez interna
¿La VI realmente causó los cambios en la VD?

Requisito mínimo básico. Sin validez interna, los resultados no dicen nada. La garantiza el control de variables extrañas + aleatorización.
Validez externa
¿Los resultados se generalizan al mundo real?

A otras poblaciones, momentos, contextos. Los experimentos de laboratorio la sacrifican en favor del control interno.
La tensión irreducible: cuanto más se controla el ambiente (↑ validez interna), menos se parece al mercado real (↓ validez externa). La solución de Malhotra: usar diseños de laboratorio en etapas exploratorias, diseños de campo para confirmar y generalizar.
Dibujar en pizarrón: Figura 6.4 de Malhotra — el diagrama bifurcado de validez interna (¿causó?) vs. validez externa (¿generaliza?).
Malhotra 2016 — pp. 163+ · Variables de confusión
Fuentes de variables extrañas que amenazan la validez interna
Variable extrañaDescripción breveEjemplo en LATAM
HistoriaEvento externo ocurre durante el experimentoEstallido social chileno durante experimento de Falabella (2019)
MaduraciónCambio natural de las unidades con el tiempoConsumidores aprenden a usar banca digital durante el experimento
Administración de pruebasEl pretest afecta el postestEncuesta de satisfacción previa sensibiliza a los clientes sobre calidad de servicio
Sesgo de selecciónGrupos no equivalentes antes del experimentoAsignar envío gratis solo a los mejores vendedores de Mercado Libre
Mortalidad experimentalAbandono diferencial entre gruposUsuarios del grupo con nueva UI abandonan la app más; solo quedan los que se adaptan bien
Regresión estadísticaValores extremos regresan a la mediaSeleccionar tiendas con ventas excepcionalmente bajas para el grupo experimental
Caso · Historia como variable extraña
Falabella Chile y el experimento interrumpido (octubre 2019)
  • Diseño: nuevas pantallas interactivas en 20 tiendas (10 experimental, 10 control), para medir efecto en ventas de electrónica
  • El problema: el 18 de octubre de 2019 comenzó el estallido social — tiendas experimentales en zonas de concentración de manifestaciones sufrieron cierres adicionales
  • Resultado: cualquier diferencia entre grupos reflejaba la geografía del conflicto, no el efecto de las pantallas — validez interna destruida
  • La variable extraña de historia: un evento externo afectó diferencialmente a los grupos, imposibilitando la atribución causal
⏸ Pregunta para el aula
¿Qué opciones tenía Falabella? ¿Cancelar, suspender y reiniciar, o intentar controlar estadísticamente el efecto del estallido? ¿Cuál recomendarías?
Sección 05
Tipos de diseños
experimentales
Preexperimentales · Verdaderos · Estadísticos
Malhotra 2016 — pp. 163–169
Tres familias de diseños — criterios clave
CriterioPreexperimentalExperimental verdaderoEstadístico
Grupo de control✗ No✓ Sí✓ Sí
Aleatorización (R)✗ No✓ Sí✓ Sí
Validez internaBajaAltaAlta
Variables independientes112 o más
Detecta interacciones entre VI✗ No✗ No✓ Sí
Uso típicoExploración inicialInvestigación causal estándarOptimización multivariable
Dibujar en pizarrón: la escala de "poder causal" — de izquierda (bajo control, alta rapidez) a derecha (alto control, mayor costo y tiempo). Los preexperimentales a la izquierda, los estadísticos a la derecha.
Diseños preexperimentales — Malhotra pp. 164–165
Tres diseños sin aleatorización ni grupo de control
E1
Estudio de caso único: X → O₁
Se aplica tratamiento y se mide. Sin pretest ni control. No permite ninguna inferencia causal.
E2
Pretest-postest con un grupo: O₁ → X → O₂
La diferencia O₂−O₁ se atribuye a X, pero historia, maduración y efecto del pretest no están controlados.
E3
Diseño del grupo estático: X → O₁ (experimental) / — → O₁ (control) — sin R
Hay control pero sin aleatorización. Sesgo de selección es la amenaza principal.
R ausente → grupos no equivalentes → sesgo de selección → inferencia causal inválida
Diseños experimentales verdaderos — Malhotra pp. 166–167
Dos diseños con aleatorización — el estándar de oro
EV1 — Pretest-postest con grupo de control
R: O₁ → X → O₂  (experimental)
R: O₁ → — → O₂  (control)
Ventajas: controla historia, maduración, sesgo de selección. Limitación: interacción pretest-tratamiento (los premuestreados pueden reaccionar diferente).
EV2 — Solo postest con grupo de control ★
R: X → O₁  (experimental)
R: — → O₁  (control)
El más limpio. La R garantiza equivalencia previa — no hace falta pretest. Elimina el efecto de reactividad. Es el diseño estándar del A/B testing moderno.
Diseño estadístico — Malhotra pp. 168–169
Diseño factorial: medir dos VI y su interacción
Interacción
Ocurre cuando el efecto de una VI depende del nivel de otra VI. Solo un diseño factorial puede detectarla.
Ejemplo — iFood (Brasil): factorial 2×2 para notificaciones push
Mediodía7pm
Oferta de descuento✓ Alta conversiónConversión media
Recordatorio de carritoConversión baja✓ Alta conversión
La interacción es clave: el descuento funciona mejor a mediodía; el recordatorio funciona mejor a las 7pm. Un experimento con un solo factor hubiera perdido este insight — y posiblemente hubiera llegado a la conclusión equivocada.
Dibujar en pizarrón: la tabla factorial 2×2 — Factor A (filas) × Factor B (columnas). Marcar las 4 celdas y mostrar cómo los efectos de A dependen del nivel de B.
⏸ Pregunta
Si iFood solo hubiera testeado descuento vs. recordatorio sin manipular el horario, ¿qué conclusión habría sacado? ¿Por qué estaría equivocada? (Habría promediado los efectos de ambos horarios y posiblemente concluido que el tipo de mensaje no importa — cuando cada uno tiene un horario óptimo muy diferente. La interacción hace incomprensible el efecto de cada factor por separado)
Sección 06
A/B testing digital
y prueba de mercado
El experimento como herramienta de decisión empresarial
Experimentación en la web — Malhotra p. 169 (actualizado)
A/B testing: el diseño de solo postest en la era digital
¿Por qué es un experimento verdadero?
Aleatorización automática → grupos equivalentes. Solo difiere la versión del elemento probado. Medición comportamental real (clics, compras), no auto-reporte.
Ventajas sobre el experimento clásico
Escala masiva de unidades de prueba. Bajo costo marginal. Velocidad: resultados en días, no meses. Múltiples experimentos simultáneos.
Limitaciones que Malhotra no anticipó
Peeking problem · Sesgo de novedad · Spillover entre grupos · p-hacking con muchos tests simultáneos · Validez externa limitada (solo usuarios de la app)
🌎 Escala LatAm
Mercado Libre: 200+ experimentos activos. Rappi y Nubank tienen equipos dedicados a experimentación. La infraestructura experimental es hoy una ventaja competitiva real.
A/B testing — cuatro limitaciones críticas
Lo que Malhotra no podía anticipar en 2016
01
Peeking problem: parar el experimento al ver p < 0,05 infla los falsos positivos. Si reviso los resultados cada hora y paro cuando hay resultado positivo, la probabilidad real de falso positivo puede superar el 30 %, no el 5 % nominal.
02
Efecto de novedad: los usuarios responden positivamente a cualquier elemento nuevo en una interfaz conocida. Experimentos cortos pueden capturar novedad y confundirla con un efecto genuino del diseño.
03
Spillover / contaminación: en plataformas de comunidad, usuarios del grupo control pueden ver contenido generado por el grupo experimental. El tratamiento contamina al control y subestima el efecto real.
04
Validez externa parcial: los usuarios de la app son más jóvenes, urbanos y digitalmente activos que el mercado total. Los resultados pueden no generalizarse a segmentos offline — especialmente relevante en LATAM donde esos segmentos son mayoría.
Malhotra 2016 — pp. 171–175
Prueba de mercado: el experimento de campo a escala real
Definición
Experimento controlado en mercados de prueba limitados que replica el programa nacional de marketing planeado. Reduce el riesgo antes de una decisión irreversible de lanzamiento.
Objetivo 1
Determinar la aceptación real del producto en condiciones reales de mercado — ¿los consumidores lo compran cuando tienen que pagarlo ellos?
Objetivo 2
Probar niveles alternativos de la mezcla de marketing — ¿qué precio, distribución, campaña funciona mejor en el mercado de prueba?
📖 Caso desactualizado — Malhotra
McDonald's Mac Snack Wrap: exitoso en la prueba de mercado, pero discontinuado globalmente después de 2016. El éxito en la prueba no garantiza el éxito a largo plazo — limitación del método.
Caso LatAm · Banco Central do Brasil — Pix (2020)
Del piloto al sistema de pagos más usado de LATAM
  • Piloto restringido (ago–sep 2020): instituciones seleccionadas + usuarios en regiones específicas — una prueba de mercado real antes del lanzamiento masivo
  • VI manipuladas: límites de transferencia, horarios de disponibilidad, número de instituciones participantes, requisitos de onboarding
  • VD medidas: tasa de adopción, volumen, incidencias de fraude, tiempo de procesamiento, satisfacción
  • Lo que reveló el piloto: el onboarding era demasiado complejo para usuarios mayores y zonas rurales con baja conectividad → simplificación antes del lanzamiento
  • Post-lanzamiento: 4,000 millones de transacciones mensuales en 2023 — el sistema de pago más adoptado en la historia de Brasil
⏸ Para pensar
¿Qué problema de validez tiene un piloto geográfico restringido — interna o externa? (Validez externa, no interna. El diseño puede ser causalmente válido dentro del mercado piloto, pero las regiones seleccionadas pueden no representar la diversidad demográfica, infraestructura bancaria y conectividad del país completo)
Malhotra 2016 — pp. 163 y 171 (actualizado)
Laboratorio vs. campo: la elección estratégica
DimensiónLaboratorioCampoDigital (A/B test)
Control variables extrañasAltoBajoAlto (aleatorización)
Validez internaAltaMediaAlta
Validez externaBajaAltaMedia (solo usuarios digitales)
CostoMedioAltoBajo
Reactividad del participanteAltaBajaMuy baja (comportamiento real)
VelocidadDíasMesesDías
Innovación 2024: entornos de compra virtual (Kantar, Nielsen) combinan el control del laboratorio con el realismo perceptual del campo — especialmente valiosos para LATAM donde los experimentos de campo son logísticamente complejos.
Sección 07
LatAm, ética
y cierre
Desafíos regionales + dilemas éticos en experimentación
🌎 Contexto LatAm — Experimentación en la región
Por qué experimentar en LATAM es más difícil
  • Alta heterogeneidad intra-país: São Paulo ≠ Nordeste de Brasil; Buenos Aires ≠ interior de Argentina. Los mercados de prueba tienen baja representatividad nacional.
  • Volatilidad macro: inflación, devaluaciones y crisis pueden ocurrir durante el experimento, actuando como variables de historia que destruyen la validez interna.
  • Fragmentación regulatoria: LGPD (Brasil), Ley 25.326 (Argentina), LFPDPPP (México), Ley 18.331 (Uruguay) — distintos marcos para el uso de datos en experimentos.
  • Baja penetración digital: los A/B tests solo capturan a usuarios digitales — más urbanos, jóvenes y de mayores ingresos. El mercado total es más diverso.
  • Informalidad económica: los canales informales (ferias, mercados de pulgas) no son capturables con diseños experimentales estándar.
Malhotra 2016 — p. 176 + actualización (Facebook 2014)
Dilemas éticos en la investigación causal
Ocultamiento del propósito
Revelar el objetivo destruiría la validez. Malhotra: debe hacerse de forma ética, sin violar derechos. Solución: debriefing posterior al experimento.
Artefactos de demanda
Los participantes modifican su conducta si identifican el propósito. Son amenaza metodológica y ética: el "experimento" ya no mide el comportamiento real.
Caso Facebook (2014) — límite ético
700,000 usuarios con feeds de noticias manipulados para estudiar contagio emocional — sin consentimiento informado real. Legalmente permitido por ToS; éticamente cuestionado por la comunidad académica y la opinión pública.
🌎 Marco regulatorio LatAm
LGPD (Brasil, 2020) + Ley 25.326 (Argentina) + LFPDPPP (México) + Ley 18.331 (Uruguay): consentimiento informado obligatorio para experimentos con datos personales.
Ética en experimentación — caso límite
¿Un diseño técnicamente válido puede ser éticamente inaceptable?
EL CASO
Una empresa de e-commerce latinoamericana quiere hacer un A/B test donde a usuarios identificados como adolescentes por el algoritmo se les muestra publicidad de bebidas energéticas de alto contenido en cafeína. Al grupo de control no se les muestra. El diseño experimental es técnicamente correcto.
MARCO REGULATORIO POR PAÍS
Uruguay: Ley 18.331 + regulación de publicidad a menores. Brasil: ECA + LGPD. Argentina: Ley 25.326 + protecciones para menores. México: LFPDPPP.
⏸ Para la clase
¿Es éticamente aceptable aunque el diseño sea técnicamente válido? ¿La eficacia del experimento justifica el uso en esta población? ¿Qué diferencia hay entre lo que es legal y lo que es ético?
No hay respuesta única. El objetivo es articular que validez técnica y aceptabilidad ética son dimensiones independientes.
Fuentes del capítulo
Bibliografía — Capítulo 6
Malhotra, N. K. (2016). Investigación de mercados. Pearson. Cap. 6, pp. 154–179.
Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press.
Gordon, B. et al. (2019). Inefficiencies in Digital Advertising Markets. Journal of Marketing, 83(1), 7–25.
Kramer, A. et al. (2014). Experimental evidence of massive-scale emotional contagion through social networks. PNAS, 111(24), 8788–8790.
Imbens, G. & Rubin, D. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.
Banco Central do Brasil (2023). Relatório de Pagamentos Pix 2023. bcb.gov.br
Mercado Libre (2024). Annual Report 2023. investors.mercadolibre.com
Síntesis del capítulo 6
La causalidad
se diseña
  • La correlación describe; el experimento explica
  • Tres condiciones necesarias: covariación, orden temporal, eliminación de alternativas
  • Validez interna (¿causó?) vs. validez externa (¿generaliza?) — tensión irreducible
  • El A/B testing digital es el diseño de solo postest con grupo de control — escalado
  • En LATAM: volatilidad macro, regulación fragmentada y baja penetración digital elevan el costo metodológico
Capítulo 6 · Malhotra 2016 Paula Pereda Suárez · Universidad de Montevideo