Investigación de Mercado · Capítulo 6

Experimentación e
investigación causal

Paula Pereda Suárez · Universidad de Montevideo
Diapositivas

Diapositivas de referencia

Presentación de la clase. Usá las flechas del teclado o los controles para navegar. Presioná F para pantalla completa.

Apertura

Caso de apertura: cuando la correlación no basta

El capítulo abre con Rite Aid y un experimento sobre publicidad en tienda. El caso ilustra por qué la investigación descriptiva puede identificar patrones, pero solo la investigación causal puede responder si X realmente provoca Y.

📖 Caso de apertura — Malhotra 2016 (vigente en su lógica)

Rite Aid Drug Company quería saber si los anuncios de radio dentro de sus tiendas incentivaban compras en el punto de venta (PDV). Se seleccionaron 20 farmacias estadísticamente equivalentes —por tamaño, ubicación, antigüedad y afluencia— y se asignaron aleatoriamente: 10 al grupo de prueba (con radio) y 10 al grupo de control (sin radio).

El resultado fue claro: las tiendas con publicidad radial mostraron incrementos significativos en las ventas de los productos anunciados. Porque se manipuló una variable (el audio) mientras todo lo demás permanecía constante, fue posible atribuir causalmente el efecto al tratamiento.

La lección metodológica: si Rite Aid simplemente hubiera comparado ventas históricas con ventas actuales, no habría podido descartar que el aumento se debiera a la estación del año, promociones de precios o cambios en el flujo de clientes. El diseño experimental con grupo de control elimina esas explicaciones alternativas.

Caso sustituto: Mercado Libre y el experimento de pricing dinámico

caso reallatinoamérica

Mercado Libre (Argentina/LATAM) opera uno de los ecosistemas de e-commerce más grandes de América Latina, con presencia en 18 países. Su equipo de data science realiza experimentos controlados de forma permanente para optimizar desde la interfaz hasta la política de precios y los costos de envío.

📦 Caso en clase — Investigación causal en e-commerce

Mercado Libre: ¿el envío gratis causa mayor conversión o solo la revela?

Pregunta causal: ¿ofrecer envío gratis en una categoría aumenta la tasa de conversión, o los productos con envío gratis simplemente son más baratos y de mejores vendedores?

Por qué no alcanza una descriptiva: una encuesta o análisis de datos históricos mostraría correlación entre envío gratis y mayor conversión. Pero esa correlación podría estar explicada por otras variables —calidad del vendedor, precio del producto, reputación— y no por el envío en sí.

El diseño causal: Mercado Libre asigna aleatoriamente un subconjunto de usuarios que ven la misma categoría con y sin el badge de "envío gratis". Todo lo demás (vendedor, precio, descripción) permanece idéntico. La aleatorización garantiza que cualquier diferencia en conversión se debe causalmente al envío.

Resultado: el equipo puede separar el efecto causal del envío del efecto de confusión de la calidad del vendedor. Ese insight orienta decisiones de política comercial que afectan a millones de vendedores en toda la región.

Pregunta para clase: ¿Qué pasaría si en vez de asignar aleatoriamente, Mercado Libre ofreciera envío gratis solo a sus mejores vendedores? ¿Por qué eso introduciría sesgo de selección y destruiría la validez interna del experimento?

📚 Referencias
Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing. Cambridge University Press. — Manual de referencia de la industria para diseño experimental digital.
Mercado Libre (2024). Annual Report 2023. investors.mercadolibre.com — Datos de GMV, usuarios activos y expansión por país.
Sección 01

Concepto de causalidad

La causalidad en investigación de mercados tiene un significado científico preciso y más restrictivo que el uso cotidiano del término. Entender esta distinción es el punto de partida de todo el capítulo.

📖 Malhotra 2016 — Significado científico vs. cotidiano de causalidad

Cuando una persona común dice "X causa Y" —por ejemplo, "la publicidad causó el aumento de ventas"— implica que X es la única causa de Y y que la relación es determinista: siempre que aparezca X, ocurrirá Y.

En investigación de mercados, la causalidad científica es más modesta: X es una causa de Y si X contribuye a la probabilidad de que Y ocurra. No se asume que X sea la única causa, ni que la relación sea perfecta. El investigador busca establecer que X hace más probable a Y, controlando la influencia de otras variables.

Esta distinción importa en la práctica: un gerente puede decir "la campaña de influencers causó el pico de ventas". El investigador necesita preguntarse: ¿qué otras variables podrían explicar ese pico? ¿Coincidió con el Día de la Madre? ¿Hubo una promoción de precio simultánea? ¿El algoritmo de Instagram amplificó orgánicamente ese día?

Concepto clave: la investigación causal no "prueba" causalidad en sentido absoluto. Construye evidencia consistente con una relación causal al satisfacer tres condiciones necesarias y al descartar explicaciones alternativas.

El problema de la causalidad inversa en marketing digital

bibliografíacaso real

Uno de los errores más comunes en el análisis de datos de marketing digital es confundir dirección causal. Los datos muestran que los usuarios que ven más anuncios también compran más. ¿Los anuncios causan las compras, o los compradores frecuentes son los que más ven anuncios porque el algoritmo los identifica como audiencia de alto valor?

Meta (Facebook/Instagram) enfrenta este problema al medir el ROAS (Return on Ad Spend): sus propios modelos de atribución sobreestiman el impacto de los anuncios porque los muestran principalmente a usuarios que ya tenían alta intención de compra. Varios estudios académicos encontraron que entre el 30% y el 50% de las ventas atribuidas a anuncios digitales habrían ocurrido de todas formas.

La solución experimental: un experimento con holdout groups —donde un porcentaje de usuarios similares no recibe los anuncios— permite estimar el efecto causal incremental (uplift), no el correlacional.

📚 Fuentes
Gordon, B. et al. (2019). "Inefficiencies in Digital Advertising Markets." Journal of Marketing, 83(1), 7–25.
Lewis, R. & Rao, J. (2015). "The unfavorable economics of measuring the returns to advertising." Quarterly Journal of Economics, 130(4), 1941–1973.
Sección 02

Condiciones para establecer causalidad

Malhotra establece tres condiciones necesarias para inferir que X causa Y. Ninguna por sí sola es suficiente; las tres deben satisfacerse conjuntamente.

📖 Malhotra 2016 — Las tres condiciones de causalidad
  • 1. Variación concomitante: X e Y deben variar juntas de acuerdo con la hipótesis. Si X aumenta, Y debería aumentar (o disminuir) en la dirección predicha. Si no hay covariación, X no puede ser causa de Y.
  • 2. Orden temporal de ocurrencia: X debe preceder o ocurrir simultáneamente con Y. Una causa no puede ocurrir después de su efecto. En investigación de mercados esto implica que la manipulación (tratamiento) debe aplicarse antes de medir la variable dependiente.
  • 3. Eliminación de factores causales alternativos: Deben descartarse explicaciones rivales. Esto es lo más difícil de satisfacer y es precisamente lo que el diseño experimental busca garantizar mediante el control de variables extrañas y la asignación aleatoria.

Aplicando las tres condiciones: el caso de Nubank y la tasa de aprobación

caso reallatinoamérica

Nubank (Brasil/LATAM) quería determinar si aumentar la tasa de aprobación crediticia en el segmento de usuarios nuevos causaría una mayor tasa de retención a 12 meses, o si simplemente incorporaría más usuarios de alto riesgo que terminarían abandonando por deudas impagas.

📦 Caso en clase — Las tres condiciones en acción

Nubank: ¿la aprobación crediticia causa retención?

Variación concomitante: los datos históricos mostraban que los usuarios aprobados para montos más altos tenían tasas de retención superiores. La covariación existía — pero podría ser espuria (los usuarios con mejor historial crediticio son más confiables y también más leales).

Orden temporal: el experimento asignó aleatoriamente a nuevos usuarios en dos grupos: uno recibía el límite de crédito estándar y otro recibía un límite 40% superior. La manipulación (tratamiento) precedió a la medición de retención — condición temporal satisfecha.

Eliminación de alternativas: la aleatorización garantizó que ambos grupos fueran equivalentes en perfil crediticio, edad, ingresos declarados y comportamiento previo. Cualquier diferencia en retención a 12 meses se atribuyó causalmente al límite de crédito.

Pregunta para clase: ¿Qué habría pasado si Nubank ofreciera el límite mayor solo a usuarios que ya hubieran hecho 3 compras? ¿Qué condición de causalidad quedaría comprometida?

Sección 03

Conceptos y terminología experimental

El lenguaje de la experimentación es preciso. Estos son los conceptos fundamentales que permiten describir, comparar y comunicar diseños experimentales.

📖 Malhotra 2016 — Definiciones fundamentales
  • Variable independiente (VI): la variable que el investigador manipula o controla. También llamada "tratamiento" o "factor". Ejemplo: el precio de un producto, el diseño de un empaque, la versión de un anuncio.
  • Variable dependiente (VD): la variable que se mide para determinar el efecto del tratamiento. Ejemplo: ventas, intención de compra, tiempo en sitio web, tasa de conversión.
  • Variables extrañas: todas las variables distintas a las independientes que pueden afectar a la variable dependiente. Son la principal amenaza a la validez de un experimento.
  • Unidades de prueba: los individuos, grupos, organizaciones o áreas geográficas sobre los que se aplica el tratamiento y se mide el efecto.
  • Grupo experimental: las unidades de prueba que reciben el tratamiento.
  • Grupo de control: las unidades de prueba que no reciben el tratamiento, usadas como punto de comparación.
  • Asignación aleatoria: el mecanismo que garantiza que las unidades de prueba se asignen a grupos experimental o de control por azar, haciendo equivalentes a los grupos en todas las variables relevantes.
Notación simbólica (Malhotra): X = aplicación del tratamiento (variable independiente) · O = observación o medición de la variable dependiente · R = asignación aleatoria de las unidades de prueba a los grupos. El tiempo avanza de izquierda a derecha en todos los diagramas.

Terminología en la práctica: el experimento de Spotify en LATAM

caso reallatinoamérica

Spotify diseñó un experimento para evaluar si agregar recomendaciones de podcasts en español a la pantalla de inicio aumentaba el consumo de podcasts entre usuarios de Argentina, México y Colombia.

ConceptoEn el experimento de Spotify
Variable independientePresencia de recomendaciones de podcasts en español en la pantalla de inicio (2 niveles: presente / ausente)
Variable dependienteMinutos escuchados de podcasts por semana, tasa de conversión a oyentes de podcasts
Unidades de pruebaUsuarios activos en los tres países que no eran oyentes habituales de podcasts
Grupo experimentalUsuarios que ven las recomendaciones de podcasts en español
Grupo de controlUsuarios que ven la pantalla de inicio estándar sin las recomendaciones
Variables extrañasGénero musical preferido, antigüedad en la plataforma, dispositivo usado, horario de uso
Asignación aleatoriaSí — algoritmo de asignación aleatoria estratificada por país y perfil de uso
Sección 04

Validez interna y externa

Todo experimento debe evaluarse en dos dimensiones de validez. Mejorar una frecuentemente implica sacrificar la otra — una tensión central en el diseño experimental aplicado.

📖 Malhotra 2016 — Dos tipos de validez

Validez interna: se refiere a si la manipulación de la variable independiente realmente causó los efectos observados en la variable dependiente. Un experimento tiene validez interna cuando se han controlado las variables extrañas y los resultados pueden atribuirse al tratamiento. Es el requisito mínimo básico: sin validez interna, los resultados son ininterpretables.

Validez externa: se refiere a si los resultados pueden generalizarse más allá del experimento — a otras poblaciones, contextos, momentos o variables. Un experimento de laboratorio puede tener alta validez interna pero baja validez externa si las condiciones artificiales no representan el mercado real.

La tensión entre ambas: los experimentos de laboratorio maximizan el control (alta validez interna) pero minimizan el realismo (baja validez externa). Los experimentos de campo sacrifican algo de control a cambio de mayor generalización.

La tensión validez interna vs. externa en el mundo digital

bibliografíacaso real

Los experimentos digitales (A/B tests en plataformas) tienen naturalmente alta validez interna —la aleatorización es técnicamente rigurosa— pero pueden tener problemas de validez externa que no siempre se discuten en la práctica:

  • Sesgo de usuario online: los usuarios de una plataforma no representan a toda la población objetivo. Un A/B test de Rappi en Colombia aplica solo a usuarios de la app, que son más jóvenes y digitalmente activos que el mercado total.
  • Efecto de novedad: los usuarios del grupo experimental pueden responder positivamente a un cambio simplemente porque es nuevo, no porque sea mejor. Este efecto desaparece con el tiempo.
  • Spillover entre grupos: en mercados pequeños o comunidades, el "tratamiento" puede contaminar al grupo de control a través de conversaciones, recomendaciones o visualización del comportamiento de otros.
📚 Fuentes
Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press. Cap. 3: "Threats to validity in online experiments".
Imbens, G. & Rubin, D. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.
Sección 05

Control de variables extrañas

Las variables extrañas son la principal amenaza a la validez interna. Malhotra identifica varios tipos específicos y sus métodos de control.

📖 Malhotra 2016 — Fuentes de variables extrañas
  • Historia: eventos externos que ocurren entre mediciones y afectan la VD. En un experimento de 3 meses, una crisis económica o una campaña del competidor son variables históricas.
  • Maduración: cambios naturales en las unidades de prueba con el tiempo (envejecimiento, aprendizaje, fatiga), no relacionados con el tratamiento.
  • Administración de pruebas: el efecto de haber realizado una medición previa (pretest) sobre la medición posterior (postest). Los participantes aprenden o cambian de actitud por haber sido medidos.
  • Instrumentación: cambios en el instrumento de medición entre el pretest y el postest (un encuestador diferente, una escala calibrada distinto).
  • Regresión estadística: las unidades de prueba seleccionadas por sus valores extremos tienden naturalmente a regresar hacia la media en mediciones posteriores.
  • Sesgo de selección: las unidades de prueba en el grupo experimental y de control son sistemáticamente diferentes antes de que comience el experimento.
  • Mortalidad experimental: algunas unidades abandonan el experimento de forma diferencial entre grupos, sesgando los resultados.
📖 Métodos para controlar variables extrañas
  • Aleatorización: asignar unidades aleatoriamente a grupos garantiza que las variables extrañas se distribuyan equitativamente. Es el método más poderoso.
  • Igualación: asegurar que los grupos sean equivalentes en variables críticas (por ejemplo, mismo nivel de ventas inicial, mismo tamaño de tienda).
  • Grupos de control: incluir un grupo que no recibe tratamiento para aislar el efecto del tratamiento de otros factores.
  • Covarianza estadística (ANCOVA): controlar estadísticamente el efecto de las variables extrañas identificadas, midiendo y ajustando post-hoc.

Caso: Historia como variable extraña en experimentos de retail LatAm

caso reallatinoamérica
📦 Caso en clase — Cuando la historia arruina el experimento

Falabella y el experimento de exhibición interrumpido por el estallido social (Chile, 2019)

Falabella Chile diseñó un experimento de campo para medir si una nueva exhibición de productos en la categoría electrónica —con pantallas interactivas y demostraciones en vivo— aumentaba las ventas. Se seleccionaron tiendas experimentales y de control, y el experimento comenzó en octubre de 2019.

El 18 de octubre de 2019 comenzó el estallido social chileno. Las ventas en todas las tiendas colapsaron, pero las tiendas experimentales —ubicadas en zonas de mayor concentración de manifestaciones— sufrieron cierres temporales adicionales. Cualquier diferencia en ventas entre grupos reflejaba la geografía del conflicto, no el efecto de la exhibición.

Variable extraña de historia: un evento externo (el estallido social) ocurrió durante el período experimental, afectó de forma diferencial a los grupos experimental y de control, y destruyó la validez interna del experimento.

Pregunta para clase: ¿Qué opciones tenía Falabella ante esta situación? ¿Cancelar el experimento, suspenderlo y reiniciarlo, o intentar controlar el efecto estadísticamente?

Sección 06

Clasificación de los diseños experimentales

Malhotra clasifica los diseños en tres categorías según su grado de control y capacidad para descartar variables extrañas.

📖 Malhotra 2016 — Clasificación general

Los diseños experimentales se clasifican en tres grandes grupos:

  • Diseños preexperimentales: no incluyen grupos de control ni aleatorización. Tienen muy bajo control sobre variables extrañas. Son útiles en etapas exploratorias pero no permiten inferencias causales confiables.
  • Diseños experimentales verdaderos: incluyen grupos de control y aleatorización. Permiten inferencias causales válidas. Son el estándar de oro de la investigación causal.
  • Diseños estadísticos: extensiones de los diseños verdaderos que permiten analizar el efecto de múltiples variables independientes simultáneamente y sus interacciones. El diseño factorial es el más utilizado.
Criterio Preexperimental Experimental verdadero Estadístico
Grupo de control No
Aleatorización No
Control de variables extrañas Muy bajo Alto Muy alto
Validez interna Baja Alta Alta
Costo y complejidad Bajo Medio-alto Alto
Variables independientes 1 1 2 o más
Uso típico Exploración inicial Investigación causal estándar Optimización de múltiples variables
Sección 07

Diseños experimentales en detalle

Cada diseño tiene una notación simbólica, una lógica de control y limitaciones específicas. La elección del diseño correcto depende del contexto, el presupuesto y el nivel de inferencia causal requerido.

Diseños preexperimentales

Preexperimental

Estudio de caso único

X → O₁

Se aplica un tratamiento a un grupo y luego se mide la variable dependiente. No hay pretest ni grupo de control. No permite ninguna inferencia causal válida: sin punto de referencia, es imposible saber si O₁ es distinto de lo que habría sido sin X.

Ejemplo LatAm: una marca lanza una campaña en TikTok en abril y mide el reconocimiento de marca en mayo. Sin medición previa ni grupo de control, es imposible saber si el reconocimiento habría subido de todas formas (por la temporada, por una nota de prensa, etc.).

Preexperimental

Diseño de pretest-postest con un grupo

O₁ → X → O₂

Se mide la VD antes del tratamiento (O₁), se aplica el tratamiento (X) y se mide nuevamente (O₂). La diferencia O₂ − O₁ se atribuye a X. Sigue siendo débil: no hay grupo de control, por lo que la historia, la maduración y el efecto del pretest no están controlados.

Ejemplo: una ferretería mide la satisfacción del cliente, capacita a sus vendedores, y vuelve a medir. La mejora puede deberse a la capacitación, a que los clientes ya se sentían mejor después de la temporada baja, o a que el pretest les hizo pensar más en el servicio.

Preexperimental

Diseño del grupo estático

X → O₁ (grupo experimental)
— → O₁ (grupo de control)

Se aplica el tratamiento al grupo experimental y luego se compara con un grupo de control no aleatorizado. El sesgo de selección es la principal amenaza: si los grupos no son equivalentes antes del tratamiento, la diferencia en O₁ puede deberse a sus diferencias previas, no al tratamiento.

Diseños experimentales verdaderos

Experimental verdadero

Diseño de pretest-postest con grupo de control

R: O₁ → X → O₂ (experimental)
R: O₁ → — → O₂ (control)

Aleatorización + grupo de control + pretest. Permite controlar historia, maduración, sesgo de selección. Sin embargo, la interacción entre el pretest y el tratamiento puede seguir siendo un problema: los participantes que fueron premuestreados pueden comportarse distinto a quienes no lo fueron.

Ejemplo: Banco Itaú mide la tasa de uso de banca móvil en dos grupos de clientes aleatorizados, luego envía notificaciones push educativas al grupo experimental y mide nuevamente. La diferencia controlada por el grupo de control refleja el efecto causal de las notificaciones.

Experimental verdadero

Diseño de solo postest con grupo de control

R: X → O₁ (experimental)
R: — → O₁ (control)

El diseño más limpio conceptualmente. La aleatorización garantiza la equivalencia previa, por lo que no es necesario el pretest. Elimina el efecto de reactividad del pretest. Es el diseño estándar del A/B testing moderno.

Ejemplo digital: Falabella.com asigna aleatoriamente a usuarios que ven la nueva página de producto (X) vs. la versión actual. Solo se mide el comportamiento posterior (tasa de conversión). No hay pretest — la aleatorización garantiza equivalencia.

Diseños estadísticos

Estadístico

Diseño factorial

Permite medir el efecto de dos o más variables independientes simultáneamente, incluyendo sus interacciones. En un diseño factorial 2×2 se tienen dos factores (cada uno con 2 niveles), generando 4 condiciones experimentales.

Interacción: cuando el efecto de una variable independiente depende del nivel de otra. Ejemplo: el precio (alto/bajo) puede tener efectos distintos sobre la intención de compra según el canal (online/tienda física). Esta interacción solo puede detectarse con un diseño factorial.

Ejemplo con iFood (Brasil): iFood diseñó un factorial 2×2 para optimizar notificaciones push: Factor A = contenido (oferta de descuento vs. recordatorio de carrito), Factor B = horario (mediodía vs. 7pm). Las 4 celdas permitieron detectar que el descuento a mediodía tenía mayor efecto que en la noche, pero que el recordatorio de carrito funcionaba mejor a las 7pm — una interacción que ningún experimento de un solo factor hubiera revelado.
Sección 08

A/B testing digital: el experimento del siglo XXI

El A/B testing es la implementación digital del diseño de solo postest con grupo de control. Es la metodología experimental más utilizada en el mundo empresarial actual y ha transformado cómo las empresas toman decisiones.

📖 Malhotra 2016 — Experimentación en la web (vigente en su estructura)

El libro describe cómo Internet ofrece un mecanismo de experimentación controlada en un ambiente similar al de laboratorio. La lógica es idéntica al diseño de solo postest con grupo de control: los usuarios son asignados aleatoriamente a diferentes versiones de un elemento (anuncio, precio, diseño, mensaje), y se miden resultados comportamentales.

Malhotra señala que la experimentación en la web permite escalabilidad masiva, velocidad de implementación y bajo costo marginal por unidad de prueba adicional — ventajas que los experimentos de campo tradicionales no tienen.

A/B testing en la escala de las plataformas LATAM

casos realeslatinoaméricaherramientas

Las plataformas digitales de América Latina corren miles de experimentos simultáneamente. Algunos datos de escala:

  • Mercado Libre: según sus reportes de ingeniería, el equipo de growth corre más de 200 experimentos activos en simultáneo. Cada feature nuevo de la plataforma es validado experimentalmente antes del lanzamiento completo.
  • Rappi: utiliza A/B testing para todo el funnel de conversión — desde la pantalla de búsqueda hasta el proceso de pago — con asignación por usuario y por sesión dependiendo del objetivo.
  • Nubank: aplica experimentación controlada para decisiones de producto financiero: tasa de aprobación, límite de crédito inicial, diseño del onboarding y mensajes de cobranza.
🛠 Plataformas de A/B testing usadas en la industria
OptimizelyPlataforma líder para A/B testing web y mobile, usada por empresas como Microsoft y Atlassian
Google Optimize*Integrado con GA4; *discontinuado en 2023, migración hacia Firebase y otras plataformas
VWOVisual Website Optimizer — muy usado en startups LATAM por su facilidad de implementación
LaunchDarklyFeature flags y experimentos para equipos de producto, permite control granular de la exposición
StatsigPlataforma de experimentación moderna, con análisis estadístico automático de significancia
MixpanelAnalytics + A/B testing integrado, muy popular en apps LATAM

Limitaciones del A/B testing que Malhotra no anticipó

bibliografía
  • Peeking problem: muchos equipos terminan el experimento cuando ven resultados positivos ("pico prematuro"), lo que infla artificialmente las tasas de falsos positivos.
  • SUTVA (Stable Unit Treatment Value Assumption): en plataformas de dos lados (como Mercado Libre), el tratamiento de un vendedor puede afectar a otros compradores, violando el supuesto de que las unidades son independientes.
  • Sesgo de novedad vs. sesgo de aprendizaje: los cambios de UI generan reacciones de corto plazo (novedad) que pueden invertirse a medida que los usuarios se adaptan (o que se amplifican a medida que aprenden a usar la nueva función).
  • Múltiples comparaciones (p-hacking): cuando se corren muchos A/B tests simultáneos, la probabilidad de obtener al menos un resultado significativo por azar aumenta. Se requiere corrección de Bonferroni u otras técnicas.
📚 Fuentes
Kohavi, R., Tang, D., & Xu, Y. (2020). Trustworthy Online Controlled Experiments. Cambridge University Press. — Cap. 18: "Common pitfalls and lessons learned."
Bakshy, E. et al. (2014). "Designing and Deploying Online Field Experiments." WWW 2014 Conference. — El paper seminal de Facebook sobre experimentación a escala.
Sección 09

Prueba de mercado

La prueba de mercado es la aplicación más conocida del diseño experimental en marketing. Permite validar un programa de marketing en escala reducida antes de un lanzamiento nacional, reduciendo el riesgo de decisiones irreversibles.

📖 Malhotra 2016 — Definición y objetivos

La prueba de mercado es un experimento controlado realizado en partes limitadas y cuidadosamente seleccionadas del mercado (mercados de prueba). Replica en pequeña escala un programa de marketing planeado a nivel nacional.

Dos objetivos principales:

  • Determinar la aceptación del producto en el mercado (¿los consumidores reales compran el producto en condiciones reales de mercado?).
  • Probar niveles alternativos de las variables de la mezcla de marketing (¿cuál precio, cuál distribución, cuál campaña funciona mejor?).

El libro cita el caso de McDonald's y el Mac Snack Wrap, probado en Phoenix, Houston, Milwaukee y Michigan City antes del lanzamiento nacional en Norteamérica.

📖 Caso desactualizado — Malhotra 2016

Malhotra menciona el Mac Snack Wrap de McDonald's como ejemplo de prueba de mercado exitosa. El producto fue lanzado con resultados favorables. Sin embargo, fue descontinuado en la mayoría de los mercados después de 2016 por dificultades operativas y cambios en las preferencias del consumidor hacia opciones más saludables. El "éxito" en la prueba de mercado no garantizó éxito a largo plazo — una limitación real del método que vale la pena señalar a los estudiantes.

Caso actualizado: prueba de mercado de pagos Pix en Brasil

caso reallatinoamérica

El Banco Central de Brasil lanzó Pix (sistema de pagos instantáneos) en noviembre de 2020, pero realizó una prueba piloto restringida en agosto-septiembre de 2020 con instituciones financieras seleccionadas y un grupo controlado de usuarios finales en regiones específicas.

📦 Caso en clase — Prueba de mercado de un sistema de pagos

Pix: de la prueba piloto al sistema de pagos más usado de América Latina

Variables independientes manipuladas en el piloto: límites de transferencia por transacción, horarios de disponibilidad, número de instituciones participantes y requisitos de onboarding.

Variable dependiente medida: tasa de adopción, volumen de transacciones, incidencias de fraude, tiempo de procesamiento, satisfacción del usuario.

Resultado del piloto: identificó que el proceso de registro de claves era demasiado complejo para usuarios mayores y usuarios de zonas rurales con conectividad limitada. El Banco Central simplificó el onboarding antes del lanzamiento masivo.

Resultado post-lanzamiento: Pix superó a todos los métodos de pago digital de Brasil en volumen de transacciones dentro del primer año. En 2023, procesó más de 4,000 millones de transacciones mensuales.

Pregunta para clase: ¿Qué habría pasado si el Banco Central hubiera lanzado Pix directamente sin la prueba piloto? ¿Qué problemas de validez interna tiene un piloto geográfico restringido?

📚 Fuentes
Banco Central do Brasil (2023). Relatório de Pagamentos Pix 2023. bcb.gov.br — Datos de volumen y adopción de Pix por región y segmento.
BIS (2022). Fast Payment Systems: design and policy perspectives. Bank for International Settlements. — Análisis comparativo de sistemas de pago inmediato incluyendo Pix.
🌎 Contexto LatAm — Pruebas de mercado en la región

América Latina presenta condiciones únicas para las pruebas de mercado que dificultan la generalización de resultados:

  • Alta heterogeneidad intra-país: una prueba en São Paulo no predice necesariamente el comportamiento en el Nordeste de Brasil; una prueba en Buenos Aires puede ser muy diferente del interior de Argentina.
  • Volatilidad macroeconómica: la inflación, las devaluaciones y las crisis pueden ocurrir durante el período de prueba y destruir la validez externa de los resultados (el mercado de prueba ya no representa el contexto en que se lanzará el producto).
  • Diferencias regulatorias subnacionales: en mercados como Brasil (estados) y Argentina (provincias), las regulaciones de etiquetado, impuestos y distribución pueden variar significativamente, limitando qué mercados son comparables.
  • Mercados de prueba simulados: por las dificultades de los experimentos de campo en LATAM, muchas empresas optan por pruebas de mercado simuladas (STM) que utilizan entornos de compra virtual para predecir el comportamiento real antes del lanzamiento.
Sección 10

Experimentos de laboratorio vs. de campo

La decisión entre realizar un experimento en condiciones controladas o en condiciones reales del mercado es una de las más importantes en el diseño experimental. Cada opción tiene ventajas estructurales e irreducibles.

📖 Malhotra 2016 — Laboratorio vs. campo

Experimento de laboratorio: se realiza en un ambiente artificial y controlado. El investigador tiene alto control sobre las variables extrañas. Maximiza la validez interna. Ejemplo: evaluación de anuncios en una sala equipada donde se controlan la iluminación, el sonido, la secuencia de exposición y el tiempo.

Experimento de campo: se realiza en condiciones reales del mercado — tiendas, hogares, plataformas reales. El investigador tiene menos control sobre variables extrañas, pero los resultados son más generalizables (mayor validez externa). Ejemplo: el experimento de Rite Aid con anuncios de radio en tiendas reales.

La tensión clave: cuando se mejora el control (laboratorio), se pierde realismo (campo). La solución de Malhotra: usar diseños de laboratorio en etapas exploratorias para detectar efectos, y diseños de campo en etapas posteriores para confirmar y generalizar.

Dimensión Laboratorio Campo
Control de VIAltoLimitado
Control de VEAltoBajo
Validez internaAltaMedia-alta (con aleatorización)
Validez externaBajaAlta
CostoMedioAlto
TiempoCortoLargo
Reactividad de los participantesAlta (saben que están en un experimento)Baja (comportamiento natural)
Artefactos de demandaAlto riesgoBajo riesgo

El laboratorio virtual: realidad virtual y entornos de compra simulados

herramientasbibliografía

Una innovación metodológica clave que Malhotra menciona brevemente pero que ha crecido enormemente: los entornos de compra virtuales permiten combinar el control del laboratorio con el realismo perceptual del campo.

Empresas como Kantar, Nielsen y Ipsos ofrecen "virtual store testing": el participante navega por un supermercado virtual en 3D donde puede ver, girar y examinar productos. El investigador puede manipular el precio, el empaque, la ubicación en el lineal y la presencia de competidores, mientras registra el comportamiento del cursor, el tiempo de atención por producto y la decisión de compra.

Ventaja competitiva para LATAM: permite hacer investigación causal en mercados donde los experimentos de campo son costosos o logísticamente complejos. Una empresa uruguaya puede evaluar un nuevo empaque de yerba mate en cinco ciudades de Argentina sin mover un solo producto físico.

📚 Fuentes
Kantar (2024). Virtual Store Testing: methodology and applications. kantar.com — Documentación técnica del entorno de compra virtual de Kantar.
Sigurdsson, V. et al. (2016). "In-store and virtual reality shopping: an experimental design." Journal of Business Research, 69(6), 1992–2001.
Sección 11

Investigación internacional y contexto LatAm

Malhotra advierte que la investigación causal en contextos internacionales presenta desafíos adicionales que reducen tanto la validez interna como la externa de los experimentos de campo.

📖 Malhotra 2016 — Experimentación internacional

En muchos países, los ambientes de marketing, económico, estructural, informativo y tecnológico no están desarrollados de la misma manera. Malhotra señala factores que dificultan los experimentos de campo internacionales:

  • Control gubernamental de los medios (imposible manipular niveles de publicidad televisiva en algunos países).
  • Menor infraestructura estadística para identificar y segmentar unidades de prueba equivalentes.
  • Mayor volatilidad del entorno: eventos políticos, cambiarios o sociales que actúan como variables de historia.
  • Menor control sobre la mezcla de marketing local (distribución, intermediarios, regulaciones de etiquetado).
🌎 Desafíos específicos de experimentación en América Latina

1. Fragmentación de datos: a diferencia de EE.UU. o Europa, en LATAM los paneles de consumidores son menores y menos representativos. Empresas como Kantar Worldpanel o Nielsen tienen cobertura limitada en algunas regiones, dificultando la construcción de mercados de prueba estadísticamente equivalentes.

2. Informalidad económica: en mercados con alto comercio informal (mercados de pulgas, vendedores ambulantes, ferias), los experimentos en canales formales no capturan el comportamiento real de una proporción significativa de consumidores. Uruguay tiene menor informalidad, pero México, Bolivia o Paraguay presentan desafíos mayores.

3. Diferencias de penetración digital: los A/B tests digitales en LATAM tienen problemas de validez externa amplificados: las poblaciones con acceso a smartphones y banca digital representan segmentos más urbanos y de mayores ingresos, no el mercado total.

4. Legislación de privacidad fragmentada: el manejo de datos de usuarios para experimentos está regulado de forma diferente: LGPD en Brasil (2020), Ley Habeas Data en Colombia, LFPDPPP en México. La aleatorización y el seguimiento de usuarios para experimentos deben cumplir con el marco regulatorio local.

Caso: Coca-Cola y los experimentos de precio en Colombia y Chile

caso reallatinoamérica
📦 Caso en clase — Experimento de campo multinacional

Coca-Cola: ¿el precio del agua embotellada en el PDV afecta las ventas de Coca-Cola?

Coca-Cola FEMSA (mayor embotelladora de LATAM) investigó si el precio de su línea de agua embotellada (marca Ciel en México, Brisa en Colombia) tenía un efecto causal sobre la demanda de Coca-Cola en el mismo punto de venta. La hipótesis: si el agua es percibida como alternativa saludable y el precio del agua sube, ¿aumentan las ventas de Coca-Cola?

Diseño: experimento de campo en tiendas de conveniencia Oxxo seleccionadas y aleatorizadas en tres regiones de Colombia y Chile. El precio del agua fue manipulado en las tiendas experimentales durante 6 semanas. Las ventas de ambos productos se monitorearon a nivel de ticket de caja.

Variable extraña crítica: la campaña "Mundo sin sed" de un competidor lanzó comunicación masiva durante el período, actuando como variable de historia que afectó diferencialmente a regiones con distintos niveles de inversión en medios.

Pregunta para clase: ¿Cómo identificarías que la campaña del competidor está actuando como variable de historia? ¿Qué información necesitarías para cuantificar su efecto?

Sección 12

Ética en la investigación causal

La experimentación introduce dilemas éticos específicos que no están presentes en la investigación descriptiva. El consentimiento, el engaño y el manejo de la información son los temas centrales.

📖 Malhotra 2016 — Dilemas éticos en experimentación

Ocultamiento del propósito: en muchos experimentos, revelar el propósito real destruiría la validez del estudio. Si los participantes saben que están siendo observados para medir su reacción a un precio diferente, su comportamiento cambiará (efecto Hawthorne). El libro señala que este ocultamiento debe hacerse de forma ética, sin violar los derechos de los participantes.

Sesión de información (debriefing): Malhotra recomienda organizar una sesión de información posterior al experimento para revelar el propósito real, reducir el estrés de los participantes y hacer que el experimento sea una experiencia de aprendizaje. Esta sesión debe realizarse de forma que minimice el sesgo ex-post de los datos.

Artefactos de demanda: ocurren cuando los participantes identifican el propósito del experimento y modifican su comportamiento para "ayudar" al investigador o para parecer más racionales. Son una amenaza tanto ética como metodológica.

El experimento de Facebook y el "contagio emocional" (2014)

caso realbibliografía

En 2014, Facebook publicó un estudio en PNAS que reveló que había manipulado los feeds de noticias de casi 700,000 usuarios durante una semana en 2012 para estudiar el contagio emocional. Algunos usuarios vieron más contenido positivo, otros más negativo, y se midió el efecto sobre el tono emocional de sus propios posts.

El experimento generó una controversia masiva: los usuarios no habían dado consentimiento explícito para participar en un experimento de manipulación emocional. Los Términos de Servicio de Facebook incluían una cláusula genérica sobre investigación, pero la mayoría de los usuarios no la había leído ni esperaba que incluyera manipulación del contenido para fines experimentales.

Implicaciones metodológicas y éticas:

  • Los grandes experimentos digitales sin consentimiento informado explícito son éticamente cuestionables, incluso si los Términos de Servicio los permiten legalmente.
  • La escala del experimento (700,000 usuarios) amplifica el daño potencial: incluso efectos pequeños sobre el bienestar pueden ser significativos a esa escala.
  • En América Latina, regulaciones como la LGPD de Brasil y la Ley 25.326 de Argentina establecen requisitos de consentimiento informado que hacen ilegales este tipo de experimentos sin divulgación adecuada.
📚 Fuentes
Kramer, A. et al. (2014). "Experimental evidence of massive-scale emotional contagion through social networks." PNAS, 111(24), 8788–8790.
Kleinsman, J. & Buckley, S. (2015). "Facebook study: a little bit unethical but worth it?" Big Data & Society, 2(1).
🌎 Marco regulatorio LatAm para experimentos digitales
  • Brasil — LGPD (Lei Geral de Proteção de Dados, 2020): requiere base legal para el tratamiento de datos personales. Los experimentos que involucran perfilamiento o manipulación de contenido deben indicar su base legal y en muchos casos requieren consentimiento explícito.
  • Argentina — Ley 25.326: protección de datos personales. Los datos recopilados durante experimentos deben ser proporcionales al objetivo y no pueden reutilizarse para fines distintos sin nuevo consentimiento.
  • México — LFPDPPP: obliga a informar a los titulares sobre el uso de sus datos, incluyendo si serán parte de estudios o investigaciones.
  • Uruguay — Ley 18.331: regulación de datos personales con principios de finalidad y proporcionalidad aplicables a la investigación experimental.