Diapositivas de referencia
Presentación de la clase. Usá las flechas del teclado o los controles para navegar. Presioná F para pantalla completa.
Caso de apertura: cuando la correlación no basta
El capítulo abre con Rite Aid y un experimento sobre publicidad en tienda. El caso ilustra por qué la investigación descriptiva puede identificar patrones, pero solo la investigación causal puede responder si X realmente provoca Y.
Rite Aid Drug Company quería saber si los anuncios de radio dentro de sus tiendas incentivaban compras en el punto de venta (PDV). Se seleccionaron 20 farmacias estadísticamente equivalentes —por tamaño, ubicación, antigüedad y afluencia— y se asignaron aleatoriamente: 10 al grupo de prueba (con radio) y 10 al grupo de control (sin radio).
El resultado fue claro: las tiendas con publicidad radial mostraron incrementos significativos en las ventas de los productos anunciados. Porque se manipuló una variable (el audio) mientras todo lo demás permanecía constante, fue posible atribuir causalmente el efecto al tratamiento.
La lección metodológica: si Rite Aid simplemente hubiera comparado ventas históricas con ventas actuales, no habría podido descartar que el aumento se debiera a la estación del año, promociones de precios o cambios en el flujo de clientes. El diseño experimental con grupo de control elimina esas explicaciones alternativas.
Caso sustituto: Mercado Libre y el experimento de pricing dinámico
Mercado Libre (Argentina/LATAM) opera uno de los ecosistemas de e-commerce más grandes de América Latina, con presencia en 18 países. Su equipo de data science realiza experimentos controlados de forma permanente para optimizar desde la interfaz hasta la política de precios y los costos de envío.
Mercado Libre: ¿el envío gratis causa mayor conversión o solo la revela?
Pregunta causal: ¿ofrecer envío gratis en una categoría aumenta la tasa de conversión, o los productos con envío gratis simplemente son más baratos y de mejores vendedores?
Por qué no alcanza una descriptiva: una encuesta o análisis de datos históricos mostraría correlación entre envío gratis y mayor conversión. Pero esa correlación podría estar explicada por otras variables —calidad del vendedor, precio del producto, reputación— y no por el envío en sí.
El diseño causal: Mercado Libre asigna aleatoriamente un subconjunto de usuarios que ven la misma categoría con y sin el badge de "envío gratis". Todo lo demás (vendedor, precio, descripción) permanece idéntico. La aleatorización garantiza que cualquier diferencia en conversión se debe causalmente al envío.
Resultado: el equipo puede separar el efecto causal del envío del efecto de confusión de la calidad del vendedor. Ese insight orienta decisiones de política comercial que afectan a millones de vendedores en toda la región.
Pregunta para clase: ¿Qué pasaría si en vez de asignar aleatoriamente, Mercado Libre ofreciera envío gratis solo a sus mejores vendedores? ¿Por qué eso introduciría sesgo de selección y destruiría la validez interna del experimento?
Concepto de causalidad
La causalidad en investigación de mercados tiene un significado científico preciso y más restrictivo que el uso cotidiano del término. Entender esta distinción es el punto de partida de todo el capítulo.
Cuando una persona común dice "X causa Y" —por ejemplo, "la publicidad causó el aumento de ventas"— implica que X es la única causa de Y y que la relación es determinista: siempre que aparezca X, ocurrirá Y.
En investigación de mercados, la causalidad científica es más modesta: X es una causa de Y si X contribuye a la probabilidad de que Y ocurra. No se asume que X sea la única causa, ni que la relación sea perfecta. El investigador busca establecer que X hace más probable a Y, controlando la influencia de otras variables.
Esta distinción importa en la práctica: un gerente puede decir "la campaña de influencers causó el pico de ventas". El investigador necesita preguntarse: ¿qué otras variables podrían explicar ese pico? ¿Coincidió con el Día de la Madre? ¿Hubo una promoción de precio simultánea? ¿El algoritmo de Instagram amplificó orgánicamente ese día?
El problema de la causalidad inversa en marketing digital
Uno de los errores más comunes en el análisis de datos de marketing digital es confundir dirección causal. Los datos muestran que los usuarios que ven más anuncios también compran más. ¿Los anuncios causan las compras, o los compradores frecuentes son los que más ven anuncios porque el algoritmo los identifica como audiencia de alto valor?
Meta (Facebook/Instagram) enfrenta este problema al medir el ROAS (Return on Ad Spend): sus propios modelos de atribución sobreestiman el impacto de los anuncios porque los muestran principalmente a usuarios que ya tenían alta intención de compra. Varios estudios académicos encontraron que entre el 30% y el 50% de las ventas atribuidas a anuncios digitales habrían ocurrido de todas formas.
La solución experimental: un experimento con holdout groups —donde un porcentaje de usuarios similares no recibe los anuncios— permite estimar el efecto causal incremental (uplift), no el correlacional.
Condiciones para establecer causalidad
Malhotra establece tres condiciones necesarias para inferir que X causa Y. Ninguna por sí sola es suficiente; las tres deben satisfacerse conjuntamente.
- 1. Variación concomitante: X e Y deben variar juntas de acuerdo con la hipótesis. Si X aumenta, Y debería aumentar (o disminuir) en la dirección predicha. Si no hay covariación, X no puede ser causa de Y.
- 2. Orden temporal de ocurrencia: X debe preceder o ocurrir simultáneamente con Y. Una causa no puede ocurrir después de su efecto. En investigación de mercados esto implica que la manipulación (tratamiento) debe aplicarse antes de medir la variable dependiente.
- 3. Eliminación de factores causales alternativos: Deben descartarse explicaciones rivales. Esto es lo más difícil de satisfacer y es precisamente lo que el diseño experimental busca garantizar mediante el control de variables extrañas y la asignación aleatoria.
Aplicando las tres condiciones: el caso de Nubank y la tasa de aprobación
Nubank (Brasil/LATAM) quería determinar si aumentar la tasa de aprobación crediticia en el segmento de usuarios nuevos causaría una mayor tasa de retención a 12 meses, o si simplemente incorporaría más usuarios de alto riesgo que terminarían abandonando por deudas impagas.
Nubank: ¿la aprobación crediticia causa retención?
Variación concomitante: los datos históricos mostraban que los usuarios aprobados para montos más altos tenían tasas de retención superiores. La covariación existía — pero podría ser espuria (los usuarios con mejor historial crediticio son más confiables y también más leales).
Orden temporal: el experimento asignó aleatoriamente a nuevos usuarios en dos grupos: uno recibía el límite de crédito estándar y otro recibía un límite 40% superior. La manipulación (tratamiento) precedió a la medición de retención — condición temporal satisfecha.
Eliminación de alternativas: la aleatorización garantizó que ambos grupos fueran equivalentes en perfil crediticio, edad, ingresos declarados y comportamiento previo. Cualquier diferencia en retención a 12 meses se atribuyó causalmente al límite de crédito.
Pregunta para clase: ¿Qué habría pasado si Nubank ofreciera el límite mayor solo a usuarios que ya hubieran hecho 3 compras? ¿Qué condición de causalidad quedaría comprometida?
Conceptos y terminología experimental
El lenguaje de la experimentación es preciso. Estos son los conceptos fundamentales que permiten describir, comparar y comunicar diseños experimentales.
- Variable independiente (VI): la variable que el investigador manipula o controla. También llamada "tratamiento" o "factor". Ejemplo: el precio de un producto, el diseño de un empaque, la versión de un anuncio.
- Variable dependiente (VD): la variable que se mide para determinar el efecto del tratamiento. Ejemplo: ventas, intención de compra, tiempo en sitio web, tasa de conversión.
- Variables extrañas: todas las variables distintas a las independientes que pueden afectar a la variable dependiente. Son la principal amenaza a la validez de un experimento.
- Unidades de prueba: los individuos, grupos, organizaciones o áreas geográficas sobre los que se aplica el tratamiento y se mide el efecto.
- Grupo experimental: las unidades de prueba que reciben el tratamiento.
- Grupo de control: las unidades de prueba que no reciben el tratamiento, usadas como punto de comparación.
- Asignación aleatoria: el mecanismo que garantiza que las unidades de prueba se asignen a grupos experimental o de control por azar, haciendo equivalentes a los grupos en todas las variables relevantes.
Terminología en la práctica: el experimento de Spotify en LATAM
Spotify diseñó un experimento para evaluar si agregar recomendaciones de podcasts en español a la pantalla de inicio aumentaba el consumo de podcasts entre usuarios de Argentina, México y Colombia.
| Concepto | En el experimento de Spotify |
|---|---|
| Variable independiente | Presencia de recomendaciones de podcasts en español en la pantalla de inicio (2 niveles: presente / ausente) |
| Variable dependiente | Minutos escuchados de podcasts por semana, tasa de conversión a oyentes de podcasts |
| Unidades de prueba | Usuarios activos en los tres países que no eran oyentes habituales de podcasts |
| Grupo experimental | Usuarios que ven las recomendaciones de podcasts en español |
| Grupo de control | Usuarios que ven la pantalla de inicio estándar sin las recomendaciones |
| Variables extrañas | Género musical preferido, antigüedad en la plataforma, dispositivo usado, horario de uso |
| Asignación aleatoria | Sí — algoritmo de asignación aleatoria estratificada por país y perfil de uso |
Validez interna y externa
Todo experimento debe evaluarse en dos dimensiones de validez. Mejorar una frecuentemente implica sacrificar la otra — una tensión central en el diseño experimental aplicado.
Validez interna: se refiere a si la manipulación de la variable independiente realmente causó los efectos observados en la variable dependiente. Un experimento tiene validez interna cuando se han controlado las variables extrañas y los resultados pueden atribuirse al tratamiento. Es el requisito mínimo básico: sin validez interna, los resultados son ininterpretables.
Validez externa: se refiere a si los resultados pueden generalizarse más allá del experimento — a otras poblaciones, contextos, momentos o variables. Un experimento de laboratorio puede tener alta validez interna pero baja validez externa si las condiciones artificiales no representan el mercado real.
La tensión entre ambas: los experimentos de laboratorio maximizan el control (alta validez interna) pero minimizan el realismo (baja validez externa). Los experimentos de campo sacrifican algo de control a cambio de mayor generalización.
La tensión validez interna vs. externa en el mundo digital
Los experimentos digitales (A/B tests en plataformas) tienen naturalmente alta validez interna —la aleatorización es técnicamente rigurosa— pero pueden tener problemas de validez externa que no siempre se discuten en la práctica:
- Sesgo de usuario online: los usuarios de una plataforma no representan a toda la población objetivo. Un A/B test de Rappi en Colombia aplica solo a usuarios de la app, que son más jóvenes y digitalmente activos que el mercado total.
- Efecto de novedad: los usuarios del grupo experimental pueden responder positivamente a un cambio simplemente porque es nuevo, no porque sea mejor. Este efecto desaparece con el tiempo.
- Spillover entre grupos: en mercados pequeños o comunidades, el "tratamiento" puede contaminar al grupo de control a través de conversaciones, recomendaciones o visualización del comportamiento de otros.
Control de variables extrañas
Las variables extrañas son la principal amenaza a la validez interna. Malhotra identifica varios tipos específicos y sus métodos de control.
- Historia: eventos externos que ocurren entre mediciones y afectan la VD. En un experimento de 3 meses, una crisis económica o una campaña del competidor son variables históricas.
- Maduración: cambios naturales en las unidades de prueba con el tiempo (envejecimiento, aprendizaje, fatiga), no relacionados con el tratamiento.
- Administración de pruebas: el efecto de haber realizado una medición previa (pretest) sobre la medición posterior (postest). Los participantes aprenden o cambian de actitud por haber sido medidos.
- Instrumentación: cambios en el instrumento de medición entre el pretest y el postest (un encuestador diferente, una escala calibrada distinto).
- Regresión estadística: las unidades de prueba seleccionadas por sus valores extremos tienden naturalmente a regresar hacia la media en mediciones posteriores.
- Sesgo de selección: las unidades de prueba en el grupo experimental y de control son sistemáticamente diferentes antes de que comience el experimento.
- Mortalidad experimental: algunas unidades abandonan el experimento de forma diferencial entre grupos, sesgando los resultados.
- Aleatorización: asignar unidades aleatoriamente a grupos garantiza que las variables extrañas se distribuyan equitativamente. Es el método más poderoso.
- Igualación: asegurar que los grupos sean equivalentes en variables críticas (por ejemplo, mismo nivel de ventas inicial, mismo tamaño de tienda).
- Grupos de control: incluir un grupo que no recibe tratamiento para aislar el efecto del tratamiento de otros factores.
- Covarianza estadística (ANCOVA): controlar estadísticamente el efecto de las variables extrañas identificadas, midiendo y ajustando post-hoc.
Caso: Historia como variable extraña en experimentos de retail LatAm
Falabella y el experimento de exhibición interrumpido por el estallido social (Chile, 2019)
Falabella Chile diseñó un experimento de campo para medir si una nueva exhibición de productos en la categoría electrónica —con pantallas interactivas y demostraciones en vivo— aumentaba las ventas. Se seleccionaron tiendas experimentales y de control, y el experimento comenzó en octubre de 2019.
El 18 de octubre de 2019 comenzó el estallido social chileno. Las ventas en todas las tiendas colapsaron, pero las tiendas experimentales —ubicadas en zonas de mayor concentración de manifestaciones— sufrieron cierres temporales adicionales. Cualquier diferencia en ventas entre grupos reflejaba la geografía del conflicto, no el efecto de la exhibición.
Variable extraña de historia: un evento externo (el estallido social) ocurrió durante el período experimental, afectó de forma diferencial a los grupos experimental y de control, y destruyó la validez interna del experimento.
Pregunta para clase: ¿Qué opciones tenía Falabella ante esta situación? ¿Cancelar el experimento, suspenderlo y reiniciarlo, o intentar controlar el efecto estadísticamente?
Clasificación de los diseños experimentales
Malhotra clasifica los diseños en tres categorías según su grado de control y capacidad para descartar variables extrañas.
Los diseños experimentales se clasifican en tres grandes grupos:
- Diseños preexperimentales: no incluyen grupos de control ni aleatorización. Tienen muy bajo control sobre variables extrañas. Son útiles en etapas exploratorias pero no permiten inferencias causales confiables.
- Diseños experimentales verdaderos: incluyen grupos de control y aleatorización. Permiten inferencias causales válidas. Son el estándar de oro de la investigación causal.
- Diseños estadísticos: extensiones de los diseños verdaderos que permiten analizar el efecto de múltiples variables independientes simultáneamente y sus interacciones. El diseño factorial es el más utilizado.
| Criterio | Preexperimental | Experimental verdadero | Estadístico |
|---|---|---|---|
| Grupo de control | No | Sí | Sí |
| Aleatorización | No | Sí | Sí |
| Control de variables extrañas | Muy bajo | Alto | Muy alto |
| Validez interna | Baja | Alta | Alta |
| Costo y complejidad | Bajo | Medio-alto | Alto |
| Variables independientes | 1 | 1 | 2 o más |
| Uso típico | Exploración inicial | Investigación causal estándar | Optimización de múltiples variables |
Diseños experimentales en detalle
Cada diseño tiene una notación simbólica, una lógica de control y limitaciones específicas. La elección del diseño correcto depende del contexto, el presupuesto y el nivel de inferencia causal requerido.
Diseños preexperimentales
Estudio de caso único
X → O₁
Se aplica un tratamiento a un grupo y luego se mide la variable dependiente. No hay pretest ni grupo de control. No permite ninguna inferencia causal válida: sin punto de referencia, es imposible saber si O₁ es distinto de lo que habría sido sin X.
Ejemplo LatAm: una marca lanza una campaña en TikTok en abril y mide el reconocimiento de marca en mayo. Sin medición previa ni grupo de control, es imposible saber si el reconocimiento habría subido de todas formas (por la temporada, por una nota de prensa, etc.).
Diseño de pretest-postest con un grupo
O₁ → X → O₂
Se mide la VD antes del tratamiento (O₁), se aplica el tratamiento (X) y se mide nuevamente (O₂). La diferencia O₂ − O₁ se atribuye a X. Sigue siendo débil: no hay grupo de control, por lo que la historia, la maduración y el efecto del pretest no están controlados.
Ejemplo: una ferretería mide la satisfacción del cliente, capacita a sus vendedores, y vuelve a medir. La mejora puede deberse a la capacitación, a que los clientes ya se sentían mejor después de la temporada baja, o a que el pretest les hizo pensar más en el servicio.
Diseño del grupo estático
X → O₁ (grupo experimental)
— → O₁ (grupo de control)
Se aplica el tratamiento al grupo experimental y luego se compara con un grupo de control no aleatorizado. El sesgo de selección es la principal amenaza: si los grupos no son equivalentes antes del tratamiento, la diferencia en O₁ puede deberse a sus diferencias previas, no al tratamiento.
Diseños experimentales verdaderos
Diseño de pretest-postest con grupo de control
R: O₁ → X → O₂ (experimental)
R: O₁ → — → O₂ (control)
Aleatorización + grupo de control + pretest. Permite controlar historia, maduración, sesgo de selección. Sin embargo, la interacción entre el pretest y el tratamiento puede seguir siendo un problema: los participantes que fueron premuestreados pueden comportarse distinto a quienes no lo fueron.
Ejemplo: Banco Itaú mide la tasa de uso de banca móvil en dos grupos de clientes aleatorizados, luego envía notificaciones push educativas al grupo experimental y mide nuevamente. La diferencia controlada por el grupo de control refleja el efecto causal de las notificaciones.
Diseño de solo postest con grupo de control
R: X → O₁ (experimental)
R: — → O₁ (control)
El diseño más limpio conceptualmente. La aleatorización garantiza la equivalencia previa, por lo que no es necesario el pretest. Elimina el efecto de reactividad del pretest. Es el diseño estándar del A/B testing moderno.
Ejemplo digital: Falabella.com asigna aleatoriamente a usuarios que ven la nueva página de producto (X) vs. la versión actual. Solo se mide el comportamiento posterior (tasa de conversión). No hay pretest — la aleatorización garantiza equivalencia.
Diseños estadísticos
Diseño factorial
Permite medir el efecto de dos o más variables independientes simultáneamente, incluyendo sus interacciones. En un diseño factorial 2×2 se tienen dos factores (cada uno con 2 niveles), generando 4 condiciones experimentales.
Interacción: cuando el efecto de una variable independiente depende del nivel de otra. Ejemplo: el precio (alto/bajo) puede tener efectos distintos sobre la intención de compra según el canal (online/tienda física). Esta interacción solo puede detectarse con un diseño factorial.
A/B testing digital: el experimento del siglo XXI
El A/B testing es la implementación digital del diseño de solo postest con grupo de control. Es la metodología experimental más utilizada en el mundo empresarial actual y ha transformado cómo las empresas toman decisiones.
El libro describe cómo Internet ofrece un mecanismo de experimentación controlada en un ambiente similar al de laboratorio. La lógica es idéntica al diseño de solo postest con grupo de control: los usuarios son asignados aleatoriamente a diferentes versiones de un elemento (anuncio, precio, diseño, mensaje), y se miden resultados comportamentales.
Malhotra señala que la experimentación en la web permite escalabilidad masiva, velocidad de implementación y bajo costo marginal por unidad de prueba adicional — ventajas que los experimentos de campo tradicionales no tienen.
A/B testing en la escala de las plataformas LATAM
Las plataformas digitales de América Latina corren miles de experimentos simultáneamente. Algunos datos de escala:
- Mercado Libre: según sus reportes de ingeniería, el equipo de growth corre más de 200 experimentos activos en simultáneo. Cada feature nuevo de la plataforma es validado experimentalmente antes del lanzamiento completo.
- Rappi: utiliza A/B testing para todo el funnel de conversión — desde la pantalla de búsqueda hasta el proceso de pago — con asignación por usuario y por sesión dependiendo del objetivo.
- Nubank: aplica experimentación controlada para decisiones de producto financiero: tasa de aprobación, límite de crédito inicial, diseño del onboarding y mensajes de cobranza.
Limitaciones del A/B testing que Malhotra no anticipó
- Peeking problem: muchos equipos terminan el experimento cuando ven resultados positivos ("pico prematuro"), lo que infla artificialmente las tasas de falsos positivos.
- SUTVA (Stable Unit Treatment Value Assumption): en plataformas de dos lados (como Mercado Libre), el tratamiento de un vendedor puede afectar a otros compradores, violando el supuesto de que las unidades son independientes.
- Sesgo de novedad vs. sesgo de aprendizaje: los cambios de UI generan reacciones de corto plazo (novedad) que pueden invertirse a medida que los usuarios se adaptan (o que se amplifican a medida que aprenden a usar la nueva función).
- Múltiples comparaciones (p-hacking): cuando se corren muchos A/B tests simultáneos, la probabilidad de obtener al menos un resultado significativo por azar aumenta. Se requiere corrección de Bonferroni u otras técnicas.
Prueba de mercado
La prueba de mercado es la aplicación más conocida del diseño experimental en marketing. Permite validar un programa de marketing en escala reducida antes de un lanzamiento nacional, reduciendo el riesgo de decisiones irreversibles.
La prueba de mercado es un experimento controlado realizado en partes limitadas y cuidadosamente seleccionadas del mercado (mercados de prueba). Replica en pequeña escala un programa de marketing planeado a nivel nacional.
Dos objetivos principales:
- Determinar la aceptación del producto en el mercado (¿los consumidores reales compran el producto en condiciones reales de mercado?).
- Probar niveles alternativos de las variables de la mezcla de marketing (¿cuál precio, cuál distribución, cuál campaña funciona mejor?).
El libro cita el caso de McDonald's y el Mac Snack Wrap, probado en Phoenix, Houston, Milwaukee y Michigan City antes del lanzamiento nacional en Norteamérica.
Malhotra menciona el Mac Snack Wrap de McDonald's como ejemplo de prueba de mercado exitosa. El producto fue lanzado con resultados favorables. Sin embargo, fue descontinuado en la mayoría de los mercados después de 2016 por dificultades operativas y cambios en las preferencias del consumidor hacia opciones más saludables. El "éxito" en la prueba de mercado no garantizó éxito a largo plazo — una limitación real del método que vale la pena señalar a los estudiantes.
Caso actualizado: prueba de mercado de pagos Pix en Brasil
El Banco Central de Brasil lanzó Pix (sistema de pagos instantáneos) en noviembre de 2020, pero realizó una prueba piloto restringida en agosto-septiembre de 2020 con instituciones financieras seleccionadas y un grupo controlado de usuarios finales en regiones específicas.
Pix: de la prueba piloto al sistema de pagos más usado de América Latina
Variables independientes manipuladas en el piloto: límites de transferencia por transacción, horarios de disponibilidad, número de instituciones participantes y requisitos de onboarding.
Variable dependiente medida: tasa de adopción, volumen de transacciones, incidencias de fraude, tiempo de procesamiento, satisfacción del usuario.
Resultado del piloto: identificó que el proceso de registro de claves era demasiado complejo para usuarios mayores y usuarios de zonas rurales con conectividad limitada. El Banco Central simplificó el onboarding antes del lanzamiento masivo.
Resultado post-lanzamiento: Pix superó a todos los métodos de pago digital de Brasil en volumen de transacciones dentro del primer año. En 2023, procesó más de 4,000 millones de transacciones mensuales.
Pregunta para clase: ¿Qué habría pasado si el Banco Central hubiera lanzado Pix directamente sin la prueba piloto? ¿Qué problemas de validez interna tiene un piloto geográfico restringido?
América Latina presenta condiciones únicas para las pruebas de mercado que dificultan la generalización de resultados:
- Alta heterogeneidad intra-país: una prueba en São Paulo no predice necesariamente el comportamiento en el Nordeste de Brasil; una prueba en Buenos Aires puede ser muy diferente del interior de Argentina.
- Volatilidad macroeconómica: la inflación, las devaluaciones y las crisis pueden ocurrir durante el período de prueba y destruir la validez externa de los resultados (el mercado de prueba ya no representa el contexto en que se lanzará el producto).
- Diferencias regulatorias subnacionales: en mercados como Brasil (estados) y Argentina (provincias), las regulaciones de etiquetado, impuestos y distribución pueden variar significativamente, limitando qué mercados son comparables.
- Mercados de prueba simulados: por las dificultades de los experimentos de campo en LATAM, muchas empresas optan por pruebas de mercado simuladas (STM) que utilizan entornos de compra virtual para predecir el comportamiento real antes del lanzamiento.
Experimentos de laboratorio vs. de campo
La decisión entre realizar un experimento en condiciones controladas o en condiciones reales del mercado es una de las más importantes en el diseño experimental. Cada opción tiene ventajas estructurales e irreducibles.
Experimento de laboratorio: se realiza en un ambiente artificial y controlado. El investigador tiene alto control sobre las variables extrañas. Maximiza la validez interna. Ejemplo: evaluación de anuncios en una sala equipada donde se controlan la iluminación, el sonido, la secuencia de exposición y el tiempo.
Experimento de campo: se realiza en condiciones reales del mercado — tiendas, hogares, plataformas reales. El investigador tiene menos control sobre variables extrañas, pero los resultados son más generalizables (mayor validez externa). Ejemplo: el experimento de Rite Aid con anuncios de radio en tiendas reales.
La tensión clave: cuando se mejora el control (laboratorio), se pierde realismo (campo). La solución de Malhotra: usar diseños de laboratorio en etapas exploratorias para detectar efectos, y diseños de campo en etapas posteriores para confirmar y generalizar.
| Dimensión | Laboratorio | Campo |
|---|---|---|
| Control de VI | Alto | Limitado |
| Control de VE | Alto | Bajo |
| Validez interna | Alta | Media-alta (con aleatorización) |
| Validez externa | Baja | Alta |
| Costo | Medio | Alto |
| Tiempo | Corto | Largo |
| Reactividad de los participantes | Alta (saben que están en un experimento) | Baja (comportamiento natural) |
| Artefactos de demanda | Alto riesgo | Bajo riesgo |
El laboratorio virtual: realidad virtual y entornos de compra simulados
Una innovación metodológica clave que Malhotra menciona brevemente pero que ha crecido enormemente: los entornos de compra virtuales permiten combinar el control del laboratorio con el realismo perceptual del campo.
Empresas como Kantar, Nielsen y Ipsos ofrecen "virtual store testing": el participante navega por un supermercado virtual en 3D donde puede ver, girar y examinar productos. El investigador puede manipular el precio, el empaque, la ubicación en el lineal y la presencia de competidores, mientras registra el comportamiento del cursor, el tiempo de atención por producto y la decisión de compra.
Ventaja competitiva para LATAM: permite hacer investigación causal en mercados donde los experimentos de campo son costosos o logísticamente complejos. Una empresa uruguaya puede evaluar un nuevo empaque de yerba mate en cinco ciudades de Argentina sin mover un solo producto físico.
Investigación internacional y contexto LatAm
Malhotra advierte que la investigación causal en contextos internacionales presenta desafíos adicionales que reducen tanto la validez interna como la externa de los experimentos de campo.
En muchos países, los ambientes de marketing, económico, estructural, informativo y tecnológico no están desarrollados de la misma manera. Malhotra señala factores que dificultan los experimentos de campo internacionales:
- Control gubernamental de los medios (imposible manipular niveles de publicidad televisiva en algunos países).
- Menor infraestructura estadística para identificar y segmentar unidades de prueba equivalentes.
- Mayor volatilidad del entorno: eventos políticos, cambiarios o sociales que actúan como variables de historia.
- Menor control sobre la mezcla de marketing local (distribución, intermediarios, regulaciones de etiquetado).
1. Fragmentación de datos: a diferencia de EE.UU. o Europa, en LATAM los paneles de consumidores son menores y menos representativos. Empresas como Kantar Worldpanel o Nielsen tienen cobertura limitada en algunas regiones, dificultando la construcción de mercados de prueba estadísticamente equivalentes.
2. Informalidad económica: en mercados con alto comercio informal (mercados de pulgas, vendedores ambulantes, ferias), los experimentos en canales formales no capturan el comportamiento real de una proporción significativa de consumidores. Uruguay tiene menor informalidad, pero México, Bolivia o Paraguay presentan desafíos mayores.
3. Diferencias de penetración digital: los A/B tests digitales en LATAM tienen problemas de validez externa amplificados: las poblaciones con acceso a smartphones y banca digital representan segmentos más urbanos y de mayores ingresos, no el mercado total.
4. Legislación de privacidad fragmentada: el manejo de datos de usuarios para experimentos está regulado de forma diferente: LGPD en Brasil (2020), Ley Habeas Data en Colombia, LFPDPPP en México. La aleatorización y el seguimiento de usuarios para experimentos deben cumplir con el marco regulatorio local.
Caso: Coca-Cola y los experimentos de precio en Colombia y Chile
Coca-Cola: ¿el precio del agua embotellada en el PDV afecta las ventas de Coca-Cola?
Coca-Cola FEMSA (mayor embotelladora de LATAM) investigó si el precio de su línea de agua embotellada (marca Ciel en México, Brisa en Colombia) tenía un efecto causal sobre la demanda de Coca-Cola en el mismo punto de venta. La hipótesis: si el agua es percibida como alternativa saludable y el precio del agua sube, ¿aumentan las ventas de Coca-Cola?
Diseño: experimento de campo en tiendas de conveniencia Oxxo seleccionadas y aleatorizadas en tres regiones de Colombia y Chile. El precio del agua fue manipulado en las tiendas experimentales durante 6 semanas. Las ventas de ambos productos se monitorearon a nivel de ticket de caja.
Variable extraña crítica: la campaña "Mundo sin sed" de un competidor lanzó comunicación masiva durante el período, actuando como variable de historia que afectó diferencialmente a regiones con distintos niveles de inversión en medios.
Pregunta para clase: ¿Cómo identificarías que la campaña del competidor está actuando como variable de historia? ¿Qué información necesitarías para cuantificar su efecto?
Ética en la investigación causal
La experimentación introduce dilemas éticos específicos que no están presentes en la investigación descriptiva. El consentimiento, el engaño y el manejo de la información son los temas centrales.
Ocultamiento del propósito: en muchos experimentos, revelar el propósito real destruiría la validez del estudio. Si los participantes saben que están siendo observados para medir su reacción a un precio diferente, su comportamiento cambiará (efecto Hawthorne). El libro señala que este ocultamiento debe hacerse de forma ética, sin violar los derechos de los participantes.
Sesión de información (debriefing): Malhotra recomienda organizar una sesión de información posterior al experimento para revelar el propósito real, reducir el estrés de los participantes y hacer que el experimento sea una experiencia de aprendizaje. Esta sesión debe realizarse de forma que minimice el sesgo ex-post de los datos.
Artefactos de demanda: ocurren cuando los participantes identifican el propósito del experimento y modifican su comportamiento para "ayudar" al investigador o para parecer más racionales. Son una amenaza tanto ética como metodológica.
El experimento de Facebook y el "contagio emocional" (2014)
En 2014, Facebook publicó un estudio en PNAS que reveló que había manipulado los feeds de noticias de casi 700,000 usuarios durante una semana en 2012 para estudiar el contagio emocional. Algunos usuarios vieron más contenido positivo, otros más negativo, y se midió el efecto sobre el tono emocional de sus propios posts.
El experimento generó una controversia masiva: los usuarios no habían dado consentimiento explícito para participar en un experimento de manipulación emocional. Los Términos de Servicio de Facebook incluían una cláusula genérica sobre investigación, pero la mayoría de los usuarios no la había leído ni esperaba que incluyera manipulación del contenido para fines experimentales.
Implicaciones metodológicas y éticas:
- Los grandes experimentos digitales sin consentimiento informado explícito son éticamente cuestionables, incluso si los Términos de Servicio los permiten legalmente.
- La escala del experimento (700,000 usuarios) amplifica el daño potencial: incluso efectos pequeños sobre el bienestar pueden ser significativos a esa escala.
- En América Latina, regulaciones como la LGPD de Brasil y la Ley 25.326 de Argentina establecen requisitos de consentimiento informado que hacen ilegales este tipo de experimentos sin divulgación adecuada.
- Brasil — LGPD (Lei Geral de Proteção de Dados, 2020): requiere base legal para el tratamiento de datos personales. Los experimentos que involucran perfilamiento o manipulación de contenido deben indicar su base legal y en muchos casos requieren consentimiento explícito.
- Argentina — Ley 25.326: protección de datos personales. Los datos recopilados durante experimentos deben ser proporcionales al objetivo y no pueden reutilizarse para fines distintos sin nuevo consentimiento.
- México — LFPDPPP: obliga a informar a los titulares sobre el uso de sus datos, incluyendo si serán parte de estudios o investigaciones.
- Uruguay — Ley 18.331: regulación de datos personales con principios de finalidad y proporcionalidad aplicables a la investigación experimental.