Investigación de Mercado · Capítulo 3
Diseño de la
investigación,
datos secundarios
y sindicados
Paula Pereda Suárez · Universidad de Montevideo
Apertura · minutos 0–8
La pregunta que organiza el capítulo
  • El capítulo anterior respondió cómo definir el problema y formular el PIM correctamente
  • Este capítulo responde lo que sigue: ¿cómo se investiga ese problema? ¿Por dónde se empieza?
  • La tentación siempre es hacer una encuesta. El capítulo dice: esperá. Primero mirá lo que ya existe.
Regla de oro — Malhotra 2016
"Primero se deben examinar los datos secundarios. El proyecto buscará datos primarios solamente cuando se agoten las fuentes secundarias o cuando produzcan resultados marginales."
Hilo conductor de la clase: antes de salir a preguntar algo, hay que mirar lo que ya existe. Este principio, que parece simple, es el que más frecuentemente se viola y más recursos desperdicia cuando se ignora.
Caso de apertura · minutos 8–28
Datos secundarios
como base
del diseño
Starbucks VIA · Mercado Libre — la misma secuencia metodológica
Caso · Starbucks VIA 2009
Lo que los datos secundarios revelaron antes de una sola encuesta
$17B
mercado café instantáneo 2009
(hoy $35B · Euromonitor 2024)
81%
ventas de café en UK
eran café instantáneo
$100M
ingresos VIA
en primeros 10 meses
  • Mercado enorme, dominado por Nescafé y Sanka: espacio vacío para entrante premium
  • Datos sindicados Nielsen: McDonald's y Dunkin Donuts quitaban participación — urgencia de nuevas fuentes de ingreso
  • Ninguno de estos hallazgos requirió una encuesta propia — todos provenían de informes de industria y auditorías de retail
  • Solo después diseñaron estudios primarios para validar si los consumidores aceptarían una versión instantánea
Starbucks VIA — La secuencia metodológica
Secundarios primero — primarios después
Paso 1
Datos secundarios internos: registros de ventas, márgenes por canal, presencia en mercados clave
Paso 2
Datos secundarios externos y sindicados: informes de industria, auditorías Nielsen, datos de comercio internacional
Paso 3
Hipótesis del secundario: mercado enorme, espacio vacío para premium, posibilidad de extensión de marca
Paso 4
Recién entonces: investigación primaria para validar si los consumidores aceptarían una versión instantánea de Starbucks
⏸ Pregunta
¿Qué diferencia hay entre buscar datos de mercado en Google y hacer investigación de mercados? ¿Dónde está el límite metodológico?
Caso LATAM · Mercado Libre — Mercado Crédito
La misma secuencia en América Latina
55%
adultos en LATAM
sin cuenta bancaria
(Banco Mundial, 2021)
70%
conexiones móviles
son prepago
(GSMA, 2023)
5M+
clientes de
Mercado Crédito hoy
  • Datos internos: historial de 50M compradores activos, carritos abandonados por falta de financiamiento
  • Datos secundarios externos: bancarización (BM), prepago móvil (GSMA), tasas de interés del crédito formal 70–150% anual
  • Con esos datos, Mercado Libre dimensionó el mercado antes de diseñar una encuesta
  • La secuencia es siempre la misma: secundarios para enmarcar → primarios para validar
Sección 01 · minutos 28–48
Diseño de
investigación
y tipos básicos
El plan antes del plan · Exploratoria · Descriptiva · Causal
Malhotra 2016 — Concepto vigente
Diseño de investigación: el plan que define todo lo que sigue
Diseño de investigación — Malhotra
Marco de referencia o plan de acción para realizar el proyecto. Especifica los procedimientos para obtener la información requerida. Es iterativo — acepta retroalimentación de fases posteriores.
  • El diseño es un plan — se construye antes de ejecutar, no durante
  • Incluye ocho componentes en orden — el primero siempre es el análisis de datos secundarios
  • Cada componente informa al siguiente: secundarios → cualitativa → cuantitativa → experimental → análisis
  • Lo nuevo desde 2016: investigación continua (dashboards, CRM, social listening en tiempo real) complementa al diseño formal para decisiones operativas — no lo reemplaza para decisiones estratégicas
Malhotra 2016 — Figura 3.2 · Vigente
Tipos básicos — la clasificación que organiza el campo
Investigación exploratoria
Objetivo: facilitar la comprensión
Información: vagamente definida
Proceso: flexible, no estructurado
Muestra: pequeña, no representativa
Análisis: cualitativo
Resultado: hipótesis para la siguiente etapa
Métodos: datos secundarios, cualitativa
Concluyente descriptiva
Transversal: una sola medición en un momento dado
Longitudinal: misma muestra repetida en el tiempo · Paneles
Muestra grande, representativa · Análisis cuantitativo
Concluyente causal
Establece relaciones de causa y efecto
Requiere diseño experimental con asignación aleatoria
La descriptiva muestra correlación — solo la causal afirma causalidad
Caso LATAM · Spotify — exploratoria → concluyente
¿Por qué en LATAM la conversión a premium era tan baja? — Hipótesis: el precio
Exploratoria
secundarios
BM (bancarización), GSMA (70% conexiones prepago), GWI (hábitos digitales) → hipótesis: el problema es la modalidad de pago, no el precio
Exploratoria
cualitativa
Focus groups en Brasil, Argentina y Colombia → sin tarjeta de crédito o no quieren usarla para suscripción mensual
Concluyente
descriptiva
Encuesta en 5 países: 43% de no-premium cita falta de método de pago conveniente como barrera principal — no el precio
Decisión
Pagos en efectivo (Oxxo), PagoFácil, tarjetas de regalo físicas — sin modificar el precio. LATAM hoy es la región de mayor crecimiento de suscriptores.
Caso · Rappi — Investigación causal y A/B testing
¿Por qué el A/B test es causal y no solo descriptivo?
Pregunta causal de Rappi
¿Una reducción en el costo de envío causa un aumento en la tasa de conversión? (Puede aumentar volumen pero reducir ticket promedio — el efecto neto no es obvio.)
  • Diseño experimental: usuarios asignados aleatoriamente → grupo tratamiento (envío reducido) vs. control (tarifa normal)
  • Todo lo demás idéntico: menú, tiempos de entrega, interfaz
  • La diferencia en conversión se debe causalmente al envío — la aleatorización garantiza equivalencia entre grupos
  • Una descriptiva podría mostrar que los días de envío gratis las conversiones son más altas — pero no descarta que coincidan con fines de semana, campañas, clima
⏸ Pregunta
¿Qué cambiaría si Rappi mostrara el envío gratuito solo a sus usuarios más activos? ¿Por qué eso rompería la lógica causal del experimento?
Sección 02 · minutos 48–68
Datos primarios
vs. secundarios
y criterios SEOANC
La distinción fundamental · Seis criterios para evaluar cualquier fuente
Malhotra 2016 — Definiciones vigentes
Primarios vs. secundarios — cuándo usar cada uno
DimensiónDatos PrimariosDatos Secundarios
PropósitoPara el problema en cuestiónPara otros problemas anteriores
ProcesoComplejo — 6 pasosRápido, relativamente sencillo
CostoAlto (encuesta: miles de USD)Bajo o gratuito
TiempoSemanas o mesesDías u horas
RelevanciaMáxima — diseñada para el problemaVariable — puede no ajustarse
Control de calidadTotal — el investigador controlaLimitado — decisiones de terceros
La frontera se difumina hoy: Google Analytics es de tus propios usuarios pero con metodología de Google. El CRM registra solo a quienes interactuaron. La pregunta correcta: ¿qué sesgos introduce la metodología de recolección, independientemente de quién generó los datos?
Malhotra 2016 — Marco SEOANC · Vigente con riesgos nuevos
Seis criterios para no usar datos mal
S
Especificaciones — metodología, muestra, tasa de respuesta. Revisar siempre la fuente original, no resúmenes.
Riesgo nuevo: paneles con "professional respondents" que aprenden qué respuestas se esperan
E
Error — exactitud. Comparar múltiples fuentes independientes.
Riesgo nuevo: métricas de plataformas no auditadas externamente (Meta reporta sobre sí misma)
O
Objetivo — ¿por qué se recopilaron? El propósito original sesga los resultados.
Riesgo nuevo: estudios de empresas tech sobre el valor de sus propias plataformas
A
Actualidad — ¿cuándo se recopilaron? Desfase recolección–publicación.
Riesgo nuevo: APIs que cambian metodología sin aviso
N
Naturaleza — variables, unidades, categorías. ¿Compatibles con el problema actual?
Riesgo nuevo: "usuario activo" = definición diferente en Netflix, Spotify y Twitter
C
Confiabilidad — reputación, metodología pública, auditoría externa.
Riesgo nuevo: estudios generados por IA sin revisión metodológica independiente
SEOANC aplicado · Caso en clase
Un dato real — ¿lo usarían?
Dato encontrado
"El 78% de los consumidores uruguayos prefieren marcas sustentables"
— Consultora de marketing, informe sin metodología publicada, 2023
  • S: ¿Cuántos encuestados? ¿Cómo los reclutaron? ¿Online, telefónico, presencial?
  • E: ¿Hay otra fuente que confirme o contradiga este número?
  • O: ¿Quién encargó el informe? ¿La consultora vende servicios de sostenibilidad?
  • N: ¿Cómo definieron "prefieren" — declaración de intención o comportamiento de compra real?
⏸ Pregunta
¿Citarían este dato en un informe de investigación? ¿Con qué advertencias? ¿Cuál es el criterio SEOANC más crítico en este caso específico?
Sección 03 · minutos 68–80
Clasificación
y fuentes de datos
secundarios
Internos: del CRM al Data Lake · Externos: LATAM primero
Malhotra 2016 — Datos internos · Actualizado
Del CRM al Data Lake: la infraestructura de datos internos evolucionó
Datos internos — Malhotra
Generados dentro de la organización. Incluyen bases de datos de clientes, almacenes de datos (data warehouse), minería de datos y sistemas CRM/ARC. Se analizan siempre antes de buscar fuentes externas.
CRM
Salesforce, HubSpot, Vtex (LATAM) — gestión de contactos y ventas. Primera capa.
CDP
Customer Data Platform — unifica múltiples canales en un perfil único del cliente
Data Warehouse
BigQuery, Snowflake, Redshift — análisis estructurado a escala
Data Lake
AWS S3, Azure — datos crudos (structured + unstructured) a escala masiva
Minería de datos
Modelos ML: churn, propensión de compra, personalización en tiempo real
Ejemplo LATAM
Grupo Bimbo: 50,000+ rutas diarias en 32 países integradas en Data Warehouse
Datos externos — Fuentes LATAM imprescindibles
Las fuentes que van a usar en el proyecto del curso
🌎 Institutos nacionales de estadística
PaísInstituto
UruguayINE — ine.gub.uy · ECH anual, microdatos libres
ArgentinaINDEC — indec.gob.ar
BrasilIBGE — ibge.gov.br
MéxicoINEGI — inegi.org.mx
ColombiaDANE — dane.gov.co
ChileINE — ine.cl
Fuentes regionales e internacionales
  • CEPAL — Panorama Social, 33 países, gratuito
  • Banco Mundial — data.worldbank.org, 1,400+ indicadores
  • Latinobarómetro — valores y opinión pública, 18 países
  • LAPOP — Barómetro de las Américas, 30+ países
  • Euromonitor Passport — industria y consumidor por país
  • GWI — datos digitales y comportamiento, 50 países
⏸ Pregunta
Su cliente quiere evaluar si hay mercado para una línea de ropa premium en Uruguay. ¿Cuáles son las tres primeras fuentes secundarias que consultarían y por qué?
Sección 04 · minutos 80–105
Datos sindicados:
naturaleza,
clasificación y tipos
Encuestas · Paneles de compras · Medios · Escaneo electrónico
Malhotra 2016 — Concepto vigente
¿Qué son los datos sindicados?
Fuentes sindicadas — Malhotra
Compañías que recaban y venden datos para varios clientes simultáneamente, incluyendo competidores directos. El objetivo que guía la recopilación es común. Se adquieren por suscripción. El costo individual es bajo porque se distribuye entre muchos clientes.
  • Lógica económica: Nielsen mide el mercado del café. Nestlé, JDE y Lavazza pagan la misma suscripción — incluso siendo competidores directos
  • Cuando escuchan "según Nielsen, la participación de X cayó al Y%" — esos son datos sindicados
  • Consolidación desde 2016: NielsenIQ + GfK (2023) · IRI + NPD = Circana (2022) · Kantar: proveedor dominante de panel de hogares en LATAM
  • Se clasifican en: hogares/consumidores (encuestas, paneles de compras y medios, escaneo) e instituciones (auditorías de retail y mayoristas, servicios industriales)
Malhotra 2016 · Tipos de encuestas sindicadas
Tres tipos — y los proveedores con cobertura LATAM
Encuestas periódicas
Mismas variables, intervalos regulares, nueva muestra cada vez. Permiten estudiar tendencias sin mantener un panel estable.
Paneles ómnibus
Grupo estable de panelistas; distintos clientes insertan preguntas en distintos momentos. No miden las mismas variables repetidamente — diferencia clave con paneles longitudinales.
Psicográficas y AIO
Miden Actividades, Intereses y Opiniones para segmentar por valores. VALS es el referente global.
🌎 Proveedores con cobertura LATAM
GWI — 700K+ panelistas, 50 países, trimestral · Kantar/TNS Omnibus — AR, BR, CL, CO, MX, mensual · Offerwise — 18 países LATAM · Latinobarómetro — 18 países, gratuito · LAPOP — 30+ países, base de datos abierta
Malhotra 2016 · Paneles de compras — Kantar Worldpanel LATAM
Penetración de hogar: lo que los datos de ventas no muestran
Paneles de compras — Malhotra
Participantes registran sus compras en el momento en que ocurren — elimina el sesgo de memoria. Vincula compras con características del consumidor. Permite estudiar lealtad, cambio de marca, elasticidad de precio.
Brand Footprint LATAM 2023 · Kantar
① Coca-Cola · ② Palmolive · ③ Colgate

Uruguay: CONAPROLE tiene mayor penetración en el hogar en la categoría láctea, por encima de marcas multinacionales.
Penetración de hogar — la clave estratégica
% de hogares que compraron la marca al menos una vez en el año.

Define si la estrategia de crecimiento debe ser de penetración (nuevos compradores) o de intensificación (frecuencia/ticket).
⏸ Pregunta
Una marca de helados tiene 70% de penetración en hogares uruguayos pero el volumen de ventas no crece. ¿Qué estrategia de crecimiento indican esos datos?
Malhotra 2016 · Medios y escaneo electrónico — Actualizado
Del UPC al omnicanal: escaneo electrónico en LATAM
Tipos de datos de escaneo — Malhotra
Seguimiento de volumen: ventas por marca/precio a nivel tienda · no vincula al comprador individual
Paneles de escaneo: compra vinculada al comprador por tarjeta ID · datos longitudinales a nivel individual
Paneles + TV por cable: exposición controlada a anuncios distintos por hogar · experimentos cuasi-naturales de eficacia publicitaria
  • NielsenIQ Discover (LATAM, 2023): integra cajas registradoras + auditorías en tienda + e-commerce (Mercado Libre, Amazon, Falabella) + programas de fidelidad
  • Seguimiento semanal de participación de mercado por formato de tienda y región — imposible con auditorías físicas de 2016
  • Evolución en LATAM: tarjeta Tienda Inglesa (Uruguay), CMR Falabella, Disco — generan los mismos datos que paneles de escaneo con mayor cobertura
  • Limitación vigente: no captura canales informales — crítico en países con alta economía informal
Sección 05 · minutos 105–118
Social media,
contexto LATAM
y ética
Herramienta de exploración, no de medición · Tres compromisos concretos
Malhotra 2016 · Social media como fuente secundaria — ampliado
Fuente de hipótesis, no de prevalencias
  • Usos válidos: exploración de temas emergentes, análisis de percepción de marca, detección de tendencias antes de diseñar encuestas
  • Advertencia metodológica crítica: los datos de social media no son una muestra representativa — son de quienes eligieron expresarse públicamente
  • Sesgo por plataforma: Twitter/X → urbanos con opiniones fuertes · Instagram → mujeres jóvenes · TikTok → menores de 25 · Google Maps → experiencias extremas
  • En LATAM: penetración de internet varía del 91% (Uruguay) al 45% (Nicaragua) — los datos digitales sobre-representan a la población conectada
Brandwatch / Sprinklr
Social listening a escala — monitoreo de menciones y sentimiento en redes, foros y noticias
Google Trends
Interés de búsqueda en el tiempo por región y categoría — completamente gratuito
SimilarWeb
Benchmarking de tráfico digital — estimaciones de visitas de cualquier sitio
🌎 Caso Uruguay · Pilsen — social media en exploración
El rol correcto de los datos digitales en el proceso de investigación
Fuentes
analizadas
Menciones en Twitter/X e Instagram (social listening) · Google Trends "cerveza uruguaya" vs. "cerveza artesanal" 2019–2022 · Reseñas Google Maps de bares y almacenes
Hallazgo
El atributo "precio accesible" desplazó a "identidad uruguaya" como razón de mención principal
Rol correcto
Los datos digitales no podían decir si esto era representativo de todos los consumidores — pero sí orientaron el diseño de la encuesta que lo validaría. Fuente de hipótesis, no de conclusiones.
⏸ Pregunta
¿Qué criterios SEOANC aplicarían para evaluar las reseñas de Google Maps de una cadena de restaurantes? ¿Cuál es el sesgo más importante?
Contexto latinoamericano — Lo que los datos no capturan bien
Cuatro características de LATAM que el investigador debe conocer
CaracterísticaImplicación para los datos secundarios
Economía informal
45–70% fuerza laboral · OIT, 2023
Censos y registros tributarios subestiman el mercado real. Crítico en consumo masivo y servicios.
Heterogeneidad intra-regional
PIB per cápita Chile 4x Bolivia
Los datos "de la región" promedian realidades incomparables. Siempre desagregar por país.
Brecha digital
91% Uruguay → 45% Nicaragua · ITU 2023
Datos digitales sobre-representan a la población urbana y conectada.
Marcos legales de privacidad
LGPD · LFPDPPP · Ley 25.326 · Ley 18.331
Uruguay: único país LATAM con adecuación UE (estándares equivalentes al GDPR).
Ética · Malhotra 2016 + tres temas nuevos
Tres compromisos éticos concretos
① Reportar limitaciones honestamente — si el dato tiene restricciones metodológicas, eso va en el informe aunque el cliente prefiera una conclusión más limpia. (Malhotra — vigente)
② Respetar los términos de uso de datos sindicados — los contratos prohíben compartir datos brutos con terceros no suscriptores. Consecuencias legales reales. (Malhotra — vigente)
③ Sesgos algorítmicos — las herramientas de IA tienen sesgos propios. Un modelo entrenado en inglés analiza mal el sarcasmo en español rioplatense. El investigador es responsable de los sesgos de sus herramientas. (Nuevo desde 2016)
④ Scraping de redes sociales — técnicamente posible, éticamente complejo. La mayoría de plataformas lo prohíben. LGPD/LFPDPPP/Ley 25.326/Ley 18.331 requieren base legal para procesar datos identificables. (Nuevo desde 2016)
⏸ Pregunta
Su empresa suscribe a Kantar Worldpanel. Un colega de otra empresa pide los datos de penetración de Uruguay porque no pueden pagar la suscripción. ¿Qué hacen?
Cierre · minutos 118–120
La secuencia que
resume el capítulo
  • ① Definir el tipo de diseño — ¿exploratoria, descriptiva o causal? Determina todo lo que sigue
  • ② Datos secundarios internos primero — lo que la organización ya sabe sobre el problema
  • ③ Datos secundarios externos — gubernamentales, comerciales, sindicados, digitales
  • ④ Evaluar cada fuente con SEOANC — antes de usarla, no después
  • ⑤ Solo si los secundarios no alcanzan — diseñar la recolección de datos primarios
Próxima clase: Capítulo 4 — Investigación cualitativa