Cap. 3 — Diseño de investigación, datos secundarios y sindicados

Investigación de Mercado · Capítulo 3

Diseño de la
investigación,
datos secundarios
y sindicados

Paula Pereda Suárez · Universidad de Montevideo

Apertura · minutos 0–8

La pregunta que organiza el capítulo

El capítulo anterior respondió cómo definir el problema y formular el PIM correctamente
Este capítulo responde lo que sigue: ¿cómo se investiga ese problema? ¿Por dónde se empieza?
La tentación siempre es hacer una encuesta. El capítulo dice: esperá. Primero mirá lo que ya existe.

Regla de oro — Malhotra 2016

"Primero se deben examinar los datos secundarios. El proyecto buscará datos primarios solamente cuando se agoten las fuentes secundarias o cuando produzcan resultados marginales."

Hilo conductor de la clase: antes de salir a preguntar algo, hay que mirar lo que ya existe. Este principio, que parece simple, es el que más frecuentemente se viola y más recursos desperdicia cuando se ignora.

Caso de apertura · minutos 8–28

Datos secundarios
como base
del diseño

Starbucks VIA · Mercado Libre — la misma secuencia metodológica

Caso · Starbucks VIA 2009

Lo que los datos secundarios revelaron antes de una sola encuesta

$17B

mercado café instantáneo 2009
(hoy $35B · Euromonitor 2024)

81%

ventas de café en UK
eran café instantáneo

$100M

ingresos VIA
en primeros 10 meses

Mercado enorme, dominado por Nescafé y Sanka: espacio vacío para entrante premium
Datos sindicados Nielsen: McDonald's y Dunkin Donuts quitaban participación — urgencia de nuevas fuentes de ingreso
Ninguno de estos hallazgos requirió una encuesta propia — todos provenían de informes de industria y auditorías de retail
Solo después diseñaron estudios primarios para validar si los consumidores aceptarían una versión instantánea

Starbucks VIA — La secuencia metodológica

Secundarios primero — primarios después

Paso 1

Datos secundarios internos: registros de ventas, márgenes por canal, presencia en mercados clave

Paso 2

Datos secundarios externos y sindicados: informes de industria, auditorías Nielsen, datos de comercio internacional

Paso 3

Hipótesis del secundario: mercado enorme, espacio vacío para premium, posibilidad de extensión de marca

Paso 4

Recién entonces: investigación primaria para validar si los consumidores aceptarían una versión instantánea de Starbucks

⏸ Pregunta

¿Qué diferencia hay entre buscar datos de mercado en Google y hacer investigación de mercados? ¿Dónde está el límite metodológico?

Caso LATAM · Mercado Libre — Mercado Crédito

La misma secuencia en América Latina

55%

adultos en LATAM
sin cuenta bancaria
(Banco Mundial, 2021)

70%

conexiones móviles
son prepago
(GSMA, 2023)

5M+

clientes de
Mercado Crédito hoy

Datos internos: historial de 50M compradores activos, carritos abandonados por falta de financiamiento
Datos secundarios externos: bancarización (BM), prepago móvil (GSMA), tasas de interés del crédito formal 70–150% anual
Con esos datos, Mercado Libre dimensionó el mercado antes de diseñar una encuesta
La secuencia es siempre la misma: secundarios para enmarcar → primarios para validar

Sección 01 · minutos 28–48

Diseño de
investigación
y tipos básicos

El plan antes del plan · Exploratoria · Descriptiva · Causal

Malhotra 2016 — Concepto vigente

Diseño de investigación: el plan que define todo lo que sigue

Diseño de investigación — Malhotra

Marco de referencia o plan de acción para realizar el proyecto. Especifica los procedimientos para obtener la información requerida. Es iterativo — acepta retroalimentación de fases posteriores.

El diseño es un plan — se construye antes de ejecutar, no durante
Incluye ocho componentes en orden — el primero siempre es el análisis de datos secundarios
Cada componente informa al siguiente: secundarios → cualitativa → cuantitativa → experimental → análisis
Lo nuevo desde 2016: investigación continua (dashboards, CRM, social listening en tiempo real) complementa al diseño formal para decisiones operativas — no lo reemplaza para decisiones estratégicas

Malhotra 2016 — Figura 3.2 · Vigente

Tipos básicos — la clasificación que organiza el campo

Investigación exploratoria

Objetivo: facilitar la comprensión
Información: vagamente definida
Proceso: flexible, no estructurado
Muestra: pequeña, no representativa
Análisis: cualitativo
Resultado: hipótesis para la siguiente etapa
Métodos: datos secundarios, cualitativa

Concluyente descriptiva

Transversal: una sola medición en un momento dado
Longitudinal: misma muestra repetida en el tiempo · Paneles
Muestra grande, representativa · Análisis cuantitativo

Concluyente causal

Establece relaciones de causa y efecto
Requiere diseño experimental con asignación aleatoria
La descriptiva muestra correlación — solo la causal afirma causalidad

Caso LATAM · Spotify — exploratoria → concluyente

¿Por qué en LATAM la conversión a premium era tan baja? — Hipótesis: el precio

Exploratoria
secundarios

BM (bancarización), GSMA (70% conexiones prepago), GWI (hábitos digitales) → hipótesis: el problema es la modalidad de pago, no el precio

Exploratoria
cualitativa

Focus groups en Brasil, Argentina y Colombia → sin tarjeta de crédito o no quieren usarla para suscripción mensual

Concluyente
descriptiva

Encuesta en 5 países: 43% de no-premium cita falta de método de pago conveniente como barrera principal — no el precio

Decisión

Pagos en efectivo (Oxxo), PagoFácil, tarjetas de regalo físicas — sin modificar el precio. LATAM hoy es la región de mayor crecimiento de suscriptores.

Caso · Rappi — Investigación causal y A/B testing

¿Por qué el A/B test es causal y no solo descriptivo?

Pregunta causal de Rappi

¿Una reducción en el costo de envío causa un aumento en la tasa de conversión? (Puede aumentar volumen pero reducir ticket promedio — el efecto neto no es obvio.)

Diseño experimental: usuarios asignados aleatoriamente → grupo tratamiento (envío reducido) vs. control (tarifa normal)
Todo lo demás idéntico: menú, tiempos de entrega, interfaz
La diferencia en conversión se debe causalmente al envío — la aleatorización garantiza equivalencia entre grupos
Una descriptiva podría mostrar que los días de envío gratis las conversiones son más altas — pero no descarta que coincidan con fines de semana, campañas, clima

⏸ Pregunta

¿Qué cambiaría si Rappi mostrara el envío gratuito solo a sus usuarios más activos? ¿Por qué eso rompería la lógica causal del experimento?

Sección 02 · minutos 48–68

Datos primarios
vs. secundarios
y criterios SEOANC

La distinción fundamental · Seis criterios para evaluar cualquier fuente

Malhotra 2016 — Definiciones vigentes

Primarios vs. secundarios — cuándo usar cada uno

Dimensión	Datos Primarios	Datos Secundarios
Propósito	Para el problema en cuestión	Para otros problemas anteriores
Proceso	Complejo — 6 pasos	Rápido, relativamente sencillo
Costo	Alto (encuesta: miles de USD)	Bajo o gratuito
Tiempo	Semanas o meses	Días u horas
Relevancia	Máxima — diseñada para el problema	Variable — puede no ajustarse
Control de calidad	Total — el investigador controla	Limitado — decisiones de terceros

La frontera se difumina hoy: Google Analytics es de tus propios usuarios pero con metodología de Google. El CRM registra solo a quienes interactuaron. La pregunta correcta: ¿qué sesgos introduce la metodología de recolección, independientemente de quién generó los datos?

Malhotra 2016 — Marco SEOANC · Vigente con riesgos nuevos

Seis criterios para no usar datos mal

Especificaciones — metodología, muestra, tasa de respuesta. Revisar siempre la fuente original, no resúmenes.

Riesgo nuevo: paneles con "professional respondents" que aprenden qué respuestas se esperan

Error — exactitud. Comparar múltiples fuentes independientes.

Riesgo nuevo: métricas de plataformas no auditadas externamente (Meta reporta sobre sí misma)

Objetivo — ¿por qué se recopilaron? El propósito original sesga los resultados.

Riesgo nuevo: estudios de empresas tech sobre el valor de sus propias plataformas

Actualidad — ¿cuándo se recopilaron? Desfase recolección–publicación.

Riesgo nuevo: APIs que cambian metodología sin aviso

Naturaleza — variables, unidades, categorías. ¿Compatibles con el problema actual?

Riesgo nuevo: "usuario activo" = definición diferente en Netflix, Spotify y Twitter

Confiabilidad — reputación, metodología pública, auditoría externa.

Riesgo nuevo: estudios generados por IA sin revisión metodológica independiente

SEOANC aplicado · Caso en clase

Un dato real — ¿lo usarían?

Dato encontrado

"El 78% de los consumidores uruguayos prefieren marcas sustentables"

— Consultora de marketing, informe sin metodología publicada, 2023

S: ¿Cuántos encuestados? ¿Cómo los reclutaron? ¿Online, telefónico, presencial?
E: ¿Hay otra fuente que confirme o contradiga este número?
O: ¿Quién encargó el informe? ¿La consultora vende servicios de sostenibilidad?
N: ¿Cómo definieron "prefieren" — declaración de intención o comportamiento de compra real?

⏸ Pregunta

¿Citarían este dato en un informe de investigación? ¿Con qué advertencias? ¿Cuál es el criterio SEOANC más crítico en este caso específico?

Sección 03 · minutos 68–80

Clasificación
y fuentes de datos
secundarios

Internos: del CRM al Data Lake · Externos: LATAM primero

Malhotra 2016 — Datos internos · Actualizado

Del CRM al Data Lake: la infraestructura de datos internos evolucionó

Datos internos — Malhotra

Generados dentro de la organización. Incluyen bases de datos de clientes, almacenes de datos (data warehouse), minería de datos y sistemas CRM/ARC. Se analizan siempre antes de buscar fuentes externas.

CRM

Salesforce, HubSpot, Vtex (LATAM) — gestión de contactos y ventas. Primera capa.

CDP

Customer Data Platform — unifica múltiples canales en un perfil único del cliente

Data Warehouse

BigQuery, Snowflake, Redshift — análisis estructurado a escala

Data Lake

AWS S3, Azure — datos crudos (structured + unstructured) a escala masiva

Minería de datos

Modelos ML: churn, propensión de compra, personalización en tiempo real

Ejemplo LATAM

Grupo Bimbo: 50,000+ rutas diarias en 32 países integradas en Data Warehouse

Datos externos — Fuentes LATAM imprescindibles

Las fuentes que van a usar en el proyecto del curso

🌎 Institutos nacionales de estadística

País	Instituto
Uruguay	INE — ine.gub.uy · ECH anual, microdatos libres
Argentina	INDEC — indec.gob.ar
Brasil	IBGE — ibge.gov.br
México	INEGI — inegi.org.mx
Colombia	DANE — dane.gov.co
Chile	INE — ine.cl

Fuentes regionales e internacionales

CEPAL — Panorama Social, 33 países, gratuito
Banco Mundial — data.worldbank.org, 1,400+ indicadores
Latinobarómetro — valores y opinión pública, 18 países
LAPOP — Barómetro de las Américas, 30+ países
Euromonitor Passport — industria y consumidor por país
GWI — datos digitales y comportamiento, 50 países

⏸ Pregunta

Su cliente quiere evaluar si hay mercado para una línea de ropa premium en Uruguay. ¿Cuáles son las tres primeras fuentes secundarias que consultarían y por qué?

Sección 04 · minutos 80–105

Datos sindicados:
naturaleza,
clasificación y tipos

Encuestas · Paneles de compras · Medios · Escaneo electrónico

Malhotra 2016 — Concepto vigente

¿Qué son los datos sindicados?

Fuentes sindicadas — Malhotra

Compañías que recaban y venden datos para varios clientes simultáneamente, incluyendo competidores directos. El objetivo que guía la recopilación es común. Se adquieren por suscripción. El costo individual es bajo porque se distribuye entre muchos clientes.

Lógica económica: Nielsen mide el mercado del café. Nestlé, JDE y Lavazza pagan la misma suscripción — incluso siendo competidores directos
Cuando escuchan "según Nielsen, la participación de X cayó al Y%" — esos son datos sindicados
Consolidación desde 2016: NielsenIQ + GfK (2023) · IRI + NPD = Circana (2022) · Kantar: proveedor dominante de panel de hogares en LATAM
Se clasifican en: hogares/consumidores (encuestas, paneles de compras y medios, escaneo) e instituciones (auditorías de retail y mayoristas, servicios industriales)

Malhotra 2016 · Tipos de encuestas sindicadas

Tres tipos — y los proveedores con cobertura LATAM

Encuestas periódicas

Mismas variables, intervalos regulares, nueva muestra cada vez. Permiten estudiar tendencias sin mantener un panel estable.

Paneles ómnibus

Grupo estable de panelistas; distintos clientes insertan preguntas en distintos momentos. No miden las mismas variables repetidamente — diferencia clave con paneles longitudinales.

Psicográficas y AIO

Miden Actividades, Intereses y Opiniones para segmentar por valores. VALS es el referente global.

🌎 Proveedores con cobertura LATAM

GWI — 700K+ panelistas, 50 países, trimestral · Kantar/TNS Omnibus — AR, BR, CL, CO, MX, mensual · Offerwise — 18 países LATAM · Latinobarómetro — 18 países, gratuito · LAPOP — 30+ países, base de datos abierta

Malhotra 2016 · Paneles de compras — Kantar Worldpanel LATAM

Penetración de hogar: lo que los datos de ventas no muestran

Paneles de compras — Malhotra

Participantes registran sus compras en el momento en que ocurren — elimina el sesgo de memoria. Vincula compras con características del consumidor. Permite estudiar lealtad, cambio de marca, elasticidad de precio.

Brand Footprint LATAM 2023 · Kantar

① Coca-Cola · ② Palmolive · ③ Colgate

Uruguay: CONAPROLE tiene mayor penetración en el hogar en la categoría láctea, por encima de marcas multinacionales.

Penetración de hogar — la clave estratégica

% de hogares que compraron la marca al menos una vez en el año.

Define si la estrategia de crecimiento debe ser de penetración (nuevos compradores) o de intensificación (frecuencia/ticket).

⏸ Pregunta

Una marca de helados tiene 70% de penetración en hogares uruguayos pero el volumen de ventas no crece. ¿Qué estrategia de crecimiento indican esos datos?

Malhotra 2016 · Medios y escaneo electrónico — Actualizado

Del UPC al omnicanal: escaneo electrónico en LATAM

Tipos de datos de escaneo — Malhotra

Seguimiento de volumen: ventas por marca/precio a nivel tienda · no vincula al comprador individual
Paneles de escaneo: compra vinculada al comprador por tarjeta ID · datos longitudinales a nivel individual
Paneles + TV por cable: exposición controlada a anuncios distintos por hogar · experimentos cuasi-naturales de eficacia publicitaria

NielsenIQ Discover (LATAM, 2023): integra cajas registradoras + auditorías en tienda + e-commerce (Mercado Libre, Amazon, Falabella) + programas de fidelidad
Seguimiento semanal de participación de mercado por formato de tienda y región — imposible con auditorías físicas de 2016
Evolución en LATAM: tarjeta Tienda Inglesa (Uruguay), CMR Falabella, Disco — generan los mismos datos que paneles de escaneo con mayor cobertura
Limitación vigente: no captura canales informales — crítico en países con alta economía informal

Sección 05 · minutos 105–118

Social media,
contexto LATAM
y ética

Herramienta de exploración, no de medición · Tres compromisos concretos

Malhotra 2016 · Social media como fuente secundaria — ampliado

Fuente de hipótesis, no de prevalencias

Usos válidos: exploración de temas emergentes, análisis de percepción de marca, detección de tendencias antes de diseñar encuestas
Advertencia metodológica crítica: los datos de social media no son una muestra representativa — son de quienes eligieron expresarse públicamente
Sesgo por plataforma: Twitter/X → urbanos con opiniones fuertes · Instagram → mujeres jóvenes · TikTok → menores de 25 · Google Maps → experiencias extremas
En LATAM: penetración de internet varía del 91% (Uruguay) al 45% (Nicaragua) — los datos digitales sobre-representan a la población conectada

Brandwatch / Sprinklr

Social listening a escala — monitoreo de menciones y sentimiento en redes, foros y noticias

Google Trends

Interés de búsqueda en el tiempo por región y categoría — completamente gratuito

SimilarWeb

Benchmarking de tráfico digital — estimaciones de visitas de cualquier sitio

🌎 Caso Uruguay · Pilsen — social media en exploración

El rol correcto de los datos digitales en el proceso de investigación

Fuentes
analizadas

Menciones en Twitter/X e Instagram (social listening) · Google Trends "cerveza uruguaya" vs. "cerveza artesanal" 2019–2022 · Reseñas Google Maps de bares y almacenes

Hallazgo

El atributo "precio accesible" desplazó a "identidad uruguaya" como razón de mención principal

Rol correcto

Los datos digitales no podían decir si esto era representativo de todos los consumidores — pero sí orientaron el diseño de la encuesta que lo validaría. Fuente de hipótesis, no de conclusiones.

⏸ Pregunta

¿Qué criterios SEOANC aplicarían para evaluar las reseñas de Google Maps de una cadena de restaurantes? ¿Cuál es el sesgo más importante?

Contexto latinoamericano — Lo que los datos no capturan bien

Cuatro características de LATAM que el investigador debe conocer

Característica	Implicación para los datos secundarios
Economía informal 45–70% fuerza laboral · OIT, 2023	Censos y registros tributarios subestiman el mercado real. Crítico en consumo masivo y servicios.
Heterogeneidad intra-regional PIB per cápita Chile 4x Bolivia	Los datos "de la región" promedian realidades incomparables. Siempre desagregar por país.
Brecha digital 91% Uruguay → 45% Nicaragua · ITU 2023	Datos digitales sobre-representan a la población urbana y conectada.
Marcos legales de privacidad LGPD · LFPDPPP · Ley 25.326 · Ley 18.331	Uruguay: único país LATAM con adecuación UE (estándares equivalentes al GDPR).

Ética · Malhotra 2016 + tres temas nuevos

Tres compromisos éticos concretos

① Reportar limitaciones honestamente — si el dato tiene restricciones metodológicas, eso va en el informe aunque el cliente prefiera una conclusión más limpia. (Malhotra — vigente)

② Respetar los términos de uso de datos sindicados — los contratos prohíben compartir datos brutos con terceros no suscriptores. Consecuencias legales reales. (Malhotra — vigente)

③ Sesgos algorítmicos — las herramientas de IA tienen sesgos propios. Un modelo entrenado en inglés analiza mal el sarcasmo en español rioplatense. El investigador es responsable de los sesgos de sus herramientas. (Nuevo desde 2016)

④ Scraping de redes sociales — técnicamente posible, éticamente complejo. La mayoría de plataformas lo prohíben. LGPD/LFPDPPP/Ley 25.326/Ley 18.331 requieren base legal para procesar datos identificables. (Nuevo desde 2016)

⏸ Pregunta

Su empresa suscribe a Kantar Worldpanel. Un colega de otra empresa pide los datos de penetración de Uruguay porque no pueden pagar la suscripción. ¿Qué hacen?

Cierre · minutos 118–120

La secuencia que
resume el capítulo

① Definir el tipo de diseño — ¿exploratoria, descriptiva o causal? Determina todo lo que sigue
② Datos secundarios internos primero — lo que la organización ya sabe sobre el problema
③ Datos secundarios externos — gubernamentales, comerciales, sindicados, digitales
④ Evaluar cada fuente con SEOANC — antes de usarla, no después
⑤ Solo si los secundarios no alcanzan — diseñar la recolección de datos primarios

Próxima clase: Capítulo 4 — Investigación cualitativa