Diapositivas de referencia
Presentación de la clase. Usá las flechas del teclado o los controles para navegar. Presioná F para pantalla completa.
Caso de apertura: los datos secundarios en acción
El capítulo abre con Starbucks VIA (2009). El caso ilustra perfectamente cómo los datos secundarios guían el diseño de investigación antes de recurrir a datos primarios. Se complementa con un caso latinoamericano más reciente que sigue la misma lógica.
En 2009, Starbucks lanzó su café instantáneo VIA. Antes de entrar a un mercado completamente nuevo, realizó una extensa investigación de datos secundarios —internos, externos y sindicados— que reveló:
- Starbucks perdía participación ante McDonald's (McCafé) y Dunkin' Donuts en varios mercados.
- El mercado global del café instantáneo valía $17.000 millones, dominado por Nescafé y Sanka, pero con espacio para un entrante premium.
- El café instantáneo representaba el 81% de las ventas de café en Reino Unido y el 63% en Japón.
- Los consumidores querían un café de alta calidad a menor costo.
La lección metodológica: ninguno de estos hallazgos requirió encuestas propias. Todos provenían de datos secundarios evaluados críticamente. Solo después de esta fase se diseñaron los estudios primarios de validación. El resultado: $100 millones en ventas globales en los primeros 10 meses.
El libro menciona que el mercado global del café instantáneo valía $17.000 millones en 2009. Hoy ese mercado superó los $35.000 millones (Euromonitor, 2024) — más del doble. Además, Sanka era de Kraft Foods; tras la escisión de Kraft Heinz en 2015, Sanka quedó bajo Kraft Heinz, no Kraft Foods Inc. como indica el libro.
Caso sustituto: Mercado Libre y la expansión a servicios financieros
Mercado Libre siguió la misma secuencia metodológica de Starbucks VIA: antes de lanzar Mercado Pago como servicio de crédito al consumo, analizó datos secundarios para responder una pregunta estratégica: ¿existe un mercado desatendido suficientemente grande?
Mercado Libre: del e-commerce a los servicios financieros
Pregunta de decisión administrativa: ¿debería Mercado Libre entrar al negocio de crédito al consumo en América Latina?
Datos secundarios internos: historial de transacciones de 50+ millones de compradores activos; tasas de abandono de carrito por falta de financiamiento; segmentación por ticket promedio y frecuencia.
Datos secundarios externos: Banco Mundial (2021) — el 55% de los adultos en América Latina no tenía cuenta bancaria formal; GSMA — penetración de smartphones superaba el 70%; datos de bancos centrales sobre tasas de interés del crédito formal (70–150% anual en varios países).
Datos sindicados: Euromonitor y Americas Market Intelligence sobre el tamaño del mercado de crédito informal y el crecimiento del segmento "bancarizado digital" en la región.
Conclusión: existía un segmento masivo con historial transaccional verificable pero sin acceso a crédito formal. Los datos secundarios definieron el problema con suficiente precisión para diseñar la investigación primaria de validación. Hoy Mercado Crédito tiene más de 5 millones de clientes en LATAM.
Pregunta para clase: ¿Qué criterios de evaluación de datos secundarios (SEOANC) aplicaría Mercado Libre a cada una de estas fuentes? ¿Cuál presenta mayor riesgo de sesgo?
Definición y componentes del diseño de investigación
El marco conceptual del diseño de investigación de Malhotra sigue siendo la estructura más clara para organizar el proceso. Lo que cambió es la disponibilidad, velocidad y diversidad de datos secundarios disponibles en la etapa inicial.
Diseño de investigación Marco de referencia o plan de acción para realizar el proyecto de investigación de mercados. Especifica los procedimientos para obtener la información requerida para estructurar y/o resolver los problemas de investigación.
El diseño se basa en los pasos 1 (definición del problema) y 2 (desarrollo del enfoque). Es iterativo: acepta retroalimentación de fases posteriores hacia los pasos previos. Un buen diseño garantiza que la información reunida sea relevante y útil para la gerencia. Comúnmente incluye ocho componentes:
- Análisis de datos secundarios y sindicados (primer componente — siempre)
- Investigación cualitativa
- Investigación basada en encuestas y observaciones
- Investigación experimental
- Procedimientos de medición y escalamiento
- Diseño del cuestionario o formulario de observación
- Proceso de muestreo y determinación del tamaño de la muestra
- Plan preliminar para el análisis de los datos
Lo que cambió: el diseño de investigación en la era de los datos continuos
En 2016, los ocho componentes del diseño se ejecutaban de forma relativamente secuencial, con semanas o meses entre cada etapa. Hoy, muchas empresas operan en un modelo de investigación continua donde los datos secundarios (analítica digital, CRM, social listening) se actualizan en tiempo real y alimentan decisiones sin esperar un diseño formal completo.
Esto no reemplaza el diseño estructurado: sigue siendo necesario para preguntas estratégicas y decisiones de alta inversión. Pero para decisiones operativas (ajustar un precio, modificar una campaña), los datos continuos permiten ciclos mucho más cortos. El diseño del investigador debe anticipar qué preguntas requieren cada tipo de proceso.
Tipos básicos de diseño de investigación
La clasificación exploratoria / concluyente (descriptiva y causal) es una de las contribuciones más duraderas de la metodología. Sigue siendo el marco organizador por excelencia del campo. Los casos se actualizan completamente.
Hay dos tipos de diseño: exploratorio y concluyente. Los concluyentes se subdividen en descriptivos (transversales y longitudinales) y causales.
Investigación exploratoria Objetivo: brindar información y facilitar la comprensión del problema. Información definida vagamente. Proceso flexible y no estructurado. Muestra pequeña y poco representativa. Análisis cualitativo. Hallazgos tentativos. Métodos principales: datos secundarios e investigación cualitativa.
Investigación concluyente descriptiva Describe características o funciones de grupos relevantes. Es el diseño más usado en investigación de mercados. Se clasifica en transversal (una sola medición sobre una muestra) y longitudinal (misma muestra medida repetidamente en el tiempo mediante paneles).
Investigación concluyente causal Obtiene evidencia de relaciones de causa y efecto. Requiere diseño planeado y estructurado. Su método principal es la experimentación. La descriptiva puede mostrar asociación entre variables (X e Y varían juntas); solo la causal puede afirmar que X es causa de Y.
Recomendación metodológica: la mayoría de los proyectos inician con exploratoria y continúan con concluyente. La exploratoria evita diseñar preguntas equivocadas en la fase concluyente.
| Dimensión | Exploratoria | Concluyente |
|---|---|---|
| Objetivo | Facilitar la comprensión del problema | Someter a prueba hipótesis, examinar relaciones |
| Información | Definida vagamente | Definida con claridad |
| Proceso | Flexible, no estructurado | Formal y estructurado |
| Muestra | Pequeña, no representativa | Grande, representativa |
| Análisis | Cualitativo | Cuantitativo |
| Hallazgos | Tentativos | Concluyentes |
| Resultado | Seguida de más investigación | Usada directamente en decisiones |
Caso sustituto — Exploratoria: Spotify y el modelo freemium en LATAM
El libro ilustra la secuencia exploratoria → concluyente con P&G y compradores latinos en EE.UU. (datos de 2010–2012). Un caso más reciente con mayor relevancia para estudiantes de la región:
Spotify: ¿por qué los usuarios de LATAM no convertían a premium?
Fase exploratoria (datos secundarios): Banco Mundial sobre ingreso per cápita y gasto en entretenimiento; GSMA sobre prepago vs. postpago móvil en la región (el 70% de conexiones en LATAM son prepago, lo que complica el pago recurrente mensual); encuestas sindicadas de GWI sobre hábitos de consumo digital.
Fase exploratoria (cualitativa): focus groups en Brasil, Argentina y Colombia revelaron que el problema no era el precio en sí, sino la modalidad de pago — muchos usuarios no tenían tarjeta de crédito o no querían usarla para suscripciones.
Fase concluyente (descriptiva): encuestas representativas en cinco países confirmaron que el 43% de los no-premium en LATAM citaba la ausencia de método de pago conveniente como barrera principal, no el precio.
Resultado: Spotify lanzó pagos en efectivo a través de Oxxo (México), redes de cobro como PagoFácil (Argentina) y tarjetas de regalo físicas — sin modificar el precio. Hoy LATAM es la región con mayor crecimiento de suscriptores de Spotify.
Pregunta para clase: ¿En qué punto del proceso el equipo de Spotify pasó de investigación exploratoria a concluyente? ¿Qué criterio usarías para identificar ese momento metodológicamente?
Caso sustituto — Causal: A/B testing en Rappi
Rappi: ¿el costo de delivery causa un cambio en la tasa de conversión?
Pregunta causal: ¿una reducción en el costo de envío aumenta la tasa de conversión de pedidos? No es obvio: puede aumentar el volumen pero reducir el ticket promedio e impactar negativamente la rentabilidad.
Diseño causal (A/B test): Rappi segmenta aleatoriamente usuarios activos en grupos de control y tratamiento. El grupo de tratamiento ve la oferta de envío reducido; el control, la tarifa normal. Todas las demás variables (menú, tiempo de entrega, interfaz) se mantienen constantes. La aleatorización garantiza que cualquier diferencia en conversión se debe causalmente a la variable de envío.
Límite metodológico: el A/B testing digital solo puede probar causalidad en variables manipulables en la plataforma. No puede probar causalidad en decisiones de largo plazo (lealtad de marca) ni en contextos fuera de la app.
Pregunta para clase: ¿Por qué el A/B test de Rappi es investigación causal y no meramente descriptiva? ¿Qué ocurriría si los grupos no se asignaran aleatoriamente?
Datos primarios vs. datos secundarios
La distinción fundamental entre primarios y secundarios sigue siendo el eje organizador de la metodología. Las definiciones son vigentes; lo que cambió es la abundancia y diversidad de fuentes secundarias disponibles.
Datos primarios Datos originados por el investigador con el propósito específico de abordar el problema de investigación. Implican los seis pasos completos del proceso de investigación. Son costosos y llevan tiempo.
Datos secundarios Datos reunidos con anterioridad para propósitos diferentes al problema en cuestión. Se pueden localizar con rapidez y a bajo costo.
Regla de oro: "Primero se deben examinar los datos secundarios. El proyecto buscará datos primarios solamente cuando se agoten las fuentes secundarias o cuando produzcan resultados marginales."
| Dimensión | Datos Primarios | Datos Secundarios |
|---|---|---|
| Propósito de recopilación | Para el problema en cuestión | Para otros problemas anteriores |
| Proceso de recopilación | Muy complejo (6 pasos) | Rápido y relativamente sencillo |
| Costo | Alto | Relativamente bajo o gratuito |
| Tiempo | Semanas o meses | Días u horas |
| Relevancia al problema | Máxima (diseñada para él) | Variable (puede no ajustarse) |
| Control de calidad | Total (investigador controla) | Limitado (decisiones de terceros) |
Lo que cambió: la frontera entre primarios y secundarios se difumina
En 2016, la distinción era clara: una encuesta propia era primaria; un informe de Euromonitor era secundaria. Hoy existen categorías intermedias que complican la clasificación:
- Datos de plataforma: Google Analytics, Meta Insights o Shopify generan datos de nuestros propios usuarios, pero con metodología que no controlamos totalmente. ¿Son primarios o secundarios?
- Datos de CRM: técnicamente internos y generados por la empresa, pero con sesgo de autoselección (registran solo a quienes interactuaron, no al mercado total).
- Datos sintéticos: generados por modelos de IA entrenados en datos reales. Crecen en uso para proteger privacidad, pero con sesgos no siempre visibles.
La pregunta relevante no es solo ¿primario o secundario?, sino ¿qué sesgos introduce la metodología de recolección, independientemente de quién generó los datos?
Criterios para evaluar datos secundarios
El marco SEOANC de Malhotra es metodológicamente sólido y sigue siendo la referencia estándar. Lo que cambió son los riesgos específicos que cada criterio enfrenta en el entorno digital.
Antes de usar cualquier fuente secundaria, el investigador debe evaluarla en seis dimensiones:
- Especificaciones: metodología de recolección — tamaño y naturaleza de la muestra, tasa de respuesta, diseño del cuestionario, trabajo de campo y análisis. Revisar siempre la fuente original, no resúmenes de terceros.
- Error: exactitud de los datos. Localizar múltiples fuentes independientes y compararlas. Si coinciden, la confianza aumenta; si difieren, se requiere verificación adicional.
- Actualidad: ¿cuándo se recopilaron? Los censos y estudios tienen desfases entre recolección y publicación. En mercados dinámicos, datos de hace 2 años pueden ser obsoletos.
- Objetivo: ¿por qué se recopilaron originalmente? El propósito original sesga los resultados. Un estudio encargado por una empresa para vender publicidad tendrá sesgos distintos a uno académico independiente.
- Naturaleza: contenido, variables, unidades de medición y categorías empleadas. Las definiciones deben ser compatibles con las del problema actual.
- Confiabilidad: reputación, credibilidad y transparencia de la fuente. Datos de organismos reconocidos (INE, Banco Mundial) son más confiables que blogs sin metodología publicada.
Nuevos riesgos para cada criterio en el entorno digital
| Criterio | Riesgo clásico (Malhotra) | Riesgo adicional hoy |
|---|---|---|
| Especificaciones | Muestra no representativa, bajo nivel de respuesta | Paneles online con bots o "professional respondents"; sesgo de autoselección digital |
| Error | Diferencias entre fuentes | Métricas de plataformas no auditadas externamente; datos de social media manipulados por algoritmos de amplificación |
| Actualidad | Desfase entre recolección y publicación | APIs que cambian metodología sin aviso; datos "en tiempo real" con demoras técnicas no documentadas |
| Objetivo | Sesgo del patrocinador | Estudios de empresas tecnológicas sobre el valor de sus propias plataformas; consultoras que recomiendan sus servicios |
| Naturaleza | Definiciones incompatibles | "Usuario activo" definido diferente por Facebook, Spotify, TikTok y Netflix; penetración calculada sobre bases distintas |
| Confiabilidad | Fuente sin reputación verificable | Estudios generados por IA sin revisión; fuentes que citan otras secundarias en cadena hasta perder el dato original |
Clasificación y fuentes de datos secundarios
La clasificación en datos internos y externos sigue siendo el esquema organizador más útil. Las fuentes específicas citadas en el libro (2012–2015) están mayormente desactualizadas; se ofrecen los equivalentes actuales con foco latinoamericano.
Datos internos: generados dentro de la organización. Incluyen bases de datos de clientes, almacenes de datos, minería de datos, sistemas ARC (CRM) y marketing de bases de datos.
Almacén de datos Base de datos centralizada que consolida información de toda la compañía, proveniente de distintos sistemas operativos.
Minería de datos Técnica que usa computadoras y programas estadísticos avanzados para analizar grandes bases de datos y descubrir patrones desconocidos con valor para el marketing.
ARC / CRM Sistema de apoyo para la toma de decisiones que administra las interacciones entre la organización y sus clientes. El marketing de bases de datos usa los datos del CRM para acciones de marketing con enfoque preciso.
Datos externos: obtenidos fuera de la organización — fuentes de negocios/no gubernamentales, gubernamentales, servicios sindicados y social media.
Recomendación metodológica (vigente): analizar datos internos antes de recurrir a externos. Las organizaciones procesan datos internos de manera habitual que pocas veces se aprovechan completamente.
Datos internos hoy: del CRM al Data Lakehouse
La infraestructura de datos internos evolucionó radicalmente desde 2016. El CRM tradicional es hoy apenas una capa de una arquitectura más compleja:
Fuentes externas: equivalentes actuales y latinoamericanos
El libro cita principalmente fuentes de EE.UU. (Census Bureau, Moody's, D&B, LexisNexis). Se presentan los equivalentes relevantes para investigación en América Latina:
Institutos nacionales de estadística (equivalentes al Census Bureau): INE Uruguay (ine.gub.uy) · INDEC Argentina (indec.gob.ar) · IBGE Brasil (ibge.gov.br) · INEGI México (inegi.org.mx) · DANE Colombia (dane.gov.co) · INE Chile (ine.cl) · INEI Perú (inei.gob.pe).
Fuentes regionales gratuitas: CEPAL STAT (cepal.org/es/datos-y-estadisticas) — estadísticas comparadas de 33 países; BID Data (data.iadb.org) — indicadores de desarrollo; Latinobarómetro (latinobarometro.org) — opinión pública y valores.
Fuentes comerciales con cobertura LATAM: Euromonitor Passport — informes por industria y país; Statista (es.statista.com) — agregador de estadísticas; Americas Market Intelligence — investigación especializada en la región.
Naturaleza y clasificación de los datos sindicados
Los datos sindicados son una de las categorías más importantes en la práctica profesional. El marco conceptual del libro es completamente vigente; lo que cambió son las empresas específicas y la consolidación del sector.
Fuentes sindicadas Compañías que recaban y venden conjuntos de datos diseñados para satisfacer las necesidades de información de varios clientes, incluyendo empresas que compiten en el mismo ramo. Cualquier cliente puede comprar los mismos datos — incluso dos competidores directos (como Coca-Cola y PepsiCo). Se adquieren generalmente por suscripción.
Se diferencian de la investigación a medida en que el objetivo que guía la búsqueda es común para varios clientes, no específico a uno. Esto reduce el costo significativamente. Los informes pueden adaptarse a las necesidades específicas de cada cliente (por territorios de ventas, líneas de producto).
Se clasifican según la unidad de medición:
- Hogares/consumidores: mediante encuestas, paneles de compras y de medios, y servicios de escaneo electrónico.
- Instituciones: auditorías a detallistas y mayoristas, y datos corporativos/industriales.
Recomendación: Siempre examinar datos sindicados pertinentes antes de recolectar datos primarios. Su costo es bajo en comparación con los primarios.
El ecosistema sindicado hoy: consolidación y digitalización
El sector experimentó consolidación significativa desde 2016. El libro menciona Nielsen, IRI, GfK, Ipsos, Kantar como empresas separadas. Los cambios más relevantes:
- Nielsen se dividió en 2023: NielsenIQ (datos de retail y consumidor) y Nielsen Media (medición de audiencias).
- IRI (Information Resources) se fusionó con NPD Group en 2022 para formar Circana.
- GfK fue adquirida por NielsenIQ en 2023, creando la mayor empresa de datos de consumidor del mundo.
- Kantar sigue independiente y es el proveedor dominante de panel de hogares en América Latina (Argentina, Brasil, Chile, Colombia, Ecuador, México, Perú, Venezuela).
Encuestas sindicadas
Las encuestas sindicadas son el método más flexible para obtener información sobre actitudes, valores y motivaciones a escala. El marco tipológico del libro es vigente; se actualizan los proveedores y se incorporan los paneles digitales.
Encuestas periódicas Reúnen datos a intervalos regulares sobre el mismo conjunto de variables, con una nueva muestra de participantes cada vez. Permiten estudiar cambios en el tiempo sin el costo de mantener un panel estable.
Paneles ómnibus Un grupo grande de panelistas es reclutado; distintos clientes insertan sus preguntas en diferentes momentos. No miden las mismas variables repetidamente (eso los diferencia de los paneles longitudinales verdaderos).
Encuestas psicográficas y de estilos de vida Miden actividades, intereses y opiniones (AIO) para clasificar consumidores según valores y estilos de vida con propósitos de segmentación. El sistema VALS (Values and Lifestyles) de Strategic Business Insights es el más conocido.
Encuestas de evaluación de publicidad Miden el tamaño y perfil de audiencias publicitarias y evalúan la eficacia de la publicidad en distintos medios.
Ventajas y límites: las encuestas son flexibles y permiten plantear una gran variedad de preguntas. Su principal limitación: dependen de autorreportes, que pueden diferir del comportamiento real.
Encuestas sindicadas digitales: el nuevo estándar
Las encuestas sindicadas migraron masivamente a formato digital. Los paneles en papel y las entrevistas telefónicas fueron reemplazados casi completamente por paneles online:
Paneles de compras y de medios de comunicación
Los paneles siguen siendo la herramienta más poderosa para datos longitudinales de comportamiento del consumidor. La lógica conceptual es intacta; el ecosistema de medición evolucionó radicalmente.
Los paneles se componen de individuos, hogares u organizaciones que registran sus compras y comportamiento a lo largo del tiempo. La característica distintiva frente a las encuestas es que los participantes o dispositivos electrónicos registran conductas en el momento en que ocurren — no con base en el recuerdo posterior.
Paneles de compras Los participantes registran sus compras en un diario o electrónicamente. Permiten estudiar: lealtad de marca, cambio de marca, elasticidad de precio, eficacia de promociones y perfil del comprador.
Paneles de medios Dispositivos electrónicos registran automáticamente el consumo de medios (TV, radio, Internet, dispositivos móviles). Se clasifican según el tipo de consumo que miden.
Ventajas sobre encuestas: mayor exactitud (registro en el momento), datos longitudinales, capacidad de vincular compras con características del consumidor.
Desventajas: los miembros pueden no ser representativos de la población general; grupos minoritarios y personas con bajo nivel educativo suelen estar subrepresentados; el simple hecho de pertenecer al panel puede alterar el comportamiento.
Caso actualizado: Kantar Worldpanel en América Latina
El libro menciona el panel Homescan de Nielsen (250,000 familias en 27 países) como el referente global. En América Latina, el panel de hogares más influyente es el de Kantar Worldpanel:
Kantar Worldpanel: penetración de hogares y Brand Footprint
Kantar Worldpanel opera en Argentina, Brasil, Chile, Colombia, Ecuador, México, Perú y Venezuela. Sus datos de panel miden la penetración de marcas en el hogar (Household Penetration) — el porcentaje de hogares que compró la marca al menos una vez al año — y la frecuencia de compra.
Su reporte Brand Footprint LATAM 2023 reveló que Coca-Cola lidera como la marca más comprada de la región por décimo año consecutivo, seguida de Palmolive y Colgate. En Uruguay específicamente, CONAPROLE es la marca local con mayor penetración en el hogar, por encima de marcas multinacionales en la categoría láctea.
Pregunta para clase: ¿Por qué la "penetración del hogar" es una métrica más útil que el volumen de ventas total para decidir si una marca debe invertir en adquirir nuevos compradores vs. aumentar la frecuencia de compra de los actuales?
Medición de audiencias en la era del streaming y la fragmentación
El libro describe los paneles de medios de Nielsen como el referente de medición televisiva. En 2024, el ecosistema de medios está radicalmente fragmentado: televisión lineal, streaming, YouTube y apps móviles tienen métricas separadas:
- TV lineal en LATAM: Kantar IBOPE Media (Argentina, Chile, Colombia) y Nielsen (México, Brasil) miden rating en tiempo real.
- Streaming: Netflix publicó sus primeros datos de horas vistas por título en 2022; Prime Video y Disney+ aún no son completamente transparentes.
- Medición cross-media: Nielsen ONE (lanzado en 2022) intenta consolidar todas las pantallas en una métrica unificada. Todavía en implementación.
- Digital: Comscore mide audiencias web y móvil; SimilarWeb estima tráfico sin panel de seguimiento.
Servicios de escaneo electrónico
El escaneo sigue siendo la fuente de datos de punto de venta más precisa y rápida para bienes de consumo masivo. La tecnología base se mantiene; se suman nuevas fuentes digitales de datos de compra.
Datos de escaneo Se obtienen al leer el código universal de producto (UPC/EAN) en la caja registradora. Son más rápidos y precisos que los datos de encuesta o panel manual, eliminan errores de memoria y registran variables de tienda (precio, promociones, exhibiciones). Se clasifican en tres tipos:
- Datos de seguimiento de volumen: ventas por marca, tamaño, precio y sabor a nivel de tienda. No vinculan compras con el comprador individual. SCANTRACK (Nielsen) e InfoScan (IRI) son los servicios históricos de referencia.
- Paneles de escaneo: cada miembro del panel presenta una tarjeta ID al pagar, vinculando la compra con su identidad. Genera datos longitudinales a nivel individual.
- Paneles de escaneo con televisión por cable: combinan datos de compra con exposición controlada a anuncios diferentes por hogar. Permiten experimentos cuasi-naturales sobre eficacia publicitaria.
Limitaciones: cubren solo establecimientos con escáneres; no capturan actitudes ni motivaciones; pueden excluir canales informales relevantes en LATAM.
Caso actualizado: NielsenIQ en América Latina y el sell-out omnicanal
NielsenIQ Discover: del UPC al omnichannel tracking
NielsenIQ (fusionada con GfK en 2023) opera en Argentina, Brasil, Chile, Colombia, México, Perú y otros. Su plataforma NielsenIQ Discover integra: auditorías en tienda física, datos de cajas registradoras, datos de e-commerce (Mercado Libre, Amazon, Falabella), y datos de programas de fidelidad de cadenas de supermercados.
Un fabricante de cuidado personal puede monitorear semanalmente la participación de mercado de su champú Dove frente a Head and Shoulders (P&G) en el canal supermercado de São Paulo, desagregada por formato de tienda y región — información inimaginable con las auditorías físicas tradicionales del libro.
Pregunta para clase: ¿Cuál de los seis criterios SEOANC es más crítico al interpretar datos de NielsenIQ para tomar decisiones de distribución en el canal informal (kioscos, almacenes de barrio) que históricamente no tenían escáneres?
Más allá del UPC: nuevas fuentes digitales de datos de compra
El principio del escaneo — registrar automáticamente conductas de compra en el punto de venta — se extendió a nuevos formatos que el libro no podía anticipar:
- Programas de fidelidad digitales: las tarjetas de puntos y apps (Tienda Inglesa en Uruguay, CMR de Falabella, Disco+) generan datos vinculados al comprador idénticos a los paneles de escaneo — y con mayor cobertura geográfica en LATAM que los paneles tradicionales.
- E-commerce nativo: Mercado Libre, Rappi y PedidosYa registran cada transacción con datos completos del comprador, producto, contexto de compra y promoción activa en tiempo real.
- Tiendas sin cajeros (Amazon Go): visión computacional que registra cada artículo tomado del estante. Aún en expansión piloto fuera de EE.UU.
Auditorías a detallistas y mayoristas · Servicios industriales
Las auditorías de canal siguen siendo la referencia para medir participación de mercado en punto de venta físico. Los servicios industriales permiten investigar mercados B2B con datos sindicados.
Auditoría Proceso de recopilación de datos derivado de registros físicos o análisis de inventarios. Mide el flujo de productos a través del canal — detallistas y mayoristas — registrando niveles de inventario, distribución y la influencia de programas promocionales y de precios.
La información de auditoría se usa para: (1) determinar tamaño del mercado y participación por tipo de tienda, región o ciudad; (2) evaluar actividad de la competencia; (3) identificar problemas de distribución y espacio de anaquel; (4) establecer potenciales de venta; (5) verificar asignación de promociones.
Desventaja clave: cobertura limitada a establecimientos participantes y desfase de 2 meses entre el ciclo de auditoría y la publicación de los informes. Los datos de auditoría no pueden vincularse directamente con características individuales del consumidor.
Servicios industriales Datos sindicados sobre compañías, negocios e instituciones para marketing B2B. Reúnen datos financieros, operativos y de empleo clasificados por el Sistema de Clasificación Industrial (NAICS). Se recaban mediante interrogatorios directos, seguimiento de publicaciones comerciales e informes corporativos.
Investigación de una sola fuente Combinación de datos de múltiples fuentes sindicadas que sigue el proceso completo de marketing: vincula información demográfica y psicográfica del individuo con sus hábitos de exposición a medios y sus compras reales.
Servicios industriales actualizados: de D&B a LinkedIn Sales Navigator
El libro menciona D&B (Dun & Bradstreet) como la referencia de datos sobre empresas. D&B sigue siendo relevante, pero el ecosistema de datos empresariales se amplió significativamente:
Investigación internacional y contexto latinoamericano
El libro aborda la investigación internacional con datos de 2012 y ejemplos centrados en EE.UU. Los conceptos sobre comparabilidad y fuentes internacionales son vigentes. Los datos y ejemplos regionales se actualizan completamente.
En la investigación internacional, los datos secundarios adquieren importancia especial: no siempre es viable recolectar datos primarios en múltiples países, y la comparabilidad entre naciones requiere fuentes estandarizadas.
Desafíos metodológicos: las diferencias en definiciones estadísticas entre países (qué se considera "ingreso medio", cómo se clasifica la industria) dificultan las comparaciones directas. El investigador debe verificar que categorías y unidades de medida sean compatibles antes de comparar fuentes de distintos países.
Procedimiento recomendado (vigente): (1) identificar el problema específico; (2) buscar en fuentes gubernamentales del país objetivo; (3) revisar organismos internacionales (BM, FMI, CEPAL); (4) consultar servicios sindicados con cobertura global; (5) evaluar cada fuente con los criterios SEOANC.
Desafíos específicos de datos secundarios en América Latina
LATAM presenta desafíos específicos que el libro no anticipa porque sus ejemplos internacionales se centran en mercados desarrollados:
- Economía informal: entre el 45% (Chile) y el 70% (Bolivia) de la fuerza laboral opera en el sector informal (OIT, 2023). Los datos secundarios formales no capturan adecuadamente esta realidad económica.
- Heterogeneidad intra-regional: el ingreso per cápita de Chile ($16,000 USD PPP) es cuatro veces el de Bolivia ($4,000). Los datos regionales promediados pueden ocultar diferencias críticas para las decisiones de marketing.
- Brecha digital: la penetración de internet varía del 91% (Uruguay) al 45% (Nicaragua) según la ITU (2023). Los datos digitales secundarios sobrerrepresentan a la población urbana y conectada.
- Distintos marcos legales de privacidad: Brasil (LGPD), México (LFPDPPP), Argentina (Ley 25.326) y Uruguay (Ley 18.331) tienen requisitos diferentes sobre recolección y uso de datos, lo que afecta la disponibilidad de ciertas fuentes sindicadas.
Para contexto socioeconómico: CEPAL STAT (statistics.cepal.org) — estadísticas comparadas de 33 países; BID Data (data.iadb.org) — indicadores de desarrollo; Latinobarómetro — valores y opinión pública regional.
Para consumidor y mercados: Kantar Worldpanel — panel de hogares; Euromonitor Passport — informes de industria por país; GWI — consumo digital por región; eMarketer/Insider Intelligence — mercados digitales.
Para datos gubernamentales nacionales: INE Uruguay · INDEC Argentina · IBGE Brasil · INEGI México · DANE Colombia · INE Chile · INEI Perú.
Ética en el uso de datos secundarios y sindicados
El libro introduce la ética del diseño de investigación con un marco clásico de responsabilidades. En 2024, los temas éticos centrales incluyen privacidad de datos, marcos legales de LATAM, sesgo algorítmico y uso de datos sin consentimiento explícito.
Los aspectos éticos en esta etapa involucran principalmente: la recolección de datos secundarios de manera que no perjudique a los participantes originales; el uso de datos sindicados dentro de los términos de la licencia de suscripción; y la transparencia sobre las limitaciones de las fuentes al reportar resultados.
Los contratos de datos sindicados suelen prohibir compartir los datos brutos con terceros no suscriptores — incluyendo colegas de otras divisiones de la misma empresa.
La responsabilidad de evaluar y reportar honestamente las limitaciones de los datos secundarios recae sobre el investigador, independientemente de la presión del cliente por obtener hallazgos favorables.
① Privacidad de datos y marcos legales en LATAM
Desde 2018, el uso de datos personales — incluyendo datos secundarios sobre consumidores — está regulado por marcos legales que el investigador debe conocer:
- RGPD / GDPR (Unión Europea, 2018): aplica cuando los datos involucran ciudadanos europeos, independientemente de dónde opere la empresa. Establece consentimiento explícito, derecho al olvido y portabilidad de datos.
- LGPD (Brasil, 2020): Lei Geral de Proteção de Dados. Aplica a cualquier empresa que procese datos de personas en Brasil.
- LFPDPPP (México, 2010): Ley Federal de Protección de Datos Personales en Posesión de los Particulares. La primera ley de privacidad de datos de LATAM.
- Ley 25.326 y modificaciones (Argentina): actualizada para alinearse parcialmente con el GDPR.
- Ley 18.331 (Uruguay): Protección de Datos Personales y Acción de Habeas Data. Uruguay es el único país de LATAM con reconocimiento de "adecuación" de la UE — sus estándares se consideran equivalentes al GDPR.
② Sesgos algorítmicos en el análisis de datos secundarios
Cuando la investigación usa herramientas de IA para analizar datos secundarios (análisis de sentimiento, clasificación automática de respuestas, resumen de textos), existe riesgo de que el modelo reproduzca sesgos presentes en sus datos de entrenamiento.
Ejemplos documentados: modelos de análisis de sentimiento entrenados principalmente en inglés clasifican incorrectamente el sarcasmo en español rioplatense o el lunfardo; herramientas de reconocimiento facial entrenadas con datos de EE.UU. tienen tasas de error significativamente mayores en personas afrodescendientes.
Adicionalmente, crece el uso de datos sintéticos — generados por modelos de IA a partir de datos reales — para proteger privacidad. Los datos sintéticos pueden perpetuar los sesgos del modelo generador de manera no visible para el investigador.
③ Uso de datos sin consentimiento explícito y scraping de redes sociales
Una práctica creciente es el web scraping — extracción automática de datos de redes sociales, foros y sitios web. Si bien técnicamente posible, plantea dilemas éticos que el libro no aborda:
- Los usuarios publican en redes sociales para su audiencia, no para ser objeto de investigación de mercados.
- Los términos de uso de la mayoría de plataformas (Twitter/X, Instagram, LinkedIn) prohíben el scraping masivo.
- El uso de la API oficial de las plataformas (cuando existe y es accesible) es metodológicamente superior y más estable.
- El GDPR y leyes equivalentes requieren base legal para procesar datos de personas identificables, incluso si son públicamente accesibles.
Social media y datos digitales como fuente secundaria
El libro introduce el social media como fuente de datos secundarios con ejemplos de 2012–2013. En 2024, el ecosistema de datos digitales es radicalmente más rico, fragmentado y metodológicamente más complejo.
El análisis del contenido de los social media facilita el proceso de diseño de investigación de dos maneras: (1) como herramienta de investigación exploratoria para identificar temas, percepciones y patrones antes de diseñar encuestas; (2) como fuente de datos secundarios externos que se actualiza en tiempo real.
Permiten analizar: menciones de marca, sentimiento del consumidor, tendencias emergentes, conversaciones sobre productos y comportamiento de influenciadores. Son especialmente útiles en la fase exploratoria.
Límites metodológicos señalados en el libro (vigentes y ampliados): los datos de social media provienen de usuarios que decidieron expresarse públicamente — no son una muestra representativa de todos los consumidores. Las diferencias entre plataformas, los sesgos de selección y el ruido deben considerarse cuidadosamente.
El ecosistema de datos digitales en 2024: herramientas y advertencias
Caso: datos digitales en investigación exploratoria en Uruguay
Pilsen Uruguay: monitoreo de conversación de marca en redes sociales
Antes de redefinir su posicionamiento post-pandemia, el equipo de marketing de Pilsen (FNC) analizó datos digitales secundarios como fase exploratoria. Las fuentes incluyeron: menciones en Twitter/X e Instagram con herramientas de social listening; búsquedas en Google Trends de "cerveza uruguaya" vs. "cerveza artesanal" en Uruguay (2019–2022); reseñas en Google Maps de bares y almacenes; y comentarios en grupos de Facebook de consumidores de cerveza.
El análisis reveló que el atributo "precio accesible" había desplazado al atributo "identidad uruguaya" como razón de compra principal — un hallazgo que requería validación con investigación primaria cuantitativa pero que orientó el diseño del cuestionario posterior.
Pregunta para clase: ¿Qué criterios del marco SEOANC aplicarías para evaluar las reseñas de Google Maps como fuente de datos secundarios? ¿Qué sesgos sistemáticos podrían tener?