Diapositivas de referencia
Presentación de la clase. Usá las flechas del teclado o los controles para navegar. Presioná F para pantalla completa.
¿Qué significa medir en marketing?
Todo en investigación de mercados depende de medir bien. Una escala mal elegida puede hacer que datos correctamente recolectados produzcan conclusiones equivocadas.
Malhotra abre el capítulo con el ranking mundial de fútbol de la FIFA, donde los países se ordenan según puntos acumulados por resultados en partidos internacionales. El sistema asigna números a países según su desempeño — eso es medición. Ubicar a cada selección en un continuo de 1066 a 1614 puntos es escalamiento.
La lección metodológica es inmediata: el número de puntos no puede multiplicarse entre sí (no puedo decir que Brasil "es el doble" de mejor que Uruguay), porque la escala tiene un punto cero arbitrario. Es una escala de intervalo, no de razón. Confundir el tipo de escala lleva a conclusiones matemáticamente incorrectas.
Caso sustituto: NPS y la pregunta de si el 10 vale el doble que el 5
El Net Promoter Score (NPS) es la métrica de lealtad más usada en el mundo empresarial. La pregunta es simple: "¿Con qué probabilidad recomendarías esta empresa a un conocido?" en una escala de 0 a 10. Detractores (0–6), pasivos (7–8), promotores (9–10). NPS = % promotores − % detractores.
Mercado Libre: cuando el NPS engaña
El problema: Mercado Libre mide NPS en toda la región con la misma escala de 0–10. En Argentina, un 8 es considerado "casi perfecto" culturalmente (el 10 es para Dios, dicen). En Brasil, el 10 es habitual para experiencias buenas. En México, el 9 es frecuente entre usuarios satisfechos.
La trampa metodológica: si se usa el mismo corte de "promotores = 9 o 10" en todos los países, Argentina aparece con NPS significativamente inferior no porque la experiencia sea peor, sino porque la escala tiene un significado cultural diferente. Los datos de la escala no son equivalentes entre culturas.
La solución: varios investigadores de experiencia del cliente proponen calibrar el NPS con anclas culturales locales, o complementarlo con métricas de comportamiento (tasa de recompra, resolución en primer contacto) que no dependen de la interpretación cultural de una escala.
Pregunta para clase: ¿El NPS es una escala de intervalo o de razón? ¿Importa la respuesta para cómo calculamos el NPS?
Medición y escalamiento: conceptos base
La distinción entre medir y escalar es sutil pero importante. Toda escala es una forma de medición, pero no toda medición implica un escalamiento continuo.
Medición es la asignación de números u otros símbolos a características de objetos de acuerdo con un conjunto de reglas. Lo que se mide no son los objetos en sí sino sus características: no medimos a una persona sino su edad, ingreso, actitud o comportamiento de compra.
Escalamiento es una extensión de la medición: implica la creación de un continuo sobre el cual se localizan los objetos medidos. Si le asigno 1 (desfavorable), 2 (neutral) o 3 (favorable) a la actitud de cada encuestado hacia un restaurante, eso es medición. Si luego sumo las calificaciones de cinco restaurantes y ubico al encuestado en un continuo de 5 a 15, eso es escalamiento.
Regla fundamental: las reglas de asignación de números deben estandarizarse y aplicarse uniformemente — no cambian según el objeto medido ni con el tiempo.
¿Cambió algo en la medición con la digitalización?
El marco conceptual de Malhotra es sólido y no cambió. Lo que cambió dramáticamente es qué se puede medir y cómo:
- Antes: se medían actitudes declaradas (lo que la gente dice que siente o haría).
- Hoy: se pueden medir comportamientos reales a escala (clics, tiempo de scroll, secuencias de compra) que tienen propiedades de escala de razón — hay un cero absoluto.
- Tensión metodológica: los datos de comportamiento digital son más confiables que las respuestas declaradas, pero miden lo que la gente hace, no lo que siente. Para entender actitudes, siguen siendo necesarias las escalas tradicionales.
Las cuatro escalas básicas de medición
Nominal, ordinal, de intervalo y de razón. Cada nivel incorpora las propiedades del anterior y agrega una nueva. El nivel de escala determina qué operaciones estadísticas son legítimas.
Las cuatro escalas forman una jerarquía de menor a mayor nivel de medición. A mayor nivel, mayor cantidad de información y mayor variedad de análisis estadísticos posibles.
Escala nominal — nivel más básico
Los números solo identifican o clasifican objetos. No tienen orden ni magnitud. El número no dice nada más que "este es diferente de aquél".
Caso marketing: "¿Cuál es su marca favorita de bebida?" → Coca-Cola=1, Pepsi=2, Sprite=3
Operación legítima: contar frecuencias (moda). NO es válido calcular promedio.
Escala ordinal — agrega orden relativo
Los números indican posición relativa pero no la magnitud de las diferencias. Sé que 1 es mejor que 2, pero no cuánto mejor.
Caso marketing LATAM: encuesta de preferencia de canales — mercado de abasto=1, supermercado=2, e-commerce=3.
Operación legítima: mediana, percentiles, correlación de Spearman. NO es válido calcular promedios aritméticos.
Escala de intervalo — agrega distancias iguales
Las distancias numéricamente iguales representan cantidades iguales de la característica medida. El punto cero es arbitrario, por lo que las razones no tienen sentido.
Caso marketing: escala de actitud de 1 a 7. Un 6 no es "el doble" de favorable que un 3.
Operación legítima: media, desviación estándar, correlación de Pearson, regresión. NO razones.
Escala de razón — nivel más alto, cero absoluto
Posee todas las propiedades anteriores más un punto cero fijo y significativo. Es legítimo calcular razones: X es el doble de Y.
Caso marketing: "¿Cuánto gastó en el supermercado el mes pasado?" → $0 significa gasto nulo.
Operación legítima: todas las anteriores más razones y coeficiente de variación.
Debate vigente: ¿el NPS es intervalo o razón?
La pregunta parece técnica pero tiene implicancias prácticas. Si el NPS es ordinal, promediar las puntuaciones de 0 a 10 es incorrecto — solo deberíamos usar la mediana. La mayoría de las empresas promedian igual, lo que genera debates en la literatura académica sobre si el NPS mide lo que dice medir.
Técnicas de escalamiento comparativas
En las escalas comparativas los objetos se evalúan directamente entre sí. El resultado tiene propiedades ordinales: se sabe qué se prefiere, no cuánto.
Las técnicas comparativas incluyen tres procedimientos: comparación pareada, rangos ordenados y suma constante. Los datos resultantes solo tienen propiedades ordinales.
| Técnica | Cómo funciona | Cuándo usarla | Limitación |
|---|---|---|---|
| Comparación pareada | Se presentan dos objetos a la vez; el encuestado elige cuál prefiere | Pocas marcas (≤7), cuando se quiere la preferencia directa | Con n objetos se necesitan n(n−1)/2 pares → escala mal con muchas marcas |
| Rangos ordenados | El encuestado ordena todos los objetos de mejor a peor | Hasta ~10 objetos; rankings de atributos o marcas | No dice cuánto separa al primero del segundo |
| Suma constante | Se distribuyen 100 puntos entre los objetos según preferencia o importancia | Medir importancia relativa de atributos (precio, calidad, servicio) | Difícil cognitivamente con muchos atributos |
Caso real: Spotify y la comparación pareada en descubrimiento musical
Spotify usa variantes de comparación pareada en sus experimentos de UX. En el diseño de la función "Discover Weekly", ingenieros presentaban a paneles de usuarios pares de canciones: ¿cuál preferirías encontrar en una playlist de descubrimiento? Con miles de pares evaluados, construyeron un modelo de preferencias que alimentó el algoritmo.
La lógica es idéntica a la comparación pareada de Malhotra: dado el par (canción A, canción B), ¿cuál preferís? — pero ejecutada a escala digital.
Caso Uruguay — Instituto Nacional de Estadística (INE): en encuestas de satisfacción con servicios públicos, el INE ha usado escalas de rangos ordenados para medir la importancia percibida de atributos de servicios (tiempo de espera, amabilidad, resolución). La técnica de suma constante se aplica también en el sector financiero: Santander Uruguay y BBVA Montevideo la han usado para entender qué atributos pesan más en la elección de banco principal.
Técnicas de escalamiento no comparativas
En las escalas no comparativas cada objeto se evalúa de forma independiente. Los datos generalmente tienen propiedades de intervalo, lo que habilita análisis estadísticos más potentes.
Las escalas no comparativas (también llamadas monádicas o métricas) se dividen en:
- Escalas de clasificación continua: el encuestado marca sobre una línea continua entre dos extremos. Poco usadas por dificultad de codificación.
- Escalas de clasificación por reactivos: el encuestado selecciona entre categorías numéricas definidas. Son las más utilizadas en investigación de mercados. Incluyen: Likert, diferencial semántico y Stapel.
A diferencia de las comparativas, los datos de estas escalas se interpretan en términos absolutos, no relativos — y se asumen como de intervalo, lo que habilita promedios, correlaciones y análisis factoriales.
Escala de Likert
La escala más usada en investigación de mercados. Simple de construir, fácil de responder y analíticamente versátil. Su vigencia es total, aunque hay debates actuales sobre número de puntos y categoría neutral.
La escala de Likert requiere que los encuestados indiquen el grado de acuerdo o desacuerdo con una serie de afirmaciones sobre el objeto de interés. Generalmente tiene 5 categorías: totalmente en desacuerdo (1) → en desacuerdo (2) → ni de acuerdo ni en desacuerdo (3) → de acuerdo (4) → totalmente de acuerdo (5).
Las puntuaciones individuales se suman para obtener una puntuación total del individuo. Para ello es necesario que todos los reactivos estén orientados en la misma dirección, o invertir los puntajes de los reactivos negativos antes de sumar.
Ventajas: fácil de construir y administrar, los encuestados la entienden sin instrucciones extensas, permite análisis estadísticos de nivel de intervalo.
Desventaja principal: requiere más tiempo para completar que las escalas de comparación pareada.
El debate actual: ¿5, 7 o 10 puntos?
Malhotra menciona que el número de categorías puede variar entre 5 y 10. La investigación psicométrica reciente da algunas pautas más concretas:
- 5 puntos: simple, adecuada para encuestas largas donde la fatiga del respondente es un riesgo.
- 7 puntos: la más recomendada para constructos actitudinales complejos; brinda mejor discriminación sin sobrecargar al encuestado.
- 10 puntos: familiar para los encuestados (similar a notas escolares en varios países), pero introduce ambigüedad en los puntos intermedios.
El problema de la escala de 0–10 en contextos latinoamericanos
En Uruguay, la escala numérica de 1 a 12 (sistema de calificación educativa) hace que para muchos encuestados el 6 sea mentalmente "el mínimo aceptable" y el 12 sea "la perfección". Cuando Antel y OSE realizan encuestas de satisfacción con escalas de 1 a 10, algunos investigadores locales han reportado que los encuestados más educados tienden a evitar los extremos, generando una compresión de respuestas hacia el centro (7–8) que no refleja diferencias reales.
Implicación metodológica: el "número óptimo" de puntos depende del contexto cultural y del nivel educativo de la muestra.
Escala de diferencial semántico
Ideal para medir imagen de marca, posicionamiento y perfil de atributos. Su fortaleza está en la representación visual: el análisis de perfil permite comparar marcas de un vistazo.
La escala de diferencial semántico es una escala de clasificación de 7 puntos, no comparativa, cuyos extremos están asociados con adjetivos bipolares (opuestos semánticos). El encuestado marca el punto que mejor describe al objeto evaluado.
Los adjetivos negativos a veces aparecen a la derecha y otras a la izquierda, para evitar que los encuestados respondan sin leer (sesgo de posición). Los datos se analizan mediante análisis de perfil: se calcula la media de cada reactivo y se grafica, lo que permite comparar visualmente dos o más objetos.
Usos principales: comparación de marcas, imagen corporativa, estudios de posicionamiento, desarrollo de estrategias publicitarias.
Caso: Dove vs. Avon — análisis de perfil de imagen de marca
Un investigador que quiere comparar la imagen de Dove y Avon en mercados latinoamericanos podría construir un diferencial semántico con pares como:
Accesible 1 — 2 — 3 — 4 — 5 — 6 — 7 Exclusiva
Femenina 1 — 2 — 3 — 4 — 5 — 6 — 7 Neutral
Moderna 1 — 2 — 3 — 4 — 5 — 6 — 7 Tradicional
Confiable 1 — 2 — 3 — 4 — 5 — 6 — 7 Riesgosa
Al graficar las medias de ambas marcas en el mismo perfil, se visualiza inmediatamente en qué dimensiones se diferencian. Dove podría aparecer más "natural" y "confiable"; Avon más "accesible" o "tradicional" en ciertos mercados.
Nubank ha usado técnicas de análisis de imagen similares al diferencial semántico para medir cómo se posiciona frente a bancos tradicionales (Itaú, Bradesco) en Brasil y frente a bancos estatales como Banco República en Uruguay. Los atributos bipolares más discriminantes: burocrático / ágil, impersonal / cercano, costoso / gratuito, físico / digital. En mercados con alta bancarización reciente (Uruguay 2019–2024), el atributo "físico/digital" mostró la mayor varianza entre segmentos etarios.
Escala de Stapel
La escala menos usada de las tres, pero con ventajas prácticas: no requiere pares de adjetivos bipolares y puede administrarse por teléfono. Útil cuando es difícil construir opuestos semánticos válidos.
La escala de Stapel es una escala unipolar con 10 categorías numeradas de −5 a +5, sin punto neutral (cero). Se presenta verticalmente. Se muestra un solo adjetivo o frase, y el encuestado indica qué tan precisa es esa descripción del objeto.
- Números positivos: la frase describe con precisión al objeto.
- Números negativos: la frase no lo describe con precisión.
- Mayor el número (positivo o negativo), más extrema la evaluación.
Ventaja clave: no requiere prueba previa de bipolaridad de los adjetivos. Puede administrarse por teléfono (el diferencial semántico requiere que el encuestado vea la escala).
Desventaja: algunos encuestados la encuentran confusa. Es la escala menos utilizada de las tres.
¿Cuándo usar Stapel hoy?
La escala de Stapel recuperó relevancia en encuestas telefónicas y en medios de voz (IVR, asistentes de voz). Cuando una empresa de investigación realiza encuestas via WhatsApp en formato de audio — creciente en Brasil, México y Argentina — la Stapel es más fácil de explicar y responder que el diferencial semántico. La instrucción es simple: "del +5 al -5, ¿qué tan bien describe la palabra X a esta empresa?"
En zonas rurales del noreste de Brasil o en comunidades con baja alfabetización en México, la investigación de mercados por voz (a través de llamadas IVR o asistentes de WhatsApp) ha crecido significativamente. En esos contextos, la escala de Stapel verbal ("¿muy preciso, algo preciso, poco preciso?") resulta más accesible que la Likert escrita.
Escalas de reactivos múltiples
Las escalas de un solo reactivo rara vez capturan constructos complejos como "actitud", "satisfacción" o "lealtad". La solución es combinar múltiples reactivos en una escala compuesta — pero esto exige evaluación rigurosa.
Las escalas de reactivos múltiples consisten en un número de reactivos individuales (Likert, diferencial semántico o Stapel) que se combinan para obtener una medición del constructo de interés. La puntuación total es la suma (o promedio) de los reactivos individuales.
Ejemplo del libro: para medir "actitud hacia McDonald's", Malhotra propone 7 reactivos de Likert. Cada reactivo captura una dimensión (calidad de comida, servicio, precio, conveniencia, etc.). La suma de los 7 reactivos da una puntuación total que mide mejor el constructo que cualquier reactivo aislado.
Recomendación central: siempre que sea posible, usar escalas con múltiples reactivos. Permiten una medición más exacta que las escalas de un solo reactivo.
Caso real: CSAT, NPS y CES como escalas multi-reactivo implícitas
Las tres métricas de experiencia del cliente más usadas en el mundo empresarial son en realidad distintas formas de escalar el mismo constructo latente (satisfacción / lealtad):
| Métrica | Escala | Pregunta central | Limitación |
|---|---|---|---|
| CSAT | 1–5 o 1–10 (intervalo) | ¿Qué tan satisfecho estás? | Mide satisfacción puntual, no lealtad |
| NPS | 0–10 (discutida) | ¿Con qué probabilidad recomendarías? | Un solo reactivo para un constructo complejo |
| CES | 1–7 (intervalo) | ¿Qué esfuerzo te requirió resolver esto? | Predice retención pero no promotores |
Empresas como Rappi, Mercado Libre y Banco Itaú usan las tres métricas en combinación — formando, en la práctica, una escala de multi-reactivos para medir "calidad de experiencia del cliente".
Confiabilidad y validez
Una escala puede ser confiable sin ser válida. Pero no puede ser válida sin ser confiable. Esta asimetría es fundamental para evaluar cualquier instrumento de medición.
Error de medición = variación entre lo que el investigador quiere medir y lo que el proceso de medición genera. Dos fuentes:
- Error sistemático: afecta la medición siempre de la misma manera. Ejemplos: escala mal impresa, reactivos ambiguos, orden de las preguntas que genera sesgo. Afecta la validez.
- Error aleatorio: varía cada vez que se mide. Ejemplos: estado emocional del encuestado, ruido ambiental, fatiga. Afecta la confiabilidad.
Confiabilidad: grado en que la medición está libre de error aleatorio. Una escala confiable produce resultados similares si se aplica dos veces al mismo encuestado en condiciones similares.
Validez: grado en que la medición está libre de errores aleatorios Y sistemáticos. Una escala válida mide lo que dice medir.
Relación fundamental: la falta de confiabilidad es evidencia negativa para la validez. Pero confiabilidad sola no garantiza validez — una escala puede medir consistentemente algo que no es lo que queremos medir.
Evaluando confiabilidad: el alfa de Cronbach en la práctica
El coeficiente alfa de Cronbach es el indicador de confiabilidad interna más usado para escalas de reactivos múltiples. Mide qué tan correlacionados están los reactivos entre sí — si miden el mismo constructo latente.
- Alfa ≥ 0.90: confiabilidad muy alta (puede indicar redundancia entre reactivos).
- Alfa 0.70–0.89: confiabilidad aceptable para investigación de mercados.
- Alfa < 0.70: confiabilidad insuficiente; revisar los reactivos.
¿Mide lo mismo "lealtad" en Argentina y en Chile?
Un investigador regional construye una escala de 6 reactivos para medir lealtad a la marca de supermercados. Obtiene alfa = 0.82 en Santiago y alfa = 0.61 en Buenos Aires. Conclusión: la escala funciona en Chile pero no en Argentina. No necesariamente porque los argentinos sean "desleales", sino porque el constructo "lealtad a supermercados" podría tener un significado diferente en un contexto donde la inflación obliga a comparar precios permanentemente — lo que hace que la "lealtad declarada" sea inconsistente.
Pregunta para clase: ¿es un problema de validez o de confiabilidad? ¿Qué haría para diagnosticarlo?
Investigación internacional y contexto latinoamericano
Las escalas no son culturalmente neutras. Lo que en un país es una escala de intervalo operacionalmente funcional, en otro puede generar respuestas sesgadas que invalidan la comparación.
En muchos países desarrollados, los encuestados están habituados a responder en escalas de intervalo y de razón. En países en desarrollo, las preferencias se miden mejor con escalas ordinales. En particular, se recomiendan escalas binarias (preferido / no preferido) cuando los encuestados enfrentan dificultades para graduar su respuesta.
Hay que prestar especial atención a los descriptores verbales equivalentes: "de acuerdo" en español puede tener distintas connotaciones en México, Colombia, Argentina y Uruguay. La equivalencia conceptual no garantiza equivalencia funcional de la escala.
1. Aquiescencia: la tendencia a responder afirmativamente o con valores altos independientemente del contenido. Es más pronunciada en algunos países latinoamericanos (especialmente en encuestados con menor nivel educativo), lo que infla artificialmente los promedios de escalas de Likert.
2. Sesgo de extremos: la tendencia a usar solo las categorías extremas (1 o 5 en una escala de 5 puntos). Documentado en encuestas de satisfacción en Brasil y México.
3. Deseo social: la tendencia a responder lo que se cree que el entrevistador quiere escuchar. Más pronunciada en entrevistas cara a cara en contextos con alta distancia de poder (Hofstede).
Soluciones prácticas: incluir reactivos de control, usar escalas con punto medio explícito, aplicar técnicas de aleatorización de respuesta en preguntas sensibles, y considerar calibrar las escalas país por país antes de comparar.
Caso: ¿Por qué el CSAT de Rappi es diferente en Colombia y en México?
Rappi opera en 9 países de LATAM. Su equipo de datos ha reportado que el promedio de CSAT (satisfacción del cliente en una escala de 1–5) es sistemáticamente más alto en Colombia (origen de la empresa) que en México o Argentina para el mismo nivel de calidad de servicio objetivo. El análisis de las distribuciones de respuesta muestra que los colombianos usan más el 5 y casi no usan el 1–2, mientras que los argentinos tienen una distribución más plana.
¿Quiere decir esto que los colombianos están más satisfechos o que la escala funciona diferente en cada país? Esta es exactamente la pregunta de equivalencia de escala que Malhotra plantea en el contexto internacional.
Ética en la medición y el escalamiento
Las decisiones técnicas sobre escalas tienen consecuencias éticas. Una escala que produce resultados convenientes para el cliente pero no mide lo que dice medir viola la responsabilidad del investigador.
Las consideraciones éticas requieren el uso del tipo adecuado de escala para obtener los datos necesarios para responder las preguntas de investigación y someter a prueba las hipótesis. El investigador tiene la responsabilidad ante el cliente y los encuestados de asegurar la aplicabilidad y utilidad de las escalas.
Esto implica que elegir una escala que favorezca un resultado deseado por el cliente — en lugar de la escala metodológicamente correcta — constituye una falta ética grave.
Dilemas éticos actualizados en medición
1. Escala trucada: diseñar una escala de Likert donde todas las categorías son positivas (de "satisfecho" a "muy satisfecho") para garantizar resultados favorables al cliente. Se mide pero no se mide lo que se dice medir — hay error sistemático deliberado.
2. Escalas de reactivos únicos como si fueran multi-reactivos: reportar el NPS como si fuera una medición completa de lealtad, cuando es un solo reactivo con validez empírica cuestionada para muchos contextos.
3. IA y escalamiento implícito sin consentimiento: muchas plataformas digitales infieren "preferencias" y "actitudes" a partir del comportamiento del usuario sin informarle que está siendo "medido". En términos de investigación de mercados, esto es una escala de comportamiento aplicada sin consentimiento.
Uruguay — Ley 18.331 (Protección de Datos Personales): requiere consentimiento informado para recolectar datos. La inferencia de actitudes a partir de comportamiento digital sin consentimiento podría vulnerar esta ley.
Brasil — LGPD (Lei Geral de Proteção de Dados, 2020): la LGPD es más explícita: el tratamiento de datos para inferir características psicológicas o comportamentales requiere consentimiento específico. Las escalas implícitas de comportamiento sin consentimiento tienen implicancias legales en Brasil.
Argentina — Ley 25.326: similar a Uruguay; requiere consentimiento para el procesamiento de datos personales, incluido el uso de datos de comportamiento para construir perfiles de actitud.
Social media, IA y escalamiento
Las plataformas digitales son hoy el principal campo de aplicación de técnicas de escalamiento. Pero también introducen sesgos nuevos que Malhotra no podía anticipar.
Malhotra señala que todas las técnicas de escalamiento comparativas y no comparativas pueden usarse en social media. Las encuestas en línea permiten implementar Likert, diferencial semántico y Stapel digitalmente, con mayor velocidad y menor costo que las encuestas en papel o telefónicas.
Esto sigue siendo correcto. Lo que cambió: la proliferación de escalas "nativas digitales" que no existían en 2016 (estrellas de 1 a 5 en e-commerce, thumbs up/down, emojis de reacción) y la posibilidad de medir actitudes de forma implícita (tiempo de scroll, clics) sin preguntar directamente.
Las escalas nativas digitales: ¿qué tipo de escala son?
Hoy existen escalas de medición que no estaban en el radar de Malhotra 2016:
Análisis de sentimientos como proxy de escala ordinal
Los modelos de NLP (como BERT o los GPT) pueden asignar un puntaje de sentimiento a millones de reseñas de texto libre — convirtiendo texto no estructurado en datos cuasi-ordinales. Empresas como Mercado Libre usan esto para construir scores de satisfacción a nivel de vendedor sin pedirle al comprador que rellene una escala.
Limitación metodológica crítica: estos scores de sentimiento son proxi de actitud, no mediciones directas de ella. Su confiabilidad y validez depende de qué tan bien el modelo fue entrenado para el idioma, el slang local y el contexto cultural específico. Un modelo entrenado con reviews de Amazon en inglés puede medir mal el sentimiento de compradores en Argentina que escriben con lunfardo o irónicamente.