Cap. 7 — Medición y escalamiento

Investigación de Mercado · Capítulo 7

Medición y
escalamiento

Paula Pereda · Universidad de Montevideo · 150 min

Malhotra (2016) · pp. 180–211

Estructura de la clase · 150 minutos

¿Qué vamos a cubrir hoy?

Bloque	Contenido	Min.
1. Apertura	Caso NPS y el problema de medir bien	0–15
2. Fundamentos	Medición vs. escalamiento · Las 4 escalas básicas	15–45
3. Comparativas	Comparación pareada · Rangos · Suma constante	45–65
4. No comparativas	Likert · Diferencial semántico · Stapel · Multi-reactivos	65–105
5. Evaluación	Confiabilidad · Validez · Errores de medición	105–125
6. Contexto y ética	Social media · IA · LATAM · Ética	125–145
7. Cierre	Tres ideas para llevarse	145–150

Bloque 1 · minutos 0–15

Apertura:
¿Medir bien importa?

Spoiler: sí. Y más de lo que parece.

Caso de apertura · minutos 0–10

El NPS y la pregunta de si el 10 vale el doble que el 5

NPS: "¿Con qué probabilidad recomendarías esta empresa?" en escala 0–10
Detractores (0–6), pasivos (7–8), promotores (9–10). NPS = % promotores − % detractores
¿Es correcto calcular el promedio de 0–10? ¿Es de intervalo o de razón?
Un cliente con 8 y otro con 4: ¿el primero es "el doble" de leal?

⏸ Pausa — pregunta para clase

¿Qué tipo de escala es el NPS? ¿Por qué importa la respuesta para cómo se analiza?

Caso Mercado Libre · minutos 10–15

¿El NPS mide lo mismo en Argentina y en Brasil?

El problema

Mercado Libre aplica el mismo NPS en 9 países. Pero en Argentina, dar un 8 es "casi perfecto"; en Brasil, el 10 es habitual para experiencias buenas. Mismo nivel de servicio objetivo → NPS diferente según país.

La lección

Una escala no es culturalmente neutra. La equivalencia de escala entre países es un problema metodológico real, no una curiosidad académica. Lo que una escala produce depende del contexto en que se aplica.

Pregunta central del capítulo: ¿Cómo elegir la escala correcta para medir lo que queremos medir, en el contexto donde vamos a medir?

Bloque 2 · minutos 15–45

Fundamentos:
Medición y las
cuatro escalas básicas

Malhotra pp. 182–189

Conceptos base · minutos 15–22

Medición ≠ Escalamiento

Medición

Asignación de números u otros símbolos a características de objetos según un conjunto de reglas. No medimos personas, medimos sus atributos: actitud, gasto, frecuencia de compra.

Escalamiento

Extensión de la medición: creación de un continuo sobre el cual se localizan los objetos. El resultado de sumar 5 reactivos de Likert es un escalamiento.

Regla de oro: las reglas de asignación deben ser estándar y constantes — no cambian según el objeto ni con el tiempo.

Las cuatro escalas · minutos 22–38 · ✏ Figura 7.2 — dibujar en pizarrón

De menor a mayor nivel de medición

Nominal

Clasificar

Números solo identifican categorías. Sin orden ni magnitud.

Ej: marca favorita (1=Coca, 2=Pepsi)

Operación válida: moda

Ordinal

Ordenar

Indica posición relativa. No dice cuánto separa al 1° del 2°.

Ej: ranking de preferencia de restaurantes

Operación válida: mediana

Intervalo

Comparar distancias

Distancias iguales = cantidades iguales. Cero arbitrario.

Ej: temperatura en °C, escala Likert

Operación válida: media, SD, correlación

Razón

Cero absoluto

Todas las propiedades anteriores + cero fijo real.

Ej: ventas, edad, cuota de mercado

Operación válida: razones, CV

✏ Pizarrón: dibujar la pirámide de las cuatro escalas mostrando las propiedades que se suman en cada nivel (Figura 7.2)

Errores frecuentes · minutos 38–45

El error de confundir el tipo de escala

Error	Qué está mal	Consecuencia
Calcular el promedio del número de camiseta de los jugadores	Escala nominal → el promedio no tiene significado	Conclusión sin sentido matemático
Decir que el 1° puesto es "el doble de bueno" que el 2°	Escala ordinal → no hay magnitud de diferencia	Sobreinterpretación del dato
Decir que 20°C es "el doble de caliente" que 10°C	Escala de intervalo → el cero es arbitrario	Razón matemáticamente inválida
Calcular ratio sobre una escala Likert de 1–5	Probable intervalo, no razón	Puede ser válido con precaución empírica

⏸ Pausa — volvemos al NPS

¿Cuál es ahora la respuesta: el NPS es una escala de intervalo o de razón? ¿Qué implica eso para el análisis?

Bloque 3 · minutos 45–65

Escalas
comparativas

Comparación pareada · Rangos ordenados · Suma constante

Comparativas vs. no comparativas · minutos 45–50 · ✏ Figura 7.4 — dibujar en pizarrón

Comparativas: los objetos se evalúan entre sí

Escalas comparativas

El encuestado evalúa un objeto relativo a otro. "¿Preferís Coca o Pepsi?" Los datos solo tienen propiedades ordinales. También llamadas: escalas no métricas.

Escalas no comparativas

Cada objeto se evalúa independientemente. "¿Cuánto te gusta Coca en una escala de 1 a 7?" Datos de intervalo. También llamadas: escalas monádicas o métricas.

✏ Pizarrón: dibujar el árbol de la Figura 7.4 — Clasificación de técnicas de escalamiento

Técnicas comparativas · minutos 50–65

Las tres técnicas comparativas

Técnica	Funcionamiento	Cuándo	Limitación
Comparación pareada	Se presentan 2 objetos; se elige el preferido	Pocas marcas (≤7)	n(n−1)/2 pares con muchas marcas
Rangos ordenados	Se ordena de mejor a peor	Hasta ~10 objetos	No dice cuánto separa posiciones
Suma constante	Se distribuyen 100 puntos entre objetos	Importancia relativa de atributos	Difícil con muchos atributos

🌎 LatAm — Suma constante en banca

Santander Uruguay y BBVA Montevideo usan la suma constante para medir qué atributos pesan más en la elección de banco principal: "Distribuí 100 puntos entre: tasa de interés, comisiones, atención, app digital, cercanía de sucursal."

Bloque 4 · minutos 65–105

Escalas no
comparativas

Likert · Diferencial semántico · Stapel · Multi-reactivos

Escala de Likert · minutos 65–78

La escala más usada en investigación de mercados

Definición — Malhotra 2016

Los encuestados indican su grado de acuerdo o desacuerdo con afirmaciones sobre el objeto de interés. Se suman los puntajes para obtener una puntuación total. Generalmente 5 categorías.

    "Los precios de Mercado Libre son justos"

    [1] Totalmente en desacuerdo   [2] En desacuerdo   [3] Neutro   [4] De acuerdo   [5] Totalmente de acuerdo

⏸ Debate — ¿5, 7 o 10 puntos?

En Uruguay, donde la escala educativa va de 1 a 12, ¿cómo creen que responden los encuestados a una escala de 1 a 10? ¿Hay sesgo cultural?

Diseño de Likert · minutos 78–85

¿Cuántas categorías? ¿Par o impar?

5 puntos: simple, ideal para encuestas largas o públicos con menor escolaridad
7 puntos: más discriminación; recomendada para constructos actitudinales complejos
10 puntos: familiar (similar a notas escolares) pero introduce ambigüedad en el centro
Par (sin punto medio): fuerza posición cuando no se quiere permitir neutralidad
Impar (con punto medio): válido cuando existe la posibilidad real de indiferencia

🌎 Uruguay — Antel y OSE

En encuestas de satisfacción con escala 1–10, investigadores locales reportan compresión hacia 7–8 entre encuestados más educados, posiblemente por la escala educativa 1–12 donde el 6 es "el mínimo aceptable" y el 12 es "perfección inalcanzable".

Diferencial semántico · minutos 85–95

Ideal para imagen de marca y posicionamiento

Definición — Malhotra 2016

Escala de 7 puntos cuyos extremos son adjetivos bipolares. Se analiza mediante perfiles de marcas. Los adjetivos alternan de lado para evitar sesgo de posición.

    Natural      1 — 2 — 3 — 4 — 5 — 6 — 7      Artificial

    Accesible    1 — 2 — 3 — 4 — 5 — 6 — 7      Exclusiva

    Moderna     1 — 2 — 3 — 4 — 5 — 6 — 7      Tradicional

✏ Pizarrón: dibujar el análisis de perfil de Dove vs. Avon con los adjetivos anteriores — dos líneas superpuestas que se cruzan en distintos puntos

Caso diferencial semántico · minutos 93–100

Nubank vs. Banco República: imagen percibida

    Burocrático    1 — 2 — 3 — [4] — 5 — 6 — 7    Ágil

    Impersonal    1 — 2 — 3 — 4 — 5 — [6] — 7    Cercano

    Costoso       1 — 2 — 3 — 4 — 5 — 6 — [7]    Gratuito

    Físico         1 — 2 — 3 — 4 — 5 — 6 — [7]    Digital

El atributo "físico/digital" fue el más discriminante entre segmentos etarios (18–35 vs. 35+)
En mercados con alta bancarización reciente, "Gratuito" es el atributo con mayor diferenciación percibida de Nubank
El análisis de perfil permite ver exactamente en qué dimensiones se diferencian las marcas

Escala de Stapel · minutos 100–105

Un adjetivo, diez categorías, sin punto neutral

Stapel — Malhotra 2016

Escala unipolar, −5 a +5, sin cero (sin punto neutral). Un solo adjetivo. Cuanto más positivo, más precisa la descripción. Se presenta verticalmente. No requiere prueba de bipolaridad.

¿Cuándo elegir Stapel?

Ventaja: se puede administrar por teléfono o voz (WhatsApp, IVR).

Útil cuando: es difícil construir pares bipolares válidos, o cuando el encuestado necesita escuchar (no leer) la escala.

Desventaja: algunos encuestados la encuentran confusa.

🌎 LatAm — Encuestas por voz

En zonas rurales de Brasil y México con baja alfabetización, encuestas IVR y WhatsApp audio usan variantes de Stapel: "Del +5 al -5, ¿qué tan bien describe la palabra RÁPIDO al servicio que recibiste?"

Multi-reactivos · minutos 105–112

¿Por qué un solo reactivo no alcanza?

Un solo reactivo captura una sola faceta de un constructo complejo
"Lealtad" no puede medirse con una sola pregunta — tiene dimensiones actitudinales y comportamentales
Escalas multi-reactivo: múltiples ítems se combinan en una puntuación total que mide mejor el constructo
Ejemplo Malhotra: 7 reactivos Likert para "actitud hacia McDonald's" — calidad, servicio, precio, conveniencia, etc.
Regla práctica: siempre que sea posible, usar escalas multi-reactivo. Miden mejor que un reactivo solo.

NPS como caso límite: es un reactivo único para un constructo complejo (lealtad). Por eso su validez empírica es debatida en la literatura.

Bloque 5 · minutos 112–132

Evaluación:
Confiabilidad
y validez

Malhotra pp. 201–208

Errores de medición · minutos 112–122 · ✏ Figura 7.7 — dibujar en pizarrón

Dos tipos de error — dos problemas distintos

Error sistemático

Constante. Afecta siempre de la misma manera. Ejemplos: escala mal diseñada, orden de preguntas que genera sesgo, reactivos ambiguos.

Afecta la VALIDEZ.

Error aleatorio

Variable. Cambia cada vez que se mide. Ejemplos: estado emocional del encuestado, fatiga, ruido ambiental, distracciones.

Afecta la CONFIABILIDAD.

Relación fundamental

Sin confiabilidad → sin validez posible. Pero confiabilidad no garantiza validez: puedo medir consistentemente algo que no es lo que quiero medir.

✏ Pizarrón: los tres círculos concéntricos de la Figura 7.7 — puntuación observada = puntuación verdadera + error sistemático + error aleatorio

Confiabilidad y validez · minutos 122–132

Cómo evaluarlas en la práctica

Concepto	Qué mide	Cómo se evalúa	Indicador típico
Confiabilidad	Libre de error aleatorio	Test-retest, confiabilidad entre evaluadores, consistencia interna	Alfa de Cronbach ≥ 0.70
Validez de contenido	¿Cubre el constructo?	Revisión de expertos, literatura	Juicio experto
Validez de criterio	¿Predice lo que debe predecir?	Correlación con medida externa	Correlación significativa
Validez de constructo	¿Mide el constructo correcto?	Análisis factorial, validez convergente/discriminante	Cargas factoriales, AVE

⏸ Caso diagnóstico

Una escala de lealtad obtiene alfa = 0.82 en Chile y alfa = 0.61 en Argentina para la misma muestra de supermercados. ¿Qué puede estar pasando? ¿Es un problema de confiabilidad o de validez?

Bloque 6 · minutos 132–148

Social media,
IA, LatAm
y ética

El capítulo en contexto actual

Escalas digitales · minutos 132–140

Las escalas nativas digitales: ¿qué tipo de escala son?

Escala digital	Plataforma	Tipo	Problema metodológico
Estrellas 1–5	Amazon, Mercado Libre	Ordinal (¿intervalo?)	Sesgo de extremos: mayoría son 1 o 5
Pulgar arriba/abajo	YouTube, Netflix	Nominal dicotómica	Pierde información de grado
Emojis de reacción	Facebook, LinkedIn	Ordinal nominal	El orden entre emojis es ambiguo
Análisis de sentimientos IA	Reviews, Twitter/X	Cuasi-ordinal	Validez cultural: el sarcasmo, el lunfardo

Distinción clave: el análisis de sentimientos con IA es procesamiento de datos cualitativos a escala, no investigación de actitudes. No reemplaza a las escalas — las complementa.

LATAM y ética · minutos 140–148

Tres sesgos y tres dilemas éticos

Sesgos culturales LATAM

Aquiescencia: responder sí independientemente del contenido. Más pronunciado con menor educación.

Sesgo de extremos: usar solo 1 o 5. Documentado en Brasil y México.

Deseo social: decir lo que el entrevistador quiere. Más frecuente en entrevistas cara a cara.

Dilemas éticos

Escala trucada: todas las opciones son positivas para garantizar resultados favorables al cliente.

Sin consentimiento: inferir actitudes del comportamiento digital sin informar al usuario (LGPD, Ley 18.331 UY, Ley 25.326 AR).

Reactivo único como multi: reportar NPS como medición completa de lealtad.

Cierre · minutos 148–150

Tres ideas
para llevarse

① El tipo de escala determina qué podés analizar — Antes de elegir un análisis estadístico, determiná el nivel de medición. Calcular promedios de datos nominales es un error, aunque el software lo haga sin quejarse.
② Confiabilidad no garantiza validez — Podés medir consistentemente algo equivocado. La pregunta no es "¿los datos son consistentes?" sino "¿la escala mide lo que quiero medir?"
③ Las escalas no son culturalmente neutras — El mismo NPS puede producir resultados distintos en Argentina y Brasil sin que haya diferencia real de satisfacción. La equivalencia de escala es un problema metodológico concreto en investigación de mercados regional.

Próxima clase: Capítulo 8 — Diseño de cuestionarios y formularios