Investigación de Mercado · Capítulo 7
Medición y
escalamiento
Paula Pereda · Universidad de Montevideo · 150 min
Malhotra (2016) · pp. 180–211
Estructura de la clase · 150 minutos
¿Qué vamos a cubrir hoy?
BloqueContenidoMin.
1. AperturaCaso NPS y el problema de medir bien0–15
2. FundamentosMedición vs. escalamiento · Las 4 escalas básicas15–45
3. ComparativasComparación pareada · Rangos · Suma constante45–65
4. No comparativasLikert · Diferencial semántico · Stapel · Multi-reactivos65–105
5. EvaluaciónConfiabilidad · Validez · Errores de medición105–125
6. Contexto y éticaSocial media · IA · LATAM · Ética125–145
7. CierreTres ideas para llevarse145–150
Bloque 1 · minutos 0–15
Apertura:
¿Medir bien importa?
Spoiler: sí. Y más de lo que parece.
Caso de apertura · minutos 0–10
El NPS y la pregunta de si el 10 vale el doble que el 5
  • NPS: "¿Con qué probabilidad recomendarías esta empresa?" en escala 0–10
  • Detractores (0–6), pasivos (7–8), promotores (9–10). NPS = % promotores − % detractores
  • ¿Es correcto calcular el promedio de 0–10? ¿Es de intervalo o de razón?
  • Un cliente con 8 y otro con 4: ¿el primero es "el doble" de leal?
⏸ Pausa — pregunta para clase
¿Qué tipo de escala es el NPS? ¿Por qué importa la respuesta para cómo se analiza?
Caso Mercado Libre · minutos 10–15
¿El NPS mide lo mismo en Argentina y en Brasil?
El problema
Mercado Libre aplica el mismo NPS en 9 países. Pero en Argentina, dar un 8 es "casi perfecto"; en Brasil, el 10 es habitual para experiencias buenas. Mismo nivel de servicio objetivo → NPS diferente según país.
La lección
Una escala no es culturalmente neutra. La equivalencia de escala entre países es un problema metodológico real, no una curiosidad académica. Lo que una escala produce depende del contexto en que se aplica.
Pregunta central del capítulo: ¿Cómo elegir la escala correcta para medir lo que queremos medir, en el contexto donde vamos a medir?
Bloque 2 · minutos 15–45
Fundamentos:
Medición y las
cuatro escalas básicas
Malhotra pp. 182–189
Conceptos base · minutos 15–22
Medición ≠ Escalamiento
Medición
Asignación de números u otros símbolos a características de objetos según un conjunto de reglas. No medimos personas, medimos sus atributos: actitud, gasto, frecuencia de compra.
Escalamiento
Extensión de la medición: creación de un continuo sobre el cual se localizan los objetos. El resultado de sumar 5 reactivos de Likert es un escalamiento.
Regla de oro: las reglas de asignación deben ser estándar y constantes — no cambian según el objeto ni con el tiempo.
Las cuatro escalas · minutos 22–38 · ✏ Figura 7.2 — dibujar en pizarrón
De menor a mayor nivel de medición
Nominal
Clasificar
Números solo identifican categorías. Sin orden ni magnitud.

Ej: marca favorita (1=Coca, 2=Pepsi)

Operación válida: moda
Ordinal
Ordenar
Indica posición relativa. No dice cuánto separa al 1° del 2°.

Ej: ranking de preferencia de restaurantes

Operación válida: mediana
Intervalo
Comparar distancias
Distancias iguales = cantidades iguales. Cero arbitrario.

Ej: temperatura en °C, escala Likert

Operación válida: media, SD, correlación
Razón
Cero absoluto
Todas las propiedades anteriores + cero fijo real.

Ej: ventas, edad, cuota de mercado

Operación válida: razones, CV
✏ Pizarrón: dibujar la pirámide de las cuatro escalas mostrando las propiedades que se suman en cada nivel (Figura 7.2)
Errores frecuentes · minutos 38–45
El error de confundir el tipo de escala
ErrorQué está malConsecuencia
Calcular el promedio del número de camiseta de los jugadoresEscala nominal → el promedio no tiene significadoConclusión sin sentido matemático
Decir que el 1° puesto es "el doble de bueno" que el 2°Escala ordinal → no hay magnitud de diferenciaSobreinterpretación del dato
Decir que 20°C es "el doble de caliente" que 10°CEscala de intervalo → el cero es arbitrarioRazón matemáticamente inválida
Calcular ratio sobre una escala Likert de 1–5Probable intervalo, no razónPuede ser válido con precaución empírica
⏸ Pausa — volvemos al NPS
¿Cuál es ahora la respuesta: el NPS es una escala de intervalo o de razón? ¿Qué implica eso para el análisis?
Bloque 3 · minutos 45–65
Escalas
comparativas
Comparación pareada · Rangos ordenados · Suma constante
Comparativas vs. no comparativas · minutos 45–50 · ✏ Figura 7.4 — dibujar en pizarrón
Comparativas: los objetos se evalúan entre sí
Escalas comparativas
El encuestado evalúa un objeto relativo a otro. "¿Preferís Coca o Pepsi?" Los datos solo tienen propiedades ordinales. También llamadas: escalas no métricas.
Escalas no comparativas
Cada objeto se evalúa independientemente. "¿Cuánto te gusta Coca en una escala de 1 a 7?" Datos de intervalo. También llamadas: escalas monádicas o métricas.
✏ Pizarrón: dibujar el árbol de la Figura 7.4 — Clasificación de técnicas de escalamiento
Técnicas comparativas · minutos 50–65
Las tres técnicas comparativas
TécnicaFuncionamientoCuándoLimitación
Comparación pareadaSe presentan 2 objetos; se elige el preferidoPocas marcas (≤7)n(n−1)/2 pares con muchas marcas
Rangos ordenadosSe ordena de mejor a peorHasta ~10 objetosNo dice cuánto separa posiciones
Suma constanteSe distribuyen 100 puntos entre objetosImportancia relativa de atributosDifícil con muchos atributos
🌎 LatAm — Suma constante en banca
Santander Uruguay y BBVA Montevideo usan la suma constante para medir qué atributos pesan más en la elección de banco principal: "Distribuí 100 puntos entre: tasa de interés, comisiones, atención, app digital, cercanía de sucursal."
Bloque 4 · minutos 65–105
Escalas no
comparativas
Likert · Diferencial semántico · Stapel · Multi-reactivos
Escala de Likert · minutos 65–78
La escala más usada en investigación de mercados
Definición — Malhotra 2016
Los encuestados indican su grado de acuerdo o desacuerdo con afirmaciones sobre el objeto de interés. Se suman los puntajes para obtener una puntuación total. Generalmente 5 categorías.
"Los precios de Mercado Libre son justos"
[1] Totalmente en desacuerdo   [2] En desacuerdo   [3] Neutro   [4] De acuerdo   [5] Totalmente de acuerdo
⏸ Debate — ¿5, 7 o 10 puntos?
En Uruguay, donde la escala educativa va de 1 a 12, ¿cómo creen que responden los encuestados a una escala de 1 a 10? ¿Hay sesgo cultural?
Diseño de Likert · minutos 78–85
¿Cuántas categorías? ¿Par o impar?
  • 5 puntos: simple, ideal para encuestas largas o públicos con menor escolaridad
  • 7 puntos: más discriminación; recomendada para constructos actitudinales complejos
  • 10 puntos: familiar (similar a notas escolares) pero introduce ambigüedad en el centro
  • Par (sin punto medio): fuerza posición cuando no se quiere permitir neutralidad
  • Impar (con punto medio): válido cuando existe la posibilidad real de indiferencia
🌎 Uruguay — Antel y OSE
En encuestas de satisfacción con escala 1–10, investigadores locales reportan compresión hacia 7–8 entre encuestados más educados, posiblemente por la escala educativa 1–12 donde el 6 es "el mínimo aceptable" y el 12 es "perfección inalcanzable".
Diferencial semántico · minutos 85–95
Ideal para imagen de marca y posicionamiento
Definición — Malhotra 2016
Escala de 7 puntos cuyos extremos son adjetivos bipolares. Se analiza mediante perfiles de marcas. Los adjetivos alternan de lado para evitar sesgo de posición.
Natural      1 — 2 — 3 — 4 — 5 — 6 — 7      Artificial
Accesible    1 — 2 — 3 — 4 — 5 — 6 — 7      Exclusiva
Moderna     1 — 2 — 3 — 4 — 5 — 6 — 7      Tradicional
✏ Pizarrón: dibujar el análisis de perfil de Dove vs. Avon con los adjetivos anteriores — dos líneas superpuestas que se cruzan en distintos puntos
Caso diferencial semántico · minutos 93–100
Nubank vs. Banco República: imagen percibida
Burocrático    1 — 2 — 3 — [4] — 5 — 6 — 7    Ágil
Impersonal    1 — 2 — 3 — 4 — 5 — [6] — 7    Cercano
Costoso       1 — 2 — 3 — 4 — 5 — 6 — [7]    Gratuito
Físico         1 — 2 — 3 — 4 — 5 — 6 — [7]    Digital
  • El atributo "físico/digital" fue el más discriminante entre segmentos etarios (18–35 vs. 35+)
  • En mercados con alta bancarización reciente, "Gratuito" es el atributo con mayor diferenciación percibida de Nubank
  • El análisis de perfil permite ver exactamente en qué dimensiones se diferencian las marcas
Escala de Stapel · minutos 100–105
Un adjetivo, diez categorías, sin punto neutral
Stapel — Malhotra 2016
Escala unipolar, −5 a +5, sin cero (sin punto neutral). Un solo adjetivo. Cuanto más positivo, más precisa la descripción. Se presenta verticalmente. No requiere prueba de bipolaridad.
¿Cuándo elegir Stapel?
Ventaja: se puede administrar por teléfono o voz (WhatsApp, IVR).

Útil cuando: es difícil construir pares bipolares válidos, o cuando el encuestado necesita escuchar (no leer) la escala.

Desventaja: algunos encuestados la encuentran confusa.
🌎 LatAm — Encuestas por voz
En zonas rurales de Brasil y México con baja alfabetización, encuestas IVR y WhatsApp audio usan variantes de Stapel: "Del +5 al -5, ¿qué tan bien describe la palabra RÁPIDO al servicio que recibiste?"
Multi-reactivos · minutos 105–112
¿Por qué un solo reactivo no alcanza?
  • Un solo reactivo captura una sola faceta de un constructo complejo
  • "Lealtad" no puede medirse con una sola pregunta — tiene dimensiones actitudinales y comportamentales
  • Escalas multi-reactivo: múltiples ítems se combinan en una puntuación total que mide mejor el constructo
  • Ejemplo Malhotra: 7 reactivos Likert para "actitud hacia McDonald's" — calidad, servicio, precio, conveniencia, etc.
  • Regla práctica: siempre que sea posible, usar escalas multi-reactivo. Miden mejor que un reactivo solo.
NPS como caso límite: es un reactivo único para un constructo complejo (lealtad). Por eso su validez empírica es debatida en la literatura.
Bloque 5 · minutos 112–132
Evaluación:
Confiabilidad
y validez
Malhotra pp. 201–208
Errores de medición · minutos 112–122 · ✏ Figura 7.7 — dibujar en pizarrón
Dos tipos de error — dos problemas distintos
Error sistemático
Constante. Afecta siempre de la misma manera. Ejemplos: escala mal diseñada, orden de preguntas que genera sesgo, reactivos ambiguos.

Afecta la VALIDEZ.
Error aleatorio
Variable. Cambia cada vez que se mide. Ejemplos: estado emocional del encuestado, fatiga, ruido ambiental, distracciones.

Afecta la CONFIABILIDAD.
Relación fundamental
Sin confiabilidad → sin validez posible. Pero confiabilidad no garantiza validez: puedo medir consistentemente algo que no es lo que quiero medir.
✏ Pizarrón: los tres círculos concéntricos de la Figura 7.7 — puntuación observada = puntuación verdadera + error sistemático + error aleatorio
Confiabilidad y validez · minutos 122–132
Cómo evaluarlas en la práctica
ConceptoQué mideCómo se evalúaIndicador típico
ConfiabilidadLibre de error aleatorioTest-retest, confiabilidad entre evaluadores, consistencia internaAlfa de Cronbach ≥ 0.70
Validez de contenido¿Cubre el constructo?Revisión de expertos, literaturaJuicio experto
Validez de criterio¿Predice lo que debe predecir?Correlación con medida externaCorrelación significativa
Validez de constructo¿Mide el constructo correcto?Análisis factorial, validez convergente/discriminanteCargas factoriales, AVE
⏸ Caso diagnóstico
Una escala de lealtad obtiene alfa = 0.82 en Chile y alfa = 0.61 en Argentina para la misma muestra de supermercados. ¿Qué puede estar pasando? ¿Es un problema de confiabilidad o de validez?
Bloque 6 · minutos 132–148
Social media,
IA, LatAm
y ética
El capítulo en contexto actual
Escalas digitales · minutos 132–140
Las escalas nativas digitales: ¿qué tipo de escala son?
Escala digitalPlataformaTipoProblema metodológico
Estrellas 1–5Amazon, Mercado LibreOrdinal (¿intervalo?)Sesgo de extremos: mayoría son 1 o 5
Pulgar arriba/abajoYouTube, NetflixNominal dicotómicaPierde información de grado
Emojis de reacciónFacebook, LinkedInOrdinal nominalEl orden entre emojis es ambiguo
Análisis de sentimientos IAReviews, Twitter/XCuasi-ordinalValidez cultural: el sarcasmo, el lunfardo
Distinción clave: el análisis de sentimientos con IA es procesamiento de datos cualitativos a escala, no investigación de actitudes. No reemplaza a las escalas — las complementa.
LATAM y ética · minutos 140–148
Tres sesgos y tres dilemas éticos
Sesgos culturales LATAM
Aquiescencia: responder sí independientemente del contenido. Más pronunciado con menor educación.

Sesgo de extremos: usar solo 1 o 5. Documentado en Brasil y México.

Deseo social: decir lo que el entrevistador quiere. Más frecuente en entrevistas cara a cara.
Dilemas éticos
Escala trucada: todas las opciones son positivas para garantizar resultados favorables al cliente.

Sin consentimiento: inferir actitudes del comportamiento digital sin informar al usuario (LGPD, Ley 18.331 UY, Ley 25.326 AR).

Reactivo único como multi: reportar NPS como medición completa de lealtad.
Cierre · minutos 148–150
Tres ideas
para llevarse
  • ① El tipo de escala determina qué podés analizar — Antes de elegir un análisis estadístico, determiná el nivel de medición. Calcular promedios de datos nominales es un error, aunque el software lo haga sin quejarse.
  • ② Confiabilidad no garantiza validez — Podés medir consistentemente algo equivocado. La pregunta no es "¿los datos son consistentes?" sino "¿la escala mide lo que quiero medir?"
  • ③ Las escalas no son culturalmente neutras — El mismo NPS puede producir resultados distintos en Argentina y Brasil sin que haya diferencia real de satisfacción. La equivalencia de escala es un problema metodológico concreto en investigación de mercados regional.
Próxima clase: Capítulo 8 — Diseño de cuestionarios y formularios