Investigación de Mercado

Diapositivas

Diapositivas de referencia

Presentación de la clase. Usá las flechas del teclado o los controles para navegar. Presioná F para pantalla completa.

Apertura

¿Qué significa medir en marketing?

Todo en investigación de mercados depende de medir bien. Una escala mal elegida puede hacer que datos correctamente recolectados produzcan conclusiones equivocadas.

📖 Caso de apertura — Malhotra 2016

Malhotra abre el capítulo con el ranking mundial de fútbol de la FIFA, donde los países se ordenan según puntos acumulados por resultados en partidos internacionales. El sistema asigna números a países según su desempeño — eso es medición. Ubicar a cada selección en un continuo de 1066 a 1614 puntos es escalamiento.

La lección metodológica es inmediata: el número de puntos no puede multiplicarse entre sí (no puedo decir que Brasil "es el doble" de mejor que Uruguay), porque la escala tiene un punto cero arbitrario. Es una escala de intervalo, no de razón. Confundir el tipo de escala lleva a conclusiones matemáticamente incorrectas.

Caso sustituto: NPS y la pregunta de si el 10 vale el doble que el 5

caso realmetodología

El Net Promoter Score (NPS) es la métrica de lealtad más usada en el mundo empresarial. La pregunta es simple: "¿Con qué probabilidad recomendarías esta empresa a un conocido?" en una escala de 0 a 10. Detractores (0–6), pasivos (7–8), promotores (9–10). NPS = % promotores − % detractores.

📊 Caso en clase — El NPS y el problema de escala

Mercado Libre: cuando el NPS engaña

El problema: Mercado Libre mide NPS en toda la región con la misma escala de 0–10. En Argentina, un 8 es considerado "casi perfecto" culturalmente (el 10 es para Dios, dicen). En Brasil, el 10 es habitual para experiencias buenas. En México, el 9 es frecuente entre usuarios satisfechos.

La trampa metodológica: si se usa el mismo corte de "promotores = 9 o 10" en todos los países, Argentina aparece con NPS significativamente inferior no porque la experiencia sea peor, sino porque la escala tiene un significado cultural diferente. Los datos de la escala no son equivalentes entre culturas.

La solución: varios investigadores de experiencia del cliente proponen calibrar el NPS con anclas culturales locales, o complementarlo con métricas de comportamiento (tasa de recompra, resolución en primer contacto) que no dependen de la interpretación cultural de una escala.

Pregunta para clase: ¿El NPS es una escala de intervalo o de razón? ¿Importa la respuesta para cómo calculamos el NPS?

📚 Referencias

Reichheld, F.F. (2003). "The One Number You Need to Grow." Harvard Business Review, 81(12), 46–54. — Artículo original que propone el NPS.

Keiningham, T.L. et al. (2007). "A Longitudinal Examination of NPS and Firm Revenue Growth." Journal of Marketing, 71(3). — Crítica empírica a la validez predictiva del NPS.

Sección 01

Medición y escalamiento: conceptos base

La distinción entre medir y escalar es sutil pero importante. Toda escala es una forma de medición, pero no toda medición implica un escalamiento continuo.

📖 Definiciones — Malhotra 2016 (vigentes)

Medición es la asignación de números u otros símbolos a características de objetos de acuerdo con un conjunto de reglas. Lo que se mide no son los objetos en sí sino sus características: no medimos a una persona sino su edad, ingreso, actitud o comportamiento de compra.

Escalamiento es una extensión de la medición: implica la creación de un continuo sobre el cual se localizan los objetos medidos. Si le asigno 1 (desfavorable), 2 (neutral) o 3 (favorable) a la actitud de cada encuestado hacia un restaurante, eso es medición. Si luego sumo las calificaciones de cinco restaurantes y ubico al encuestado en un continuo de 5 a 15, eso es escalamiento.

Regla fundamental: las reglas de asignación de números deben estandarizarse y aplicarse uniformemente — no cambian según el objeto medido ni con el tiempo.

¿Cambió algo en la medición con la digitalización?

herramientasbibliografía

El marco conceptual de Malhotra es sólido y no cambió. Lo que cambió dramáticamente es qué se puede medir y cómo:

Antes: se medían actitudes declaradas (lo que la gente dice que siente o haría).
Hoy: se pueden medir comportamientos reales a escala (clics, tiempo de scroll, secuencias de compra) que tienen propiedades de escala de razón — hay un cero absoluto.
Tensión metodológica: los datos de comportamiento digital son más confiables que las respuestas declaradas, pero miden lo que la gente hace, no lo que siente. Para entender actitudes, siguen siendo necesarias las escalas tradicionales.

📚 Referencia

Tourangeau, R. & Yan, T. (2007). "Sensitive Questions in Surveys." Psychological Bulletin, 133(5). — Explica por qué las escalas declaradas subestiman actitudes socialmente sensibles.

Sección 02

Las cuatro escalas básicas de medición

Nominal, ordinal, de intervalo y de razón. Cada nivel incorpora las propiedades del anterior y agrega una nueva. El nivel de escala determina qué operaciones estadísticas son legítimas.

📖 Figura 7.2 — Malhotra 2016 (vigente) ✏ Dibujar en pizarrón

Las cuatro escalas forman una jerarquía de menor a mayor nivel de medición. A mayor nivel, mayor cantidad de información y mayor variedad de análisis estadísticos posibles.

NOMINAL

Escala nominal — nivel más básico

Los números solo identifican o clasifican objetos. No tienen orden ni magnitud. El número no dice nada más que "este es diferente de aquél".

Ejemplos: género (1=M, 2=F), categoría de producto, código postal, número de jugador en una camiseta.
Caso marketing: "¿Cuál es su marca favorita de bebida?" → Coca-Cola=1, Pepsi=2, Sprite=3
Operación legítima: contar frecuencias (moda). NO es válido calcular promedio.

ORDINAL

Escala ordinal — agrega orden relativo

Los números indican posición relativa pero no la magnitud de las diferencias. Sé que 1 es mejor que 2, pero no cuánto mejor.

Ejemplo clásico: ranking de preferencia de restaurantes. McDonald's=1, Burger King=2, KFC=3.
Caso marketing LATAM: encuesta de preferencia de canales — mercado de abasto=1, supermercado=2, e-commerce=3.
Operación legítima: mediana, percentiles, correlación de Spearman. NO es válido calcular promedios aritméticos.

INTERVALO

Escala de intervalo — agrega distancias iguales

Las distancias numéricamente iguales representan cantidades iguales de la característica medida. El punto cero es arbitrario, por lo que las razones no tienen sentido.

Ejemplo clásico: temperatura en Celsius (0°C no es "ausencia de temperatura").
Caso marketing: escala de actitud de 1 a 7. Un 6 no es "el doble" de favorable que un 3.
Operación legítima: media, desviación estándar, correlación de Pearson, regresión. NO razones.

RAZÓN

Escala de razón — nivel más alto, cero absoluto

Posee todas las propiedades anteriores más un punto cero fijo y significativo. Es legítimo calcular razones: X es el doble de Y.

Ejemplos: ventas en pesos, número de clientes, cuota de mercado, edad exacta, gasto en publicidad.
Caso marketing: "¿Cuánto gastó en el supermercado el mes pasado?" → $0 significa gasto nulo.
Operación legítima: todas las anteriores más razones y coeficiente de variación.

Regla práctica: antes de elegir cualquier análisis estadístico, preguntá qué tipo de escala tienen tus datos. Calcular el promedio de una escala nominal (promedio de número de camiseta) es un error metodológico, aunque el software lo permita.

Debate vigente: ¿el NPS es intervalo o razón?

bibliografíadebate actual

La pregunta parece técnica pero tiene implicancias prácticas. Si el NPS es ordinal, promediar las puntuaciones de 0 a 10 es incorrecto — solo deberíamos usar la mediana. La mayoría de las empresas promedian igual, lo que genera debates en la literatura académica sobre si el NPS mide lo que dice medir.

📚 Referencia

Norman, G. (2010). "Likert scales, levels of measurement and the laws of statistics." Advances in Health Sciences Education, 15(5). — El debate clásico sobre tratar escalas ordinales como si fueran de intervalo.

Sección 03

Técnicas de escalamiento comparativas

En las escalas comparativas los objetos se evalúan directamente entre sí. El resultado tiene propiedades ordinales: se sabe qué se prefiere, no cuánto.

📖 Figura 7.4 — Malhotra 2016 (vigente) ✏ Dibujar en pizarrón

Las técnicas comparativas incluyen tres procedimientos: comparación pareada, rangos ordenados y suma constante. Los datos resultantes solo tienen propiedades ordinales.

Técnica	Cómo funciona	Cuándo usarla	Limitación
Comparación pareada	Se presentan dos objetos a la vez; el encuestado elige cuál prefiere	Pocas marcas (≤7), cuando se quiere la preferencia directa	Con n objetos se necesitan n(n−1)/2 pares → escala mal con muchas marcas
Rangos ordenados	El encuestado ordena todos los objetos de mejor a peor	Hasta ~10 objetos; rankings de atributos o marcas	No dice cuánto separa al primero del segundo
Suma constante	Se distribuyen 100 puntos entre los objetos según preferencia o importancia	Medir importancia relativa de atributos (precio, calidad, servicio)	Difícil cognitivamente con muchos atributos

Caso real: Spotify y la comparación pareada en descubrimiento musical

caso realherramientas

Spotify usa variantes de comparación pareada en sus experimentos de UX. En el diseño de la función "Discover Weekly", ingenieros presentaban a paneles de usuarios pares de canciones: ¿cuál preferirías encontrar en una playlist de descubrimiento? Con miles de pares evaluados, construyeron un modelo de preferencias que alimentó el algoritmo.

La lógica es idéntica a la comparación pareada de Malhotra: dado el par (canción A, canción B), ¿cuál preferís? — pero ejecutada a escala digital.

🌎 Contexto latinoamericano

Caso Uruguay — Instituto Nacional de Estadística (INE): en encuestas de satisfacción con servicios públicos, el INE ha usado escalas de rangos ordenados para medir la importancia percibida de atributos de servicios (tiempo de espera, amabilidad, resolución). La técnica de suma constante se aplica también en el sector financiero: Santander Uruguay y BBVA Montevideo la han usado para entender qué atributos pesan más en la elección de banco principal.

Sección 04

Técnicas de escalamiento no comparativas

En las escalas no comparativas cada objeto se evalúa de forma independiente. Los datos generalmente tienen propiedades de intervalo, lo que habilita análisis estadísticos más potentes.

📖 Clasificación — Malhotra 2016 (vigente)

Las escalas no comparativas (también llamadas monádicas o métricas) se dividen en:

Escalas de clasificación continua: el encuestado marca sobre una línea continua entre dos extremos. Poco usadas por dificultad de codificación.
Escalas de clasificación por reactivos: el encuestado selecciona entre categorías numéricas definidas. Son las más utilizadas en investigación de mercados. Incluyen: Likert, diferencial semántico y Stapel.

A diferencia de las comparativas, los datos de estas escalas se interpretan en términos absolutos, no relativos — y se asumen como de intervalo, lo que habilita promedios, correlaciones y análisis factoriales.

Distinción clave para el diseño de cuestionarios: si necesitás saber cuál de dos marcas prefiere el encuestado → usá comparativa. Si necesitás saber cuánto le gusta cada marca en términos absolutos → usá no comparativa. La elección afecta directamente qué análisis podés hacer con los datos.

Sección 05

Escala de Likert

La escala más usada en investigación de mercados. Simple de construir, fácil de responder y analíticamente versátil. Su vigencia es total, aunque hay debates actuales sobre número de puntos y categoría neutral.

📖 Definición y procedimiento — Malhotra 2016 (vigente)

La escala de Likert requiere que los encuestados indiquen el grado de acuerdo o desacuerdo con una serie de afirmaciones sobre el objeto de interés. Generalmente tiene 5 categorías: totalmente en desacuerdo (1) → en desacuerdo (2) → ni de acuerdo ni en desacuerdo (3) → de acuerdo (4) → totalmente de acuerdo (5).

Las puntuaciones individuales se suman para obtener una puntuación total del individuo. Para ello es necesario que todos los reactivos estén orientados en la misma dirección, o invertir los puntajes de los reactivos negativos antes de sumar.

Ventajas: fácil de construir y administrar, los encuestados la entienden sin instrucciones extensas, permite análisis estadísticos de nivel de intervalo.

Desventaja principal: requiere más tiempo para completar que las escalas de comparación pareada.

El debate actual: ¿5, 7 o 10 puntos?

bibliografía

Malhotra menciona que el número de categorías puede variar entre 5 y 10. La investigación psicométrica reciente da algunas pautas más concretas:

5 puntos: simple, adecuada para encuestas largas donde la fatiga del respondente es un riesgo.
7 puntos: la más recomendada para constructos actitudinales complejos; brinda mejor discriminación sin sobrecargar al encuestado.
10 puntos: familiar para los encuestados (similar a notas escolares en varios países), pero introduce ambigüedad en los puntos intermedios.

📱 Caso en clase — Confiabilidad del NPS en Uruguay

El problema de la escala de 0–10 en contextos latinoamericanos

En Uruguay, la escala numérica de 1 a 12 (sistema de calificación educativa) hace que para muchos encuestados el 6 sea mentalmente "el mínimo aceptable" y el 12 sea "la perfección". Cuando Antel y OSE realizan encuestas de satisfacción con escalas de 1 a 10, algunos investigadores locales han reportado que los encuestados más educados tienden a evitar los extremos, generando una compresión de respuestas hacia el centro (7–8) que no refleja diferencias reales.

Implicación metodológica: el "número óptimo" de puntos depende del contexto cultural y del nivel educativo de la muestra.

📚 Referencias

Krosnick, J.A. & Presser, S. (2010). "Question and Questionnaire Design." En Marsden & Wright (Eds.), Handbook of Survey Research, 2nd ed. — Revisión exhaustiva del impacto del número de categorías.

Revilla, M.A. et al. (2014). "Choosing the Number of Categories in Agree–Disagree Scales." Sociological Methods & Research, 43(1). — Meta-análisis sobre 5 vs 7 vs 10 puntos.

Sección 06

Escala de diferencial semántico

Ideal para medir imagen de marca, posicionamiento y perfil de atributos. Su fortaleza está en la representación visual: el análisis de perfil permite comparar marcas de un vistazo.

📖 Definición — Malhotra 2016 (vigente)

La escala de diferencial semántico es una escala de clasificación de 7 puntos, no comparativa, cuyos extremos están asociados con adjetivos bipolares (opuestos semánticos). El encuestado marca el punto que mejor describe al objeto evaluado.

Los adjetivos negativos a veces aparecen a la derecha y otras a la izquierda, para evitar que los encuestados respondan sin leer (sesgo de posición). Los datos se analizan mediante análisis de perfil: se calcula la media de cada reactivo y se grafica, lo que permite comparar visualmente dos o más objetos.

Usos principales: comparación de marcas, imagen corporativa, estudios de posicionamiento, desarrollo de estrategias publicitarias.

Caso: Dove vs. Avon — análisis de perfil de imagen de marca

caso reallatinoamérica

Un investigador que quiere comparar la imagen de Dove y Avon en mercados latinoamericanos podría construir un diferencial semántico con pares como:

          Natural     1 — 2 — 3 — 4 — 5 — 6 — 7     Artificial

          Accesible   1 — 2 — 3 — 4 — 5 — 6 — 7     Exclusiva

          Femenina   1 — 2 — 3 — 4 — 5 — 6 — 7     Neutral

          Moderna    1 — 2 — 3 — 4 — 5 — 6 — 7     Tradicional

          Confiable   1 — 2 — 3 — 4 — 5 — 6 — 7     Riesgosa

Al graficar las medias de ambas marcas en el mismo perfil, se visualiza inmediatamente en qué dimensiones se diferencian. Dove podría aparecer más "natural" y "confiable"; Avon más "accesible" o "tradicional" en ciertos mercados.

🌎 Contexto latinoamericano — Nubank

Nubank ha usado técnicas de análisis de imagen similares al diferencial semántico para medir cómo se posiciona frente a bancos tradicionales (Itaú, Bradesco) en Brasil y frente a bancos estatales como Banco República en Uruguay. Los atributos bipolares más discriminantes: burocrático / ágil, impersonal / cercano, costoso / gratuito, físico / digital. En mercados con alta bancarización reciente (Uruguay 2019–2024), el atributo "físico/digital" mostró la mayor varianza entre segmentos etarios.

Sección 07

Escala de Stapel

La escala menos usada de las tres, pero con ventajas prácticas: no requiere pares de adjetivos bipolares y puede administrarse por teléfono. Útil cuando es difícil construir opuestos semánticos válidos.

📖 Definición — Malhotra 2016 (vigente)

La escala de Stapel es una escala unipolar con 10 categorías numeradas de −5 a +5, sin punto neutral (cero). Se presenta verticalmente. Se muestra un solo adjetivo o frase, y el encuestado indica qué tan precisa es esa descripción del objeto.

Números positivos: la frase describe con precisión al objeto.
Números negativos: la frase no lo describe con precisión.
Mayor el número (positivo o negativo), más extrema la evaluación.

Ventaja clave: no requiere prueba previa de bipolaridad de los adjetivos. Puede administrarse por teléfono (el diferencial semántico requiere que el encuestado vea la escala).

Desventaja: algunos encuestados la encuentran confusa. Es la escala menos utilizada de las tres.

¿Cuándo usar Stapel hoy?

herramientas

La escala de Stapel recuperó relevancia en encuestas telefónicas y en medios de voz (IVR, asistentes de voz). Cuando una empresa de investigación realiza encuestas via WhatsApp en formato de audio — creciente en Brasil, México y Argentina — la Stapel es más fácil de explicar y responder que el diferencial semántico. La instrucción es simple: "del +5 al -5, ¿qué tan bien describe la palabra X a esta empresa?"

🌎 Contexto latinoamericano

En zonas rurales del noreste de Brasil o en comunidades con baja alfabetización en México, la investigación de mercados por voz (a través de llamadas IVR o asistentes de WhatsApp) ha crecido significativamente. En esos contextos, la escala de Stapel verbal ("¿muy preciso, algo preciso, poco preciso?") resulta más accesible que la Likert escrita.

Sección 08

Escalas de reactivos múltiples

Las escalas de un solo reactivo rara vez capturan constructos complejos como "actitud", "satisfacción" o "lealtad". La solución es combinar múltiples reactivos en una escala compuesta — pero esto exige evaluación rigurosa.

📖 Definición — Malhotra 2016 (vigente)

Las escalas de reactivos múltiples consisten en un número de reactivos individuales (Likert, diferencial semántico o Stapel) que se combinan para obtener una medición del constructo de interés. La puntuación total es la suma (o promedio) de los reactivos individuales.

Ejemplo del libro: para medir "actitud hacia McDonald's", Malhotra propone 7 reactivos de Likert. Cada reactivo captura una dimensión (calidad de comida, servicio, precio, conveniencia, etc.). La suma de los 7 reactivos da una puntuación total que mide mejor el constructo que cualquier reactivo aislado.

Recomendación central: siempre que sea posible, usar escalas con múltiples reactivos. Permiten una medición más exacta que las escalas de un solo reactivo.

Caso real: CSAT, NPS y CES como escalas multi-reactivo implícitas

caso realmetodología

Las tres métricas de experiencia del cliente más usadas en el mundo empresarial son en realidad distintas formas de escalar el mismo constructo latente (satisfacción / lealtad):

Métrica	Escala	Pregunta central	Limitación
CSAT	1–5 o 1–10 (intervalo)	¿Qué tan satisfecho estás?	Mide satisfacción puntual, no lealtad
NPS	0–10 (discutida)	¿Con qué probabilidad recomendarías?	Un solo reactivo para un constructo complejo
CES	1–7 (intervalo)	¿Qué esfuerzo te requirió resolver esto?	Predice retención pero no promotores

Empresas como Rappi, Mercado Libre y Banco Itaú usan las tres métricas en combinación — formando, en la práctica, una escala de multi-reactivos para medir "calidad de experiencia del cliente".

Sección 09

Confiabilidad y validez

Una escala puede ser confiable sin ser válida. Pero no puede ser válida sin ser confiable. Esta asimetría es fundamental para evaluar cualquier instrumento de medición.

📖 Figura 7.7 — Malhotra 2016 (vigente) ✏ Dibujar en pizarrón

Error de medición = variación entre lo que el investigador quiere medir y lo que el proceso de medición genera. Dos fuentes:

Error sistemático: afecta la medición siempre de la misma manera. Ejemplos: escala mal impresa, reactivos ambiguos, orden de las preguntas que genera sesgo. Afecta la validez.
Error aleatorio: varía cada vez que se mide. Ejemplos: estado emocional del encuestado, ruido ambiental, fatiga. Afecta la confiabilidad.

Confiabilidad: grado en que la medición está libre de error aleatorio. Una escala confiable produce resultados similares si se aplica dos veces al mismo encuestado en condiciones similares.

Validez: grado en que la medición está libre de errores aleatorios Y sistemáticos. Una escala válida mide lo que dice medir.

Relación fundamental: la falta de confiabilidad es evidencia negativa para la validez. Pero confiabilidad sola no garantiza validez — una escala puede medir consistentemente algo que no es lo que queremos medir.

Evaluando confiabilidad: el alfa de Cronbach en la práctica

herramientasbibliografía

El coeficiente alfa de Cronbach es el indicador de confiabilidad interna más usado para escalas de reactivos múltiples. Mide qué tan correlacionados están los reactivos entre sí — si miden el mismo constructo latente.

Alfa ≥ 0.90: confiabilidad muy alta (puede indicar redundancia entre reactivos).
Alfa 0.70–0.89: confiabilidad aceptable para investigación de mercados.
Alfa < 0.70: confiabilidad insuficiente; revisar los reactivos.

🔬 Caso metodológico — Medición de lealtad a marca en LATAM

¿Mide lo mismo "lealtad" en Argentina y en Chile?

Un investigador regional construye una escala de 6 reactivos para medir lealtad a la marca de supermercados. Obtiene alfa = 0.82 en Santiago y alfa = 0.61 en Buenos Aires. Conclusión: la escala funciona en Chile pero no en Argentina. No necesariamente porque los argentinos sean "desleales", sino porque el constructo "lealtad a supermercados" podría tener un significado diferente en un contexto donde la inflación obliga a comparar precios permanentemente — lo que hace que la "lealtad declarada" sea inconsistente.

Pregunta para clase: ¿es un problema de validez o de confiabilidad? ¿Qué haría para diagnosticarlo?

📚 Referencias

Cronbach, L.J. (1951). "Coefficient alpha and the internal structure of tests." Psychometrika, 16, 297–334. — El artículo original del alfa.

Hair, J.F. et al. (2019). Multivariate Data Analysis, 8th ed. Cengage. — Referencia estándar para evaluar confiabilidad y validez en investigación de mercados.

Sección 10

Social media, IA y escalamiento

Las plataformas digitales son hoy el principal campo de aplicación de técnicas de escalamiento. Pero también introducen sesgos nuevos que Malhotra no podía anticipar.

📖 Social media — Malhotra 2016 (parcialmente vigente)

Malhotra señala que todas las técnicas de escalamiento comparativas y no comparativas pueden usarse en social media. Las encuestas en línea permiten implementar Likert, diferencial semántico y Stapel digitalmente, con mayor velocidad y menor costo que las encuestas en papel o telefónicas.

Esto sigue siendo correcto. Lo que cambió: la proliferación de escalas "nativas digitales" que no existían en 2016 (estrellas de 1 a 5 en e-commerce, thumbs up/down, emojis de reacción) y la posibilidad de medir actitudes de forma implícita (tiempo de scroll, clics) sin preguntar directamente.

Las escalas nativas digitales: ¿qué tipo de escala son?

caso realmetodología

Hoy existen escalas de medición que no estaban en el radar de Malhotra 2016:

Escala digital	Plataforma	Tipo de escala	Problema metodológico
Estrellas 1–5	Amazon, Mercado Libre, Google Maps	Ordinal (¿de intervalo?)	Sesgo de extremos: la mayoría son 1 o 5
Pulgar arriba/abajo	YouTube, Netflix	Nominal dicotómica	Pierde información de grado
Emojis de reacción	Facebook, LinkedIn	Ordinal nominal	El orden entre emojis no es claro
NPS 0–10	Encuestas post-compra	Cuasi-intervalo	Sesgos culturales (ver caso LATAM)

🤖 IA aplicada a escalamiento

Análisis de sentimientos como proxy de escala ordinal

Los modelos de NLP (como BERT o los GPT) pueden asignar un puntaje de sentimiento a millones de reseñas de texto libre — convirtiendo texto no estructurado en datos cuasi-ordinales. Empresas como Mercado Libre usan esto para construir scores de satisfacción a nivel de vendedor sin pedirle al comprador que rellene una escala.

Limitación metodológica crítica: estos scores de sentimiento son proxi de actitud, no mediciones directas de ella. Su confiabilidad y validez depende de qué tan bien el modelo fue entrenado para el idioma, el slang local y el contexto cultural específico. Un modelo entrenado con reviews de Amazon en inglés puede medir mal el sentimiento de compradores en Argentina que escriben con lunfardo o irónicamente.

📚 Referencias

He, W. et al. (2015). "Social media competitive analysis and text mining." International Journal of Information Management, 35(3). — Escalamiento de sentimientos en social media.

Ordenes, F.V. et al. (2019). "Cutting through content clutter: How speech and image acts drive consumer sharing." Journal of Consumer Research, 45(5). — Análisis de qué comunican realmente las escalas digitales implícitas.

Sección 11

Investigación internacional y contexto latinoamericano

Las escalas no son culturalmente neutras. Lo que en un país es una escala de intervalo operacionalmente funcional, en otro puede generar respuestas sesgadas que invalidan la comparación.

📖 Internacional — Malhotra 2016 (vigente y urgente)

En muchos países desarrollados, los encuestados están habituados a responder en escalas de intervalo y de razón. En países en desarrollo, las preferencias se miden mejor con escalas ordinales. En particular, se recomiendan escalas binarias (preferido / no preferido) cuando los encuestados enfrentan dificultades para graduar su respuesta.

Hay que prestar especial atención a los descriptores verbales equivalentes: "de acuerdo" en español puede tener distintas connotaciones en México, Colombia, Argentina y Uruguay. La equivalencia conceptual no garantiza equivalencia funcional de la escala.

🌎 Desafíos específicos de LATAM en escalamiento

1. Aquiescencia: la tendencia a responder afirmativamente o con valores altos independientemente del contenido. Es más pronunciada en algunos países latinoamericanos (especialmente en encuestados con menor nivel educativo), lo que infla artificialmente los promedios de escalas de Likert.

2. Sesgo de extremos: la tendencia a usar solo las categorías extremas (1 o 5 en una escala de 5 puntos). Documentado en encuestas de satisfacción en Brasil y México.

3. Deseo social: la tendencia a responder lo que se cree que el entrevistador quiere escuchar. Más pronunciada en entrevistas cara a cara en contextos con alta distancia de poder (Hofstede).

Soluciones prácticas: incluir reactivos de control, usar escalas con punto medio explícito, aplicar técnicas de aleatorización de respuesta en preguntas sensibles, y considerar calibrar las escalas país por país antes de comparar.

Caso: ¿Por qué el CSAT de Rappi es diferente en Colombia y en México?

caso reallatinoamérica

Rappi opera en 9 países de LATAM. Su equipo de datos ha reportado que el promedio de CSAT (satisfacción del cliente en una escala de 1–5) es sistemáticamente más alto en Colombia (origen de la empresa) que en México o Argentina para el mismo nivel de calidad de servicio objetivo. El análisis de las distribuciones de respuesta muestra que los colombianos usan más el 5 y casi no usan el 1–2, mientras que los argentinos tienen una distribución más plana.

¿Quiere decir esto que los colombianos están más satisfechos o que la escala funciona diferente en cada país? Esta es exactamente la pregunta de equivalencia de escala que Malhotra plantea en el contexto internacional.

📚 Referencia

Hofstede, G. et al. (2010). Cultures and Organizations: Software of the Mind, 3rd ed. McGraw-Hill. — Marco para entender cómo las dimensiones culturales afectan las respuestas en escalas.

Johnson, T. et al. (2005). "Cross-cultural assessment of respondent measurement equivalence." Journal of Cross-Cultural Psychology, 36(3). — Metodología para detectar y corregir inequivalencia de escala entre países.

Sección 12

Ética en la medición y el escalamiento

Las decisiones técnicas sobre escalas tienen consecuencias éticas. Una escala que produce resultados convenientes para el cliente pero no mide lo que dice medir viola la responsabilidad del investigador.

📖 Ética — Malhotra 2016 (vigente)

Las consideraciones éticas requieren el uso del tipo adecuado de escala para obtener los datos necesarios para responder las preguntas de investigación y someter a prueba las hipótesis. El investigador tiene la responsabilidad ante el cliente y los encuestados de asegurar la aplicabilidad y utilidad de las escalas.

Esto implica que elegir una escala que favorezca un resultado deseado por el cliente — en lugar de la escala metodológicamente correcta — constituye una falta ética grave.

Dilemas éticos actualizados en medición

bibliografíaética aplicada

1. Escala trucada: diseñar una escala de Likert donde todas las categorías son positivas (de "satisfecho" a "muy satisfecho") para garantizar resultados favorables al cliente. Se mide pero no se mide lo que se dice medir — hay error sistemático deliberado.

2. Escalas de reactivos únicos como si fueran multi-reactivos: reportar el NPS como si fuera una medición completa de lealtad, cuando es un solo reactivo con validez empírica cuestionada para muchos contextos.

3. IA y escalamiento implícito sin consentimiento: muchas plataformas digitales infieren "preferencias" y "actitudes" a partir del comportamiento del usuario sin informarle que está siendo "medido". En términos de investigación de mercados, esto es una escala de comportamiento aplicada sin consentimiento.

🌎 Marco regulatorio latinoamericano

Uruguay — Ley 18.331 (Protección de Datos Personales): requiere consentimiento informado para recolectar datos. La inferencia de actitudes a partir de comportamiento digital sin consentimiento podría vulnerar esta ley.

Brasil — LGPD (Lei Geral de Proteção de Dados, 2020): la LGPD es más explícita: el tratamiento de datos para inferir características psicológicas o comportamentales requiere consentimiento específico. Las escalas implícitas de comportamiento sin consentimiento tienen implicancias legales en Brasil.

Argentina — Ley 25.326: similar a Uruguay; requiere consentimiento para el procesamiento de datos personales, incluido el uso de datos de comportamiento para construir perfiles de actitud.

📚 Referencias

Malhotra, N.K. (2016). Cap. 7, sección "Ética en la investigación de mercados." — La responsabilidad del investigador ante el cliente y los encuestados.

American Marketing Association (2016). Code of Ethics for Marketing Research. marketingresearch.org — Estándar internacional que incluye el uso apropiado de escalas.