Las muestras sintéticas son muestras generadas artificialmente mediante algoritmos. Se pueden utilizar para ampliar una muestra existente, crear nuevas muestras o simular escenarios futuros. Los científicos de datos han usado datos predictivos durante décadas en múltiples campos, como la investigación de mercado, pero las muestras sintéticas representan un nuevo nivel, ya que pretenden representar las actitudes o los comportamientos de un individuo o un grupo de ellos.
Las muestras sintéticas pueden ofrecer muchos beneficios para la investigación de mercado, como aumentar el tamaño y la diversidad de la muestra al imitar poblaciones difíciles de alcanzar a bajo costo, crear nuevos insights y soluciones mediante modelos predictivos o acelerar el proceso de investigación. Pero las muestras sintéticas también plantean riesgos importantes. En la investigación de mercado, los conjuntos de datos sintéticos pueden introducir sesgos o distorsiones de modo que no reflejen con precisión las características y preferencias de una población objetivo. Por lo tanto, es fundamental comprender los casos de uso, las metodologías de la solución y los marcos de evaluación antes de confiar en las muestras sintéticas para fundamentar decisiones comerciales clave.
Las muestras sintéticas necesitan bases sólidas
Suele pasarse por alto que, antes de tener un algoritmo de generación muestras sintéticas, es necesaria una gran cantidad de datos reales como referencia. Y no vale confiar exclusivamente en cualquier modelo extenso de lenguaje (LLM) disponible. Es fundamental comenzar con una fuente de datos de alta calidad que sea muy específica para el problema en cuestión y utilizarla para entrenar un algoritmo de generación de muestras sintéticas.
Por eso desde Kantar invertimos tanto en la calidad de nuestros paneles, que son la columna vertebral de nuestra recopilación y síntesis de datos. Nuestros paneles se diseñan, reclutan y mantienen cuidadosamente para garantizar que sean representativos, diversos y que cumplan con las normas.
Utilizamos rigurosos controles de calidad para verificar la identidad, la ubicación y el comportamiento de nuestros panelistas, y utilizamos inteligencia artificial para detectar y prevenir cualquier respuesta fraudulenta o anómala. Al garantizar la calidad de los datos subyacentes en nuestros paneles, podemos entrenar modelos de IA para generar muestras sintéticas más fiables y precisas que puedan mitigar riesgos.
¿Cuáles son los usos más comunes de las muestras sintéticas
Aunque el término «muestra sintética» pueda ser nuevo, muchos de estos ejemplos no lo son.
De hecho, el problema de «llenar los huecos» en un conjunto de datos buscando información dentro del propio dataset o fusionando información de otros conjuntos de datos es un problema bien conocido y que desde Kantar hemos abordado durante décadas, a gran escala. Un ejemplo bastante común es cuando unimos múltiples conjuntos de datos, por ejemplo, actitudes de una encuesta con comportamientos de un panel diferente. O cuando acortamos la duración de la encuesta al no hacer todas las preguntas a todos los encuestados, sino predecir algunas de ellas mediante el machine learning.
Gracias a esto estamos bien posicionados para abordar algunos de los nuevos casos de uso que se están discutiendo actualmente.
Hay tres casos de uso principales que vemos en este campo. Para cada caso, estamos realizando pruebas piloto exhaustivas y cuidadosas con los clientes, así como procesos rigurosos de limpieza de datos, para evaluar la precisión de los resultados.
- Mejora de la muestra: es posible coger el conjunto de datos resultante de una encuesta en una categoría particular y mejorarlo con más encuestados en uno o más subgrupos (quienes, por ejemplo, podrían estar subrepresentados o ser costosos de reclutar). Si pensamos en un conjunto de datos de una encuesta como una tabla donde las filas son los encuestados y las columnas son las preguntas de la encuesta, estamos tratando de crear sintéticamente nuevas filas, correspondientes a los encuestados de subgrupos pequeños.
- Aumento predictivo: las consideraciones sobre la extensión de una encuesta a menudo plantean decisiones difíciles sobre qué preguntas podemos incluir. ¿Podemos llenar algunos vacíos en nuestros datos en función de otros encuestados históricos o, de hecho, con datos de perfiles que ya tenemos en nuestro panel, para ofrecer campos adicionales (modelados) junto con los datos de la encuesta base recopilados?
- Gemelos digitales: con el tiempo, hemos creado una gran cantidad de datos para encuestados individuales; en Kantar, en muchos casos tenemos años de datos de comportamiento y actitud de alta calidad sobre nuestros panelistas más leales. ¿Podemos aprovechar esta información histórica para ajustar los modelos de IA que luego nos permitan “extender” más allá de las preguntas de encuestas anteriores hacia nuevas categorías, comportamientos y temas?
¿Cómo lidera Kantar el camino en muestras sintéticas?
Hemos hablado de la vital importancia de partir siempre de datos de alta calidad. Esto es algo que poseemos en abundancia. Pero los datos por sí solos no son suficientes. La mayoría de los métodos existentes para crear muestras sintéticas se basan en algoritmos sofisticados de data science, como redes neuronales (en particular, redes generativas adversarias), boosting, redes elásticas y otras técnicas de aprendizaje automático, y modelos econométricos avanzados. Algunos de los casos de uso, como los gemelos digitales, también requieren una comprensión profunda de los modelos de base y los modelos extensos de lenguaje, no solo la capacidad de usarlos sin más, sino también para afinarlos y adaptarlos a nuevos conjuntos de datos de manera inteligente.
En Kantar, estas son capacidades con las que tenemos años de experiencia y que ya hemos implementado como parte de otras herramientas de IA como LINK AI , ConceptEvaluate AI , nuestro asistente GenAI KaiA, etc.
La combinación de activos de datos excepcionales combinados con más de una década de creación e implementación de herramientas de IA, especialmente en el contexto del modelado predictivo, nos brinda un excelente punto de partida para abordar los tres casos de uso emergentes que hemos compartido aquí.
Las muestras sintéticas tienen mucho potencial, pero la industria tiene mucho trabajo por hacer para crear soluciones técnica y metodológicamente sólidas y listas para la empresa. Si bien tenemos la intención de aprovechar al máximo el potencial de algunos de los últimos algoritmos y tecnologías, como líderes responsables en la industria, también debemos abordar las principales preguntas y desafíos que presentan las muestras sintéticas, como su precisión y sesgo, su viabilidad en situaciones particulares y su solidez.