¿Quién mezcla cuando la máquina mezcla?

Por Sergio Paoletti y Gastón Lema

Hace unos meses presentamos una ponencia en un congreso de musicología. El tema: los sistemas inteligentes de mezcla de audio y lo que su aparición implica para la ingeniería de sonido. Y mientras preparábamos ese trabajo, nos fuimos encontrando con una pregunta que se resistía a respuestas fáciles: ¿en qué momento una herramienta deja de asistir y empieza a decidir?

No es una pregunta nueva. Es la misma que aparece cada vez que una tecnología desplaza, parcial o totalmente, un saber que alguien construyó durante años. Pero en el caso de la mezcla de audio tiene una particularidad, porque es un proceso donde lo técnico y lo artístico conviven de manera casi indistinguible. Mezclar no es solo ajustar niveles o limpiar frecuencias: es interpretar una intención emocional, tomar decisiones estéticas, construir un espacio sonoro que no existía antes. Que un sistema automatizado pueda hacer algo de eso (y, en algunos contextos, hacerlo bien) merece que nos detengamos a pensarlo un momento.

Los Sistemas Inteligentes de Mezcla (SIM) son aplicaciones que usan algoritmos, en general basados en técnicas de recuperación de información musical (MIR), para realizar tareas que tradicionalmente ejecutaba un ingeniero de audio. Pueden identificar patrones espectrales y temporales en el audio y aplicar ecualización, compresión, paneo y reverberación de manera automática o semiautomática. En el artículo “AI Music Mixim Systems“, publicado en el Handbook of Artificial Intelligence for Music (Eduardo Reck Miranda, 2021), David Moffat distingue cuatro tipos, según su interacción con el humano: automáticos (devuelven una mezcla completa sin intervención), independientes (se le da una serie de tareas al SIM mientras un ingeniero de mezcla supervisa el sistema), de recomendación (analizan el contexto de la mezcla y proponen ajustes que el ingeniero puede aceptar o modificar) y de descubrimiento (analizan y visualizan sin tocar el audio, para informar las decisiones del profesional).

La distinción importa porque no es lo mismo que una herramienta indique que la voz está enmascarada, a que procese el audio y la “destape” sola. En el primer caso, el criterio sigue siendo humano. En el segundo, ya no del todo.

Y acá aparece una tensión que es importante nombrar. Estas herramientas no son neutras. Fueron entrenadas con datos: grabaciones, mezclas, parámetros. Estos datos reflejan ciertos géneros, ciertas estéticas, ciertos estándares de producción. Cuando abrimos el menú de géneros musicales de alguno de estos plugins o plataformas y vemos que entre las opciones no hay ni un solo género latinoamericano -ni una zamba, ni una chacarera, ni un chamamé, ni una bachata-, no es un detalle menor: es una proyección de qué música cuenta como referencia, qué sonidos valida y promueve el modelo. La homogeneización no llega como una imposición explícita. Llega por default, por diseño.

Hay además una pregunta que se vuelve aun más urgente a medida que estas herramientas mejoran: ¿qué pasa con el saber que ya no se necesita para hacer el trabajo? Un estudio de 2020 publicado por Scientific Reports mostró que el uso habitual de GPS deteriora la memoria espacial durante la navegación autónoma. El paralelo con la mezcla es pertinente. Si un sistema automatizado ecualiza por nosotros, ¿qué sentido tiene entrenar el oído durante años para saber qué frecuencia molesta y por qué? La capacidad no desaparece de golpe. Pero sí se puede ir atrofiando lentamente, por desuso.

Eso no significa que los SIM sean un problema en sí mismos. Significa que la manera en que los incorporamos importa. Un marco conceptual que nos resultó útil para pensar esto viene de Mark Rowlands, vía Federico Burdman: la idea de una mente extendida, que no piensa solo dentro del cerebro sino a través de los recursos del entorno. Las herramientas tecnológicas, desde el lápiz hasta el GPS, desde la calculadora hasta los modelos de IA, participan de nuestro pensamiento como extensiones, no como reemplazos. Pensamos con ellas.

Proponemos tres tipologías que trazan grandes rasgos de clasificación de los SIM:

– Mezcla tradicional / artesanal: Todas las operaciones de procesamiento de audio se realizan manualmente o con herramientas que no incorporan IA, basándose en la experticia, el criterio estético y la audición entrenada del profesional. El tiempo promedio para trabajar una mezcla así suele ser entre cinco y ocho horas, dependiendo de la densidad y complejidad del arreglo musical, cantidad de pistas y otros factores.

Mezcla asistida / híbrida: En esta modalidad se integran herramientas potenciadas por IA para colaborar con el ingeniero de mezcla, pero siempre bajo su dirección y supervisión, utilizando la IA como una extensión de sus capacidades. El tiempo promedio de la misma mezcla realizada con este formato puede estimarse de tres a cinco horas.

Mezcla automatizada: el sistema automatiza todos los aspectos de la mezcla con los que puede trabajar, a partir de una interacción humana mínima. El tiempo para realizar una mezcla de esta manera puede estimarse en menos de treinta minutos.

Los SIM no son cajas que sustituyen juicio. Son artefactos que redibujan el campo de acción del ingeniero de mezcla. Si sabemos lo que estamos usando y por qué, pueden ampliar lo que es posible. Si no, pueden empezar a decidir por nosotros sin que nos demos cuenta.

Este artículo está inspirado en discusiones que se dieron en el marco de el trabajo que Sergio Paoletti y Gastón Lema presentaron en el Congreso Argentino de Musicología 2025, en Rosario, Santa Fe.