Google acaba de dotar a Gemini con una característica que era muy pedida por los usuarios. A partir de ahora, tanto la versión web como las apps para móviles del chatbot de inteligencia artificial permiten subir todo tipo de archivos para analizar, incluyendo audios.
De modo que a partir de ahora puedes cargar grabaciones de audio en tus chats con Gemini para que esta las resuma o transcriba a partir de una instrucción. Esto va a resultar especialmente útil para quienes dependen a diario del uso de ese tipo de archivos, ya sea para estudiar como para trabajar.
Si eres estudiante y sueles grabar tus clases (o partes de ellas) con tu móvil, ahora puedes subir esas capturas de audio a Gemini para que las transcriba. También, para que te genere un resumen y te ayude a comprender el contenido de un modo mucho más sencillo o digerible.
En el caso de que tomes notas de audio vinculadas con tu trabajo, ya sea en formato de entrevistas o de anotaciones de uso personal, también puedes usar Gemini para procesar toda esa información sin tener que hacerlo manualmente. Las posibilidades son variadas y desde Google saben a la perfección que el público estaba a la espera de esta función.
Josh Woodward, jefe de Google Labs y de la app de Gemini, publicó en X (Twitter) que el soporte para audios era la característica más pedida por el público. Así que si quieres probar la nueva herramienta, ya puedes hacerlo desde la web a través de gemini.google.com, o en las aplicaciones para iOS y Android.
Cómo cargar y transcribir audios a través de Gemini

Si usas Gemini desde el ordenador a través de su web, puedes cargar un archivo de audio pulsando en el ícono “+” y tocando en Subir archivos. Allí solo tienes que seleccionar el elemento en cuestión y puedes añadir la instrucción que desees para que el chatbot la implemente. Así, si junto con la grabación le dices “Transcríbela”, la inteligencia artificial se encargará de ofrecerte una versión en texto del contenido.
En las apps para Android o iPhone, el funcionamiento es prácticamente idéntico. Solo tienes que tocar en “+” y luego en Archivos. Allí debes localizar el audio a analizar, y el resto del proceso es el mismo. También puedes formular las instrucciones en formato de pregunta (“¿Sobre qué trata este audio?”, por ejemplo), o solicitarle que genere un resumen si se trata de un archivo muy extenso.
Ten en cuenta que el soporte para audios a través de Gemini está atado a ciertos parámetros. Por ejemplo, la IA solamente puede procesar archivos en un formato estándar, como MP3, WAV, FLAC o M4A. Si quieres analizar audios de WhatsApp, es probable que primero debas convertirlos, ya que suelen estar en formato OPUS y no son compatibles.
Otro punto a considerar es que si usas la versión gratuita de Gemini podrás procesar audios de hasta 10 minutos de duración. Si tienes alguna de las versiones de pago, como Google AI Pro o Google AI Ultra, la extensión total se expande hasta las 3 horas. Asimismo, los archivos pueden tener un peso máximo de 100 MB y los de Mountain View indican que se pueden cargar hasta 10 archivos en un mismo prompt. En el caso de que estén comprimidos, también se pueden subir hasta 10 archivos por ZIP.