Ahora sí que estamos a salvo: Claude actualiza su constitución para no desatar el caos ni destruir la humanidad

El temor a que los modelos de inteligencia artificial generativa desaten la rebelión de las máquinas siempre ha sido bastante exagerado. Aunque eso no significa que no existan personas capaces de explotar estos sistemas con fines maliciosos. Es por ello que, además de las salvaguardas habituales, Anthropic ha dotado a Claude de una “constitución”, un documento que delinea las intenciones sobre valores y comportamientos que debe perseguir. Y ahora dicho documento se ha actualizado a una nueva y más amplia versión.

La primera constitución de Claude se publicó en 2023, pero en los últimos dos años el campo de la IA generativa ha evolucionado lo suficiente como para requerir su renovación. Anthropic no solo ha anunciado la actualicación del documento en cuestión, sino que también lo ha divulgado al completo para que todos puedan leerlo.

Lo interesante de esta propuesta es que se trata de un documento creado para que Claude lo lea y modele su comportamiento usándolo como guia. Si bien el mismo incluye algunas restricciones duras que estipulan cuáles son las acciones que nunca debe hacer ni asistir, también explica qué debe poner la IA en la balanza al generar una respuesta, como el contexto y las intenciones, así como el costo y el beneficio de una acción, entre otros parámetros.

Desde Anthropic explican que la primera constitución de Claude abarcaba una serie de lineamientos específicos. No obstante, esta segunda versión es diferente. Sus autores han optado por explicarle a su inteligencia artificial por qué pretenden que se comporte o desempeñe de tal o cual manera. La empresa cree que esta es la vía más apropiada (al menos hoy en día) para lograr los mejores resultados.

“Creemos que, para ser buenos actores en el mundo, los modelos de IA como Claude necesitan comprender por qué queremos que se comporten de cierta manera, y debemos explicárselo en lugar de simplemente especificar qué queremos que hagan. Si queremos que los modelos ejerzan un buen juicio en una amplia gama de situaciones novedosas, necesitan ser capaces de generalizar; aplicar principios generales en lugar de seguir reglas específicas mecánicamente”.

Anthropic, sobre la nueva constitución de Claude

Cuáles son las restricciones duras de la nueva constitución de Claude

Más allá de los matices que debe aprender a navegar Claude, donde Anthropic aspira a que la IA sea “honesta” y “útil”, existen restricciones duras que no debe desafiar nunca. Entre ellas están la generación de material de abuso sexual infantil, la creación de armas biológicas, nucleares y/o químicas (o la asistencia en el proceso), el desarrollo de malware u otras “ciberarmas” y el despliegue de ataques contra infraestructuras críticas.

Pero eso no es todo. Anthropic también le ha marcado de forma explícita a Claude que no debe desatar el caos ni dominar o aniquilar la humanidad. Específicamente, la compañía le prohíbe a la IA:

“Participar o ayudar en un intento de matar o desempoderar a la gran mayoría de la humanidad o a la especie humana en su conjunto”.
“Involucrar o ayudar a cualquier grupo individual que intente apoderarse de grados ilegítimos y sin precedentes de control social, militar o económico absoluto”.

Anthropic califica estas restricciones como innegociables debido a que el potencial daño que podrían causar son demasiado “severos e irreversibles”, y pueden amenazar el bienestar y la autonomía humana. Por último, a todo esto debemos sumarle que Claude tampoco tiene permitido tomar acciones que impidan a sus creadores supervisar o corregir su funcionamiento. Será interesante ver si todo esto ayuda o no a evitar un potencial Skynet. El tiempo lo dirá.

Fuente original