Hinteligencia Hartificial: EJH de las IAs

wendigo · Mensaje por **wendigo** » 24 Feb 2026 13:02

"China’s DeepSeek is set to release a new AI model. A rough period for Nasdaq stocks could follow,"

Hay que decir que hace tiempo que se quedó bastante atrás comparado con Claude y Gemini. (ChatGPT va patrás como los cangrejos, cada vez más inútil)

elHijoDelFonk · Mensaje por **elHijoDelFonk** » 24 Feb 2026 15:04

Pregunta desde la ignorancia, no va con segundas

¿Como se evalua lo buena o mala que es una IA?

M. Corleone · Mensaje por **M. Corleone** » 24 Feb 2026 15:40

CacaDeLuxe escribió: ↑15 Feb 2026 22:31

Jajaja, brutal.

CacaDeLuxe · Mensaje por **CacaDeLuxe** » 24 Feb 2026 17:07

elHijoDelFonk escribió: ↑24 Feb 2026 15:04 Pregunta desde la ignorancia, no va con segundas

¿Como se evalua lo buena o mala que es una IA?

hay diferentes pruebas (benchmarks) que se les hace, de diferentes tematicas
Imagen

a mi me gusta mucho la de la maquina expendedora

El Vending-Bench 2 es una prueba diseñada para evaluar qué tan bien una IA puede actuar como agente autónomo en una situación del mundo real simulada.

¿En qué consiste?

Básicamente, se le da a la IA el objetivo de manejar una máquina expendedora virtual como si fuera un pequeño negocio real. La IA debe:

Decidir qué productos comprar
Negociar o elegir proveedores
Establecer precios
Gestionar inventario
Adaptarse a la demanda de los clientes
Maximizar beneficios
Tomar decisiones bajo incertidumbre
Todo esto ocurre en un entorno simulado que imita condiciones económicas reales (costos, competencia, cambios de demanda, etc.).

¿Qué se evalúa?

Vending-Bench 2 mide capacidades como:

Planificación a largo plazo

Razonamiento económico

Toma de decisiones iterativa

Autonomía (sin intervención humana constante)

Optimización de resultados

¿Por qué es importante?

A diferencia de pruebas clásicas (como preguntas y respuestas o resolver problemas aislados), este benchmark evalúa si la IA puede:
Actuar como un agente económico
Tomar decisiones estratégicas sostenidas en el tiempo
Manejar objetivos complejos con múltiples variables
Es parte de una nueva generación de pruebas enfocadas en IA agente (agentic AI), no solo en modelos conversacionales.

CacaDeLuxe · Mensaje por **CacaDeLuxe** » 24 Feb 2026 17:09

M. Corleone escribió: ↑24 Feb 2026 15:40 Jajaja, brutal.

Spoiler: mostrar

Cide Hamete · Mensaje por **Cide Hamete** » 24 Feb 2026 17:41

CacaDeLuxe escribió: ↑24 Feb 2026 17:07
elHijoDelFonk escribió: ↑24 Feb 2026 15:04 Pregunta desde la ignorancia, no va con segundas

¿Como se evalua lo buena o mala que es una IA?
hay diferentes pruebas (benchmarks) que se les hace, de diferentes tematicas

a mi me gusta mucho la de la maquina expendedora

El Vending-Bench 2 es una prueba diseñada para evaluar qué tan bien una IA puede actuar como agente autónomo en una situación del mundo real simulada.

¿En qué consiste?

Básicamente, se le da a la IA el objetivo de manejar una máquina expendedora virtual como si fuera un pequeño negocio real. La IA debe:

Decidir qué productos comprar
Negociar o elegir proveedores
Establecer precios
Gestionar inventario
Adaptarse a la demanda de los clientes
Maximizar beneficios
Tomar decisiones bajo incertidumbre
Todo esto ocurre en un entorno simulado que imita condiciones económicas reales (costos, competencia, cambios de demanda, etc.).

¿Qué se evalúa?

Vending-Bench 2 mide capacidades como:

Planificación a largo plazo
Razonamiento económico
Toma de decisiones iterativa
Autonomía (sin intervención humana constante)
Optimización de resultados

¿Por qué es importante?

A diferencia de pruebas clásicas (como preguntas y respuestas o resolver problemas aislados), este benchmark evalúa si la IA puede:
Actuar como un agente económico
Tomar decisiones estratégicas sostenidas en el tiempo
Manejar objetivos complejos con múltiples variables
Es parte de una nueva generación de pruebas enfocadas en IA agente (agentic AI), no solo en modelos conversacionales.

No sabía que había un benchmark específico de eso. Hace un par de meses hicieron una prueba con una versión de Claude en la redacción del WSJ. Acabaron con los productos completamente de balde, "colectivizados", y la máquina hizo algunas compras curiosas como una PS5 y peces vivos.

Spoiler: mostrar

Aquí el artículo por si a alguien le interesa, aunque hay que saltarse la tapia.

Por cierto en la imagen que adjuntas, ¿por qué aparecen los resultados de Vending-Bench 2 en dineuros?, ¿cómo se lee o se entiende?

CacaDeLuxe · Mensaje por **CacaDeLuxe** » 24 Feb 2026 18:33

Cide Hamete escribió: ↑24 Feb 2026 17:41 Por cierto en la imagen que adjuntas, ¿por qué aparecen los resultados de Vending-Bench 2 en dineuros?, ¿cómo se lee o se entiende?

pos supongo que es el dinero que saca cada ia en esa maquina expendedora virtual. quien más saca, gana.

Doctor Beaker · Mensaje por **Doctor Beaker** » 24 Feb 2026 19:21

Hay unos problemas de matemáticas propuestos por Erdös que parece que (algunos) fueron resueltos sin que el responsable supiera de la propuesta, y parece que algunas IAs han conectado una cosa con la otra así que uno propuso que el benchmark sea justamente la lista de problemas del bueno de Paul.

wendigo · Mensaje por **wendigo** » 24 Feb 2026 20:31

elHijoDelFonk escribió: ↑24 Feb 2026 15:04 Pregunta desde la ignorancia, no va con segundas

¿Como se evalua lo buena o mala que es una IA?

Para los chatbots? Existen tests para usos específicos, que no te van a dar valores generales, pero es lo mejor que tenemos, porque la otra manera sería usar los specs que te dan los creadores.

Personalmente cuando digo que una funciona bien o mal lo digo en relación al uso que le doy personalmente. En mi experiencia en los últimos meses ChatGPT funciona fantásticamente bien hasta que deja de hacerlo. En ese momento empieza a sacarse datos del culo, ignorar tus peticiones, entrar en bucles absurdos. Claude funciona tan bien como chatgpt en su mejor nivel, y fuma muchos menos porros.

En fín., hablando de Claude, otra noticia guapa:

Pete Hegseth se reúne con el CEO de Anthropic por desacuerdos sobre las restricciones de IA para uso militar

https://edition.cnn.com/2026/02/24/tech ... ary-amodei

pH, más que hamor, frensi.

Hinteligencia Hartificial: EJH de las IAs

Re: Hinteligencia Hartificial: EJH de las IAs

Re: Hinteligencia Hartificial: EJH de las IAs

Re: Hinteligencia Hartificial: EJH de las IAs

Re: Hinteligencia Hartificial: EJH de las IAs

Re: Hinteligencia Hartificial: EJH de las IAs

Re: Hinteligencia Hartificial: EJH de las IAs

Re: Hinteligencia Hartificial: EJH de las IAs

Re: Hinteligencia Hartificial: EJH de las IAs

Re: Hinteligencia Hartificial: EJH de las IAs

Re: Hinteligencia Hartificial: EJH de las IAs