Hay que decir que hace tiempo que se quedó bastante atrás comparado con Claude y Gemini. (ChatGPT va patrás como los cangrejos, cada vez más inútil)"China’s DeepSeek is set to release a new AI model. A rough period for Nasdaq stocks could follow,"
Hinteligencia Hartificial: EJH de las IAs
- CacaDeLuxe
- Ulema
- Mensajes: 9652
- Registrado: 28 Sep 2003 15:41
Re: Hinteligencia Hartificial: EJH de las IAs
- elHijoDelFonk
- moromielda
- Mensajes: 203
- Registrado: 17 Ene 2005 02:20
Re: Hinteligencia Hartificial: EJH de las IAs
Pregunta desde la ignorancia, no va con segundas
¿Como se evalua lo buena o mala que es una IA?
¿Como se evalua lo buena o mala que es una IA?
- M. Corleone
- Ulema
- Mensajes: 24707
- Registrado: 07 Nov 2017 07:43
Re: Hinteligencia Hartificial: EJH de las IAs
Jajaja, brutal.
- CacaDeLuxe
- Ulema
- Mensajes: 9652
- Registrado: 28 Sep 2003 15:41
Re: Hinteligencia Hartificial: EJH de las IAs
hay diferentes pruebas (benchmarks) que se les hace, de diferentes tematicaselHijoDelFonk escribió: ↑24 Feb 2026 15:04 Pregunta desde la ignorancia, no va con segundas
¿Como se evalua lo buena o mala que es una IA?

a mi me gusta mucho la de la maquina expendedora
El Vending-Bench 2 es una prueba diseñada para evaluar qué tan bien una IA puede actuar como agente autónomo en una situación del mundo real simulada.
¿En qué consiste?
Básicamente, se le da a la IA el objetivo de manejar una máquina expendedora virtual como si fuera un pequeño negocio real. La IA debe:
Decidir qué productos comprar
Negociar o elegir proveedores
Establecer precios
Gestionar inventario
Adaptarse a la demanda de los clientes
Maximizar beneficios
Tomar decisiones bajo incertidumbre
Todo esto ocurre en un entorno simulado que imita condiciones económicas reales (costos, competencia, cambios de demanda, etc.).
¿Qué se evalúa?
Vending-Bench 2 mide capacidades como:
¿Por qué es importante?
A diferencia de pruebas clásicas (como preguntas y respuestas o resolver problemas aislados), este benchmark evalúa si la IA puede:
Actuar como un agente económico
Tomar decisiones estratégicas sostenidas en el tiempo
Manejar objetivos complejos con múltiples variables
Es parte de una nueva generación de pruebas enfocadas en IA agente (agentic AI), no solo en modelos conversacionales.
- CacaDeLuxe
- Ulema
- Mensajes: 9652
- Registrado: 28 Sep 2003 15:41
- Cide Hamete
- Perro infiel amiricano
- Mensajes: 48
- Registrado: 13 Dic 2025 14:27
Re: Hinteligencia Hartificial: EJH de las IAs
No sabía que había un benchmark específico de eso. Hace un par de meses hicieron una prueba con una versión de Claude en la redacción del WSJ. Acabaron con los productos completamente de balde, "colectivizados", y la máquina hizo algunas compras curiosas como una PS5 y peces vivos.CacaDeLuxe escribió: ↑24 Feb 2026 17:07hay diferentes pruebas (benchmarks) que se les hace, de diferentes tematicaselHijoDelFonk escribió: ↑24 Feb 2026 15:04 Pregunta desde la ignorancia, no va con segundas
¿Como se evalua lo buena o mala que es una IA?
a mi me gusta mucho la de la maquina expendedora
El Vending-Bench 2 es una prueba diseñada para evaluar qué tan bien una IA puede actuar como agente autónomo en una situación del mundo real simulada.
¿En qué consiste?
Básicamente, se le da a la IA el objetivo de manejar una máquina expendedora virtual como si fuera un pequeño negocio real. La IA debe:
Decidir qué productos comprar
Negociar o elegir proveedores
Establecer precios
Gestionar inventario
Adaptarse a la demanda de los clientes
Maximizar beneficios
Tomar decisiones bajo incertidumbre
Todo esto ocurre en un entorno simulado que imita condiciones económicas reales (costos, competencia, cambios de demanda, etc.).
¿Qué se evalúa?
Vending-Bench 2 mide capacidades como:
Planificación a largo plazo
Razonamiento económico
Toma de decisiones iterativa
Autonomía (sin intervención humana constante)
Optimización de resultados
¿Por qué es importante?
A diferencia de pruebas clásicas (como preguntas y respuestas o resolver problemas aislados), este benchmark evalúa si la IA puede:
Actuar como un agente económico
Tomar decisiones estratégicas sostenidas en el tiempo
Manejar objetivos complejos con múltiples variables
Es parte de una nueva generación de pruebas enfocadas en IA agente (agentic AI), no solo en modelos conversacionales.
Spoiler: mostrar
Aquí el artículo por si a alguien le interesa, aunque hay que saltarse la tapia.
Por cierto en la imagen que adjuntas, ¿por qué aparecen los resultados de Vending-Bench 2 en dineuros?, ¿cómo se lee o se entiende?
- CacaDeLuxe
- Ulema
- Mensajes: 9652
- Registrado: 28 Sep 2003 15:41
Re: Hinteligencia Hartificial: EJH de las IAs
pos supongo que es el dinero que saca cada ia en esa maquina expendedora virtual. quien más saca, gana.Cide Hamete escribió: ↑24 Feb 2026 17:41 Por cierto en la imagen que adjuntas, ¿por qué aparecen los resultados de Vending-Bench 2 en dineuros?, ¿cómo se lee o se entiende?
- Doctor Beaker
- Ulema
- Mensajes: 6398
- Registrado: 18 Oct 2005 18:56
- Ubicación: Vi luz y subí
Re: Hinteligencia Hartificial: EJH de las IAs
Hay unos problemas de matemáticas propuestos por Erdös que parece que (algunos) fueron resueltos sin que el responsable supiera de la propuesta, y parece que algunas IAs han conectado una cosa con la otra así que uno propuso que el benchmark sea justamente la lista de problemas del bueno de Paul.
“Un libro permanece, está en su anaquel para que lo confrontemos y ratifiquemos o denunciemos sus afirmaciones. El diario pasa. Tienen una vida efímera. Pronto se transforma en mantel o en envoltorio, pero en el espíritu desprevenido del lector va dejando un sedimento cotidiano en que se asientan, forzosamente las opiniones. Las creencias que el diario difunde son irrebatibles, porque el testimonio desparece”
Raúl Scalabrini Ortiz, Política Británica en el Río de la Plata
Raúl Scalabrini Ortiz, Política Británica en el Río de la Plata
Re: Hinteligencia Hartificial: EJH de las IAs
Para los chatbots? Existen tests para usos específicos, que no te van a dar valores generales, pero es lo mejor que tenemos, porque la otra manera sería usar los specs que te dan los creadores.elHijoDelFonk escribió: ↑24 Feb 2026 15:04 Pregunta desde la ignorancia, no va con segundas
¿Como se evalua lo buena o mala que es una IA?
Personalmente cuando digo que una funciona bien o mal lo digo en relación al uso que le doy personalmente. En mi experiencia en los últimos meses ChatGPT funciona fantásticamente bien hasta que deja de hacerlo. En ese momento empieza a sacarse datos del culo, ignorar tus peticiones, entrar en bucles absurdos. Claude funciona tan bien como chatgpt en su mejor nivel, y fuma muchos menos porros.
En fín., hablando de Claude, otra noticia guapa:
Pete Hegseth se reúne con el CEO de Anthropic por desacuerdos sobre las restricciones de IA para uso militar
https://edition.cnn.com/2026/02/24/tech ... ary-amodei