¿Te imaginas una inteligencia artificial que piensa tan rápido que tú no puedes ni parpadear antes de que ya terminó de responder? Eso es exactamente lo que acaba de hacer Xiaomi, y el mundo de la IA ya no es el mismo.
Xiaomi, en colaboración con TileRT, lanzó el MiMo-V2.5-Pro-UltraSpeed, un modelo capaz de generar texto a una velocidad de 1.000 tokens por segundo en un nodo GPU estándar con 8 tarjetas. Sin chips personalizados. Sin hardware exótico. Solo software inteligente y un rediseño profundo del sistema. Edubox
Pero aquí está la pregunta que nadie se estaba haciendo hasta hoy: ¿qué pasa cuando la velocidad deja de ser un lujo y se convierte en el nuevo estándar? Sigue leyendo, porque esto cambia las reglas del juego para siempre.
Xiaomi MiMo UltraSpeed: El Récord que Nadie Esperaba
Seamos honestos. Cuando pensamos en Xiaomi, pensamos en teléfonos baratos, scooters eléctricos, o quizás ese aire acondicionado que funciona mejor de lo que costó. No exactamente la empresa que uno imagina rompiendo récords mundiales en inteligencia artificial.
Pero la realidad es tozuda. Xiaomi presentó MiMo-V2.5-Pro-UltraSpeed junto a TileRT asegurando haber superado por primera vez los 1.000 tokens por segundo en un modelo de 1 billón de parámetros, y afirma que el salto no depende de hardware exótico. DiarioBitcoin
Para que tengas una referencia clara de lo que eso significa:
- GPT-5.5 (lo que usa la mayoría de usuarios de ChatGPT): 68 tokens por segundo.
- Claude Opus 4.6 ronda los 71 tokens por segundo, con su modelo más ligero, Haiku, tocando los 98. Gizchina
- Gemini Flash: 192 tokens por segundo.
- Xiaomi MiMo UltraSpeed: más de 1.000 tokens por segundo.
No es una mejora marginal. Es como comparar una bicicleta con un cohete.
¿Qué es un token y por qué debería importarte?
Un token es, en términos simples, un fragmento de texto —aproximadamente tres cuartas partes de una palabra. Cuantos más tokens genera una IA por segundo, más rápido puedes obtener respuestas complejas, más análisis puedes ejecutar en paralelo y más aplicaciones de tiempo real se vuelven posibles.
Cuando un modelo genera 70 tokens por segundo, está bien para chatear. Cuando genera 1.000, ya estás hablando de detección de fraude en milisegundos, señales de trading antes de que el mercado se mueva, o agentes de IA corrigiendo su propio razonamiento en tiempo real.
La Magia Detrás del Motor: Cómo Funciona Xiaomi MiMo UltraSpeed
Aquí es donde la historia se pone interesante. Porque no se trata de gastar más dinero en chips más grandes. Se trata de pensar diferente.
Dos técnicas son las responsables del salto de velocidad. La primera es la cuantización FP4, aplicada a la arquitectura MoE del modelo, que permite comprimir la capa experta rica en parámetros mientras conserva la precisión original en otros módulos, optimizando el uso de memoria sin comprometer la capacidad general. Edubox
Imagínatelo así: en lugar de cargar toda una enciclopedia cada vez que necesitas un dato, el sistema comprime las páginas que usa menos y mantiene en alta definición solo las que importan. Resultado: menos peso, más velocidad.
DFlash: El Truco que Cambia Todo
La segunda técnica es igual de elegante. La decodificación especulativa paralela por bloques DFlash reemplaza los métodos tradicionales de decodificación en serie, permitiendo la predicción de bloques de texto completos en una sola iteración. En escenarios como la programación y el razonamiento matemático, esta técnica mejora significativamente la eficiencia de decodificación. Edubox
¿La comparación más fácil? La decodificación normal es como adivinar una palabra a la vez en un crucigrama. DFlash llena un bloque entero de casillas de un solo golpe, verifica si son correctas, y sigue adelante. En tareas de programación, el modelo acepta un promedio de 6,3 de cada 8 tokens propuestos por ronda de verificación.
TileRT: El Motor que Une Todo
Nada de esto funcionaría sin TileRT, el motor de inferencia desarrollado junto a Xiaomi. Este sistema mantiene toda la tubería de cómputo residente dentro del GPU de forma continua, eliminando los tiempos muertos entre operaciones. Xiaomi atribuye el resultado a un co-diseño profundo entre el equipo del modelo MiMo y el sistema TileRT. DiarioBitcoin
Xiaomi lo llama «co-diseño extremo modelo-sistema». Y la frase es exacta: ninguna de las técnicas por separado llega a 1.000 tokens por segundo. La sinergia entre las tres sí lo hace.
¿Qué Significa Esto para el Mundo de la IA?
La velocidad no es solo un número bonito para poner en una presentación. Cambia lo que es posible.
Según Xiaomi, cuando una noticia de última hora se publica, el modelo puede analizar el impacto en el mercado y generar señales de trading en milisegundos, cerrando el ciclo de decisión antes de que el mercado se mueva. También puede completar razonamientos complejos de detección de fraude y evaluación de riesgo en cientos de milisegundos antes del proceso de liquidación. Xiaomimimo
Eso no es ciencia ficción. Es lo que hace la diferencia entre un sistema de IA que reacciona y uno que anticipa.
El Precio de la Velocidad (y Por Qué Vale la Pena)
Nada es gratis. La API de MiMo-V2.5-Pro-UltraSpeed estará disponible por tiempo limitado y mediante solicitud previa. Xiaomi fijó un precio equivalente a 3 veces el costo de MiMo-V2.5-Pro estándar, aunque asegura que entrega cerca de 10 veces la velocidad de generación. DiarioBitcoin
Tres veces el precio por diez veces la velocidad. Si eres un desarrollador o una empresa con necesidades reales de tiempo real, esa ecuación tiene mucho sentido.
El acceso para usuarios aprobados estará habilitado entre el 9 y el 23 de junio de 2026, con prioridad para compañías y desarrolladores profesionales con necesidades empresariales reales. El checkpoint FP4-DFlash ya está disponible en código abierto en Hugging Face para quien quiera explorar por su cuenta. DiarioBitcoin
Xiaomi vs. los Gigantes del Hardware: ¿Quién Gana?
Cerebras y Groq construyeron negocios enteros alrededor de este problema. Cerebras diseñó un chip del tamaño de un plato para eliminar el cuello de botella de ancho de banda. Groq creó su propia arquitectura personalizada. Ambas soluciones son impresionantes —pero ninguna corre en hardware que puedas alquilar en AWS esta noche.
Xiaomi subraya que otros enfoques de velocidad extrema en la industria se han apoyado en hardware especializado, como las grandes integraciones de Cerebras o la arquitectura de SRAM personalizada de Groq. En contraste, asegura haber logrado el mismo resultado sobre GPUs estándar. DiarioBitcoin
Eso cambia quién puede competir en este espacio. Ya no necesitas levantar decenas de millones de dólares en hardware especializado para acceder a inferencia ultrarrápida. Puedes alquilar ocho GPUs, usar TileRT, y estar corriendo.
Conclusión: El Juego de la IA Acaba de Cambiar de Reglas
Lo que Xiaomi hizo con MiMo-V2.5-Pro-UltraSpeed no es simplemente impresionante desde un punto de vista técnico. Es una declaración de intenciones. Una empresa de smartphones china acaba de superar a los modelos más avanzados de OpenAI, Anthropic y Google en velocidad pura —y lo hizo con hardware que cualquiera puede usar.
La carrera de la IA siempre fue sobre quién tenía los mejores chips, los mayores centros de datos, el capital más agresivo. Xiaomi acaba de demostrar que también puede ganarse con inteligencia de diseño.
La pregunta que queda flotando es incómoda pero necesaria: si una empresa de teléfonos puede romper el récord mundial de velocidad en IA en un lunes por la mañana, ¿qué dice eso del resto de la industria?
Volvemos a ser Emelec 💙⚡ — y en el mundo de la tecnología, también hay rebeldías que merecen ser celebradas.
Preguntas Frecuentes (FAQs)
¿Xiaomi MiMo UltraSpeed está disponible para el público general? Por el momento, el acceso es limitado y mediante solicitud previa. La prueba API está disponible del 9 al 23 de junio de 2026, con prioridad para empresas y desarrolladores profesionales, y enviar la solicitud no garantiza aprobación. Sin embargo, el checkpoint de código abierto ya está disponible en Hugging Face para quien quiera probarlo directamente. DiarioBitcoin
¿MiMo UltraSpeed sacrifica calidad por velocidad? No de manera significativa. La cuantización FP4 solo se aplica a las capas expertas del modelo, conservando la precisión original en los demás módulos, lo que minimiza la pérdida de calidad mientras maximiza la velocidad. Xiaomi describe la pérdida de calidad como «cercana a cero». Edubox
¿Qué aplicaciones reales se benefician más de esta velocidad? Los casos de uso más evidentes son la generación de señales de trading de baja latencia, la detección de fraude en tiempo real antes del proceso de liquidación, y cualquier sistema de agentes de IA que requiera razonamiento paralelo y autocorrección en milisegundos. También los bucles de agentes autónomos y la generación de código en tiempo real.