Fleet v1 · Mise à jour 4 mai 2026

Les modèles que Korai sert

Korai sert toujours les meilleurs modèles open-weight du marché. Aucun modèle propriétaire (GPT, Claude, Gemini) ne tourne sur notre réseau — seulement des modèles ouverts, auditables, dont les poids sont publiquement téléchargeables.

Notre engagement

Tous les 30 jours, nous auditons le fleet contre les benchmarks publics (ArtificialAnalysis Intelligence Index, Open LLM Leaderboard, Chatbot Arena). Si un nouveau modèle open-weight dépasse un membre actuel du fleet, il est ajouté ou substitué. La rotation est automatique sur tous les GPU du réseau — vous bénéficiez immédiatement des dernières avancées sans rien faire.

Critère 1

Open-weight, licence commerciale (Apache 2.0, MIT)

Critère 2

Top-3 sur son créneau dans les benchmarks publics

Critère 3

Servable sur du hardware accessible (GPU consumer ou via API EU)

Fleet actuel

4 modèles couvrant les 5 rôles essentiels d'une IA moderne.

Fast + Code

Qwen 3.6-35B-A3B

par Alibaba · Apache 2.0

Modèle MoE ultra-efficient : 3 milliards de paramètres actifs par token sur 35 milliards au total. Vitesse de génération comparable à un modèle 3B dense, qualité comparable à un modèle 35B. Score SWE-bench juste derrière Claude Opus 4.6 (80.8%) sur le coding agentique.

Architecture

Mixture-of-Experts · 35B total · 3B actifs

Contexte

128K tokens

Hardware

Tourne sur RTX 4090 (24 GB VRAM) en quantization 4-bit.

Performance : 73.4% SWE-bench Verified · 196 tok/s sur RTX 4090

Deep · Raisonnement

DeepSeek R1-distill-32B

par DeepSeek · MIT

Distillation directe de DeepSeek R1 en 32 milliards de paramètres dense. Spécifiquement entraîné pour le raisonnement multi-étapes : chain-of-thought, self-verification, reflection. Fit une RTX 4090 et rivalise avec des modèles 5× plus gros sur les benchmarks math.

Architecture

Dense · 32B paramètres

Contexte

128K tokens

Hardware

Tourne sur RTX 4090 (24 GB VRAM).

Performance : ~85% AIME 2024 · spécialisé chain-of-thought

Vision · Multimodal

Gemma 4 31B

par Google DeepMind · Apache 2.0 (depuis avril 2026)

Modèle multimodal natif : il accepte texte, images (résolution variable), vidéo, et fait de l'OCR multilingue, du parsing PDF, de la compréhension de graphiques et d'interfaces utilisateur. Apache 2.0 depuis avril 2026 — aucune restriction commerciale.

Architecture

Dense · 30.7B · multimodal natif

Contexte

256K tokens

Hardware

Tourne sur RTX 4090 (24 GB VRAM).

Performance : OCR multilingue · Parsing PDF · Compréhension charts/UI

Ultra Deep · Pro/Max only

MiMo V2.5 Pro

par Xiaomi · Open-weight Xiaomi (commercial OK)

via API EU

Le modèle open-weight le plus puissant du marché en mai 2026, à égalité avec Kimi K2.6 sur l'Intelligence Index. Bat Claude Opus 4.6 sur SWE-bench Pro. 1 million de tokens de contexte (10× plus que ChatGPT). 40-60% moins de tokens consommés que les frontier modèles propriétaires pour le même résultat.

Architecture

MoE · 1.02 trillion · 42B actifs · Sliding Window Attention

Contexte

1 000 000 tokens

Hardware

Routé via API DeepInfra (cluster EU). Disponible uniquement pour les abonnés Pro et Max.

Performance : Intelligence Index 54 · #1 agentique GDPval 1581 · SWE-bench Pro 57.2%

Mise à jour automatique du fleet

Quand Korai ajoute, remplace, ou retire un modèle, le changement se propage automatiquement sur tous les GPU du réseau, sans intervention humaine ni interruption de service pour vous.

Publication signée

Korai pousse un nouveau manifest signé Ed25519. Aucune machine extérieure ne peut substituer un modèle malicieux.

Détection des hosts

Chaque GPU du réseau poll le manifest toutes les 5 minutes. La signature est vérifiée contre une clé pinnée localement.

Téléchargement en arrière-plan

Le nouveau modèle est pull via HuggingFace pendant que l'ancien continue de servir vos prompts. Aucun downtime.

Bascule transparente

Une fois le download complet, le host swappe ses subprocess. L'orchestrateur route ailleurs pendant les 30 secondes de transition.

Les anciens modèles restent 24h en cache disque (rollback possible si un problème est détecté), puis sont automatiquement purgés.

Modèles surveillés

Korai surveille ces modèles pour ajout au fleet dès qu'ils sortent ou que les conditions hardware le permettent.

GLM-5.1 (Reasoning)Existe · trop gros pour le hardware actuelQuand un host avec 4× RTX 6000 Pro rejoint le réseau

GLM-5 AirNon sortiDès release officielle Z.AI sur HuggingFace

Mistral Medium 4AnnoncéDès release · alignement souveraineté EU pure 🇪🇺

Llama 4 ScoutExiste · contexte unique 10M tokensDès qu'un host prosumer 96 GB rejoint le réseau

MiniMax M2.7Existe · Intelligence 50 sur 230B/10B actifsQuand 2× RTX 6000 Pro disponibles chez un host

Kimi K2.6-distill-32BNon sortiDès release · remplacera probablement DeepSeek R1-distill-32B

Voir le fleet en action

Ouvrez le chat et basculez entre les modes. Le routing automatique choisit le meilleur modèle pour votre prompt.

Ouvrir le chat Comment ça marche