L'IA, mais pas
dans un data-center américain.
Korai est un réseau pair-à-pair d'exécution de modèles open-weight. Quand vous envoyez un prompt, un orchestrateur à Paris le confie au meilleur GPU disponible dans le réseau — un particulier, un labo, une PME — et vous streame la réponse en retour. Ni hyperscaler, ni rétention de contenu, ni boîte noire. Voici, en détail, comment ça fonctionne.
Le chat est gratuit pendant la bêta (crédit symbolique, sans paiement). Un Tier Pro avec facturation réelle arrive mi-2026.
Un chatGPT n'est pas l'autre.
Les trois grandes familles d'inférence IA aujourd'hui — et où Korai se place.
| Critère | SaaS centralisé (OpenAI, Anthropic, Gemini) | API européen souverain (Mistral, Le Chat) | Korai (pair-à-pair open-weight) |
|---|---|---|---|
| Juridiction des données | États-Unis (Cloud Act) | Union Européenne | UE · par hôte, vérifiable |
| Poids du modèle | Fermés, propriétaires | Open-weight (Mistral) ou fermés | Open-weight obligatoire |
| Infrastructure | Data-centers hyperscaler | Data-center souverain unique | Réseau distribué de GPUs |
| Rétention de contenu | 30 jours à plusieurs années | Variable selon le contrat | Aucune au niveau orchestrateur |
| Qui fournit le calcul | L'opérateur, exclusivement | L'opérateur, exclusivement | N'importe qui avec un GPU qui dort |
| Rémunération des hébergeurs | N/A | N/A | Part des crédits consommés (Tier Pro) |
Korai n'est pas un concurrent direct des LLMs fermés sur la qualité brute — on utilise les meilleurs modèles open-weight du moment. Le pari, c'est la topologie: distribuée plutôt que centralisée, auditable plutôt qu'opaque.
Un prompt, quatre étapes.
Aucune magie. Chaque étape est observable, chronométrée, et le code qui la régit est accessible.
4 niveaux. Pas besoin de choisir.
Le routeur évalue la complexité de votre demande et choisit le modèle adapté. Vous pouvez forcer un niveau via le paramètre `model`.
autofastbalanceddeepComment un GPU est choisi, concrètement.
La politique d'assignation est volontairement simple — on préfère un algorithme qu'on peut expliquer à un algorithme qu'on ne peut pas déboguer.
Un maillage européen, pas un data-center.
Chaque point représente un profil de worker pouvant rejoindre le réseau. La répartition géographique est illustrative — elle dépend, à chaque instant, des hôtes connectés.
Trois couches, zéro hyperscaler.
On vous doit la vérité technique, pas un diagramme marketing. Voici les pièces, dans leurs vrais langages et leurs vraies versions.
- Routage auto/fast/balanced/deep
- Aucun contenu de message en base
- Clés API stockées hashées (SHA-256)
- Redémarre sans perdre la file
- Modèle open-weight Gemma 4 (d'autres à venir)
- WebSocket persistant + heartbeat
- Un seul job à la fois, mémoire libérée après
- Pas de données persistées sur disque
- Chat web (page d'accueil)
- Korai Kode — agent CLI pour dev
- API /v1/chat/completions
- Historique stocké dans votre navigateur
Minimisation par construction.
Pas une promesse : une propriété du code. Ce qui suit reflète l'état actuel du dépôt — si nous changeons, nous le dirons.
Qui paie, qui gagne.
Korai n'est pas gratuit par philosophie — c'est gratuit pendant la bêta parce que le modèle économique n'est pas encore déployé. Voici ce qui est prévu.
Nous ne prétendons pas déjà payer les hôtes. La tuyauterie de facturation existe mais elle n'est pas activée. Dès qu'elle le sera, le barème sera publié, auditable, et modifiable uniquement par vote.
Ce qu'on nous demande le plus.
Quels modèles sont disponibles ?
Est-ce plus lent qu'OpenAI ?
Qui sont les hôtes GPU ? Peuvent-ils lire mes conversations ?
X-Korai-Worker.Puis-je vérifier qu'un GPU est bien européen ?
X-Korai-Region: eu-west. Si aucun worker conforme n'est dispo, la requête échoue proprement plutôt que de basculer hors-UE silencieusement.Est-ce open-source ?
Que se passe-t-il si Korai ferme demain ?
Ça marche avec les SDK OpenAI existants ?
/v1/chat/completions respecte le schéma OpenAI, y compris le streaming SSE. Changez l'URL de base et la clé — le reste du code n'a pas besoin de bouger. Les tool-calls sont supportés via la même sémantique.Puis-je déployer mon propre orchestrateur privé ?
Deux façons de participer.
Vous pouvez utiliser le réseau comme n'importe quel chat — ou le renforcer en prêtant votre GPU quand vous n'en avez pas besoin. Les deux comptent.
Pour tout le reste — API, contact, presse, précisions techniques — voir la documentation ou la page À propos.