Bêta ouverte · réseau en construction

L'IA,
vraiment anonyme.

Korai est un réseau d'ordinateurs européens qui exécutent des modèles d'IA libres. Quand vous envoyez un message, un serveur à Paris le confie au meilleur GPU disponible — particulier, labo, PME — pendant que des tickets cryptographiques aveugles rendent mathématiquement impossible de relier votre identité à vos conversations. Pas par promesse — par construction, vérifiable dans le code. Voici comment.

Essayer le chat Prêter son GPU

Le chat est gratuit pendant la bêta (crédit symbolique, sans paiement). Un Tier Pro avec facturation réelle arrive mi-2026.

Pourquoi c'est différent

Un chatGPT n'est pas l'autre.

Les trois grandes familles d'inférence IA aujourd'hui — et où Korai se place.

Critère	SaaS centralisé (OpenAI, Anthropic, Gemini)	API européen souverain (Mistral, Le Chat)	Korai (pair-à-pair open-weight)
Juridiction des données	États-Unis (Cloud Act)	Union Européenne	UE · par hôte, vérifiable
Poids du modèle	Fermés, propriétaires	Open-weight (Mistral) ou fermés	Open-weight obligatoire
Infrastructure	Data-centers hyperscaler	Data-center souverain unique	Réseau distribué de GPUs
Rétention de contenu	30 jours à plusieurs années	Variable selon le contrat	Aucune au niveau orchestrateur
Qui fournit le calcul	L'opérateur, exclusivement	L'opérateur, exclusivement	N'importe qui avec un GPU qui dort
Rémunération des hébergeurs	N/A	N/A	Part des crédits consommés (Tier Pro)

Korai n'est pas un concurrent direct des LLMs fermés sur la qualité brute — on utilise les meilleurs modèles open-weight du moment. Le pari, c'est la topologie: distribuée plutôt que centralisée, auditable plutôt qu'opaque.

Le pipeline

Un prompt, quatre étapes.

Aucune magie. Chaque étape est observable, chronométrée, et le code qui la régit est accessible.

Prêt

Cycle ~1.2s · didactique

› POST /v1/chat/completions

› X-Korai-Region: eu-west

› routed → worker_ac12 (Lyon, FR · RTX 4090)

› stream: data: "…" · 1.2s TTFT

Vous envoyez

Votre prompt part du navigateur en TLS 1.3 vers l'orchestrateur. Si vous êtes connecté, une clé API (hashée côté serveur) authentifie la requête. L'orchestrateur ne journalise pas le contenu du message.

Le routeur choisit

Un composant Go (le modelrouter) regarde votre prompt et le niveau demandé — auto, fast, balanced ou deep — et sélectionne la bonne variante de modèle parmi celles chargées par les workers connectés.

Le matchmaker place

Un second composant (le matchmaker) liste les workers qui servent ce modèle, exclut ceux déjà occupés, et envoie la requête au premier disponible via WebSocket persistant.

Le GPU exécute et stream

Le worker lance l'inférence (llama.cpp sur Linux/CUDA, MLX sur Apple Silicon) et remonte les tokens un par un en SSE. À la fin, sa mémoire est libérée — rien ne persiste.

Le routeur de modèles

4 niveaux. Pas besoin de choisir.

Le routeur évalue la complexité de votre demande et choisit le modèle adapté. Vous pouvez forcer un niveau via le paramètre `model`.

défaut

auto

Automatique

— choisi pour vous

Heuristique basée sur la longueur et les mots-clés du message : démonstration, raisonnement, architecture → deep ; « bonjour » → fast ; tout le reste → balanced.

fast

Rapide

Gemma 4 e4b

Pour les réponses courtes, les recherches factuelles, les one-liners. ~4B paramètres quantifiés 4-bit, tient sur un Mac M1 ou une 3060.

balanced

Équilibré

Gemma 4 26B

Le cheval de bataille : rédaction, analyse, code, la plupart des usages. Demande un GPU ~16 Go (RTX 4080/4090, Mac M-series 32 Go).

deep

Réflexion

Gemma 4 31B thinking

Mode raisonnement étendu pour les preuves, architectures logicielles, problèmes combinatoires. Le modèle « réfléchit » avant de répondre. GPU ≥24 Go recommandé.

Exemple d'appel API

POST /v1/chat/completions

{

"model": "auto", // ou "fast" / "balanced" / "deep"

"messages": [...],

"stream": true

}

Retour SSE standard — compatible avec les SDK OpenAI existants.

Le matchmaker

Comment un GPU est choisi, concrètement.

La politique d'assignation est volontairement simple — on préfère un algorithme qu'on peut expliquer à un algorithme qu'on ne peut pas déboguer.

Étape 1

Filtrage par capacité

Le matchmaker ne considère que les workers qui déclarent servir le modèle demandé. Chaque worker publie son inventaire au moment de la connexion — on route sur du réel, jamais sur une estimation.

Étape 2

Exclusion des occupés

On exclut les workers qui ont déjà un job en cours. C'est du "one job at a time" par GPU physique — pas de batching implicite qui dégraderait la latence d'un voisin.

Étape 3

Sélection FIFO

Dans les candidats restants, on prend le premier de la liste. Pas d'enchère, pas de prix caché, pas de boosting. Les algorithmes plus malins (affinité, moindre charge) viendront quand le réseau le justifiera.

Que se passe-t-il si ça échoue ?

Le worker crashe en cours d'inférence

L'orchestrateur détecte l'absence de tokens via son heartbeat WebSocket. Après le timeout déclaré par le worker (plus 30 s de marge), le job est remis en file et redistribué à un autre GPU.

Aucun worker ne sert ce modèle

La requête reçoit une erreur explicite « no worker advertises X » — on ne bascule PAS silencieusement sur un modèle différent. Vous savez toujours quel modèle a répondu.

Le niveau demandé n'est pas servi

Fall-down sécurisé : deep → balanced → fast. On ne fait jamais l'inverse (envoyer un "bonjour" à un modèle 31B brûlerait du GPU pour rien).

L'orchestrateur redémarre

Les jobs en file sont persistés dans Postgres. Après redémarrage, la première passe du matchmaker reprend là où il s'était arrêté — pas de perte.

Le réseau

Un maillage européen, pas un data-center.

Chaque point représente un profil de worker pouvant rejoindre le réseau. La répartition géographique est illustrative — elle dépend, à chaque instant, des hôtes connectés.

Worker GPU (Linux/CUDA)Worker Mac (Apple Silicon)Rack pro / colocationOrchestrateur· Illustration, points non géo-exacts

NVIDIA / Linux

La configuration la plus courante : RTX 4080/4090/5090, A6000, H100. Runtime llama.cpp compilé avec support CUDA, accélération tensor cores.

Apple Silicon

Mac M1, M2, M3, M4. Runtime MLX exploitant la mémoire unifiée — un Mac 64 Go peut charger Gemma 26B confortablement. Parfait pour un poste du soir.

Rack professionnel

Colocations, PME, labos universitaires. Plusieurs GPUs par nœud, connectivité fibre, hébergement continu. L'épine dorsale pour les modèles les plus exigeants.

Transparence : le réseau est en cours de constitution. Le nombre de workers actifs, leur localisation et leur disponibilité sont consultables en temps réel sur la page État du réseau. Ne nous croyez pas sur parole — lisez les chiffres.

L'architecture

Trois couches, zéro hyperscaler.

On vous doit la vérité technique, pas un diagramme marketing. Voici les pièces, dans leurs vrais langages et leurs vraies versions.

Edge · Paris

Orchestrateur

Daemon Go (~5 000 lignes), base Postgres pour la persistance des jobs, registre in-memory pour les workers connectés. Hébergé sur un VPS Scaleway EU-West. Expose une API REST + WebSocket.

Routage auto/fast/balanced/deep
Aucun contenu de message en base
Clés API stockées hashées (SHA-256)
Redémarre sans perdre la file

Workers

Runtime d'inférence

Binaire Rust unique qui s'auto-connecte à l'orchestrateur au démarrage. Supporte CUDA (Linux) et MLX (macOS). Mise à jour signée, cryptographiquement vérifiée au démarrage.

Modèle open-weight Gemma 4 (d'autres à venir)
WebSocket persistant + heartbeat
Un seul job à la fois, mémoire libérée après
Pas de données persistées sur disque

Client

Interface & SDK

Web : Next.js 16 (ce site). CLI : Korai Kode en Rust, agent type Codex pour le terminal. API REST compatible OpenAI — vos intégrations existantes fonctionnent sans changement.

Chat web (page d'accueil)
Korai Kode — agent CLI pour dev
API /v1/chat/completions
Historique stocké dans votre navigateur

L'anonymat

Six couches de protection, pas une promesse marketing.

Chaque couche est une vraie pièce de logiciel qui tourne en production. Chacune a un nom mathématique, un fichier source, et un compromis honnête. Voici lesquelles, dans l'ordre où une requête les traverse.

Tickets cryptographiques aveugles

Votre navigateur fabrique des tickets que Korai signe sans pouvoir les voir. Quand vous dépensez un ticket plus tard, le serveur le valide — mais il n'a aucun moyen mathématique de retrouver à quelle session il l'avait remis. C'est le même algorithme que Cloudflare Privacy Pass utilise pour bloquer le tracking publicitaire.

Wallet local sans login

Vos tickets sont chiffrés dans le stockage de votre navigateur, ouvert avec une clé aléatoire générée la première fois et jamais envoyée à Korai. Aucun compte, aucun mot de passe à mémoriser, aucune adresse email exigée pour le mode gratuit.

Mur architectural billing ↔ chat

Korai gère deux bases de données strictement séparées : une pour la facturation (qui est abonné Pro), une pour les chats (combien de tickets ont été dépensés). Aucune clé étrangère ne traverse le mur. La question « quels chats a fait l'utilisateur X » n'a pas de réponse possible — c'est techniquement impossible, pas politique.

Receipts cryptographiques

Chaque chat émet une preuve d'inclusion signée par Korai — comme un reçu de courrier recommandé qui prouve qu'un envoi a eu lieu, sans révéler son contenu. Vous pouvez vérifier que votre chat a tourné, et que personne n'a réécrit l'historique a posteriori.

Mode Defense — multi-saut réseau

D'un clic, vous activez un chemin réseau à deux relais successifs dans des pays différents (Pays-Bas → Allemagne → France) avant que votre trafic atteigne Korai. Chaque relais ne connaît que le précédent et le suivant. Pour vous deanonymiser, un adversaire devrait obtenir simultanément les logs des trois maillons.

Mémoire verrouillée sur le worker

Pendant le calcul de votre réponse sur le GPU, le texte de votre prompt vit en mémoire pour quelques millisecondes. On le verrouille pour qu'il ne soit jamais écrit sur disque, exclu des core dumps, puis effacé par écrasement de chaque octet à la milliseconde où le calcul finit.

Ce qui arrive ensuite

Sprint en cours: remplacement des relais Defense (qui tournent tous sur Fly.io aujourd'hui) par un vrai mixnet Nymavec padding de paquets et trafic de couverture — pour fermer la dernière voie d'analyse par corrélation temporelle. Mi-2026 : achat anonyme par carte prépayée en kiosque, sans même donner votre nom.

Transparence complète →

Les deux modes d'exécution

Selon le GPU disponible, votre prompt suit l'un de ces deux chemins.

Les deux préservent intégralement votre anonymat. Le premier ajoute en plus une garantie matérielle quand le hardware le permet — c'est le routage par défaut sur tous les abonnements quand notre réseau a la capacité, et obligatoire sur les offres entreprise.

Mode Auto · les requêtes alternent vers les deux chemins selon la disponibilité du réseau. Cliquez sur Mode 1 ou Mode 2 ci-dessus pour figer un chemin.

Routage automatique

Par défaut, l'orchestrateur Korai vous route vers Mode 1 quand un GPU compatible est disponible — y compris sur l'offre gratuite. Sinon vous tombez sur Mode 2 et votre message reste tout aussi anonyme. Les abonnements Entreprise sont strictement routés vers Mode 1 sans dégradation silencieuse possible.

▸Décision basée sur : tier d'abonnement, modèle choisi, session_id, charge des workers
▸Le contenu de votre prompt n'est JAMAIS lu pour prendre cette décision
▸Cliquez Mode 1 ou Mode 2 ci-dessus pour voir le détail de chaque chemin

Mode 1 · Garantie matérielle

Zone sécurisée sur le GPU

Confidential Compute

Votre message arrive chiffré et n'est déchiffré qu'à l'intérieur d'une zone matérielle isolée du reste de l'ordinateur — une enceinte où même l'opérateur de la machine ne peut pas regarder. Le GPU signe ensuite une attestation cryptographique que votre client peut vérifier : la preuve que oui, le calcul a bien tourné dans cette enceinte.

Personne — pas l'hébergeur, pas Korai — ne peut techniquement lire votre prompt.

Matériel concerné

NVIDIA H100
NVIDIA H200
B100 / B200 / GB200
RTX Pro 6000 Blackwell
Rubin (2026+)

Routage par défaut quand l'un de ces GPU est disponible · obligatoire pour les abonnements Entreprise

Mode 2 · Garantie logicielle

Clé éphémère + mémoire verrouillée

Hardened mode

Votre message arrive chiffré avec une clé qui n'existe que pendant votre session — une fois la conversation terminée, cette clé est effacée pour toujours, rendant tout déchiffrement futur impossible. Pendant l'inférence, le texte vit dans une zone mémoire verrouillée et incopiable, puis est immédiatement effacé.

Le texte de votre prompt n'existe en clair que durant les quelques millisecondes du calcul, dans une mémoire que personne ne peut sortir.

Matériel concerné

RTX 3090 / 4090 / 5090
RTX 6000 Ada
A100 80 GB
Mac Studio M2 / M3 / M4 / M5
MacBook Pro M-series

Routage automatique quand le réseau n'a pas de capacité Confidential Compute disponible

Dans les deux cas, votre anonymat est préservé.

Les six couches d'anonymisation décrites plus haut (tickets anonymes, deux fichiers séparés, clés éphémères, tickets temporels, code consultable, audit indépendant) fonctionnent identiquement dans les deux modes. La différence entre Mode 1 et Mode 2 ne porte que sur la dernière marche: la mémoire physique du GPU pendant le calcul. Sur Mode 1, c'est le matériel lui-même qui garantit l'isolation. Sur Mode 2, c'est l'empilement logiciel qui rend l'extraction prohibitivement coûteuse.

Routage transparent : vous n'avez rien à choisir. L'orchestrateur vous envoie automatiquement vers Mode 1 quand un GPU compatible est disponible — y compris sur l'offre gratuite. Sinon vous tombez sur Mode 2, et votre message reste tout aussi anonyme. Les abonnements Entreprisesont en revanche strictement routés vers Mode 1 — ou refusés si aucun GPU compatible n'est libre, sans dégradation silencieuse.

Réseau

Anonyme par défaut. Defense quand vous le voulez.

Deux niveaux de protection, choisis explicitement par l'utilisateur. Le premier est toujours actif et suffit pour 99 % des usages. Le second se déclenche d'un clic quand vous voulez monter d'un cran face à un adversaire qui surveille le réseau.

Mode Anonyme · par défaut

Aucune trace côté serveur, identité masquée.

Activé pour tous, tout le temps, sans rien à configurer. Le contenu de vos messages n'est jamais stocké. Aucun lien possible entre votre identité (si vous avez un compte payant) et vos conversations.

✓Tickets cryptographiques aveugles(Privacy Pass / VOPRF P-384). Le serveur signe sans voir ce qu'il signe — l'émission et la dépense sont mathématiquement déliables.
✓Aucun JWT, aucun user_idn'est envoyé sur le chemin du chat. L'orchestrateur ne sait pas qui vous êtes.
✓Streaming SSE token par token, latence directe. Aucun coût visible.

Reste visible : votre IP côté Vercel (qui héberge ce site) et côté Fly.io (qui héberge l'orchestrateur). Métadonnée — pas le contenu, jamais.

Mode Defense · opt-in d'un clic

Votre IP n'arrive jamais jusqu'à Korai.

Active le bouton « Defense » à côté du badge Anonyme et votre trafic chat est routé via deux relais successifs dans des pays différents avant d'atteindre l'orchestrateur. Chaque relais ne connaît que le hop précédent et le suivant. Pour vous deanonymiser, un adversaire devrait obtenir simultanémentles logs des deux relais et de l'orchestrateur.

✓Chemin multi-saut : navigateur → relais (AMS) → relais (FRA) → orchestrateur. Streaming SSE préservé bout-en-bout grâce à un flush par chunk.
✓Relais non-configurables: chaque relais est codé en dur sur un seul upstream. Impossible d'être détourné en open proxy.
✓Diversité géographique : Pays-Bas → Allemagne → France. Une demande judiciaire mono-pays voit au mieux un segment du chemin.

Coût : ~100-300 ms ajoutées par requête (deux hops réseau supplémentaires). Bande passante x2 par rapport au chemin direct.

Question

Anonyme

+ Defense

Korai voit le contenu de votre prompt

Non — jamais stocké, jamais loggé

Non — idem

Korai relie votre identité à vos chats

Non — VOPRF brise mathématiquement le lien

Non — idem

Korai voit votre adresse IP

Oui via Vercel + Fly (métadonnée seule)

Non — voit l'IP du dernier relais

Surveillance réseau peut corréler par timing

Possible si l'adversaire surveille le chemin direct

Très difficile — exige les 2 relais simultanément

Latence ajoutée par la couche privacy

0 ms (chemin direct)

~100-300 ms (deux hops Fly)

Streaming token-par-token

Oui

Oui — flush préservé bout-en-bout

Ce que Defense mode ne fait pas (encore).

Les relais Korai tournent tous sur Fly.io. Une demande judiciaire à Fly directement pourrait corréler les logs cross-régions. La diversité géographique aide pour le jurisdiction shopping (pays différents = procédures différentes), mais pas contre la plateforme elle-même. Le saut suivant — vrai mixnet Nym avec padding et trafic de couverture — est la prochaine étape de la roadmap.

À garder en tête : le mode Anonyme par défaut est déjà solide pour 99 % des usages. Defense est pour les utilisateurs qui ont explicitement besoin de cacher leur IP à Korai — journalistes investigant en zone hostile, lanceurs d'alerte, ONG. Ce n'est pas nécessaire pour de la confidentialité personnelle ordinaire.

Question fréquente

Comment l'orchestrateur route-t-il sans lire le prompt ?

Une vraie question : si Korai ne voit jamais le contenu de votre message, comment décide-t-il vers quel GPU vous envoyer ? La réponse tient en quatre métadonnées que le client envoie en clair, pendant que le contenu reste chiffré.

Ce que l'orchestrateur voit

▸Votre tier d'abonnement(Free / Plus / Pro / Max / Entreprise). Détermine s'il faut un GPU CC ou si un worker hardened standard suffit.
▸Le modèle que vous avez choisi (Qwen 35B-A3B pour rapide, Qwen 27B dense pour raisonnement). Comme ChatGPT vous laisse choisir GPT-4 vs GPT-3.5 — c'est votre client qui le déclare.
▸Un identifiant de session opaque et la longueur du blob chiffré. Permet le sticky-routing (votre conversation reste sur le même worker pour réutiliser sa mémoire interne) sans révéler qui vous êtes.
▸L'état des workers : queue de demandes en cours, capacités déclarées, GPU disponible. Permet de choisir le least-busy parmi les éligibles.

Ce que l'orchestrateur ne voit pas

✗Le texte de votre prompt
✗L'historique de votre conversation
✗Les images, fichiers, ou documents attachés
✗Le contenu de la réponse générée par le worker
✗Votre identité (le mur architectural billing↔chat rend la jointure impossible — voir transparence)

Ces données ne quittent jamais le canal chiffré entre votre appareil et le worker.

L'arbre de décision, en quatre étapes

1. Le tier détermine la politique CC (CCPreferred pour les consumer, CCRequired pour Entreprise).
2. Le modèle demandé filtre les workers compatibles (un Mac Studio ne sert pas Qwen 27B dense en mode Reasoning, par exemple).
3.L'affinity de session, si elle existe, prend le pas : on reste sur le même worker que les turns précédents pour ne pas rebatir le contexte.
4. Sinon, on choisit le least-loaded parmi les éligibles. Round-robin si aucune charge significative.

Corollaire pratique : une question quick et triviale « quelle heure est-il à Paris ? », posée par un user Free, est routée vers le worker Mac Studio ou RTX 4090 le plus libre quand les H100 sont occupés à servir des power users — et inversement, quand le réseau a de la capacité Confidential Compute disponible, même la question triviale du Free y atterrit. Le matching capacité ↔ besoin se fait implicitement par le filtre « modèle compatible » et la pression de charge, sans jamais avoir lu le prompt.

L'économie

Qui paie, qui gagne.

Korai n'est pas gratuit par philosophie — c'est gratuit pendant la bêta parce que le modèle économique n'est pas encore déployé. Voici ce qui est prévu.

Aujourd'hui · Bêta

En cours

Crédit symbolique

Comptes gratuits avec une enveloppe de tokens/mois suffisante pour un usage personnel sérieux. Pas de carte bancaire demandée, pas de tarification activée.

Mi-2026 · Tier Pro

Prévu

Facturation à l'usage

Crédits prépayés, prix par million de tokens proche des APIs open-weight du marché. Une part significative est reversée aux hôtes qui ont effectué l'inférence, proportionnellement aux tokens servis.

Après · Coopérative

Vision

Gouvernance partagée

Le statut visé à moyen terme est celui d'une coopérative ou association : les hôtes et utilisateurs contribuent aux décisions de roadmap, les excédents financent l'infrastructure et le développement.

Nous ne prétendons pas déjà payer les hôtes. La tuyauterie de facturation existe mais elle n'est pas activée. Dès qu'elle le sera, le barème sera publié, auditable, et modifiable uniquement par vote.

Questions directes

Ce qu'on nous demande le plus.

Quelle différence entre Anonyme et Defense ?

Anonymeest le mode par défaut, toujours actif. Vos messages ne sont jamais liés à votre identité côté serveur (couche L1 — VOPRF), aucun JWT n'est envoyé sur le chemin du chat, et la latence reste directe. Suffit pour 99 % des usages. Defense ajoute, sur un clic, un chemin réseau à deux relais successifs (couche L5) qui cache aussi votre adresse IPà Korai. Coût : ~100-300 ms de latence en plus. Utile pour journalistes en zone hostile, lanceurs d'alerte, ONG. Pas nécessaire pour de la confidentialité personnelle ordinaire.

Avez-vous un compte ? Une carte bleue ?

Non, pas pour le tier gratuit. Votre navigateur génère un identifiant aléatoire (jamais corrélé à votre identité) à la première visite et reçoit 10 tickets, re-remplis silencieusement par lots de 10 en arrière-plan. Le tier Pro à venir (mi-2026) demandera un paiement — mais grâce au mur architectural billing↔chat (couche L3), même votre statut « Pro confirmé » ne pourra pas être relié à vos conversations spécifiques.

Quels modèles sont disponibles ?

À l'heure actuelle : la famille Gemma 4en trois variantes (e4b pour les réponses rapides, 26B pour l'équilibré, 31B thinking pour le raisonnement étendu). Prochains candidats : Mistral Small 3, Qwen 2.5, DeepSeek V3 — ajoutés dès qu'un worker les sert. Les modèles fermés sont exclus par principe.

Est-ce plus lent qu'OpenAI ?

Cela dépend du GPU choisi par le matchmaker. Sur un worker H100 ou RTX 4090, le temps au premier token est comparable aux APIs commerciales sur modèles de taille équivalente. Sur un Mac M1 de 2020, c'est plus lent — mais c'est aussi un Mac de 2020. Le status publie les latences réelles.

Qui sont les hôtes GPU ? Peuvent-ils lire mes conversations ?

Les hôtes sont des personnes ou organisations qui ont installé notre binaire worker open-source. Pendant les quelques millisecondes du calcul, le prompt vit en RAM — c'est physiquement nécessaire pour que le modèle produise une réponse. Mais cette RAM est verrouillée par mlock (jamais swapée sur disque), exclue des core dumps via MADV_DONTDUMP, et effacée par écrasement à la milliseconde où le calcul finit. Voir la couche L6 ci-dessus. Un hôte qui voudrait quand même fouiller la RAM aurait besoin d'un accès root sur sa propre machine, ce qui sort du modèle de menace SaaS standard et ne s'applique pas si vous trustez vos workers (cas Entreprise) ou si vous activez le mode Confidential Compute (qui exclut même l'OS de l'hôte du périmètre de confiance).

Puis-je vérifier qu'un GPU est bien européen ?

Oui : chaque worker déclare son pays à la connexion. Vous pouvez forcer une région avec l'en-tête X-Korai-Region: eu-west. Si aucun worker conforme n'est dispo, la requête échoue proprement plutôt que de basculer hors-UE silencieusement.

Est-ce open-source ?

Les clients (Korai Kode CLI, SDK, dashboard) sont prévus pour être publiés sous licence permissive à la GA. Le binaire worker l'est aussi — c'est nécessaire pour que la signature soit vérifiable. L'orchestrateur reste géré par l'entité Korai pour des raisons de gouvernance réseau, mais son code source est consultable sur demande dans le cadre de la bêta.

Que se passe-t-il si Korai ferme demain ?

Vos conversations sont dans votre navigateur — vous les gardez. Les workers sont des binaires standalone — ils continuent de tourner. Le code orchestrateur sera publié en cas de cessation d'activité (engagement contractuel — voir CGU), ce qui permettra à la communauté de faire tourner son propre orchestrateur si elle le souhaite.

Ça marche avec les SDK OpenAI existants ?

Oui. L'endpoint /v1/chat/completions respecte le schéma OpenAI, y compris le streaming SSE. Changez l'URL de base et la clé — le reste du code n'a pas besoin de bouger. Les tool-calls sont supportés via la même sémantique.

Puis-je déployer mon propre orchestrateur privé ?

C'est prévu pour les entreprises et administrations qui voudraient un réseau Korai fermé sur leur infrastructure — workers internes uniquement, aucun lien avec le réseau public. La procédure (Docker Compose + migration Postgres) sera documentée avec la GA. Si c'est urgent, contactez-nous.

Rejoindre le réseau

Deux façons de participer.

Vous pouvez utiliser le réseau comme n'importe quel chat — ou le renforcer en prêtant votre GPU quand vous n'en avez pas besoin. Les deux comptent.

Ouvrir le chat

Gratuit pendant la bêta · aucun paiement

Héberger un GPU

Linux/CUDA · macOS Apple Silicon

Pour tout le reste — API, contact, presse, précisions techniques — voir la documentation ou la page À propos.

L'IA,vraiment anonyme.