L'engine open source dell'AI.
Un singolo binario open source che parla le API di OpenAI, Anthropic e ElevenLabs — gira qualunque modello, su qualunque hardware, senza GPU obbligatoria.
Punta il tuo SDK a localhost
Stesso SDK. Tre righe cambiano.
Scegli il client. Il boilerplate resta uguale, cambia solo il base_url. I modelli restano sul tuo hardware.
Stesso SDK. Tre righe cambiano. I modelli restano sul tuo hardware.
Un engine, qualunque API
Drop-in compatibile con quello che usi già.
OpenAI-compatible
Chat · embeddings · audio · immagini · tools · realtime · responses.
http://localhost:8080/v1
Anthropic-compatible
Messages API con streaming e tool use.
http://localhost:8080/anthropic
ElevenLabs-compatible
Text-to-speech, voci, streaming audio.
http://localhost:8080/elevenlabs
Ollama · MCP
Ollama API + Model Context Protocol come client e server.
http://localhost:8080/api
Sei livelli, un binario
Dal tuo SDK fino al metallo, in un singolo processo Go.
Un bus, tante runtime
50+ backend pluggable.
Bus gRPC, distribuzione OCI. Installa, rimuovi, aggiorna al volo. Hot-swap fra runtime senza riavviare l'engine.
Gira su quello che hai
Auto-detect allo startup.
NVIDIA, AMD, Intel, Apple Silicon, Vulkan o solo CPU — supportati tutti come cittadini di prima classe.
25+ endpoint, quattro famiglie
L'intera superficie di capacità.
Chat, vision, image, video, TTS, sound, Anthropic messages.
POST/v1/chat/completionsPOST/v1/images/generationsPOST/v1/images/inpaintingPOST/v1/audio/speechPOST/v1/messages (Anthropic)POST/elevenlabs/sound-generationSTT, diarization, VAD, object detection, embeddings, rerank, tokenize.
POST/v1/audio/transcriptionsPOST/v1/audio/diarizationPOST/v1/vadPOST/v1/detectionPOST/v1/embeddingsPOST/v1/rerankPOST/v1/tokenizeRealtime voice (WS/WebRTC), agenti con job e task, MCP client + server, Responses API.
WS /v1/realtimePOST/v1/responsesPOST/v1/mcp/chat/completionsPOST/api/agents/*POST/api/agent/jobsPOST/api/agent/tasksFace e voice register, identify, verify, embed, analyze, forget.
POST/v1/face/registerPOST/v1/face/identifyPOST/v1/face/verifyPOST/v1/voice/registerPOST/v1/voice/identifyPOST/v1/voice/verifyPronto per la produzione
Cos'altro c'è dentro.
Distribuito · federated
Tanti nodi pieni, un solo entry point. Bootstrap libp2p + EdgeVPN, onboarding con shared token.
Distribuito · sharded
Un modello, diviso fra macchine. Pesi distribuiti in base alla memoria; ogni nodo contribuisce a ogni token.
Agenti + MCP
Loop scheduler, planner, memory, streaming SSE. MCP come client e server. Agenti pre-built dall'Agent Hub.
Auth + RBAC
API key, OIDC, GitHub OAuth. Ruoli admin / user / read-only per endpoint.
Quote + usage
Budget di token, rate limit, attribuzione per utente. Metriche esportabili nello stack che hai già.
Air-gapped
Backend e modelli si scaricano una volta via OCI; la rete è opzionale da lì in poi.
Cinque minuti
Provalo.
# 1. Pull and run (CPU-only example)
$ docker run -ti --name local-ai \
-p 8080:8080 localai/localai:latest
# 2. Pull a model from the gallery
$ local-ai run llama-3.2-1b-instruct:q4_k_m
# 3. Call it like OpenAI
$ curl localhost:8080/v1/chat/completions \
-d '{"model":"llama-3.2-1b-instruct",
"messages":[{"role":"user",
"content":"hello"}]}'