Ollame lokal mit Docker
So kam ich zu Ollama. Das kann man ohne Probleme per Docker starten. Ohne GPU-Beschleunigung war es aber doch recht langsam. Zum Glück installiert der Nvidia-Treiber alles mit, um auch unter Windows GPU-Beschleunigung in Docker-Containern nutzen zu können.
Selbst mit einer GTX 970 ist das llama3 Model recht gut nutzbar. Test mit einem separaten Linux-System und Telsa P4 folgen später, wenn die Karte da ist.
Docker-Container starten:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --gpus=all --name ollama_2 ollama/ollama
Ollama CLI Eingabe starten:
docker exec -it ollama_2 ollama run llama3
Abfrage via API:
POST http://localhost:11434/api/generate
Content-Type: application/json
{
"model": "llama3",
"prompt": "write a short poem about a 1HE server.",
"stream": false
}