Comment fine-tuner un LLM sur votre jeu de données personnalisé
def generate_response(instruction):
inputs = tokenizer(instruction, return_tensors="pt").to("cuda")
outputs = model.generate(
**inputs,
max_new_tokens=200,
temperature=0.7
)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
Déploiement en production
- Exportez au format GGUF pour llama.cpp
- Déployez avec vLLM pour la production
- Utilisez Ollama pour le déploiement local
- Surveillez la dérive et la dégradation de la qualité
Quand NE PAS fine-tuner
- Si le prompt engineering résout votre problème
- Si vous devez changer les comportements fréquemment
- Si vous n'avez pas de données d'entraînement de haute qualité
- Commencez par le RAG avant le fine-tuning
Notre programme « Build with LLMs » couvre le fine-tuning avec des projets pratiques.