Projet de recherche (Télécom SudParis) Basé sur IaC-Eval (Université du Michigan - Cisco Research)

LLM 4 Cloud : Évaluation des capacités des LLM dans la génération de fichiers de configuration pour le Cloud Pierre LAURENT - Adam OUZEGDOUH

LLM testés


Google
CodeGemma (7B) de Google

Mistral AI
Codestral (22B) de Mistral AI


DeepSeek-Coder-V2 (16B) de DeepSeek


Phi-4 (14B) de Microsoft

Alibaba Cloud
Qwen-2.5-Coder (14B) de Alibaba Cloud

OpenAI
GPT-4 (1000B?) de OpenAI (Résultat importé de l’étude IaC-Eval)

Testés sur


Terraform
AWS

Testés sur la génération du fichier IaC Terraform pour AWS

Dataset de 458 problématiques avec une version en anglais (EN) et une version en français (FR) pour chacune

45 sur 458 de difficulté 1
95 sur 458 de difficulté 2
113 sur 458 de difficulté 3
58 sur 458 de difficulté 4
72 sur 458 de difficulté 5
75 sur 458 de difficulté 6

Résultats 1 - 2 - 3 • EN - FR


Résultats 1 - 2 - 3 - 4 - 5 - 6 • EN


Poster


Slides