Projet de recherche (Télécom SudParis) Basé sur IaC-Eval (Université du Michigan - Cisco Research)

LLM 4 Cloud : Évaluation des capacités des LLM dans la génération de fichiers de configuration pour le Cloud Pierre LAURENT - Adam OUZEGDOUH

LLM testés

CodeGemma (7B) de Google

Codestral (22B) de Mistral AI

DeepSeek-Coder-V2 (16B) de DeepSeek

Phi-4 (14B) de Microsoft

Qwen-2.5-Coder (14B) de Alibaba Cloud

GPT-4 (1000B?) de OpenAI (Résultat importé de l’étude IaC-Eval)

Testés sur

Testés sur la génération du fichier IaC Terraform pour AWS

Dataset de 458 problématiques avec une version en anglais (EN) et une version en français (FR) pour chacune

45 sur 458 de difficulté 1

95 sur 458 de difficulté 2

113 sur 458 de difficulté 3

58 sur 458 de difficulté 4

72 sur 458 de difficulté 5

75 sur 458 de difficulté 6

Résultats 1 - 2 - 3 • EN - FR

Résultats 1 - 2 - 3 - 4 - 5 - 6 • EN

Poster

Slides