In diesem praxisorientierten Studentenprojekt werden die Teilnehmenden ein vollständiges GPU-Cluster für KI-Anwendungen von Grund auf aufbauen – beginnend beim Zusammenbau der Server-Hardware bis hin zur Einrichtung einer produktionsreifen KI-Entwicklungsumgebung. Das Projekt umfasst den physischen Aufbau der GPU-Server sowie die komplette Installation und Konfiguration des Software-Stacks: Ubuntu Server als Betriebssystem, Netzwerkkonfiguration, Storage-Lösungen (RAID, Ceph/Gluster/NFS), Slurm als Ressourcenmanager, Docker für Virtualisierung sowie eine umfassende KI-Software-Umgebung mit Python, PyTorch und Jupyter. Die Arbeitsgruppen organisieren sich dabei selbstständig mithilfe eines agilen Frameworks und haben über einen Zeitraum von 12 Wochen Zugang zum IAI-Labor, wo sie unter Anleitung und in offenen Sprechstunden praktische Erfahrungen sammeln können. Besonderer Fokus liegt auf dem Verständnis des Gesamtsystems – von der Hardware-Ebene über die Systemadministration bis zur Orchestrierung verteilter KI-Workloads mittels Slurm, einschließlich der Einrichtung sicherer Kommunikationswege zwischen den Nodes (SSH-Keys, Munge-Authentifizierung). Die Studierenden durchlaufen dabei den kompletten Entwicklungszyklus von der Anforderungsanalyse über die schrittweise Implementierung bis zur Validierung durch Benchmarks und Load-Tests. Ziel ist es, praktische Kompetenzen im Aufbau und Betrieb von High-Performance-Computing-Infrastrukturen zu entwickeln und ein tiefgreifendes Verständnis für das Zusammenspiel aller Komponenten eines modernen GPU-Clusters zu erlangen. Am Ende des Projekts verfügen die Teilnehmenden über fundierte Kenntnisse in Linux-Systemadministration, Cluster-Computing, Container-Virtualisierung und der praktischen Umsetzung von KI-Infrastrukturen, die sie direkt in Forschung und Industrie einsetzen können.
- Dozent/in: Gian Luca Buono
- Dozent/in: David Maximilian Merkl