Insecure Output Handling in Large Language Models / Niebezpieczne przetwarzanie danych wyjściowych w dużych modelach językowych

Miniatura obrazu
Data
2025
Autorzy
Anchimiuk, Aleksander
Tytuł czasopisma
ISSN czasopisma
Tytuł tomu
Wydawca
Akademia Bialska im. Jana Pawła II
Streszczenie
Large Language Models (LLMs) are increasingly deployed across domains such as automation, healthcare, and software development. While existing research predominantly focuses on input-related risks, such as prompt injection and adversarial attacks, the critical challenge of Insecure Output Handling (IOH), as identified by the OWASP Top 10 for LLMs, remains understudied in the academic literature. This paper addresses this gap by providing a formal analysis of IOH as a distinct security threat, in which modelgenerated outputs introduce vulnerabilities into downstream systems. Through controlled experiments focusing on XSS vulnerabilities, we demonstrate significant variation in model security postures, with baseline exploit rates ranging from 4.2% to 27.6% across different architectures. Crucially, our findings validate OWASP’s concerns by showing that standard sanitisation techniques, recommended to mitigate IOH, provide 100% protection against successful XSS exploits in our experimental setup while maintaining negligible performance overhead. Furthermore, we examine how the European Union’s AI Act establishes concrete obligations for addressing such risks, positioning IOH mitigation not just as a technical best practice but as a regulatory imperative. The empirical evidence presented demonstrates that implementing output validation is both technically feasible and increasingly necessary for the deployment of compliant AI systems.
Modele językowe dużej skali (LLM) są coraz częściej wykorzystywane w różnych dziedzinach, takich jak automatyzacja, opieka zdrowotna czy rozwój oprogramowania. Podczas gdy dotychczasowe badania koncentrują się głównie na zagrożeniach związanych z danymi wejściowymi, takich jak wstrzykiwanie promptów czy ataki adwersarialne, kluczowe wyzwanie, jakim jest niebezpieczne przetwarzanie danych wyjściowych (Insecure Output Handling, IOH) – zidentyfikowane przez listę OWASP Top 10 dla LLM – pozostaje słabo zbadane w literaturze naukowej. Niniejszy rozdział wypełnia tę lukę, dostarczając formalną analizę IOH jako odrębnego zagrożenia dla bezpieczeństwa, w ramach której generowane przez modele dane wyjściowe wprowadzają podatności do systemów je wykorzystujących. Na podstawie kontrolowanych eksperymentów dotyczących podatności typu XSS wykazano istotne różnice w poziomie bezpieczeństwa różnych architektur modeli – odsetek udanego wykorzystania podatności w badanej próbie wynosił od 4,2% do 27,6%. Co istotne, wyniki weryfikują obawy OWASP, pokazując, że w przeprowadzonym eksperymencie XSS standardowe techniki sanityzacji – rekomendowane do mitygacji IOH – zapewniły 100% ochrony przed skutecznymi atakami w badanej próbie, przy jednoczesnym minimalnym wpływie na wydajność. Ponadto rozdział analizuje, w jaki sposób Rozporządzenie UE o Sztucznej Inteligencji (AI Act) nakłada konkretne obowiązki w zakresie ograniczania tego typu ryzyk, czyniąc łagodzenie skutków IOH nie tylko najlepszą praktyką techniczną, lecz także wymogiem regulacyjnym. Przedstawione dane empiryczne dowodzą, że wdrożenie walidacji danych wyjściowych jest zarówno technicznie wykonalne, jak i coraz bardziej niezbędne dla zgodnego z przepisami wdrażania systemów AI.
Opis
Słowa kluczowe
AI security, large language models (LLMs), insecure output handling, application security, cross-site scripting (XSS), bezpieczeństwo AI,, modele językowe dużej skali (LLM), niebezpieczne przetwarzanie danych wyjściowych (Insecure Output Handling, IOH), bezpieczeństwo aplikacji, cross-site scripting (XSS), sanityzacja danych wyjściowych
Cytowanie