Insecure Output Handling in Large Language Models / Niebezpieczne przetwarzanie danych wyjściowych w dużych modelach językowych
Insecure Output Handling in Large Language Models / Niebezpieczne przetwarzanie danych wyjściowych w dużych modelach językowych
Data
2025
Autorzy
Anchimiuk, Aleksander
Tytuł czasopisma
ISSN czasopisma
Tytuł tomu
Wydawca
Akademia Bialska im. Jana Pawła II
Streszczenie
Large Language Models (LLMs) are increasingly deployed across domains such as
automation, healthcare, and software development. While existing research predominantly
focuses on input-related risks, such as prompt injection and adversarial attacks, the critical
challenge of Insecure Output Handling (IOH), as identified by the OWASP Top 10 for
LLMs, remains understudied in the academic literature. This paper addresses this gap
by providing a formal analysis of IOH as a distinct security threat, in which modelgenerated
outputs introduce vulnerabilities into downstream systems. Through controlled
experiments focusing on XSS vulnerabilities, we demonstrate significant variation in
model security postures, with baseline exploit rates ranging from 4.2% to 27.6% across
different architectures. Crucially, our findings validate OWASP’s concerns by showing
that standard sanitisation techniques, recommended to mitigate IOH, provide 100%
protection against successful XSS exploits in our experimental setup while maintaining
negligible performance overhead. Furthermore, we examine how the European Union’s AI Act establishes concrete obligations for addressing such risks, positioning IOH mitigation
not just as a technical best practice but as a regulatory imperative. The empirical evidence
presented demonstrates that implementing output validation is both technically feasible
and increasingly necessary for the deployment of compliant AI systems.
Modele językowe dużej skali (LLM) są coraz częściej wykorzystywane w różnych dziedzinach, takich jak automatyzacja, opieka zdrowotna czy rozwój oprogramowania. Podczas gdy dotychczasowe badania koncentrują się głównie na zagrożeniach związanych z danymi wejściowymi, takich jak wstrzykiwanie promptów czy ataki adwersarialne, kluczowe wyzwanie, jakim jest niebezpieczne przetwarzanie danych wyjściowych (Insecure Output Handling, IOH) – zidentyfikowane przez listę OWASP Top 10 dla LLM – pozostaje słabo zbadane w literaturze naukowej. Niniejszy rozdział wypełnia tę lukę, dostarczając formalną analizę IOH jako odrębnego zagrożenia dla bezpieczeństwa, w ramach której generowane przez modele dane wyjściowe wprowadzają podatności do systemów je wykorzystujących. Na podstawie kontrolowanych eksperymentów dotyczących podatności typu XSS wykazano istotne różnice w poziomie bezpieczeństwa różnych architektur modeli – odsetek udanego wykorzystania podatności w badanej próbie wynosił od 4,2% do 27,6%. Co istotne, wyniki weryfikują obawy OWASP, pokazując, że w przeprowadzonym eksperymencie XSS standardowe techniki sanityzacji – rekomendowane do mitygacji IOH – zapewniły 100% ochrony przed skutecznymi atakami w badanej próbie, przy jednoczesnym minimalnym wpływie na wydajność. Ponadto rozdział analizuje, w jaki sposób Rozporządzenie UE o Sztucznej Inteligencji (AI Act) nakłada konkretne obowiązki w zakresie ograniczania tego typu ryzyk, czyniąc łagodzenie skutków IOH nie tylko najlepszą praktyką techniczną, lecz także wymogiem regulacyjnym. Przedstawione dane empiryczne dowodzą, że wdrożenie walidacji danych wyjściowych jest zarówno technicznie wykonalne, jak i coraz bardziej niezbędne dla zgodnego z przepisami wdrażania systemów AI.
Modele językowe dużej skali (LLM) są coraz częściej wykorzystywane w różnych dziedzinach, takich jak automatyzacja, opieka zdrowotna czy rozwój oprogramowania. Podczas gdy dotychczasowe badania koncentrują się głównie na zagrożeniach związanych z danymi wejściowymi, takich jak wstrzykiwanie promptów czy ataki adwersarialne, kluczowe wyzwanie, jakim jest niebezpieczne przetwarzanie danych wyjściowych (Insecure Output Handling, IOH) – zidentyfikowane przez listę OWASP Top 10 dla LLM – pozostaje słabo zbadane w literaturze naukowej. Niniejszy rozdział wypełnia tę lukę, dostarczając formalną analizę IOH jako odrębnego zagrożenia dla bezpieczeństwa, w ramach której generowane przez modele dane wyjściowe wprowadzają podatności do systemów je wykorzystujących. Na podstawie kontrolowanych eksperymentów dotyczących podatności typu XSS wykazano istotne różnice w poziomie bezpieczeństwa różnych architektur modeli – odsetek udanego wykorzystania podatności w badanej próbie wynosił od 4,2% do 27,6%. Co istotne, wyniki weryfikują obawy OWASP, pokazując, że w przeprowadzonym eksperymencie XSS standardowe techniki sanityzacji – rekomendowane do mitygacji IOH – zapewniły 100% ochrony przed skutecznymi atakami w badanej próbie, przy jednoczesnym minimalnym wpływie na wydajność. Ponadto rozdział analizuje, w jaki sposób Rozporządzenie UE o Sztucznej Inteligencji (AI Act) nakłada konkretne obowiązki w zakresie ograniczania tego typu ryzyk, czyniąc łagodzenie skutków IOH nie tylko najlepszą praktyką techniczną, lecz także wymogiem regulacyjnym. Przedstawione dane empiryczne dowodzą, że wdrożenie walidacji danych wyjściowych jest zarówno technicznie wykonalne, jak i coraz bardziej niezbędne dla zgodnego z przepisami wdrażania systemów AI.
Opis
Słowa kluczowe
AI security,
large language models (LLMs),
insecure output handling,
application security,
cross-site scripting (XSS),
bezpieczeństwo AI,,
modele językowe dużej skali (LLM),
niebezpieczne
przetwarzanie danych wyjściowych (Insecure Output Handling, IOH),
bezpieczeństwo
aplikacji, cross-site scripting (XSS),
sanityzacja danych wyjściowych