Automatyczne rozpoznawanie mowy z ruchu ust przy użyciu sztucznej inteligencji – przegląd metod, zastosowań i wyzwań / Automatic Speech Recognition from Lip Movements Using Artificial Intelligence – An Overview of Methods, Applications, and Challenges

dc.contributor.author Lubańska, Zofia
dc.contributor.author Tarasiuk, Gabriel
dc.date.accessioned 2026-06-10T07:56:28Z
dc.date.available 2026-06-10T07:56:28Z
dc.date.issued 2025
dc.description.abstract Rozpoznawanie mowy na podstawie ruchów warg (znane również jako czytanie z ruchu warg) stanowi kluczowy obszar na styku wizji komputerowej i przetwarzania mowy. Technologia ta umożliwia zrozumienie mowy poprzez analizę ruchów warg i języka mówiącego bez wykorzystania dźwięku. Jest ona szczególnie ważna dla osób z ubytkiem słuchu oraz w sytuacjach, w których sygnał audio jest niedostępny lub zakłócony przez hałas. W ostatnich latach poczyniono znaczne postępy w automatycznym odczytywaniu z ruchu warg dzięki rozwojowi sztucznej inteligencji, a zwłaszcza głębokich sieci neuronowych. Niniejszy rozdział zawiera przegląd aktualnych badań nad rozpoznawaniem mowy na podstawie ruchu warg z wykorzystaniem sztucznej inteligencji. Przedstawiono ewolucję podejść, od tradycyjnych metod opartych na cechach wizualnych i modelach statystycznych po nowoczesne architektury głębokiego uczenia (CNN, RNN, Transformer). Omówiono typowe metody i procesy rozpoznawania, a także popularne zbiory danych (takie jak GRID, LRW i LRS) oraz porównano wydajność wybranych modeli na tych zbiorach danych.
dc.description.abstract Speech recognition based on lip movement (also known as lip reading) is a key area at the intersection of computer vision and speech processing. It enables understanding of speech by analysing the movements of the speaker’s movements of the lips and other visible articulatory features without using sound. This technology is particularly important for individuals with hearing loss and in situations where the audio signal is unavailable or distorted by noise. In recent years, significant progress has been made in automatic lip reading, thanks to advances in artificial intelligence, particularly deep neural networks. This chapter provides an overview of current research on AI-based speech recognition from lip movements. The evolution of approaches is presented, from traditional methods based on visual features and statistical models to modern deep learning architectures (CNN, RNN, Transformer). Typical recognition methods and pipelines, as well as popular datasets (such as GRID, LRW, and LRS), are discussed, and the performance of selected models on these datasets is compared. en
dc.identifier.isbn 978-83-68103-30-4
dc.identifier.uri https://doi.org/10.29316/9788368103304_10
dc.identifier.uri https://hdl.handle.net/20.500.13044/2565
dc.language.iso pl
dc.publisher Akademia Bialska im. Jana Pawła II
dc.subject wizualne rozpoznawanie mowy pl
dc.subject czytanie z ruchu warg pl
dc.subject sieci neuronowe pl
dc.subject głębokie uczenie pl
dc.subject multimodalne rozpoznawanie mowy pl
dc.subject visual speech recognition en
dc.subject lip reading en
dc.subject neural networks en
dc.subject deep learning en
dc.subject multimodal speech recognition en
dc.title Automatyczne rozpoznawanie mowy z ruchu ust przy użyciu sztucznej inteligencji – przegląd metod, zastosowań i wyzwań / Automatic Speech Recognition from Lip Movements Using Artificial Intelligence – An Overview of Methods, Applications, and Challenges
dc.type Book chapter
Pliki
Oryginalny pakiet
Aktualna strona 1 - 1 z 1
Miniatura obrazu
Nazwa:
Automatyczne rozpoznawanie mowy z ruchu ust.pdf
Rozmiar:
411.69 KB
Format:
Adobe Portable Document Format
Opis:
Pakiet licencji
Aktualna strona 1 - 1 z 1
Brak dostępnej miniatury
Nazwa:
license.txt
Rozmiar:
652 B
Format:
Item-specific license agreed to upon submission
Opis: