Automatyczne rozpoznawanie mowy z ruchu ust przy użyciu sztucznej inteligencji – przegląd metod, zastosowań i wyzwań / Automatic Speech Recognition from Lip Movements Using Artificial Intelligence – An Overview of Methods, Applications, and Challenges
Automatyczne rozpoznawanie mowy z ruchu ust przy użyciu sztucznej inteligencji – przegląd metod, zastosowań i wyzwań / Automatic Speech Recognition from Lip Movements Using Artificial Intelligence – An Overview of Methods, Applications, and Challenges
Data
2025
Autorzy
Lubańska, Zofia
Tarasiuk, Gabriel
Tytuł czasopisma
ISSN czasopisma
Tytuł tomu
Wydawca
Akademia Bialska im. Jana Pawła II
Streszczenie
Rozpoznawanie mowy na podstawie ruchów warg (znane również jako czytanie z ruchu
warg) stanowi kluczowy obszar na styku wizji komputerowej i przetwarzania mowy.
Technologia ta umożliwia zrozumienie mowy poprzez analizę ruchów warg i języka mówiącego
bez wykorzystania dźwięku. Jest ona szczególnie ważna dla osób z ubytkiem
słuchu oraz w sytuacjach, w których sygnał audio jest niedostępny lub zakłócony przez
hałas. W ostatnich latach poczyniono znaczne postępy w automatycznym odczytywaniu
z ruchu warg dzięki rozwojowi sztucznej inteligencji, a zwłaszcza głębokich sieci neuronowych.
Niniejszy rozdział zawiera przegląd aktualnych badań nad rozpoznawaniem mowy na podstawie ruchu warg z wykorzystaniem sztucznej inteligencji. Przedstawiono
ewolucję podejść, od tradycyjnych metod opartych na cechach wizualnych i modelach statystycznych
po nowoczesne architektury głębokiego uczenia (CNN, RNN, Transformer).
Omówiono typowe metody i procesy rozpoznawania, a także popularne zbiory danych
(takie jak GRID, LRW i LRS) oraz porównano wydajność wybranych modeli na tych
zbiorach danych.
Speech recognition based on lip movement (also known as lip reading) is a key area at the intersection of computer vision and speech processing. It enables understanding of speech by analysing the movements of the speaker’s movements of the lips and other visible articulatory features without using sound. This technology is particularly important for individuals with hearing loss and in situations where the audio signal is unavailable or distorted by noise. In recent years, significant progress has been made in automatic lip reading, thanks to advances in artificial intelligence, particularly deep neural networks. This chapter provides an overview of current research on AI-based speech recognition from lip movements. The evolution of approaches is presented, from traditional methods based on visual features and statistical models to modern deep learning architectures (CNN, RNN, Transformer). Typical recognition methods and pipelines, as well as popular datasets (such as GRID, LRW, and LRS), are discussed, and the performance of selected models on these datasets is compared.
Speech recognition based on lip movement (also known as lip reading) is a key area at the intersection of computer vision and speech processing. It enables understanding of speech by analysing the movements of the speaker’s movements of the lips and other visible articulatory features without using sound. This technology is particularly important for individuals with hearing loss and in situations where the audio signal is unavailable or distorted by noise. In recent years, significant progress has been made in automatic lip reading, thanks to advances in artificial intelligence, particularly deep neural networks. This chapter provides an overview of current research on AI-based speech recognition from lip movements. The evolution of approaches is presented, from traditional methods based on visual features and statistical models to modern deep learning architectures (CNN, RNN, Transformer). Typical recognition methods and pipelines, as well as popular datasets (such as GRID, LRW, and LRS), are discussed, and the performance of selected models on these datasets is compared.
Opis
Słowa kluczowe
wizualne rozpoznawanie mowy,
czytanie z ruchu warg,
sieci neuronowe,
głębokie uczenie,
multimodalne rozpoznawanie mowy,
visual speech recognition,
lip reading,
neural networks,
deep learning,
multimodal speech recognition