Automatyczne rozpoznawanie mowy z ruchu ust przy użyciu sztucznej inteligencji – przegląd metod, zastosowań i wyzwań / Automatic Speech Recognition from Lip Movements Using Artificial Intelligence – An Overview of Methods, Applications, and Challenges

Lubańska, Zofia; Tarasiuk, Gabriel

Automatyczne rozpoznawanie mowy z ruchu ust przy użyciu sztucznej inteligencji – przegląd metod, zastosowań i wyzwań / Automatic Speech Recognition from Lip Movements Using Artificial Intelligence – An Overview of Methods, Applications, and Challenges

Pliki

Automatyczne rozpoznawanie mowy z ruchu ust.pdf (411.69 KB)

Data

2025

Autorzy

Lubańska, Zofia

Tarasiuk, Gabriel

Wydawca

Akademia Bialska im. Jana Pawła II

Streszczenie

Rozpoznawanie mowy na podstawie ruchów warg (znane również jako czytanie z ruchu warg) stanowi kluczowy obszar na styku wizji komputerowej i przetwarzania mowy. Technologia ta umożliwia zrozumienie mowy poprzez analizę ruchów warg i języka mówiącego bez wykorzystania dźwięku. Jest ona szczególnie ważna dla osób z ubytkiem słuchu oraz w sytuacjach, w których sygnał audio jest niedostępny lub zakłócony przez hałas. W ostatnich latach poczyniono znaczne postępy w automatycznym odczytywaniu z ruchu warg dzięki rozwojowi sztucznej inteligencji, a zwłaszcza głębokich sieci neuronowych. Niniejszy rozdział zawiera przegląd aktualnych badań nad rozpoznawaniem mowy na podstawie ruchu warg z wykorzystaniem sztucznej inteligencji. Przedstawiono ewolucję podejść, od tradycyjnych metod opartych na cechach wizualnych i modelach statystycznych po nowoczesne architektury głębokiego uczenia (CNN, RNN, Transformer). Omówiono typowe metody i procesy rozpoznawania, a także popularne zbiory danych (takie jak GRID, LRW i LRS) oraz porównano wydajność wybranych modeli na tych zbiorach danych.
Speech recognition based on lip movement (also known as lip reading) is a key area at the intersection of computer vision and speech processing. It enables understanding of speech by analysing the movements of the speaker’s movements of the lips and other visible articulatory features without using sound. This technology is particularly important for individuals with hearing loss and in situations where the audio signal is unavailable or distorted by noise. In recent years, significant progress has been made in automatic lip reading, thanks to advances in artificial intelligence, particularly deep neural networks. This chapter provides an overview of current research on AI-based speech recognition from lip movements. The evolution of approaches is presented, from traditional methods based on visual features and statistical models to modern deep learning architectures (CNN, RNN, Transformer). Typical recognition methods and pipelines, as well as popular datasets (such as GRID, LRW, and LRS), are discussed, and the performance of selected models on these datasets is compared.

Słowa kluczowe

wizualne rozpoznawanie mowy, czytanie z ruchu warg, sieci neuronowe, głębokie uczenie, multimodalne rozpoznawanie mowy, visual speech recognition, lip reading, neural networks, deep learning, multimodal speech recognition

URI

https://doi.org/10.29316/9788368103304_10
https://hdl.handle.net/20.500.13044/2565

Kolekcje

Książki/rozdziały (WU)

Cała strona rekordu