Exposés des élèves du cours de deuxième année de l'Ecole des Mines de Nancy RESEAUX 1996/1997
La compression vidéo MPEG
, par GERBER Jacques-Alexandre et GIGNOUX Sébastien

Multimédia : MPEG-4

 

MPEG-4

 

Introduction

Alors que pour MPEG-1 et MPEG-2, les technologies et évolutions étaient bien connues quand le projet a commencé, MPEG-4 est né dans une période où les conditions changent rapidement. MPEG-4 a néanmoins réussi à trouver son identité en offrant une réponse à des besoins émergeants pour des champs d'applications variés, des services audiovisuels interactif à la télésurveillance.

MPEG-4 est le premier standard de représentation vidéo tendant à rendre l'utilisateur actif et non plus passif. Et comme l'être humain n'aime pas intéragir avec des entités abstraites mais plutôt avec des éléments représentatifs faisant partie d'une scène, le concept de contenu est crucial pour MPEG-4.

Un autre point important est l'intégration. En fait, MPEG-4 souhaite considérer et intégrer harmonieusement des objets audiovisuels naturels et synthétiques incluant l'audio mono, stéréo et multi-canal (Dolby AC-3, ...) ainsi que la vidéo 2D ou 3D en mono, stéréo et en vue multiple. Cette stratégie d'intégration transversale devrait permettre à MPEG-4 de fournir un environnement standardisé où est mise en oeuvre une approche plus globale de la représentation audiovisuelle.

Les derniers points clés concernant MPEG-4 sont la flexibilité et l'évolutivité. Ces éléments sont essentiel dans le contexte technologique actuel en permanente évolution, est devrait être fournis par un langage de description syntaxique (SDL).

Ainsi MPEG-4 s'adresse t-il a la convergence des applications et la fusion de trois mondes : l'informatique, les télécoms et la télévision.

 

Les fonctionnalités

 

Interactivité basée sur le contenu

Compression

Accès universel

Une nouvelle architecture pour la représentation d'information visuelle

 

Les fonctionnalités précédemment décrites montrent la nécéssité d'objets audiovisuels (AVO). Le codage basé sur une structure orientée objet est nécessaire pour outre-passer les limites des performances actuelles. Globalement, une AVO peut être associer à :

Ainsi, une scène audiovisuelle doit être comprise comme la compostion d'AVOs selon un scripte décrivant leurs relations spatiale et temporelle.

Les caractéristiques spécifiques des composants audio et vidéo des différents AVOs peuvent être très différentes. Le composant audio peut être aussi bien synthétique que réel, mono, stéréo ou multicanal (surround,...). Le composant vidéo peut de même être aussi bien synthétique que réel, 2D ou 3D, mono, stéréo ou en vue multiple.

Les nouvelles fonctionnalités de MPEG-4 nécéssitent un environnement de représentation ou une architecture qui utilise une structure de données différentes de MPEG-1 et MPEG-2, parce que des parties significatives de l'information visuelle doivent être accessibles pour l'intéraction et la manipulation.

L'accès individuel à chacun de ces objets impose à la scène d'être représentée comme la composition d'objets divers qui seront ensuite rassemblés pour recréer la scène.

Dans la suite de l'exposé, nous utiliserons le terme VOP (Video Object Plan) qui correspond à un composant vidéo de forme arbitraire. Le bloc de définition VOP a pour tâche de définir les objets de la scène qui sont parlants et intéressants et avec lesquels des interactions et des manipulations indépendantes seront possibles. Ceci signifie que ces objets doivent être représentés de façon à fournir un accès simple et de préférence indépendant des autres objets de la scène. Attention, les VOPs n'ont pas nécessairement les même résolutions spatiales et temporelles.

Pour augmenter les possibilités de manipulation, il semble intéressant de considérer des hiérarchies de VOPs associés à différents degrés d'accessibilité (un VOP peut être divisé en sous-VOPs). On peut dès lors s'intéresser à aux moins trois types particuliers de VOPs :

L'utilisateur doit alors pouvoir intéragir avec les objets de la scène. Voici quelques manipulations possibles :

Caractéristiques techniques

Le codage des VOPs

Les informations relatives à la forme, au mouvement et à la texture des VOPs sont codées dans des couches VOL (Video Object Layer) séparées afin de permettre le décodage séparé des VOPs. Le MPEG-4 VM (Video Verification Model) utilise un algorithme identique pour coder des informations relatives à la forme, le mouvement et la texture dans chaque couche. Cependant, l'information concernant la forme n'est pas transmise si la séquence qui doit être codée ne contient que des images standards de taille rectangulaire. Dans ce cas, l'algorithme de codage vidéo MPEG-4 à une structure similaire au algorithme MPEG-1 et -2.Cela convient à des applications qui requièrent une grande efficacité de codage sans nécessiter des fonctionnalités étendues basées sur le contenu.

L'algorithme de compression MPEG-4 VM est basé sur la technique hybride des DPCM/Transform déjà employée avec succès par les standard MPEG. La première VOP est codée en mode I-VOP. Chacune des images suivantes est codée en utilisant la prédiction inter-image (P-VOP). Seul les données de la plus proche image précédemment codée est utilisée pour la prédiction. A cela s'ajoute le support des B-VOP. Le procédé de codage est le même que celui des standard MPEG-1 et -2.

En générale, les images en entrée qui doivent être codées pour chaque couche VOP sont de forme arbitraire et la position et la forme des images varient dans le temps en respect d'une fenêtre de référence. MPEG-4 VM introduit alors le concept de VOP Image Window avec une grille de macrobloc adaptable à la forme. Toutes les couches VOL qui doivent être codées pour une séquence vidéo en entrée sont définies en référence à la fenêtre de référence dont la taille est constante. Un exemple de VOP Image Window avec sa fenêtre de référence et un exemple d'une grille de macrobloc pour une image VOP particulière est décrit ci-dessous :

Exemple d'une grille de macrobloc MPEG-4 VM pour une image VOP au premier plan. Cette grille est utilisée pour le codage de l'alpha channel, l'estimation et la compensation de mouvement et le codage de la texture basée sur les blocs et la DCT.

 

L'information sur la forme d'une VOP est codée avant le codage des vecteurs de position basés sur la grille de macrobloc du VOP et est exploitable aussi bien pour l'encodage que pour le décodage. Dans les étapes suivantes du processus, seules les informations concernant le mouvement et la texture des blocs du macrobloc sont codées (ce qui inclue les macroblocs standards et les macroblocs de contour indiqués sur la figure ci-dessus).

 

Efficacité du codage

A côté de toutes les nouvelles fonctionnalités et des systèmes de correction d'erreurs, d'une robustesse accrue, le codage de données vidéo avec une grande efficacité du codage à différents taux de treansfert continue à être supporté par le standard MPEG-4. MPEG-4 VM autorise le cas particulier d'un seul VOP permettant de coder une simple séquence d'images. Des expérimentations font espérer des améliorations substantielles permettant d'atteindre des taux de transfert inférieurs à 64Kb/s (débit rêvé pour la vidéo-conférence).

 

Multirésolution temporelle et spatiale

Un but important de la multi-résolution du codage vidéo est d'accroître la flexibilité au niveau du récepteur pour différentes bandes passantes, capacités d'affichage, requêtes sur une banque de données vidéo (qui permettrait par exemple de parcourir des séquences vidéo). Une autre capacité de la multi-résolution du codage est de permettre l'existence d'une couche vidéo à transmission prioritaire. 

 

mpeg-2mpeg-7

Exposé précédent : EthernetExposé suivant : reseau Ecole