MPEG – это просто!

MPEG – это просто!

Материал опубликован в журнале "625", номер 3, 2000.

Константин Гласман
Иллюстрации Маргариты Покопцевой

Обсуждая проблемы MPEG, нельзя не обратиться к статье Дж. Воткинсона «MPEG – всегда? MPEG – везде?» (625, 1999, №10, с.78). Талантливый популяризатор, опытный полемист, автор десятков книг и статей по проблемам современного телевидения Дж. Воткинсон не видит никаких перспектив развития MPEG: «Ниша для MPEG-систем узка и полна скрытых ловушек». К мнению Дж. Воткинсона прислушиваются, но чем обосновывает он такое суждение? Суть доказательства содержится уже в первом абзаце: «MPEG прочно удерживает позицию наиболее непонимаемого аспекта современного телевидения. Но, если бы я должен был описать суть MPEG одним предложением, я бы сказал, что это современная замена композитного сигнала». Параллели между MPEG и композитным сигналом просто наполняют статью. Особенно заметен такой вывод: «Аналогия между MPEG и композитным видео настолько сильна, что она срабатывает даже там, где на самом деле подобия нет». Как видно, метод доказательства – аналогия и индукция. Оценка результатов, полученных с помощью такого метода, в серьезной дискуссии заставляет обратиться к общим проблемам теории доказательств. То положение, которое формулирует автор, в учебниках по философии называется умозаключением по аналогии. Это означает, что знание, полученное из рассмотрения какого-либо объекта (композитный видеосигнал) переносится на менее изученный, сходный по существенным свойствам объект (система компрессии MPEG). Когда-то Лаплас сказал: «В самой математике главные средства достигнуть истины – индукция и аналогия» (Опыт философии теории вероятности. М., 1908, с.7). Но подобие существенных свойств должно быть строго доказано. Иначе автор умозаключения по аналогии рискует оказаться в положении персонажа анекдота, рассказываемого самими математиками: «Взгляни на этого математика, - сказал логик. – Он замечает, что первые девяносто девять чисел меньше сотни, и отсюда с помощью того, что он называет индукцией, заключает, что все числа меньше сотни» (Д. Пойа. Математика и правдоподобные рассуждения. М., 1975, с.33). К сожалению, доказательства сходства существенных свойств композитного сигнала и потока видеоданных MPEG Дж. Воткинсон не приводит, поэтому приходится сомневаться в его выводах, даже не прибегая к детальному анализу положений статьи. Должен признаться, что когда я прочитал первый абзац упомянутой статьи, я подумал, что, может быть, у наших вещателей будет достаточно здравого смысла, чтобы не отказываться от MPEG только потому, что это самый непонятный аспект телевидения, и поступить в духе рекомендации известного физика, одного из авторов операционного исчисления Оливера Хевисайда: «Надо ли отказываться от обеда только потому, что мы не полностью понимаем процесс пищеварения?»
Умозаключение по аналогии оправдано тогда, когда нет возможностей для изучения самого объекта исследования, когда с его помощью выдвигаются гипотезы. Но зачем прибегать к сомнительным аналогиям сейчас, когда стандарт MPEG опубликован и доступен для изучения? Не лучше ли приоткрыть завесу непонимания и показать, что MPEG – это просто, дав возможность самим читателям сделать выводы?

Немного истории

В январе 1988 года в рамках объединенного технического комитета по информационным технологиям JTC1 Международной организации по стандартизации ISO и Международной электротехнической комиссии IEC была образована рабочая группа экспертов по кодированию движущихся изображений, перед которой была поставлена задача разработки стандартов кодирования изображения и звука с целью устранения избыточности. Группа получила официальное наименование ISO/IEC JTC1/SC29/WG11 (11 рабочая группа 29 подкомитета), но мировую известность она приобрела под названием MPEG - Moving Picture Expert Group. В первом заседании группы в мае 1998 года участвовало 25 экспертов, сейчас группа MPEG объединяет сотни специалистов, представляющих около 200 организаций из более чем 20 стран. Общая цель работы группы остается прежней – компрессия, обработка и кодовое представление изображения, звука и их комбинаций. Основные проекты группы – это MPEG-1 (стандарт ISO/IEC 11172) - Кодирование изображение и звука при скоростях передачи данных до 1.5Мбит/с, MPEG-2 (ISO/IEC 13818) – Обобщенное кодирование изображения и звука, MPEG-4 (ISO/IEC 14496) – Кодирование аудиовизуальных объектов, MPEG-7 (ISO/IEC 15938) – Описание содержания объектов мультимедиа. Из этого списка лишь стандарт MPEG-7 пока не утвержден ISO, но работа над всеми проектами (кроме MPEG-1) продолжается. Наиболее известный из проектов группы MPEG - стандарт MPEG-2 к настоящему времени насчитывает уже 10 частей, первая из которых была представлена к стандартизации в 1994 году, а последняя - в 1999 году.
Среди 10 составных частей стандарта MPEG-2 можно выделить 3 основных: 13818-1 – Systems, 13818-2 – Video, 13818-3 – Audio. Спецификация 13818-2 регламентирует кодовое представление и процесс декодирования, обеспечивающий воспроизведение компрессированных телевизионных изображений. 13818-2 предполагает сжатие потока видеоданных за счет устранения пространственной и временной избыточности, присущей телевизионному изображению. Устранение пространственной избыточности основывается на использовании дискретного косинусного преобразования, временной – на дифференциальном кодировании с компенсацией движения. Но процедура кодирования не регламентируется стандартом, что оставляет возможности для совершенствования кодеров и улучшения качества воспроизводимого изображения. Спецификация 13818-3 определяет кодовое представление сигнала звукового сопровождения. Системная спецификация 13818-1 устанавливает правила объединения данных видео и звука в единый поток. Важнейшая особенность стандарта MPEG-2 – представление сигналов телевизионного изображения и звука в форме, задаваемой спецификациями 13818-1 - 13818-3, позволяет обращаться с видео и звуковыми потоками как с потоками компьютерных данных, которые могут записываться на самые разнообразные носители информации, передаваться и приниматься с использованием каналов связи и сетей телекоммуникаций, которые существуют сегодня и появятся в будущем.

Структура элементарного потока видеоданных

Элементы потока

Поток видеоданных, определяемый спецификацией 13818-2, представляет собой иерархическую структуру, элементы которой строятся и объединяются друг с другом в соответствии с определенными синтаксическими и семантическими правилами. Существует 6 типов элементов этой иерархической структуры:

Видеопоследовательность
Группа изображений
Изображение
Срез
Макроблок
Блок.

Видеопоследовательность – элемент потока видеоданных высшего уровня. Она представляет собой серию последовательных кадров телевизионного изображения. MPEG-2 допускает как построчные, так и чересстрочные последовательности. Чересстрочная последовательность – это серия телевизионных полей. В процессе компрессии поля могут кодироваться раздельно. Это дает изображения типа «поле». Два поля, кодируемые как телевизионный кадр, образуют изображение типа «кадр». В одной чересстрочной последовательности могут использоваться и изображения-поля, и изображения-кадры. В последовательностях с построчным разложением каждое изображение представляет собой кадр.
В соответствии с используемыми методами дифференциального кодирования различают три типа изображений: I, P и B. Изображение типа I кодируется с использованием только той информации, которая содержится в нем самом (I - Intra-coded picture). В нем устраняется только пространственная избыточность. При кодировании P и B изображений используется межкадровое кодирование. При кодировании изображения типа P формируется разность между исходным изображением и предсказанием, полученным на основе предшествующего или последующего изображения типа I (P – Predictive-coded picture). Изображение типа B – это изображение, при кодировании которого используется предсказание, сформированное на основе предшествующего и последующего изображений типа I или P (B – Bidirectionally-predicted-coded picture). В изображениях типа P и B устраняется и пространственная, и временная избыточность.
Серия изображений, содержащих одно I-изображение, называется группой изображений. Пример видеопоследовательности с различными типами изображений показан на рис.1 (стрелками показаны направления предсказания в пределах одной группы изображений). Чем больше группа изображений, тем большая степень компрессии может быть достигнута.

С информационной точки зрения каждое изображение представляет собой три прямоугольных матрицы отсчетов изображения: яркостную Y и две матрицы цветности Cb и Cb. Стандарт MPEG-2 допускает различные структуры матриц. Соотношение между количеством отсчетов яркости и цветности определяется форматом дискретизации. В случае формата 4:2:0 размеры матриц Cb и Cb в 2 раза меньше, чем Y, и в горизонтальном, и в вертикальном направлениях (рис.5). Формат 4:2:2 отличается тем, что все три матрицы имеют одинаковые размеры по вертикали, но в горизонтальном направлении матрицы цветности имеют в два раза меньшее количество элементов (рис.6). В формате 4:4:4 все матрицы одинаковы (рис.6).

Каждое изображение делится на срезы, которые состоят из макроблоков (рис.2). Макроблок складывается из блоков размером 8х8 элементов изображения (пикселов). Каждый макроблок содержит группу из 4 блоков с отсчетами яркости (из области изображения с размерами 16х16 пикселов) и группу блоков с отсчетами цветности, взятых из той же области изображения, что и отсчеты блоков яркости. Число блоков с отсчетами цветности зависит от формата дискретизации: по одному блоку Cb и Cb в формате 4:2:0, по два – в формате 4:2:2, по 4 – в формате 4:4:4 (рис.3). В изображениях типа «кадр», в которых может использоваться и кадровое, и полевое кодирование, возможны 2 варианта внутренней организации макроблока (рис.4). В случае кадрового кодирования каждый блок яркости Y образуется из чередующихся строк двух полей (рис.4а). При полевом кодировании каждый блок Y образован из строк только одного из двух полей (рис.4б). Блоки цветности образуются по таким же правилам в случае форматов дискретизации 4:2:2 и 4:4:4. Однако при использовании формата 4:2:0 блоки цветности организуются для выполнения дискретного косинусного преобразования в рамках кадровой структуры (рис.4а).

Все структурные элементы потока видеоданных, полученного в результате внутрикадрового и межкадрового кодирования (кроме макроблока и блока), дополняются специальными и уникальными стартовыми кодами. Каждый элемент содержит заголовок, за которым следуют данные элементов более низкого уровня. В заголовке видеопоследовательности (как элемента высшего уровня) приводится разнообразная дополнительная информация, например, размеры и соотношение сторон изображения, частота кадров, скорость потока данных, матрица квантования, формат дискретизации цветности изображения, координаты основных цветов и белого цвета, параметры матрицы для формирования яркостного и цветоразностных сигналов, параметры передаточной характеристики (гамма).

Принципы видеокомпрессии

Сокращение пространственной избыточности выполняется в изображениях типа I и достигается на уровне блока. Набор операций такого кодирования – дискретное косинусное преобразование; взвешенное квантование, определяемое элементами матрицы квантования; энтропийное кодирование серии коэффициентов косинусного преобразования, полученной в результате зигзаг-сканирования матрицы коэффициентов (подробно об алгоритмах видеокомпрессии рассказано в статье, опубликованной в 625, 1997, №7, с.60-75). Метод сокращения временной избыточности – дифференциальная импульсно-кодовая модуляция с компенсацией движения при кодировании изображений типа P и B. При кодировании формируется разность между исходным изображением и предсказанием, полученным на основе предшествующего и/или последующего изображения. Полученная разность подвергается дискретному косинусному преобразованию, взвешенному квантованию и энтропийному кодированию. Для повышения точности предсказания и, тем самым, сокращения объема необходимых для представления изображения данных, используется компенсация движения. Оценивается скорость перемещения движущихся объектов от кадра к кадру и при определении предсказания производится соответствующая коррекция в положении опорного изображения, по отношению к которому находится ошибка предсказания. Определение величины и направления смещения движущихся объектов от кадра к кадру, называемого вектором движения, производится на уровне макроблока. Оценка вектора движения - сложная процедура, требующая больших вычислительных мощностей. Именно она определяет асимметрию кодека MPEG-2. Однако стандарт не регламентирует процедуру оценки вектора движения, поэтому в этой области ведутся серьезные работы, благодаря использованию результатов которых практическая асимметрия кодека в будущем будет минимизироваться.
Стандарт MPEG-2 (в отличие от JPEG и DV) предполагает устранение не только пространственной, но и временной избыточности. Что же это дает? Представим себе группу из 12 изображений со следующей структурой – I-B-B-P-B-B-P-B-B-P-B-B. После компрессии объем изображений типа P для типичных сюжетов вещательного телевидения будет составлять примерно 35% объема изображения типа I, а B-изображения – примерно 25%. Объем данных, которые после компрессии представляют всю группу из 12 изображений, будет равен 4 изображениям типа I. Но если бы не было сокращения временной избыточности, то необходимый объем данных был бы в 12/4=3 раза больше. Этот коэффициент (3) и дает уменьшение скорости потока данных, достигаемое за счет использования компрессии MPEG-2 с группами из 12 изображений, при приблизительно такой же заметности искажений компрессии. Чем больше группы изображений, тем больше выигрыш, обеспечиваемый за счет устранения временной избыточности. Правда, надо отметить, что в случае применения систем компрессии типа JPEG или DV не было бы артефактов, связанных с движущимися объектами, но, с другой стороны, в системе MPEG-2 глаз замечает такие искажения тем меньше, чем быстрее движутся объекты в поле изображения. Как видно, эти два фактора в какой-то мере компенсируют друг друга. Можно корректировать величину выигрыша, но то, что этот выигрыш значителен, не подлежит сомнению, поэтому применение компрессии MPEG-2 с устранением временной избыточности, конечно, целесообразно во всех звеньях тракта, где желательно уменьшение скорости потока данных.

Режимы кодера

Возможны два основных режима работы кодера компрессии – с постоянной скоростью потока данных и с постоянным уровнем качества декодированного изображения. Как же можно регулировать скорость потока? Возможность для управления степенью компрессии и скоростью потока данных предоставляет изменение параметров матрицы квантования: чем более грубое квантование, тем больше нулевых значений в матрице коэффициентов и тем меньше объем данных, необходимых для передачи информации об изображении. Однако с увеличением степени компрессии растут и необратимые искажения изображения из-за шумов квантования.
В режиме с постоянным качеством используется фиксированная матрица квантования. Но при этом скорость потока компрессированных данных является переменной. Чем больше детальность изображения, чем быстрее перемещается объект в поле изображения, тем больше количество ненулевых коэффициентов в матрице коэффициентов косинусного преобразования, тем больше объем данных и тем больше скорость потока. Такой режим можно использовать при записи компрессированных потоков видеоданных на дисковые накопители в условиях отсутствия ограничений на объем записанных данных. Однако при этом возможны ограничения на скорость записываемого потока, ведь она не может быть произвольно большой.
В режиме с постоянной скоростью потока данных в кодере осуществляется непрерывное изменение коэффициентов матрицы квантования. Чем мельче детали, чем более динамично изображение, тем более грубое квантование вводится в кодере для того, чтобы привести к заданной величине скорость потока. Это означает, что в декодированных изображениях с большим количеством быстро движущихся мелких деталей будет больше искажений и артефактов из-за шумов квантования, чем в статичных изображениях с крупными структурными элементами. Такой режим используется в системах передачи компрессированных изображений по каналам связи с фиксированной пропускной способностью, в системах цифрового спутникового, кабельного и наземного телевизионного вещания.
Если запись компрессированного потока видеоданных производится не в условиях реального времени, то можно использовать и другие варианты управления скоростью потока данных. Например, можно выполнять компрессию в два прохода. На первом проходе находятся параметры компрессии, обеспечивающие максимальное качество при фиксированном объеме дискового пространства. На втором – производится компрессия с найденными параметрами. Есть еще одна возможность улучшения качества при записи фрагментов программы с быстро перемещающимися объектами. На стадии предварительного просмотра оператор может найти такие интервалы и пометить их с целью принудительного размещения в них изображений типа I, что позволяет улучшить качество при кодировании таких «трудных» для компрессии сцен. Эти методы используются при записи программ и фильмов на диски DVD.

Порядок передачи изображений в элементарном потоке

В результате компрессии объем данных, представляющий исходные изображения, сжимается (рис.7). Но стандарт MPEG-2 не регламентирует сам процесс кодирования, поэтому изображения (блоки представления) в нем рассматриваются как результат декодирования компрессированных изображения – блоков доступа. Использование двунаправленного предсказания приводит к тому, что декодер может приступить к декодированию изображения типа B только после того, когда уже получены и декодированы и предшествующее, и последующее опорные изображения, с помощью которых вычислялось предсказание. Для того, чтобы не устанавливать в декодере огромные буферные массивы, в потоке данных на выходе кодера (этот поток называется элементарным потоком видеоданных) кодированные изображения следуют в порядке декодирования. Например, вместо последовательности I-B-B-P формируется серия I-P-B-B (рис.8).

Профили и уровни MPEG-2

Стандарт MPEG-2 определяет кодирование, охватывающее требования широкого круга приложений сферы производства и распределения телевизионных программ. Обобщение требований типичных и наиболее важных приложений и определило синтаксис и семантику потока видеоданных. Но для наиболее эффективного применения на практике и обеспечения высокой степени эксплуатационной совместимости устройств, работающих в рамках стандарта MPEG-2, но разработанных и изготовленных различными производителями, в рамках синтаксиса MPEG-2 выделено несколько подмножеств, называемых профилями. Но и в рамках синтаксических границ каждого профиля может быть огромное количество комбинаций параметров цифрового потока. Поэтому в каждом профиле выделено несколько уровней, определяемых совокупностью ограничений, наложенных на параметры цифрового потока, подчиняющегося синтаксису профиля. Другими словами, профиль - это подмножество стандарта для специализированного применения, задающее алгоритмы и средства компрессии. Уровни внутри каждого профиля связаны главным образом с параметрами компрессируемого изображения (таблица 1).
Профили MPEG-2: Simple - простой профиль; Main - основной профиль; SNR - профиль с масштабируемым квантованием (SNR - Signal-to-Noise-Ratio - отношение сигнал шум); Spatial - профиль с масштабируемым пространственным разрешением (spatial - пространственный); High - высокий профиль; 422 - студийный профиль. В комментариях нуждаются лишь несколько столбцов таблицы 1. Профиль с масштабируемым квантованием SNR поддерживает все типы изображений. На базовом уровне кодера используется обычное кодирование на основе предсказания с компенсацией движения, дискретного косинусного преобразования и квантования ошибки предсказания. Выходные данные этого кодера образуют нижний, или базовый слой цифрового потока данных. Ошибка квантования, обусловленная квантователем, кодируется (с использованием второго квантователя и кодера с переменной длиной слова) и передается в качестве верхнего слоя цифрового потока. На приемной стороне производится либо декодирование одного базового слоя, что обеспечивает приемлемое качество, либо обоих слоев, что позволяет уменьшить шумы квантования.
Профиль с масштабируемым пространственным разрешением Spatial также использует все виды изображений. Цифровой поток структурирован и имеет базовый и дополнительные слои. Профиль позволяет иметь наряду с базовым пространственным разрешением и более высокие значения, если декодировать все слои цифрового потока.
Студийный профиль 422 обеспечивает полное разрешение, соответствующее рекомендации ITU-R 601, монтаж с точностью до кадра, допускает многократные перезаписи.
Надо иметь в виду, что в таблице показаны максимально достижимые значения параметров, а не их сочетания. Например, в рамках основного уровня профиля 422 количество активных строк равно 608 для системы разложения 625 строк/25 кадров и 512 – для 525 строк/30 кадров. К настоящему времени лишь часть из возможных сочетаний профилей и уровней достаточно разработана и принята в качестве стандарта. Большинство выпускаемых в настоящее время кодеров и декодеров в интегральном исполнении относятся к основному профилю и основному уровню (MP@ML). Однако уже есть две реализации систем для основного уровня студийного профиля 422 – это система видеозаписи Betacam SX, в которой используются группы изображений из 2 кадров (I и B) при величине потока видеоданных – 18Мбит/с, и система, в которой используются только изображения типа I при скорости потока записываемых видеоданных 50Мбит/с.

Таблица 1. Профили и уровни стандарта MPEG-2

Уровень

Профили

Simple

Main

SNR

Spatial

High

422

Изображения

I и P

I,P и B

I,P и B

I,P и B

I,P и B

I,P и B

Формат

4:2:0

4:2:0

4:2:0

4:2:0

4:2:0, 4:2:2

4:2:2

High

Отсчетов в строке

1920

1920

Строк в кадре

1152

1152

Кадров в секунду

60

60

Макс. скор. потока

80 Мбит/с

100 Мбит/с

High-1440

Отсчетов в строке

1440

1440

1440

Строк в кадре

1152

1152

1152

Кадров в секунду

60

60

60

Макс. скор. потока

60 Мбит/с

60 Мбит/с

80 Мбит/с

Main

Отсчетов в строке

720

720

720

720

720

Строк в кадре

576

576

576

576

608

Кадров в секунду

30

30

30

30

30

Макс. скор. потока

15 Мбит/с

15 Мбит/с

15 Мбит/с

20 Мбит/с

50 Мбит/с

Low

Отсчетов в строке

352

352

Строк в кадре

288

288

Кадров в секунду

30

30

Макс. скор. потока

4 Мбит/с

4 Мбит/с

Пакетный элементарный поток

Системная спецификация MPEG-2 (ISO/IEC 13818-1) описывает объединение элементарных потоков одной или нескольких телевизионных программ в единый поток данных, удобный для записи или передачи по каналам цифровой связи. Надо отметить, что стандарт MPEG-2 не определяет защиту от ошибок, возможных при записи или передаче, хотя он, конечно, предусматривает такую возможность, облегчая защиту за счет оптимального выбора параметров потока. MPEG-2 регламентирует две возможных формы единого потока данных – это программный поток и транспортный поток. Первый шаг на пути получения единого потока - формирование пакетного элементарного потока PES (Packetised Elementary Stream), представляющего собой последовательность PES-пакетов (рис.9). Каждый пакет состоит из заголовка и данных пользователя, или полезной нагрузки, которая представляет собой фрагменты исходного элементарного потока. Нет никаких требования по согласованию начала полезных данных пакета и начала блоков доступа, поэтому начало блока доступа может быть в любой точке PES-пакета, а несколько малых блоков доступа могут попасть в один PES-пакет. PES-пакеты могут быть переменной длины. Эту свободу можно использовать по-разному. Например, можно просто установить фиксированную длину всех пакетов, а можно согласовывать начало пакета с началом блока доступа.

В начале заголовка PES-пакета (рис.10) идет 32-битный код старта, состоящий из стартового префикса и идентификатора потока. Идентификатор потока позволяет выделить PES-пакеты, принадлежащие одному элементарному потоку телевизионной программы. Спецификация определяет разрешенные значения чисел в поле идентификатора для 32 элементарных потоков звука и 16 элементарных потоков видеоданных. Флаги 1 и 2 – биты, указывающие на наличие или отсутствие в заголовке дополнительных полей, которые не являются обязательными. Эти поля служат для переноса дополнительной информации, такой, например, как авторские права, скремблирование, приоритет. Особую значимость имеют биты P и D флага 2, указывающие на наличие полей с метками времени представления PST (Presentation Time Stamps) и декодирования DTS (Decoding Time Stamps). Метки времени – это механизм, обеспечивающий синхронизацию потоков данных в декодере.

Программный поток

Программный поток объединяет элементарные потоки, образующие телевизионную программу (рис.11). При формировании программного потока образуются блоки из PES-пакетов. Блок содержит заголовок блока, системный заголовок (необязательный), за которым следует некоторое количество PES-пакетов. Длина блока программного потока может быть произвольной, единственное ограничение – заголовки блока должны появляться не реже, чем через 0,7 секунды. Это связано с тем, что в заголовке содержится важная информация – опорное системное время. Системный заголовок содержит информацию о характеристиках программного потока, таких, например, как максимальная скорость передачи данных, число видео и звуковых элементарных потоков. Декодер использует эту информацию, например, для того, чтобы решить, может ли он декодировать этот программный поток.

Программный поток объединяет элементарные потоки одной программы, имеющие общую временную базу. Он предназначен для использования в условиях окружения, не вносящего ошибки в цифровые данные. Причина этому – сравнительно большие блоки переменной длины. Искажения из-за ошибок одного блока могут означать потерю, например, целого кадра телевизионного изображения. Поскольку длина блока переменная, то декодер не может предсказывать время конца одного блока и начало другого и вынужден полагаться только на информацию о длине, содержащуюся в заголовке. Если соответствующее поле заголовка окажется пораженным ошибками, то декодер выйдет из синхронизма и потеряет, по крайней мере, один блок. К преимуществам, получаемым при использовании программного потока, можно отнести то, что процедура демультиплексирования программного потока относительно проста.

Транспортный поток

Структура

Транспортный поток может объединять пакетные элементарные потоки, переносящие данные нескольких программ с независимыми временными базами. Он состоит из коротких пакетов фиксированной длины (188 байтов). Элементарные потоки видео, звука и дополнительный данных (например, телетекст) разбиваются на фрагменты, равные по длине полезной нагрузке транспортного пакета (184 байта) и мультиплексируются в единый поток (рис.12). Этот процесс подчиняется ряду ограничений:

Первый байт каждого PES-пакета элементарного потока должен быть первым байтом полеезной нагрузки транспортного пакета.
Каждый транспортный пакет может содержать данные лишь одного PES-пакета.

Если PES-пакет не имеет длину, кратную 184 байтам, то один из транспортных пакетов не заполняется данными PES-пакета полностью. В этом случае избыточное пространство заполняется полем адаптации (рис.12). Транспортные пакеты, переносящие разные элементарные потоки, могут появляться в произвольном порядке, но пакеты, принадлежащие одному элементарному потоку, должны следовать в транспортном потоке в хронологическом порядке, т.е. в порядке их «нарезания» из PES-пакетов.

Структура транспортного потока оптимизирована для условий передачи данных в каналах связи с шумами. Это проявляется, прежде всего, в небольшой длине пакетов. Типичные примеры защиты от ошибок данных транспортного потока дают системы цифрового телевизионного вещания. В системах DVB и ISDB к 188 байтам каждого транспортного пакета добавляются 16 проверочных байтов кода Рида-Соломона, что позволяет исправлять в каждом пакете до 8 пораженных шумами байтов. В ATSC к каждому пакету добавляется 20 проверочных байтов, что позволяет исправлять до 10 байтовых ошибок в одном пакете.

Транспортный пакет

Транспортный пакет начинается с 4-байтного заголовка (рис.13), первый байт которого – синхронизирующий (число 47 в шестнадцатеричном коде). Это значение не является уникальным и может появляться в других полях транспортного пакета. Однако тот факт, что заголовки всегда следуют с интервалом в 188 байтов, упрощает определение начала пакета.

Транспортный поток может переносить несколько телевизионных программ, состоящих из набора элементарных потоков. Для опознавания пакетов, принадлежащих одному элементарному потоку, используется 13-битный идентификатор. Из 213 возможных значений 17 зарезервировано для специальных целей, а остальные 8175 могут использоваться для присвоения в качестве номеров элементарным потокам. Таким образом, один транспортный поток может переносить до 8175 элементарных потоков.
Важный компонент заголовка – счетчик непрерывности, который инкрементируется в последовательных транспортных пакетах, принадлежащих одному и тому элементарному потоку. Это позволяет декодеру обнаруживать потерю транспортного пакета и принимать меры к маскированию ошибок, которые могут возникнуть из-за потери.
Поле адаптации не является обязательным. Оно может использоваться не только для заполнения «пустот» (рис.12). Это поле также переносит важную дополнительную информацию об использовании данных пакета, например, опорное время программы PCR (Program Clock Reference).

Иерархическая идентификация программ

Идентификатором принадлежности транспортного пакета к определенному элементарному потоку является значение PID (рис.13). А для распознавания элементарных потоков и объединения их в телевизионные программы служит программная информация PSI (Program Specific Information), которая должна обязательно передаваться в транспортном потоке. В системной спецификации MPEG-2 определено 4 типа таблиц с программной информацией:

Таблица соединения программ PAT (Program Association Table).
Таблица плана программы PMT (Program Map Table).
Таблица сетевой информации NIT (Network Information table).
Таблица условного доступа CAT (Conditional Access Table).

Каждая из этих таблиц передается в виде полезной нагрузки одного или нескольких транспортных пакетов. Таблица соединения программ PAT всегда переносится транспортными пакетами с PID=0. Эта таблица (рис.14) сообщает список номеров всех программ, которые содержатся в транспортном потоке, и указывает идентификаторы пакетов, в которых находятся PMT-таблицы с информацией о программах и элементарных потоках, из которых они складываются. Номер программы 0 зарезервирован, он используется для указания на PID пакета с сетевой информацией NIT о сетях передачи транспортного потока, частотах каналов, характеристиках модуляции и т.п. (в примере рисунка 14 PID пакета с NIT равен 16, а PID пакета с информацией PMT о программе 1 равен 21).

В таблице PMT (на рис.15 показан пример PMT для программы 1 с PID, равным 21) указываются сведения о программе и тех элементарных потоках, из которых она складывается. Из примера рис.15 следует, что элементарный поток видеоданных этой программы переносится пакетами с PID=50, поток звука – пакетами с PID=51, дополнительных данных – пакетами с PID=52. В таблице также указывается PID транспортных пакетов, переносящих метки опорного времени данной программы (обычно эти пакеты имеют тот же PID, что и элементарный поток видео).
Все вместе таблицы с программной информацией образуют иерархический индексный механизм. Рис.16 показывает принцип мультиплексирования элементарных и транспортных потоков в процессе получения многопрограммного транспортного потока, а рис.17 иллюстрирует демультиплексирование транспортного потока с целью извлечения элементарных потоков, из которых складывается телевизионная программа 1 (значения PID на этих рисунках соответствуют примерам таблиц, показанных на рис.14 и 15).
Благодаря небольшой длине пакета транспортный поток может легко переносить несколько телевизионных программ с разными временными базами, но за это приходится платить боле сложной, чем в случае программного потока схемой мультиплексирования и демультиплексирования.

Синхронизация

Принцип постоянной задержки

Кадры телевизионного изображения поступают на вход кодера MPEG-2 с постоянной частотой, точно с такой же частотой должны воспроизводиться кадры телевизионного изображения на выходе декодера. Это означает, что общая задержка в системе, представляющая собой сумму задержек в отдельных элемента схемы, должна быть постоянной (рис.18). Объем данных, необходимый для представления кодированных изображений, не является постоянной величиной. Он зависит от детальности изображения, от наличия быстро перемещающихся объектов, от способа кодирования (I, P и B изображения характеризуются разными объемами данных). Энтропийное кодирование формирует слова с переменной длиной. А для равномерной загрузки канала связи данные должны следовать с постоянной скоростью. Проблема решается за счет использования буфера кодера (данные поступаю в буфер с переменной скоростью, а выходят – с постоянной).

Кодированные изображения (блоки доступа) в силу отмеченных особенностей кодирования поступают в декодер с переменной частотой, но воспроизводиться декодированные изображения должны с постоянной частотой, равной частоте кадров. И в декодере проблема решается за счет буфера. Компенсация одной переменной задержки другой – вот принцип реализации постоянной задержки во всей системе.

Метки времени

Механизм, обеспечивающий компенсацию задержек и синхронизацию – метки времени, которые ставятся в соответствие каждому блоку доступа (рис.19) и которые сообщают декодеру точное время, когда блок доступа должен быть извлечен из буфера декодера и декодирован. Для того, чтобы придавать блокам доступа метки времени, кодер должен знать текущее системное время, обеспечиваемое генератором опорного времени. Но метки времени блоков доступа не являются копиями текущего времени. Надо помнить, что метка времени указывает время, когда декодер будет декодировать данный блок доступа, что должно произойти в будущем. Поэтому должен быть некоторый сдвиг между текущим временем и меткой. Насколько велик должен этот сдвиг, зависит от многих факторов, среди которых размер буферов кодера и декодера, скорость, с которой элементарный поток поступает в мультиплексор. Сдвиг должен быть достаточно большим, чтобы блок доступа прошел через буфер кодера, мультиплексор и был полностью записан в буфер декодера. При расчете сдвига надо также предотвратить возможное переполнения или полное опустошения буфера декодера, ведь и в том, и в другом случае возникает сбой в непрерывном воспроизведении декодированных изображений. Для этого в кодере используется гипотетический декодер, который подключен к выходу кодера. Конечно, это не настоящий декодер, а вычислительная модель, сопровождаемая определителем степени заполнения буфера декодера. Назначение моделей – наложить ограничения на процесс кодирования с целью обеспечения отсутствия переполнения или полного освобождения емкости буфера декодера. Данные о степени заполнения буфера сообщаются реальному декодеру, чтобы он мог сопоставить вычисленные значения с текущими значениями аналогичных параметров в процессе настоящего декодирования.

Подстройка системных часов

Для правильной интерпретации меток времени декодер должен иметь свое собственное системное время, причем должна быть обеспечена подстройка «часов» декодера под время «часов» кодера. Для этого текущее время кодера регулярно передается декодеру. Системное время каждой программы отсчитывается в единицах периода колебаний с частотой 27МГц. Отсчеты этого времени передаются в программном потоке в одном из полей заголовка блока (они называются SCR – System Clock Reference) не реже, чем через 0,7 секунды. В транспортном потоке могут переноситься данные нескольких телевизионных программ, каждая из которых может иметь свое независимое время, называемое программным. Отсчеты программного времени PCR (Program Clock Reference) переносятся в поле адаптации транспортного пакета с соответствующим идентификатором PID (обычно он совпадает с идентификатором элементарного потока видеоданных, что иллюстрирует рис.15). Метки PCR должны появляться не реже, чем раз в 0,1 секунды. Несмотря на разницу в названиях, основные функции PCR и SCR совпадают. Принцип синхронизации декодера с кодером путем использования отсчетов программного времени иллюстрирует рис.20.

Время декодировать и время предъявлять

Метки времени, ассоциируемые с блоками доступа, выражаются в единицах времени периода колебаний с частотой 90кГц, полученных путем деления частоты 27МГц. Эти метки бывают двух типов: метки времени представления PTS и метки времени декодирования DTS. Метки PTS определяют момент времени, в который декодированный блок доступа (кодированное изображение или фрагмент звукового сопровождения) должен быть предъявлен зрителю. Для всех элементарных потоков, кроме видео, PTS – это единственные метки, которые необходимы. Для потока видеоданных необходимы метки времени декодирования DTS, определяющие моменты времени, в которые блоки доступа извлекаются из буфера и декодируются, но не предъявляются зрителю. Декодированные изображения временно хранятся и предъявляются в боле позднее время, назначаемое метками PTS. Метки DTS необходимы изображениям типа I и P, которые должны декодироваться раньше, чем B-изображения, для кодирования которых I и P изображения использовались в качестве опорных. Метки DTS не появляются в одиночку, а должны сопровождаться метками PTS.
Метки не должны сопровождать каждый блок доступа. Ограничение, определяемое стандартом MPEG-2, заключается в том, чтобы в элементарных потоках видео и звука метки должны появляться не реже, чем раз в 0,7 секунды. Метки переносятся в заголовках PES-пакетов (рис.10). Если метка сопровождает блок доступа, то она появляется в заголовке PES-пакета, в котором этот блок доступа начинается.

Монтаж

Можно ли монтировать MPEG?

Иногда считается, что монтаж программ, закодированных в соответствии со стандартом MPEG-2 невозможен. Такое суждение объясняется тем, что в результате кодирования с предсказанием в процессе устранения временной избыточности все кадры связаны в единую цепь, разорвать которую якобы нельзя без сбоя в воспроизводимом изображении. Утверждается, что единственно возможный способ монтажа требует декодирования, т.е. преобразования компрессированных потоков в исходную форму, после которого можно выполнить монтажную операцию и повторное кодирование смонтированной программы. Конечно, такой вид монтажа возможен, но он связан с потенциальными искажениями и артефактами, возникающими в результате цикла компрессии – декомпрессии. Однако возможен и монтаж видеопотоков, компрессированных по стандарту MPEG-2, хотя, конечно, система компрессии накладывает значительный отпечаток на методы монтажа.
Прежде всего следует отметить, что все изображения связаны и образуют цепь с взаимозависимыми элементами только в случае использования открытых групп изображения (подробно об этом написано в 625, 1997, №7, с.60-75). Кадры изображения в пределах закрытой группы (она заканчивается изображением типа P) не зависят от кадров других групп (предсказание выполняется строго в пределах одной группы). Поэтому видеопотоки из закрытых легко могут коммутироваться и монтироваться на границах групп. Однако и потоки, основанные на открытых группах изображений, могут монтироваться в компрессированной форме. Для этого надо разорвать цепь непрерывности в выбранной точке монтажного перехода. Однако смонтированная программа должна обладать всеми свойствами потока данных MPEG-2.

Перемаркирование кадров в области монтажного перехода

Один из вариантов коммутации элементарных потоков иллюстрирует рис.21. Этот вариант основан на перемаркировании кадров – изображений типа B, которые связаны в результате предсказания и с предыдущими и с последующими кадрами типа I и P, в изображения типа P без изменения соответствующего блока доступа (кадры B15 и B16 элементарного потока 1 переименованы в кадры P15’ и P16’). Непрерывная цепь предсказаний разрывается, (при декодировании P15’ и P16’ в качестве опорного будет использоваться изображение P14), и коммутация с целью монтажа оказывается возможной.
То, что стратегия декодирования трансформируется без изменения закодированной ошибки предсказания, не связано с высокой заметностью потенциальных искажений благодаря кратковременности монтажного перехода. Более серьезным является то, что такая коммутация может привести к потенциальному переполнению или опорожнению буфера декодера, что связано с большими искажениями. Возможное решение этой проблемы – вставка предварительно кодированного черного потока данных, который может быть вставлен между первым и вторым потоками для нормализации состояния буфера. То, что метод требует временного выравнивания групп изображений коммутируемых потоков, не является серьезным усложнением. Метод может быть рекомендован для использования в системах распределения телевизионных программ, например, для вставки местных рекламных клипов.

Перекодирование кадров в области монтажного перехода

Другой и, вероятно, лучший с точки зрения качества изображения метод, связан с перекодированием коммутируемых элементарных потоков в окрестности монтажного перехода (рис.22). Такой вариант может быть рекомендован для дисковых систем, в которых телевизионные программы хранятся в компрессированном виде.

Монтажные магнитофоны MPEG

Возможности монтажа телевизионных программ в компрессированном виде в условиях студийного производства предоставляет студийный профиль 422 стандарта MPEG-2, уже реализованный в формате видеозаписи Betacam SX. В нем используются открытые группы изображений из 2 кадров (I и B). Данный профиль позволяет, например, выполнять монтаж путем дописывания нового потока данных без нарушения непрерывности смонтированного потока в точках монтажа (рис.23). Если точка монтажного перехода выбрана на границе кадров B15 и I16, то после монтажа будет невозможно использовать кадр I16, а его наличие при обычном декодировании было бы необходимо, поскольку при для декодирования B15 в качестве опорной информации должны использоваться кадры I14 и I15. В процессе монтажа кадр B15 не просто перемаркируется, как показано на рис.21, а перекодируется как кадр типа B, но с предсказанием только на основе предшествующего кадра I14, в результате чего образуется кадр BU15 (правила профиля 422 разрешают такую операцию). Ключ к высококачественному выполнению такого способа монтажа – опережающее считывание, достигаемое с помощью специальной вращающейся головки. Опережающее считывание позволяет получать данные о предшествующих кадрах, которые после перекодирования записываются спустя некоторое время головками записи на место прежних кадров.
Совершенно очевидно, что такой способ, основанный на перекодировании кадров с двунаправленным предсказанием в сочетании с опережающим считыванием, позволяет выбирать точку монтажного перехода в любом месте и выполнять монтаж с точностью 0 кадров. Еще более высокого качества монтажных операций позволяет достичь реализация профиля MPEG 422, основанная на однокадровых группах изображений. Казалось бы, зачем в таком случае MPEG, если используется только внутрикадровое кодирование? Однако MPEG – это не только кодирование с целью сокращения временной избыточности, но и гибкая универсальная форма представления кодированных изображений в виде потоков данных, достоинства которой сохраняются при любых группах изображений.

Монтаж с перекодированием и транскодированием: новый виток

Монтаж с перекодированием также может быть усовершенствован с учетом специфики компрессии. Известно, что в общем случае перекодирование связано с искажениями и артефактами. Но если закодировать, декодировать, а затем закодировать повторно с сохранением всех параметров первоначального кодирования (матрицы квантования, вектор движения и т.п.), то перекодирование не приводит к искажениям (рис.24). Примером, когда такое перекодирование дает эффективное решение задачи, является вставка логотипа. Декодирование компрессированного потока, микширование с сигналом логотипа и последующее повторное кодирование с сохранением параметров первоначального кодирования делает такую систему «прозрачной» для исходного изображения для всей картинки, кроме зоны логотипа, но ведь логотип – это уже новое изображение, которое и должно кодироваться заново. Таким же образом можно использовать перекодирование с использованием параметров первоначального кодирования для выполнения монтажных переходов со специальными эффектами, например, шторками.
Транскодирование, т.е изменение скорости потока с использованием параметров первоначального кодирования также позволяет минимизировать искажения такого процесса. Перекодирование и транскодирование не связаны с необходимостью изменения структуры потока данных MPEG-2, ведь вся информация о процессе и параметрах кодирования всегда сообщается декодеру. Дело лишь за регламентацией и стандартизацией способов передачи параметров первоначального кодирования от декодера ко второму кодеру.

Склейка потоков

Область применения

Широкое распространение видеокомпрессии делает все более необходимым объединение кодированных программ не только без декодирования, но и без изменения содержания блоков доступа. Пример дают серверные технологии, предполагающие широкое использование фрагментов программ, клипов, рекламных вставок, записанных на дисках сервера в компрессированной форме. Сетевые технологии производства программ предполагают широкое использование для доставки программ спутниковых, кабельных и микроволновых наземных линий связи, по которым данные должны передаваться в компрессированной форме, что диктует экономика. Для малых телевизионных станций коммутация в компрессированной форме представляет на ранних стадиях внедрения цифрового телевидения единственный экономичный способ работы в цифровом окружении. Головные станции в какой-то мере подобны серверам, им также будет требоваться коммутировать потоки компрессированных данных и вставлять рекламные вставки. Видеосерверы в системах типа видео-по-запросу будут, конечно, хранить программы в компрессированном виде, ведь архивы должны быть огромными. Казалось бы, в таких платных системах рекламы не должно быть, однако некоторые провайдеры таких услуг будут предлагать сниженные расценки в обмен за включение рекламных вставок. В серверной системе с тысячами выходов коммутация потоков, конечно, должна быть в компрессированной форме.
Какой должна быть коммутация потоков данных? По своему внешнему проявлению она должна быть похожа на смену сюжета в рамках одной программы. По своей внутренней сути это, конечно, не просто коммутация, а сращивание потоков данных, при котором полученный поток будет соответствовать синтаксису и семантике MPEG-2. В стандарте такое сращивание называется склейкой потоков (splicing).

Проблемы

Есть три причины, налагающие ограничения на коммутацию потоков данных MPEG-2:

P и B кадры не могут быть восстановлены без опорных изображений, которые использовались для предсказания в процессе кодирования. Коммутация может оставить P и B изображения без опорных.
Компрессированные изображения требуют для передачи разных интервалов времени (I – больше, P и B – меньше), причем эти интервалы зависят от детальности и динамичности сюжета. Поэтому синхронизация и выравнивание границ кадров коммутируемых потоков – проблема, которая должна решаться в момент склейки.
Изображения, занимающие разные интервалы времени в компрессированной форме, после декодирования должны воспроизводиться через равные промежутки времени.

Решение этой проблемы требует наличия буфера декодера, в который блоки доступа загружаются за разное время, а выгружаются через равные интервалы. Буфер не должен ни переполняться, ни опустошаться полностью. Опустошение означает отсутствие данных для декодирования, что может быть преодолено замораживанием последнего декодированного кадра. Переполнение приводит к худшим последствиям, поскольку оно означает потерю данных, из-за чего воспроизводимое изображение может быть искажено до пор, пока не придет новый I-кадр. Стандартные кодеры MPEG работают таким образом, что исключается и переполнение, и опустошение буфера. Однако в момент коммутации параметры потока данных меняются скачком, что может привести к нарушению нормальной работы буфера, при которой его емкость заполняется в среднем на 50%.

Возможности MPEG-2

Перечисленные проблемы приводят к тому, что лишь отдельные точки потока данных подходят для склейки без изменения кодированных данных объектов доступа (рис.25). В спецификации MPEG эти точки и называются точками склейки. Коммутация двух потоков и переход от старого потока к новому возможны лишь в том случае, если точки склейки двух потоков совпадают во времени.
Синтаксис MPEG-2 предусматривает средства для обеспечения склейки даже на уровне транспортного потока, отличающиеся высокой фрагментацией. Среди этих средств первое место принадлежит счетчику пакетов до точки склейки. Счетчик представляет собой 8-разрядный счетчик, который декрементируется с каждым пакетом и состояние которого становится равным нулю в ближайшей потенциальной точке склейки. Счетчик располагается в поле адаптации транспортного пакета. Его назначение – сообщить коммутационному оборудованию о возможной склейке и указать ее точное положение.

Буфер, бесшовная склейка и стандартизация

Спецификация MPEG-2 определяет вычислительную модель буфера VBV (Video Buffering Verifier), позволяющую оценить степень заполнения буфера декодера в процессе кодирования. Рис.27 иллюстрирует работу модели при декодировании группы изображений из 12 кадров. Блоки доступа поступают в буфер непрерывно, причем скорость заполнения буфера пропорциональна скорости кодированного потока. Блоки доступа загружаются в буфер за разное время, поскольку кодированные изображения имеют разный объем данных. Выгружаются данные из буфера через одинаковые интервалы, равные частоте кадров воспроизводимого изображения, причем выгружаются целиком и моментально (это ведь модель, точные параметры этого процесса зависят от конкретной реализации буфера и декодера, поэтому детали процесса выгрузки данных из буфера декодер должен «продумать» самостоятельно). Требуется некоторое время (стартовая задержка), чтобы декодер смог декодировать и воспроизвести первое изображение, а после этого допустить выгрузку из буфера первого блока доступа. Спустя некоторое время после загрузки последнего блок доступа декодер сможет воспроизвести последнее декодированное изображение (финишная задержка). В этот момент буфер полностью опустошается.
Желательно, чтобы линия, показывающая заполнение буфера, колебалась вокруг значения в 50% и не подходила к предельным значениям 0 и 100%. Есть и другие соображения, которые надо учитывать при склейке. Если, например, стартовая задержка нового потока значительно больше финишной задержки старого, то после того, как будет воспроизведено и выгружено из буфера последнее изображение старого потока, то придется долго ждать декодирования и воспроизведения первого изображения нового потока (рис.28). Это приведет, например, к замораживанию последнего изображения старого потока и заметной склейке. Если, например, скорость нового потока значительно больше скорости старого, то склейка будет еще более заметной (рис.29), поскольку при этом буфер переполняется и часть данных теряется.
Означает ли это, что в общем случае бесшовная и незаметная склейка потоков MPEG-2 невозможна? Конечно, нет. Бесшовная склейка не требует внесения принципиальных изменений в стандарт, она может быть достигнута за счет внесения определенных ограничений в параметры склеиваемых потоков. Бесшовная склейка потоков является предметом исследований и стандартизации (см., например, предложение стандарта SMPTE 312M), причем учет ограничений, связанных с буфером декодера, является одним из главных факторов. Несомненно, проблема бесшовной склейки в почти произвольной точке потока будет решена, поскольку после введения ограничений на параметры потоков оставшиеся вопросы будут носить вычислительный характер.

MPEG в телевидении будущего

Телевидение находится сейчас на этапе кардинальных перемен, обусловленных слиянием телевизионных, компьютерных и телекоммуникационных технологий. Совокупность локальных и глобальных информационных сетей станет естественной составной частью инфраструктуры производства телевизионных программ и телевизионного вещания уже в ближайшем будущем. Сможет ли MPEG стать стандартом обмена компрессированными потоками данных в этой инфраструктуре?
MPEG-2 изначально задумывался как система компрессии для телевизионного вещания при сравнительно небольших скоростях потоков данных. Но возможности алгоритмов, заложенных в его основу, оказались столь значительными, что MPEG-2 поглотил сферу телевидения высокой четкости, первоначально отводившуюся проекту MPEG-3. Способности стандарта MPEG-2 приспосабливаться к разным скоростям потока данных, уровням качества и сферам применения чрезвычайно велики. Гибкость – ключ успеха MPEG-2. Основной уровень основного профиля уже используется для вещания в цифровом телевидении стандартной четкости, высокий уровень основного профиля – в цифровом телевидении высокой четкости. Возникла потребность в студийном применении – и в рамках MPEG-2 был выделен профиль 422. И уже есть практические приложения этого профиля с группами изображений из двух и одного кадра, реализованные в промышленной аппаратуре. В соответствии с базовым алгоритмом собственно компрессии MPEG-2 с одними I кадрами – это то же, что и компрессия типа DV, ведь обе схемы основаны на дискретном косинусном преобразовании. Но данный пример показывает, что это MPEG-2 может делать то же, что и DV. Но может ли DV занять те сферы, в которых уже работает MPEG-2? Ответ отрицательный. Поэтому MPEG-2 в большей мере, чем другие системы компрессии, достоин того, чтобы стать универсальным стандартом обмена компрессированными потоками данных в инфраструктуре телевидения будущего.
Но так ли безоблачно в мире MPEG? Конечно, нет. Гибкость стандарта MPEG-2 оборачивается трудностями в обеспечении эксплутационной совместимости систем, изготовленных разными производителями телевизионной аппаратуры. Для решения проблем совместимости и интеграции устройств и систем, разработанных в соответствии со стандартом MPEG, в середине 1998 года был образован международный форум профессионального MPEG – Professional MPEG (Pro-MPEG) Forum. Эффективная реализация громадного потенциала цифровых технологий возможна лишь при условии окружения стандартов MPEG слоем других стандартов, выходящих за рамки собственно компрессии и относящихся к таким областям, как структура и форматы метаданных, ассоциированных с программами, форматы и обмен файлами видеоданных, сетевые интерфейсы. И хотя Pro-MPEG Forum не организация, принимающая стандарты, именно на заседаниях форума представители промышленных и вещательных организаций совместно вырабатывают требования и контуры таких документов. Проблемы MPEG – это в значительной мере проблемы роста. Итак, MPEG – саморазвивающаяся система, и в способности к развитию залог ее успешного применения в телевидении будущего.