Раздел: Документация
0 ... 10 11 12 13 14 15 16 ... 55 2.9.3. Кодирование аудиообъектов Стандарт определяет методы кодирования как естественного звука (речь, музыка), так и синтезированного. Кодирование естественного аудио предполагает использование скоростей передачи от 2 кбит/с до 64 кбит/с и выше. Стандарт включает три типа структур кодирования: -параметрическое кодирование, обеспечивающее наименьшие скорости передачи - от 2 кбит/с до 4 кбит/с при частоте дискретизации 8 кГц и от 4 кбит/с до 16 кбит/с при частоте дискретизации 8 кГц или 16 кГц -метод CELP для скоростей от 6 кбит/с до 24 кбит/с при частоте дискретизации 8 кГц или 16 кГц -технику T/F (time-to-frequency) кодирования с использованием кодеков типа TwinVQ и ААС для скорости передачи 16 кбит/с при частоте дискретизации 8 кГц. Предусматривается возможность масштабирования потока данных вплоть до самых низких скоростей передачи непосредственно в процессе сеансов как при самом формировании потока, так и на приемном конце. Это позволяет использовать широкий диапазон декодеров с различным уровнем сложности. Синтезированный звук декодируется с применением TTS (text-to-speech) декодеров при скорости передачи от 200 бит/с до 1,2 кбит/с. Дкп Квантование коэффициентов
Восстановление коэффициентов Обратное ДКП П редек. 1 Предск.2 Предск.З -* Накопитель кадров Оценка движения Кодирование VO произвольной формы 2.9.4. Кодирование видеообъектов Стандарт предусматривает возможность гибридного кодирования как естественных изображений и подвижного видео, так и синтезированных (двух- и трехмерных) сцен вплоть до виртуального присутствия участника видеоконференции. Поддерживаемые скорости передачи составляют диапазон от 5 кбит/с до 4 Мбит/с при разрешении от формата QCIF до стандартного телевизионного. Соответствующие инструменты и алгоритмы обеспечивают: -объектно-ориентированное кодирование и эффективную компрессию неподвижных изображений и видео -эффективную компрессию фона -эффективный доступ к любым видеообъектам -объекто-ориентированное масштабирование -помехоустойчивость при передаче данных в среде, подверженной влиянию шумов. Применительно к кодированию синтезированных объектов основное внимание уделяется анимациям лица (facial animation) и туловища (body animation). Так, форма, структура и выражение лица фомиру-ются специальной системой параметров Facial Definition Parameter (FDP) и (или) Facial Animation Parameter (FAP). За основу принимается некоторое нейтральное «обобщенное» лицо (generic face). После получения FDP/FAP параметров производится соответствующая анимация для придания необходимых черт, выражения, движения губ при речи и т.п. Стандарт MPEG-4 предусматривает алгоритмы кодирования неподвижных изображений и видео, которые, наряду с кодированием видеообъектов, обеспечивают также и большинство функций, свойственных стандартам MPEG-1 и MPEG-2, т.е. осуществляют предсказание и компенсацию движения. В зависимости от приложений используются те или иные методы, ориентированные на различные скорости передачи. Так, для мультимедиа коммуникаций (в том числе, для систем КВКС) используется технология низкоскоростных потоков VLBV (Very Low Bit-rate Video), рассчитанная на скорости от 5кбит/с до 64 кбит/с с относительно низким разрешением (обычно соответствующим форматам CIF/QCIF) и умеренной частотой следования кадров (обычно 15 кадр/с). При этом обеспечивается кодирование прямоугольных кадров с высокой эффективностью компрессии, высоким уровнем помехоустойчивости, низким уровнем сложности декодеров, а также случайным доступом и ускоренными режимами просмотра «вперед» и «назад» в системах хранения и базах данных. Рис. 2.11. Обобщенная структурная схема MPEG-4 видеокодера Те же функции применительно к системам цифрового телевидения обеспечиваются на высокох уровнях скоростей передачи (от 64 кбит/с до 4 Мбит/с). Наконец, расширение возможностей упомянутых алгоритмов обеспечивает реализацию объектно-ориентированных функций. Обобщенная структурная схема MPEG-4 видеокодера приведена на рис. 2.11. Стандарт поддерживает следующие форматы: -метод сканирования: прогрессивный, черезстрочный -пространственное разрешение: произвольный размер от 8 х 8 до 2048 х 2048, включая SQSIF/SQCIF, QSIF/QCIF, SIF/CIF, 4xSIF/CIF, CCIR 601 -цветовое разрешение: 4:0:0, 4:2:0, 4:2:2 -точность цифрового представления: 8 бит Описание конкретных инструментов и алгоритмов видеокодирования содержится в модели VM (Video verification model). В соответствии с моделью VM разрабатываются два вида кодека (один - в рамках европейского проекта ACTS-MOMUSYS, второй - фирмой Microsoft). Сложность кодека существенно зависит от разрешения и частоты кадров. Ожидается, что для малого формата (QCIF, 176 х 144) сложность и рыночная цена будут вполне приемлемыми. Больший формат может потребовать специального аппаратного обеспечения (ускоритель и/или дополнительные процессоры как в кодере, так и в декодере). Тем не менее предполагается, что сложность кодека при тех же разрешении и частоте кадров не превзойдет реализуемую для стандартов MPEG-1,-2 и Н.263. Чрезвычайно важным обстоятельством при этом является обеспечение совместимости со стандартом Н.263. 2.9. ЗАКЛЮЧИТЕЛЬНЫЕ ЗАМЕЧАНИЯ Наиболее часто используемым методом цифрового преобразования непрерывного речевого сообщения является РСМ в соответствии с рекомендацией G.711. Результатом преобразования является двоичная последовательность, передаваемая со скоростью 64 кбит/с. Более эффективные методы передачи используют наличие корреляции между отсчетными значениями передаваемого сообщения (передача с предсказанием). Так, при использовании ADPCM достигается уменьшение скорости результирующего цифрового потока до величины 32 кбит/с практически без снижения качества звука (рекомендации G.721 и G.726). В то же время при сохранении скорости результирующего потока 64 кбит/с оказывается возможным повысить качество передаваемых речевых сообщений за счет перехода к дискретизации исходного непрерывного сообщения в полосе частот до 7 кГц (рекомендация G.722). Дальнейшее повышение степени компрессии звука с сохранением высокого качества воспроизведения возможно на основе учета природы человеческой речи и особенностей ее восприятия человеческим ухом. С этой целью переходят к непосредственному синтезу речевого сообщения на приемном конце на основе передачи текущих значений параметров сообщения, соответствующих выбранной модели голосовой системы. Так, метод кодирования с линейным предсказанием LPC и его различные модификации класса LD-CELP позволяют получить приемлемый урозень разборчивости на скоростях 16 кбит/сек (рекомендация G.728) и ниже (4,8 кбит/с и даже 2,4 кбит/с). Реализация рекомендации G.729, известная как метод CS-ACELP, предусматривает получение скорости передачи выходных данных 8 кбит/сек Принятый в качестве базового при разработке рекомендации G.723 для передачи речи в видеотелефонии в рамках стандарта Н.324 метод MP-MLQ обеспечивает скорости выходного цифрового потока 4,8; 6,4; 7,2 и 8,0 кбит/с. Рекомендация G.723.1 предусматривает скорости 5,3; 6,3 кбит/с. Процесс преобразования полного цветового аналогового видеосигнала стандартов PAL и SECAM в цифровую форму на основе метода ИКМ приводит к необходимости передачи цифрового потока со скоростью выше 150 Мбит/с. Раздельное цифровое преобразование компонент цветового видеосигнала, некоторое снижение цветовой четкости изображения по вертикали, устранение пассивных участков строк и полей позволяют несколько снизить требования к пропускной способности канала передачи цифрового потока Однако и в этом случае требуемая скорость составит величину не менее 60-80 Мбит/с, так чго передача видеосигнала в системах КВКС без применения методов эффективной компрессии практически невозможна. В системах КВКС исходный аналоговый сигнал конвертируется в стандартный сигнал одного из двух типов: CIF или QCIF. Применение метода ИКМ потребовало бы при этом скорости передачи цифрового потока 36,495 Мбит/с и 9,12 Мбит/с соответственно для стандартов OF и QCIF. С целью существенного снижения требуемой скорости передачи в канале рекомендации Н.261/Н.363 предполагают такие меры, как межкадровое предсказание, кодирование на основе метода ДКП, компенсация движения и периодический пропуск кадров. В результате на скорости передачи 1,5-2,0 Мбит/с обеспечивается практически то же качество переданного изображения, что и при воспроизведении стандартного телевизионного изображения с помощью бытового видеомагнитофона. На низких же скоростях передачи (около 64 кбит/с) при частоте кадров около 15 кадр/с изображение оказывается вполне приемлемым для КВКС. Эффективная при передаче неподвижных изображений компрессия в стандарте JPEG может быть использована и для сжатия подвижного цифрового видео при соответствующей аппаратной поддержке, обеспечивающей скорость передачи до 30 кадров/с. Тем не менее в этом случае каждый кадр обрабатывается как неподвижное изображение, и не производится компрессия на межкадровом уровне. При допустимых потерях качества достигаемый коэффициент сжатия видеопотока не превосходит 20-30. Зна- чительно более эффективными методами компрессии подвижных изображений с аудиосопровождением являются разрабатываемые группой MPEG. Соответствующие стандарты MPEG могут рассматриваться как расширенный стандарт Н.261, т.к. во многом они идентичны. Стандарт MPEG-1 рассчитан, главным образом, на скорости около 1,2 Мбит/с (режимом работы CD-ROM). Стандарт MPEG-2 предназначен, в основном, для телевидения (в том числе спутникового, а также телевидения высокой четкости) при скоростях передачи цифрового потока 2-15 Мбит/с и совместим со стандартами MPEG-1 и Н.262. Звуковая компонента стандарта MPEG-2 обеспечивает качество компакт-дисков по пяти стандартным каналам звукового сопровождения. Особое место применительно к системам КВКС может занять новый стандарт MPEG-4. При этом если методы кодирования аудио- и видеосигналов, определяемые стандартами Н.320, MPEG-1 и MPEG-2, применимы к регулярной последовательности двумерных видеокадров и отсчетов аудиосигнала, то стандарт MPEG-4 имеет дело непосредственно с аудиовизуальными объектами, используя технику объектно-ориентированного кодирования ОВС применительно к объектам как известной (метод КВС), так и неизвестной (метод OBASC) формы. Отдельное направление исследований в области ОВС связано с развитием методов семантического кодирования SC, представляющих собой развитие метода КВС применительно к объектам с ограниченным числом подвижных элементов. Первоначально ориентированный на применение лишь в низкоскоростных системах передачи мультимедиа информации, в окончательном варианте стандарт MPEG-4 будет распространен на три основных области применения: цифровое телевидение, интерактивная графика, интерактивные мультимедиа приложения с областью скоростей передачи от единиц кбит/с до десятков Мбит/с при использовании в широком диапазоне приложений от видеотелефона в системах мобильной связи до мультимедиа презентаций в Интернет, телевизионного вещания и цифровых гибких дисков. При этом предполагается, что сложность кодека при тех же разрешении и частоте кадров не превзойдет реализуемую для стандартов MPEG-1,-2 и Н.263. Важным обстоятельством при этом является обеспечение совместимости со стандартом Н.263, используемым в системах КВКС. 0 ... 10 11 12 13 14 15 16 ... 55
|