Раздел: Документация
0 ... 7 8 9 10 11 12 13 ... 55 ФНЧ — W=3,4 кГц Дискретизация Квантование и кодирование ft=8 кГц п=12 Адаптивное квантование п=4 Вычисление коэффициентов Статистическое оценивание Адаптивное предсказание 9- Рис. 2.6. Рекомендация G.721 2.4. РЕКОМЕНДАЦИЯ G.722 Целью применения рекомендации G.722 является повышение качества передаваемых речевых сообщений при скорости потока 64 кбит/с [14]. В соответствии с данной рекомендацией выбирается fmQX=7 кГц; ffli = 16 кГц. Кодирование отсчетных значений после квантования производится 14-разрядными комбинациями двоичного кода, после чего цифровой поток, следующий со скоростью 224 кбит/с, подвергается цифровой фильтрации. Первый цифровой полосовой фильтр (ЦФ1) выделяет полосу частот 50 Гц ... 4 кГц, после чего осуществляется прореживание потока до частоты ffl2=8 кГц с последующим преобразованием по методу АДИКМ с переходом к 6-разрядным кодовым комбинациям. Полученный в результате погок со скоростью 48 кбит/с поступает на один из входов мультиплексора. На второй вход мультиплексора поступает поток со скоростью 16 кбит/с, полученный в результате аналогичного преобразования результата цифровой фильтрации (фильтр ЦФ2) в полосе 4 кГц ... 7 кГц при использовании 2-разрядовых кодовых комбинаций после АДИКМ. Результирующий поток на выходе мультиплексора имеет скорость 64 кбит/с (рис. 2.7 [14]). Звук ФНЧ fmax=7 кГц
Прореживание =3 ЦФ1 fn2=8 кГц 50 Гц ...4 кГц 4 кГц ... 7 кГц =8 кГц н>) ЦФ2 3= Прореживание 48 Кбит/с АДИКМ п=6 64 Кбит/с Мультиплексор п=2 АДИКМ 16 Кбит/с Рис. 2.7. Рекомендация G.722 2.5. КОДИРОВАНИЕ С ЛИНЕЙНЫМ ПРЕДСКАЗАНИЕМ. РЕКОМЕНДАЦИИ G.728, G.729, G.723 Рассмотренные выше методы передачи речи с предсказанием и адаптацией оперируют речевым сигналом как некоторым колебательным процессом инвариантно к физическим (физиологическим) особенностям источника звука. Дальнейшее повышение степени компрессии с сохранением высокого качества воспроизведения возможно на основе учета природы человеческой речи и особенностей ее восприятия человеческим ухом. Достигнутое высокое качество предсказания позволяет вместо передачи информации об ошибке предсказания, перейти к непосредственному синтезу речевого сообщения на приемном конце на основе передачи текущих значений параметров сообщения, соответствующих выбранной модели голосовой системы. Широко используемый в настоящее время метод кодирования с линейным предсказанием LPC (Linear Predictive Coding) работает с блоками отсчетов, для каждого из которых вычисляется и передается частота основного тона, его амплитуда и информация о типе возбуждающего воздействия [93] При этом предполагается модель голосовой системы человека в виде линейного фильтра (рис 2.8) [21], возбуждаемого в любой момент времени одним из двух возможных типов возбуждающего воздействия: шумовым (формируемым генератором шума) или тоновым (формируемым в виде квазипериодической последовательности импульсов на частоте основного тона). По существу все системы (и, соответственно, рекомендации ITU), использующие метод LPC, отличаются лишь способами генерирования возбуждающего воздействия и выбора параметров моделирующего фильтра. При передаче речи соответствующий анализатор формирует данные, содержащие информацию о возбуждающем воздействии (вид воздействия, частота основного тона, коэффициент усиления) и о весовых коэффициентах формирующего синтезируемую речь трансверсального фильтра. При этом обычно применяется метод «анализ-синтез» AbS (Analysis-by-Synthesis), когда на основе формируемых данных производится синтез речевого сообщения, которое сравнивается в процессе передачи с истинным сообщением (рис. 2.9), а сигнал ошибки s[k] в процессе анализа уточняет формируемые данные. Полученные таким образом данные преобразуются кодирующим устройством в кодовое слово (от 10 до 80 бит в зависимости от используемого метода). При реализации анализатора используются алгоритмы, подобные используемым в методе АДИКМ (ADPCM). Обновление кодового слова требуется не реже, чем один раз в 10-25 мсек. Приемлемый уровень разборчивости дложет быть достигнут на скоростях 4,8 кбит/с и даже 2,4 кбит/с. Основные усилия разработчиков конкретных реализаций метода LPC направлены, главным образом, на сокращение времени алгоритмической задержки Атз (интервал времени между моментами появления сообщения на входе передающего устройства и появления синтезированной речи на выходе приемного устройства при непосредственном подключении указанных устройств друг к другу) и снижение скорости передачи выходного потока данных. В соответствии с рекомендацией G.728 задержка Дт3 не должна превышать 5 мсек, скорость передачи выходного потока данных (передача кодовых слов) должна быть равна 16 кбит/с, а качество синтезируемой речи на выходе тракта передачи не должно быть ниже, чем при использовании методов, удовлетворяющих требованиям рекомендаций G.721 и G.726. Реализация рекомендации G.728 осуществляется с использованием специальных модификаций метода LPC, относящихся к классу LD-CELP (Low Delay Code Excited Linear Prediction) [23]. В типичном кодеке, удовлетворяющем рекомендации G.728, пять выборочных значений входного речевого сообщения (при частоте дискретизации 8 кГц) формируют кадр длительностью 0,625 мсек, на основании анализа которого (метод AbS) формируется кодовое слово длиной 10 бит (скорость передачи 16 кбит/сек). Это кодовое слово включает информацию об индексе кодового вектора, выбираемого из соответствующей кодовой библиотеки (code book) и определяющего возбуждающее воздействие, а также об уровне этого воздействия. Аналогичная кодовая библиотека имеется в приемной части кодека. Результирующая задержка Атз составляет не более 2 мсек. Дальнейшее снижение скорости передачи выходных данных обеспечивается при реализации рекомендации G.729, известной как метод CS-ACELP (Conjugate Structure Algebraic Code Excited Linear Prediction). В этом случае входной цифровой поток, соответствующий речевому сообщению на частоте дискретизации 8 кГц и длине кодовых комбинаций 16 бит (скорость 128 кбит/с), преобразуется в поток выходных данных, имеющий скорость передачи 8 кбит/сек. Входной поток разделяется на кадры длительностью 10 мсек (80 выборочных значений речи), каждый из которых составляется из двух субкадров по 5 мсек Один раз на протяжении кадра обновляются параметры синтезирующего фильтра и дважды (один раз на каждом субкадре) параметры возбуждающего воздействия, так что реализуемая задержка в передаче речи не превышает 5 мсек. Кроме рассмотренных стандартизованных методов получили распространение также и различные фирменные методы кодирования с предсказанием [93], такие как адаптивное кодирование с предсказанием АРС (Adaptive Predictive Coding) компании Bell, линейное предсказание с векторным возбуждением VSELP (Vector-Sum-Excited Linear Prediction) компании Motorola, линейное предсказание с предиктивным кодовым возбуждением PCELP (Predictive Code-Excited Linear Prediction) DSP Group. Метод VSELP, реализующий скорость 8 кбит/с, предложен компанией Motorola в качестве стандарта для цифрвых сотовых систем США. Метод квантования по максимуму правдоподобия MP-MLQ (Multipulse Maximum Likelihood Quantization) принят в качестве базового при разработке рекомендации G.723 для передачи речи в видеотелефонии в рамках рекомендации Н.324. Этот метод использует анализатор типа LPC 10-го порядка Генератор шумаJ Синтезируемая речь
Коэффициент усиления Параметры фильтра Рис. 2.8. Синтезатор речи s[k] Параметры возбуждения Анализатор Коэффициенты фильтра Синтезатор Кодер Кодовое * слово
Рис. 2.9. Метод LPC: передача (а), прием (б) с алгоритмом AbS и рассчитан на скорости выходного цифрового потока 4,8; 6,4; 7,2 и 8,0 кбит/с. Рекомендация G.723.1 предусматривает скорости 5,3; 6,3 кбит/с, причем на меньшей скорости используется метод ACELP (Algebraic-Code-Excited Linear-Prediction). Длительность кадра составляет 30 мсек при общем времени задержки 37,5 мсек. 2.6. АНАЛОГОВЫЙ ВИДЕОСИГНАЛ И ПРОБЛЕМА КОМПРЕССИИ Несмотря на то, что аналоговая техника во всех областях телекоммуникаций в настоящее время повсеместно заменяется цифровой, при формировании видеосигналов в системах передачи изображений и, в частности, в системах КВКС по-прежнему широко используются аналоговые видеокамеры, функционирующие в соответствии с тем или иным телевизионным стандартом. При передаче черно-белого изображения, когда полезная информация заключена в сигнале яркости, важнейшим параметром, с точки зрения использования того или иного метода преобразования аналогового сигнала в цифровую форму, являются граничная частота спектра сигнала яркости и максимальный контраст (динамический диапазон) изображения. В таблице 2.1 приведена граничная частота спектра сигнала яркости для стандартов телевидения, используемых в различных странах [24]. Таблица 2.1
Процесс преобразования аналогового сигнала яркости в цифровую форму на основе метода ИКМ может производиться, исходя из необходимости точного воспроизведения 256 градаций яркости, т.е. на основе использования 8-разрядных комбинаций двоичного кода. Тогда, для стандарта с граничной частотой спектра 6,0 МГц при частоте дискретизации 12 МГц получаем требуемую скорость передачи цифрового потока 96 Мбит/с. Соответствующие значения этой скорости для других стандартов приведены в Таблице 2.1. Очевидно, что передача видеосигнала в системах КВКС без применения методов компрессии практически невозможна. Еще большие значения скорости передачи цифрового потока требуются при преобразовании в цифровую форму аналогового цветового видеосигнала. При передаче цветного изображения стандартная камера формирует три сигнала, соотвегствую-щие красному, зеленому и синему цветам (модель RGB). В зависимости от того, каким образом далее передается информация о цветовых составляющих изображения, различают три основных стандарта цветного телевидения: NTSC, PAL, SECAM. Общим для всех трех стандартов является формирование сигнала яркости Y и двух цветоразностных сигналов R-Y и B-Y. Стандарт NTSC (National Television Standards Committee) предусматривает передачу не непосредственно цветоразностных сигналов, а соответствующих цветоразностных компонент I и Q в виде линейных комбинаций цветоразностных сигналов. При этом граничная частота спектра сигнала яркости равна 4,2 МГц. Цветоразностные компоненты I и Q передаются на общей поднесущей частоте методом квадратурной амплитудной модуляции в высокочастотной области спектра сигнала яркости (частота поднесущей примерно равна 3,579 МГц). Передача компонент I и Q занимает примерно 1,5 МГц и 0,5 МГц полосы спектра частот соответственно. Рекомендация 601 международной организации CCIR, ответственной за стандартизацию в области телевидения, предусматривает дискретизацию сигнала яркости с частотой 13,5 МГц и цветоразностных составляющих с частотами 6,75 МГц с последующим 8-разрядном квантованием, что приводит к требованию обеспечения скорости результирующего цифрового потока 216 Мбит/с [14]. При цифровом 9-разрядном преобразовании полного цветового видеосигнала и частоте дискретизации, равной учетверенной частоте цветовой поднесущей (т.е. примерно 14,32 МГц) в стандарте NTSC требуемая скорость передачи цифрового потока составит около 128,7 Мбит/с [24]. В система PAL (Phase Alteration by Line) передаются взвешенные цветоразностные компоненты U = 0,493(В - Y) и V = 0, 877(R - Y), а сигнал цветности, как и в стандарте NTSC, формируется путем квадратурной амплитудной модуляции цветовой поднесущей частоты, однако полярность одной из цветоразностных компонент периодически коммутируется на 180 градусов от строки к строке. Передача этих компо-нет занимает около 1,5 МГц полосы спектра частот. Цифровое преобразование полного цветового сигнала, аналогичное преобразованию в стандарте NTSC, приводит к необходимости передачи цифрового потока со скоростью до 159,6 Мбит/с [24]. 0 ... 7 8 9 10 11 12 13 ... 55
|