Реферат: Кодеры речи - текст реферата. Скачать бесплатно.
Банк рефератов, курсовых и дипломных работ. Много и бесплатно. # | Правила оформления работ | Добавить в избранное
 
 
   
Меню Меню Меню Меню Меню
   
Napishem.com Napishem.com Napishem.com

Реферат

Кодеры речи

Банк рефератов / Информатика, информационные технологии

Рубрики  Рубрики реферат банка

закрыть
Категория: Реферат
Язык реферата: Русский
Дата добавления:   
 
Скачать
Microsoft Word, 9053 kb, скачать бесплатно
Заказать
Узнать стоимость написания уникального реферата

Узнайте стоимость написания уникальной работы

67 Глава1 Кодеры формы. Кодеры формы характеризуют ся способностью сохраня ть основную форму речевого сигнала. Кодеры фор м ы не являются специфичными для р е чи в том смысле, что они с успе хом работают с любой формой вход н ого си г нала, и их применение ограничено только пределами ампли туды и шириной полосы. Сохраняя огибаю щ ую формы сигнала, подо б ные кодеры работают по принципу выборка-выборка, и их характеристики эффективно измеряются отношением сигнал/шум (ОСШ), так как квантование является основным и с точником искажений формы выходного сигнала. И КМ — первый мировой стандарт кодирования речи со скоростью 64 кбит/с с л о гарифмическим сжатием (по м -закону для Северной Америки и А -закону для Европы). ИКМ-кодер является кодером формы и все еще широко используется в цифровых сист е мах. ИКМ со скоростью 64 кбит/с в основном используется как предварительное звено низк о скоростных речевых кодеров, поскольку ее характеристики считаются очень высоко качественными. Позже был разработан стандарт на адаптивную дифференциальную ИКМ (АДИКМ) со скоростью 32 кбит/с. Снижение скорости цифрового потока наполовину было достигнуто благодаря использованию адаптивного предсказания и адаптивных квант о вателей для устранения избыточности речи. Некоторые другие кодеры, например с дельта-модуляцией и плавно изменяющейся кр у тизной (CVSDM — Continuous Variable Slope Delta Modulation) на скорости 32 кбит/с, используются для ре ш ения специфичных задач. Хотя по добные высокоскоростные алгоритмы кодирования малоэффективны, они, тем не менее, остаются самыми экс пл уатируемыми системами и, возмож но, будут оставаться т а ковыми еще не которое время. Импуль сно-кодовая модуляция ИКМ (РСМ – Pu l se Code Modulation). Рекомендация G.711 При построении систем цифро вой передачи непрерывных сообщений принцип и альным моментом является определение полосы частот, требуемой для обеспечения заданного качества в осп роизведения переданного сообщ е ния. Вообще говоря, для высококачес т венной передачи речевого сообще ния требуется полоса не менее 10 кГц. Однако для достижения удовлетвори тельного уровня разборчивости при пе редаче речи по телефонным каналам достаточно передать спектр в п о лосе 300...3400 Гц. Именно такой спектр звуковых частот обычно передается в современных системах передачи рече вой информации. Как правило, максимальная частота передаваемого спектра аудио сигнала выбирается равной ,а частота дискретизации (например, рекомендации G.711, G.721), хотя в ряде случаев с целью пов ы шения качества передачи используются и более высокие значе ния этих вел и чин (например, рекомен дация G.722). При использовании И КМ дискре тизированное сообщение подвергается квантов а нию по L уровням (рис. 1 .1), в результате чего каждому значе нию ставится в соо т ветствие чи сло , , представленное n -разрядной комбинацией двоичного кода. Для достижения приемлемого ка чества восприятия восстановленного речевого с о общения при равномерном (простом) квантовании необходимо . Столь большое число уровней квантования при требует скорости передачи символов в канале не менее . Рисунок 1 . 1 Однако в связи с тем, что при восприятии речи человеческим ухом в области больших мгновенных з на чений оказываются допуст и мыми значительно большие искаж ен ия сообщения, чем в области мал ых мгнове н ных значений, требуемое число уровней квантования может быть су ществе н но снижено путем использов а ния неравномерного квантов а ния, ис пользуя компрессию исходного соо б щения по логарифмическому зако ну с послед у ю щим равномерным кванто ва н ием при сравнительно малом ч ис ле уро в ней (например, при или путем соответствующего цифров о го преобразования (цифровой компре с сии) сообщения, предварительно пр е образованного в цифровую форму пр и сравнительно большом исходном чи сле уровней ква н тования (например, пр и ). Оптимальный квантователь име ет преимущества, если динамическ ий диапазон вход ного сигнала фиксиро ван и достаточно мал. Характер исти ки квантователя быстро ухудшаются , мощность сигнала изменяется относ и тельно значения, на которое он был рассчитан. Хотя этим процессом можно управлять, нормализуя входной сигнал и приводя его к единому диа пазону, для правильного определения масштаба амплитуды восстано в ленно го после квантователя сигнала потре буется дополнительно несколько бит, необход и мых для передачи динамиче ского диапазона сигнала в определен ные моме н ты времени. Для обработки входных речевых сигналов с большим динамическим диапазоном используются два зако на сжатия, называемые импульсн о-кодовой модуляцией по закону ( А -ИКМ) и по закону м (м- ИКМ). В обеих схемах характеристика от ношения си г нал/шум квантования (ОСШ кв ) должна быть близка к харак теристике для простого квантователя. Вместе с тем х а рактеристики А -ИКМ и м- ИКМ существенно не изменяют ся и остаются сра в нительно постоян ными в большом диапазоне уровней входного сигнала. По сравнению с про стыми квантователями (рис. 1 .1) кван тователи сжатия тр е буют меньше бит на входную выборку для определен ного динамического диапазона сжатия и меньшего ОСШ кв . В квантователях сжатия уровни ква н тования находятся в области малых ампл и туд, которые увеличиваются при увеличении диа пазона входного сигнала. Благодаря эт о му при квантовании речевых сиг н алов, у которых максимум функции р аспределения вероятн о стей находится в начале координат, наиболее ча сто встречающиеся малые амплитуды квант у ются с большей точностью, чем менее вероятные большие амплитуды, ч то приводит к значи тельно лучшим, Чем у простого квантоват е ля, характер истикам. Сжатие по А -закону определяется зависимостью: где A — параметр сжатия с типовыми значениями 86 (Север о -Американская ИКМ) и 87,56 (Европейская ИКМ) для семибитных речевых квантователей. Сжатие по м -закону определяется выражением где V 0 задается формулой , в которой L – нагрузочный фактор, a – сре д неквадратическое значение входного речевого сигнала. Типовое значение фактора сжатия м равно 255. Выражение (1 .1) пока зывает, что А -закон — это комбина ция логарифмической кривой, исполь зуемой для больших ампл и туд, и ли нейного участка, используемого на ма лых амплитудах . м -закон не являет ся в точности линейным или логариф мическим ни в одном диапазоне, од нако является пр и близительно линей ным для малых амплитуд и прибли зительно логарифмическим для боль ших а м плитуд. Сравнение между квантователем по м -закону и опти мальным квант о вателем показ а ло, что оптимальный квантователь дает вы игрыш 4 дБ, однако может иметь бо лее выс о кий уровень фонового шума, когда канал свободен, и его динамиче ский диапазон сведен к минимальному диапазону входного си г нала. Поэтому наиболее предпочтителен логари ф ми ческий квантователь. Цифровое преобразование непре рывного речевого сообщения в соо т вет ствии с р е комендацией G.711 (рис. 1 .2) и спользуется наиболее часто. Рисунок 1 . 2 При э том ; частота дискрети з ации . После равн о мерно г о квантования при числе уровней и предварительного кодиров а ния п роизвод и тся цифровая компрессия, в р езультате чего длина кодовой комби н ации уменьшается до раз рядов. Р езул ьтатом преобразования я в ляется д воичная последовательность, переда в а е мая со скоростью 64 кбит/с. Из различных систем адаптивной ИКМ (А ИКМ) н аибольшее распр о странение п о лучи ла система блочной ИКМ (БИКМ), ото рую часто называют системой с п очти мгн о вен ным компандиров анием (NIC — Near Instantaneous Companding). Отсчеты n -разрядного АЦП разбив ают на блоки по N отсчетов. В ка ж дом блоке находят отсчет с макси мальным для данного блока уровнем. Эт о му уровню соответствует опреде л енный номер старшего значащего раз ряда ( j ), и все старшие разряды в ком би нациях этого блока будут нулевы ми. Зап и санный в двоичном коде но мер этого разряда образует масштабную инфо р мацию, которая из-за своей важности, как правило, защищается помех о устойчивым кодом. В результате масштабная информация вместе с пров е рочными символами образует m -з н ачную комбинацию, которую добавляют к основной и н формации. Основная информация формируется выбором k разрядов из n исход н ых разрядов, причем первым (старши м) разрядом является разряд с но мером, описанным в масштабной и н формации. Основная информация для каждого из блоков объединяется с масшта б ной в ед и ный цифровой поток. Р езультирующая скорость цифрового потока на выходе системы БИКМ . На практике, как пра в ило, испол ь зуют следующие параме тры: . При одинаковых условиях переда чи БИКМ дает лучшее качество, че м ИКМ. П о этому можно снизить скорость передач и до 32.. .56 кбит/с. Дифференциальная импульсно-кодовая модуляция ДИКМ (DPCM – Differencial Pulse Code Modulation) Наряду с ИКМ применяются и бо л ее эффективные цифровые методы пе редачи речи. В частности, с це л ью снижения требований к пропуск но й способности канала можно исполь зо вать наличие корреляции между от четными значениями передаваемого сообщения. Такой метод называе т ся п е редачей с предсказанием. Пр и этом последовательность значений п о ступает на один вход вычитаю щего устройства (рис. 1 .3,а) , в то время как на другой вход поступает предска занн ое значение , полученное тем или иным методом в устройстве предска зания на основе анализа как преды дущих отсчетных значений сооб щения, так и текущих передаваемых значений н а входе вычитающего устройства. Рисунок 1 . 3 На приемном конце значения сооб щения восстанавливаются п у тем добавления принятого сигнала ошибки предсказания к предсказыв а емому значению (рис. 1 .3, б ). В системе с дифференциаль ной импульсно-кодовой модуляци ей (ДИКМ) отсчетные значения ошибки предсказания подвергаются ква н тованию с переходом к зн а чениям аналогично тому, как это делает ся при использовании обычной ИКМ, о дн а ко при су щественно меньшем числе уровней квантования. Таким обра зом, при одинаковом качестве переда чи р е чи метод ДИКМ позволяет ис пользовать меньшее число разрядов n в код о вых комбинациях по сравне нию с ИКМ. При этом существует большое число различных вариантов реализации метода ДИКМ, наиболее типичный из к о торых пре д ставлен на рис. 1 .4. Рисунок 1 . 4 При этом имеют место соотноше ния: Классификационными признака ми кодеров ДИКМ считаются нали чие блока линейного предсказания ав торегрессионных последовательностей (предсказателя) и использование мно гоуровневого (больше двух уровней) квантователя. Блок линейного пред сказания может состоять из двух ча стей — долговременного и кратковре менного предск а зателей. В канал пе редается разность истинного и пред сказанного значений сигнала (си г нал-остаток, он же – погрешность пред сказания). Системы с ДИКМ обеспе чивают такое к а чество восстановления сигнала, которое сопоставимо с предоставляемым ИКМ, и на п о рядок боле е высокую помехоустойчивость. Эффективность метода ДИКМ может быть повышена путем пере хода к адапти в ной дифференциальной импульсно-кодовой модуляци и АДИКМ. Адаптивная дифференциальная импульсно-кодовая модуляция (ADPCM — Adapti v e Differencial Pulse Code Modulation). Рекоменд а ции G.721 и G.726 ADPCM – один из наиболее об щепринятых и давно используемых ал горитмов сжатия речи, который регла ментируется стандартом G.726, был принят в 1984 г. Этот алг о ритм да ет практически такое же качество вос произведения речи, как и РСМ, однако для передачи информации при его ис пользовании требуется всего 32 кбит/с. Метод основан на том, что в анало говом сигнале, передающем речь, не возможны резкие скачки интенсивно сти. Поэтому, если кодировать не са му амплитуду сигнала, а ее измене ние по сравнению с предыдущим зна чением, то можно обойтись мень шим числом разрядов. В ADPCM измен е ние уровня сигнала кодируется чет ы рехразря д ным числом, при этом част о та измерения амплитуды сигнала с о храняется неизменной. Все методы кодирования, основа нные на определенных предположен и ях о форме сиг нала, плохо работа ют в ситуации, когда сигнал мож ет перед а ваться с резкими скачк а ми а м плитуды. Именно такой вид име ет аудиосигнал, генерируемый модемам или факсимильными аппаратами. С о временные с и стемы обмена информ ацией, поддерживающие цифровые ли нии связи, ум е ют распознавать фак симильный обмен и передают соответ ствующие сигналы непосредственно в цифровом виде, не преобразуя их в ау диосигнал. Нелинейный 15-уровневый адаптивный квантователь используется для квантования разностного сигна ла . Перед квантованием сигнал л о гарифмируется по о с нованию 2 и масштабируются посредством коэф фициента , который вычисляется с п о мо щью блока адаптации масштаб ного коэффициента. Для определения квантованного уровня используются четыре дво ичных си м вола (три для амплитуды и один для знака). Четырехбитовый вы ход квантователя образует выход ной цифровой сигнал со скоростью 32 кбит/с, который одновременно п о дает ся на инверсный адаптивный кванто ватель и блок управления скоростью адаптации ма с штабного коэффициента квантователя. Квантованная версия разностного сигнала формируется путем мас штабирования с использованием спе циальной величины , выделя е мой из нормализ о ванной характеристики квантователя, и дальнейшей транс формации результата из лог а рифмиче ского представления. Блок адаптации масштабного ко эффициента квантователя вычисляет — масштабный коэффициент для квантователя и инверсного квантов а те ля. На его входы подаются четырехби товые выходные сигналы квантов а теля и параметр управления ск о ростью адаптации . Основной принцип, реализуемый при масштабировании, заключается в бимодал ь ной адаптации: – быстрой – для сигналов (напри мер, речевых), которые дают разност ные сигналы с большими флуктуациями; – медленной – для сигналов (например, данных в диапазоне тональ ных частот, т о нов), которые дают ра з ностные сигналы с малыми флукту а циями. Управление скоростью адаптации п роизводится с помощью комбин а ции быстрого и медленного масштабных коэффициентов. Быстрый (нефиксированный) масштабный коэффициент вычи с ляется рекурсивно в логарифмиче ском представлении с основанием 2 из р е зультирующего логари ф мическо го масштабного коэффициента : Как правило, лежит в пределах . Дискретная фун к ция определяется таб лич ным образом. Множитель (1 – 2 -5 ) вводит огр а ниченную память в процесс адаптации таким образом, что состо яния кодера и декодера сходятся при оши б ках передачи. Медленный (фиксированный) мас штабный коэффициент получа ется из с помощью операции фильтрации нижних частот: Затем быстрый и медленный мас штабные коэффициенты объединяю т ся для пол у чения результирующего мас штабного коэффициента: где . Управление скоростью адапта ции. Предполагается, что управляю щий параметр может принимать значения в диапазоне [0, 1]. Для рече вых сигналов он стремится к единице, Для сигналов , данных в диапазоне то нал ьных частот и одночастотных сигн алов он стремится к нулю. Величи на к оэффициента определяется мерой с корости изменения величины разност ного сигнала. Адаптивный предсказатель и калькулятор восстановленного сигна ла. Первоначальная функция ада птивного предсказателя заключается в вычисл е нии оценки разностно го сигнала . Используются две структуры адаптивного предсказате ля – каскад первого порядка, модели рующий нули, и каскад второго поряд ка, моделирующий полюсы во входном сигнале. Детектор тона и перехода. С целью улучшения рабочих характери стик для сигн а лов, поступающих с вы ходов модемов с частотной манипуля цией, работающих в режиме кодовых комбинаций, определен двухступенча тый процесс декодирования. Снача ла производится детектирование сиг нала с ограниченной полосой (напри мер, тона), в результате чего квантова тель м о жет быть переведен в быстрый режим адаптации. Упрощенная и развернутая струк турные схемы декодера АДНКМ при ведены на рис. 1 .6, а и 1 .7, б соответ ственно. Декодер включает схему, иде н тичную цепи обратной связи коде ра, преобразователь линейной ИКМ в си г нал по законам А или м и устрой ство уст а новки синхронного кодирова ния. Устройство установки синхрон ного кодирования предотвращает нако пление искажений, имеющих место при синхронном последовательном к о диро вании (АДИКМ-ИКМ-АДИКМ, дру гие цифровые соединения). Установ ка синхронного кодир о вания достига ется путем подстройки проходного ко да ИКМ таким образом, чтобы попы таться устранить и с кажения квантова ния в с ледующем каскаде кодирования АДИ КМ. Функции основных б локов декоде ра и кодера совпадают и поэтому ниже не ра с сматриваются. Вокодеры Вокодер (от английских слов voice – голос и coder – кодировщик) пред ставляет собой устройство, осуще с твляющее параметрическое компан дир о вание речевых сигналов. Ком прессия речевых сигналов на переда ющем ко н це канала связи производит ся в анализаторе, выделяющем из ре чевого сигн а ла медленно меняющиеся составляющие, которые передаются по каналу св я зи в виде кодовых посылок. На приемном конце с помощью мест ных исто ч ников сигналов, управляе мых принятыми параметрами, синте зируется реч е вой си г нал. Работа вокодеров основана на моделировании человеческой речи с учетом ее х а рактерных особенностей. Вместо непосредственного измерения амплитуды вокодер пр е образует вход ной сигнал в некий другой, похожий на исходный. Причем измеряемые х а рак теристики речевого сигнала использу ются для подгонки параметров в при нятой мод е ли речевого сигнала. Имен но эти параметры и передаются прием нику, который по ним восстанавливает исходный речевой сигнал. По суще ству, речь идет о синтезе речи. Есте ственно, что измерение искажений от ношения сигнал/шум бесполезно для вокодеров, и, следовательно, необхо димы другие субъективные оценки, та кие, как средняя экспертная оценка, диагностический рифмованный тест, д и агностическая оценка приемлемости и др. Вокодеры можно разделить на два класса: речеэлементные и параметри ческие. В речеэлементных вокодерах при передаче распознаются произне сенные элементы речи (например, фо немы) и передаются только их но мера. На приеме эти элементы со здаются по правилам речеобразования или беру т ся из памяти устройства. Область прим е нения фонемных воко деров – линии командной связи, ре чевое управление и говорящие автома ты информацио н но-справочной служ бы. Практически в таких вокодерах происходит автом а тическое распозна вание слуховых образов, а не опреде ление параметров р е чи. В параметрических вокодерах из речевого сигнала выделяют два ти па параметров: параметры, характеризующие оги бающую спектра речевого сигнала, (фильтровую функцию); параметры, характеризующие ис точник речевых колебаний (генератор ную фун к цию), – частота основного тона, ее изменение во времени, момен ты появления и исчезн о вения основно го тона, шумового сигнала. По этим параметрам на приеме синтезируют речь. По принципу определения параме тров фильтровой функции речи ра з ли чают вок о деры: • полосные канальные (channel); • формантные; • ортогональные; • липредеры (с линейным предска занием речи); • гомоморфные. В полосных вокодерах спектр речи делится на 7-20 полос (каналов) аналоговыми или цифровыми полосо выми фильтрами. Большее число ка налов в вокодере дает бол ь шую нату ральность и разборчивость. С каждо го полосового фильтра сигнал поступа ет на д е тектор и фильтр низких частот с частотой среза F cp . Таким образом, сигналы на выходе каждого канала из меняются с частотой менее F cp . Их пе редача возможна в аналоговом или ци фровом виде. В формант н ых вокодерах оги бающая спектра речи описывается ко м бинацией формант (резонансных частот голосового тракта). Основные пар а метры формант – централ ь ная частота, амплитуда и ширина полосы частот. В ортогональных вокодерах огибающая мгновенного спектра рас кладывается в ряд по выбранной си стеме ортогональных базисных функ ций. Вычисленные коэффициенты это го разложения передаются на прием ную сторону. Распространение полу чили гармон и ческие вокодеры, исполь зующие разложение в ряд Фурье. Вокодеры с линейным пред сказанием (LPC — Linear Prediction Coding, или липр е деры, основаны на оригинальном математическом аппа рате. Они получили наибольшее рас пространение и будут ниже рассмотре ны более п о дробно. Гомоморфная обработка позво ляет разделить генераторную и филь тровую фун к ции, образующие речевой сигнал. Из-за сложности определения па раметров генераторной функции по явились полувокодеры (VE — Voice Excited Vocoder), в которых вместо си г налов основного тона и тон-шума используе тся полоса речевого сигна ла. П о лоса частот до 800. .. 1000 Гц кодир у ется АДИКМ, АДМ (адапти в ная дельта модуляция) или с пом о щью линейного предсказания мал о го порядка, а в н е которых моделях передается в аналоговом виде. И з вестны разные типы п о лувокодеро в - липредеров : VELP — Voice Excit e Linear Prediction; RELP — Residue Excited Linear Prediction. Вокодеры VELP используют го лосовое возбуждение и коэффициент линейного пред сказания (КЛП). В во кодерах RELP по исходному сигн ал также вычисляются КЛП. Так как КЛП описывает фильтровую фун к цию, то сигнал ошибки (остатка) пре д сказания содер жит информацию о ге нерато р ной функции речи и передае т ся на приемную сторону (возможно е е сжатие методами АДИКМ, АДМ или помощью линейного предсказания м а лого п о рядка). Характеристики вокодеро в. Качество речи вокодеров являет функцией скорости передачи, про из водительности и задержки обработк и. Если вокод е ры предназначены для т е лефонии по Интернет , р азработчики продукции должны учи тывать эти характеристики, между которыми существует строгая зависимость. Например, низкоскоростные во кодеры обычно имеют большую за де ржку и более низкое качество речи, чем высокоскоростные. Скорость. Так как вокодер со в местно использует канал связи и часто перегруженную сеть предпр иятия или Интернет с другими информаци онн ы ми потоками, максимал ь н ая скорость должна была бы быть к ак можно ниже, особенно для приложе ний малых офисов. В настоящее вре мя большинство вокодеров работают на фиксированной скорости вне з а виси мо сти от харак т е ристик входного сигна ла, однако целью современных раз ра б о ток являются вокодеры с перем ен ной скоростью. Для приложений п о одновременной п е редаче речи и дан ных компромиссом является создание алгоритмов сжатия пауз в качес т ве части стандарта кодирова ния. Общим решением является ис пользование фиксированной скор о сти для речи и низкой скорости для фо новых шумов. Способ выполнения ме ханизма сжатия пауз важен для повы шения качества передачи речи, одна ко часто выи г рыш от компрессии пауз не реализуется. Проблемой является т о, что при больших фоновых шумах сложно провести различия между ре чью и шумом. Другая проблема за ключ ается в том, что если механизм с жатия пауз неправильно выявил со с т о яние речи, н а чало речи может быть «о трезано», что значительно ухудшает разборчивость кодирова н ной речи. Алгоритм Описание Детектор активн о сти речи (VAD) Определяет, является ли входной сигнал речью или фоновым шумом. Если сигнал считается речью, он к о дируется на полной фиксированной скорости; если сигнал считается шумом, он кодируется на более ни з кой скорости Генерация ко м фортного шума Механизм действует на стороне приемника для восс о здания основной хара к теристики фонового шума Способ генерации комфортного п ума должен быть таким, чтобы коде р и декодер оставались синхронизи рованными, даже если в течение не к оторого интервала времени передача д а нн ых не осуществляется. Это позвол яет сгл а дить переходы между сегмен т ами активной и неактивной речи. Производительность алгорит м a. Вокодеры частот выполняются на о с нове цифр о вых сигнальных процес соров (ЦСП). В соответствии с ком пьютерной терминологией их произво дительность может быть измерена в млн. операций в секунду, объеме па мяти с произвольным доступом ОЗУ и объеме ПЗУ. Производительность определяет стоимость вокодера, поэто му при определении типа вокодера для тех или иных приложений разр а бот чик должен сделать соответствующий выбор. В случаях, когда вокодер со вместно и с пользует процессор с дру гими приложениями, разработчик дол жен решить, сколько ресурсов мож но выделить для вокодера. Вокодеры, и с пользующие менее 15 млн. опера ций/с, считаются низкопроизводитель ными. Использующи е 30 или более млн. операций/с – высокопрои з води тельными. Увеличение производительности приводит к увеличению стоимости и большим з а тратам энергии. Энерге тические затраты важны для прило жений в портативной аппарат у ре, так как при больших затратах энергии со кращается время между подзарядками батарей или возникает необходимость использовать батареи большей емко сти, что, в свою очередь, приводит к большей цене и весу. При синтезе и исследовании по лосных вокодеров и полосных вокоде ров с ЛПК используются различные модели речевого процесса. Наиболее точная модель речи пре д ставляет со бой нестационарный случайный про цесс с медленно меняющейся дисперси ей и спектральной плотностью. При и с пользовании подобной модели мож но получить на и более точный резуль тат оценки качества вокодера. Ортогональные вокодеры Речевой сигнал можно промо делировать откликом на возбуждаю щий сигнал линейной системы с им пульсной характеристикой с пере менными параметрами, так что выход ной сигнал равен свертке возбу ждающего сигнала и импульсного от клика голосового тракта при условии, что форма голосового тракта неизмен на. Все разнообразие звуков получа ется путем изменения формы голосо вого тракта. Если форма голосового тракта изменяется медленно, то на ко ротких временных интерв а лах аппрок симация выходного сигнала сверткой возбуждающего сигнала и импульсно го отклика голосового тракта справед лива. Если на коротком отрезке вре мени входной си г нал является перио дическим, с постоянной входной часто той, то выходной сигнал также являет ся периодическим. Такая модель спра ведлива для описания звонких звуков. Анал о гично временному, преобразова ние речи может быть описано в частот ной области, п о скольку преобразова ние Фурье речевого сигнала равно про изведению преобразований Фурье воз буждающего сигнала и импульсного отклика голосового тракта. Частотная характеристика голо сового тракта является гладкой функ цией частоты и характеризуется аку стическими резонансами, называемы ми формантными частотами. Поскольку при изменении различ ных звуков форма голосового тракта изменяется, то с течением времени бу дет изменяться и огибающая спектра речевого сигнала. Так, в частности, при изменении периода сигнала, воз буждающего звонкие звуки, частотный разнос между гармониками спектра бу дет также изменяться. Таким образом, для адекватного описания речевого сигнала надо не только знать вид его спектра, но и то, как он изменяется во времени. Основным параметром речевого сигнала, возбуждающего звонкий звук, является разнос гармоник основно го тона, а характеристики голосового тракта достаточно полно определяют ся частотами формант. Изложенное позволяет сделать вывод об удобстве частотного метода описания и преобразования речевых процессов на основе кратковременно го спектрального анализа. Рассмотрим основные принципы, положенные в основу построения о р то гональных вокодеров. Запишем кратковременное пре образование Фурье дискретиз и рованного речевого процесса в виде Здесь весовая функция, сдвига емая во времени. Соотношение ( 2 . 1 ) может быть пе реписано в двух формах. Первая фор ма имеет вид свертки где – обозначает свертку. Реализация ( 2 . 2 ) может быть представлена в виде рис. 2 .2,а и озна чает, что спектр речевого процесса со ответствует свертке весовой функции с сигналом , пром о ду лирован ным колебанием . Другая форма записи ( 2 .1) полу чается, если ее переписать в виде Система (2 .3) может быть реализова на в виде, представленном на рис. 2 .2 ,б и озн а чает преобразование речево го сигнала полосовым фильтром центральной частотой щ и им пульсной характеристикой . Реализации, представленные на рис. 2.2,а,б , отличаются тем, что пе р вом случае используется цифров ой фильтр нижних частот с импульс ной х а рактеристикой , а во вто ром – полосовой фильтр, что удобно при п а ра л лельном измерении на н е скольких частотах щ . Используя алгоритмы БПФ, оцен ку кратковременного преобразован ия Фурье на равноотстоящих частот ах можно за писать в виде где Формулу ( 2 .4) можно преобразовать к виду где можно рассматривать как характери стику комплексного ПФ с це н тральной част о той . Исходный речевой сигнал можно восстановить, сложив сигналы на всех выходах гребенки ПФ так, что Формула (2 .4) является осно вополагающим уравнением анализа с кра т ковременным преобразованием Фурье, а формула (2 . 6 ) – основным уравн е нием синтезатора. Гомоморфные вокодеры В основе гомоморфных вокодеров л ежит метод нелинейной (гом о морф но й) фильтрации. Общая структу ра гомоморфных систем, предназн а ченных для инверсной фильтр а ции речевых сообщений, представлена на р ис. 2 .4. Свойства системы определяе тся соотношением , г де и – Z -преобразования и соответственно. Сигнал на выходе системы обычно называют комплексным ке п стром . Сист е ма является линейн ой, а система – обратной к сис теме . Удобства подобных преобразова ний для анализа и синтеза рече вых процессов об у слов лен ы рядом свойств комплексного кепстра. В част ности: комплексный спектр последова тельностей, имеющих Z -преобразова ние, в основном сосредоточен вблизи нуля; последовательность, состоящая из ра в ноотстоящих импульсов, имеет комплексный кепстр того же вида; для в ы числения комплексного кепстра последовательности с мини мальной фазой можно обойтись ло гарифмом действительной, а не ком плексной функции. Выше было показано, что отрез ки речевых сигналов могут быть пред ставлены о т кликом линейной системы. Так, в случае звонких звуков возбу ждаемый сигнал имеет вид послед о ва тельности импульсов. В случае глу хих звуков возбуждающий сигнал мо жет быть смоделирован в виде шума. Обычно предполагают, что пере даточная функция линейной системы, имитиру ю щей голосовой тракт, опи сывается рациональной функцией Z. В результате, согласно п е речисленным выше свойствам кепстра, комплексный кепстр импульсного отклика голос о во го тракта сосредоточен вблизи нуля. В случае звонкого звука комплекс ный кепстр возбуждающего сигнала состоит из импульсов, повторяющихся с периодом основного тона. То есть в случае звонкой речи комплексные кепстры возбуждающего сигнала и им пульсного отклика голосового тракта занимают неперекрывающиеся времен ные сигналы и могут быть извлечены из общего кепстра с помощью линей ной системы L. Механизм восстановления речево го сигнала с помощью кепстров м о жет быть п о яснен следующим образом. Поскольку спектр звонкого звука формируется умножением огиба ю щей, характеризующей состояние голосово го тракта, на функцию, описыв а ющую тонкую структуру спектра возбужда ющего сигнала, то логарифм спектра равен сумме логарифмов огибающей спектра и спектра возбужда ю щего сиг нала. Логарифм спектра возбуждающе го сигнала изменяется с ростом часто ты гораздо быстрее логарифма огиба ющей спектра. Кроме того, он пери одичен. В результате обра т ное пре образование Фурье от логарифма оги бающей спектра сконцентрировано по оси времени вблизи нуля, в то вре мя как обратное преобразование от ло гарифма спектра возбужда ю щего сиг нала является линейчатым, отража ющим его периодичность в частотной области. Для выделения логарифма огиба ющей спектра из полного спектра ло гарифма его «взвешивают» окном, от крытым только в начальном участке кепстра (вблизи нуля). Эту процедуру называют «сглаживанием кепстра». В системе анализа-синтеза, осно ванной на гомоморфной фильтрации, начальные значения кепстра служат параметрами, описывающими состоя ние голосового тракта или огибающую спектра речевого процесса. Значения кепстра при больших значениях времени используются для оценки пар а метров возбуждающего сигнала. Таким образом, основная идея го моморфной обработки заключается в разделении или обратной свертке сег мента речевого сигнала с компонента ми, представляющими с о бой импульс ную характеристику и источник возбу ждения. Это достигается путем линей ной фильтрации обратного преобразо вания Фурье логарифма спектра сигна ла (кепстра). Гомоморфные вокодеры, как и любые другие вокодеры, в ко торых осуществляется разд е ление па раметров речи на сигнал возбуждения и параметры речевого тракта, позволя ют достигнуть малой скорости переда чи и дополнительной гибкости при об работке речи ц е ной усложнения алго ритмов преобразований. Кодирование с линейным предсказанием (LPC — Linear Predictive Coding). Рекомендации G.728, G.729, G.723 При кодировании с линейным п р едсказанием моделируются различн ые параметры человеческой речи, кот орые передаются вместо отсчетов или их разности, требующих значительно б ольшей пропускной способности кана л а. Следует заметить , что буферы, н е о бх одимые для хранения потоков данн ых, увеличивают задержку кодирова н ия . Первые реализации LPC, такие к ак LPC-вокодер, были предназначены ля передачи данных на низких ско ростях – 2,4 и 4,8 кбит/с. На скорос ти 2,4 кбит/с обеспечивался приемле м ый уровень разборчивости речи, од н ако кач е ство, естественность и узнав аемость речи недостаточны. Посколь к у э тот м е тод сильно зависит от точн ого воспроизведения человеческой ре ч и, его ре а лизации, такие как LPC- в окодер, не подходят для сигналов н еречевого пр о исхождения, например с игналов модема. Широко используемый в настоя щее время метод кодирования с ли н е й ным предсказа нием работает с блок ам и отсчетов, для каждого из котор ых вычисляется и передается часто т а осн овного тона, его амплитуда и инфо рм а ция о типе в озбуждающего возд ействия. Структура синтезатора речи с ли н ейным предсказанием показана на рис. 2 .5. Здесь управляющий вход или сигнал возбуждения смоделирован в виде последовательности импульсов на частоте основного тона (для вокал и зо ванной речи) или случайный шум (для невокализированной речи). Комбинированные спектральные составляющие потока от голосовых связок, гол о сового тракта и звукообра зования за счет губ могут быть пред ставлены цифровым филь т ром с изме няющимися параметрами и передаточ ной функ цией где Параметрами, характеризующими голосовой тракт, являются коэфф и ци енты зн а менателя и масштабный мно житель G. Преобразуя уравнение (2.7 ) во вре менную область, можно получить раз ностное уравнение для импульсной ха рактеристики , соответству ю щей : Уравнение (2 . 8 ) называют раз ностным уравнением LPC. Оно устана вливает, что текущее значение выход ного сигнала может быть опреде лено суммированием взв е шенного те кущего входного значения и взвешен ной суммы предыдущих выходных вы борок. Следовательно, в LPC анализе проблема может быть сформулирова на так: даны измерения сигнала , требуется определить параметры пере даточной функции системы . Линейное предсказание при ана лизе речевых сигналов обычно исполь зуется в двух направлениях. Одн о из них – проведение кратковременно го спектрального ана лиза речи. Вто рое направление – построение систем анал и за-синтеза. Параметры, входящие в функци ю п редсказания, через формулу (2 . 7 ) определяют па раметры передаточной функции голосового тракта. Может быт ь предложено несколько вариантов структуры анализатора, пригодны х для построения синтезатора и реали з ующих передаточную функцию голо с о во го тракта. Структуру прямой фор м ы можно получить непосредственно п о коэффициентам функции предска зания. С другой стороны, дробь (2 . 7 ) можно преобразовать в произведен ие и получить структуру каскадной формы. Во всех случаях параметры синтезатора непрерывно обновляются при смене анал и зируемых кадров речи . Чтобы избежать эффектов, связанны х со скачками значений пар а метров, необходимо плавно изменять параметр ы с помощью интерполяции при перехо де от одного участка речи к другому. При прямой форме синтеза може т возникать ситуация, соответствующая не усто й чивому фильтру, хотя исход ные значения относились к устой чиво му фил ь тру. В каскадной структур е устойчивость обеспечивается пр о ще.Определение параметров возбу ждающего сигнала в системе анализа-синтеза с лине й ным предсказанием, как правило, основывается на иссле довании сигнала ошибки, получаемого пропусканием исходного речевого сиг нала через фильтр с характеристикой, обратной той характеристике, кот о рая аппроксимирует передаточную функ цию голосового тракта. Получе н ный сигнал ошибки является аппроксима цией сигнала, возбуждающего реч е вое колебание. Для опред е ления параме тров возбуждающего сигнала можно применить один из извес т ных алгорит мов различения звонкой и глухой ре чи, а также оценки периода основного тона, например на основе рассмотрен ного выше корреляционного ан а лиза сигналов во временной области. Кодирование речи методами анализа через синтез (AbS) При классификации методов ко дирования речи на скоростях 4,8... ...16 кбит/с в ы деляют две основные группы — методы анализа и синтеза (AaS — Analysis-and-Synthesis) и ме тоды анализа через синтез (AbS – Analysis-by-Synthesis). Хотя такие схе мы AaS, как RELP, АРС, АТС и SBC успешно раб о тают на скоростях 9,6... 16 кбит/с, при скоростях ниже 9,6 кбит/с они не м о гут обеспечивать хорошее качество речи. Это объяс няется двумя причинами: 1) кодируе мая речь не анализируется на предмет эффективности, т.е. не пр о изводится коррекция искажений в восстановлен ной речи; 2) ошибки, нако п ленные в пр е дыдущих фреймах, не учитывают ся в момент анализа текущего фрейма и беспрепятстве н но переходят в следу ющие фреймы. В схемах AbS, особенно в AbS-LPC, эти факторы, как правило, учтены. В этих схемах и с пользуется процедура оптимизации типа «замкну тая петля» для нахождения возбужда ющего сигнала, который при возбужде нии моделиру ю щего фильтра создает оптимальный речевой сигнал. Это по зволяет схемам AbS более успешно ра ботать на скоростях 4,8.. .9,6 кбит/с. Методы AbS подходят не только для кодирования речи, но могут так же использ о ваться для оценки и иде н тификации. Основная идея AbS тако ва. Во-первых, допускается, что си г нал можно исследовать и представит ь в какой-либо форме, например в ви де временных или частотных домено в . Зат ем с о зданная модель сигнала под вергается оптимиз а ции (подгонке), как показано на рис. 2.6 . Модель имеет нес колько параметров, изменение ко торых приводит к изменению формы мод елируемого сигнала. Для нахожде ния модели сигнала, которая имеет ту же фо рму, что и модель истинного сиг нала, используют проце дуры миними зац ии ошибки. Путем изменении пара метров модели находят такой их набор , при котором синтезированный сигнал с минимал ь ной погрешностью совпада ет с ре альным. Следовательно, когда до стиг нуто такое совпадение, параметры модели принимаются за параметры истинного сигн а ла. Базовая структура системы ко дирования AbS-LPC представлена на рис. 2 . 7 . В этой модели есть три ком поне нта, которые можно изменять, до бива ясь максимального подобия синте зированного сигнала с исходным: 1) нестационарный фильтр; 2) возбуждающий сигнал; 3) процедура минимизации, осно ванная на восприятии. Так как эта модель требует ча стого обновления параметров для по лучения хорош е го совпадения с исход ным сигналом, процедура анализа вы полняется поблочно, т.е. вхо д ной рече вой сигнал разбивается на блоки вы борок. Длина анализируемых блоков (фре й мов) и периодичность их обно вления определяют скорость передачи (емкость) схемы кодиров а ния. Алго ритм работы AbS-LPC следующий: 1. Инициализировать LPC и то нальный фильтры (нестационарные фильтры), т.е. установить уровень ну ля или минимального случайного шу ма; 2. Фрейм выборок речи заносится в буфер и на основании LPC -анали за вычисляе т ся набор LPC -коэффи циентов; 3. Используя вычисленные LPC-коэффициенты, формируется инверс ный LPC-фильтр для вычисления пер вого восстановленного после квантова ния остатка. Если для поиска подхо дящего тона используется «замкнутая петля», надобность в этом шаге отпа дает. 4. Так как LPC фрейм обычно слишком велик для эффективного ана лиза, при определении возбуждения фрейм разделяется на целое число под ф реймов; 5. Для каждого подфрейма: а) рассчитываются параметры тонального фильтра (долгосрочного предсказателя), такие, как задержка и связанный с ней коэффициент мас штабирования; б) тональный фильтра вместе с LPC-фильтром образуют каскадный фильтр, с п о мощью которого опре деляется наилучшее вторичное возбу ждение, т.е. такое, которое м и нимизи рует разницу между синтезированной и исходной речью. 6. Окончательно синтезирован ная речь получается при пропускании оптимального вторичного возбуждения через каскадный фильтр, параметры которого остались от синт е за предыду щего подфрейма. 7. Повторение шагов 2-6 для сле дующего фрейма последовательности. Таким образом, и на стороне коде ра, и на стороне декодера синтезир у ет ся речь, что необходимо для обновле ния содержимого памяти нестационар ных фильтров. В результате и кодер, и декодер имеют идентичное содержа ние памяти. В противном случае для общей синхронности содержимое памя ти пришлось бы передавать на деко дер. Действительно, главный вопрос в схемах AbS-LPC — как сохранить это одинаковое состояние в кодере и деко дере, когда средства передачи несовер шенны, например, в системах подвиж ной р а диосвязи, где очень высока доля ошибок. Может показаться, что схема AbS-LPC не является полноценной сх е мой «анализа через синтез». Это связа но с тем, что в действительности про цедуры последовательны, т.е. сначала вычисляются параметры фильтра, ко торые фиксируются, и только затем следует вычисление методом «анали за через синтез» вторичного возбужде ния. Хотя вторичное возбуждение вы полняется по исходному сигналу, оно ограничено оптимальностью и с пользу емых фильтров. Поэтому, в идеале, требуется наилучшая комбинация как возбуждения, так и фильтров, которая означает одновременную оптимиз а цию всех параметров. Эта процедура очень сложна, насыщена вычислени я ми, по этому ее обычно разбивают на после довательные этапы. Главное отличие классических во кодеров от кодеров AbS-LPC состоит в том, что в классических вокодерах воз буждение разделяется на вокализ о ван ные (импульсное возбуждение) и не вокализованные (возбуждение сл у чай ным шумом), что является первопри чиной точности модели. В AbS-LPC такое деление не явно, и поэтому воз буждающий сигнал может носить лю бой характер — от псевдоимпульсного до шумоподобного, что позволяет син тезировать речь более высокого каче ства. Векторное квантование и кодовые книги Когда набор зн ачений амплитуд, дискретизирован ных по времени, кван туется с о вместно как единичный век тор , такой процесс называется век торным квантованием (VQ – vector quantisation), известный также как бло ч ное к вантование . Будем считать, что N -мерный вектор с дей ствительными значениями («т» озна чает транспонирование); – случайным образом меняющий ся компонент с непрерывной амплиту дой. При векторном квантовании век тору ставится в соответствие другой N -размерный вектор , имеющий дей ствительные значения и дискретную а м плитуду. Таким образом, кванту ется как . Другими словами, ис пользуется для представления . Обычно выбирается из конечно го набора значений , где – размер кодовой книги, а – набор векторов кодовой книги. Набор Y называется кодовой книгой или шаблоном. Размер кодовой книги можно счи тать равным числу уровней скаля р ных квантов а т е лей. Для создания подоб ной кодовой книги N -размерное про странство разделяется на L областей или ячеек , и вектор одн о значно связывается с ячейкой . Квантователь обозначается вектором код о вой книги , если находит ся в : , если . Процесс создания кодовой книги известен также как «обучение» или «настройка» кодовой книги. В каче стве примера на рис. 2 . 9 иллюстриру ется разделение двумерного простран ства (N = 2) для целей векторно го квантов а ния. Область, обведенная жирной линией, — ячейка . При векторном ква н товании любой входной вектор , лежащий в ячейке , кван туется как . Другие векторы кодовой книги, соответствующие другим ячей кам, показаны точками. Если размер вектора , век торное квантование трансформируется в скалярное квантование. Скалярное квантование имеет особое свойство, за ключающееся в том, что хотя ячейки могут иметь разные размеры (размеры ступеней), все они имеют одинаковую форму. Однако при векторном кванто вании ячейки в двух измерениях могут иметь разные формы, что дает ве к тор н ому квантованию преимущество над скалярным квантованием. Гибридные кодеры Чтобы избавиться от недостатков кодеров формы и вокодеров, был раз работан ги б ридный метод кодирова ния , объединяющий преимущества обо их методов. По виду анал и за гибрид ные кодеры подразделяются на два класса: с частотным разделением и време н ным разделением. Г ибридные кодеры с частотным разбиением Главная концепция кодирования с частотным разбиением состоит в раз делении р е чевого спектра на частот ные полосы или компоненты. Со ответственно могут использ о ваться либо набор фильтров, либо блок-преобразователь. После кодирования и декодир о вания эти составляющие ис пользуются для точного воспроизве дения модели входного сигнала путем суммирования сигналов, полученных на выходе фильтров, или инверсных значений, полученных после преобра зования. Главное допущение при ко дировании с ча с тотным разбиением со стоит в том, что сигнал, подвергаемый кодированию, очень медле н но изменя ется во времени и может быть описан мгновенным спектром. Это связано с тем, что в большинстве систем, а осо бенно в системах реального времени, в текущий момент доступен только крат ковременный сегмент входного сигна ла. В случае использования набора фильтров частота щ фиксирована, так что , а сигнал частотного доме на представляет собой сигнал на выходе постоянного во времени ли нейного фильтра с импульсной харак теристикой , возбуждаемого моду лированным сигналом : где определяет ширину полосы ре чевого сигнала вокруг це н траль ной частоты и является импульс ной характеристикой анализиру ю ще го фильтра; знак озн а чает свертку функций. При использовании блока, реали зующего преобразование Фурье, вре менной индекс h фиксируется на зна чении h = h o , a представляет с о бой обычное преобраз о вание Фурье взвешенной последовательности : где – преобразование Фурье. Здесь определяет отрезок времени анализа относительно м о мен та врем е ни h = h o и является «окном анализа» . Уравнение синтезирующего набо ра фильтров может быть представлено как инте грал (или сумма) компонентов – крат ковременных спектров с не сущими частотами . Для синтеза с помощью блока пре образования уравнение выглядит сле дующим о б разом: Его можно интерпретировать как сум му инверсных преобразований Фурье, прим е ненных к временным сигналам . CELP (Code Excited Linear Prediction) Метод кодирования CELP основан на линейной авторегрессионной м о де ли проце с са формирования и воспри ятия речи и входит в группу мето дов анализа через синтез, ре а лизую щих современные и эффективные ал горитмы информационного сжатия ре чевых сигналов. Алгоритмы данного класса з а нимают промежуточное поло жение между кодерами формы сигна ла, в кот о рых сохраняется форма коле бания речевого сигнала в процессе его дискрет и зации и квантования, и пара метрическими вокодерами, основанны ми на пр о цедурах оценки и кодирова ния небольшого числа параметров ре чи, объед и няя преимущес т ва каждого из них. Линейная авторегрессионная мо дель процесса формирования речевых сигналов с локально постоянными на интервалах 10. . .30 мс параметрами получила в настоящее вр е мя наиболь шее распространение. Для этой моде ли где М — порядок модели; – последовательность отсчетов речево го сигнала; – коэффициенты линейного предсказания, характери зующие свойства голосового тракта; – порождающая последователь ность или сигнал возбуждения голосо вого тракта. Авторегрессионная модель речево го сигнала описывает его с достаточ но высокой степенью точности и по зволяет применять развитый матема тический аппарат линейного предска зания. При этом обеспечивается более высокое качество декодированной ре чи, у с тойчивость к входному акустиче скому шуму и ошибкам в канале свя зи по сравнению с системами с иными принципами кодирования. В рамках данной модели наибо лее перспективными методами кодиро вания считаются методы «анализа че рез синтез» с использованием многои м пульсного возбуждения. Н о визна мно гоимпульсного возбуждения заключа ется в том, что в сигнале остатка ли нейного предсказания выбираются та кие его значения, которые наиболее важны для п о вышения качества синте зированной речи. При этом использу емая в процедуре анализа ч е рез син тез схема кодирования, помимо учета ошибок квантования, включает крите рии субъективной оценки качества ре чевого сигнала, что обеспечивает есте ственное звучание синтезированной ре чи. При многоимпульсном возбужде нии сигнал остатка линейного пре д ска зания представляется в виде последо вательности импульсов с неравн о мер но распределенными и н тервалами и с различными амплитудами (около 8-10 импульсов за 10 мс). Амплитуды и по ложение этих импульсов определ я ют ся на покадровой основе (кадр за ка дром). Осно в ным преимуществом мно гоимпульсного возбуждения является то, что она определяется для любого речевого сегмента и при этом не тре буется знаний ни о вокализованности данного сегмента, ни о периоде основ ного тона. Методы анализа через синтез ис пользуют синтезатор (декодер) ре чевого сигнала как составную часть устройства кодирования. При этом зад а ча анализа сводится к проц е дуре оценки передаваемых в канал связи па раметров речи, проводимой в соответ ствии с нек о торым критерием рассо гласования между исходным и декоди рованным сигналами. Для учета спе цифики слухового восприятия в каче стве критерия рассогласования обычно и с пользуется взвешенная по частоте квадратическая ошибка где и – преобразование Фу рье исходного и синтезированн о го ре чевых сигналов; – весовая функ ция. Принимая во внимание важ ность для восприятия речи не только формант, но и межформантных обла стей, для алгоритмов анализа речи че рез синтез в качестве эталонной была предложена весовая функция следую щего вида: где – передаточная харак теристика синтезирующего фильтра; г – параметр, регулирующий энер гию ошибки или шум квантования. Фактич е ски при таком окне взв е шива ния подчеркивается ошибка в межфор мантных областях и тем самым обеспе чивается более равномерное по часто те распр е деление отношения мощности полезного сигнала к мощности ошиб ки код и рования. В алгоритмах кодирования с «ана лизом через синтез» повышение э ф фективности информационного упл от н ения речевых сигналов производит ся, преимущественно, за счет сокраще ния избыточности последовательно сти x(h) , которая осуществляет возбужде ние синтезирующего фильтра л и нейного предсказания, формиру ю щего огибающую сиг нала, с коэффици е н том передачи Для этой цели применяется так же дополнительный фильтр с характ е р и стикой с коэффициентом предсказания и задержкой на период основного тона T . Фильтр вы полняет функции генерато ра квазипериодических колеб а ний г о лосовых связок при произ ношении во кализованных звуков. В зависимости от способа опис а ния сигнала x(h) , поступающего на вход фильтра (3 .9) , можно выделить алгоритмы кодирования: с возбуждением прореженной по следовательности импульсов — MP LP ( Mul ti Pulses Linear Prediction); с самовозбуждением — SELP (S elf Excited Linear Prediction); с кодовым возбуждением — CEL P Экспериментально установлен о, что кодовое возбуждение обеспечив а ет наиболее высокое качество кодир о вания речевого сигнала, в том чис ле и при наличии входных ак у сти ческих помех. CELP наиболее эффективно прим еняется при передаче речевого сиг ала в диапазоне скоростей от 4 до 6 кбит/с. По существу, в алгоритме CELP п рои зводится векторное квантование по следовательности , т.е. позиц и и выборок и их амплитуды в сигн але многоимпульсного возбуждения оптимизируются одновременно. При том отрезок (сегмент) сигнала возбу ждения выбирается из предварительно ф о р мированной постоянной совокупн ости – кодовой книги, содержащей дост а точно большое количество реали з аций, например, некоррелированного г ау с совского шума. Выбранная реали з ация усиливается и подается на вход ц е почки фильтров (3 .9) и ( 3 .8). Поиск оптимальных значений и Т синтезатора основного тона, к о эф фициента усиления и номера элемента к одо вой книги осуществляется п о средс твом «анализа через синтез». В ка н ал связи передаются номер (индекс) э лемента кодовой книги с соответству ющим ко эффициентом усиления, п а рам етры синтезатора основного тона, а т акже коэффи циенты линейного предс казания, характеризующие состояние г олосового тракта. Являясь одной из самых распро страненных, схема с линейным пред сказанием и возбуждением от кода CELP является лучшей схемой AbS-LPC для низких скоростей. В CELP имеется линейный фильтр с изменяю щимися во времени параметрами для выделения грубой и точной спектраль ной и н формации. Возбуждение выпол няется путем перебора всех векто ров из во з буждающей кодовой кни ги. Векторная последовательность, обе с печивающая минимальную взве шенную ошибку , считается оптималь ным возбуждением. Процедура AbS в CELP требует больших вычислитель ных ресурсов, а осно в ная кодовая кни га является результатом очень боль шой исследовательской работы. Хо тя CELP являе т ся сложным методом, он способен синтезировать речь с высо ким качеством даже на ни з ких скоро стях. Вариант кодирования CELP вы бран для многих систем голосовой свя зи. Хотя CELP, главным образом, ориентирован на низкие скорости, на нем базирую т ся многие стандарты. Испытания показывают его приемле мость и для высоких скоростей. Стан дарт для скорости 16 кбит/с с ма лой задер ж кой (LD-CELP — Low-Delay CELP) будет рассмотрен ниже. Рекомендации G.723.1 и G.729 Рекомендация G.723.1 определяет кодовое представление, которое м о жет испол ь зоваться на очень низких скоро стях для компрессии речевых или дру гих аудиосигналов в средствах муль тимедиа. В кодере, реализующем ре комендации G.723.1, принципиальным приложением является низкоскорост ная видеотелефония как часть общего семейства стандартов Н.324. Кодер обеспечивает работу на двух скоростях — 5,3 и 6,3 кбит/с. Более высокая скорость обеспечивает лучшее качество. Тем не менее, и бо лее ни з кая скорость обеспеч и вает хо рошее качество и предоставляет разра ботчикам систем связи дополнитель ные возможности. И кодер и декодер должны об я зательно поддерживать обе скорости. Существ у ет возможность пе реключения скоростей. Возможно так же изменение рабочей скорости с ис пользованием прерывистой передачи и заполнение шумом пауз. Кодер G.723.1 оптимизирован для сжатия речи с высоким качеством на устано в ленной скорости при ограни ченной полосе. Музыка и другие ау диосигналы также могут быть под вергнуты компрессии с использовани ем этого кодера, однако, не с таким же в ы соким качеством, как речь. Кодер G .723.1 преобразует речь или другие аудиосигналы во фрей мы длительностью 30 мс. Кроме то го, существует возможность просмотра фре й мов на скорости 7,5 мс, что приво дит к общей алгоритмической задерж ке 37,5 мс. Дополнительные задержки во з никают из-за: времени, затрачиваемого на обра ботку данных в кодере и декодере; времени передачи по линии связи; дополнительной буферной за держки протокола мультиплексиров а ния. Кодер G .723.1 предназначен для работы с цифровыми сигналами п ос ле предварительной фильтрации п о лосы аналогового телефонного канала (р е комендации G.712), ди с кретиза ции с частотой 8 кГц и преобразования в 16-битную линейную ИКМ последов а тельность для пе редачи на вход кодера. Выходной сигнал декодера пре образуется обратно в анало говый сиг на л ан а логичным образом. Другие ха рактеристики входа/выхода такие ж е, как и определенные рекомендация ми G.711 для 64-битно й ИКМ. Перед к о диров а нием дан ные должны быть преобразованы в 16-битную ИКМ после довател ь ность или в соответст вую щи й формат после декодирования из 16- битной ИКМ. Кодер, основанный на прин ци пах кодирования методом «анализ че рез синтез» с линейным предсказан и ем, минимизирует взвешенный сигна л ошибки, работает с блоками (фрей м ами) по 240 выборок каждый, что в ч а стоте дискретизации 8 кГц эквив а лентно длительности 30 мс. Кажды й фрейм проходит через фильтр вер х них частот для удаления постоянно й составля ю щей , а затем разделяется на четыре субфрейма по 60 выбор ок в к а ждом. Для каждого субфрейм а используется фильтр десятого поря д ка кодера с лине й ным предсказание м. Для последнего субфрейма коэффи ци енты LPC-фильтра квантуются с и с пользованием прогнозирующего ква н тизатора вектора разб и ения (PSVQ ). Квантованные LPC -коэффициенты ис по льзуются для созд а ния кратковре менного взвешивающего фильт ра, ко торый применяется для фил ь траци и всего фрейма и для получения взве ш енн ой оценки речевого си г нала. На о снове этой оценки для каждых двух с убфреймов (120 выбо рок) вычисл я етс я период основного тона . Оценка т она представляется бл о ками по 120 в ыборок. Период основного тона ле ж ит в диапазоне от 18 до 142 в ы борок. С помощью вычисленной заранее оц енки периода тона создается фильтр ф ормы гармонического шума. Комби н ация из фильтра синтеза LPC, филь тра взвешивания фор мант, фильтра формы гармонического шума и с польз уется для синтеза импульсной харак теристи ки, необходимой для дал ь нейш их вычислений. Оценки периода основного тона и импульсного отклика использ у ю тся при р а боте предсказателя тона пя того порядка. Период тона вычи сляется как приращение отн о ситель ной оце нки периода основного тона. На д екодер передаются тоновый период и ра з ностные величины. На следующем этапе аппроксимируются непериодиче ские соста в ляющие возбуждения. Для высокой скорости используется много импульсное возбуждение с квантов а ни ем и алгоритмом максимального прав доподобия (MP-MLQ), а для низких скоростей – алгебраическое кодовое возбуждение. Рекомендации ITU-T G.729 со держат описание алгоритма кодирова ния речевых сигналов на скорости 8 кбит/с с использованием алгебраиче ского линейного предсказания с ко довым возбуждением с сопряженной структурой (CS-ACELP). Подобный кодер создан для ра боты с цифровыми сигналами, полу ченными после предварительной об работки аналогового входного сигна ла фильтром низкой частоты, дискре тизации с частотой 8 кГц и даль нейшем преобразованием в линейную ИКМ для подачи на вход кодера. Вы ходной сигнал декодера конвертирует ся обратно в аналоговый сигнал по добным же образом. Другие харак теристики входа/выхода определяют ся аналогично р е комендациями G.7 11 для ИКМ последовательностей со ско ростью 64 кбит/с. После декодирова ния данные должны быть преобразо ваны из 16-битовой линейной ИКМ в тр е буемый формат. Кодер CS-ACELP основан на моде ли с линейным предсказанием с к о до вым возбуждением (CELP) и работает с фреймами речи по 10 мс, соотве т ству ющих 80 выборкам. К а ждый фрейм речевого сигнала длительностью 10 мс анализируется для выделения пара метров CELP-модели (коэффициенты фильтра линейного предсказания, ин дексы адаптивной и фиксированной к о довых книг и коэффициенты усиле ния). Эти параметры кодир у ются и пе редаются на приемную сторону. Рас пределение бит параметров кодера по казано в табл. 3 .1. Таблица 3 .1 Распределение бит для алгоритма CS-ACELP на скорости 8 кбит/с (фреймы по 10 мс) Параметр Кодовое слово Су б фрейм 1 Су б фрейм 2 В целом на фрейм Пары линейного спектра LU, L1, L2, L3 Задержка адаптивной кодовой книги P1, Р2 8 5 13 Проверка задержки тона Р0 1 1 Индекс фиксированной кодовой книги CT, С2 13 13 26 Запись фиксированной кодовой книги S1, S2 4 4 8 Усиления кодовой книги (этап 1) GA1, GA2 3 3 6 Усиления кодовой книги (этап 2) GBl, GB2 4 4 8 Всего 80 На стороне деко дера эти параметры используются для восстановления параметров возбужде ния и фильтра синтеза. Как показа но на рис. 3 .3, речь восстанавливает ся при фильтрации этого возбуждения фильтром кратковр е менного синтеза, который основан на фильтре линей ного предсказания дес я того порядка. Долговременный фильтр (или фильтр синтеза тона) выполн я ется с использо ванием адаптивной кодовой книги. По сле синтеза речи пр о исходит дополни тельное сглаживание в постфильтре. Входной сигнал посту пает на фильтр высоких частот и мас штабируется в блоке предварительной обработки, после чего подвергается по следующему анализу. Анализ с линей ным предсказанием (LP-анализ) вы полняется один раз для фрейма дли тельностью 10 мс с целью вычисле ния к о эффициентов фильтра линейно го предсказания, которые з а тем пре образуются в пары линейного спектра (Line Spectrum Pairs, LSP) и квантуют ся (18 бит) с использованием двухэтап но г о векторного квантования с пре д ска занием. Сигнал возбуждения выбирается с использованием поисковой проц е дуры «анализ через синтез», при кото рой ошибка между исходной и вос ст а навливаемой речью минимизирует ся в соответствии с измерением взве ше н ных искажений. Это выполняется путем фильтрации сиг нала ошибки фил ь тром взвешивания, коэффици енты которого извлечены из некван тован ного LP-фильтра. Параметры возбуждения (параме тры фиксированной и адаптивной к о дов ых книг) определены для субфрей ма длительностью 5 мс (40 выборок) . Коэ ффициенты квантованного и неквантованного фильтра с линейным пре д с казанием используются для вто рого субфрейма, в то время как в первом субфрейме используются интерпо лированные коэ ф фициенты LP- фильтра. Задержка основного тона оцени вается один раз для фрейма длиной 10 мс на основе взвешенного речево го сигнала. Затем для каждого суб фрейма повторяются следующие опе рации. Искомый сигнал вычисля ется при фильтрации остаточного ли нейного предсказания во взвешиваю щем фильтре синтеза . При фильтрации ошибки начальные состо яния этих фил ь тров обновляются. Это эквивалентно результату выделения нулевого входн о го отклика взвешива ющего фильтра синтеза из взвешенно го речевого сигн а ла. Вычисляется им пульсная характеристика взвеши вающего фильтра синтеза, после че го выполняется анализ тона для нахо ждения задержки ада п тивной кодовой книги путем анализа значения задерж ки вблизи основного тона с использова нием искомого сигнала и импульс ной х а рактеристики . Задержка тона кодируется восемью битами в пер вом субфрейме и п я тью битами во вто ром субфрейме. Искомый сигнал используется при поиске фиксирован ной кодовой книги для нахождения оптимального во з буждения. Семна дцатибитовая алгебраическая кодовая книга и с пользуется для возбу ж дения фиксированной кодовой книги. Коэф фициенты усиления вкладов адаптив ной и фиксированной кодовых книг — это векторы, квант о ванные семью би тами. Индексы параметров кодовых книг вы деляются из принятого потока бит и декодируются для получения следую щих параметров кодера, соотве т ствую щих речевому фрейму длиной 10 мс: LP-коэффициенты (коэффицие н ты ли нейного предсказания), две частичные задержки тона, два вектора фи к сиро ванной кодовой книги и два набора ко эффициентов адаптивной и фи к сиро ванной кодовых книг. Коэффициенты LSP интерполируются и преобр а зуют ся в коэффициенты LP-фильтра для каждого субфрейма. Для каждого суб фрейма выполняются следующие ша ги: восстанавливается возбуждение путем добавления векторов адаптив ной и фикс и рованной кодовых книг с соответствующими им коэффициента ми усиления; восстанавливается речь путем пропускания через фильтр LP-синтеза; восстанавливаемый речевой сиг нал пропускается через ступень пост обработки, к о торая включает адаптив ный постфильтр, состоящий из долго временного и кратковреме н ного пост фильтров синтеза, фильтр высоких ча стот и операцию масштабирования. Кодер кодирует речь и другие ау диосигналы по фреймам длительно стью 10 мс. В результате осуществля ется задержка 5 мс, что приводит в ре зультате к общей алгоритм и ческой за держке 15 мс. Все дополнительные за держки при практическом исполнении такого кодера обусловлены следу ю щи ми причинами: временем обработки, необходимым для операции кодирования и дек о диро вания; временем передачи по линиям свя зи; задержкой мультиплексирования, когда аудиоданные объединяются с другими данными. Таким образом, рекомендация G.729 предусматривает фреймы возбу ждения по 5 мс и формирует четыре импульса. Фрейм из 40 выборок разде ляется на четыре части. Первые три имеют восемь возможных позиций для импульсов, четвертая — шестнадцать. Из каждой части выбирается по одно му импульсу. В результате образуется четырехимпульсный ACELP возбу ж де ния кодовой страницы (табл. 3 .2). Таблица 3 .2 Параметры кодеров Параметры кодера Кодер G.729 G.729A G.723.1 Скорость бит, кбит/с 8 8 5,3…6,3 Размер фрейма, мс 10 10 30 Размер подфрейма, мс 5 5 7,5 Алгебраическая задержка, мс 15 15 37,5 Быстродействие, млн. оп./с 20 10 14…20 Объем ПЗУ, байт 5,2 К 4 К 4,4 К Качество Х о рошее Х о рошее Х о рошее Для режима 5,3 кбит/с рекомен дация G.723.1 предусматривает фрей мы возбужд е ния длительностью 7,5 мс и также использует четырехимпульсное ACELP-возбуждение код о вой стра ницы. Для скорости 6,3 кбит/с ис пользуется технология многоимпульс ного во з буждения с квантованием и ал горитмом максимального правдоподо бия (MP-MLQ). В этом случае пози ции фреймов группируются в подгруп пы с четными и нечетными ном е рами. Для определенного номера импульса из четной последовательности (пятый или шестой в зависимости от того, является ли сам фрейм четным или не четным) используется посл е дователь ный многоимпульсный поиск. Похо жий поиск повторяется для подфрей мов с нечетными номерами. Для возбуждения в ы бирается группа с мини мальными общими иск а жениями. На стороне декодера информа ция кодера с линейным предсказа нием (LPC) и информация адаптив ной и фиксированной кодовой книг демульт и плексируется и использует ся для реконструкции выходного сиг нала. Для этих целей используется адаптивный постфильтр. В случае ко дера G.723.1 сигнал возбуждения пе ред прохождением через фильтр син теза LPC пропу с кается через LT (long-term — долговременный) постфильтр и ST (short-term — кра т ковременный) постфильтр. LD-CELP (Long-Delay CELP). Рекомендация G.728 В Рекомендации содержится опи сание алгоритма кодирования речевых сигналов на скорости 16 кбит/с с помо щью линейного предсказания с код и ро ванием сигнала возб у ждения с малой задержкой. Алгоритм LD-CELP опи сывает работу кодера и декодера. В алгоритме LD-CELP сохране на суть метода CELP, представляю щего собой метод «анализа через син тез» путем поиска сигналов в кодовой книге. Для получения алгоритмиче ской задержки порядка 0,625 мс ис пользуется адаптация предсказателей и уровней сигнала возбуждения по вы ходу. Пер е дается только индекс сиг нала возбуждения, найденный в кодо вой книге. О б новление коэффициен тов предсказания производится с помо щью LPC-анализа ранее квантованной речи. Уровень возбуждения обновля ется с п о мощью информации, содержа щейся в ранее квантованном сигнале возбужд е ния. Размер блока для ада птации вектора сигнала возбуждения и уровня с о ставляет всего лишь пять отсчетов. Обновление взвешивающего фильтра, учитывающего восприятие, производится с помощью LPC-анализа неквант о ванной речи. После выполнения преобразова ния сигнала ИКМ по закону А или м в линейный ИКМ-сигнал входной сигнал делится на блоки по пять последова тельных отсчетов. Для каждого вход ного блока кодер пропускает каждый из 1024 векторов кодовой книги (хра нящихся в кодовой книге сигнала воз буждения) через устройство масштаби рования уро в ня сигнала возбуждения и синтезирующий фильтр. Из полу ченных в результате пропуск а ния всех 1024 векторов-кандидатов квантован ног о сигнала кодер определяет один, мин и мизирующий величину взвешен ной по частоте среднеквадратической оши б ки относ и тельно вектора входно го сигнала. 10-битовый индекс, соот ветствующий наилучшему ве к тору в кодовой книге, который соответствует наилучшему вектору-кандидату кван тованного сигнала, передается в деко дер. На следующем этапе для обно вления памяти фильтра и подготов ки к к о дированию следующего векто ра сигнала наилучший кодовый вектор про х о дит через устройство масштаби рования уровня сигнала возбуждени я и синт е зирующий фильтр. Коэффициенты синтезирующего фильтра и уровень си г нала возбужд е ния периодически обновляются путем адаптац ии по выходу, базирующейся на квантованном сигн а ле, масштабированном п о уровню, и сигнале возбуждения. Индекс в книге векторного квант ования (VQ) возбуждения предста в л я ет собой единственную информа цию, которая в явной форме переда ет ся из кодера в декодер. Три друг их типа параметров: уровень сигнал a возбужд е ния, коэффициенты синт езирующего фильтра и коэффициен т ы взвешива ю щего фильтра, учитыва ющего восприятие, обновл я ются пери одически. Эти параметры получаются путем адаптации по выходу из сигна лов, которые п о являются до текуще го вектора сигнала. Уровень сигнала возбуждения обно в ляется для каждого вектора, а коэффициенты взвешиваю щего фильтра, уч и тывающего воспри ятие, и коэффициенты синтезирующе го фильтра обновл я ются для каждых четырех векторов (т.е. для каждых 20 отсчетов или для п е риода обновления длительностью 2,5 мс). Следует отме тить, что хотя посл е довательность об работки в алгоритме имеет цикл ада птации, равный чет ы рем векторам (20 отсчетов), емкость основного буфера составляет только один вектор (пять отсчетов). Такая малая емкость буфе ра позволяет получить з а держку при передаче в одном направлении менее 2 мс. Многополосное кодирование и кодирование с адаптивным прео б разованием Среди методов кодирования с ча стотным разбиением известны две тех нологии: многополосное кодирова ние — SBC (Sub-Band Coding) и ко дирование с адаптивным преобразо ванием — АТС (Adaptive Transform Coding). Основной принцип обеих схем — раздел е ние спектра входного на несколько частотных поддиапазо нов (полос), которые затем кодируют ся о т дельно. В SBC набор фильтров выполнен так, что разбивает входной реч е вой сигнал обычно на 4-16 широ ких частотных поддиапазонов (широ кополосный анализ). В АТС для обес печения более точных частотных пока зателей число поддиапазонов ув е личе но до 128-256 (узкополосный анализ). Многополосное кодирование обыч но рассматривается как метод коди рования формы сигнала, который ис пользует широкополосный кратковре менный анализ и синтез. После раз деления речевого спектра на несколь ко поддиапазонов низшая частота ка ждого из них приводится к нулю, затем поддиапазон дискретизируется в соот ветствии с частотой Найквиста (мин и мальной частотой дискретизации), квантуется, кодируется, мульти п лек сируется и передается. В приемнике поддиапазоны демультиплексируются, декодир у ются и переводятся обратно в их частотные позиции. Результи рующие сигналы поддиап а зонов затем складываются для получения аппрок симированного исходного речевого сиг нала. Глава 2 IP-телефония Основные стандарты кодирования речи, применяемые в 1Р-телефонии, приведены в табл. 4 . 1 . Таблица 4 . 1 Стандарты ITU-T по кодированию речи, применяемые в IP-телефонии Стандарт Описание G.711 Импульс но-кодовая модуляция 64 кбит/с (ИКМ) ( А -закон и м -закон) G.722 Широкополосные кодеры, работающие на скорости 64, 56 или 48 кбит/с G.726 Рекомендации по кодерам АДИКМ, которые охватывают G721 и G723 G.727 АДИКМ, работающие на скоростях 40, 32, 24 или 16 кбит/с G.728 Вокодеры с линейным предсказанием, с кодовым во з буждением, с низкой з а держкой, скорость 16 кбит/с (LD-CELP) G.729 Вокодеры с линейным предсказанием, с алгебраическим кодовым возбуждени ем, с сопряженной структурой, ск о рость 8 кбит/с (CS-ACELP) G.723.1 Низкоскоростные вокодеры для связей мультимедиа, р а ботающие на скорости 6,3 и 5,3 кбит/с Каждая из при веденных в таблице рекомендаций ITU может служить основой для передачи речи по Интернету и другим сетям, так как все они обеспечивают низкие ско рости передачи и достаточно просты в реализации персональным компьюте ром или в микропроцессор н ом исполне нии. Основной целью проектирования кодеров является уменьшение скоро сти передачи речи при безусловном сохранении требуемого уровня каче ства речи для конкретного пр и ложе ния. Приложения по передаче речи в Интернет или Интранет могут быть либо самостоятельными, либо в фор ме мультим е диа. Так как мультиме диа подразумевают наличие несколь ких средств код и рования речи, для та ких приложений подразумевается, что поток речевых данных передается по линии связи совместно с другими сиг налами. Некот о рые из таких приложе ний могут включать: одновременную передачу речи и видео; приложения с одновременной ци фровой передачей речи и данных (DSVD); одновременную передачу речи и факса. Особенности функционирования каналов для передачи речевых да н ных и прежде всего сети Интернет, а также возможные варианты построения си стем телефонной связи на базе Интер нет предъявляют ряд специфических требований к речевым кодерам (воко дерам). Благодаря пакетному прин ципу передачи и коммутации речевых данных отпадает необходимость коди рования и синхронной передачи оди наковых по длительности фрагментов речи. Наиболее целесообразным и есте ственным для систем IP-телефонии является пр и менение кодеров с пере менной скоростью кодирования рече вого сигнала. В основе кодера речи с переменной скоростью лежит класси фикатор входного сигнала, определя ющий степень его информативности и, таким о б разом, задающий метод коди рования и скорость передачи речевых данных. Наиболее простым классифи катором речевого сигнала является де тектор а к тивности речи (VAD — Voice Activity Detector), который выделяет во вхо д ном речевом сигнале активную речь и паузы. При этом фрагменты сиг нала, классифиц и руемые как актив ная речь, кодируются каким-либо из известных алгоритмов (как правило, методом CELP) с типичной скоростью 4 … 8 кбит/с. Фрагменты, классифи цированные как паузы, кодируются и передаются с очень низкой скоростью (порядка 0,1.. .0,2 кбит/с) или не пере даются воо б ще. Передача минималь ной информации о паузных фрагмен тах предпочт и тельна. С помощью более эффективных классификаторов входного сигнала мо жет более детально осуществляться классификация фрагментов, соответ ствующих активной речи. Это позво ляет оптимизировать выбор стратегии кодирования (скорости передачи дан ных), выделяя для особо ответствен ных за качество речи участков рече вог о сигнала большее число бит (соо тве т ственно большую скорость), для менее ответственных – меньше бит (мен ь шую скорость). В результате мо гут быть достигнуты еще более низкие сре д ние скорости (2...4 кбит/с) при высоком качестве синтезируемой речи. Пере датчик состоит из кодера речи, VAD , у среднителя фоновых шумов и пере клю чателя на канал, который упра вляется выходом VAD. Когда на вход есть речь, пере датчик постоянно вклю чен. Во время пауз передатчик выклю чается, но после определенного времени, которое должно быть дост а точ но коротким, передатчик снова вклю чает ся н а один фрейм, чтобы пер е дать ин фо рмацию о среднем фоне для точного генерирования в прие м нике комфорт ного шума. На приемной стороне, если определено наличие речи, происходи т нормальный синтез. Если определен о наличие паузы, выполняе т ся одно и з двух действий. Если не передается новой информации о фоне, и с пользуются существующие пар а метры шума, гене р ируется комфортный шум и исполь зуется для текущего фрейма. Есл и переда ются новые параметры ф о ново го шума, то старые параме тры заменя ются на вновь декодированные, а за т ем генерируется новый комфортный шум. Обычно, на стороне д е кодер а также используется индикатор «хоро ший/плохой» фрейм, чтобы показать верны или нет декодированные пара метры, и если нет, используется заме на фрейма. Эффекти в ность DTX зави сит от точности VAD. Кодеры стандарта D-AMPS Цифровой стандарт мобильной ра диосвязи D-AMPS (Digital Advanced Mobile Phone Service), принятый в США в 1990 г., по своим функциональ ным возможностям и предо с тавляе мым услугам приближается к стандар ту GSM. Стандарт D-AMPS не принят в европейских странах, за исключени ем России, где он в основном ориенти рован на регионал ь ное использование. Блок предварительной обработки выполняет следующие функции: предварительную цифровую фильтрацию входного сигнала с целью подъема вер х них частот, на долю кото рых в спектре речевого сигнала прихо дится меньшая мощность; «нарезание» сигнала на сегменты по 160 выборок (20 мс). Для каждого 20-мс сегмента оце ниваются параметры фильтра кратко вре менного линейного предсказания – 10 коэффициентов частичной корреля ции , (порядок предсказа ния М = 10), которые непосредствен но к о дируются для передачи в канал связи без каких-либо дополнительных прео б разований, и оценивается ампли тудный множитель р , определяющий эне р гию сегмента речи. Сигнал с выхода предваритель ной обработки фильтруется фильтром-анализатором кратковременного ли нейного предсказания A(z) , имеюще го форму трансверсально го л и нейного фильтра, для чего коэффициенты ча стичной корреляции преобразуются в к о эффициенты линейного предсказа ния . Выходной сигнал фильтра крат ковременного предсказания (остаток предсказания ) используется для оценки параметров фильтра дол говременного предсказания – задерж ки ф и коэффициента предсказания , причем параметры долговременного пре д сказания оцениваются в отдель ности для каждого из четырех подсегментов по 40 выб о рок, на которые раз деляется сегмент из 160 выборок. Для каждого из подсегментов определяются параметры сигнала воз буждения. Для этого в составе коде ра используется схема, аналогичная вх о дящей в состав декодера, к о торая включает фильтры-синтезаторы крат ковременного и долговременного предсказания и две кодовые кни ги и реализует метод «анализа-через-синтез». Каждая из кодовых книг сиг нала возбуждения содержит 128 кодо вых векторов, по 40 элементов в ка ждом. Все кодовы е векторы одной кни ги являются элементами 7-мерного л и нейного по д пространства в 40-мерн ом пространстве. Каждая кодовая книг а, содержащая 128 векторов, задается с е мь ю базисными векторами и 128 код о в ыми словами (7-элементными векто рами коэффициентов линейных комб и наций) с однобитовыми элементами. Сигнал возбуждения фильтр си нтезатора кратковременного пред сказ а ния, в соо т вет ствии со схемой декодера рис. 5 . 4 , является сумм ой в екторов возбуждения из двух к о до вых книг и вектора с выхода фильтр а синтезатора долговре менного предска зания. Ве к торы возбуждения из к о довых книг до подачи на суммат ор умножаются на соответствую щие ко эффициенты усил е ния и , а входным сигналом фильтра-синтезатора долговре менного пре д сказания явля ется, в зависимости от участка сегме н та, выходной сигнал того же фильтр или суммарный сигнал возбуждени я фильтра-синтезатора кратк о временно го предсказания. Параметры сигна ла возбуждения – номера вект о ров возбуждения и из первой и вто рой кодовых книг и соответствующие коэффициенты усиления и – определяются по критерию миниму ма среднеквадратичной ошибки на вы ходе фильтра-синтезатора кратковре менного предсказания, входящего в со став кодера. Предварительно базис ные векторы обеих кодовых книг ортого нализируются: для первой книги – по о т ношению к выходному вектору фильтра-синтезатора долговременно го пре д сказа ния, для второй книги – по отношению к тому же выходному вектору и к базисным векторам пе р вой книги. В результате выходная информа ция кодера речи для 20-мс сегмента включает: • параметры фильтра кратковре менного линейного предсказания – 10 коэффицие н тов частичной корреляции , , и амплитудный множи тель р – один набор на весь сегмент; • параметры фильтра долговре менного линейного предсказания – ко эффициент предск азания и задержку ф – для каждого из четырех подсе г ментов; • параметры сигнала возбуждения – номера и векторов возбужд е ния из двух кодовых книг и соответствую щие коэффициенты усиления и – для каждого из чет ы рех подсегментов. В табл. 5 .2 приведено содержание выходной информации кодера с ук а за нием числа бит, используемых для ко дирования. Таблица 5 .2 Кодирование выходной информации кодера речи стандарта D-AMPS Передаваемые параметры Число бит Примечание Параметры кратковременного предсказ а ния (коэффициенты частичной корреляции , ) 38 – 6 бит; – по 5 бит; – по 4 бита; – по 3 бита; – 2 бита Амплитудный множитель (энергия сегме н та) р 5 Задержка фильтра долговр е менного пре д ска зания ф ( для каждого из четырех подсе г ментов) 28 7 бит на каждый подсегмент Номера векторов возбужд е ния и из двух кодовых книг (для каждого из четырех по д сег ментов 56 h и i2 по 7 бит Коэффициенты усиления , и (для каждо го из четырех подсе г ментов) 32 8 бит на каждый подсегмент; векторно му квантованию и кодированию по д вер гаются некоторые функции от , и Всего на 20-мс сегмент 159 Общий объем информации, выдаваемой для 20-мс сегмента речи, с о ставляет 159 бит. Поскольку исход ный объем информации на входе коде ра составляет 1280 бит (160 выборок по 8 бит), кодер осуществляет сжатие и н формации более чем в 8 раз. Пе ред передачей в канал связи выходная и н формация кодера речи подвергается дополнительному канальному кодиро ванию, причем разные параметры в за висимости от их важности для обеспе чения качества речи кодируются с раз личной степенью избыточности. Функционирование декодера осу ществляется по следующему алгорит му. Сигнал возбуждения фильтра-син тезатора кратковременного предсказа ния формируется таким же образом, как и в синтезирующей схеме кодера: по номерам и из кодовых книг выбираются векторы возбуждения, ко торые умножаются соответственно на коэффициенты усиления и и складываются с выхо д ным вектором фильтра-синтезатора долговременного предсказания, определяемого пар а ме трами и ф . Окончательно сигнал возбужде ния фильтруется фильтром-синтеза тором кратковременного предсказа ния, выполненного в форме трансве р сального фильтра, т.е. пар а метр ы ф ильтра преобразуются из коэффици ентов частотной корреляции в коэ ф фицие н ты пред сказания . Для улучшения субъективного качества син тезированной речи в ы ходной сигна л фил ьтра-синтезатора подвергается ци фровой адаптивной пост фильтрации и с в ы хода пост фильтра получается восстановленный цифровой речево й сигнал. Кодеры TETRA TETRA (Trans-European Trunked Radio) представляет собой стандарт цифровой транкинговой радиосвязи, состоящий из ряда спецификаций, ра з работанных Европейским институ том телекоммуникационных стандар тов ETSI. TETRA — открытый стандарт, т.е. доступ к спецификациям TETRA сво боден для всех заинтересованных сто рон. В связи с этим оборудование раз личных производителей должно быть совместимо. Стандарт TETRA создавался как единый общеевропейский цифровой стандарт. Стандарт разработай на основе технических решений и реко мендаций стандарта GSM и ориенти рован на создание систем связи, эф фективно и экономично поддержива ющих с о вместное использование сетей различными группами пользователей с обеспечением секретности и защ и щен ности информации. Речевой кодер TETRA основан на модели кодирования CELP – с ли нейным пре д сказанием с кодовым воз буждением. В этой модели блок из N речевых выборок синтезируе т ся пу тем фильтрации соответствующей об новленной последовательности из ко довой кн и ги, масштабированной коэф фициентом усиления , с помощью двух изменяющихся во времени филь тров. Первый фильтр является филь тром долгосрочного предсказания (фил ь тром осно в ного тона), цель ко торого – моделирование псевдоперио дическ ого речевого сигнала, а второй – фильт р краткосрочного предсказа ния – модел и рует огибающую речево го спе к тра. Передаточная характеристика долгосрочного фильтра (или фильтра синтеза осно в ного тона) определяется формулой где Т – задержка основного тона; – коэффициент усиления основн о го тона. Фильтр синтеза основного тона вы полнен как адаптивная кодовая книга, где для задержек, меньших чем дли на подфрейма, повторяется п о следнее возбуждение. Краткосрочный фильтр синтеза определяется формулой где , , – параметры ли нейного предсказания; р – порядок предсказателя. В кодере TETRA по рядок р = 10. При способе анализа-через-синтез синтезированная речь вычисляется для всех ка н дидатов – последователь ностей, составляя особую последова тельность, которая и формирует вы ходной сигнал, наиболее близкий к и с ходному, в соответствии с взвешен ной величиной измеренных искажений. Фильтр взвешивания, корректирую щий ошибку пр е д ы скажений в области форманты спектра речи, определяется формулой где – обратный (инверсный) фильтр линейного предсказания; (и с пользуется значение ). Для взвешивающего филь тра и фильтра синтеза формант используются квантованные па раметры л и нейного предсказания. В алгебраическом CELP (ACELP) используется специальная кодовая книга, име ю щая алгебраическую структуру. Эта алгебраическая струк тура имеет некоторые преим у щества в отношении сохранения, сложности поиска и устойчивости (робастности). Кодер TETRA использует специаль ную дин а мическую алгебраическую кодовую книгу возбуждения, посред ством кот о рой, а также динамической матрицы формы образуются фиксиро ванные ве к торы возбуждения. Матри ца формы – это функция модели A(z) линейного предсказания. Главная ее роль – формировать векторы возбу ждения в ч а стотной области так, что бы их энергии были сконцентрированы в наиболее важных частотных полосах. Используемая матрица формы являет ся трианг у лярной Теплицевой матри цей низшего порядка, сформированной из импул ь сного отклика фильтра: где A(z) — инверсный фильтр линей ного предсказания (в конкретных реа лизациях и ). В кодере TETRA используются фреймы речи по 30 мс. Это требует ся для того, чтобы параметры кратко срочного предсказания вычислялись и п е редавались в каждом речевом фрей ме. Речевой фрейм разделен на четы ре подфрейма по 7,5 мс (60 выборок). О с новной тон и параметры алгебраиче ской кодовой книги также передаются в каждом по д фрейме. В табл. 5 .3 пред ставлено распределение бит для коде ра TETRA. Должно быть сформиро вано 137 бит для каждого фрейма по 30 мс, что в результате дает скорость 4567 бит/с. Таблица 5 .3 Параметр Номер сегмента Всего в кадре 1 2 3 4 Коэффициенты линей ного пре д сказания 26 Период основного тона 8 5 5 5 23 Индекс алгебраической кодовой книги 16 16 16 16 64 Коэффициенты уси ления 6 6 6 6 24 Всего 137 Кодеры стандарта АРСО 25 АРСО 25 – стандарт транкинго вой радиосвязи, описывающий струк тур у ц ифровой транкинговой систе мы и некоторые ее интерфейсы. Для ци ф ровой передачи речи стандарт АРСО 25 предусматривает использова ние к о дера IMBE (Improved MultiBand Excitation, модифицированный метод мног о полосного возбуждения). Кодер формирует цифровой поток со скоро стью 4,4 кбит/с. Для исправления ошибок в цифровом речевом сигнале и с пользуется избыточное кодирование, порождающее дополнительный цифро вой поток со скоростью 2,8 кбит/с. Цифровой речевой сигнал переда ется кадрами длительностью 180 мс. Два речевых кадра образует суперкадр длительностью 360 мс. Перед переда чей речи следует преамбула длитель ностью 82,5 мс, которая содержит си н хропакет (48 бит), идентификатор сети (64 бита), служащий для предотвр а ще ния конфликтов между радиостанци ями, работа ю щими на одной частоте; информацию для алгоритма шифрова ния, идентификатор ключа алгоритма шифрования и другие служебные иден тификаторы (всего 126 бит). Кадры ре чи, кроме собственно речевой инфор мации, содержат дополнительную ин формацию (упра в ления связью, кана ла сигнализации и т.д.) Речевой IMBE-кодер основан на модели речи, которая относится к м о делям с мн о гополосным возбужде нием (МВЕ). Основная идея работы кодера состоит в разделении цифрово го речевого входного сигнала на пере крывающиеся речевые сегменты (или фре й мы) с использованием окна Кай зера. Затем для определенного фрей ма оценивается набор пар а метров. Речевой MBE -кодер является во кодером, т.е. он не кодирует входной речевой сигнал выборка за выборкой, а синтезирует сигнал, который соде р жит ту же информацию для восприятия че ловеком, что и исходный речевой сиг нал. Заметим, что когда речь не явля ется вокализованнной, исходный и син тезированный сегменты речи могут не иметь никакого сходства во вр е менной области. Речевой MBE -кодер имеет два основных преимущества перед ра нее используем ы ми вокодерами: во-первых, он основан на МВЕ рече вой модели, которая является более ус тойчивой, чем традиционные рече вые модели в рассмотренных во кодерах; во-вторых, данный метод использует более сло ж ный алгоритм оценки параметров модели ре чевого синтеза речевого сигнала из па раметров модели. Главное отличие речевых традиционных вокодеров от модели МВЕ с о стоит в сигн але воз буждения. В обычных речев ых моде лях для каждого р е чевого сегмента ис пользуется единственное ре шение во кал/невокал. В отл и чие от э того ре чевая модель МВЕ разделяе т сигнал возбуждения на не скол ь ко неперекры вающихся частотных полос и прини мает решение в о кал/невокал для каждой частотной полосы. Это позво ляет представить сигнал возб уждения для определенного речевого сегмента в виде смеси периодич е с кой (во кализованной) энергии и шу моподоб ной (невокализованной) эне р гии. Из- за этих множественных опр еделений вокал/невокал эта модель на з ы вается моделью с мно гополосным возбуждением. Такая речевая модель по з воля ет синтезировать речь с более качеством, чем традиционные модели. Кроме того, речева я модель МВЕ более устойчива к фоно вому шу му. В речевой модели MBE сигнал возбуждения формируется из сигнала основного тона (или основной частоты) и решений вокал/невокал. Д ля вок а лизованной речи сигнал воз буждения является периодической им пульсной последовательностью, в кот орой ра с стояние между импульсами определяется периодом основного тона . Для не вокализованной речи сигнал в озбужд е ния представляет собой бел ый шум. Периодический спектр созд ается из взвешенной периодической последова тельности импульсов, котора я полн о стью определяется ок ном взвешивания и периодом основного тона. Его спектр фо рмир у ется из взвешенной последо ва тельности случайного шума. Обычно алгоритмы для оценки па раметров возбуждения и алгорит мы для оценки параметров огибаю ще й спектра работают независимо. Эт и пар а метры оцениваются на о с но ве нескольких критериев без ясных оснований, насколько синтезирован на я речь должна быть близка к исходно й. Это может проявиться в том, что си нтезированный спектр будет слегка от личаться от исходного. В речевом IMBE-кодере параметр ы возбуждения и огибающей спектра оц ениваю т ся одновременно так, что си нтезированный спектр является са мым близким к исходному р е чевому спе ктру. Блок-схема алгоритма анализа пока зана на рис. 5 . 7 . Рисунок 5 . 7 Параметры МВЕ мо дели речи, ко торые должны быть оце не ны для ка ж дого речев о го фрейма сле дующие: п ериод основного тона (или основная частота); решение вокал/невокал; спектральные амплитуды, харак теризующие огибающую спектра. В декодере вокализированная и невокализированная компоненты син тезируются отдельно и на заключи тельной стадии объединяются для по лучения полного речевого сигнала. Алгоритмы, которые используются дл я синтеза вокализированных и не вокализ и рованных частей речи, осно ваны на двух различных способах. Невокализованная часть речи ге нерируется из гармоник, которые объ явлены невокализованными. Для ка ждого фрейма речи блок случайно го ш у ма взвешивается и преобразует ся с помощью быстрого преобразова ния Фурье. Области спектра, которые соотве т ствуют вокализованным гармо никам, принимаются равными нулю. Так как вокализованная речь мо делируется ее индивидуальными гар мониками в частотной области, на сто роне декодера она восстанавливается как совокупный сигнал регулируемых генераторов. Каждой гармонике во к а лизованной области фрейма поста влен в соответствие генератор, ко то р ый х а рактеризуется частотой и фа зой. Однако из-за того, что вокали зо ва нная часть речи не является перио дической на интервалах, состоящих нескольких фре й мов ана лиза, откло нения от ожидаемых параметров соседних фреймов м о гут вызвать скач ки по концам фреймов, что приве дет к значительному ухудш е нию качес тва речи. Для разрешения этой пробле мы во время синтеза пров е ряются па ра метры тек у щего и предыдущего фр ей мов для уверенности, что на грани це фреймов происходит плавный перех од. Эт о делается для того, чтобы на гра ницах фреймов вокализированная речь была непрерывной. Для обеспече ния непрерывности в начале и конце фр ей ма речи функция ампл и туды лин ей но интерпол ируется между значения ми оценок для текущего и предыду ще го фреймов. Синтез речи в IMBE-декодере требует информации об основной част о те, решении вокал/невокал, величи не спектральных составляющих и фа зе в о кализованных гармоник. Так как фазы вокализованных гармоник м ож но предсказать, информация о ф азе не пер е да ется между кодером и деко дером. Основная частота (основ ой тон) квантуется с половин ной точно стью выбо р ки во временной облас ти, причем возможный диапазон тона п е рекрывается восемью битами. Peше ние вокал/невокал является двоичн ым числом и не требует квантования. Об щее распределение бит для каждого фрейма прив е дено в табл. 5 . 4 . Таблица 5 . 4 . Распределение бит IMBE -кодера в системе АРСО 25 Параметр Число бит Основная частота 8 Информация в о кал/невокал b Спектральные а м пл и туды 79 – b Синхронизация 1 Число полос, на которые разбива ется речевой фрейм в частотной обла сти, зависит от основного тона фрейма, но не превышает 12. Таким образом, в кодере IMBE фрейм речи имеет длительность 20 мс, содержит 144 бита, из которых 56 ис пользуются для канального кодирова ния, 88 – для кодирования параме тров речевой модели. Кодер работает на скорости 4,4 кбит/с. Скорость пере дачи в к а нале – 7,2 кбит/с. Кодирование речи в системе INMARSAT-M Для системы мобильной спутни ковой связи INMARSAT была выбра на улучшенная версия речевого коде ра МВЕ, описанного в предыдущем пар а графе как вер сия стандарта на скорости 6,4 кбит/с для наземных систем п о движной свя зи. Размер фрейма кодера 20 мс. При этом обеспечивается код и рование ис точника и канала с помощью 128 бит на ка ж дый фрейм. Из этих 128 бит 45 (2,25 кбит/с) зарезервированы для коррекции ошибок, а оставши е ся 83 би та (4,15 кбит/с) разделены между раз личными параметрами речи, как п о ка зано в табл. 5 . 5 . Таблица 5 . 5 Распределение бит в системе INMARSAT-M Параметр Чи с ло бит Основная частота 8 Информация в о кал/невокал b Спектральные а м пл и туды 75 – b Синтез речи в МВЕ декодере тре бует информации об основной част о те, решении вокал/невокал, спектраль ных величинах и фазах вокализиро ванных гармоник. Так как ф а зы вока лизированных гармоник можно пред сказать, информация о фазе не пере дается от кодера к декодеру. Основная частота (основной тон) обычно кван туется с половинной точностью вы борки во временной области, причем возможный диапазон тона перекры вается в о семью битами. Решение во кал/невокал является двоичным чи слом и не тр е бует квант о вания. Набор спе ктральных величин требует больш ей точности и эффективности кван тования. Общее распределение бит для каждого фрейма следующее: 1) восемь бит для точного кванто вания тона; 2) b бит для решения вокал/не вокал, где b – число полос принятия р е шения в о кал/невокал; 3) оставшиеся биты для квантова ния гармоник. Так как число гармоник зависит от основного тона, который изменя ется, число бит, присваиваемых для решения вокал/невокал, может так ж е и з меняться. Типичное число во кализированных/невокализированных полос равно 12 (4), что означает, что максимальное число бит для описания в о кал/невокал равно 12. Общее чи сло бит для квантования гармоник опр е деляется формулой где максимум b равен 12; – общее число бит для фрейма. Рассмотрим способ квантования, ис пользуемый в системе INMARSAT-M. Квантование основной часто ты. Основная частота квантуется при пр е образовании ее в эквивалентный период основного тона . Значения пер и ода основного тона обычно ограни чены диапазоном . В си стеме МВЕ, предназначенной для ра боты на скорости 6,4 кбит/с, этот пара метр равномерно квантуется с исполь зованием 8 бит при размере шага 0,5, что д а ет возможность обеспечить поло винную точность выборки. Кодир ование решений во кал/невокал. b решений вокал/не вокал явл я ются двоичными числами, поэтому могут быть закодированы с использов а нием одного бита для ка ждой полосы решения. Система на скорости перед а чи 2,4 кбит/с исполь зует максимум 12 полос, каждая с ши риной Гарм о ники вне b полос во кал/невокал приняты невокализи ро ва н ными. Квантование спектральных величин. Перед квантованием спек тральных величин для уменьшения их изменения используется этап предска зания. Остатки предсказания группиру ются в шесть последовательных бло ков , содержащих остаточных выбо рок каждый. Каждый блок преобразуе т ся по частоте с использованием дискретного косинусоидального преобра з о вания (ДКП) размером . Постоянные составляющие L ше сти ДКП-блок ов (первые коэффицие н ты) группи руются как вектор и кван туют ся с использованием кодовой кни ги шестибитового скалярного усилени я и д есятибитового вектора формы. К о эффициенты более высокого по рядка М квантуются с использованием ск а лярных квантователей, где в процесс е присвоения бит распределяются оставши еся биты в соответствии с важно стью для субъективного восприяти я каждой величины. Блок-схема общей проц есса квантования величин После правильного восстановле ния спектральных велич ин МВЕ-кодер пытается улучшить качество воспри ятия синте зированной речи с исполь з о ванием усилителя. Усиление спектральных величин выполняется генерир о ванием набора спектральных ве сов из принятых параметров текущего фре й ма. В типичном МВЕ-кодере большая часть бит выделена для квантования спектрал ь ных величин. В случае си стемы INMARSAT-M, где кодер источ ника работает на скорости 4,15 кбит/с при скорости фреймов 50 Гц, только 20 (8+ 12) бит используются для форми рования информации об основном пе риоде и информации «вокал/невокал». Остальные биты используются для квантования спектральных величин. Таким образом, для успешн о го синте за речи необходимо точно знать основ ной период. Для покрытия речевого спе к тра 4 кГц достаточно 12 полос во кал/невокал. В результате общая ско рость кодера может быть уменьшена за счет более эффективного квантова ния в е личин. В системе INMARSAT-M все спектральные величины, кроме ше сти, проквантованы с использованием скалярных квантователей. Сокраще ние скорости можно добиться также за счет векторного квантования всех вел и чин. Однако, так как число спек тральных величин может и з меняться от 9 до более чем 60 в зависимости от основной частоты, векторную кодо вую книгу, учитывающую эти измене ниями, создать очень сложно. Поэто му целесоо б разно векторное квантова ние использовать только для основной формы спе к тра, которая может быть принята независимой от основной ча стоты. Глава 3 Перспективы кодирования речи. В данной главе будут коротко рассмотрены перспективы использов а ния различных речевых кодеков в сетях связи общего пользования. Рассмотрим некоторые параметры наиболее распространенных кодеков сетей о б щего пользования. Однако, кроме кодеков ИКМ по G .711, на ССОП в настоящее время при меняются аналого-цифровые преобра зователи других типов, использу ю щие те или иные способы компрессии речи и поэтому имеющие меньшую скорость передачи цифрового сигнала по срав нению со стандартным кодеком ИКМ. Основные области применения низкоскорос т ных кодеков: • системы подвижной связи (в част ности, цифровые сотовые и транкинговые системы); • аппаратура DCME (в небольшом количестве используется на сети ОАО «Ростел е ком»); • абонентские компьютерные и мультимедийные терминалы, аппара ты IP -телефонии; • цифровые беспроводные телефоны. Таблица 6.1. Наиболее распространенные кодеки. Кодек Наименование Скорост ь кбит/с Стандарт Standard PCM Стандартный И KM код ек для сетей с коммута цией к а налов 64 ITU-T G.711 GSM-FR PRE-LTP Кодек 1-го поколения GSM с возбужд е нием регулярной последовательностью импульсов и долговременным предск а занием 13 ETSIGSM 06.16 GSM-HR VCELP Кодек GSM (с «половинной» скоростью) с ли нейным предсказанием и возбужд е нием вектор ной суммой 5,6 ETSIGSM 06.20 GSM-EFR ACELP Кодек 2-го поколения GSM с алгебраич е ским кодовым возбуждением и лине й ным пре д сказа нием 12,2 ETSIGSM 06.60 Videophone ACELP Речевой кодек для мультимедийной св я зи с ал гебраическим кодовым возбужд е нием и линей ным предсказан и ем 5,3 ITU-T G.723.1 Videophone MP-MLQ Речевой кодек для мультимедийной св я зи с мно гоимпульсным квантованием по крит е рию прав доподобия 6,3 ITU-T G.723.1 AD PCM Кодек АДИКМ (адаптивной диффере н циальной И КМ) 40, 32, 24, 16 ITU-T G.726 LD-CELP Кодек с линейным предсказанием, с к о довым возбужд е нием и малой задержкой 16, 12, 8, 9, 6 ITU-T G.728 CS-ACELP Кодек с линейным предсказанием, алге б раи ческим кодовым возбуждением и с о пряженной структурой 8 ITU-T G.729 Низкоскоростным кодекам свойственны определенные ухудшения п а раметров, влияющие на качество передачи речи, по сравнению со стандар т ным кодеком ИКМ. Важно, что эти ухудшения накапливаются при танде м ном включении как однородных, так и разнородных низкоскоростных код е ков. Следует отметить следующие основные факторы, влияющие на каче ство передачи речи при использовании кодеков: • искажения квантования; • временная задержка; • амплитудно-частотные искаже ния; • битовые ошибки; • проскальзывания; • потеря кадров; • потеря пакетов. Планирование речевых соедине ний требует обязательного учета ухуд шений, вн о симых каждым переходом А-Ц и Ц-А, и определения на этой ос нове допустимого колич е ства таких пе реходов. Для этой цели используется так называемая Е-модель, разработа н ная ETSI и рекомендуемая МСЭ-Т при планировании речевых соединений «из конца в к о нец». Эта модель позволяет в комплексе учесть практически все ухуд шающие факторы. Наиболее важным параметром Е-модели является коэффициент уху д шения за счет аппа ратуры, обозначаемый I c . Чем больше этот коэффициент, тем большую долю деградации вноси т данная аппаратура (конкретно – к о дек). В табл. 6.2 для срав нения показаны значения для различ ных кодеков. Таблица 6.2 Кодек Скорост ь кбит/с Стандарт I c ( G.113) Standard PCM 64 ITU-T G.711 0 GSM-FR PRE-LTP 13 ETSIGSM 06.16 20 (25-42)* GSM-HR VCELP 5,6 ETSIGSM 06.20 23 (32-45)* GSM-EFR ACELP 12,2 ETSIGSM 06.60 5 (15-35)* Videophone ACELP 5,3 ITU-T G.723.1 19 Videophone MP-MLQ 6,3 ITU-T G.723.1 15 ADPCM 40, 32, 24, 16 ITU-T G.726 2 , 7, 25, 50 LD-CELP 16, 12, 8, 9, 6 ITU-T G.728 7, 20 CS - ACELP 8 ITU - T G .729 10 * – при наличии битовых ошибок Проблема задержки сигнала. Среди многих факторов, влияющих на к а че ство передачи речи, можно отметить задержку сигнала в терминалах и у з лах сети. Желательной является задержка, не превышающая 150 мс, поскольку кроме з а держки следует учитывать и другие ухудшающие факторы. Как уже указы валось, задержка, вносимая стандарт ными кодеками ИКМ, незнач и тельна и составляет меньше 0,4 мс. Существенное увеличение задержки по сравнению со стандартными кодека ми ИКМ дают низкоскоростные кодеки. В частности, только сами к о деки в тер миналах GSM вносят задержку в 60 мс, что эквивалентно времени прохождения через волоконно-оптическую линию связи (ВОЛС) длиной 12000 км. Проце дура «фрейминга» (формирования кад ров) на радиоинте р фейсе добавляет еще 35 мс задержки. В табл. 6 .3 представлены задержки, вносимые речевыми кодеками (МСЭ-Т G .114) различных типов, и соответст вующие эквивалентные длины ВОЛС. Из таблицы следует, что задержки в низкоскоростных кодеках весьма велики, что делает дополнительные перекоди ровки практически недопуст и мыми. При этом нельзя упускать из виду по вышенные задержки в таких с е тевых элементах как шлюзы, маршрутизато ры и т. д. Таблица 6.3 Кодек Стандарт Средняя задержка, мс Эквивалентная длина ВОЛС, км Standard PCM ITU-T G.711 0,375 75 GSM-FR RPE-LTR ETSI GSM 06.10 95 19000 GSM-HR VCELP ETSI GSM 06.20 95 19000 GSM-EFRACELP ETSI GSM 06.60 95 19000 Videophone ACE LP ITU-TG.723.1 97,5 19500 Videophone MP-MLQ ITU-T G.723.1 97,5 19500 ADPCM ITU-T G.726 0,375 75 LD-CELP ITU-T G.728 1.875 375 CS-ACELP ITU-T G.729 35 7000 Таким образом, приходится делать выбор между качеством связи и шириной канала поэтому задача проектирования наиболее качественных к о деков для низкоскоростных каналов с высоким уровнем помех весьма акт у альна. Рассмотрим наиболее эффективные, сегодня методы практической ре а лизации н изкоскоростных (1,2— 2,4 кбит/с) MELP -вокодеров. предназначе н ных д ля работы в канале с высоким процентом канальных ошибок, и осно в ные направления совершенствования да н ных методов. В качестве базового алгоритма вокодера был выбран алгоритм MELP – 2400, разработанный фирмой Texas Instruments и выигравши й открытый ко н курс по замене кодека федерального стандарт США FS -1016. Данный алг о ритм основан на традиционной параметрической модели кодирования с л и нейным предсказанием и, кроме того, содержит ряд дополнительных особе н ностей: • вся рабочая область частот делится на пять полос; в каждой из кот о рых приним а ется решение о классе сигнала возбуждения — «шумовой» или «голосовой». Таким образом суммарный сигнал возбуждения является см е шанным; • форма «голосового» сигнала возбуждения реконструи руется в дек о дере с помощью амплитуд коэффициентов Фу рье, вычисленных в анализ и рующей части вокодера: • для реализации одиночных импульсов возбуждения применяются «апериодич е ские» импульсы; • с целью улучшения «натуральности» звучания синте зированной речи применяю т ся дисперсионный и адаптивный фильтры. Суммарный список параметров, передаваемых от коле ра к декодеру за один реч е вой фрейм длительностью 22.5 мс, представлен в табл. 6.4 . Таблица 6.4. Параметр «Голосовой» фрейм (бит) «Шумовой» фрейм (бит) Линейные спектральные пары 25 25 Амплитуды преобразования Фурье сигнала во з буждения 8 – Коэффициенты усиления (2 за фрейм) 8 8 Период основного тона, общая озвученность фрейма 7 7 Озвученность по полосам 4 – Флаг периодичности 1 – Защита от ошибок – 13 Синхробит 1 1 Всего за кадр, 22.5 мс 54 54 Выбранный вокодер обеспечивает хорошее звучание синтезированной речи при скорости битового потока 2,4 кбит/с и величине битовых ошибок не более. Задача практической реализации низкоскоростного воко дера, имевшего приемлемое качество синтезированной речи при ошибках в канале до 5%, решалась в два этапа. Первоначально была снижена скорость битового реч е вого потока до 1,2 кбит/с без сущ е ственной деградации качества выходного речевого сигнала. Далее были выбраны оптимальные в смысле качества си н тезированной речи коды, исправляющие ошибки, и разр а ботан метод замены выбитых речевых параметров на интерполированные значения пар а метров предшествующих фреймов. После этого суммарная скорость потока инфо р мац и онных и проверочных бит составила 2,4 кбит/с. Вокодер с битовой скоростью 1,2 кбит/с. При понижении скорости б и тового потока основное внимание уделялось сохранению разборчивости р е чи. Анализ алгоритма MELP – 2400 показал, что амплитуды преобразования Фурье сигнала возбуждения отвечают в о с новном за узнаваемость диктора и передачу интонации. Поэтому в спроектированном в о кодере MELP – 1200 они не используются. Передача коэффициента усиления один раз за фрейм также не приводит к существенному ухудшению разборчивости. Для дальнейшего понижения битовой скорости была разработана техника передачи линейных спектральных пар (ЛСП) только по четным фреймам с помощью адаптивного выбора фреймов на основе решетчатой структуры с критичными изменени я ми. Для нечетных фреймов вектор ЛСП находился с помощью интерполяц и онных методов. Также для уменьшения числа бит б ы ла использована частота границы голосовой активности с двухбитовой кодировкой. Суммарный список параметров алгоритма MELP -1200, передаваемых от кодера к декодеру за один речевой фрейм длительностью 45 мс, представлен в табл. 6.5 . Таблица 6.5 Параметр «Голосовой» фрейм (бит) «Шумовой» фрейм (бит) Линейные спектральные пары 25 25 Амплитуды преобразования Фурье сигнала во з буждения – – Коэффициенты усиления (2 за фрейм) 5+5 5+5 Период основного тона, общая озвученность фрейма 7+7 7+7 Озвученность по полосам 2+2 – Флаг периодичности 1 1 Защита от ошибок – – Синхробит – – Всего за кадр, 22.5 мс 54 50 Вокодер с битовой скоростью 2,4 кбит/с для работы в каналах с вел и чиной ошибок до 5% ( MELP – C – 2400). Для исправления ошибок битового потока было исследовано н е сколько классов кодов. Наиболее оптимальными в смысле качества восстановленной речи оказались коды Хэмминга (8,4), позволяющие исправлять одиночную ошибку в четырех информационных битах и определять наличие ошибки в 2 бита, а также коды Голея (23,12), и с правляющие три ошибки в двенадцати информационных битах. При прое к тировании был сделан выбор в пользу кодов Хэмминга. В результате к 54 информационным битам добавлялись 54 проверочных, и общая скорость б и тового потока составила 2,4 кбит/с. Предлагаемый алгоритм по строения низкоскоростного вокодера MELP — С-2400 был про моделирован на персональном компьютере с и с пользованием языка программирования «СИ» при представлении да н ных в формате с фиксированной запятой. Для определения качества синтезированной речи использовалась диагностическая мера приемл е мости ( Diagnostic Acceptability Measure — DAM ). Для этой цели были и с пользованы шесть wav -файлов с муж скими голосами и шесть wav -файлов с женскими голосами, которые затем прослушивались на выходе тракта 30 слуша телями, после чего определялась средняя оценка мнений — MOS . Такой метод называется методом субъективной оцен ки кач е ства. Таким образом, на основании полученных ре зультатов можно сделать следующие выводы: 1 . Вокодер MELP - I 200 имеет разборчивость синтезиро ванной речи близкую к вокодеру MELP -2400 и может быть ис пользован в каналах с пр о пускной способностью 1,2 кбит/с, 2. При битовых ошибках в канале более 1% вокодер MELP — С-2400 существенно улучшает качество синтезиро ванной речи. Что касается улучшения качества корректирующих ко дов, то наиболее целесоо б разным представляется применение сверточных кодов со скоростью 1/3. Как показывают исследо вания, в этом случае при использовании схемы декодера Виттерби с мягким решением приемлемое качество речи можно обеспечивать при вероятности канальной ошибки до 10%. В каналах с пам я тью эффективным может оказаться приме нение каскадных кодов (например, последовательное коди рование кодами Рида-Соломона или сверточными к о дами) или турбокодов. Дальнейшее понижение скорости битового потока во кодера возможно при использовании модифицированных кодовых книг, отражающих возмо ж ные сочетания ЛСП, и суммарного векторного кодирования речевых пар а метров. При этом ожидаемая скорость речепреобразующих устройств может не превысить 800 бит/с при словесной разборчив о сти речи не менее 90%. Далее рассмотрим кодеки и протоколы, непосредственно используемые в IP -телефонии. Эта тема очень важна, так как есть концепции по переводу в режим IP -телефонии всех сотовых и стационарных сетей. Задача управления установлением соединений. Общий прин цип де й ствия Интернет-телефонии состоит в передаче аналогового речевого сигнала от телефонного аппарата или учреж денческой АТС в маршрутизатор для сжатия и преобразова ния речевого сигнала в пакеты данных. Эти пакеты п е редаются по сети Интернет в удаленный маршрутизатор. Последний прео б разует пакеты данных обратно в речевой сигнал, кото рый и передается в т е лефонный аппарат или на УАТС. В соответствии с такой схемой, описанной, в частн о сти, в рекомендациях МСЭ Н.323/Н.248, требуется выполнение до статочно сложных преобразований между техникой Интернет-телефонии и коммутируемой телефонной сетью общего по льзование. Одним из путей преодоления возникших труднос тей, предпринятых группой инженерной поддержки И н тернета IETF ( Internet Engineering Task Force ), стада разработка протокола запуска соединения SIP ( Session Initiation Protocol ). Он применим для инте г рированной среды Интернета и коммутируемой телефонной сети общего пользования. SIP относится к протоколам прикладного уровня семиу ровневой эт а лонной модели ВОС МОС как структура про токола HTTP типа "клиент-сервер". При обработке пакетов этого протокола команды и состояния могут передаваться в виде чистого текста посредс т вом считывания данных пакетов HTTP . Поэтому протокол SIP очень подходит для арх и тектуры передачи по широкомасштабной информационно-вычи слительной сети. В его структуре должен быть сформирован, по крайней мере, один сервер соединений SIP в д о полнение к агентам пользователей. Сервер соединений SIP может рабо тать как сервер-представитель ( proxy - server ), сервер изменения направления ( red i rect server ), сервер регистрации ( registry server ), сервер речевой почты ( voice mail server ), и др. Сервер соединений функционально является интегрирова н ным про граммным обеспечением и может быть соединен с сущес т вую щей коммутируемой сетью общего пользования, сетью Ин тернет-телефонии и т.п. Протоколы Н.323 и SIP во многом схожи. Оба они поддерживают как двухстороннюю, так и многостороннюю связь. Протоколы обеспечивают возможность передачи муль тимедийных данных по протоколу реального времени RTP ( Real Time Protocol ) и родственному ему управляющему тран с портному протоколу реального времени RTCP ( Real time Transport Control Protocol ). Последний выполняет функ ции поддержки обратной связи, си н хронизации, обеспечения пользовательского интерфейса, но не управляет п е редачей данных. Вместе с тем протоколы Н.323 и SIP резко разли чаются концепциями и основополагающими принципами. Н.323 довольно тяжелов е сен. Его описание занимает 1400 страниц и содержит целый стек протоколов, точно регламен тирующих все процедуры. Это упрощает взаимодействие с у ществующих сетей, но вызывает затруднения при адаптации новых примен е ний. Что же касается протокола SIP . то это типичный Интернет-протокол, р а бота которого основана на обмене короткими тестовыми строками. Его оп и сание зани мает гораздо меньший объем (250 страниц), и он хорошо взаим о действует с другими протоколами. Строго говоря, протокол SIP тоже определяет многоуров невый стек, который включает сетевой уровень, транспортный уровень, уровень транза к ций, необязательный уровень диало га и собственно прикладной уровень, или уровень услуги. Однако эти уровни достаточно просты по сравнению с иерархией протокола Н.323. Так, сетевой уровень протокола SIP обеспечив а ет связь и взаимодействие с соответствующим протоколом сети Интернет ( IP ), чтобы каждый элемент протокола SIP связывался по Интернету. Тран с пор т ный уровень протокола SIP определяет, как клиент посылает запросы и принимает ответы и как сервер принимает запросы и посылает ответы по с е ти. Сервер протокола SIP предста вляет собой сетевой элемент, принима ю щий запросы, чтобы обслужить их и посылает обратно ответы на эти запр о сы. Транспортный уровень ответствен также за формирование сообщений SIP и их передачу по сети. Следующим уровнем протокола S 1 P является ур о вень транзакций. Транзакцией называется запрос, посылаемый уровнем тра н закций клиента (с помощью транспортного уровня) уровню транзакций се р вера вместе СО всеми ответами на запросы, посланные уровнем транзакций сервера, обратно клиенту. Уровень транзакций ответствен за согласование последовательности сообщений и за повторную передачу и фильтрацию ду б ли рующих сообщений протокола SIP при ненадежности транс портного уро в ня. В любой задаче, выполняемой клиентом агента пользователя, применяе т ся последовательность тран закций. Уровень, находящийся над уровнем тра н закций, – это пользователь транзакций или уровень услуг. Иначе говоря, это приложение, запускаемое на самом верхнем уровне стека протокола SIP , к о торый обеспечивает конкретную функцию элемента. Между уровнем услуг я уровнем транзакций может существовать н е обязательный уровень диалога. Диалог по протоколу SIP идентифицирует набор соответствующих тран закций. Например, при стандартном телефо н ном соединении двумя транзакциями, относящимися к одному диалогу по протоколу SIP , являются установка соединения и разъедине ние. Уровень диалога ответствен за согласование последова тельностей транзакций и управление при их неполноте. Элементы протокола SIP посылают запросы и ответы др у гим элементам SIP в форме сообщений. Эти сообщения содержат обширную информ а цию, касающуюся таких деталей, как адреса источников, адреса назначения, подробности маршру тов, указатели соединений, послед о вательные номера, и другие сведения относительно работы протокола. Фо р мат сообщений SIP обладает значительной гибкостью в том смысле, что и н формация в заголовке может быть составлена и упорядочена внутри сообщ е ния, и возможна ситуация, когда сообщения логически эквивалентны, тогда как синтаксически они различны. Например, протокол SIP не указывает для многих заголовков порядок, в котором они должны появля ться в сообщении. Кроме того, заголовки SIP обычно нейтральны, и стеки протокола от разных поставщиков могут строить сообщения различными способами. Однако ва ж но, что все стеки протокола SIP совместимы друг с другом. Декодирование сообщений SIP выполняется грамматиче ским анализ а тором, который является интегральной соста вляющей стека протокола SIP . Он изучает сообщение и извлекает информацию, относящуюся к конкретн о му уровню. Вследствие различия путей, по которым может быть получено сообщение SIP , передающее одну и ту же информацию, грамматический ан а лизатор имеет возможность выделять информацию заголовка, данные о п а раметрах, и т.п., незави симо от формирования сообщения. Например, гра м матиче ский анализатор может копировать печатные знаки верхнего и нижн е го регистра, варианты выделения заголовка, печатные знаки в строке, проб е лы, знаки препинания, знаки в таблицах, и т.п. Таким образом, грамматич е ский анализатор обеспечи вает функции комплексного анализа. Стеки прот о кола SIP обычно представляются как общие готовые компоненты и реализ у ют полную спецификацию протокола SIP , делая их пригодными для испол ь зования с любым типом элемента SIP . Каждый тип элементов протокола SIP представляет раз ные степени функциональной сложности, и количество сооб щений, обрабатываемых ка ж дым типом элемента, варьирует ся. Например, компоненты агента пользов а теля SIP и серверы агента пользователя могут выполнять сложные задачи о б ра ботки и связи, например, при установке соединения, хотя число сообщ е ний, обрабатываемых клиентом агента пользо вателя, обычно сравнительно невелико. Так, сервер агента пользователя может только обрабатывать соо б щения в связи с запросами на установление соединений, поступающих от клиента. Если соединение установлено и никаких изменений в его параме т рах не произошло, клиент или сервер агента пользователя не будут обраб а тывать дальнейшие сообщения до тех пор, п о ка соединение не завершится. С другой стороны, иные элементы (такие, как серверы и з менения направления протокола SIP ) выполняют более простые задачи обработки, но принимают значительно большее количество сообщений. Например, сервер изменения направления протокола SIP выполняет сравнительно простую задачу рег и страции отобра жения между адресом источника SIP и адресом IP , которого а д рес источника SIP может достичь. Это фундаментальная задача в сети SIP , так как серверы изменения направления используются представителями SIP , чтобы получить IP -адрес аппарата пользователя для маршрутизации соед и нения. Это важно, в частности, в случаях, когда доступ к сети получают м о бильные клиенты, так как обычно адреса IP назначаются динамически и м о гут часто меняться. Кроме того, для гарантии, что отображаемая информация не устарела, каждый мобильный клиент обычно посылает с частыми инте р валами сообщение REGISTER . Из изложенного ясно, что число сообщений, которые должны обрабатываться сервером изме нения направления, сущ е ственно больше, чем число сообще ний, обрабатываемых клиентом агента пользователя. Напри мер, серверы текущей регистрации могут обрабатывать от 200 до 1000 операций регистрации в секунду. Задачи кодирования речевых сигналов. Важным фактором ощущаемого качества кодера является полоса звуковых частот, в которой передается к о дируемый сигнал. До н а стоящего времени большинство кодеков, испо льзуемых в современной телефонной связи, занимают полосу 300...3400 Гц (так называемая узкополосная речь). Это огра ничение с у ществует почти 100 лет, причем сами сети полосу частот не ограничивают (ограничение обусло в лено характери стиками применяемых преобразователей). Именно частота 3,4 кГц была принята в качестве верхней граничной для комму тируемой тел е фонной сети общего пользования в стандарте цифровой передачи G .711. Х о тя большая часть энергии чаше всего содержится в гласных звуках, которые занимают полосу частот ниже 3 кГц, согласные, несущие критическую и н формацию, часто требуют полосы частот выше 3 кГц. Поэтому узкополосные системы могут ухудшить разборчи вость, например, звуки "с" и "ф" различ а ются только за счет частот выше 3 кГц. С другой стороны, увеличение пол о сы частот сигнала до 50...7000 Гц (так называемой широкой полосы), улу ч шает разборчивость, что требует от слушателя меньшей концентрации вн и мания, а следовательно, значите льно снижает усталость. Сегодня в эксплуатации много узкополосных речевых кодеров - нач и ная с G .711, который применяется в КТСОП со скоростью передачи 64 кбит/с, до G .729 (8 кбит/с) и G .723.1 (6,4 и 5,3 кбит/с), которые используются в услугах мультимедиа. Одним из код е ров, разработанных для мобиль ных сетей и работы с разными скоростями передачи вплоть до 43 кбит/с, является адаптивный многоскоростной кодек AMR ( Adaptive Multi - Rate ). В настоящее время мало работ по новым узкополосным кодерам - может быть, потому, что уже существуют кодеры для большинства применений. Един ственная о б ласть, в которой появляются новые узкополосные кодеры - это специальные разработки для п а кетных систем Интернет-телефонии. В них созданы более робастные к потерям пакетов кодеры, чем предыдущие кодеры, разрабо танные для сетей с коммутацией каналов. Это кодеры iLBC (предложенные комиссией IETF ) и Enhanced G .711 J про изводства Global IP Sound , Steex . Рассмотрим их основные характеристики и применение. iLBC ( internet Low Bitrate Codec ) – это свободный от лицензионных о т числений к о дек для голосовой связи через интернет. Кодек предназначен для узкополосных интернет каналов, со скоростью передачи аудио сигнала (ч е ловеческой речи) 13.33 кбит/с при дл и не кадра в 30 мс или 15.20 кбит/с при 20 мс. Кодек iLBC позволяет добиться хорошего качества передачи аудио сигнала даже при некоторых искажениях, которые происходят в связи с п о терей или задержкой пакетов. iLBC описан в стандарте в RFC 3951. Это один из кодеков, который используется в Gizmo Project , Ekiga , OpenWengo , Google Talk , Skype и Yahoo ! Messenger. · Частота дискретизации 8 кГц/16 бит (160 отсчетов для 20-мс ка д ров, 240 о т счетов для 30-мс кадров) · Управляемая реакция на потерю пакетов, задержки и джиттер · Фиксированный битрейт (15.2 кбит/с для 20-мс кадров, 13.33 кбит/с для 30-мс кадров) · Фиксированный размер кадра (304 бита в кадре для 20-мс кадров, 400 бит в кадре для 30-мс кадров) · Обеспечивается устойчивость к потерям пакетов на уровне ИКМ со скрыт и ем потерь пакетов, как в ITU - T G .711 · Загрузка процессора на уровне G .729 a при более высоком кач е стве и лу ч шей реакции на потерю пакетов · Лицензионная чистота и свобода от лицензионных отчислений · Коммерческое использование исходного кода, предлагаемого GIPS , требует лицензирования · Тестирование PSQM при идеальных условиях приводит к усре д ненной субъективной оценке ( MOS ) в 4.14 для iLBC (15.2 кбит/с), сравнимой с оценкой 4.45 для G .711 (Мю-закон) Speex – это свободный кодек для сжатия речевого сигнала, который может использоваться в VoIP приложениях и подкастах. Он не имеет ник а ких патентных ограничений и лицензирован под последней версией лицензии BSD (без третьей статьи). Speex может быть использован совместно с медиа-контейнером Ogg или передаваться напрямую через UDP / RTP . Разработчики позиционируют их проект как дополнение к Vorbis , фо р мату сжатия звука общего назначения. В отличие от многих других кодеков речи, Speex в основном предн а значается не для сотовых телефонов, а для использования в Voice over IP ( VoIP ) и создания файлов со сжатым звуком. Speex оптимизирован для пол у чения высококачественного речевого сигнала при низких битрейтах. Для д о стижения этой цели кодек использует переменный би т рейт и поддерживает разные диапазоны частот: сверхширокий (англ. ultra - wideband , частота ди с кретизации 32 КГц), широкий (англ. wideband , 16 КГц) и узкий (англ. narro w band , качество телефонной линии, 8 КГц). Направленность на Voice over IP ( VoIP ) вместо сотовой связи означает, что Speex должен быть устойчив к п о терям пакетов данных, но не к повреждению их, так как UDP (протокол н е подтверждаемой доставки сообщений) предоставляет информацию лишь двух видов — данные прибыли неповрежденными или же потеряны. Эта ос о бенность определяет выбор для Speex техники кодирования Code Excited Li n ear Prediction ( CELP ). Основные характеристики кодека: · Свободное и открытое программное обеспечение, не имеет п а тентных огр а ничений · Интеграция широко- и узкополосного канала в одном потоке данных · Динамическое переключение битрейта и переменный битрейт (англ. Vari a ble bit-rate, VBR) · Детектор речевой активности (англ. Voice Activity Detection , VAD , интегр и рован с VBR ) · Variable complexity · Опция де кодера — интенсивное стерео (англ. Intensity stereo ) Однако наряду с разработками узкополосных речевых кодеков большое внимание специалистов привлекают широ кополосные речевые кодеки, ра с считанные на полосу частот речевого сигнала 50...7000 Гц. Первые широк о полосные кодеры G .722 (48. 56 и 64 кбит, с) были стандартизированы МСЭ в 1988 г. Первоначально предполагалось, что они заменят кодеры G .711, когда ЦСИО получат более широкое распространение. Это кодеры со сложной формой сигнала, которые работают с двумя поддиапазонами и имеют хор о шие характеристики, но невысокий коэффициент сжатия. Затем последовала рекомендация G .722.1 (24 и 32 кбит/с) на кодер, широко используемый в настоящее время в терминалах конференц-связи. В 2000 г. проектом 3 GPP был стандартизирован кодер AMR - WB ( Ada p tive Multi - Rate Wide Band ) для применения в мобильных системах третьего поколения. В 2001 г. он был стандартизирован МСЭ в качестве п о следнего широкополос ного кодера G .722.2. Кодер работает с разными скоростями п е редачи от 6,6 до 23,85 кбит/с, но его вычислительная сложность м о жет быть ограничена возможностями реализа ции. Очень важно, что обе о р ганизации (МСЭ и 3 GPP ) приняли один и тот же кодер, так как это устраняет необх о димость перекодирования при работе между провод ными и беспр о водными сервисами. В конечном счете это снизит стоимость и улучшит характерист и ки передачи "из конца в конец". По проекту 3 GPP также реализ о вана версия AMR - WB + (в 2004 г.). Она позволяет улучшить характери стики при передаче неречевых сигналов и является обратно совместимым расширением станда р та AMR - WB . Цель версии возможность применения в системах передачи с коммута цией пакетов также услуг мультимедиа. В Интернете можно найти сведения и о многих других разработках широкополос ных кодеков. Расш и рен для широкополосного применения и кодек G .729 путем создания во з можности многоскоростной передачи (рекомендация G .729 EV 2006 г.). Обзор развития достижений в области техники кодирования речевых сигналов дает основания считать, что в настоящее время существуют все предпосылки для постепенного повсе местного перевода телефонной связи на полосу 50-7000 Гц. Этот вывод относится не только к сети Интернет и паке т ной передаче, но и к традиционным цифровым телефонным сетям общего пользования. Скорость передачи 64 кбит/с в таких сетях вполне дост а точна для существенного повышения качества передачи и разборчивости речи за счет и з менения системы кодирования в оконечных пунктах. Список литературы. 1. Шелухин О.И., Лукьянцев Н.Ф. «Цифровая обработка и передача речи». М., «Р а дио и связь», 2000. 2. А.М. Меккель. «Влияние переходов «аналог-цифра и «цифра-аналог» при постро е нии сетей на основе перспективных технологий». «Электросвязь».– 2008. – №6. – с. 41-48. 3. М.И. Максимов, Н.А. Сидорова, О.В. Чернояров. «Проектирование низк о скоростных речепреобразующих устройств для каналов с высоким проце н том ошибок». «Электр о связь». – 2008. – №7. – с. 48-50. 4. А.А. Иванов, О.И. Фаерберг, К.Ю. Никашев. «Концепция модернизация сети общ е го пользования». «Электросвязь». – 2008. – №8. – с. 18-23. 5. В.И. Нейман, Д.А. Селезнев. «Интернет-телефония и перспективы ее ра з вития». «Эле к тросвязь». – 2008. – №1. – с. 6-9. 6. http://ru.wikipedia.org/wiki/Speex 7. http://ru.wikipedia.org/wiki/ILBC
1Архитектура и строительство
2Астрономия, авиация, космонавтика
 
3Безопасность жизнедеятельности
4Биология
 
5Военная кафедра, гражданская оборона
 
6География, экономическая география
7Геология и геодезия
8Государственное регулирование и налоги
 
9Естествознание
 
10Журналистика
 
11Законодательство и право
12Адвокатура
13Административное право
14Арбитражное процессуальное право
15Банковское право
16Государство и право
17Гражданское право и процесс
18Жилищное право
19Законодательство зарубежных стран
20Земельное право
21Конституционное право
22Конституционное право зарубежных стран
23Международное право
24Муниципальное право
25Налоговое право
26Римское право
27Семейное право
28Таможенное право
29Трудовое право
30Уголовное право и процесс
31Финансовое право
32Хозяйственное право
33Экологическое право
34Юриспруденция
 
35Иностранные языки
36Информатика, информационные технологии
37Базы данных
38Компьютерные сети
39Программирование
40Искусство и культура
41Краеведение
42Культурология
43Музыка
44История
45Биографии
46Историческая личность
47Литература
 
48Маркетинг и реклама
49Математика
50Медицина и здоровье
51Менеджмент
52Антикризисное управление
53Делопроизводство и документооборот
54Логистика
 
55Педагогика
56Политология
57Правоохранительные органы
58Криминалистика и криминология
59Прочее
60Психология
61Юридическая психология
 
62Радиоэлектроника
63Религия
 
64Сельское хозяйство и землепользование
65Социология
66Страхование
 
67Технологии
68Материаловедение
69Машиностроение
70Металлургия
71Транспорт
72Туризм
 
73Физика
74Физкультура и спорт
75Философия
 
76Химия
 
77Экология, охрана природы
78Экономика и финансы
79Анализ хозяйственной деятельности
80Банковское дело и кредитование
81Биржевое дело
82Бухгалтерский учет и аудит
83История экономических учений
84Международные отношения
85Предпринимательство, бизнес, микроэкономика
86Финансы
87Ценные бумаги и фондовый рынок
88Экономика предприятия
89Экономико-математическое моделирование
90Экономическая теория

 Анекдоты - это почти как рефераты, только короткие и смешные Следующий
Из ленты новостей:
В новом фильме режиссера Алехандро Гонсалеса Иньярриту «Выживший» персонажа Леонардо Ди Каприо дважды насилует медведь.
Кому дадут Оскара? Я делаю ставку на медведя.
Anekdot.ru

Узнайте стоимость курсовой, диплома, реферата на заказ.

Банк рефератов - РефератБанк.ру
© РефератБанк, 2002 - 2016
Рейтинг@Mail.ru