Курсовая: Синтез речи (озвучение речи компьютером) - текст курсовой. Скачать бесплатно.
Банк рефератов, курсовых и дипломных работ. Много и бесплатно. # | Правила оформления работ | Добавить в избранное
 
 
   
Меню Меню Меню Меню Меню
   
Napishem.com Napishem.com Napishem.com

Курсовая

Синтез речи (озвучение речи компьютером)

Банк рефератов / Программирование

Рубрики  Рубрики реферат банка

закрыть
Категория: Курсовая работа
Язык курсовой: Русский
Дата добавления:   
 
Скачать
Архив Zip, 48 kb, скачать бесплатно
Заказать
Узнать стоимость написания уникальной курсовой работы

Узнайте стоимость написания уникальной работы

Постановка задачи. Задача синтеза речи заключается в том , чтобы текст , п редставленный в компьютере в виде символов был бы озвучен и превратился в человеч ескую речь . При этом машина либо уже и меет исходный текст в виде файла , либо сост авляет его , руководствуясь каким - л ибо алгоритмом . Как правило синтезированная р ечь затем передается по телефонным линиям , имеющим ограниченный сверху и снизу частот ный диапазон , поэтому желательно использовать высокий (женский ) голос , т.к . он лучше прох о дит телефонные линии . Речь должна быть максимально разборчивой и членораздельн ой , а так же должна учитывать изменения интонации в соответствии с правилами языка. СИНТЕЗ РЕЧИ - speech synthesis - процесс преобразования текста в р ечь . Синтез является о дной из форм обработки речи , связанной с задачей чтения абонентской системой записанного в ее па мяти электронного текста . Существует несколько методов синтеза речи . Первый из них зак лючается в построении слов путем комбинирован ия фонем и аллофон . Полученн а я фонемная последовательность , после выбора высот ы тона и интонации , превращается в речь . При таком подходе генерируется вполне поня тная речь , но слушающему пользователю ясно , что их произносит робот . Второй метод с интеза речи заключается в ее имитации с и спользованием модели голосового тра кта Человека . Здесь глухие и звонкие согла сные в речи представляются источниками период ических и шумовых сигналов соответственно . За тем сигналы проходят через каскад фильтров . При синтезе для обеспечения высокого качеств а речи необходимы высокие скорости обработки данных и большая емкость памят и для хранения данных . Поэтому приходится выбирать компромисс за счет определенного уху дшения качества синтезируемой речи . Обычно синтез речи производится с уче том особенностей язы ка с автоматической расстановкой ударений. ОСНОВНЫЕ ФУНКЦИИ КОМПЬЮТЕРНОЙ ТЕЛЕФОНИИ Аппаратура или программа ? Семейство плат для компьютерной телефонии Конкретный пример Литература ------------------------------------------------------------------------ Голосовые компьютерные технологии становятся сегодня все более популярными . Задача обу чения компьютера навыкам общения с человеком при помощи обычной речи привлекает внима ние как известных гигантов компьютерной индус трии , так и относительно небольших ком паний , специализирующихся исключительно на этой области индустрии телекоммуникаций . Компьютеры уже научились понимать команды человека и озвучивать текстовые файлы . Впрочем , голосовые технологии для настольных систем выглядят чем-то вроде забавы - удобно, но п ри необходимости можно обойтись и без них . А вот для развивающейся необычайно быстр ыми темпами компьютерной телефонии голосовые технологии - это насущная необходимость. Основная идея компьютерной телефонии - соч етание мощи компьютерного интеллекта с п ростотой и доступностью телефонной связи . Благодаря этой технологии , можно связываться с удаленными компьютерами , и , ответив на несколько вопросов голосового меню , выполнит ь достаточно широкий набор действий : получить телефонное соединение с любым сотрудн и ком компании-пользователя или остави ть голосовое сообщение , осуществить доступ к базе данных и получить информацию либо в голосовом виде , либо по факсу . Помимо этого , компьютерная телефония позволяет прои зводить интеллектуальную коммутацию входящего ил и и с ходящего звонка , переключать з вонок с одного номера телефона на другой , как в пределах организации , так и "на ружу " и производить большое количество других действий . Некоторые возможные приложения ком пьютерной телефонии описаны в работе [1]. ОСНОВНЫЕ ФУНК ЦИИ КОМПЬЮТЕРНОЙ ТЕЛЕФОН ИИ Сложные приложения компьютерной телефонии формируются из ограниченного числа относительн о простых вызовов функций , реализующих достат очно сложные реальные алгоритмы , базирующиеся на ряде следующих аппаратных и программных средс тв . Запись и воспроизведение голоса . Чтобы общаться с человеком по телефону , голосовая система должна уметь записывать и воспро изводить человеческую речь . Простейшим примером такой системы является обыкновенный автоответч ик , где голос записывается на маг нитну ю ленту , а потом воспроизводится . В соврем енных системах компьютерной телефонии голос з аписывается в цифровом виде на диск , обычн о по методу PCM (Pulse Code Modulation). Аналоговый электрический сигнал , передающий голос , подвергается цифровому преобр а зованию через определенные промежутки времени . Согласно известной теореме Найквиста , частота оцифровки или частота вы борки должна быть вдвое выше максимальной частоты , присутствующей в спектре оцифровываемо го сигнала . Общепринятым стандартом при перед аче г олоса является сохранение в его спектре частот до 4 кГц - при этом голос , с одной стороны , сохраняет узнаваемос ть , а с другой - не требует для своей передачи высококачественных линий . Отсюда получ ается , что частота выборки должна составлять 8 кГц , а общеп р инятое разрешение аналого-цифрового преобразования составляет 256 уровн ей . Для кодировки такого преобразования необх одимо 8 бит информации . Таким образом , для к одирования голосового сигнала требуется скорость 64 Кбит /с . Распознавание набранных абонентом цифр . Системы компьютерной телефонии должны воспр инимать команды абонента , которые в простейше м случае вводятся путем набора цифры на телефонном аппарате . Отсюда следует , что апп аратура для компьютерной телефонии должна рас познавать , какую цифру набрал аб о н ент . Здесь следует отметить , что сегодня с уществуют две основные принципиально различные системы набора номера - DTMF (Dual-Tone Multifrequency) и импульсный набор . Система DTMF принята в США , Израиле и ряде других стран , импульсный набор - в большинстве европейских стран , России и Японии . В системе DTMF (или тоновом наборе ) каждая цифра кодируется звуковым сигналом , представляющим собой сочетание двух частот , отвечающих координатам соответствующей цифры н а наборной клавиатуре телефона . Обычно на такой кл а виатуре имеется четыре г оризонтальных и три вертикальных ряда клавиш , соответственно , в системе DTMF имеется двенадцат ь сочетаний частот , передаваемых по телефонны м линиям в виде обычных звуковых сигналов . Существуют стандартные схемные решения для распоз н авания этих частот , поэтом у обработка тонового набора никаких затруднен ий не представляет . С импульсным набором дело обстоит сло жнее - каждая цифра кодируется серией разрывов в цепи между телефонным аппаратом и коммутирующим оборудованием на станции . Чис ло разрывов в линии соответствует наб ранной цифре (ноль кодируется десятью разрыва ми ); разрывы , относящиеся к одной и той же цифре , разделены короткими интервалами , бол ее длинные интервалы разделяют разрывы , относ ящиеся к разным цифрам . Основная проблема с остоит в том , что разрывы цеп и не передаются дальше по линии , и на другом конце соединения прослушиваются тольк о характерные щелчки . Эти щелчки приходится распознавать , что при наличии помех в л инии сделать затруднительно . Преобразование текст-речь . Люба я компьютерно - телефонная сист ема должна обладать способностью озвучить для абонента то или иное сообщение . Такое преобразование может выполняться в одном и з двух режимов : путем сборки из заранее записанных речевых фрагментов и прямым фор мированием речев о го сообщения по текстовому файлу . Сборка из заранее записанны х речевых фрагментов позволяет решать только самые простые задачи , например синтез чис лительных . Достаточно записать речевые фрагменты , содержащие простейшие элементы , из которых состоят наимено в ания чисел : цифры , десятки , сотни , тысячи и т.д . и из ни х можно будет набрать любое число . А п оскольку работа многих информационных систем связана именно с передачей чисел , то таког о синтеза будет вполне достаточно для раб оты очень многих приложений . Несм о тря на внешнюю простоту такой системы , с ней связан целый ряд существенных пробле м . Для того , чтобы синтезируемое сообщение звучало плавно , без разрывов , подставляемые сл ова должны быть интонационно встроены в о бщую фразу , достичь чего не так просто . В ру с ском языке к этой про блеме добавляется еще проблема изменяемости с лов - приходится для каждого контекста , где встречается числительное в определенном падеже , делать отдельную запись . Кроме того , в зависимости от числительного меняются и ок ружающие его сло в а , например : "трис та тридцать один рубль ", "триста тридцать т ри рубля ", что еще больше осложняет ситуац ию . Тем не менее , существуют стандартные м етоды подготовки речевых фрагментов для этого метода синтеза сообщений . Данный способ ф ормирования речевых соо б щений годится для подавляющего большинства голосовых систе м . Значительно более гибким , хотя и более сложным алгоритмически является прямой синте з речевых сообщений по тексту . Сегодня сущ ествуют алгоритмы синтеза речи по текстам на английском , немецком , и спанском , япон ском и ряде других языков . Недавно появили сь сообщения о том , что разработана и система для русского языка , однако прямого подтверждения этому найти пока не удалось . Лидером в области разработки коммерческих систем текст-речь является сегодн я компания Berkeley Speech Technologies (BeST). Основная проблема , до настоя щего времени пока не имеющая полного реше ния , состоит в том , чтобы синтезированная по тексту речь звучала "по-человечески " - пока компьютерная речь практически не имеет инт онаций и ударений , а кроме того , имеются трудности с озвучиванием имен собс твенных и адресов . Распознавание голоса . Абонент может подавать команды машине не только набирая определенные комбинации цифр на своем телефонном аппарате , но и более обычным способом - пр оговаривая команды , что предполагает применение технологий распознавания речи . На сегодняшний день это , пожалуй , одна из самых сложных проблем в области интерфейса человека и компьютера . Несмотря на то , что недавно в этой области были достигнуты большие у с пехи , до полного решения еще далеко . Все алгоритмы распознавания работают на ба зе словарей , содержащих определенное количество слов ; количество и характер слов для ра зных языков и режимов распознавания речи отличаются друг от друга . Алгоритмы распознав ани я речи занимаются выделением соо тветствующих слов в голосовом сигнале и п реобразованием их в текст . Существует несколь ко режимов распознавания речи : с настройкой на голос конкретного пользователя и без настройки . В первом случае объем словаря может достига т ь нескольких десятко в тысяч слов , которые распознаются при сли тном произнесении . Данный режим распознавания применяется , когда у системы компьютерной тел ефонии имеется только один конкретный пользов атель , который может по телефону давать ко манды системе и даже диктовать пис ьма . Для систем общего пользования необходим режим распознавания без настройки на гол ос конкретного пользователя . Такие системы та кже работают на основе словаря , который , о днако , может содержать гораздо меньшее число слов . Словари для ра с познавания речи без настройки на конкретного пользо вателя создаются на основе образцов речи , полученных от многих сотен или даже тысяч носителей языка . Словари для работы без настройки на голос конкретного пользователя могут обеспечив ать распознавание ци фр от нуля до девяти и простейших команд типа "да " и "нет " при их раздельном произнесении , либо обеспечивать распознавание цифр и несколько более узкого набора команд при их слит ном произнесении , либо обеспечивать распознавание цифр и наименований всех бу к в алфавита . Словари для распознавания речи без настройки на голос пользователя создан ы для нескольких десятков языков и диалек тов - для русского языка пока существует л ишь простейший словарь , обеспечивающий распознава ние цифр и простейших команд , произнос и мых раздельно . Осуществление исходящего звонка . Системы компьютерной телефонии до лжны обеспечивать набор номера и мониторинг линии , который и представляет наибольший интерес . Речь идет о распознавании сигналов , свидетельствующих о состоянии соединения : р едкие гудки - осуществление соединения ; сня тие трубки на противоположном конце ; частые гудки - занятость линии ; отсутствие гудков - с оединение не установилось ; гудки , обозначающие ошибку при наборе номера (как правило , э то три последовательных гудка с воз р астающей высотой тона ). Кроме того , мно гие системы компьютерной телефонии в состояни и отличить , отвечает ли им человек , автоот ветчик или факсимильный аппарат . Для распозна вания сигналов в линии и ответа абонента часто используется так называемая каденция - порядок чередования периодов молчания и наличия звука в линии и их продол жительность . Каденция распознается существенно пр още , чем речь , хотя и здесь имеются сво и проблемы , связанные с тем , что в разн ых странах состояние линии обозначается разны ми сигнал а ми , поэтому системы комп ьютерной телефонии должны допускать настройку на сигналы , которые принято использовать в данной стране . Распознавание "сущности " отвеча ющего абонента осуществляется довольно просто . Факсимильный аппарат отвечает длинным сигналом го т овности , который легко отличит ь по каденции от редких гудков и от человеческой речи . Человек , снимая трубку , к оротко отвечает "Алло !" или в крайнем случа е представляется . Автоответчик же начинает до лго рассказывать , куда вы позвонили и что надо сделать , ч т обы оставить сообщение . Генерация факсимильных сообщений. Чтобы обеспечить полную поддерж ку всех необходимых человеку функций , система компьютерной телефонии должна уметь осуществ лять генерацию факсимильных сообщений по текс товым файлам , результатам запр осов баз данных и так далее . Данная функция мало чем отличается от работы обычного факс-мо дема . Аппаратура или программа ? Реализовать перечисленные функции или хот я бы часть из них можно различными сп особами . В простейшем случае , для телефонного соедин ения можно использовать обыкновенн ый факс-модем , а все функции , связанные с обработкой голоса , осуществлять при помощи платы Sound Blaster. При этом вся интеллектуальная нагру зка , связанная с осуществлением телефонного с оединения и голосовой поддержкой , л о жится на компьютер . Это , во-первых , озна чает , что для этой цели можно использовать лишь достаточно мощные машины , а во-вторы х , при таком подходе компьютер превращается в интеллектуальный телефонный аппарат , что означает не слишком рациональное использован и е его вычислительных ресурсов . Вп рочем , для решения простых задач такой под ход может вполне сгодиться . Его преимущество - идейная простота и относительная дешевизна используемого оборудования . Более основательный подход предполагает и спользование простых и относительно дешевых голосовых плат , представляющих собой интегри рованные устройства , поддерживающие ряд функций , необходимых для установления телефонного соеди нения . В частности , такие платы набирают н омер (как по системе DTMF, так и импульсом ), озвуч и вают приветствие , задают абонен ту вопросы голосового меню , распознают ответы абонента в виде сигналов DTMF, а также оц ифровывают речь абонента и готовят соответств ующие данные к записи на диск . Такое р ешение имеет одно несомненное преимущество - в се функц и и поддержки телефонного соединения выполняются автономным процессором DSP (digital signal processor), находящимся на плате . DSP представляет собой мощный процессор , р азработанный специально для работы с аудиосиг налами . Сегодня такие процессоры широко дос тупны на рынке за весьма умеренную плату . Широко распространено также загружаемое программное обеспечение для этих процессоров , которое , собственно , и обеспечивает выполнени е всех необходимых функций . Главный недостато к , помимо малой пропускной способност и - данные платы рассчитаны на работу в одноканальном режиме , состоит в том , что эти голосовые платы представляют собой з акрытую систему , как с точки зрения аппара тного , так и программного обеспечения . Установ ив однажды такую плату и программное обес печени е к ней , ее нельзя расшири ть и очень трудно модифицировать . Кроме то го , данные платы не выполняют интеллектуальны х функций , таких как распознавание речи ил и преобразование текст-речь . Производятся такие одноканальные платы большим числом компаний : American Megatrends (Норкросс , шт . Джорджия ), Boca Research (Бок аРейтон , шт . Флорида ), Objix Multimedia (Уолтем , шт . Массачусет с ). Наиболее гибкими и разветвленными являютс я модульные системы плат расширения для к омпьютерной телефонии . Основным производителем та к их плат является компания Dialogic (Парсипанни , шт . Нью-Джерси ), которая выпускает широкий набор разнообразных плат расширения , различающихс я как по функциям , так и по масштабу . Все они основаны на применении технологии DSP, в который загружено фирменное п рограммное обеспечение , обеспечивающее выполн ение необходимых функций . Прежде всего , следуе т отметить программное обеспечение поддержки телефонного соединения SpringWare, в котором реализованы следующие функции : оцифровка и воспроизведен ие речи , распознав а ние сигналов со стояния линии , распознавание отсутствия звука в линии , распознавание сигналов тонового набо ра , набор номера в соответствии с заданным стандартом . Помимо этого , SpringWare может отличать речь человека от сигналов в линии , расп ознавать ответ а втоответчика , изменять скорость воспроизведения сообщения без измен ения звучания голоса , регулировать громкость и автоматически подстраивать коэффициент усилени я при записи речи со входящего звонка . Семейство плат для компьютерной телефонии Опишем неск олько более подробно , к акие платы входят в семейство , выпускаемое компанией Dialogic - именно это семейство представляет собой индустриальный стандарт в области модульных систем для компьютерной телефонии . Среди других производителей аппаратного обеспече н и я следует отметить компанию Natural MicroSystems (Нэтик , шт . Массачусетс ), а также Brooktrout (Нидэм , шт . Массачусетс ) и Pika (Канада , Онтарио ). Главным компонентом систем компьютерной т елефонии являются многоканальные голосовые платы . Именно они выполня ют основной набор функций , связанных с поддержкой диалога с пользователем и именно на них в перв ую очередь рассчитано программное обеспечение SpringWare. Число каналов в одной плате меняется от двух до тридцати ; имеются платы , расс читанные на работу с отд е льными аналоговыми линиями и способные "принять " на себя цифровой канал T-1 или E-1 целиком . Некото рые платы могут быть напрямую подключены к линии , другим требуются специальные интерфе йсные платы , также выпускаемые Dialogic. Следующий член семейства Dialogic-платы ко ммутации и распределения ресурсов . Данные пла ты обеспечивают внутреннюю коммутацию ресурсов в пределах систем и коммутацию внешних линий , например , подключение любого из операто ров к любой из внешних линий , организацию конференций и т.д. Платы распознавания речи и п реобразования текст-речь. Данные пла ты также работают на основе программного обеспечения , загружаемого в DSP-процессор . Помимо этих плат , в семейство Dialogic входя т еще платы поддержки факсимильного обмена , выполняемые в ка честве плат-приставок д ля голосовых плат . Модульность семейства плат расширения пре дполагает , что в одном компьютере могут бы ть установлены несколько плат , выполняющих ра зные функции . Кроме того , представляется разум ным организовать распределение , скажем , ресу рсов распознавания голоса между большим число м голосовых каналов . Отсюда следует , что п латы должны обмениваться информацией между со бой . Использование для этой цели системной шины вызовет ее перегрузку и приведет к непроизводительным затратам ресурс о в . Поэтому с самого начала системы компьют ерной телефонии были ориентированы на использ ование собственной шины для обмена информацие й между платами . Вначале для этой цели применялась ана логовая шина AEB, Analog Expansion Bus, представляющая собой просто четыре параллельные аналоговые линии , о бъединенные в один кабель . Данная шина обл адает невысокой пропускной способностью и исп ользуется только в системах низшего класса . Следующим шагом на этом пути было испо льзование цифровых шин - сначала это PEB (PCM E x pansion Bus), а потом и MVIP (Multi-Vendor Integration Protocol), компании Natural MicroSystems. Данные шины можно представлять как внутримаши нные линии T-1 (E-1). MVIP - это сочетание восьми цифровых линий , обеспечивающих 256 независимых голосовых канало в пропускной способностью 64 кбит /с каждый . Индивидуальная шина PEB представляет собой один цифровой канал , однако , используя специальную коммутационную плату , можно обес печить использование до четырех индивидуальных PEB в одной системе с возможностью обме н а информацией как в пределах одной шины , так и между шинами . Суммарна я пропускная способность системы на базе PEB может составлять до 128 голосовых каналов на 64 кбит /с . Следующим шагом в этом направлении ст ала предложенная Dialogic шина SCbus - составна я част ь аппаратно-программного стандарта компьютерной т елефонии SCSA (Signal Computing System Architecture). Переход от PEB к SCbus носит не только чисто количественный - суммарная пропу скная способность новой шины составляет 2048 гол осовых каналов , но и к ачественный характер . Во-первых , отдельные каналы шины м огут быть объединены в магистрали для пер едачи высококачественного звука или видеоинформа ции . Служебная информация в SCbus передается по отдельной линии , в то время как в PEB применялось заимствовани е битов у п олезного сигнала . Кроме того , SCbus может управлять ся любым из устройств , подключенных к шине , что повышает отказоустойчивость системы в целом . Наконец , очень важно , что в станда рте SCbus предусмотрена поддержка передачи информации между отдельн ы ми машинами , благод аря чему оказывается возможной организация мн огомашинных систем . Конкретный пример В качестве примера рассмотрим , функционал ьную схему многоканальной голосовой платы D/160SC-LS, входящей в состав семейства Dialogic/HD, объединяющего аппаратуру с высокой плотностью информаци и - к ней можно подключать до 16 аналоговых линий . Структура платы основана на станда рте SCSA. Плата поддерживает все функции , характер ные для голосовых плат . Входные линии подключаются к телефонному интерфейсу , о беспечивающему защиту аппар атуры от перегрузок , вызванных переходными пр оцессами . Здесь же происходит распознавание в ходящего звонка . Пройдя интерфейсные цепи , вхо дной сигнал попадает на вход устройства к одировки /декодировки (CODEC), где происходит его оц и фровка . Оцифрованная информация попа дает на микросхему SC2000, где определяется , будет ли данная информация передана по шине SCSA для дальнейшей обработки на другие устрой ства или ее предполагается обрабатывать в пределах самой платы . Именно здесь и об есп е чивается использование , например , внешних плат распознавания речи . Обработка оц ифрованного звукового сигнала происходит в DSP- процессорах Motorola 56002 на основе программного обеспечени я SpringWare. Здесь выполняются такие функции , как сжатие /восстановл е ние звукового сигна ла для передачи его по системной шине компьютера , подстройка уровня громкости и к оэффициента усиления , распознавание сигналов тоно вого набора , распознавание молчания в линии , а также мониторинг соединения . Контроллер HDLC (High-level Da t a Link Controller) осуществляет доступ к уп равляющей линии шины SCbus и обеспечивает передач у управляющих сигналов и распознавание коллиз ий . Расположенный на плате процессор 80C286 управля ет ее работой и обеспечивает правильную и нтерпретацию и выполнение к оманд от центрального процессора , тем самым поддержив ая взаимодействие голосовой платы с прикладно й программой . Процессор работает с системной шиной через оперативную память совместного использования , играющую также роль буфера при передаче файлов . Работа платы управляется программным обеспечением , хранящимся в оперативной памяти кода /данных и пам яти DSP. Данное программное обеспечение загружается при инициализации системы с жесткого дис ка . Литература [1]. А.Крейнес . Компьютерная телефония в при ложениях. Открытые системы , N 2, 1996 г ., с . 43-47. "Мир связи и информации . Connect!" № 4, стр .40, авт . - А.Крейнес Мыслящий телефон ? Идея породнить компьютер и телефон не нова . Более того - первым практическим воп лощением этой идеи уже не один десяток лет . Всем известная служба "100" в Москве , появившаяся еще в конце 60-х , - яркий то му пример . Но лишь последние технологические решения позволили компьютерной телефонии най ти широкое применение в различных сферах человеческой жизни и стать одним из важне йших направлений современной отрасли связи . "Барышня , Смольный !" — кто бы мог подумать , что на рубеже ХХ I века , спустя сто лет после изобретения телефона , мы вновь будем общаться с телефонисткой . Тольк о теперь "барышня " начинена электроникой и подобные фразы диктуются совсем другими техническими возможностями системы , которую обы чно называют компьютерной телефонией . Многие эксперты считают компьютерную теле фонию (в английской транскрипции CTI — Computer Telephone Integration) одним из главных достижений 90-х годов в области телекоммуникационных технологий . Оста вляя это громкое утверждение на совести т ого , кто его высказывает , отметим , что на Западе использование компьютерной телефонии ст ало чем-то вроде правила хорошего тона для любой уважающей себя организа ц ии . Особенно широкое распространение эта технол огия получила в США — там без нее вообще невозможно представить себе жизнь л юбого офиса . Набираешь , к примеру , номер пр едставительства "Аэрофлота " — и в ответ с лышишь "голос компьютера ": "Благодарим за звонок в компанию "Аэрофлот ". Если вам нужна информация о прибытии рейсов — наберите 1, если вам нужна информация о выл ете рейсов — наберите 2, если вы хотите подтвердить вылет — наберите 3." Набрав указ анную цифру , можно либо прослушать необходиму ю информацию , л ибо получить соединен ие с оператором для подтверждения брони . Э то и есть пример использования системы ко мпьютерной телефонии , которая кроме сервиса и нтерактивного голосового ответа - IVP (Interactive Voice Response), обладает и способностью распознавать ж и вую человеческую речь . Идея породнить компьютер и телефон от нюдь не нова . Компьютерные системы уже дав но используются для коммутации телефонных выз овов ; хорошо известно , что любая современная городская АТС — по существу , мощная ко мпьютерная система . До с амого недавнего времени то же самое можно было сказать и про крупные учрежденческие АТС — все они представляли собой серьезные компьюте ры , как правило , масштаба мэйнфрейма . Именно на такой аппаратной базе и были впервы е реализованы системы компьютерной те л ефонии . Компьютерно-телефонные системы обеспечивают н е только интеллектуальное соединение входящих вызовов и выполняют прочие чисто коммутаци онные функции типа организации конференций — продвинутые системы обладают также возможнос тью голосового взаимодей ствия со звонящим абонентом — компьютер может взять на себя обязанности секретаря , телефонного агента по приему заказов , интервьюера , проводящего опрос общественного мнения , оператора банковско й системы и выполнить множество других по лезных организации фу н кций . Доступные чудеса Еще совсем недавно разработка систем компьютерной телефонии была "по зубам " только крупным и очень богатым организациям . И дело было не только в высокой стоимо сти необходимого оборудования (хотя , бесспорно , именно этот фактор име л решающее з начение ), но и в большой сложности соответ ствующего программного обеспечения . Кроме того , во всех таких системах использовались закр ытые технологии , что существенно повышало сте пень зависимости клиента от фирмы-поставщика , а следовательно , уве л ичивало стоимост ь . Лет пять назад ситуация кардинальным образом изменилась . Были разработаны гибкие м одульные системы для компьютерной телефонии , представляющие собой наборы плат расширения д ля настольных компьютеров . Это существенно сн изило масштаб прик ладных систем , и в результате компьютерная телефония стала дост упной даже для небольших организаций . Чрезвыч айно важным обстоятельством было то , что в се основные технические описания новой технол огии были опубликованы , то есть компьютерная телефония стала открытой технологией . Одновременно с "разукрупнением " аппаратной ба зы произошло значительное усовершенствование сре дств разработки приложений , что также приблиз ило компьютерную телефонию к ее потенциальном у пользователю . Что такое Компьютерная Телефония ? В простейшем виде эта система включае т персональный компьютер с установленной плат ой четырехканального микропроцессорного телефонного адаптера . И эта простейшая система может отвечать на звонки , выполняя функции теле фонного секретаря , принимать или отправ ля ть факсы , причем по одному , двум или че тырем телефонным каналам одновременно ! Абонент , позвонивший на эту систему , может выслушать сообщения и ответить на вопросы системы , нажимая необходимые клавиши на своем тел ефоне , получить нужную информацию или зас т авляет систему производить определен ные действия . Он может оставить свое устно е сообщение , принять или передать факс , ли бо же система соединит его с конкретным лицом , если необходимо . Все эти возможности определяются сложностью используемой программы . Про г раммы этих приложений можно быстро создавать и совершенствовать самому . Необходимо записать в компьютер необходимые голосовые сообщения (как фразы в автоотве тчике ), составить алгоритм и создать программу . Существует несколько генераторов приложений , прогр а ммирование в которых заключает ся в соединении на экране необходимых ква дратиков-пиктограмм , причем можно сразу опробовать программу и внести необходимые изменения . Но , в конце концов , можно заказать готов ое приложение-программу и не ломать голову ! Вам не х ватает телефонных канало в - нет проблем , количество каналов в систе ме , практически , не ограничено ! Вы устанавливае те дополнительные платы , более мощные платы , объединяете компьютеры в сеть . Если у В ас мало телефонных линий , есть платы комму таторов . Хотите распознавание речи - что бы абонент мог давать команды голосом - ус танавливаете дополнительно специальную плату , кот орая также осуществляет синтез речи и поз воляет компьютеру зачитывать абоненту различные тексты , в том числе и факсы . Сегодня современная о фисная система компьютерной телефонии чаще всего представля ет собой IBM-совместимый персональный компьютер (но не обязательно , система может работать и на компьютерах других платформ ), в кот ором установлены одна или несколько плат расширения , реализующих н еобходимые функ ции . Платы расширения для систем компьютерной телефонии , как правило , весьма интеллектуальн ы и могут самостоятельно выполнять целый ряд операций , необходимых для работы системы . Поэтому сам компьютер , где они установле ны , может быть не слиш к ом мощн ым , как правило , для выполнения всех основ ных функций хватает компьютера с 386 или даж е 286-м процессором . Использование многоканальных голосовых плат Dialogic позволило новгородскому ОКТБ "Омега " разраб отать систему безопасности для опасных произ водств . Эта система представляет собой своеобразный "черный ящик ", где фиксируются все разговоры сотрудников , например , газодобывающе го предприятия . Речь участников разговора оци фровывается и записывается на диск компьютера , после чего соответствующие фай л ы могут быть организованы в виде базы данных . При возникновении аварийной ситуации записи разговоров могут помочь выяснить ее причину . Работа систем компьютерной телефонии осно вана на использовании так называемых голосовы х меню . Схема работы с голосовым мен ю такова : абонент прослушивает сообщение о возможных вариантах действий (точно так же как при работе с обычным меню список опций высвечивается на экране компьютера ), а затем выбирает необходимое действие , наб рав заданную цифру или комбинацию цифр на св о ем телефонном аппарате . Информ ация о том , какую цифру следует набрать , чтобы выбрать то или иное действие , озв учивается одновременно с описанием действий . Проводя аналогию с работой на компьютере в традиционном режиме , можно сказать , что телефонная трубка здесь играет роль экрана компьютера , а наборное устройство те лефона — роль клавиатуры . Отметим , что ди ск телефонного аппарата можно использовать не только для выбора необходимой опции голо сового меню , но и для ввода данных (нап ример , номера кредитной карт ы или номера рейса , время прибытия которого желае т узнать абонент ). Dialogic compatible Конкретные примеры применения новой техно логии мы рассмотрим чуть ниже , а пока скажем несколько слов об аппаратной базе компьютерной телефонии . Соответствующие платы расширения выпускают примерно полтора десятка разных компаний . Общепризнанный лидер в э той области — американская компания Dialogic. Платы для компьютерной телефонии , разработанные Dialogic, стали отраслевым стандартом , и теперь многие другие производите л и в качестве характеристики своей продукции пишут : совмес тимо с Dialogic — подобно тому , как про перс ональные компьютеры говорят : "совместим с IBM PC." Главным элементом любой системы компьютер ной телефонии являются так называемые голосов ые платы . В их з адачу входит устан овление соединения с абонентом (то есть на бор номера и мониторинг линии в ходе соединения ), озвучивание оцифрованной речи , перевод в цифровой код голоса абонента и рас познавание сигналов тонального набора . Последнее необходимо для того , ч тобы абон ент мог отвечать на вопросы системы в понятной для нее форме . (Впрочем , все не так просто : чуть ниже мы расскажем о некоторых проблемах , которые могут тут во зникнуть .) Именно голосовые платы отвечают за организацию голосового меню , а все прочие э л ементы системы компьютерной те лефонии либо обеспечивают какие-то дополнительные функции , либо просто "помогают " голосовым платам общаться с абонентом . Все голосовые платы , выпускаемые компание й Dialogic, — многоканальные , к ним можно одновр еменно подключ ить от 2 до 30 телефонных к аналов . Существуют платы , способные работать с аналоговыми линиями , цифровыми каналами , а также платы , которые можно напрямую подключ ать к линиям T1/E1. Системы компьютерной телефонии на базе плат Dialogic могут также работать с BRI ISDN. Линии ISDN можно подключать либо напрямую к платам , либо через специальные интерфейсные платы . Использование интерфейсных плат в сочетании с коммутацией каналов по зволяет создавать системы , где число входных каналов больше суммарного числа канал о в , обслуживаемых голосовыми платами . Это может быть полезно , например , в с лучае , когда абонент , позвонивший в компанию , имеющую систему компьютерной телефонии , после работы с коротким голосовым меню переклю чается на сотрудника компании — ясно , что в такой ситуации число реально занятых входных каналов может существенно превышать количество каналов , которым в данны й момент требуется работа с голосовой пла той , ввод же линии в систему в любом случае осуществляется через интерфейсную плату . Компания "Империя " разработала систему голосового набора для мобильных телефонов . Данная система очень удобна , например , тем , кому часто приходится звонить по мобильн ому телефону , сидя за рулем автомобиля — использование голосовой системы позволяет на бирать номер , не отвле к аясь от дороги . Вышеупомянутый пример представляет собой частный случай центра телефонного обслуживания — организации , занимающейся обычно сбором заказов либо предоставлением платной информации по телефону . Главной задачей автоматизации центра телефонног о обслуживания является рациональное использование труда телефонных аг ентов и минимизация очередей входных звонков . Поэтому работа компьютеризованного центра т елефонного обслуживания может , например , выглядеть так : абонент , позвонивший в центр , в п ервую о ч ередь прослушивает приветстви е системы компьютерной телефонии и отвечает на вопросы о цели его обращения , либо просто вводит свой личный номер , если он является постоянным клиентом центра . Зат ем его информируют о длине очереди звонящ их (увы , здесь очереди еще не и зжиты ) и предполагаемом времени обслуживания , после чего ставят на ожидание . В момент соединения с агентом , последний получает на экране своего компьютера всю имеющуюся в системе информацию о звонящем клиенте (в частности , за время ожидания соедин е ния компьютерная система центра обслужива ния может запросить информацию из сторонних источников ). Глас человеческий в телефонии Голосовые платы часто используются в сочетании с платами коммутации ресурсов . Испо льзуя такое сочетание , можно разработать , например , систему , в которой будет осу ществляться маршрутизация телефонного звонка по фактическому местонахождению сотрудника . (Уходит человек со своего рабочего места и в водит в компьютер номер телефона , по котор ому его можно найти . После этого все з вонк и по рабочему телефону будут переключаться на введенный номер , который о тнюдь не обязательно должен находиться в помещении компании — переключиться можно на любой номер .) По данным исследований , проведенных росси йской фирмой COPRIS & M в настоящее время р ос сийский рынок испытывает наибольшие потребности в следующих приложениях компьютерной телефон ии : • автоматическая банковская справочная служб а • офисная речевая почта • справочно-информационная система • системы сбора статистической информации • системы опроса общественного мнения • рекламно-маркетинговые службы • системы пейджинговой связи Другие примеры использования плат коммута ции ресурсов — разнообразные гостиничные сис темы , где большое число внутренних линий м ожет соединяться с ограниченным количе ств ом внешних , а также устройства согласования , где входные линии работают в одном ста ндарте , а выходные — в другом (при это м система может как угодно коммутировать входные и выходные линии ). Представляют интерес также системы для работы с депозитными ка рточками . Одна из таких систем используется в ОАО "Мос ковский междугородный и международный телефон ". Владелец карточки может выполнить междугородн ый звонок с любого телефона — достаточно набрать определенный городской номер и в вести свой личный код . Дале е кли енту предоставляется возможность набрать номер нужного ему абонента ; плата за разговор будет "списана " с карточки . Из дополнительных устройств в первую очередь следует упомянуть платы поддержки фак симильного обмена . Упрощенно их можно рассмат ривать к ак интеллектуальные факс-модемы . П оскольку компьютер , где установлены платы фак симильного обмена , как правило , включен в локальную вычислительную сеть , факсимильные платы представляют собой весьма удобное средство организации корпоративного факс-сервера . К роме того , устанавливая голосовые платы и платы факсимильного обмена в одной с истеме , можно легко создавать системы отсылки факсов по требованию , очень удобные для организации различных информационных центров . При этом абонент при помощи разветвленной сис т емы голосовых меню может выбрать необходимый ему справочный раздел и получить всю информацию на свой факсими льный аппарат . Первый образец такой системы в России — справочный центр , разработанный компанией "Новые системы коммуникаций ". Следующим весьма ва жным компьютерно-т елефонным ресурсом являются платы для распозн авания речи . Они работают с оцифрованной р ечью , поставляемой им голосовыми платами и могут распознавать определенные ключевые слова , произносимые человеком . Распознавание производит ся загружен н ым в плату программны м обеспечением , ресурсы центрального процессора при этом не используются . Количество и режим произнесения (слитно или раздельно ) ключ евых слов зависит от режима распознавания . При распознавании речи с настройкой на голос пользователя к оличество ключев ых слов может составлять несколько десятков тысяч , так что пользователь может не только подавать простые голосовые команды , но и диктовать сообщения , скажем , для отсылк и по электронной почте . Возможности распознав ания речи без настройки на голос конкретного пользователя определяются наличием словаря . Для русского языка пока разработ ан только словарь , позволяющий распознавать ц ифры от нуля до девяти и слова типа "да " и "нет ". За рубежом еще в 1984 году фирмой AT&T бы ла разработана система C onversant поддерживающая одновременно до 48 вызовов , требующих голосового ответа . Система работает с программным паке том FlexWord той же фирмы , который обеспечивает распознавание до 2000 отдельных слов и фраз , а модуль преобразования текста в речь пре дост а вляет абонентам возможность полу чать сложную информацию из различных источник ов . Интегрированная офисная система - разработка компании "Артикс Лтд ". Она включает в себ я справочную службу , предоставляющую информацию о компании : часы работы , адрес , как про ехать ; информацию о товаре : цена , услов ие поставки , технические спецификации , комплектаци я , фото . Система также осуществляет подбор товара по основным реквизитам , рассылку инфор мации о новинках , распродажах , обработку заказ ов и контроль их прохождения на в сех стадиях . Обрабатывая входящие звонки , система регистрирует их и пытается осуще ствить распознавание абонента (по номеру звон ящего или по личному коду ). Помимо этого система обладает еще целым рядом сервисных функций по координации деятельности мобильны х и офисных сотрудников , оповещению сотрудников и клиентов о каких-либо событ иях , помогает в подборе кадров путем автом атического анкетирования и др . Преобразование текст-речь — важнейшая функция компьютерно-телефонной системы . Она необходима , в частности , в системах , где абонент получает информацию без обращения к оператору . Наиболее прост ой пример — банковская система : человек з вонит в банк , набирает на телефоне свой личный номер и прослушивает информацию об остатке средств на его счете . При это м компью т ер посылает запрос к базе данных , получает ответ и сам озвуч ивает его абоненту . В такой системе ничего особенно мудреного нет , для ее создания , как и для решения подавляющего большинст ва подобных проблем , достаточно записать на диск набор речевых фрагмент о в и разработать не слишком сложную программу , которая будет "собирать " сообщение из фрагм ентов . Для того чтобы "склеенное " сообщение звучало естественно , потребуется определенное и скусство , однако никаких принципиальных проблем на этом пути нет . Первые ба н ковские системы такого рода в России уже работают , в качестве примера можно привести разработки компаний Светец и Лани т . Значительно более сложной , совершенной и гораздо более редко встречающейся в реал ьных приложениях технологией является прямое преобра зование текст-речь , при котором гол осовое сообщение синтезируется по произвольному тексту . На рынке пока отсутствуют продукт ы , осуществляющие данное преобразование для р усского языка , хотя ряд фирм , и в перву ю очередь BeST (Berkeley Speech Technologies), м ировой лидер в этой области , активно ведут такие работы . Преобразование текст-речь также осуществляется программным обеспечение , загруженным в специаль ные платы-преобразователи . Dialogic выпускает и такие платы . На сегодняшний день многие исследовательс к ие лаборатории значительно продвинулись в деле синтеза и распознавания речи , выйдя на субфонетический уровень языка , когда с истема в принципе может работать не с ограниченным набором фраз и слов , заранее занесенными в память , а со звуками , из которых стро и тся речь . Без трудностей никуда Системы компьютерной телефонии позволяют существенно автоматизировать труд офисных работн иков . Помимо уже упоминавшихся функций , систем а электронного офиса может обеспечивать автом атическое соединение звонящего извне або н ента с нужным сотрудником , предоставлять услу ги голосовой почты (каждый сотрудник получает свой голосовой почтовый ящик , где абонент может оставлять голосовые сообщения ), а т акже поддерживать единую среду обмена сообщен иями . О последнем применении следуе т сказать особо . Речь идет о программ ном обеспечении , благодаря которому пользователь может единым упорядоченным образом знакомить ся с содержанием всех полученных сообщений (электронных писем , голосовых и факсимильных сообщений ), немедленно принимать решен и е о форме ответа и тут же отп равлять ответное сообщение , выбирая телефонный номер или электронный адрес из списка на экране компьютера . Новая технология вызывает огромный интере с у российских пользователей . И многие фир мы сейчас активно работают на этом направлении , пропагандируя новую технологию и одновременно проводя адаптацию ее к техничес ким условиям нашей телефонной сети . Главной трудностью здесь является проблема тонального набора . Как уже говорилось выше , все голосовые платы рассчитаны на распозн авание от ветов абонента в виде сигналов тонального набора . В России же (как и 85 процентах других стран ) принята принципиально иная им пульсная система . Все вышеперечисленные прикладны е системы рассчитаны именно на тональный набор , что исключает из числа и х потенциальных пользователей всех абонентов , не имеющих телефонных аппаратов с тональ ным набором (а таковых подавляющее большинств о ). Выходом из положения является либо раб ота с распознаванием речи , либо применение преобразования пульс-тон . Преобразование пульс-тон в настоящее время выполняется только специализированными платами , однако Dialogic о бъявил о намерении в ближайшее время вклю чить соответствующие функции в программное об еспечение , загружаемое в голосовые платы . О распознавании речи подробно гово р и лось выше . Специалисты CompTek International провели тестирование обеих технологий в условиях Московской т елефонной сети и выяснили следующее . Преобраз ование пульс-тон выполняется успешно во всех случаях , когда соответствующие сигналы попад ают на вход пр е образователя . Пробл ема состоит в том , что характерные щелчки , сопровождающие импульсный набор , передаются не всеми московскими АТС . Успешность распозна вания голоса зависит от того , какая цифра произносится , однако в среднем правильное распознавание обеспе ч ивается в 75-80 пр оцентах случаев . CompTek International оптимистично оценивает будущее компью терной телефонии в России . Гибкость и деше визна аппаратной базы и легкость прикладного программирования дают основания считать , что компьютерно-телефонные систе мы в ближайш ем будущем получат в нашей стране самое широкое распространение . Речевая по чта - voice-mail - вид электронной почты , предназначенный для передачи речевых сообщений . Слияние телефонной сети с другими тип ами коммуникационных сетей при вело к появлению новых сетевых служб . Речевая почта обеспечивает монолог пользователей , передавая речь в виде сообщений , которые до их востребования хранятся в памяти систем . Речевая почта , именуемая также телефонной почтой , записывает речевое сообщение дл я последующей их выдачи адресатам . Для это го в абонентских системах предоставляются зон ы памяти , именуемые почтовыми ящиками . Работае т почта следующим образом . Пользователь набир ает на телефонном аппарате либо другом ти пе абонентской системы номер служб ы телефонии . После речевого ответа службы пользователь набирает номер своего почтового ящика и пароль . Затем , он диктует теле фонограмму . Это сообщение хранит и передает речевая почта , а выслушивает получатель . Кро ме этого , последняя обеспечивает : • рассылк у сообщений группам пользова телей ; • рекламу и справочное оповещение ; • сбор объявлений , мнений ; • проведение телеконференций ; • хранение речевых сообщений-телефонограмм . Создание речевой почты стало возможным при появлении аудиовидеосистем , снабженных м икрофонами и динамиками . В отличие от обычной почты , речевая позволяет передавать речевые сообщения отсутствующим у рабочих мест партнерам и создавать Базы Данных (БД ), в которых хранятся рассматриваемые сообще ния . Благодаря этому , речевые сообщения стано в ятся такими же документами , что и бумажные . Подлинность этих сообщений оп ределяется путем анализа речи , имеющей , как и отпечатки пальцев , уникальные характеристики . Передача речевых сообщений , в отличие от обычных , очень проста , ибо нет необходи мости в и спользовании клавиатуры или светового пера . Вместе с этим , она требует аналого-дискретного преобразования перед и д искретно-аналогового преобразования после передачи сообщения . Кроме этого , из-за большого объем а речевых сообщений необходимо осуществление с жатия данных . При этом удается 30-секундную речь упаковать в 100 Кбайт памяти . Организация речевой почты в скоростных сетях с маршрутизацией данных не представл яет трудностей . Они возникают в сетях с селекцией данных из-за необходимости синхрониза ции пот оков блоков данных . Однако эти трудности устраняются рядом способов . Наприм ер , использованием асинхронного способа передачи . Речь - speech - вид коммуникативной деятельности Челове ка. Эта деятельность связана с использованием при диалоге либо монолог е естественн ого языка . При взаимодействии пользователя с абонентской системой речевой монолог либо речевой диалог обеспечивает передачу необходим ых сведений в виде звука . Речь характеризу ется фонемами и аллофонами . Генерация и во сприятие речи осуществляет с я с по мощью аналогового сигнала , передаваемого колебани ями звукового аппарата Человека . Для того , чтобы сохранить естественную натуральность речи необходимо использование сигнала полосой не менее 6-7 кГц . Качество речи , записываемой и воспроизвод имой уст ройствами , зависит от многих ф акторов . Но наиболее существенным из них я вляется используемая полоса частот . Расширение этой полосы в сторону низких частот ул учшает натуральность речи , а в сторону выс оких частот - разборчивость отдельных звуков . Что же ка сается скорости передачи речи после ее кодирования , то стандартами международного союза электросвязи для телефо нии приняты следующие режимы : Режим 0. Передача узкополосной речи (до 3,4 кГц ) со скоростью 64 кбит /с . Режим 1. Передача нормальной речи со с коростью 64 кбит /с . Режим 2. Передача речи (56 кбит /с ) + передач а данных (6,4 кбит /с ) + синхронизация и управле ние (1,6 кбит /с ). Режим 3. Передача речи (48 кбит /с ) + передач а данных (14,4 кбит /с ) + синхронизация и управле ние (1,6 кбит /с ). Стандарты о пределяют кодирование речи методом адаптивной дифференциальной импульсно-ко довой модуляции , описывают задачи управления и передачи звуковой информации . Важным компонентом абонентской системы , в оспринимающим речь , является речевой кодек - ус тройство , пред назначенное для преобразования аналоговых сигналов , представляющих речь , в код . Рекомендации ITU определяют параметры и п роцедуры кодирования речевых сигналов с полос ой от 50 до 7.000 Гц со скоростью 64 кбит /с для режимов трех типов : • тип 0 - для дискрет ной телефонии . • тип 1 - для широкополосной передачи . • тип 2 - для многофункциональной передачи . Речь широко используется в : • обучающих системах и системах развлечен ия ; • комментариях к прикладным программам ; • речевой почте для передачи экстренных с ообщений ; • диспетчерских системах для информирования персонала о нештатных событиях ; • звуковых командах и подсказках пользова телям о допускаемых ими ошибках . Системы речевого общения - СРО. ------------------------------------------------------------------------ Под системой речевого общения будем п онимать программно-аппаратный комплекс , позволяющий человеку общаться с компьютером на естеств енном языке . ------------------------------------------------------------------------ Современные исследовани я в области СРО начаты примерно в начале 60-х годов . Первые промышленные СРО появились в конц е 70-х годов . К настоящему времени созданы разнообразные СРО для разных сфер применен ия . Это связано с осознанием потенциальными потребителями преимуществ СРО : - удобство , простота и естественность про цедуры общения , требующей минимума специальной подготовки ; - возможность использования для связи с ЭВМ обычных телефонных аппаратов и сущес твующей телефонной сети ; - устранение ручных манипуляций с одновр еменным увеличением скорости ввода информац ии (в 3-5 раз по сравнению с клавиатурным вводом ) и разгрузка зрения при получения информации. Цифровой сигнальный процессор (Digital Signal Processor - DSP) - специализированный быстродействующий процесс ор , выполняющий сложную обработку звукового сигнала в режиме реального времени . Звуковые эффекты типа Reverb, Chorus, а также такие виды обработки звука , как компрессия , рас познавание и синтез речи , моделирование акуст ики помещений и т.п ., реализуются обы ч но с помощью DSP. Сигнальный процессор мо жет быть встроенным или внешним . Улучшенный сигнальный процессор (Advanced Signal Processor - ASP) и сигнальный процессор Creative (Creative Signal processor - CSP) - названия одного и того же цифрового си гнального пр оцессора фирмы Creative Labs, используемого в некоторых платах типа Sound Blaster. Он обеспечивает реализацию до полнительных методов сжатия звука , увеличивает скорость сжатия , повышает надежность распознав ания речи . На звучание встроенных F M - и WT-синтезаторов ASP влияния не оказывает. Системы распознавания и синте за речи , текста и изображений ----------------------------------------------------------------------- 1.Состав Технология включает совокупность математичес ких методов , инструме нтальных и программн ых средств поддержки , специализированных технолог ий для решения прикладных интеллектуальных за дач , в том числе принятия решений , диагнос тики , идентификации и прогнозирования , или сод ержащих задачи указанных типов , в том числ е : • математ ических методов распознавания образов , прогнозирования , анализа и понимания информации , представленной в виде изображений и сигналов ; • методов автоматизации синтеза и тестиро вания указанных информационных технологий ; • методов решения индивидуальных (нест андартных или особо важных ), специализиров анных (для классов задач и предметных обла стей ) задач в данной области и инструмента льных средств широкого назначения , баз данных и баз знаний для поддержки разрабатываем ых методов . 2.Назначение , основные функци ональные показатели Данная группа информационных технологий п редназначена для автоматизации , регуляризации и оптимизации выбора и применения алгоритмическо го и программного обеспечения при решении прикладных задач распознавания образов , прогноз ирования , а нализа и понимания информации , представленной в виде изображений и сигн алов , а также разработки , исследования и р еализации соответствующих автоматизированных вычисли тельных систем . Отличительной и принципиальной особенностью решаемых с помощью этих метод о в задач является невозможность исп ользования классических математических (аналитических ) моделей для формализации и представления исходных данных , которые могут задаваться ч исловыми массивами , изображениями , сигналами , верба льными описаниями или комбинацие й у казанных способов . Информация в этих задачах "плохая " по определению : ее характерными о собенностями являются неполнота , противоречивость , слабая структурированность , неформализованность , не четкость . В основе их решения лежат модели не чисто расчетные , а основанные на процедурах анализа и оценивания инфор мации о задаче : главным образом , прецедентов , косвенных характеристик , доступных для измерен ия , логических и физических ограничений , конте кстных и неявных знаний. 3.Область применения Математическая пост ановка задач распо знавания образов , прогнозирования , анализа и п онимания изображений и сигналов не зависит от предметной области и специфического вид а объекта анализа . Именно поэтому критическая технология , реализующая методы и средства решения указанных з адач , применяется в технической диагностике , неразрушающем кон троле , дистанционном зондировании ; экологическом м ониторинге ; прогнозировании хода и результатов лечения , диагностике в медицине ; в геологии ; для прогнозирования в химии и автоматиза ции научных исследований (обнаружение событий , поиск , восстановление и вывод зависим остей и эмпирических закономерностей ). 4.Основания для выбора Необходимость разработки данной технологии определяется тем , что методы распознавания образов , анализа изображений и про гнозиро вания лежат в основе информатизации подавляющ его большинства отраслей промышленности , автомати зации научных исследований и социальной сферы ; значительная часть перспективных высоких и наукоемких технологий использует или предусм атривает использован и е этих методов . Анализ потребностей внутри страны показал , что системы такого типа в период 1996-2000 гг . могут тиражироваться в количестве до 100 ты сяч в год . Экспортные возможности на 1996 год на мировом рынке прикладных интеллектуальных программных сре д ств в системах такого класса оцениваются ( при квалифицированн ом маркетинге ) в 25-30 тысяч штук. 5.Состояние и тенденция развития Распознавание образов , анализ изображений и речи являются ведущим направлением приклад ной информатики . В России получены фу н даментальные результаты , позволяющие надеяться на относительно быстрое достижение крупных прик ладных успехов при условии соответствующей ко ординации и финансирования работ . В настоящее время разработкой предлагаемых методов занят о около 10 тысяч российск и х ученых и специалистов . За рубежом в этой обл асти работают около 200 тысяч человек. Имеющийся сейчас в стране научный зад ел и опыт решения особо важных прикладных задач позволяет осуществить выход на меж дународный рынок наукоемкой продукции и НИОКР . Разры в между потенциальными возможностя ми теории и методами , реально используемыми при решении прикладных задач и создании систем распознавания образов и анализа изо бражений , чрезвычайно велик . В значительной ме ре такое положение объясняется недостаточным фина н сированием и плохим материально- техническим обеспечением . В ближайшие несколько лет это может привести к существенному отставанию информатизации общества в России от мирового уровня. Oki разрабатывает самую миниатюрн ую в мире БИС для синтеза речи Компан ия Oki Electric Industry объявила о разработке новой БИС для синтеза речи , ко торая по размерам вдвое меньше современных чипов . Опытные поставки БИС MSM9831 начнутся в марте . По мнению специалистов Oki, ИС MSM9831, скорее всего , найдет свое применение в п рилож ениях с системами с управлением речевыми командами , в навигационных системах транспортных средств и в системах имитации звуковых эффектов . Этот чип , благодаря использованию алгорит ма нелинейной 8- разрядной импульсно-кодовой модуля ции , может генерир овать звук , эквивалентны й звуку , получаемому с помощью 10- разрядного алгоритма прямой импульсно-кодовой модуляции . О н позволяет получать звук на частоте от 4 до 16 кГц , воспроизводить до 31 канала . На ч астоте 4,0 кГц чип MSM9831 обеспечивает 11 секунд зв у чания . Размер чипа - 6,8х 5,0 мм , он имеет 8 выво дов . Уменьшение его размера стало возможным благодаря использованию последовательного интерфей са , благодаря чему число внешних контактов было сокращено вдвое . Такой миниатюрный раз мер позволяет встраивать ч ип MSM9831 во мно гие современные портативные устройства , такие как цифровые камеры , персональные электронные секретари (PDA) и портативные CD- плейеры . Дальнейшие планы развития. Задача синтеза речи , как видно из предыдущих материалов , является частью , о дной из подзадач компьютерной телефонии . Поэтому ее так и следует рассматривать . В этом направлении у же создано достаточно много , но , к сожален ию , универсальные программы синтеза русской р ечи пока не получили широкого распросранения . Это связано с тем , чт о во - первых разработка таких программ требует б ольших затрат времени квалифицированных специали стов , таким образом деньги вложенные в раз работку могут начать приносить прибыль только через несколько лет , и коммерческие фирмы не хотят этим заниматься . Раб о та в этом направлении ведется в о сновном в институтах (МГУ ). Во - вторых , испо льзование голосовых технологий на базе сигнал ьных процессоров фирмы Dialogic требует достаточно крупных капи таловложений (от 800 $ ). Это является серьезным барьером для многих ф ирм - зачастую проще взять н а работу девочку для обзвонки абонентов , ч ем покупать Software и Hardware . Другое применение программ синтеза речи - чтение текстов незрячим людям . На Западе такие системы имеет практически каждый н езрячий . В России это пока нед остижимо из - за их финансового положения. Выход здесь один - снижать цены . Но и при сегодняшнем положении вещей есть области применения , где компьютерная телефония незаменима . Например , одна из них - предвыб орная агитация . В компьютер закладывается спи со к номеров или условие , по которому телефон будет сгенерирован , а так же наговаривается текст предвыборной программы конк урента . Систему настраивают так , чтобы она начала обзвонку и выдачу сообщений , допустим с 1.00 до 6.00. Естественно , за этого кандидата уже никто голосовать не станет . Такая система уже была опробована и по казала хорошие результаты на недавних выборах в С .- Петербурге . Другое направление развития - увеличение к оличества каналов на одной плате в России упирается в то , что многие станции в ообще не поддерживают функции , предусмотр енные системой (АОН ) и не имеют ресурсов для подключения этих плат . Тут вообще н ичего нельзя сделать . Оставляет желать лучшег о и качество связи. В отношении Hardware систем компьютерной телефонии сейчас ведутся разр аботки по снижению энергоп отребления , миниатюризации и увеличению быстродей ствия.
1Архитектура и строительство
2Астрономия, авиация, космонавтика
 
3Безопасность жизнедеятельности
4Биология
 
5Военная кафедра, гражданская оборона
 
6География, экономическая география
7Геология и геодезия
8Государственное регулирование и налоги
 
9Естествознание
 
10Журналистика
 
11Законодательство и право
12Адвокатура
13Административное право
14Арбитражное процессуальное право
15Банковское право
16Государство и право
17Гражданское право и процесс
18Жилищное право
19Законодательство зарубежных стран
20Земельное право
21Конституционное право
22Конституционное право зарубежных стран
23Международное право
24Муниципальное право
25Налоговое право
26Римское право
27Семейное право
28Таможенное право
29Трудовое право
30Уголовное право и процесс
31Финансовое право
32Хозяйственное право
33Экологическое право
34Юриспруденция
 
35Иностранные языки
36Информатика, информационные технологии
37Базы данных
38Компьютерные сети
39Программирование
40Искусство и культура
41Краеведение
42Культурология
43Музыка
44История
45Биографии
46Историческая личность
47Литература
 
48Маркетинг и реклама
49Математика
50Медицина и здоровье
51Менеджмент
52Антикризисное управление
53Делопроизводство и документооборот
54Логистика
 
55Педагогика
56Политология
57Правоохранительные органы
58Криминалистика и криминология
59Прочее
60Психология
61Юридическая психология
 
62Радиоэлектроника
63Религия
 
64Сельское хозяйство и землепользование
65Социология
66Страхование
 
67Технологии
68Материаловедение
69Машиностроение
70Металлургия
71Транспорт
72Туризм
 
73Физика
74Физкультура и спорт
75Философия
 
76Химия
 
77Экология, охрана природы
78Экономика и финансы
79Анализ хозяйственной деятельности
80Банковское дело и кредитование
81Биржевое дело
82Бухгалтерский учет и аудит
83История экономических учений
84Международные отношения
85Предпринимательство, бизнес, микроэкономика
86Финансы
87Ценные бумаги и фондовый рынок
88Экономика предприятия
89Экономико-математическое моделирование
90Экономическая теория

 Анекдоты - это почти как рефераты, только короткие и смешные Следующий
Просыпаюсь утром в цветах... романтика! Огляделась, блин, клумба!
Anekdot.ru

Узнайте стоимость курсовой, диплома, реферата на заказ.

Обратите внимание, курсовая по программированию "Синтез речи (озвучение речи компьютером)", также как и все другие рефераты, курсовые, дипломные и другие работы вы можете скачать бесплатно.

Смотрите также:


Банк рефератов - РефератБанк.ру
© РефератБанк, 2002 - 2016
Рейтинг@Mail.ru