Реферат: Распознование речи - текст реферата. Скачать бесплатно.
Банк рефератов, курсовых и дипломных работ. Много и бесплатно. # | Правила оформления работ | Добавить в избранное
 
 
   
Меню Меню Меню Меню Меню
   
Napishem.com Napishem.com Napishem.com

Реферат

Распознование речи

Банк рефератов / Программирование

Рубрики  Рубрики реферат банка

закрыть
Категория: Реферат
Язык реферата: Русский
Дата добавления:   
 
Скачать
Архив Zip, 58 kb, скачать бесплатно
Заказать
Узнать стоимость написания уникального реферата

Узнайте стоимость написания уникальной работы

1 РАСПОЗНАВАНИЕ РЕЧИ. По мере развития компьютерных систем ста новится все более очевидным , что использование этих систем намного расширится , если станет возможным использование человеческой речи при работе непосредственно с компьютером , и в частности станет возможным управление машиной обычным голосом в реальном вре м ени , а также ввод и вывод информации в виде обычной человеческой речи. Существующие технологии распознавания речи не имеют пока достаточных возможностей для их широкого использования , но на данном этапе исследований проводится интенсивный поиск возможност ей употребления коротких многозначных слов (процедур ) для облегчения понимания . Распознавание речи в настоящее время нашло реальное применение в жизни , пожалуй , только в тех случаях , когда используемый словарь сокращен до 10 знаков , например при обработке номеров кредитных карт и прочих кодов доступа в базирующихся на компьютерах системах , обрабатывающих передаваемые по телефону данные . Так что насущная задача - распознавание по крайней мере 20 тысяч слов естественного языка - остается пока недостижимой . Э т и возможности пока недоступны для широкого коммерческого использования . Однако ряд компаний своими силами пытается использовать уже существующие в данной области науки знания . Для успешного распознавания речи следует решить следующие задачи : Ю обработку словаря (фонемный состав ), Ю обработку синтаксиса , Ю сокращение речи (включая возможное использование жестких сценариев ), Ю выбор диктора (включая возраст , пол , родной язык и диалект ), Ю тренировку дикторов, Ю выбор особенного вида микрофона (прини мая во внимание направленность и местоположение микрофона ), Ю условия работы системы и получения результата с указанием ошибок. Существующие сегодня системы распознавания речи основываются на сборе всей доступной (порой даже избыточной ) информации , необ ходимой для распознавания слов . Исследователи считают , что таким образом задача распознавания образца речи , основанная на качестве сигнала , подверженного изменениям , будет достаточной для распознавани , но тем неменее в настоящее время даже при распознаван и и небольших сообщений нормальной речи , пока невозможно после получения разнообразных реальных сигналов осуществить прямую трансформацию в лингвистические символы , что является желаемым результатом . Вместо этого проводится процесс , первым шагом которого я вляется первоначальное трансформирование вводимой информации для сокращения обрабатываемого объема так , чтобы ее можно было бы подвергнуть компьютерному анализу . Примером является «техника сопоставления отрезков» , позволяющая сократить вводимую информацию с 50'000 до 800 битов в секунду . Следующим этапом является спектральное представление речи , получившееся путем преобразования Фурье . Результат преобразования Фурье позволяет не только сжать информацию , но и дает возможность сконцентрироваться на важных ас п ектах речи , которые интенсивно изучались в сфере экспериментальной фонетики . Пример такого представления см на рис . Спектральное представление достигнуто путем использования широко-частотного анализа записи . Хотя спектральное представление речи очень пол езно , необходимо помнить , что изучаемый сигнал весьма разнообразен . Разнообразие возникает по многим причинам , включая : Ю различия человеческих голосов ; Ю уровень речи говорящего ; Ю вариации в произношении ; Ю нормальное варьирование движения артикулято ров (языка , губ , челюсти , нёба ). Для устранения негативного эффекта влияния варьирования голосового тракта на процесс распознавания речи было использовано множество методов . Первым делом рассматривалась характеристика пространства траектории артикуляторны х органов , включая гласные , используемые говорящим . Наиболее удачные формы трансформации , использованной для сокращения различий , были впервые представлены Сакоя & Чибо и назывались динамичными искажениями (dynamic time warping). Техника динамичного искаже ния используется для временного вытягивания и сокращения расстояния между искаженным спектральным представлением и шаблоном для говорящего . Использование данной техники дало улучшении точного распознавания (~20-30%). Метод динамичного искажения используют практически все коммерчески доступные системы распознавания , показывающие высокую точность сообщения при использовании . Техника динамичного искажения представлена на рис .2. Вначале сигнал преобразовывается в спектральное представление , где определяется не м ногочисленный , но высокоинформативный набор параметров . Затем определяются конечные выходные параметры для варьирования голоса (следует отметить , что данная задача не является тривиальной ) и производится нормализация для составления шкалы параметров , а так ж е для определения ситуационного уровня речи . Вышеописанные измененные параметры используются затем для создания шаблона . Шаблон включается в словарь , который характеризует произнесение звуков при передаче информации говорящим , использующим эту систему . Да л ее в процессе распознавания новых речевых образцов (уже подвергшихся нормализации и получивших свои параметры ), эти образцы сравниваются с шаблонами , уже имеющимися в словаре , используя динамичное искажение и похожие метрические измерения . В настоящее вре м я этот метод изучается и дополняется . Очевидно , что спектральное представление речи позволяет характеризовать особенности голосового тракта человека и способ использования его говорящим . Самый обычный способ моделирования специфических эффектов "модель-и сточник " - использование фильтров . Речевой аппарат моделируется с использованием источников , вызывающих резонанс , ведущий к пиковым точкам интенсивности звука в соседстве с отдельными частотами , называемыми формантами . При произнесении звуков вибрация гол о совых связок является источником возбуждения , и эти короткие импульсы вызывают резонанс между голосовыми связками и губами . Так как язык , челюсть , губы , зубы и альвеолярный аппарат двигаются , размер и место этих резонансов меняются , давая возможность восп р оизведения особых параметров звуков . Возможно построить очень точную модель , также прямо смоделировать движения артикуляторов физиологически реальным путем . Использование этих моделей привели к пониманию пути , в котором происходит речевой сигнал . Но так как наблюдение над артикуляторами затруднено , остаются недостатки . Хотя природа вокального тракта очень сильно влияет на выходной сигнал речи , это не единственное ограничение , которое необходимо принимать во внимание , так как контроль над мускулами звуко в ого тракта обусловлен сигналами моторного кортэкса мозга . Возможно все аспекты влияния акустической структуры контролируют сигналы и форму звукового выхода речи (хотя это не может быть доказано с систематической точки зрения ). Аспекты влияния акустической структуры включает в себя : Ю природу сегментов индивидуального звука (гласные /согласные ), Ю структуру слога , Ю структуру морфем (приставки , корни , суффиксы ), Ю лексикон , Ю уровень синтаксиса фраз и предложений и Ю долгосрочные ограничения речи (long-term discourse constraints) . Ниже рассматривается влияние ограничений и способ их воздействия производство сигнала речи . Необходимо также принять во внимание тот факт , что человеческий аппарат восприятия также должен быть смоделирован , он сам по себе накладывает на процесс восприятия дополнительные ограничения . Недавно процесс восприятия был изучен с помощью метода сигнального подавления барабанных перепонок через возбуждение нервных клеток , которые образовывают примерно 30 тысяч нервных окончани й слухового нерва . Но изучение нервных окончаний способно только прояснить формирование простых синтетических гласных . Перед исследователями встало новое главное направление в области изучения воспроизводства речи , связанное с интеграцией всей физиологии в о сприятия человека . В настоящий момент появляются некоторые модели явлений , происходящих в ухе , и не без оснований можно ожидать дальнейшего улучшения понимания процесса распознавания речи из-за более полного понимания характеристик этого влияния. Что каса ется уровня артикуляторного контроля , первым уровнем является индивидуальный фонетический сегмент , иначе говоря , - фонема . Во многих естественных языках их примерно 40. Но их набор существенно различатется . Поэтому , например , английские гласные могут быть носовыми , даже ненамеренно , в то время как во французском носализация гласных является фонетическим контрастом , и поэтому влияют на значение произносимого . Во французском языке носовая коартикуляция доминирует в гласных и существенно влияет на восприятие ф онем и следовательно на главный смысл значения . Хотя все говорящие имеют одинаковый голосовой аппарат , использование его разное . Так например , использование кончика языка или прищелкивание , как в некоторых африканских языках . Ясно , что природа артикуляцио н ных движений имеет сильное влияние на метод воспроизведения речи . Эти ограничения всегда активно используются в практических системах. На следующем уровне лингвистической структуры фонетические сегменты сгруппированы в согласные /гласные , а следовательно и в слоги . Далее , в зависимости от роли фонетического сегмента внутри этих слогов их реализация может быть сильно изменена . Так например , начальный согласный в слоге может быть реализован как абсолютно отличный от конечной позиции . Согласные очень крепко связываются между собой , что опять же влияет на последующие ограничения . Например , в английском если начальная группа согласных состоит из трех фонем , первая фонема должна быть /s/ , следующей фонемой должен быть непроизносимый согласный , третьей или /r/ и ли /l/ , как например , в слове /scrape/ или /split/ . Говорящие на родном языке избегают этих ограничений или могут активно их использовать во время процесса восприятия . Из выше приведенных примеров очевидно , что хотя и существуют сильные ограничения , влияю щие на слушателя , но их сила не является решающей во время произнесения речи . То есть любое моделирование процесса восприятия может быть активным и может оказать большую помощь в понимании главного смысла. Другой пример , показывающий необходимость примен ения сфокусированного поиска , может быть представлен в восприятии конечного согласного . Среди многих ключевых слов для распознавания конечного согласного существует спектральная природа шума , воспроизводимого при освобождении конечной перемычки и перехода резонанса второй форманты в гласный , следующий за этой перемычкой . Многие исследователи изучали эти влияния , и результаты их исследований показали , что ограничивающее влияние обоих вышеописанных характеристик на восприятие варьируется природой следующего г ласного , и следовательно , мощная стратегия распознавания должна иметь некоторые знания о твердой позиции гласного перед конечным согласным перед тем , как будет сделано само распознавание конечного согласного . Конечные согласные дают яркий пример весьма ин т ересного комплекса фонетики , используемого для лингвистической окраски . Например , при рассмотрении слов rapid и rabid обнаруживается 16 фонетический различий. Кроме сегментного и слогового уровней существуют ограниченные влияния из-за структуры морфем , ко торые являются минимальными синтаксическими единицами языка . Они включают в себя приставки , корни , суффиксы . Можно себе представить , что это синтаксис на слоговом и на морфемном уровнях , также как и нормально распознанный синтаксис , характеризующийся спос о бом , в котором английские слова объединяются во фразы и предложения . Возможно представить данные ограничения как последствия рассмотрения грамматики вне контекста . В этом виде ограничений много “шумных” вариаций сегментов речи , которые так же относятся и к иерархическим синтаксическим ограничениям. Дополнительные ограничения на природе входа новой лексики в язык могут являться уровнем слова . Многие исследования обнаружили , что характеристика слов при введении разбиения на 5 жестких классов фонетических сег ментов может быть сокращена до минимума , часто имея единственное в своем роде распознавание . Далее слишком усиливается эффект порядка двух букв и фонетических сегментов с тех пор как в изучении английских и французских словарей было обнаружено , что более 9 0% слов имели единственное значение и только 0,5% имели 2 и больше альтернатив . На фонемном уровне было обнаружено , что все слова в английском словаре из 20 тысяч слов имели одно значение из-за беспорядочных фонемных пар . Этот пример помогает показать , чт о все еще существует ограничивающее влияние на лексическом уровне , которое еще не определено в современных системах распознавания речи . Естественно , что исследования в этой области продолжаются . Кроме уровня слов синтаксис имеет дополнительное ограничител ьное влияние . Его влияние на последовательный порядок слов часто характеризуется в системах фактором , который в свою очередь характеризует количество возможных слов , которые могут следовать за предыдущим словом в процессе произнесения . Синтаксис также име е т ограничительные влияния на просодические элементы , такие как ударение , например в случае , когда ударение слов в incline и survey варьируется в зависимости от части речи . Возможно для того , чтобы охарактеризовать ударение в слове , нужно принять во внимани е не только индивидуальное слово , но вышеприведенные дополнительные ограничения синтаксиса. Далее , кроме синтаксического уровня ограничения доминируют над семантикой , прагматикой и речью , что плохо осознается людьми , однако имеет очень важное значение дл я процесса распознавания. Несмотря на сложность описания характеристик источников различных ограничений , немаловажную роль играют современные системы влияния , которые представлены всеми возможными вариантами произнесения звуков . Например , система HARPI ун иверситета С arnegie-Mellon University является системой , в которой звуковоспроизведение описывается как путь через комплексную сеть . В этом способе ограничения структуры слога , слова и синтаксиса связаны одной структурой . Структура контроля , используемая д ля поиска , является адаптацией динамичной программной техники . Более сильный подход был предложен моделями использования цепей Маркова . Эти модели использовались как единая структура , где возможности могут быть точно изучены экспериментальным путем . Закод и рованные представления спектральной трансформации воспроизводства речи используются для нахождения самого правильного пути через сеть , и недавно были получены очень хорошие результаты . Очень важно подчеркнуть использование такого формально - структурного п о дхода , который способствует автоматичному определению классов символов через структурирование и параметризацию . При другом подходе базы данных и связанные с ними процессы обработки используются структурой контроля . Этот подход был изучен системой HEARSAJ 2 , которая была разработана в институте С arnegie-Mellon University, и системой HWIM (hear what I mean). В этих системах комплексная структура данных , которая содержит всю информацию о воспроизведении звуков , изучается с точки зрения конкретных ограничений . Но как выше указано , каждое из этих ограничений имеет особую внутреннюю модель , и полный анализ не может быть произведен . Для проведения анализа в целом структура данных должна иметь взаимодействие между разными процессами , а также средства для интегра ц ии . Несмотря на то , что структура включает в себя несколько весьма различных источников знаний и ее вклад в понимание речи очень общий , она также имеет большое количество степеней свободы , которые могут быть использованы для тщательного системного воспроиз ведения . В отличие от этого , техника , основанная на цепях Маркова , имеет математическую поддержку . Чтобы иметь возможность сфокусированного исследования ограничений взаимодействия и интеграции в контексте , необходимо применять обе системы . Те системы , кот о рые описывают ограничение взаимодействия , сфокусированы во многом на воспроизведении знаний , и они относительно слабо контролируемы , а системам с математической поддержкой , которые в свою очередь имеют великолепную технику для установления параметров и оп т имизации изучения , не достает использования комплексной структуры данных , необходимых для характеристики ограничений высокого уровня , таких как синтаксис . Оба направления в настоящий момент находятся в процессе развития. В заключение следует сделать акцен т на влияние производственной технологии на эти системы . Технология интеграции не является большой проблемой для систем распознавания речи , наоборот , это является архитектурой этих систем , включая способ представления ограничений . Необходимо провести гран д иозные эксперименты и найти новые способы , которые необходимы для ограничительного влияния взаимодействия. Во многих способах распознавание речи имеет типичный пример стремительно развивающегося класса высоко интегрированных комплексных систем , которые д олжны использовать лучшую компьютерную технику и самые последние достижения современного математического обеспечения . //...Рисунки
1Архитектура и строительство
2Астрономия, авиация, космонавтика
 
3Безопасность жизнедеятельности
4Биология
 
5Военная кафедра, гражданская оборона
 
6География, экономическая география
7Геология и геодезия
8Государственное регулирование и налоги
 
9Естествознание
 
10Журналистика
 
11Законодательство и право
12Адвокатура
13Административное право
14Арбитражное процессуальное право
15Банковское право
16Государство и право
17Гражданское право и процесс
18Жилищное право
19Законодательство зарубежных стран
20Земельное право
21Конституционное право
22Конституционное право зарубежных стран
23Международное право
24Муниципальное право
25Налоговое право
26Римское право
27Семейное право
28Таможенное право
29Трудовое право
30Уголовное право и процесс
31Финансовое право
32Хозяйственное право
33Экологическое право
34Юриспруденция
 
35Иностранные языки
36Информатика, информационные технологии
37Базы данных
38Компьютерные сети
39Программирование
40Искусство и культура
41Краеведение
42Культурология
43Музыка
44История
45Биографии
46Историческая личность
47Литература
 
48Маркетинг и реклама
49Математика
50Медицина и здоровье
51Менеджмент
52Антикризисное управление
53Делопроизводство и документооборот
54Логистика
 
55Педагогика
56Политология
57Правоохранительные органы
58Криминалистика и криминология
59Прочее
60Психология
61Юридическая психология
 
62Радиоэлектроника
63Религия
 
64Сельское хозяйство и землепользование
65Социология
66Страхование
 
67Технологии
68Материаловедение
69Машиностроение
70Металлургия
71Транспорт
72Туризм
 
73Физика
74Физкультура и спорт
75Философия
 
76Химия
 
77Экология, охрана природы
78Экономика и финансы
79Анализ хозяйственной деятельности
80Банковское дело и кредитование
81Биржевое дело
82Бухгалтерский учет и аудит
83История экономических учений
84Международные отношения
85Предпринимательство, бизнес, микроэкономика
86Финансы
87Ценные бумаги и фондовый рынок
88Экономика предприятия
89Экономико-математическое моделирование
90Экономическая теория

 Анекдоты - это почти как рефераты, только короткие и смешные Следующий
Следствие установило - ларек с мороженым был ограблен лицами детской национальности!
Anekdot.ru

Узнайте стоимость курсовой, диплома, реферата на заказ.

Обратите внимание, реферат по программированию "Распознование речи", также как и все другие рефераты, курсовые, дипломные и другие работы вы можете скачать бесплатно.

Смотрите также:


Банк рефератов - РефератБанк.ру
© РефератБанк, 2002 - 2016
Рейтинг@Mail.ru