какие звуки относятся к искусственной речи
Какие звуки относятся к искусственной речи
Искусственная (синтезированная) речь
Сравнивая три метода генерации искусственной речи, важно прежде всего определить понятие «искусственная (синтезированная) речь». Существуют по крайней мере два основных критерия, по которым можно судить, что речь, воспроизводимая компьютером, в самом деле является искусственной.
Во-первых, если компьютер генерирует действительно «синтетическую» речь, то произносимые им слова не должны быть словами, предварительно сказанными человеком и затем введенными в память компьютера. Наиболее уместна здесь аналогия с «магнитофоном», роль ленты в котором выполняет цифровая или электронная память. Действительно, если слова или фразы, которые произносит компьютер, были предварительно «наговорены» человеком (лично вами или кем-то на предприятии, изготовившем интегральные схемы), то в таком случае речь компьютера следует считать восстановленной. В речевом «тахометре» представлены два метода получения восстановленной речи: метод непосредственного кодирования сигналов и метод ЛПК-синтеза. Эти методы существенно различаются по способам реализации, но в обоих из них обычно требуется предварительно наговоренный словарь, который в дальнейшем используется при восстановлении речи. Таким образом, единственным методом получения действительно синтезированной речи оказывается метод фонетического синтеза.
Разумеется, синтезированная при этом речь по своему звучанию менее похожа на речь человека, чем в двух других случаях. По существу, на современном уровне развития техники речь, приемлемую для нашего слуха, дают только методы с восстановлением речи. Настоящая же «синтетическая» речь фонемного синтезатора по своему звучанию неестественна. Другими словами, если вы хотите иметь действительно синтетическую речь, то должны быть готовы к тому, что речь вашего компьютера будет звучать «механически». Если же вы предпочтете использовать один из методов восстановления речи, то звучание вашей системы будет приятным для слуха и близким к нормальному произношению человека.
1 ( В отечественной литературе данный критерий известен как теорема Котельникова.- Прим. ред.)
Таким образом, умножив 4 бит на частоту выборок 8 кГц, мы получим битовую частоту выборок, равную приблизительно 32 000 бит /с. Поскольку обычно речь отличается некоторой избыточностью (информации) и минимально вразумительную речь можно получить, когда частоты наивысших частотных компонентов речи составляют лишь 2 кГц, нижний предел битовой частоты выборок должен составлять 16 000 бит, что и показано на диаграмме «тахометра» речи (рис. 6.1). Если же мы какими-то средствами восстанавливаем речь такого же качества при частотах выборки ниже расчетного значения (16 000 бит /с), то получаем речь, которая перед этим не дискретизировалась. Отсюда второе возможное определение искусственной речи, согласно которому методы фонетического и ЛПК-синтеза дают действительно искусственную речь. По существу, любую систему речевого вывода, работающую со скоростью менее 16 000 бит /с, можно считать создающей искусственную речь. Но независимо от принятой терминологии каждый из названных методов синтеза речи со всеми присущими ему достоинствами и недостатками предназначен для получения речевого вывода информации из компьютера. С этих позиций приведенные выше доводы становятся несущественными. Целесообразно выбрать тот из методов, который больше подходит для данного компьютера и лучше соответствует возможностям пользователя. Рассмотрим теперь более подробно способы реализации каждого из трех основных методов синтеза речи.
Искусственная речь и связанные с ней проблемы
Искусственная речь и связанные с ней проблемы
Говорящие машины уже существуют. Словарь их пока небольшой и состоит из слов, произнесённых человеком и записанных на магнитный барабан. Наиболее известный тому пример – говорящие часы, работающие на многих телефонных станциях.
Машины, использующие предварительно записанную речь, довольно дёшевы и очень удобны, если число сообщений невелико, но непригодны, если требуется обычная непрерывная речь. Одна из причин состоит в том, что с возрастанием числа хранимых слов хранилище записанных слов становится слишком большим и дорогим. Другой причиной является то, что в разговорной речи одно и то же слово может участвовать в предложениях разного типа, с различными ударениями, интонациями и несколькими вариантами произношения. Поэтому невыгодно использовать непосредственную запись речи для говорящих машин более общего типа. Выгоднее машины, в некотором смысле моделирующие работу голосовой системы человека. Машины, которые не воспроизводят ранее записанную речь, а синтезируют её, называют «синтезаторами речи».
История синтезаторов речи очень стара. Наиболее ранние были непосредственными копиями человеческого речевого аппарата и использовали воздуходувные меха, язычки и резонаторы. Управляли этими машинами, как правило, вручную, с помощью набора рычагов. Одна из таких машин была построена Вольфгангом фон Кемпелиа в конце XVIII века. Известно, что она очень хорошо имитировала речь, хотя не совсем правильно воспроизводила некоторые звуки. В 1920 году акустическая модель Р. Пэджета произносила целые фразы, например: «Алло, Лондон, вы слушаете?» или «О, Лейла, я люблю Вас!». Для этого автору приходилось руками очень искусно изменять форму резонирующей полости машины.
При дальнейшем моделировании оказалось (как часто бывает при моделировании функций человеческого организма), что воспроизведение человеческой речи исключительно сложно. Развитие говорящих машин стало действительно возможным только с появлением современной электронной техники, которая позволяет достигнуть необходимого уровня сложности.
Убедиться в сложности речевых сигналов позволяют спектрографы или анализаторы спектра. Простейшим прибором для частотного анализа является резонансный частотомер, содержащий ряд упругих стальных пластин с различной частотой собственных колебаний. При подаче на электромагнит этого прибора сигналов речи поле электромагнита возбуждает только ту пластину, собственная частота которой совпадает с частотой исследуемого сигнала.
На рис. 23 показан получающийся таким способом частотно – временной спектр звука сирены с постепенно повышающейся частотой, а на рис. 24 – спектр звука отдельного слова, произнесённого человеком. Как видно из рисунков, звуковые колебания, образующие речь (в отличие от речи автомата – сирены), содержат много составляющих, которые в сумме создают сложную звуковую картину. К сожалению, эти картины очень отличаются не только у различных дикторов, но даже у одного и того же человека в разное время.
Рис. 23. Спектр звука сирены Рис. 24. Спектр слова, произнесённого человеком
Взгляните на шесть контурных диаграмм английского слова «You» (рис. 25) – и вы убедитесь в этом.
Рис. 25. Контурные диаграммы английского слова «You»
Диаграммы получены от пяти различных людей, только нижние две диаграммы – от одного человека (на диаграммах контурные линии отображают различную интенсивность звучания).
Читайте также
МОЯ РЕЧЬ НА БАЙКАЛЬСКОМ ЭКОНОМИЧЕСКОМ ФОРУМЕ 8–10.07.2009 г
МОЯ РЕЧЬ НА БАЙКАЛЬСКОМ ЭКОНОМИЧЕСКОМ ФОРУМЕ 8–10.07.2009 г Этот звонок прозвучал ну совершенно неожиданно: «Господин Гейко? Юрий Васильевич? Вас беспокоят из секретариата Председателя Совета Федераций – не желаете ли вы принять участие в Байкальском экономическом форуме?
20.6. Переход к коллективным действиям по достижению Цели и связанные с этим трудности
20.6. Переход к коллективным действиям по достижению Цели и связанные с этим трудности Еще одной трудностью данного этапа является резкое увеличение сложности проводимых работ. Дело, начинавшееся как самостоятельное предприятие творческой личности, все более выходит
Глава 2 Искусственная жизнь и искусственный интеллект
Глава 2 Искусственная жизнь и искусственный интеллект Развитие роботехники подходит к важнейшему этапу: возможности создания искусственной жизни и искусственного
Искусственная жизнь
Искусственная жизнь В создании искусственной жизни (ИЖ) можно выделить три основные направления исследований: создание «нейронных» роботов с автономным питанием, создание нанороботов (в том числе и с возможностью «размножения»), создание компьютерных программ
2. Влажность древесины и свойства, связанные с ее изменением
2. Влажность древесины и свойства, связанные с ее изменением В свежесрубленной древесине, как правило, содержится большое количество воды и в дальнейшем в зависимости от условий хранения оно может увеличиваться или уменьшаться, или оставаться на прежнем уровне. Но в
Глава 1. Уроки инновационной политики и коммерциализации, связанные с биотехнологической революцией
Глава 1. Уроки инновационной политики и коммерциализации, связанные с биотехнологической революцией Джеральд ГоллвасДжеральд Голлвас имеет богатый опыт по внедрению биомедицинских технологий еще с середины 60-х годов, когда он занялся бизнесом, связанным с созданием и
8.3.6.1. Судебные риски, связанные с лицензированием
8.3.6.1. Судебные риски, связанные с лицензированием Многие проблемы возникают из-за недостаточного внимания к деталям заключаемых соглашений. Прежде всего компания должна потребовать от университета доказательств или юридических заверений, что передаваемая технология
8.3.6.2. Риски, связанные с научными консультациями
8.3.6.2. Риски, связанные с научными консультациями Наиболее распространенным и эффективным методом ознакомления фирмы с новейшими достижениями в какой-либо области исследований является приглашение для консультаций одного из признанных университетских профессоров,
9.2.3. Вызовы и проблемы, связанные с интеллектуальной собственностью. Ограничения на инновации
9.2.3. Вызовы и проблемы, связанные с интеллектуальной собственностью. Ограничения на инновации Многие особенности начавшейся «гонки» в области нанотехнологий очень напоминают предыдущие этапы научно-технической революции. Например, если сейчас Патентное ведомство США
9.2.5. Проблемы, связанные с финансированием исследований
9.2.5. Проблемы, связанные с финансированием исследований В настоящее время большое число федеральных агентств щедро финансирует множество нанотехнологических исследований (в рамках Национальной нанотехнологической инициативы США), однако фирмам не следует забывать о
Глава 19. Этические проблемы, связанные с развитием нанотехнологий
Глава 19. Этические проблемы, связанные с развитием нанотехнологий Вильям Симс БейнбриджВильям С. Бейнбридж окончил Гарвардский университет и является известным специалистом и автором множества книг и статей, посвященных проблемам развития науки и технологий, а также
ИСКУССТВЕННАЯ СИЛА ТЯЖЕСТИ
ИСКУССТВЕННАЯ СИЛА ТЯЖЕСТИ Над проблемой человек в невесомости давно работают многие специалисты космической медицины, но, несмотря на наличие экспериментальных данных, много вопросов, связанных с влиянием невесомости на человека, остаются пока неразрешенными.
ГЛАВА ТРЕТЬЯ, в которой речь идет о судьбе человека, имевшего много завистников; эти люди злорадствовали и смеялись над ним, а потом посчитали сумасшедшим и перестали принимать у себя
ГЛАВА ТРЕТЬЯ, в которой речь идет о судьбе человека, имевшего много завистников; эти люди злорадствовали и смеялись над ним, а потом посчитали сумасшедшим и перестали принимать у себя Он видит — в лентах и звездах, Вином и злобой упоенны, Идут убийцы потаенны, На лицах
ГЛАВА ЧЕТВЕРТАЯ, в которой речь идет о таинственной истории, где героиней стала одна старинная книга
ГЛАВА ЧЕТВЕРТАЯ, в которой речь идет о таинственной истории, где героиней стала одна старинная книга Анакреона лиру Хотел бы я иметь, Чтобы мою Плениру Достойнее воспеть. Г. ПлениреХранится это издание в Музее книги Государственной библиотеки СССР имени В. И. Ленина.
5 Системные аспекты, связанные с разработкой ПО
5 Системные аспекты, связанные с разработкой ПО Процесс обеспечения безопасности определяет информационный поток между процессами жизненного цикла системы управления и процессами жизненного цикла ПО. Вследствие взаимозависимости процесса обеспечения безопасности
Какие звуки относятся к искусственной речи
Понятия «речевой слух», «фонематический слух», «фонетический слух», «фонетическая система», «фонематическое восприятие», «фонематические процессы» являются ключевыми в исследовании речи детей.
В трудах Н.С. Трубецкого, Г.П. Торсуева и Л.Р. Зиндера подчеркивается тесное переплетение в речи фонетического и фонологического аспектов, поскольку фонетический слух обеспечивает восприятие всех акустических признаков звука, не имеющих сигнального значения, а фонематический – смыслоразличительных.
Фонематический слух понимается, как способность человека различать и узнавать звуки речи (Н.И. Жинкин), «смыслоразличительный систематизированный слух, обеспечивающий анализ и синтез звукового потока, и восприятие фонем данного языка» (Л.С. Цветкова). Л.С. Выготский, Р.Е. Левина, С.С. Ляпидевский, С.Н. Цейтлин определяют «фонематический слух» как речевой процесс, обеспечивающий выделение существенных признаков звуков речи и отвлечение от несущественных.
Трактовка этого понятия, основанного на дихотомии языка и речи, санкт-петербургской и московской фонологической школ отличаются. Первая школа под фонематическим слухом определяет «некую психологическую способность произносить звуки языка на основе своих физиологических ощущений и сводить некое количество похожих звуков в один звукотип». Представители московской школы поясняют термин, как «умение идентифицировать ту или иную фонему в составе значимой единицы языка, умение соотносить позиционные варианты с доминантной в той же самой морфеме». По определению А.Р. Лурия, – это акустическая основа фонематической организации языковых кодов, с выделением полезных признаков и абстрагированием от несущественных «вариантов».
Фонетический слух – это «слежение за непрерывным потоком слогов», различениеискаженного произношения и восприятие звуков в различных фонетических позициях (Н.И. Жинкин).
Фонетическая система, по мнению В.И. Бельтюкова, Н.И. Жинкина, Л.В. Неймана, Л.А. Чистович, Н.Х. Швачкина включает в себя речевые звуки, ударение и интонацию и развивается в процессе реализации нескольких взаимосвязанных направлений: одновременное формирование звукопроизношения и фонетического слуха, что способствует «формированию межанализаторных связей, развитию слухового внимания, слухо-двигательной памяти, слухового и кинетического контроля» и развитию интонационного слуха.
На основе фонематического и фонетического слуха формируется фонематическое восприятие, вместе они обозначаются как фонематические процессы.
В работах некоторых исследователей можно найти отождествление понятий «фонематический слух» и «фонематическое восприятие». Однако чаще всего исследователи придерживаются различного понимания этих аспектов, и определяют фонематическое восприятие, как умственные действия по анализу (Д.Б. Эльконин), специально воспитанные умения по дифференциации фонем и установлению звуковой структуры слова.
По мнению А.Н. Корнева, смысл термина «фонематическое восприятие» представляется не совсем корректным, поскольку объектом восприятия являются не фонемы, а звуки речи – «фоны». Более адекватным отражающим это содержание был бы термин «фонетическое восприятие».
Сущность механизма «фонематического восприятия» связана с интегративной природой фонем, включающих акустические и артикуляционные признаки (В.И. Бельтюков, Л.В. Бондаренко), которые взаимодополняют друг друга, ассоциируются вместе и порождают единое (Л.А. Чистович). Если один из этих образов оказывается деформированным, страдает и дифференцированность соответствующих фонем. Однако, по мнению А.Н. Корнева, количество дифференциальных признаков фонем избыточно, что позволяет различать их, опираясь на неполный список признаков. Нарушение фонематического восприятия – дисфункция, приводящая к неспособности распознавать отдельные звуки речи и звукокомплексы с резким снижением способности к образованию условных связей между звуковыми образами и их значениями (Н.Н. Трауготт, С.И. Кайданова).
В школьном возрасте неполноценность межанализаторной интеграции проявляется при овладении ребенком навыка чтения и письма, приводя к дисграфии и дислексии (А.Н. Корнев).
Развитие фонематического восприятия в онтогенезе существенно опережает созревание артикуляционного праксиса, на начальном этапе речевого развития акустический анализатор в акцепторе действия играет ведущую роль (А.Н. Гвоздев). Слуховая перцепция созревает до уровня, достаточного для дифференциации основных фонологических признаков звуков речи (Н.Х. Швачкин). По мере созревания артикуляционного праксиса кинестетический компонент начинает играть более активную роль в акцепторе действия акустико-артикуляторной базы и постепенно интегрируется с акустическим гностическим компонентом в целостный акустико-артикуляционный комплекс. Этот комплекс решает задачи обратной афферентации и самоконтроля в актах фонации и становится функциональной базой для формирования системы фонематических представлений. Ониявляются результатом межанализаторной интеграции слуховых и кинестетических образов, при недоразвитии которых (Г.А. Каше, М.Ф. Фомичева) в речи преобладают смешения звуков. Этот дефект Р.Е. Левина, Ф.Ф. Рау объясняют недостаточной сформированностью, недоразвитием семиотической системы фонологических противопоставлений.
Для восприятия речи необходимы нормально функционирующий физический слух и две самостоятельные подсистемы: неречевой и речевой слух. Эти подсистемы имеют общие подкорковые механизмы, однако в пределах коры больших полушарий они различаются. Левое полушарие в височной области воспринимает и анализирует речевые звуки, обеспечивая устойчивость фонематической системы языка, правое – воспринимает музыкальные и просодические элементы речи. Музыковеды и лингвисты (Б.В. Асафьев, С.А. Берлин, А.С. Вейхман, В.Н. Всеволдский-Генросс, А.Н. Глумов, С.Ш. Иртлач, М.Н. Козырева, Ю.А. Кремлев, Е. Назайкинский, Н.А. Римский-Корсаков, Л. Цеплитис) сходятся во мнении, что музыкальная и речевая интонация – «ветви одного звукового потока» и полагают, что музыкальная интонация произошла от речевой, «музыка и речь не могут существовать вне интонации».
Специфика этих явлений проявляется на уровне восприятия. Отличительным свойством музыкального слуха является выделение целостного качества звука. Основой для речевого слуха является восприятие звуковыстной интонации, ориентация на тембр звука (Е. Борзова).
Остановимся на характеристике исследователями термина «речевой слух». М.Р. Львов под этим определением понимает «составной элемент языкового чутья (интуиции), возникающий у человека в процессе практического пользования языков на основе внутренних, не всегда осознанных обобщений». По мнению Е.И. Исениной, О. Степановой, речевой слух представляет собой два взаимосвязанных явления – фонематический слух, как способность к различению фонем, и способность к слуховому восприятию речи. Развитие речевого слуха носит «эвристический характер», распознавание слова происходит до освоения фонематических рядов различия, наиболее информативными для восприятия слова в речи у детей и взрослых являются наиболее сильные – ударные и первые элементы узнаваемых слов. С.Ф. Иванова определяет речевой слух как «психолингвистическую» способность человека при восприятии речи улавливать слухом и одновременно воспроизводить во внутренней речи все фонологические, средства языка, артикулируя и интонируя слышимую речь. Основой речевого слуха, по Е. Борзову и Г. Вишневской, служит тембровое восприятие звуковысотной интонации. Его воспитанию способствует слушание, чтение стихов, наблюдение за актерской речью и имитирование эмоциональных отрывков речи. А.Ф. Ломизов подчеркивает важность речевого слуха для восприятия и воспроизводства интонации, для понимания и выражения мысли, лучшего осмысления синтаксических конструкций и пунктуационных правил, для усвоения звуковой стороны языка и общей культуры устной речи. Он нужен «слушающему, говорящему, читающему, пишущему». Г.П. Фирсов отмечает важность достаточно развитого речевого слуха учащихся для обучения орфографии, овладения ими правильного литературного произношения и выразительного чтения.
По своей структуре речевой слух представляет собой сложное явление, которое состоит из фонематического и фонетического слуха и выполняет две главные функции – воспринимающую и воспроизводящую (А.Р. Лурия). Иначе трактует компоненты речевого слуха С.Ф. Иванова, автор выделяет физический слух (способность воспринимать звучащую речь в диапазоне громкости), фонематический (способность различать и воспроизводить звуки родного языка), звуковысотный (способность улавливать и воспроизводить в речи просодические явления) и ритмический слух (способность воспринимать и воспроизводить в речи сообразный ситуации темп и ритм).
Формирование речевого слуха, по слухомоторной теории слухового восприятия В.Н. Галунова, Н.И. Жинкина, В.П. Зинченко, А.И. Зимней, Л.А. Кожевникова, А.А. Леонтьева, А.Р. Лурия, Л.А. Чистович, осуществляется при ближайшем участии артикуляторного аппарата и только в процессе артикуляторного опыта приобретает законченный характер. Этот процесс происходит в первые годы развития ребенка, а к дошкольному возрасту осуществляется без видимого участия артикуляций. Однако если работа по выделению существенных и торможению несущественных фонематических признаков выпадает, речевой слух нарушается. Речевой слух развивается по мере накопления слухового опыта – системы динамических стереотипов, и зависит от развития внутренней речи, которая выполняет регулирующую или планирующую роль. Методика формирования речевого слуха, по мнению Л.В. Теплова, базируется на онтогенетических ступенях развития речи, где основополагающими являются развитие чувства ритма с координацией общих движений с ритмическими единицами.
Речевой слух является речемыслительным процессом, одновременно приводящим в движение когнитивные и языковые структуры. Он опирается на формирование умения воспринимать и воспроизводить вербальные и невербальные звуки, а также на модально-специфические психические функции: слуховое внимание и слуховую память. Указанные компоненты развивают фонематический слух, а при одновременном совершенствовании интонационных характеристик речи, и речевой слух. Слуховое восприятие протекает активно и целенаправленно при устойчивом, концентрированном слуховом внимании, которое представляет собой «сосредоточение сознания на объектах с целью их наилучшего отображения» (Б.Г. Ананьев).
Главное значение для речеслуховой деятельности имеет произвольное внимание, возникающее в конце первого – начале второго года жизни. Формируется оно постановкой сознательной цели и поддерживается усилиями воли ребенка в процессе практической деятельности. Слуховое внимание определяется количеством прослушанных и воспринятых сигналов, по данным Е.Л. Черкасовой в норме у шестилетних детей объем слухового внимания в среднем составляет 480 знаков. Недостаточно развитое слуховое внимание затрудняет воспроизведение лингвистических и нелингвистических параметров речи, приводит к истощаемости и отказу от выполнения задания.
Для речевой реализации существенна память как долговременная, так и кратковременная (Е.С. Кубрякова). При восприятии речи активнее проявляются функции кратковременной памяти, поскольку устная речь должна восприниматься почти мгновенно и от слушающего требуется очень большое напряжение слуховой памяти в силу того, что ему необходимо сохранять в своем сознании весь речевой комплекс, в том числе и соответствующие акустические проявления интонации. Долговременной памяти свойственно не только сохранять информацию, хранить «эталон» акустического сигнала, но и постоянно ее накапливать, тем самым она приобретает большую значимость при воспроизведении речи. Речевой слух в процессе речевой деятельности выполняет не только функцию приема информации, но и контроля речи слухом говорящего и окружающих.
Недоразвитие речевого слуха проявляется в специфических ошибках устной речи и на письме. Анализ письменных работ позволил Н.И. Жинкину утверждать, что слабость их со стороны содержания, построения, синтаксиса и стиля объясняется неразработанностью речевого слуха учащихся. Именно вследствие того, что на культуру речевого слуха не обращают должного внимания в момент составления учащимися текстов, к седьмому классу у некоторых учеников недостаточно укрепляется интонационный стереотип разных оборотов предложения. Важным является понимание, что речевой слух и его компоненты необходимо развивать целенаправленно.