pico tts что это за программа на андроид
Somethings
problems and solutions
суббота, 23 июля 2011 г.
Синтез речи в Android-приложении
Не так давно пришлось прикручивать к нашему приложению озвучку с помощью Text-to-Speech (TTS). Об этом-то я и хочу сегодня рассказать.
Quick Start
TTS можно использовать двумя способами. Во-первых, можно завязываться на конкретный движок, покупать библиотеку и работать через неё. Про этот вариант ничего не могу сказать, знаю только теоретически. Второй, общеизвестный вариант — использовать стандартное API. Голоса в этом случае являются просто приложениями, установленными в системе.
Вообще-то заставить приложение говорить не так сложно, и мануалов по этому поводу полно. Но для полноты картины приведу начальные сведения.
Подключение в приложение
Простейшая схема такова:
MainActivity.java
Метод speak
Рассмотрим подробнее сигнатуру метода speak :
speak(String text, int queueMode, HashMap params)
Другие полезные методы
TTS engines
Вкратце расскажу об известных TTS-движках. Как уже говорилось ранее, голоса — это просто сторонние приложения. Посмотрим, что у нас есть под Android.
Pico Стандартный TTS-движок, знает 5 языков, поставляется бесплатно. Говорит неплохо, но русского не знает. eSpeak Свободный TTS-движок. Знает очень много языков. По-русски тоже говорит, но отвратительно. SVOX Довольно известный движок. Под Android распространяется следующим образом. Есть бесплатная программа-оболочка и платные голоса, которыми можно управлять из этой оболочки. Голосов очень много. Достаточно неплохо говорит по-русски, хотя есть проблемы с ударениями. В общем-то голос SVOX оказался единственным вариантом для русской озвучки приложения. Loquendo Также известный и качественный движок. К сожалению, в Android представлен мало. Для английского языка есть голос Susan, а вот для русского языка приложения нет, хотя вообще-то Loquendo говорить по-русски умеет.
А теперь немного о сложностях.
Проверка наличия голосовых данных
Pico TTS поставляется по умолчанию с системой. Но на некоторых моделях телефонов не установлены голосовые пакеты. Внешне это проявляется, например, в том, что в системных настройках синтеза речи всё задизаблено и предлагается скачать и установить некие ресурсы:
В официальном мануале описан способ обработки этой ситуации.
CheckVoiceActivity.java
Особенности работы под Android 2.1
Существует известный обход этой проблемы, с использованием дополнительной программы и дополнительной библиотеки. В плане юзабилити, конечно, не ахти, ведь придется заставлять пользователя ставить какой-то сторонний софт. Зато работает. Итак:
Имеет смысл написать класс-оболочку такого примерно вида:
TextToSpeechWrapper
Конкретная реализация может быть и другой.
Конфигурируем TTS
Нам нужно сконфигурировать TTS определенным голосом. Голос, в свою очередь, определяется следующими параметрами:
Вариант 1, легкий, но редкий
Так работает Loquendo. Пишем:
И всё начинает работать.
Вариант 2, сложный и частый
Так работают Pico и SVOX. У них есть оболочка (engine) и подключаемые модули (голоса). Рассмотрим на примере Pico
Тоже вроде все работает. Проблемы начинаются, когда у одной локали оказывается несколько голосов. Такое имеет место для SVOX. У одного языка может быть мужской, женский и детский голос. Это разные приложения, у них разные названия пакетов, но с точки зрения TTS все это одно и то же.
Если установлено несколько голосов для одной локали, выбран будет тот, который указан в настройках SVOX как дефолтный. Однако, мы это никак отследить не можем. Печально.
Общие проблемы для обоих вариантов
TTS-движок задизаблен в настройках TextToSpeech
Галочка «Использовать мои настройки»
Это тоже достаточно вредная штука, и её нужно учитывать. Дело в том, что пользователь может выставить собственные настройки TTS и эту галочку.
И тогда вся ваша конфигурация не будет применяться. Отслеживать состояние этой настройки можно с помощью метода areDefaultsEnforced (в Android 2.2 и выше. Если версия меньше, нужен TTSE и метод areDefaultsEnforcedExtended )
Заключение
Собственно, вот и все, что накопилось за те две недели, что я занимаюсь озвучкой приложения. Субъективное ощущение от этого API — сыровато. Не хватает доступа ко всем настройкам TTS в системе. Для пользователя они слишком сложные и неочевидные («Мои настройки» — яркий пример). Разнобой в опциях различных TTS-движков также печалит. В общем, использовать TTS не так сложно, а вот обрабатывать различные его состояния — целое дело.
Ссылки
Пример
Исходники к статье прилагаются. Там рассмотрены следующие ситуации:
Язык tts русский pico tts
990x.top
Простой компьютерный блог для души)
Pico TTS что это за программа на Андроид?
Всем привет. В сегодняшнем выпуске мы поговорим о программе Pico TTS, которую можно встретить на Андроид-девайсе. Итак, что это за программа? Что она делает, для чего она? Все эти вопросы сегодня будут рассмотрены мной, не сомневайтесь. Постараюсь все написать простым человеческим языком
Итак, вот первые данные. Pico TTS это приложение типа синтезатор речи, при помощи этого приложения можно озвучивать текст. Однако есть один мощный косяк, это то, что в Pico TTS нет русского языка. Кстати в альтернативном синтезаторе Google Text-to-Speech русский язык есть!
Кстати TTS расшифровывается как Text To Speech, что в свою очередь переводится как Текст В Речь
Но вообще зачем нужен синтезатор речи? Он позволяет озвучивать текст в приложениях. Вот к примеру синтезатор Google Text-to-Speech может озвучивать текст в гугловском переводчике, в TalkBack, или в каких-то приложениях, которые используют синтез речи. Хм, синтез речи? А звучит то мощно!
Удалить приложение Pico TTS в принципе как бэ можно, однако лучше его заморозить. Потом, если вы убедитесь, что оно вам стопудово не нужно и не пригодиться в будущем, то потом уже можно удалить. Для заморозки и удаления советую приложение Titanium Backup (учтите, что для этого нужны рут-права).
Вот еще читаю, что качество Pico TTS не очень, и что приложение не развивается и присутствует в Андроиде тупо для галочки..
Если вам в принципе нужно отключить преобразование текста в речь, то нужно пойти в настройки > голосовой ввод и вывод > преобразование текста в речь > снять там все галочки
Правда это или нет я не знаю, однако один чел написал сообщение, что он лично удалять Pico TTS не стал. Говорит что на одном телефоне удалил Pico TTS, после чего, какой бы он синтезатор речи не поставил, то ни один не работал. Правда это или бред? Не знаю. Но сообщение такое на андроидном форуме я нашел, решил что стоит и вам эту инфу передать.
Вот нашел картинку, это настройка, где можно выбрать TTS:
Как видите есть даже и Samsung TTS А вот кстати почти такая же картинка, но тут есть SVOX Classic TTS:
То есть синтезаторы могут быть разные, но Pico TTS идет типа как встроенный, а другие можно самостоятельно поставить.
А вот эта картинка, это тоже настройки, но видимо уже на планшете, и тут все почти также:
TTS выбирается в разделе Язык и ввод
Ну вот и все ребята, я вроде все сказал, что такое Pico TTS теперь вы знаете, верно? А значит моя задача успешно выполнена. Напоследок скажу берегите себя и удачи!
Экранный диктор для Андроид или смартфон для незрячего
Для незрячих и слабовидящих пользователей устройств на системе Android основным источником информации о происходящем на экране является синтезатор речи. До тех пор, пока поддержка тактильных дисплеев не будет окончательно разработана и отлажена, TTS (text to speech) имеет большое значение для пользователей с особыми потребностями.
Выбор русскоязычного синтезатора речи
Для ОС Android выпущено много синтезаторов речи, однако поддержка русского языка обеспечена далеко не у всех. Основная проблема – многоязычные тексты, с которыми некоторым голосовым движкам трудно справиться. Рассмотрим основные TTS системы.
Acapela TTS Voices
Один из самых популярных мультиязычных синтезаторов речи от Acapela Group доступен и для Android. Для синтезированных голосов характерно высокое качество речи и хорошая стабильность работы.
Движок Acapela TTS Voices можно без проблем найти и установить из Play Market. Программа бесплатная, но после ее первого запуска будет предложено купить и установить русский голос «Alyona» стоимостью 3,99 €.
SVOX Classic TTS
На втором месте среди коммерческих движков стоит SVOX Classic TTS. Синтезированная речь неплохого качества, но программа иногда не распознает заглавные латинские буквы. Также возникают вопросы в чтении цифр.
На Play Market есть бесплатная триальная версия русского голоса, которую можно свободно загрузить и протестировать в течение 2 недель.
eSpeak
Благодаря группе Eyes-Free Project на ОС Android, начиная с версии 1.6, был портирован кроссплатформенный Open-Source синтезатор eSpeak, поддерживающий русский язык. По сравнению с коммерческими программами, скорость и качество речи не сильно велики, но вполне приемлемы.
Первоначальная настройка
Установив TTS, нужно произвести его первоначальные настройки. Идем в такой последовательности:
Далее выбираем движок по умолчанию и выставляем желаемую скорость произношения. Запускаем приложение, проверяем чтение образца текста в боксе. С помощью ползунков выставляем дополнительные опции.
Использование экранного диктора
Функции программы TalkBack:
В своей работе утилита использует интерфейс TTS, установленный в системе по умолчанию. И хотя TalkBack уже относится к системным программам, она все же имеет один недостаток – для первоначальной активации нужен визуальный контроль, поэтому позаботьтесь о присутствии друга или члена семьи при первом знакомстве с приложением!
Управление Android-устройством с помощью TalkBack
Для девайсов с Android 4.0 и старше возможно управление с помощью прослушивания элементов экрана, которые находятся непосредственно под пальцем при его движении. Для этого в настройках TalkBack следует включить опцию «Изучение касанием».
После включения запустится демонстрационный ролик в двух частях, позволяющий обучиться:
После обучения управление Android-устройством на ощупь обычно не вызывает затруднений:
Подытоживая можно отметить: при правильно выбранной начальной настройке системы работа с устройствами под ОС Android для слабовидящих или слепых пользователей не сильно отличается от работы в стандартном режиме.
Русский язык для pico tts. Обзор синтезаторов речи для андроид. Синтез речи от Google
Всем привет. В сегодняшнем выпуске мы поговорим о программе Pico TTS, которую можно встретить на Андроид-девайсе. Итак, что это за программа? Что она делает, для чего она? Все эти вопросы сегодня будут рассмотрены мной, не сомневайтесь. Постараюсь все написать простым человеческим языком =)
Итак, вот первые данные. Pico TTS это приложение типа синтезатор речи, при помощи этого приложения можно озвучивать текст. Однако есть один мощный косяк, это то, что в Pico TTS нет русского языка. Кстати в альтернативном синтезаторе Google Text-to-Speech русский язык есть!
Кстати TTS расшифровывается как Text To Speech, что в свою очередь переводится как Текст В Речь =)
Но вообще зачем нужен синтезатор речи? Он позволяет озвучивать текст в приложениях. Вот к примеру синтезатор Google Text-to-Speech может озвучивать текст в гугловском переводчике, в TalkBack, или в каких-то приложениях, которые используют синтез речи. Хм, синтез речи? А звучит то мощно!
Удалить приложение Pico TTS в принципе как бэ можно, однако лучше его заморозить. Потом, если вы убедитесь, что оно вам стопудово не нужно и не пригодиться в будущем, то потом уже можно удалить. Для заморозки и удаления советую приложение Titanium Backup (учтите, что для этого нужны рут-права).
Вот еще читаю, что качество Pico TTS не очень, и что приложение не развивается и присутствует в Андроиде тупо для галочки.. =(
Если вам в принципе нужно отключить преобразование текста в речь, то нужно пойти в настройки > голосовой ввод и вывод > преобразование текста в речь > снять там все галочки =)
Правда это или нет я не знаю, однако один чел написал сообщение, что он лично удалять Pico TTS не стал. Говорит что на одном телефоне удалил Pico TTS, после чего, какой бы он синтезатор речи не поставил, то ни один не работал. Правда это или бред? Не знаю. Но сообщение такое на андроидном форуме я нашел, решил что стоит и вам эту инфу передать.
Вот нашел картинку, это настройка, где можно выбрать TTS:
Как видите есть даже и Samsung TTS =) А вот кстати почти такая же картинка, но тут есть SVOX Classic TTS:
То есть синтезаторы могут быть разные, но Pico TTS идет типа как встроенный, а другие можно самостоятельно поставить.
А вот эта картинка, это тоже настройки, но видимо уже на планшете, и тут все почти также:
TTS выбирается в разделе Язык и ввод =)
Ну вот и все ребята, я вроде все сказал, что такое Pico TTS теперь вы знаете, верно? А значит моя задача успешно выполнена. Напоследок скажу берегите себя и удачи!
Для повседневного использования требовались определенные усилия, а уж для мобильных платформ, в первую очередь Android, они подходили лишь в связке с персональным компьютером, заставляя перегонять текст в звук, чтобы позднее воспроизводить стандартным Mp3 плеером на конечном устройстве.
Некоторую надежду на прогресс, как это часто бывает, дарила корпорация добра Google, см. наш материал:
. До недавнего времени максимум возможностей, предоставляемых поисковым гигантом, сводился к онлайн работе с их синтезатором. Результат, откровенно говоря, не был чем-то революционным. С примером работы Google API TTS вы можете ознакомиться на с общей информацией о Клубе.
Существовало и еще несколько решений, заточенных непосредственно под использование со смартфонами:
Запись получена через стандартную программу для fb2 FBReader с подключенным модулем чтения Даже если вы не воспринимаете компьютерную речь в контексте озвучивания книг, это решение позволит вам апгрейдить своего мобильного друга. Гугль навигация начнет читать вам названия улиц, специальные приложения смогут озвучивать текст СМС и номера при входящих звонках.
Если Ваш родной язык не английский и Вы не пишете приложения только для iPhone, то Вам придется достаточно трудно, если Вы захотите найти подходящий инструментарий для разработки т.н. мобильных «voice-enabled» приложений.
В данном обзоре приведена классификация и описаны самые достойные из рода mobile TTS engine.
Я занимаюсь исследованиями в области проектирования интерфейсов мобильных устройств для людей с ограниченными возможностями зрения. Для реализации одного из моих проектов мне потребовался движок генерации голоса с мультиязыковой поддержкой (как минимум два языка – английский и русский). Это и послужило причиной поиска синтезатора речи.
Pico tts что это за программа на андроид
Здравствуйте, уважаемые пользователи!
В данной теме мы размещаем информацию для тех пользователей, у которых возникли трудности с озвучкой в нашем приложении на устройствах под управлением операционной системы Android
**При этом у пользователей на экране устройства выводится сообщение «Для озвучивания необходимо установить компоненты английского языка English (United States)».**
Для настройки озвучки на Android-устройствах мы рекомендуем вам выполнить следующие действия:
1. Зайти в раздел «Настройки» («Settings») своего устройства.
2. В меню настроек выбрать пункт «Язык и ввод» («Language & Input») или «Язык и клавиатура» («Language & Keyboard»)
3. Далее в меню настроек языка найти раздел «Голосовой ввод» («Speech»). В данном разделе выбрать пункт «Синтез речи» («Text-to-speech output»).
**Примечание: если раздел «Голосовой ввод» («Speech») пуст, необходимо перейти к пункту 5.**
4. В меню настроек «Синтез речи» в разделе «Система по умолчанию» («Default system») выбрать пункт «Синтезатор речи Google».
**Примечание: в случае, если в меню настроек «Синтез речи» отсутствует пункт «Синтезатор речи Google», необходимо перейти к пункту 5.**
5. В магазине Google Play необходимо найти и скачать приложение «Синтезатор речи Google». Это приложение бесплатное, его разработчиком является компания Google.
6. После установки «Синтезатора речи Google» необходимо проделать шаги 1-4.
После выполнения данных действий озвучка должна заработать.
В случае, если у вас возникнут вопросы касательно данной инструкции или проблемы с настройкой, то просим Вас связаться с нами по эл. почте itadmin@noxx.ru или в данной теме для обсуждений, чтобы мы оперативно смогли помочь Вам в решении вопросов по настройке озвучки.
C уважением,
команда разработчиков «Партнера»!
Обзор мобильных Text-To-Speech движков
Если Ваш родной язык не английский и Вы не пишете приложения только для iPhone, то Вам придется достаточно трудно, если Вы захотите найти подходящий инструментарий для разработки т.н. мобильных «voice-enabled» приложений.
В данном обзоре приведена классификация и описаны самые достойные из рода mobile TTS engine.
Я занимаюсь исследованиями в области проектирования интерфейсов мобильных устройств для людей с ограниченными возможностями зрения. Для реализации одного из моих проектов мне потребовался движок генерации голоса с мультиязыковой поддержкой (как минимум два языка – английский и русский). Это и послужило причиной поиска синтезатора речи.
Коммерческие движки
SVOX Mobile TTS
Цена: n/a
Языки: 26, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Android, Symbian, Windows CE/Windows Mobile, BREW
Возможность разработки коммерческих продуктов: есть
Компания SVOX имеет наиболее «вкусный» с технической точки зрения продукт — SVOX Mobile TTS. Однако, поскольку компания работает в основном в B2B сегменте, на мои два письма с запросом цены они так и не ответили.
Acapela TTS
Цена: 2800€ плюс так называемая run-time license, за которую в самом лучшем случае придется платить по 49€ за каждое распространенное приложение
Языки: 23, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Symbian, Windows CE/Windows Mobile, Embedded Linux, iOS
Возможность разработки коммерческих продуктов: есть
Сотрудники Acapela Group оказались намного более общительными и ответили буквально через полчаса после заполнения вот этой заявки.
Цена, указанная в шапке, относится к таким операционным системам как Windows Mobile и Symbian, однако бизнес-модель Acapela разнится в зависимости от выбранной ОС. К примеру, наиболее сильно они продвигают направление iOS, для которого сделан отдельный сайт. Там можно зарегистрироваться и бесплатно получить evaluation версию их движка. Цена голого SDK для бывшей iPhone OS составляет 250€. Так же с каждого проданного Вами в App Store приложения снимаются немалые проценты.
Отмечу, что Acapela предоставляет «облачный» синтез речи, а так-же портирование SDK под любую платформу.
Loquendo Embedded TTS
Цена: 3000€ плюс проценты с каждого проданного Вами мобильного приложения
Языки: 26, включая русский
Субъективная оценка качества звучания: высокое
Мобильные ОС: Android, Symbian, Windows CE/Windows Mobile, Embedded Linux, iOS, Maemo, Moblin, MeeGo, PalmOS
Возможность разработки коммерческих продуктов: есть
Движок Loquendo обладает специальными тегами, позволяющими делать речь более естественной, подмешивая такие не совсем «речевые» фишки как кашель, смех и прочее.
Их движок отвечает спецификации SSML 1.0 рекомендованной W3C.
Sakrament TTS
Цена: 1500€ для одной ОС, при покупке пакета сразу для двух языков предоставляется скидка в размере 25%, что составляет 2250€
Языки: английский, русский
Субъективная оценка качества звучания: среднее
Мобильные ОС: Symbian, Windows Mobile
Возможность разработки коммерческих продуктов: есть
Качества синтеза речи Sakrament TTS вполне достаточно, что бы озвучивать короткие фразы типа номеров телефонов или названий приложений. Описание всех версий SDK можно получить здесь.
Свободные движки
Flite
Цена: нет
Языки: английский плюс возможность компиляции языков FestVox
Субъективная оценка качества звучания: низкое
Мобильные ОС: Android, Windows CE/Windows Mobile, iOS, PalmOS
Возможность разработки коммерческих продуктов: есть (CMU licence)
В мире настольных систем хорошо известен синтезатор речи Festival. Он имеет порт под названием Flite для мобильных устройств и встраиваемых систем, который распространяется под их собственной X11-like лицензией, позволяющей свободно распространять данное ПО кому угодно, а так же строить на его основе как коммерческие, так и свободные приложения. Существуют порты для Windows CE/Windows Mobile, PalmOS, Android и iOS.
eSpeak
Цена: нет
Языки: 39, включая русский
Субъективная оценка качества звучания: среднее
Мобильные ОС: Android, Windows CE/Windows Mobile
Возможность разработки коммерческих продуктов: нет (GNU GPL)
Инструкция для компиляции движка под WM включена в дистрибутив, однако на этой платформе eSpeak имеет одно существенное ограничение – генерация голоса возможна только в WAV файл. Собранный TTS engine для Windows Mobile можно получить здесь.
eSpeak портирован на Android. Самый простой способ его попробовать — это установить из Android Market’а приложение TTS Service Extended, которое позволяет переключаться между встроенным движком и eSpeak. Данный TTS движок распространяется на условиях GNU GPL.
Встроенные решения
Встроенные решения присутствуют только в Symbian и Android. По какой-то неизвестной причине Microsoft лишила свою мобильную ОС соответствующего программного интерфейса (MS SAPI).
Symbian
Цена: нет
Языки: английский
Субъективная оценка качества звучания: крайне низкое
Возможность разработки коммерческих продуктов: есть
Встроенный TTS от Symbian Foundation скрывается в классе CMdaAudioPlayerUtility. Хотя в его документации ничего об этом не сказано, он все же позволяет синтезировать речь. К сожалению, русский язык не поддерживается. Качество генерации английской речи очень низкое. Без подготовки довольно трудно понять, что именно он произнес.
Дополнительные языковые пакеты можно загрузить здесь, однако список поддерживаемых телефонов крайне мал. Установка пакетов для русского языка на устройство под управлением Symbain OS S60 5th не дала ожидаемых результатов, встроенный TTS так и не заговорил по-русски.
Отмечу, что имеется достаточно удобное расширение API под названием NSS TTS Utility API, описание которого можно найти здесь.
Android
Цена: нет
Языки: английский, французский, немецкий, итальянский, испанский
Субъективная оценка качества звучания: среднее
Возможность разработки коммерческих продуктов: есть
Встроенная функциональность синтеза речи в Android доступна с версии 1.6. Прекрасное введение в тему можно найти в блоге разработчиков. Android TTS API является не чем иным, как оберткой над SVOX Pico, русский язык, которым, к сожалению, не поддерживается.
Заключение
Выводы каждому придется делать в зависимости от требований к разрабатываемому продукту. Для коммерческих решений крайне важно качество синтеза речи, поэтому выбирать стоит из двух движков – Acapela TTS и Loquendo Embedded TTS. При выборе движка для open source проекта крайне важную роль будет играть список целевых ОС.
Лично для себя я выбрал eSpeak, поскольку мой проект академического толка и я могу себе позволить использование продукта лицензированного по GNU GPL.