Синтез речи

Тип работы:
Реферат
Предмет:
Информатика, программирование


Узнать стоимость новой

Детальная информация о работе

Выдержка из работы

Синтез речи.

1 Обмеження на синтез промови. Cуществуют різні методи синтезу промови. Вибір тієї чи іншої методу визначається різними обмеженнями. Розглянемо ті 4 виду обмежень, які впливають вплинув на вибір методу синтеза.

. Завдання. Можливості синтезованою промови залежить від цього у якій галузі вона застосовується. Коли необхідно вимовляти обмежену кількість фраз (та його проголошення лінійно не змінюється), необхідний мовної матеріал просто записується на плівку. З іншого боку, коли завдання полягає у стимулюванні пізнавального процесу під час читання вголос, використовується зовсім інший ряд методик.

. Голосовий апарат людини. Усі системи синтезу промови повинні виробляти не вдома якусь мовну хвилю, але ці не довільний сигнал. Щоб самому отримати мовну хвилю певного якості, сигнал має відбутися шлях джерела в мовному тракті, який збуджує дію артикуляторных органів, які діють як изменяющиеся у часі фільтри. Артикуляторные органи також накладають обмеження на швидкість зміни сигналу. Вони також мають функцію згладжування: рівного зчеплення окремих базових фонетичних одиниць на складний мовної поток.

. Структура мови. Ряд можливих звукових поєднань опредляется природою тій чи іншій мовної структури. Було виявлено, що еденицы і структури, використовувані лінгвістами для описи і пояснення мови, можуть також використовуватися для характеристики і побудови мовної хвилі. Отже, при побудові вихідний мовної хвилі використовуються основні фонологические закони, правила наголоси, морфологічні і синтаксичні структури, фонотактические ограничения.

. Технологія. Можливості успішно моделювати і створювати устрою для синтезу промови в сильної ступеня залежить від стану техніко-технологічної боку справи. Мовна наука зробила великий крок уперед завдяки появи різноманітних технолоний, зокрема: рентгенографія, кінематографія, теорія фільтрів і спектрів, а переважно — цифрові комп’ютери. Під час інтегральних мережевих технологій, з постійно зростаючими можливостями стало возсожно побудова потужних, компактних, недорогих пристроїв, які у реальному часу. Це, разом із обгрунтованими знаннями алгоритмів синтезу промови, стимулював розвиток систем синтезу мови і перехід в практичну життя, де їх знаходять широке применение.

2 Методи синтезу. Різні підходи може бути згруповані областями їх застосування, по складності їх втілення. Синтезатори ділять на два типу: з обмеженою і необмеженим словником. У пристроях з обмеженою словником мова зберігається як слів і пропозицій, які виводяться у певному послідовності при синтезі мовного повідомлення. Мовні одиниці, використовувані в синтезаторах такого типу, промовляються диктором заздалегідь, та був перетворюються на цифрову форму, яка досягається з допомогою різних методів кодування, дозволяють компрессировать мовну інформації і зберігати його у пам’яті синтезуючого устрою. Є кілька методів запису і компонування речи.

. Хвильової метод кодування. Найлегший шлях — просто записати матеріал на плівку і з необхідності програвати. Такий спосіб забезпечує високу якість синтезируемой промови, т.к. дозволяє відтворювати форму природного мовного сигналу. Проте цей нелегкий шлях синтезу Демшевського не дозволяє реалізувати побудова нової фрази, т.к. не передбачає звернення до різним осередків пам’яті і виклик з пам’яті потрібних слів. Залежно від використовуваної технології цей спосіб може представляти затримки у доступі плюс обмеження, пов’язані з можливостями записи. Ніяких знань про побудову мовного тракту і структурі мови непотрібен. Єдине серйозне обмеження у цьому разі має обсяг пам’яті. Існують способи кодування мовного сигналу у цифровій формі, які у кілька разів ущільнювати інформацію: проста модуляція даних, импульсно-кодовая модуляція, адаптивна дельтовая модуляція, адаптивне предиктивное кодування. Дані способи можуть зменшити швидкість передачі від 50кбит/сек (нормальний варіант) до 10кбит/сек, тоді як якість промови зберігається. Природно, складність операцій кодування і декодування збільшується зі зниженням числа біт в секунду. Такі системи хороші, коли словник повідомлень невеличкої і фіксований. У разі, коли потрібно з'єднати повідомлення на більш довше, сгенерировть високоякісну мова важко, т.к. значення параметрів мовної хвилі не можна змінити, що можуть підійти з нового контексті. В усіх життєвих системах синтезу промови встановлюється певний компроміс між якістю мови і гнучкістю системи. Збільшення гнучкості неминуче веде до ускладнення обчислень. Параметрическое уявлення. З метою подальшого зменшення необхідної пам’яті для збереження і забезпечення необхідної гнучкості було розроблено кілька радикальних способів, які абстрагуються від мовної хвилі як такої, а представляють його вигляді набору параметрів. Ці параметри відбивають найбільш характерну інформацію або під тимчасової, або у частотною області. Наприклад, мовна хвиля може бути сформована складанням окремих гармонік заданої висоти і заданими спектральними виступами на даної частоті. Альтернативний шлях полягає у тому, щоб форму мовного тракту описати в термінах акустики і штучно створити набір резонансов. Цей метод синтезу економічніше хвильового, т.к. потребує значно меншого обсягу пам’яті, але цьому він вимагає більше обчислень, щоб відтворити початковий мовної сигнал. Цей спосіб дає можливість маніпулювати тими параметрами, які визначають якість промови (значення формант, ширина смуг, частота основного тону, амплітуда сигналу). Це дає можливість склеювати сигнали, отже переходи межах не помітні. Зміни таких параметрів як частота основного тону протягом усього повідомлення дають можливість істотно змінювати інтонацію і тимчасові характеристики повідомлення. Найбільш популярним в наст. вр. методами кодування в пристроях, використовують параметрическое уявлення сигналів, є метод, заснований на формантных резонансах і метод лінійного передбачення (LPC — linear predictive coding). Для синтезу використовуються одиниці промови різної довжини: параграфи, пропозиції, фрази, слова, склади, полуслоги, дифоны. Чим менший одиниця синтезу, то меншу їх кількість потрібно синтезу. У цьому, потрібно більше обчислень, і виникають труднощі коартикуляции на стиках. Переваги цього: гнучкість, трохи пам’яті для зберігання вихідний матеріал, збереження індивідуальних характеристик диктора. Потрібна відповідна цифрова техніка і чітке знання моделей речеобразования, у своїй, лінгвістична структура мови не використовується. Синтез за правилами. Наведені вище методи синтезу орієнтовані такі мовні одиниці, як слова, попередньо запроваджене пристрій з голосу диктора. Цей принцип є основою функціонування синтезаторів з обмеженою словником. У синтезаторах з необмеженим словником елементами промови є фонеми чи склади, у них застосовується метод синтезу за правилами, а непросте компонування. Він дуже перспективний, т.к. забезпечує роботи з будь-яким необхідним словником, проте якість промови значно нижчі від, аніж за використанні методу компонування. При синтезі розмови з правилам також використовуються хвильової і параметричний методи кодування, але вже рівні складів. Метод параметрического уявлення вимагає компромісу між якістю мови і можливістю змінювати параметри. Дослідники виявили, що з синтезу промови високої якості необхідно мати кілька різних вимов одиниці синтезу (наприклад, стилю), що веде до підвищення словника вихідних одиниць без яких би не пішли даних про контекстної ситуації, котра виправдовує той чи інший вибір. Через це процес синтезу отримує ще більше абстрактний характері і переходить від параметрического уявлення до розробки набору правил, якими обчислюються необхідні параметри з урахуванням вступного фонетичного описания. Это вступне уявлення містить саме собою мало інформації. Це зазвичай імена фонетичних сегментів (напр, приголосні і голосні) зі знаками наголоси, позначками тону і тимчасових характеристик. Таким чином, метод синтезу за правилами використовує малоинформационное опис на вході (менш 100 бит/сек). Цей метод дає повну свободу моделювання параметрів, але потрібно підкреслити, що перестороги стосовно моделювання несовеншенны. Синтезована мова гірше натуральної, тим щонайменше, вона задовольняє тестів по чіткості і зрозумілості. На рівні пропозиції з параграфа правила надають необхідну міру свободи до створення плавного мовного потока.

3 Конвертація тексту в мова. Синтез за правилами вимагає детального фонетичного транскрибування на вході. Хоча для запам’ятовування цієї інформації потрібно мало пам’яті, щоб отримати від неї необхідні параметри, необхідні знання експерта. Для конвертації необмеженого англійського тексту в мова потрібно спочатку проаналізувати його для одержання транскрипції, які потім синтезується в вихідну мовну хвилю. Аналіз тексту за своєю природою завдання лінгвістична і включає у собі визначення базових фонетичних, складових, морфемных і синтакисическмих форм, плюс — вичленення семантичної і прагматичної інформації. Системи конвертації тексту в мова є комплексними системами синтезу промови, які включають в себе знання про побудову мовного апарату людини, лінгвістичної структурі мови, і навіть які мають враховувати обмеження, накладываемые областю застосування системи, техніко-технологічної базою. Слід зазначити, як і і мова є поверхневими уявленнями базових лінгвістичних форм, тому це завдання перетворення тексту в мова полягає у виявленні цих базових форм, потім у втіленні в речи.

4 Система перетворення тексту в мова MITalk. Приклад цією системою проілюструємо сильні й слабкі боку комерційних версій. Розробка системи почалася наприкінці 60-х рр. Спочатку передбачалося розробити читаючу машину для сліпих, але система MITalk може застосовуватися у будь-яких ситуаціях, де необхідно перетворити текст в мова. Система має блок морфологічного аналізу, правила перетворення буква-звук, правила лексичного наголоси, просодический і фонематичний синтез.

5 Аналіз тексту. Перетворення символів в стандартну форму. У різних текстах можна знайти символи й абревіатури, які не належать до категорії «правильно освічених слів «. Такі символи як «% «і «& «, абревіатури типу «Mr «і «Nov «би мало бути перетворені на нормальної форми. Розроблено докладні посібники з транскрибированию чисел, дат, торб грошей. Іноді виникають двозначні ситуації, такі як, наприклад, використання знаку дефіса наприкінці рядки. Людина перетворюється на такі випадки, щоб визначити підходяще вимова, звертається до контексту і до практичним знань, які піддаються алгоритмізації. Морфологічний аналіз У вступному тексті кордону слів легко визначаються. Можна зберігати вимова всіх англійських слів. Розмір словника великим, але у такому підході кілька привабливих сторін. По-перше, у разі необхідний словник слів, вимова якого є виключення з загальних правил. Такими є, наприклад, запозичені слова (parfait, tortilla). Понад те, все механізми перетворення ланцюжка літер на фонетичні значки припускаються помилок. Цікавий клас винятків становлять часто уживані слова. Наприклад, звук /th/ на початку слова вимовляється як глухий фрикативный переважно слів (thin, thesis, thimble). Однак у найбільш частотних, як-от короткі функціональні слова the, this, there, these, those, etc. початковий звук вимовляється як дзвінкий. Також /f/ завжди вимовляється глухо, крім слова «of «. Інший приклад. У словах типу «shave », «behave «кінцевий /e/ подовжує попередній гласний, але у такому частому слові як «have «цього правила не діє. Нарешті, кінцевий /p. s/ в «atlas », «canvas «глухий, але у функціональних словах is, was, has він вимовляється лунко. Отже, доходимо висновку, що це системи повинен мати такий словник винятків. Що ж до нормальних слів, то тут є два варіанта. Перший крайній випадок у тому, щоб скласти повний словник. Хоча число слів обмежена, скласти абсолютно повний словник неможливо, т.к. постійно з’являються нові слова. З іншого боку, в словник потрібно буде внести все змінювані форми слова. Інший крайній підхід полягає у встановленні низки правил, які перетворювали ланцюжка літер у фонетичні значки. Хоча цих правил дуже продуктивні, не можна уникнути помилок, що веде до створення словника винятків. Щоб вірно знайти фонетичну транскрипцію слова, потрібно правильно розбити слово на структурні складові. Було виявлено, що значної ролі у визначенні вимови грає морфема, мінімальна синтаксична одиниця мови. Система MITalk використовує морфемный лексикон, все, можуть розглядатися як певний компромісний підхід між двома крайніми, згаданими вище. Багато англійські слова можна розчленувати на послідовність морфів, як-от префікси, коріння, суфікси. Так слово «snowplows «має дві кореня і закінчення, «relearn «має приставку і корінь. Такі морфы є атомними складовими слова і вони щодо стабільні у мові, нові морфы формуються у мові дуже рідко. Ефективний лексикон може мати трохи більше 10,000 морфів. Морфемный словник діє разом із процедурами аналізу. Такий підхід ефективний і экономичен, т.к. зберігання морфемного словника не займає багато місця, а зберігати все змінювані форми слова непотрібно. Оскільки морфы є основними складовими слова, проілюструємо їх корисність при визначенні вимови. При поєднанні морфів часто змінюють своє вимова. Наприклад, при освіті множини іменників «dog «і «cat «кінцевий /p. s/ буде дзвінким у разі і глухим у другому. Це приклад морфофонемного правила, що стосується реалізації морфеми множини у різних оточеннях. Стає очевидним, що з ефективного і легкого визначення вимови потрібно розпізнати складові морфеми слова позначити межі. Ще одна плюс морфемного аналізу — забезпечення підходящої бази щодо використання правил перетворення буква-звук. Більшість таких правил розглядають слово як неструктуровану послідовність літер, використовуючи вікно сканування перебування згодних і гласних кластерів, які перетворюються на фонетичні значки. Букви «t «і «h «здебільшого виступають як єдиний згоден кластер, але у слові «hothouse «кластер /th/ розривається кордоном різних морфем. Гласний кластер /ea/ представляє багато труднощів для алгоритмів буква-звук, але у слові changeable він вочевидь розривається. У системі MITalk морфемный аналіз завжди проводиться перед правилами перетворення літер на звуки. Що Лежать основу слова морфы не завжди очевидні. Наприклад, деякі морфы множини який завжди легко визначити: mice, fish. Такі форми заносять у словник. При допомоги морфемного лексикону і одержувачів відповідного алгоритму аналізу 95−98% слів аналізується задовільно. У результаті їм приписується фонетична транскрипція і частина промови. Правила «буква-звук «і лексичне наголос У системі MITalk нормалізований вступний текст піддається морфологическому аналізу. Можливо, що ціле слово є у словнику морфів, як, наприклад, слово «snow «. З іншого боку, слово то, можливо проаналізоване як послідовність з'єднаних морфів. У англійському мові середня кількість морфів в слові, приблизно два. Що стосується, якщо ні ціле слово може бути знайдено у Словнику морфів, ні проаналізоване як послідовність морфів, у разі застосовуються правила перетворення «буква-звук «. Важливо підкреслити, що це метод будь-коли застосовується, якщо морфемный аналіз вдався. Конвертація послідовності літер на послідовність звуків при допомоги цих правил відбувається на три етапу. Перший етап — відділення префіксів і суфіксів. Можливість відділення афіксів не така сильна, як і морфемном аналізі, але діє задовільно. Передбачається, що відбулося після відділення префіксів і суфіксів залишається одна центральна частина слова, що складається вже з морфа, подвергаемого потім правилам перетворення. Другий етап полягає у перетворення згодних в фонетичні значки, починаючи з найбільш довгого погоджується кластера до того часу, доки всі окремі згодні ні перетворені. Останній етап — решта голосні перетворюються з допомогою контекстів. Гласні перетворюються останніми, що це найбільш важке завдання, що залежить від контексту. Наприклад, гласний кластер /ea/ має 14 різних произносительных контекстів і кілька вимов (reach, tear, steak, leather). У системі MITalk правила перетворення літер у звуки діють у парі з широким набором правил розстановки лексичного наголоси. Ще 25 років як розв’язано лінгвістам не вдавалося знайти ніякої системи розстановки наголосів в англійських словах. У Справжнє час розроблений ряд правил, ефективно справляющихся з цим завданням. Наголоси залежить від синтаксичної ролі слова, наприклад, прикметник «invalid «відрізняється від іменника. Таких слів трохи, але враховувати їх слід. З іншого боку, певні суфікси автоматично падають наголоси за тими словами, як, наприклад, в «engineer «. Але є складніші випадки, які дозволяються застосуванням циклічних правил. У системі MITalk розроблено кілька наборів таких правил, що з яких містять у собі до 600 правил. Звісно, більшість їх вживаються нечасто. Маю на увазі, що це сильні й неправильні форми перетворюються на стадії морфологічного аналізу. Правила ж «буква-звук «йдуть на перетворення нові й неправильно написаних слів. Наприклад, слово «recieved «отримує правильну транскрипцію, завдяки цих правил перетворення. Парсинг. Кожна схема перетворення необмеженого тексту в мова повинна мати синтаксичний аналіз. Необхідно визначити синтаксичну роль слова, т.к. вона часто впливає вимова і наголос. З іншого боку синтаксичний аналіз важливий визначення правильного тонального контуру і тимчасових характеристик. Просодические характеристики важливі для синтезу промови, щоб вона звучала жваво і, природно. На жаль, повний синтаксичний аналіз лише на рівні складного пропозиції (clause-level parsing) здійснити не можна. Проте, можливо провести синтаксичний аналіз лише на рівні фрази (phrase-level parsing), у результаті якого визначається більшість яка потрібна на синтезу промови структури, хоч у ситуаціях неминучі помилки через отсутсвия аналізу цілого пропозиції. Зустрічається безліч синтаксично двозначних пропозицій, як-от «he saw the man in the park with a telescope », котрим фразовий аналіз достатній. У англійській існує низка синтагматических маркерів, якими можна формально розмежувати фрази: це допоміжні дієслова, детерминативы в номинативных фразах. Система MITalk широко використовує те й проводить високоточний граматичний аналіз (augmented-transition-network grammas). Фразовий аналіз показав задовільні результати, хоча ефективний аналізатор пропозицій безсумнівно поліпшив б покращило роботу системи. Поки аналізатори пропозицій стикаються з значними труднощами, коли зустрічають неповне чи синтаксично омонимичное пропозицію. По завершенні діяльності блоку синтаксичного аналізу система приписує словами маркери функціональних частин промови, зазначає синтаксичні паузи як основу уточнення вимови, тимчасових харатеристик, частоти основного тону. Модифікація наголоси і фонологические уточнення. Остання фаза аналізу полягає у деяких незначних поправки до наявної вже фонетичної транскрипції з урахуванням аналізу контекстного оточення. Простий приклад визначення вимови артикля «the », яке залежить від початкового звуку наступного слова. З іншого боку, цьому етапі використовуються деякі евристичні методи перевірки правильного співвідношення загального контуру пропозиції з контурами окремих слів. У цьому етапі закінчується підготовка вихідного тексту власне до самого процесу синтеза.

6 Синтез. Важливо усвідомити, що у системі MITalk не використовуються готові мовні хвилі навіть у параметрическом поданні. Система не зберігає параметричні уявлення безлічі морфів чи слів. Натомість було розроблено правила контролю параметрів, тож решту можна реалізувати будь-яку бажану мовну хвилю не вдома. Просодическая рамка. Перший крок у створенні вихідний мовної хвилі - створення тимчасового контуру і частоти основного тону (основні кореляти інтонації), з урахуванням яких будується детальна артикуляція окремих фонетичних елементів. Розподіл наголоси, що було обчислено на стадії аналізу, багато в чому відповідально за контур тимчасового і розподілу і тональний контур. Часто інтенсивність сприймають як корелят наголоси, тоді як головними ключами є тривалість та в тональном контурі. Згодні мало змінюються за тривалістю, тоді як голосні пластичніші і може легко стискатися чи розтягуватися. Існує й тенденція розтягувати слова за українсько-словацьким кордоном основних абзаців пропозиції, і навпаки, стискати інтервали на щодо невыделенных ділянках. З іншого боку, з урахуванням тимчасової рамки задається частота основного тону (чи тональний контур). У стверджувальних пропозиціях зазвичай висота тону підвівся першою ударному складі, потім поступово знижується аж до останнього ударного стилю, де різко падає. Питальні і наказові пропозиції мають різні тональні контури. Крім цілісного контуру пропозиції є ще локальні наголоси. Більша наголос отримують слова, які виражають заперечення чи сумнів (наприклад, слово might), значення частоти основного тону на них зростає; нова інформація у пропозиції також більше виділяється наголосом. З іншого боку, висота тону використовують у семантичних і емоційних цілях, і що може бути виведено з письмового тексту. Слід ще раз наголосити на важливості складання правильного просодического контуру, т.к. неправильний просодический контур може призвести до труднощам в сприйнятті. Синтез фонетичних сегментів. Коли завершено створення просодичною рамки, створюються параметри, відповідні моделі мовного тракту. Зазвичай таких параметрів 25, які змінюються з інтервалом 5 — 10 мсек. Нині використовується близько 100 контекстных правил описи траєкторії зміни параметрів. Коли значення параметрів враховано, повинно бути перенесені відповідну модель мовного тракту (зазвичай формантная модель чи LPC-модель). Вихідна дискретна модель створюється зазвичай на частоті 10 Кгц.

7 Оцінка синтетичної промови. З погляду зрозумілості, чіткості якість синтезованою промови досить хороше. Було проведено тест, де одна група піддослідних прослухувала синтезовану промову з письмовим варіантом поперед очі, а інша — без. З’ясувалося, що результати прослуховування мало відрізняються одна від друга. Проте, синтезованою промови бракує жвавості і природності, тому сприймати її протягом багато часу важко. Дослідження засвідчили, що фрикативные і назальні звуки вимагають поліпшення качества.

ПоказатьСвернуть
Заполнить форму текущей работой