Достижение ясности речи при помощи искусственной модели губ и челюсти
Аннотация
Звуко-визуальная ясность речи была протестирована при помощи высокотехнологических трехмерных моделей губ и челюсти. Модели были созданы на основе шести параметров полученных с помощью реальных движений лица говорящего и озвучены исходными высказываниями, записанными на аудио кассету. Двадцать тем с добавлением пяти разных уровней шумов были представлены восьмидесятью неразборчивыми высказываниями на французском языке. Самый понятный вариант был достигнут, когда анимации губ и челюсти были представлены вместе с акустическим речевым сигналом.
Введение.
Даже если акустическая методика доминирует в восприятии речи, все же было показано что ясность возрастает при наблюдении лица говорящего во время речи, особенно на фоне шума (12,3,4,13,2). Таким образом, искусственно созданные модели, как ожидается, повысят разборчивость речи синтезаторов, которая до сих пор была значительно ниже чем у человека.
Было продемонстрировано сначала в английском (9), затем во французском языках (8), что губы человека несут более половины исходной информации, предоставленной всеми природными характеристиками лица. Более того, возможность видеть зубы повышает ясность сообщения: вид зубов помогает устранить неоднозначность звуков, различающихся в позиции челюсти, например «bib» в сравнении с «bab»(9).
В данной работе через тест на восприятие, мы оцениваем вклад искусственно созданной модели губ в разборчивость речи и той же модели, наложенной на искусственно созданную челюсть и верхнюю часть черепа.
Трехмерная модель губ.
Трехмерная модель губ, используемая в этом эксперименте, была создана на основе геометрического анализа естественных движений губ французского оратора (5). Моделью управляют пять параметров, которые определяются только реальными засвидетельствованными движениями губ говорящего. Специально оборудованное рабочее место (7) использовалось для получения точных показателей параметров с видеозаписи. Процедура измерения производит исходный файл, который состоит из пяти параметров, каждый получен с двадцати мили секундным интервалом; этот файл использовался как командный файл к нашей модели. Цифровой голос диктора синхронизируется с визуальным изображением.
Модель челюсти.
Кроме губ, наиболее видимый артикулятор-это челюсть и задействованные подбородок и зубы. Поскольку челюсть является жесткой скелетной структурой, то процесс приведения ее в движение обстоит проще, чем с моделью губ. Как и все жесткие артикуляторы, челюсть имеет шесть позиций. Таким образом, ее положение относительно черепа может быть определено тремя направлениями углов (скольжение, падение, наклон) и тремя положениями (горизонтальное, вертикальное, латеральное).
Искусственная челюсть, которая использовалась для нашей модели, была разработана в университете МакГилла (6) для того, чтобы отчетливо представить себе кинематику движения челюсти, записанную с помощью оптоэлектронной измерительной системы. Она включает трехмерную цифровую верхнюю часть модели черепа и челюсти с прилегающими зубами. Модель челюсти приводится в движение с использованием эмпирически записанных направлений углов челюсти и ее позиций (6). Экран с изображением искусственной верхней части черепа и челюсти был синхронизирован с соответствующим реальным аудио сигналом.
Приведение моделей в движение.
Модели губ и челюсти были выведены на общий экран. Модель губ была наложена прямо на трехмерная модель черепа и челюсти. Для тестирования модели при использовании выше описанной техники видеоанализа были получены движения губ. Движения челюсти были получены тем же путем, из телодвижений подбородка говорящего с использованием метода обработки изображения, подобного тому который был разработан для движения губ. Нужно отметить то, что для получения движений челюсти в то время желательнее было использовать оптоэлектронную систему измерения МакГилла, так как этот метод требовал использования акрилового и психическо-стоматологического устройства, которое создавало трудности при определении движений губ.
Движения челюсти в речи прежде всего контролируются тремя возможными положениями (10), а именно: угол наклона, вертикальная и горизонтальная позиции. Позиций двух точек на челюсти достаточно чтобы реконструировать эти три действия в сагитальной плоскости. Тем не менее, когда челюсть не видно, покрывающая ее кожа движется взаимосвязанно с ней, с точками необходимыми для реконструкции сагитальной площади, но движение челюсти возможно получить только инвазивными методами. Тем не менее, данные описываемые в журнале нейрофизиологии (11) показывают, что базовые параметры движений челюсти часто сильно коррелируются в беглой речи. При первом рассмотрении, три базовых движения челюсти можно спрогнозировать исходя из смещения одной точки на челюсти. Поскольку зубы не видны, мы решили получить эту единственную точку, проследив за отметиной на подбородке. Конечно, делая так, мы не можем избежать несоответствия между действительным движением челюсти и той точки отсчета на подбородке.
В целях нашего тестирования синтезатора губ и челюсти мы использовали аудио-визуальный корпус, который уже широко использовался при геометрическом измерении (1,5) и также для того чтобы оценить вклад концепции развития в разборчивость речи (2,8) . Поскольку подбородок говорящего был записан с помощью единственной отметины на оригинальной аудиокассете, этого оказалось достаточно для первоначальной оценки. Схематический анализ и синтетический процесс, использованный для получения анимации, представлены на рис.1.
ANALYSIS |
SYNTHESIS |
Артикуляция моделей.
Согласно двум предыдущим экспериментам (2,8) аудио-визуальная разборчивость речи при помощи модели губ и наложенные модели губ и челюсти (называемые губной/челюстной моделями) были протестированы по пяти уровням акустического ослабления интенсивности тона.
Приготовление к действию.
Речевой материал состоял из естественных акустических высказываний Французского оратора, высказывания были синхронизированы на дисплее по трем показателям: отсутствие видеонаблюдения, искусственные губы, искусственные губы и челюсть. Основа состояла из неразборчивых высказываний вида VCVCV. Тестировались такие гласные как: /a/, /i/ и /y/, а также согласные /b/, /v/, /z/, /3/, /r/ или /l/. Тестовые слова были вставлены в опорное предложение вида «Это не VCVCVz?». Восемьнадцать разных предложений, во-первых, были оцифрованы и затем акустически снижены путем добавления шума с равномерным амплитудно-частотным спектром по пяти сигналам в шумные уровни, в шестиуровневой базе данных. Таким образом, в общем было представлено 90 разных акустических действий. Псевдослучайный порядок был использован для приготовления действий для субъектов. Десять дополнительных действий предшествовали самому тесту, чтобы помочь аудиторам адаптироваться в испытательные условиях.
Та же последовательность акустических действий была использована во всех трех экспериментальных условиях. Визуальные действия для двух искусственных моделей были записаны кадр за кадром на видеокассету. Модели были синтезированы со скоростью 25 кадров в секунду визуальной камерой, расположенной под углом в 25 градусов от сагитальной плоскости. Впоследствии аудио действия были синхронизированы с визуальным отображением.
Двадцать обычных французских слушателей принимали участие в эксперименте. Их посадили к цветному монитору, оснащенному громкоговорителем, на расстоянии одного метра. Порядок приготовления трех субтестов был сбалансирован по субъектам. Аудиторы должны были определить и гласные и согласные в каждом высказывании.
Общая разборчивость.
Тестовое слово считалось верным, только если и гласный и согласный были правильно определены. Разборчивость звуков, полученных только с аудио кассеты и с губной модели в этом эксперименте, были сопоставимы с теми о которых было сообщено в отчете (8). Данные показывают, что модель губ восстановила около трети упущенной информации, когда акустический сигнал пошел на спад. Более того, мы получили заметный прирост в разборчивости речи когда искусственная челюсть была соединена с с искусственными губами , как это показано на рис. 2.
S/N(dB)
Расхождение.
Распознавание /b/ улучшилось, когда на визуальный экран были выведены движения губ. Однако /b/ часто преподносился как отзвук к действиям /v/. Распознавание всех других согласных тоже было улучшено,за исключением /3/. Что касается гласных, /y/ тоже почти всегда верно определялась, а вот /i/ и /a/ все еще сбивали с толку. Когда это синхронизируется с моделью губ, то модель челюсти в целом улучшает разборчивость. Количество случаев, когда темы были не способны удовлетворить требования совсем, уменьшилось за счет второго фактора. Гласный /i/ был более понятен в паре с гласным /a/, обычно в закрытом слоге в окружении таких согласных как /b/или /v/, а также при их близком нахождении. Добавим, что между /3/ и /r/ было меньше путаницы, независимо от гласного контекста. К тому же, /b/ больше не путали с /v/, особенно в окружении с гласным /i/. Предположительно, видимость зубов приводит к такой многозначности.
С другой стороны, при совмещении моделей губ и челюсти, /l/ и /v/ чаще путались с /3 /. Тем не менее, так происходило только в контексте с гласной /y/. Видимость челюсти также привела к большому количеству ошибок между /i/ и /a/ в контексте с /z/. В основном так было из-за индивидуальных высказываний /izizi/ и /azaza/ выбранных как рабочий материал для эксперимента.
Заключение.
Мы получили ощутимый вклад в разборчивость речи, когда искусственная челюсть была показана наряду с искусственными губами. Однако, вклад небольшой в сравнении с теми показателями разборчивости, полученными в эксперименте проведенном с искусственным лицом. Вероятно, это связано с несвойственным отображением показывающим губы, наложенные на скелет черепа и челюсть. Тем не менее, мы можем предположить что полупрозрачная кожа, наложенная на отображение внутренних артикуляторов голосового тракта, в дальнейшем может улучшить разборчивость. Показатели разборчивости в такой «расширенной реальности» наглядного примера речи должны быть протестированы в ближайшем будущем.
Подтверждение.
Исследование было проведено при поддержке CNRS и удостоено гранта программой Эспритбра ( проект Майами номер 8579), а также Национальным Институтом Здравоохранения грантом (DC-00594) от Национального института глухоты и других коммуникативных расстройств.
Словарь специальных терминов.
1. to enhance |
|
повышать, увеличивать |
2. discrepancy |
|
несоответствие |
3. to superimpose |
|
накладывать |
4. a yaw |
|
скольжение |
5. to be presented along with smth. |
|
быть представленным вместе с чем то |
6. to be embedded in smth. |
|
быть встроенным во что-то |
7. to be integrated in a display |
|
быть выведенными на экран |
8. to equip with smth. |
|
оснастить чем-то |
9. an auditory modality |
|
акустическая методика |
10. a background noise |
|
фоновый шум |
11. disambiguation of sounds |
|
многозначность звуков |
12. an intrusive method |
|
инвазивный метод |
13. an intrinsic articulator |
|
внутренний артикулятор |
14. output file |
|
исходный файл |
15. a pitch angle |
|
угол наклона |
16. a jaw motion kinematics |
|
кинематика движения челюсти |
17. a sagittal plane |
|
сагитальная площадь |
18. semi transparent skin |
|
полупрозрачная кожа |
Скачать: