SPEECH VISUALIZATION SISTEM AS A BASIS FOR SPEECH TRAINING AND COMMUNICATION AIDS

JSER Info

JSER Policies

JSER Online

JSER Data

Frequency: quarterly
ISSN: 1409-6099 (Print)
ISSN: 1857-663X (Online)

Authors Info

counter

Review our review process

Олијана КРСТЕВА, Бојка ТАТАРЕВА

СИСТЕМОТ ЗА ГОВОРНА ВИЗУЕЛИЗАЦИЈА КАКО ОСНОВА
ЗА ЕДУКАЦИЈА И ПОМОШНО СРЕДСТВО ВО КОМУНИКАЦИЈАТА
НА ГЛУВИТЕ ДЕЦА

Во Зборникот “Profound deafness and speech communication“ (Edited By Geoff Plant And Karl-Erik Spens, Whurr Publisher Ltd, London, UK, 1995) се разгледува дел од најновите модели за говорна визуелизација создадени во последната деценија, а ние понатаму ќе се задржиме на шведскиот и јапонскиот модел во таа област.
Според јапонските специјалисти повеќе информации се добиваат со помош на видот, отколку со посредство на допир, но за жал визуелните помошни средства се користат по ретко, бидејќи не се лесни за ракување и се применуваат главно во едукацијата. Авторот на статијата Akira Watanabe го разгледува позитивниот ефект до кој води употребата на визуелните помошни средства во едукацијата и комуникацијата на слушно оштетените, како и проблемите сврзани со нивното применување.
Во новиот софтвер говорните елементи се претставени со бои. За жал само една до две акустични карактеристики се предаваат на тој начин а стремежот е сите карактеристики на говорот да се интегрираат. Тоа е тешко за постигање со проста математичка трансформација на сигнали. За таа цел треба да се извлечат говорните параметри и да се создаде визуелен модел што е разбирлив за секого (таков непреносен систем може да се користи и за телефонски разговори меѓу глувите или меѓу глуви и лица со нормален слух).
За говорната визуелизација се користат четири параметри, што ја контролираат сликата. Три од нив го определуваат звукот а четвртиот должината на линијата. Петте јапонски самогласки се покажуваат со различни бои независно од разликата на полот и возраста на “говорниците”. Јасно е дека недостатокот на слух води до определена специфика при создавањето на таков софтвер, а исто така сосема е логична неопходноста од сликовито (обоено) претставување за визуелизација на говорот.
Бојата се определува од равенка на резултатите на говорните параметри. Неопходноста од обоеното претставување се определува од соодветноста меѓу звуците и визуелното сетило.
На конкретните можности што ги дава системот за говорна визуелизација како основа за говорна едукација и помошно средство во комуникациите на глувите се задржува Akira Watanabe (Speech Visulization System-статија од посочениот погоре Зборник, стр. 528-535)
Едни добиваат многу повеќе визуелно а други тактилно. Понекогаш визуелните помошни средства за лица со пречки во слухот не одговараат, затоа што е тешко да бидат компактни. Оттука следува дека повеќето визуелни помошни средства би имале релативно ограничена употреба. Развојот на персоналните компјутери и приложениот софтвер доведе до создавање на успешни говорно помошни средства во кои говорните елементи се претставени со прекрасни бои. Со таков начин на едукација само една или две говорни особини се претставени индивидуално во дисплејот. Посебен интерес претставува проблемот сврзан со интегрирањето на говорните особини во еден визуелен модел со кој едни можат интуитивно да разберат не само говор, туку и говорни елементи. Општо земено е тешко да се постигнат интегрирани модели со самостојна математичка трансформација на сигналите.
За да создадеме интегриран модел треба говорните елементи да бидат внимателно избрани и синтетизирани. Успешната интеграција на говорните параметри и визуелните модели се основните помошни средства во комуникацијата и едукацијата на децата со оштетен слух.
Како прототип на говорниот визуелен систем, обоениот дисплеј систем за сврзан говор претрпел развој под влијание на аналогниот хардвер. Во систем од четири параметри, најниските три форматни честоти (F1-F3) и височината (F0) се користат за контрола на раширеното претставување. Најниските три форматни честоти ја избираат бојата на говорниот звук во деловите на гласот, а сигналот за височината ја ограничува хоризонталната должина во обоениот модел. Во безвучните делови што се извлечени со поврзаност од високите кон ниските компонентни честоти безбојното и шареното претставување можат да бидат видени. Моделите се претставени како специјални, чија што привремена оска е дадена вертикално на CRT-екранот.
Нормализираниот спектрум е опфатен целосно со моделите. Во тој случај спектарниот канал кореспондира со хоризонталната позиција и интензитетот на светлината. Блоковата шема на дијаграмот е прикажана на сликата 1.

123123
Сл.1

Говорен влез

Сл.2
По принцип ниските форматни честоти (F1, F3, F0) ги враќаат трите основни обоени сигнали, како што следува на сликата 2. Тоа станува јасно и од следните равенки:
A=5F1 / F3 B=F2 / 3F1 G=3F3 / 5F2-гледаме дека кружните врски од форматните честоти го нормализираат влијанието на вокалните должини на форматните честоти, а коефициентите 1/3, 3/5 и други ја неутрализираат самогласката. Во системот на дисплејот е можно да бидат претставени петте јапонски самогласки со различни бои. R-G-B балансот може да не ја визуелизира точно сивата боја како резултат од основните карактеристики на дисплејот во боја.
Меморијата на системот од сликата 1, има улога да ги претвора говорните сигнали во специјален модел, како резултат на тоа привремената оска на говорот е претставена вертикално. Кодот во боја (покажан на сликата 1) генерира составен видео сигнал од трите главни сигнали во боја според NTS-Националниот телевизиски систем за стандард во боја (National Television Standard Colour).

Зошто е неопходно да ги претставуваме говорните параметри во боја?

Како што е опишано погоре, боите се природно одбрани од говорните параметри. Еден од одговорите на поставеното прашање се содржи во кореспондирањето меѓу слушателот и визуелната перцепција.
Важно својство на слухот за примање на сврзан говор е компензацијата за придружениот артикулационен ефект, предизвикан од продолженото движење на говорните органи со различна брзина на одговор. Во овде опишаниот говорен систем, претворањето на најниските форматни честоти во бои ги нормализираат страните на индивидуалниот говорен тракт на оние што говорат. Хроматичноста на петте јапонски самогласки може да биде пресметана со проста калкулација, што се заснова врз NTS-системот. Исто како што поврзаните самогласки се претставени низ промената на хроматичноста придружени од артикулационен ефект низ контрастниот ефект на боите, така ќе се компензираат со промена на хроматичноста.
Системот на визуелниот говор претставува гласовни сегменти преку бои и ги покрива нормализираните спектрографични модели како промена на светлината. На тој начин црно-белиот модел во негласовните делови дава јасна контрасна слика со јаки бои на гласовите. Спектарните модели можеби ќе бидат неспособни да предадат идеална консонантна информација.
Имајќи предвид дека можностите за читање на група од зборови се истражувани од т.н. прости тестови што ги определуваат тешкотиите при читањето на говорни материјали што содржат 40 придавки и 50 именки (средно 3-2 слогови или зборови).

Сл. 3
Визуелните модели се претставени заедно со говорни звуци, снимени од тројца возрасни мажи со давање на правилен одговор од тестовите. Во текот на тестирањето еден од двајцата или тројцата што зборуваат директно во микрофонот во присуство на придружни говорно-визуелни модели, моделот на секој збор застанува во центарот на екранот, субјектите (со нормален слух) би требале да го прочитаат. Ако одговорот е погрешен или нејасен тој збор се произнесува до 5 пати. Натрупаните правилни одговори и времето за одговор, кореспондирајќи со бројот на повторувањата се покажани на сликата 3.

Сликата 3 всушност е резултат од 90 изолирани зборови и 100 сложени зборови што се состојат од придавки плус именки. Сложените зборови пред тестирањето не биле вежбани. Нормата за изолирани зборови е 83%-во првиот обид. Во вториот, точките достигнуваат 94% и во третиот-98% .

Сл. 4

Сликата 4 покажува дека 85% од 100 сложени зборови се разбрани во рамките на две проби. Од 200 самостојни зборови, вклучени во сложените-78% се јасни уште во првиот обид и 92%-во вториот. Тие резултати покажуваат дека разбирањето на сложените зборови е малку пониско отколку кај изолираните зборови.
Во Шведска е разработена компјутерска визуелна, звучна и аудиовизуелна програма за помош на лица со оштетен слух.
Според авторката на материјалот што го третира тој проблем-Бриджит Кук, (“Profound deafness and speech communication“, Edited By Geoff Plant And Karl-Erik Spens, Whurr Publishers Ltd, London, UK 1995), слуховните аномалии често налагаат барање на нови методи за комуникација.
Во Шведска користената компјутерска визуелна, аудио и аудиовизуелна програма “ACTIVE”-се состои од компјутер Макинтош и ласерен видео-диск плејер, како и од два екрана. Екранот на компјутерот покажува инструкции и друг вид информации, а дискот содржи 35-минутна снимка на зборови, фрази и целосни разговори.
Од резултатите добиени од страна на стручниот тим и ефектните постигнувања применети на лицата со оштетен слух, оваа програма е исклучително добра и затоа се работи на нејзино доразвивање во интерактивна мултимедијална програма која во моментот е во процес на тестирање.

ЛИТЕРАТУРА

Communication option in the education of deaf children, Wendi Linas, Whurr Publishers Ltd, London, U.K. 1994
Profound deafness and speech communication, Edited by G.Plant and K. E. Spens, London, U.K., 1995