Аутоматско препознавање речи за одржавање у животу кечуа и других аутохтоних језика

Слика екрана видео клипа са YouTube-а, који је објавио информатичар Luis Camacho Caballero.

Kuélap није само познати археолошки предео пре ИнкаЧачапоја (народ Анда) смештен у области Амазонаса у Перуу. То је такође и име дато справи за сакупљање података за пројекат QuechuaASR, чији је циљ стварање система аутоматског препознавања речи за кечуа језик.

Кечуа је читава фамилија језика које говоре аутохтони народи углавном из андских региона Јужне Америке, језици које организације као што је УНЕСКО сматрају угроженима. Тачан број њихових говорника тешко је проценити, и широка доминација шпанског у овом региону, нарочито у институционалној настави, отежава говорницима кечуе да развијају свој језик. Дискриминације сваке врсте које аутохтоно становништво трпи изгледају као основни разлози за рањивост. Постоје родитељи који се уздржавају да своју децу уче кечуа језик из страха да неће моћи да се интегришу у друштво, и други који га причају, па забораве током миграција у велике метрополе. О томе говори Лоренцо Колке Ариас (Lorenzo Colque Arias), председник Академије кечуа језика у Арекипи :

El habitante arequipeño es muy agresivo cuando escucha a una persona hablar en quechua, lo margina, lo discrimina, y lo peor de todo es que esa misma persona sabe hablar y entiende perfectamente el idioma, es un migrante ya radicado en la ciudad y ahora ya discrimina.

Становник Арекипе (Arequipa) постаје врло агресиван када чује некога да говори кечуа језик, он га маргинализује, дискриминише, а што је најгоре, и он сам говори и савршено разуме тај језик, то је мигрант већ укорењен у град који сада врши дискриминацију.

На челу овог пројекта налази се инжењер информатике Луис Камачо (Luis Camacho). Он је одлучио да покрене овај пројекат пошто је био забринут због великог посла који треба обавити да би се спречио нестанак неких аутохтоних језика до краја овог века. Он то објашњава на својој Facebook страници, која се зове Atuq Kamachikug (atuq – што значи лисац на кечуа језику) :

Следим мој највећи сан: информатичку транскрипцију свих андских и амазонских језика.

У једној  објави на Facebook-у 2015, Луис Камачо је позвао говорнике кечуа језика да забележе минимум сто хиљада речи које говори барем сто особа. Сто дотичних особа требало је да буду изворни говорници кечуа језика, а не људи који су га научили као други језик.

Како би остварио своје циљеве, позвао је волонтере, са било којим местом боравка, ако су изворни говорници аутохтоних језика. Прва етапа састојала се у томе да они наглас читају снимљене текстове.

У другој етапи волонтери су били у обавези да транскрибују видео запис. Коначно у групама за разговор је окупио људе са којима ће да дискутује о различитим темама из свакодневног живота, и тако ће аудио архива коју треба транскрибовати бити забележена.

Основни предмет интересовања ове студије није садржај ових записа. Главна идеја је сакупити лексику тако да се формира гласовни речник. Циљ ове студије је да се забележи лексика аутохтоних језика како би се направила збирка речи које ће служити за прављење базе података помирљивих са развојем информатичких уређаја.

Глобални Гласови су кратко поразговарали са Луис Камачоом о напредовању његовог пројекта

Луис Камачо (ЛК): Већ смо сакупили сто сати гласовног материјала и текстова сређених у реченице. То смо успели да одрадимо захваљујући материјалу који су нам поклониле радио дифузне компаније са југа Перуа и такође захваљујући учешћу хиљада волонтера. Инсистирам на чињеници да је уређење Корпуса непрекидан процес и то је управо разлог због ког нам још увек требају хиљаде волонтера. Сви су добродошли!

ГГ:  Који је главни циљ овој пројекта?

ЛК: Крајњи циљ је аутоматски преводилац. Тренутно радимо на првој етапи, а то је претварање гласа у текст. Решили смо да га избацимо почетком 2018.

ГГ: Који су ваши планови за будућност?

ЛК: Настављам са довршавањем преводиоца. Надам се такође да ћу отпочети ове године са сакупљањем корпуса других језика, као што су аимара (l'aymara) и ашаника (l'ashaninka). Међу мојим дугорочним пројектима, желим да реализујем потпуну информатичку транскрипцију већине наших језика, као и неке друге језике јужноафричких земаља. Али за то су ми потребна финансијска средства, у сталној сам потрази за фондовима.

Али то није све: Камачо је такође предложио стварање аутоматског преводиоца са кечуа/аимара на кастиљански (шпански), енглески, кинески и обрнуто. У овом видеу (на шпанском) он нам објашњава функционисање уређаја за транскрипцију аудио записа на кечуа језику :

Ако желите да учествујете у овом пројекту можете контактирати Луиса Камачо на имејл адресу qichwa@pucp.pe.

Započnite razgovor

Molimo Vas da se Prijavite se »

Pravila korišćenja

  • Svi komentari se pregledaju. Pošaljite komentar samo jednom jer bi u suprotnom mogao biti prepoznat kao spam.
  • Molimo Vas da se prema drugima odnosite sa poštovanjem. Komentari koji sadrže govor mržnje, nepristojne izreke i lične uvrede neće biti objavljeni.