Изкуствен интелект на MIT и Google превежда текстове от отдавна изгубени езици

3
1100

В момента по света се говорят около 6500-7000 различни езици. Това е по-малко то ¼ от всички езици, които хората са употребявали в историята. Общият им брой е около 31 000 езика, според някои лингвистични изчисления.

Всеки път, когато даден език се изгуби, с него си отива част от начина на мислене, част от културата, връзките между хората, поезията на този език и прочие. Какво ще се случи, ако можем да четем тези мъртви езици? Изследователи от MIT и Google Brain са създали система, базирана на изкуствен интелект, която може да го постигне.

Макар и езиците да се променят, много от символите, начина на подредба на думите и буквите, остават във времето. Благодарение на това, можем да опитаме да декодираме изгубен език, ако установим връзка между него и някой познат език от миналото.

Това е линията, която Jiaming Luo, Regina Barzilay (MIT) и Yuan Cao (Google) следват

Посредством машинно обучение опитват да дешифрират старогръцкия език Linear B и Угаритския клинопис.

Linear B е писмеността на микенския език (ранен старогръцки) и се използва в периода около 13 век пр.н.е. Предхожда гръцката азбука с няколко века и най-вероятно изчезва със залеза на микенската цивилизация. Сходна е с Linear A писмеността, която се използва от минойците.

Угаритската писменост възниква около 15 век.пр.н.е в Угарит. Появата на клинописа се обуславя на активната търговия, с която се занимават местните, благодарение на важното си местоположение.

През 1953 година, човек на име Michael Ventris успява да разгадае Linear B, обясняват от BigThink. За първи път машина успява да го направи чак сега.

Изследователите се фокусират върху 4 основни фактора в контекста и подредбата на символите – подобие при разпределение, монотонно картографиране на символите, структурна оскъдност и значително сходство при припокриване.

Изкуственият интелект се обучава да използва тези свойства и успява да преведе 67.3% от думите в Linear B, които имат сходен произход, на гръцки.

Какво следва? Предимството на AI е, че може да върши неща, които са прекалено изтощителни за хората. Например да вземе символите, които иска да преведе от непознат език, и да ги изпробва спрямо символи от различни езици. Ще преминава от език на език, докато не разгледа възможната връзка с всичко, което човечеството познава до този момент.

Следващата стъпка за учените ще е да опитат дешифрирането на Linear A – древногръцкият език, който никой не е успял да разгадае.

Повече информация за настоящия проект може да откриете в публикувания труд „Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B“ като натиснете ТУК.

3
ДОБАВИ КОМЕНТАР

avatar
3 Коментари
0 Отговори на коментарите
0 Последователи
 
Коментарът с най-много реакции
Най-горещият коментар
  Абонирай се  
нови стари оценка
Извести ме за
Щерян Николаев
Щерян Николаев

Винаги съм искал да чета на Linear A, един приятел каза, че имали страхотна поезия 😀 😀 😀

pesho
pesho

На снимката е акадийски/шумерски език…

115
115

А кога ще успеете да направите преводач от английски на български? 😀