Google подготвя използването на вектори вместо речници при машинния превод

0
24

Програмистите на Google възнамеряват в близко бъдеще да използват при машинния превод на текстове нова концепция, с чиято помощ могат да бъдат постигнати значително по-добри крайни резултати и използване в по-малка степен на услугите на професионални преводачи.

Понастоящем програмите за машинен превод са базирани на класически речник. Чрез разширяване на граматичните правила и добавянето в алгоритъма на различни особености на съответните езици резултатите при превода без човешка намеса наистина се подобряват непрекъснато, но въпреки това все още трудно биха могли да бъдат окачествени като дори като добри. Най-големи проблеми при машинния превод създават фините семантични разлики в значенията на думите, идиомите и устойчивите съчетания.

Google работи по метод, с чиято помощ дори самите речници вече ще бъдат създавани напълно автоматизирано, съобщава ресурсът Technology Review. За целта няма да бъде необходимо наличието на директни преводи на един и същи текст. Вместо това структурите на езиците ще бъдат анализирани с помощта на Data Mining техники, като чрез тях ще бъдат извличани и съответните корелации между тях.

Основната идея на този подход се състои в това, че в различните езици се изобразяват предимно едни и същи предмети, понятия и т.н. Като пример специалистите на гиганта посочват думите за конкретни реално съществуващи животни – котка, куче и крава. В следващата стъпка те се поставят в сравнителни отношения помежду им, като например изречението „Котката е животно, което е по-малко от кучето, което пък е по-малко от кравата“. Подобни взаимовръзки се установяват и при други понятия, напр. числа или прилагателни имена, които се свързват със значенията на съществителните имена.


През последните години лингвистите постигнаха значителен напредък в обработката и създаването на математически модели на сходствата на тези връзки в различните езици с помощта на векторната математика. Така било установено, че думите в много различни идиоми са свързани чрез сходни вектори. По този начин лингвистичният модел може да бъде трансформиран в математически, който пък от своя страна вече би бил много по-полезен при компютърната обработка на текстове.

Посредством новия метод в лабораторни условия вече са постигнати много добри резултати, съобщават разработчици от Google. С негова помощ вече са били открити и отстранени редица грешки в съществуващия алгоритъм за превод между чешки и английски език. Значително по-добри резултати са постигнати и при сравнителния анализ на езици на народи, които не са имали сходно историческо и културно развитие.

ДОБАВИ КОМЕНТАР

avatar
  Абонирай се  
Извести ме за