По-добри от Google Translate
Да се преведе на английски, френски, немски, турски или какъвто и да е език изречението „Мария се събуди весела сутринта” е предизвикателство за Google Translate, тъй като при неговия статистически машинен превод, базиращ се на корпус паралелни текстове, няма да се разбере дали „весела сутрин” е едно словосъчетание или дали Мария е „весела”, когато се събужда.
При българската система за превод обаче, която е между 7 езика (български, английски, френски, немски, италиански, испански и турски) и която работи офлайн на мобилни телефони, благодарение на компютърната лингвистика, преводът на горното изречение би бил по-успешен. Причината? Българската система работи с над 10 000 езикови правила, при които анализира структурата на изречението на множество равнища, заради което и по-лесно може да предвиди различните възможности за превод.
Освен това, когато в езика навлезе нова дума, като „европяга” например, тя по-лесно би се превела на чужд език от българската система, която би предположила значението й, тръгвайки от корена и наставката, отколкото от Google Translate – системата, която работи с налични паралелни текстове и чиято статистическа машина най-лесно улавя устойчиви словосъчетания.
Това стана ясно при представянето на системата от нейния създател Лъчезар Джаков на 4 септември в хотел „Хилтън” по време на конференцията "Компютърната лингвистика в България".
Събитието бе организирано от Секция по компютърна лингвистика при Института за български език при БАН по проект "Подкрепа за развитието на докторанти, постдокторанти, специализанти и млади учени", финансиран от Европейския социален фонд по Оперативна програма "Развитие на човешките ресурси". В нея участваха учени от Норвегия, Румъния, Сърбия, Словакия, Украйна, Франция и Чехия. Заедно с българските си колеги, сред които Светла Коева, Иван Держански, Светлозара Лесева, чуждестранните учени обсъдиха възможности за практическото приложение на компютърната лингвистика в методите за машинен превод и създаване на електронни речници. По време на конференцията бе организирано и изложение „Езикови технологии“. На него български компании показаха свои разработки, направени с помощта на компютърната лингвистика, за търсене в карти, за автоматичен анализ на мнението на потребители, за опростяване на текстове в помощ на хора с аутизъм.
По думите на Светла Коева, в компютърната лингвистика все още има бели полета и през следващите 50 години тя ще продължи да бъде интересна област с много възможности за открития.
От своя страна, Иван Держански отбеляза, че няколко ученици, участвали в олимпиади по компютърна лингвистика, вече работят по проекта на Института за български език при БАН „Интегриране на нови практики и знания в обучението по компютърна лингвистика”. По този проект, в който участват над 25 изследователи, бе създадена и интернет картата на българските диалекти (виж „Култура” бр.20 от 30 май 2014).
Держански разказа още, че България е била инициатор на международна олимпиада по лингвистика през 2003 г. и че за 12 години българските ученици са спечелили общо 40 медала.
ХIII Международна олимпиада по лингвистика ще се проведе отново в България – от 20 до 24 юли 2015 г. Дотогава учениците ще имат време за подготовка и „дразнител” – постижението на Лъчезар Джаков – българската система за превод, която работи и офлайн на мобилни телефони, заемайки само около 100MB от паметта на апарата за разлика от офлайн версията на Google Translate, който се нуждае от около 10 пъти повече свободно място на телефона.
Коментари от читатели
Добавяне на коментар







