Български  |  English

Езикът – описание, предписание, образование, възпитание

 
Проф. д-р Светла Коева е директор на Института за български език „Проф. Любомир Андрейчин” при БАН. Нейните научни интереси са в областта на компютърната лингвистика и обработка на езика; проблемите на формалното описание на езика; онтологиите. В момента изследванията й са съсредоточени върху проблеми на автоматичния превод; синтактичен анализ; семантични и синтактични алтернации. Тя е основен изследовател и координатор при създаването на някои големи езикови ресурси за български език: Българския wordnet - лексикално-семантична мрежа, която съдържа над 33 000 синонимни множества; Българския национален корпус, състоящ се от над 450 000 000 думи; граматично и семантично анотирани български корпуси, Българския FrameNet и др.
 
- Да започнем с речниците. Наскоро излезе нов официален правописен речник на българския език. А тълковният речник? Той на „П“ ли е спрял?
- Речникът на българския език действително е публикуван засега до буква „П“. Всъщност, в близките седмици ще излезе от печат 14-ият том, с който се завършва словникът, включващ думите с тази буква (от прелет до пясъчножълт). Същевременно се работи върху съставянето и редактирането на думите от буква Р (том 15), като се надяваме този том да бъде завършен и издаден през следващата година.
- Все е нещо...
- Aз самата не съм привърженик на толкова продължителна работа по издаването на речник, та той се работи вече повече от 40 години. През 1942 г. е учредена Служба за български речник, която по-късно прераства в Институт за български език. Една от основните задачи на Института за български език е съставянето и издаването на различни типове речници - тълковни, правописни, двуезични и др. Издаването на речници с официален нормативен характер е от голямо значение за цялото общество. Но категорично не съм привърженик на това да се инвестира толкова дълго време в един, макар и наистина обемен и ценен, продукт. В почти всички държави от бившия съветски блок, обаче, практиката е такава.
- И в Чехия?
- В Чехия включително. Истината е, че там планираната работа върху многотомен речник на чешкия език все още не е започнала (най-големият по обем чешки тълковен речник продължава да бъде тритомникът, издаден през 70-те години). Директорът на Института за чешки език, проф. Карел Олива, беше в България наскоро и това, което сподели с нас, беше доста тревожно. Благодарение на неговите усилия за седемте години, откакто е директор, за съставянето на електронна лексикална база от данни, въз основа на която да се изработи многотомен речник на чешкия език, са били намерени значителни средства, но все още базата от данни не е завършена и съставянето на речника не е започнало. Тяхната секция по лексикография е получила отрицателна атестация за работата си и на някои колеги не са били продължени трудовите договори. Тук отварям една скоба – това е един от големите проблеми както на университетите, така и на Академията в България – липсата на достатъчно адекватни начини за оценка на нашия труд. Като се добавят и безсрочните трудови договори, положението, общо взето, е доста неприятно. Системата в Чехия функционира значително по-добре: прави се атестация не само на отделните хора, не само на отделните институти, но и на отделните по-малки структури в рамките на институтите. Така всяка секция в Института за чешки език е била атестирана. И секциите, които са получили по-висока оценка при атестацията спрямо предходния път, получават по-високо финансиране. Секциите, които получават добра оценка, запазват същото финансиране. На тези, които получават по-лоша, им се намалява финансирането. А някои направо не получават финансиране.
- А той сподели ли критериите, по които правят тази атестация?
- Те са много подобни на критериите, по които нашата Академия проведе атестация на всеки един от учените преди две години; критериите са комплексни. Разбира се, като всички наукометрични изследвания, в известна степен те са условни или в някаква степен субективни. Например, по-добра оценка се получава на базата на публикация в списание, което има импакт фактор, а подобни списания в областта на хуманитарните науки не са много. Но ако периодът, който се оценява, е достатъчно дълъг, тогава можем да разчитаме на обективност на оценката. Тогава не можем да твърдим, че липсата на публикации или една-единствена публикация за периода, колкото и да е ценна тя, може да се сравни със значима продукция, която се разпространява и цитира, и т.н.
- Така или иначе, речникът не изисква кой знае каква научна, как да кажем, иновационност.
- Хубавото на този речник е, че той следва единна концепция. И когато бъде завършен, ще разполагаме с наистина безценно богатство. Част от Речника на българския език е в дигитална форма – тоест томовете, издадени през последните години. Друга част от речника - първите томове, са преработени и преиздадени, така че и те вече са представени в дигитална форма. След завършването на речника ще имаме огромна база от данни, въз основа на която могат да се правят (каквато е практиката по света) различни типове речници в зависимост от конкретните цели и потребителски кръгове. Работата по речника обаче може и трябва да се оптимизира. Това може да стане със средствата, които съвременните технологии отдавна ни предоставят. Благодарение на фонд „Научни изследвания“ разработваме съвместно с колегите от Секцията по лексикология и лексикография програма, която нарекохме LexIt, специално предназначена за Речника на българския език. Тя съответства на неговата специфика и няма да позволява случайни грешки, така редакторската работа ще бъде значително облекчена. Програмата ще осигури и ефективност, разбира се. Трябва да призная, че работата по речника, особено в последната година, действително е трудна. Имало е години, когато в проекта за речника са работили 30-35 души, в момента са само 6. През септември назначихме седми човек в секцията... Освен това, вече имам устното уверение на няколко уважавани наши колеги, бивши сътрудници към Секцията по лексикология и лексикография, че в следващите няколко години те ще помогнат, така че речникът да бъде завършен в рамките на моя мандат.
- Тоест, след три години. А речникът все още на картончета ли се прави?
- Не, колегите използват дигитални архиви и основно Българския национален корпус. В момента новите томове на Речника на българския език (всъщност от т. 11 насам) се разработват въз основа на материал не само от традиционните книжни лексикални картотеки, но и от такъв модерен лексикален ресурс като Българския национален корпус, който включва вече близо милиард словоформи. Това оказва положително влияние върху качеството на Речника, повишава неговата надеждност като източник на информация за употребата и съчетаемостта на думите в съвременния език. Картончетата ги има, но се надяваме, пак в рамките на моя мандат, да ги дигитализираме. Kандидатствахме с два проекта във фонд „Научни изследвания“ - единият е за дигитализация на научните архиви. Другият е за речниците – за да ги направим достъпни в интернет. Това е нещо, което със сигурност дължим на обществото.
- Официалният правописен речник описва или предписва? Млади хора, които редовно списват в Уикипедия, т.е. имат известна компетентност, бяха отбелязали в него, примерно, думата „блогирам“. И бяха скептични, че някой въобще употребява тази дума в своето всекидневие.
- И описанието, и предписанието трябва да ги има. Публикуваните от Института речници и граматики имат характер на официални нормативни справочници. Разбира се, предписанието трябва да се базира на анализ на тенденциите и на информация за честотата на срещания на словоформите и граматичните явления. Достъпът до Българския национален корпус е свободен. Всъщност, колегите все повече и повече използват корпуса, включително и сътрудниците от Секцията за съвременен български език, което прави работата им по-прецизна. Корпусът, освен съвместната лексикална и граматична уопотреба, показва и честотата на срещане на думите, т.е. дали една дума се употребява три или триста хиляди пъти в множеството от милиард думи... В интернет от доста време е достъпен и честотен речник на българския език, съставен от Секцията по компютърна лингвистика. Но, признавам, не ни е останало време да направим всички тези постижения достатъчно видими.
- Как се социализира въобще това знание? Вашите правописни програми трябва дълго да бъдат търсени из мрежата...
- Съгласна съм... Светът трябва да вижда направеното от нас. Ние не можем да очакваме светът да знае, че сме експерти, ако не го показваме. И, разбира се, информацията трябва да е достъпна за потребителя по достатъчно лесен начин.
- Живеем във време, когато част от българите живеят в чуждоезикова среда. Може би този разговор ще бъде много по-внимателно четен от тези, които наричаме „външни” българи...
- Даваме си сметка, че сме им длъжници. Правим немалко. Но, за съжаление, това, което ни се иска, става малко по-бавно и малко по-трудно по ред причини. Но става.
- Езикът се развива. Някои езиковеди смятат, че задачата им е да регистрират промените. Други смятат, че трябва да се полагат усилия да се държи той в определени рамки.
- Ясно е, че езикът е саморазвиваща се система. Ясно е също, че речниците, граматиките и справочниците, които Институтът издава, имат предписваща функция. Наша задача е да анализираме и да покажем кое е вярно. При това, вярно към момента - защото след 10 години то може и да не е вярно, макар езикът да е консервативна система и да не се развива чак толкова бързо. Функцията на правописните и правоговорните правила е да установяват устойчивост. Тоест, не всичко, което се допуска в ежедневната употреба, трябва веднага да бъде отразявано в речниците, за да може да се запази именно еднаквостта в правописа и правоговора. Тук трябва да подчертаем особено силното влияние на медиите. Много често в медиите се използват думи за въздействие, някои от тях еднократно, но други остават. Например, не знам дали си спомняте – преди години имаше интервю с народен представител, когото пред Народното събрание попитаха за държавата Нубия. След това парламентът беше любезен да ни предостави парламентарните записи – и когато направихме честотна извадка на думите, „нубиец“ и „Нубия“ се оказаха с голяма честота. А такива думи всъщност няма. Един от възможните начини да се направи словообразувателен речник, е да се направи речник на корените на думите или на основите, и речник на представки и наставки, като съответно да се формулират правила, по които морфемите се комбинират в думи. Такъв речник, ако няма ограничения, ще генерира думи, като „европяга“ и “европлък”, каквито не съществуват в езика. Но ние ги разбираме, те са образувани по правилата на езика и с единиците на езика. Журналистите много често си служат с този механизъм. И образуват, особено с компонента „евро-“, различни нови думи, които понякога се употребяват еднократно, понякога по-често. Такива думи служат за привличане на вниманието на читателя - и това е нормално. Ролята на медиите е изключително важна, а езиковата политика е въпрос на дългосрочно образование и възпитание. Езиковата политика включва образование и възпитание (разбирани много широко) в училище, в обществото, в семейството. Тогава, когато всички смятаме, че е престижно да говорим правилно български език, че е престижно да пишем правилно, че е престижно да употребяваме кирилица в интернет, а не шльокавица, тогава въпросът “езикът да се държи в определени рамки” няма да стои.
- Проф. Никола Георгиев беше противник на делението на литературознание и езикознание...
- Аз съм привърженик на делението...
- Няма да разградите двора между етажите с Института по литература?
- Не. С Института по литература си сътрудничим много добре. Аз бих казала, че дворът не може да се разгради. Но съм привърженик на тезата, че когато човек се занимава с интерпретация на художествена творба, той също е творец. С други думи, литературознанието е много близо до изкуството, ако не е и изкуство. Докато езикознанието... Ние работим с правила. Това, което правим, е да описваме как морфемите се комбинират в дума, как думите се комбинират в изречения и т.н. Правилата предполагат точност и математически модели на описание. Затова съвременното разбиране за езикознанието е като точна наука. Разбира се, литературознанието и езикознанието са неразривно свързани, безспорно, едното без другото не може. Но трябва да има фокусиране, когато ученикът се занимава с едното или с другото, т.е. той трябва да има ясното съзнание, че литературата е вид творчество, докато към езикознанието трябва да подхожда като към друг тип наука.
- Ако „извадим пред скоба” образованието, има ли нужда, според вас, от някаква държавна политика в областта на езика?
- Аз казах - да, има нужда от единна, целенасочена, дългосрочна държавна политика по отношение на образование и възпитание. Говорим за образование в по-широки мащаби. Например, в други държави има задължителна квота в националните медии за песни и филми, които са на съответния официален език на държавата. Такава квота, доколкото знам, в България няма. Да се върнем на факта, че медиите са много, много силни. Образованието и възпитанието, което медиите всъщност ежедневно предоставят – защото това е фонът, който ни заобикаля – е много важно. В момента са много малко, да не кажа спорадични, предаванията и рубриките, които имат образователен характер, особено що се отнася до българския език. Във вторник има кратко предаване „Езикова култура“ по програма „Христо Ботев“. Същата програма периодично кани в рубриката си “За думите” езиковеди, разбира се, не само от Института за български език, но и от Софийския университет и т.н. Но, доколкото ми е известно, друго такова радио или телевизионно предаване, което да е посветено на българския език, в момента няма. Разбира се, много е трудно да се направи подобна качествена образователна програма. Според мен, съвременният човек, особено млад, няма нужда от дидактични предавания, в които някой обяснява, че пълен член се пише, ако думата е от мъжки род и може да се замени с „той“, или пък в които се изписва нещо, след което то се задрасква и се изписва вярната употреба. Мисля, че подобни подходи отдавна не са модерни и отдавна не привличат вниманието. Трудно е да се направи – било телевизионно, било радиопредаване, било рубрика във вестник – което по интелигентен начин, ненатрапчиво да фокусира върху правилната употреба на езика. Това езиковед сам не може (или трудно може) да го осъществи. Тук трябва и писателски талант.
- Някои от нас имат натрапчивости - че езикът, понеже отразява национални ценности, национален характер – с промяната си променя националните ценности и националния характер. Дали не е по-необходимо да се мисли за стабилността, а не толкова за развитието на езика?
- Езикът е стабилен, защо мислите, че е нестабилен? Нестабилен би бил езикът, ако например толкова много се разколебае дадена употреба, че много думи загубят множественото си число, да кажем.
- Но ето – при връзката между две думи много често започва да се изпуска предлогът - две думи една до друга, няма нужда от връзка между тях - но това влияе на мисленето.
- Категорична съм, че такива употреби, като „лепене гуми“, „четене книги“ са неправилни. Това е неграматично и никой не го препоръчва, няма такава норма.
- Но след 10 години можете да констатирате, че честотата на подобна употреба е сто милиона и да промените нормата.
- Като учени можем да се “борим”, като пишем граматики, създаваме речници и други научни изследвания. Тиражът на официалния правописен речник свърши доста бързо, още на първия месец. Това показа, че в обществото има съзнание за необходимостта от езикови норми, а и желание да се спазват.
- Доколко учебниците по български език, по родна реч, по развитие на речта работят за развитието на речта и за българския език? Доколко това е проходимо знание? Често не разбираме за какво иде реч в тези учебници.
- Това е голям проблем. Спомням си, че преди 12 години, по повод едно изследване, изчетох всички учебници от четвърти до седми клас на четирите оторизирани (да използвам тази чужда дума) да издават учебници издателства. Съществуваха дефиниции, които не отговарят на дефиницията за дефиниция, съществуваше подвеждаща информация, съществуваха неподходящи текстове и т.н. Изчетох и учебната програма по български език и литература. Учебниците от четвърти клас и от седми клас не си съответстваха, информацията в тях - при различните издателства и за различните години - не беше последователно включена, така че, ако едно дете се мести от училище в училище, да му бъде осигурена възможността да научи всичко, което се предвижда в учебната програма. Оказа се, че ако едно дете в четвърти клас учи по учебник на едно издателство и се премести през втория срок или другата година в друго училище и учи по учебник, издаден от друго издателство, то може никога да не разбере, например, какво е подчинено допълнително изречение. Но това е все пак наблюдение отпреди 12 години. Освен проблемите с учебниците, има и други проблеми. Трябва да отбележим, че на днешните учители им е много трудно. И на университетските преподаватели – също. Защото, при съвременните технологии, студентите и учениците разполагат с необятно море от знания, ако искат да ги получат. На учителите в някои случаи най-вероятно им се налага да догонват учениците си. Най-вероятно им се случва учениците да им задават въпроси, които ги затрудняват. В значителна степен може би начинът на преподаване изостава от бързото развитие на технологиите (това обаче се отнася не замо за България). И въпреки всичко, трябва да имаме доверие в училището, в учителите. Ето, вчера ни потърси преподавателка по български език и литература от математическата гимназия в Пловдив - когато видели новия речник, решили да поканят някого от Института да отиде, за да се срещне с учителите там. Звучи неочаквано, но си мисля по този повод, че възрожденският дух изобщо не е излишен - на всички равнища. Човек, първо, трябва да харесва това, което прави. Второ, не трябва да бъде воден от други стимули, а да прави нещо само защото смята, че то е важно и значимо. Правя това отклонение, тъй като искам да кажа, че има такива достойни хора в Института за български език, и те не са малко.
- Егоизмът, мързелът на българските компютърни фирми и стремежът към лесна печалба на мобилните оператори нанесоха немалка щета на българския език - да споменем само писането на „шльокавица” и есемесите на латинска азбука. И до ден днешен част от софтуера на мобилните устройства, които са все повече част от нашия живот, не е преведен. Вие не може ли нещо да направите в тази област?
- Можем, да. Но – специално за мобилните оператори, за да влезе нещо в употреба, в някои случаи трябва да има воля и от тяхна страна. Осъществявали сме връзка с българските мобилни оператори, но по онова време те не проявиха интерес. А имаме експертното знание – специално в Секцията по компютърна лингвистика - да направим софтуер и за мобилни устройства. Всъщност, от години мечтаем да го направим.
- А как гледате на една инициатива, която може да дойде от вас или от другаде, която да облече в законова форма задължителността на локализирането, нали това е терминът, на софтуера.
- Бих я приветствала.
- Какви са вашите отношения с Microsoft, с Google, с Apple?
- За да направим програмата за корекция на правопис (готвим и още една - на граматиката, която се надявам да пуснем преди Нова година), два пъти подред трябваше да сключим договори с Microsoft, за да ни предоставят тяхното API, т.е. този компонент, който е необходим, за да може нашата програма да се използва в Microsoft Office. Така че имаме подписани споразумения с Microsoft. Сега може да се наложи и трето споразумение, защото се оказа, че тези „ключове” към Windows са различни за програмите за проверка на правописа и за проверка на граматиката.
- А докъде сме с мисленето за машинния превод?
- В момента Google залагат на статистически модели, които работят върху езика (това правим и ние, разбира се). Например, Google Translator се базира на статистическо знание за употребата на езика. За Google е известно, че обхожда страниците в мрежата и поддържа локално копие на цялата информация, която е в интернет. И колкото повече паралелни, т.е. преведени документи между два езика, например български и английски, са налични в интернет, толкова повече, грубо казано, Google Преводачът ще става все по-добър. Затова Google Преводачът между езици като немски и английски е по-добър, отколкото, да кажем, между български и норвежки - паралелни текстове между български и норвежки почти няма. В Google работят добри специалисти, това е безспорно, както е безспорно и че възможностите на Google са големи. Това обаче не означава, че няма огромно поле за работа. Машинен превод правим и ние. Правим го в рамките на проекта Атлас - един от двата ни проекта в момента, финансирани от Европейската комисия. Сигурно сте се сблъсквали с факта, че има свободен софтуер за създаване и поддържане на съдържание в интернет, така наречените Content Management Systems. Със системата Атлас потребителят също, без да има специализирани познания, може да създава и поддържа електронни библиотеки, блогове и др. Но какво е особеното в тази система, с което тя определено превъзхожда другите? Това, че тя е подкрепена с много езикови технологии. Когато един документ се публикува в системата, тя автоматично го категоризира към определена тематична област – дали в документа се говори за история, география и т.н. Показва сходните по съдържание документи. Ще показва сходните документи на други езици. Извлича кратки резюмета на текстовете и ги превежда на друг език. Това, което правим, е много интересно и, разбира се, е много трудно. Традиционното езикознание вече го няма. Като става въпрос за правила (включително езикови), правилата трябва да се описват точно. Опишат ли се точно – било и с думички, може да не е с формули – „това е вярно, другото не е вярно“, това е достатъчно, за да може да се използва за компютърна обработка. Ето едно бяло поле в науката, има толкова работа - за всички езици, за толкова много хора. Много е интересно, все едно, да кажем, си химик в XIV век.
- Този пост, който заемате сега, ще ви позволи ли да защриховате малко от това бяло поле?
- Надявам се. Ние не сме спрели да разширяваме активността си. Надявам се да се опитаме това, което прави Институтът, да става малко по-бързо, достатъчно качествено и по-видимо. И трудът на хората трябва да стане ефективен.
- Ако ви утроят бюджета – това ще ви помогне ли?
- И да, и не. Със сигурност трябва да има по-високо финансиране, това е вярно. Защото то може да се използва за създаването на нови технологии, може да позволи на повече хора да работят в Института, да се работи по повече различни задачи. Не на последно място, може да се използва и за достойно заплащане. Аз съм абсолютен противник обаче на равното заплащане. По-талантливият човек, този, който работи по-добре, трябва да получава повече. Вярно е, че за да бъде трудът и на творци, и на хората от научната сфера ефективен, те трябва да са „целунати по челото”. Но все пак, освен призванието, трябва да има и признание. Признанието може да бъде различно, но то включва и подходящо заплащане. Защо казвам не на равното заплащане? От години сме видели, че то не води до нищо добро. В този смисъл, приветствам становищата и на министъра на образованието, и на министъра на финансите за диференцирано финансиране. Това е правилното отношение на държавата. Не може парите да се разпределят по равно. БАН тази година също направи крачка напред. Аз бях на общото събрание, което за първи път разпредели бюджета между институтите не “на брой хора”, а на основата на шест критерия, между които бяха международната оценка, брой публикации, брой международно спечелени проекти - все фактори, които показват, че има движение, че има работа, има видимост.
- А вие между кои бяхте?
- Ние бяхме сред тези, които получиха по-високо финансиране. Нашият институт има висока международна оценка, една от най-високите. Имаме висока публикационна дейност и множество външно финансирани проекти. Но да се върнем на това, от което страдат и академичната общност, и университетите – това са постоянните трудови договори, според Кодекса на труда. След спечелен конкурс за академична длъжност, дори ако работата е незадоволителна, главен асистент, доцент, професор могат да останат на работа до пенсионирането си. Според Закона за развитието на академичния състав, до пет години трябва да се провежда атестация и би могло, ако има две последователни отрицателни атестации, да се предприемат някакви действия. Носят се обаче слухове, митове, легенди как някъде, в някакъв институт научният съвет бил взел решение някой да бъде уволнен. Може да е имало единични случаи...
- Да кажем, ще уволните. А има ли кого да назначите?
- Има кандидати. Особено ако се предложи малко по-високо заплащане. Младият човек, когото назначихме, е завършил тази година филология и започва при нас с около 300 лева месечно, защото все още не е асистент. Когато получи диплома за магистър, може да бъде назначен като асистент за период от 4 години с малко по-високо заплащане. За обявената докторантура по компютърна лингвистика има петима кандидати, а по терминология - двама. Всичко е свързано: ако работим по-добре - трудът ни ще намира признание, ако трудът ни намира признание - млади хора ще са привлечени от него.
Разговора водиха Христо Буцев и Марин Бодаков
 
Продукти, създавани от Секция по компютърна лингвистика, Институт за български език „Проф. Любомир Андрейчин“ към БАН
 
Система за автоматична корекция на правописа
Системата за автоматична проверка на правописа WinEst за Microsoft Office открива и маркира в текста неправилно написаните думи и предлага най-вероятните кандидати за поправка на грешките. WinEst предоставя пълните възможности за съвременна правописна корекция: експертно съставен речник; който съдържа над милион и половина думи, и предложения за замяна, които се подреждат според тяхната вероятност. WinEst се базира на електронния граматичен речник, разработен от Секцията по компютърна лингвистика, който съдържа над 85 000 основни форми. Съдържа логика за разпознаване на грешки, причинени от невнимание (грешно натиснат клавиш, разменени букви, пропуснати или добавени букви), разпознава грешки, породени от незнание, и отлично се интегрира с потребителските речници, използвани в Microsoft Office. WinEst използва изключително бърз и ефективен метод за търсене и разпознаване на верните думи без значение от размера на проверявания текст. Разработена е и версията MacEst за Mac OS.
Информация и изтегляне на WinEst – Така е!: 
*
Българският национален корпус – най-големият систематично създаден корпус за български език
Българският национален корпус се разработва от 2009 година насам и представлява най-големият систематичен и представителен корпус за български език. Той съдържа над 200 хиляди текстови единици и наброява над 1 милиард думи за български език, като непрекъснато се разширява и обогатява. Текстовете са разделени в основни категории (стилове): административни, научни, медийни, художествени и други, и са снабдени с детайлно описание. В Българския национален корпус са включени и 33 сателитни паралелни корпуса на чужди езици – английски, немски, румънски, гръцки, полски, хърватски и много други. Системата за разширено търсене предлага достъп до корпуса със заявки на български или английски език, както и търсене с регулярни изрази и езикови характеристики.
Информация за Българския национален корпус: http://www.ibl.bas.bg/BGNC_bg.htm
Търсене в Корпуса: http://search.dcl.bas.bg
*
Честотни речници на българския език
Честотните речници са базирани на Българския национален корпус и дават информация за думите в българския език и честотата на тяхната употреба. Честотните речници са извлечени с помощта на специална компютърна програма. Чрез количествени анализи могат да се правят изводи за това кои думи са специфични за определени стилове или тематични области и кои са с общоезикова употреба, а това намира широко приложение в автоматичното категоризиране на текстове и извличането на информация.
Честотните речници, например, показват, че в административните текстове между най-често срещаните съществителни имена са приложение, продукт, параграф, регламент, комисия, страна, а използвам, прилагам, вземам, определям са най-често срещаните глаголи след спомагателния глагол съм, докато в научните текстове надделяват съществителните време, година, човек, България, развитие и глаголите имам, оказвам, давам, намирам. Името България се нарежда на 53-то място по честота в публицистичните текстове и на 65-то в научните, докато в административните е едва на 548-о място.
Речниците могат да бъдат намерени на адрес: http://dcl.bas.bg/frequency.html
*
Фирма Тетраком Интерактивни Решения ООД и Секция по компютърна лингвистика, Институт за български език „Проф. Л. Андрейчин“ към БАН успешно завършиха етап от международния проект АТЛАС, финансиран от Европейската Комисия.
В информационната ера, когато количеството многоезиково съдържание от информационни агенции, социални мрежи, електронни пощи, са и вътрешно-организационни документи, ни затруднява да се ориентираме и вземаме бързи решения, системи за управление на многоезиково съдържание като АТЛАС разширяват нашия капацитет за възприемане на информация. Езиковите технологии, хармонично съчетани с иновативни методи за управление на съдържание, представят на потребителите на АТЛАС резюмиране на текстове; системата за автоматично категоризиране на съдържание ефективно намалява ръчната работа по каталогизиране; използването на услуги за машинен превод подпомага преодоляването на езиковите бариери.
АТЛАС, система с отворен код, е в етап на внедряване в няколко международни организации.
За повече информация - http://www.atlasproject.eu
 
още от автора


  
ПОРТАЛ ЗА КУЛТУРА, ИЗКУСТВО И ОБЩЕСТВО Списание “Християнство и култура” Книжарница “Анджело Ронкали” Фондация “Комунитас”