07.12 13:45
Привет, гость
Образцы тестовых заданий для абитуриентов Новые правила для ввоза сигарет
 

Грамотность таджикских текстов проверяет компьютер

26.12.2012, 07:54
Подошёл к концу 2012 год. Поздравить себя с его успешным завершением может известный математик и не менее известный специалист в области компьютерной техники, академик Академии наук Таджикистана Зафар Джураевич Усманов. Под его руководством в общественной организации «Центр развития информационных технологий Зафар Усманов» создан программный продукт для автоматической компьютерной проверки таджикской орфографии. Первые же испытания способностей «компьютерного грамотея», проведённые в учреждениях власти разного уровня позволили установить весьма заметные расхождения в текстах с требованиями таджикской грамматики.

Корреспондент НИАТ «Ховар» попросил академика Зафара Усманова ответить на несколько вопросов, касающихся этой серьёзной проблемы.

- Поясните, в чём суть новшества и какова его ценность?

- В настоящее время очень много людей успешно освоили персональные компьютеры. Работая на них, они как само собой разумеющееся воспринимают те многочисленные удобства, которыми они пользуются. Например, при подготовке документа на русском или английском языках, появление красной линии под словом сигнализирует о допущенной орфографической ошибке. Кликнув левой кнопкой мыши по слову, пользователь выводит на экран монитора меню, в котором предлагаются возможные варианты исправления ошибки.

Эту процедуру в компьютере поддерживает программный модуль, названный языковым пакетом для Microsoft Office. Для многих языков мира такие пакеты уже созданы. Группой наших специалистов аналогичный пакет разработан и для таджикского языка.

- Кто работал под вашим руководством?

- Это хорошие специалисты – кандидаты физико-математических наук Одил Солиев и Хуршед Худойбердиев, а также стажёр-исследователь Гульшан Довудов.

- Какие проблемы пришлось решать вашей команде на пути разработки программного обеспечения и сколько времени это потребовало?

- Нам потребовалось три года кропотливой исследовательской работы. В результате этой работы нам удалось сформировать морфемную базу из 66 префиксов, свыше 35 000 корней и 2791 постфикса таджикского языка. Эта база, кстати, предусматривает возможность генерирования таджикских слов (путём словообразования и словоизменения) исключительно громадного объёма, предварительно оцениваемого десятками миллионов единиц.

Следующим важным этапом нашей работы было установление связи с фирмой Microsoft. Мы начали переговоры, суть которых сводилась к тому, чтобы убедить руководство фирмы в компетентности и ответственности нашей команды. Нам пришлось предъявлять свои публикации по компьютерной лингвистике, разнообразные программные продукты – такие, как электронные словари, озвучивание таджикских текстов, оптимальные раскладки букв на компьютерной клавиатуре и т.п. По истечению года между нами был заключён договор, и Microsoft представила стандарты технологии CSAPI (Common Spelling Application Programming Interface), в соответствии с которыми были созданы для таджикского языка два модуля проверки орфографии и расстановки переноса слова на следующую строку.

- Вы говорите об очень серьёзных делах, которые очевидно требовали соответствующей финансовой поддержки. Ведь так?

- В прошедшем десятилетии Правительство Таджикистана приняло ряд постановлений по развитию информационных технологий на таджикском языке и выделило средство для разработки приоритетных компьютерных программ, в частности, автоматической проверки таджикской орфографии. Увы! Финансирование не дошло до специалистов.

Создание программного продукта для автоматической компьютерной проверки таджикской орфографии – результат личной инициативы разработчиков.

- Как на практике показала себя ваша программа?

- Вполне нормально. При тестировании программы в режиме реального времени, то есть непосредственно при наборе текста, пользователям предлагалось умышленно допускать самые разнообразные орфографические ошибки – набирать в словах не ту букву, пропускать буквы, вносить лишние буквы, переставлять буквы в словах, опускать пробел, печатать одно и тоже слово дважды и тому подобное. Программа успешно выявляла допускаемые ошибки, подчёркивая красной волнистой линией соответствующие слова. Исправления вносились нажатием правой кнопки на мышке и выбором в меню правильного варианта написания слова или же внесением слова в словарь.

Особый интерес вызывало тестирование программы на газетных и журнальных статьях, представленных в интернете. Почти во всех материалах программа обнаруживала ошибки. Вот так-то!

Да, вот ещё что надо обязательно оговорить. Программа успешно работает с таджикскими текстами, набранными на стандартной графике. К месту отметить, что наша группа участвовала в разработке стандарта кодировки и раскладки символов таджикского алфавита, который был утверждён Правительством Таджикистана в Постановлении от 2 августа 2004 года.

В других случаях рекомендуется наличие установленных таджикских шрифтов с поддержкой расширенного кириллического алфавита – Palatino Linotype, Arial Unicode MS или других.

- Ну, а если предъявить программе текст, написанный на нестандартной графике, что тогда?

- Предъявлять такой текст программе бессмысленно. Вначале его надо подвергнуть «стандартизации», то есть пропустить через программу, которая автоматически преобразует использованные шрифты в стандартный. А потом уже придёт черёд применять программу проверки орфографии.

- Очевидно, ваша программа во многих смыслах полезна для практического применения?

- Наша программа адресуется широкому кругу пользователей, как на территории Таджикистана, так и за её пределами. Её повсеместное внедрение окажет несомненное влияние на повышение уровня грамотности всех слоёв населения Республики, пишущих на таджикском языке.

- Ну, и последний вопрос. Наверно, самый серьёзный для вашей группы. Бесплатно или за деньги?

- Естественно, инициативный труд нуждается в поощрении!

Материалы по теме
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
07.12.2016

Декабрь 2016 (120)
Ноябрь 2016 (565)
Октябрь 2016 (609)
Сентябрь 2016 (603)
Август 2016 (744)
Июль 2016 (608)
ГБАО, ДТП, Душанбе, Исфара, Культура, Куляб, МВД, МВД Таджикистана, Мегафон, Навруз, ООН, ПИВТ, Президент, Рахмон, Рогун, Россия, США, Согд, Таджикистан, Узбекистан, Хорог, Худжанд, Эмомали Рахмон, банк, бензин, встреча, выставка, конкурс, мигранты, налоги, наркотики, праздник, президент Таджикистана, сотрудничество, спорт, суд, туризм, фестиваль, футбол, экономика

Показать все теги
Реклама Правообладателям Контактная информация Новое на сайте Статистика

© 2011-2017 «Независимое мнение». Таджикский агрегатор новостей. Все новости Таджикистана на одном сайте.
Любое использование материалов приветствуется при гиперссылке.

Экспорт новостей Наши новости в Twitter Мы ВКонтакте Страница на Facebook

Ключевые слова: новости Таджикистана, Таджикистан новости сегодня, Таджикистан новости 2012, последние новости Таджикистана, новости дня Таджикистана, новости, Таджикистан сегодня, независимое мнение, экономика Таджикистана, политика Таджикистана, общество Таджикистана, депутаты, журналисты, СМИ