29.03 06:10
Привет, гость
 

Таджикский язык в сети Интернет

07.10.2011, 20:08
Всего полвека назад люди не могли даже представить себе, какого взлёта достигнет технический прогресс. А сейчас уже никого не удивляет всемирная автоматизация, проникая во все сферы жизни. Необъемлемой частью деятельности человека стал компьютер.

Компьютеризацией теперь охвачено всё – управление технологией, транспортом, энергетическими и другими производственными процессами, планирование, учёт и обработка статистических данных, организационно-административное управление, проведение научных исследований, обучение, диагностирование, точные оценки и своевременность экономических рисков при изменениях в рыночной конъюнктуре и т.д.

Применение компьютерных и информационных технологий в социальной действительности весьма многообразно. Их используют в киноиндустрии и на телевидении, их возможности оценивают художники, музыканты, продюсеры и менеджеры шоу-бизнеса, специалисты в области рекламы, журналисты, преподаватели, врачи.

Для того, чтобы стать участником всеобщей компьютеризации, Таджикистан должен был пройти целый ряд сложнейших этапов этого дела. Прежде всего, надо было «обучить» компьютер государственному таджикскому языку, а затем и переводу текстов с этого языка на другие языки. Возникла проблема информатизации таджикского языка. Сегодня можно сказать, что эта проблема успешно решается усилиями учёных и специалистов научной школы компьютерной лингвистики, созданной при Институте математики Академии наук Таджикистана академиком Зафаром Джураевичем Усмановым.

Создание клавиатуры с таджикским алфавитом – прорыв в науке

Сегодня, академик З. Усманов рассказывает в интервью журналисту о работах, проведённых в 2001-2010 годах.

- Всё, что мы сделали, - говорит учёный, - можно назвать целым комплексом исследований и разработок, что называется от «а» до «я».

Первое, чем нам пришлось заняться, - это стандарт и раскладка на компьютерной клавиатуре символов таджикского алфавита. Понимание важности этого вопроса до сих пор отсутствует не только среди простых пользователей персональных компьютеров, но даже и среди профессиональных программистов. Насколько возможно проще изложу суть дела.

До недавнего времени пишущие машинки с таджикскими буквами являлись единственным средством для печатания документов на таджикском языке. Таких машинок было совсем немного, и в некоторых учреждениях, особо нуждавшихся в них, они создавались усилиями отдельных умельцев, по их собственным техническим решениям для реконструкции уже имевшихся машинок с русским шрифтом. Реконструкция затрагивала шрифтовой набор, который дополнялся металлическими брусочками с изображениями специфических таджикских букв, и клавиатур, специальные клавиши, которые конструктивно привязывались к дополнительным литерам. Объективной необходимости в стандартизации печатной продукции, производимой такими машинками, не возникало, и потому данный вопрос не привлекал к себе особого внимания.

Появление в 1988 году в Таджикистане персональных компьютеров серии РС АТ предоставило возможность организациям и учреждениям республики перейти на принципиально новую технологию подготовки печатных текстов на таджикском языке. В 1989 году впервые в нашей республике это было сделано в Институте математики АН РТ, для компьютеров серии РС-286. На языке Chi-Writer, предоставлявшем удобные средства для компиляции графических символов, был создан программный продукт, позволивший набирать тексты на таджикском языке и, при необходимости, распечатывать их на принтере. В последующие годы проведение подобных работ приобрело массовый характер. Почти всюду, где появлялись персональные компьютеры и программисты, считалось престижным делом создание собственных драйверов таджикской графики.

В итоге в Таджикистане появилось большое количество программных продуктов, выполняющих различными способами одну и ту же функцию – подготовку печатных текстов на таджикском языке. Таким образом, разнобой, который наблюдался в среде пишущих машинок с таджикским шрифтом, вновь повторился уже среди персональных компьютеров, однако в значительно больших масштабах. И решение проблемы стандартизации печатной продукции по отношению к персональным компьютерам оказалось не только нужным, но также и исключительно важным государственным делом.

Причина в следующем. Одно из многочисленных достоинств персонального компьютера состоит в способности направлять по каналам связи собственную информацию на другой компьютер, а также работать с «чужой» информацией при условии, что доступ к ней разрешён. Теперь представим себе, что одно учреждение адресует другому по электронной почте, своё сообщение, набранное на таджикском языке. Спрашивается, сумеет ли получатель прочитать его? Да, сумеет, если обе стороны пользуются одной и той же программой подготовки текстов на таджикском языке, и, конечно же, нет – в противном случае.

Необходимость стандарта таджикской компьютерной графики

Сетевая технология обработки информации уже давно утвердилась во многих странах, превратившись в неотъемлемый атрибут современной цивилизации. В ближайшие годы и в Таджикистане она станет нормой общественной жизни. И тогда даже несведущему человеку в сфере компьютерных технологий станет очевидной необходимость повсеместного использования унифицированной таджикской компьютерной графики.

При Министерстве связи РТ Постановлением Правительства РТ была создана Межведомственная рабочая группа, которая разработала проект стандарта таджикской компьютерной графики. Этот проект был утверждён Постановлением Правительства 2 августа 2004 года для использования на территории республики.

Стандарт был принят фирмой Microsoft для включения в последующие версии операционных систем Windows. З.Д.Усмановым совместно со своим аспирантом О.Солиевым была разработана компьютерная программа, позволяющая пользователем INTERNET в диалоговом режиме разворачивать на своих компьютерах разработанный ими драйвер автоматической установки стандарта таджикской компьютерной графики.

Следующим направлением общей работы явилось создание определённой системы, а именно эргономичной раскладки таджикских букв на компьютерной клавиатуре. Исследования по этому направлению основывались на математической формализации проблемы раскладки символов и возможностях её решения математическими методами.

С учётом роли отдельных клавиш была разработана математическая модель, с помощью которой решалась задача оптимального расположения букв на компьютерной клавиатуре. При этом учитывалось важное условие размещения «редко» встречающихся букв на «трудоёмких» клавишах, а часто встречающихся – на «легко доступных» клавишах.

Математическая модель и выводимые из неё результаты подсказывают, в какой последовательности теоретические исследования необходимо приспосабливать к проектированию тех или иных клавиатур на практике.

Однако, ввиду неопределённости значений базовых показателей не может быть и речи о реализации на практике такой клавиатуры, которая в равной мере была бы оптимальной для всех без исключения пользователей.

В этой связи предложены различные варианты проектирования клавиатур, в зависимости от характера и объёма обрабатываемого текстового файла.

Нами разработан компьютерный синтезатор таджикской речи

Отлично знающий русский язык Зафар Джураевич, усмехнувшись, заметил – есть русская поговорка «Чем дальше в лес, тем больше дров». Вот и у нас работа над проблемой порождала всё новые задачи. В частности, возникла необходимость создать компьютерный синтезатор таджикской речи по тексту. Он был построен по принципу, в котором в качестве речевой единицы выбран слог, что, в свою очередь, указывало на необходимость наиболее полного описания многообразия слогов таджикского языка. Решение этой проблемы основывалось на статистическом исследовании случайной выборки из таджикских текстов объёмом в 3800 страниц, содержавшей 1724 472 слов. Главный результат, полученный здесь, - исчерпывающее на сегодняшний день описание многообразия из 3259 различных таджикских слогов.

Следующий этап – формирование базы слог-звук. Она составляется из 2?3259 таджикских слогов, озвученных двумя профессиональными дикторами – мужчиной и женщиной и сохранёнными в формате WAV.

Наконец последний этап – разработка алгоритмического и программного обеспечения программного комплекса Tajik Text-to-Speech, реализующего синтез таджикской речи путем соединения озвученных слов.

Тестирование программного комплекса посредством вычислительных экспериментов с разнообразной текстовой информацией показали, что среди массива слов, предъявленных компьютеру для озвучивания, отказ, составивший менее 1,5%, пришёлся в основном на тексты из INTERNET и газетные статьи, в которых особенно заметно использование слов иностранного происхождения с непривычной для таджикского языка слоговой структурой. В иных случаях, как правило, осуществлялся звуковой синтез таджикских слов удовлетворительного качества.

Вычислительные эксперименты также имели целью подобрать такие характеристики звучания таджикских ударных слогов, которые по возможности, наилучшим образом способствовали восприятию генерируемой компьютером синтетической речи.

Перевод таджикских текстов на персидскую графику

К числу актуальных задач было отнесено нами и компьютерное преобразование кириллических таджикских текстов в тексты на персидской графике. Решение проблемы основано на членении словоформ таджикского текста на цепочки символов, имеющих однозначное отображение на множество цепочек персидских символов. В качестве решающего алгоритма для такого членения разработан автоматический вероятностный морфологический анализатор. Исключения, возникающие в результате вероятностного морфоанализа, учитываются в отдельном информационном хранилище. Теоретические исследования реализованы на практике в виде проблемно-ориентированного программного комплекса таджикско-персидской конверсии графических систем письма.

Мы также уделили серьёзное внимание автоматическому морфранализу и автоматической проверке орфографии таджикских слов. В серии исследований путём применения комбинаторно-статистических методов и итерационных (повторяющихся) процедур для статистической обработки тестовой информации объёмом в 6300 страниц сформирована наиболее усовершенствованная версия компьютерного морфоанализатора (однокоренных таджикских слов), морфемный словарь, которого включает 68 префиксов, 30 992 корней и 2 893 постфиксов. Этот морфоанализатор использован для нахождения статистического распределения частот встречаемости морфов в упомянутой ранее текстовой информации.

Наличие морфемной базы позволило реализовать компьютерную систему автоматической проверки таджикской орфографии в среде Open Office 2.2. Задача на ближайшее время – компьютерную проверку орфографии реализовать в операционной системе Windows.

SMS на таджикском языке в скором будущем!

Проблема информатизации таджикского языка, отметил академик З. Усманов, не ограничилась только работой с компьютерной техникой. Ведь надо решить и судьбу мобильных телефонов. В настоящее время мобильных телефонов с таджикской клавиатурой не существует, однако нельзя исключать того, что потребность в них появится в самом ближайшем будущем. И тогда, следуя тенденциям современной цивилизации, они станут использоваться не только для разговоров, но также и для передачи коротких сообщений (SMS). Поэтому возникает необходимость определиться с раскладкой 35 таджикских букв, проектируя её таким образом, чтобы предоставить пользователям возможно больше удобства при наборе текстов на клавиатуре мобильного телефона. С этой целью надо будет сохранить алфавитный порядок расположения букв. Затем осуществить, по возможности, равномерную раскладку букв по клавишам (тогда при раскладке на 8 клавишах – на трёх из них разместятся по 5 букв, а на пяти других – по 4 буквы: для случая 9 клавишей – на восьми из них могут размещаться по 4 буквы, а ещё на одной – 3 буквы).

Накладываемые ограничения не являются слишком жесткими в том смысле, что оставляют проектировщикам определённый выбор для обеспечения пользователей дополнительными удобствами.

Полагая, что однократное нажатие любых клавишей (независимо от их положения на клавиатуре мобильного телефона) требует равных трудозатрат, мы может определить работу, затрачиваемую на набор конкретного текста, через общее число нажатий на клавиши. Этот показатель и был принят во внимание в качестве целевой функции для решения задачи об оптимальном размещении букв на клавиатуре мобильного телефона.

Таким образом, на основе минимизации математического ожидания работы, затрачиваемой на печатание коротких сообщений, спроектированы эргономичные раскладки букв английского, русского и таджикского алфавитов на клавиатуре мобильного телефона.

Математика и шахматы – ключ к решению компьютерных проблем

Готовя это интервью к печати, автор постоянно возвращался к мысли о том, что академик З.Д. Усманов не только математик, имя которого известно далеко за пределами Таджикистана, но он ещё и шахматист. Выступая в молодости за сборную школьников Таджикистана, он встречался за шахматной доской с такими выдающимися мастерами, будущими чемпионами мира Михаилом Талем и Борисом Спасским. В числе первых специалистов тестировал знаменитую советскую компьютерную программу “Каисса”, которая первой завоевала звание чемпиона мира по шахматам среди компьютерных программ.

И мне всё время казалось, что решение компьютерных проблем «пожалуй» ничуть не легче решения головоломных шахматных задач.

Материалы по теме
Уважаемый посетитель, Вы зашли на сайт как незарегистрированный пользователь.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
Таджикский язык в сети Интернет

Таджикский язык в сети Интернет
29.03.2024


Март 2024 (1)
Февраль 2024 (26)
Январь 2024 (13)
Декабрь 2023 (24)
Ноябрь 2023 (3)
Октябрь 2023 (67)
ГБАО, ДТП, Душанбе, Исфара, Культура, Куляб, МВД, МВД Таджикистана, Мегафон, Навруз, ПИВТ, Президент, Рахмон, Рогун, Россия, США, Согд, Таджикистан, Узбекистан, Хорог, Худжанд, Эмомали Рахмон, банк, бензин, бизнес, встреча, выставка, конкурс, мигранты, налоги, наркотики, праздник, президент Таджикистана, сотрудничество, спорт, суд, туризм, фестиваль, футбол, экономика

Показать все теги


© 2011-2023 «Независимое мнение». Таджикский агрегатор новостей. Все новости Таджикистана на одном сайте.
Любое использование материалов приветствуется при гиперссылке.

Экспорт новостей Наши новости в Twitter Мы ВКонтакте Страница на Facebook

Ключевые слова: новости Таджикистана, Таджикистан новости сегодня, Таджикистан новости 2012, последние новости Таджикистана, новости дня Таджикистана, новости, Таджикистан сегодня, независимое мнение, экономика Таджикистана, политика Таджикистана, общество Таджикистана, депутаты, журналисты, СМИ