Студентка НГУ создала приложение для распознавания, оцифровки и анализа классических тибетских текстов с применением машинного обучения -> Форум на Исходниках.Ру

	Наши проекты: Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту

Здравствуйте, Гость ! [216.73.217.4]

Внимательно прочитайте правила раздела

1. Запрещается публиковать материалы защищенные авторскими правами.
2. Запрещается публиковать новостные материалы без ссылки на источник

Модераторы: ANDLL, B.V.

Студентка НГУ создала приложение для распознавания, оцифровки и анализа классических тибетских текстов с применением машинного обучения

RSS_Bot

Сообщ. #1 , 17.07.25, 06:20

Full Member

Профиль · PM

Рейтинг (ф): 26

Студентка НГУ создала приложение для распознавания, оцифровки и анализа классических тибетских текстов с применением машинного обучения

Систему автоматического распознавания и транслитерации текстов на классическом тибетском языке, ориентированную...

Систему автоматического распознавания и транслитерации текстов на классическом тибетском языке, ориентированную на старопечатные документы, выполненные с использованием тибетского слогового письма, восходящего к древнеиндийскому письму брахми, создала работающая в ИВМиМГ СО РАН студентка направления «Фундаментальная и прикладная лингвистика» Гуманитарного института Новосибирского государственного университета Анна Мурашкина. В своем исследовании она использовала изображения страниц классических тибетских текстов XVIII-XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН. ОБ этом CNews сообщили представители НГУ.

«Актуальность моей работы обусловлена необходимостью сохранения и цифровой доступности тибетского культурного наследия, представленного в виде множества исторических рукописей. Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение. Однако со временем, под воздействием природных и антропогенных факторов, бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится до 70 тыс. единиц хроники, которые рискуют быть утерянными. Один из наиболее надежных способов сохранения и систематизации исторических документов — их оцифровка», — сказала Анна Мурашкина.

Молодая исследовательница поставила перед собой задачу — с применением машинного обучения построить модель, которая распознавала бы символы тибетского алфавита с изображений, переводила в машиночитаемый вид и при этом показывала бы большую точность, чем уже существующие открытые решения, в том числе Tesseract.

«Для этого я вручную выполнила лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Затем с учетом специфики тибетской графики разработала систему оценки качества оптического распознавания символов (OCR). Далее я провела сравнение существующих архитектур и выбрала модель сверточной нейросети, которая потребовала дообучения», — сказала Анна Мурашкина.

Дообучение модели она реализовала на размеченном корпусе документов, и в результате был создан полный модульный алгоритм OCR, включающий этапы предобработки, сегментации, распознавания и постобработки.

«Для меня ценность проекта заключается в том, что я помогла оцифровать архив, в котором хранится история – документы, созданные людьми прошлого, которые хотели передать свои знания будущим поколениям. Я рада, что помогаю перенести эти знания сквозь время, сохранить их и сделать доступными для более широкой аудитории. Мою разработку будут использовать сотрудники Института монголоведения, буддологии и тибетологии СО РАН. Также обсуждается возможность сотрудничества с Буддистским центром цифровых технологий, который проводит оцифровку архивов храмов и монастырей. В сотрудничестве с этой организацией мы расширим возможности оцифровки тибетских рукописей с помощью открытых ресурсов, разрабатываемых совместно с исследователями организаций разных стран, чтобы впоследствии каждый человек мог прикоснуться к этому бесценному наследию и ознакомиться с документами, которые находятся в храмах и хранилищах архивов», — сказала Анна Мурашкина.

Адрес новости:
https://corp.cnews.ru/news/line/2025-07-17_studentka_ngu_sozdala_prilozhenie

0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)

0 пользователей:

[ Script execution time: 0,0124 ] [ 15 queries used ] [ Generated: 19.07.25, 13:05 GMT ]