
![]() |
Наши проекты:
Журнал · Discuz!ML · Wiki · DRKB · Помощь проекту |
|
ПРАВИЛА | FAQ | Помощь | Поиск | Участники | Календарь | Избранное | RSS |
[216.73.217.4] |
![]() |
|
Сообщ.
#1
,
|
|
|
Студентка НГУ создала приложение для распознавания, оцифровки и анализа классических тибетских текстов с применением машинного обучения
Систему автоматического распознавания и транслитерации текстов на классическом тибетском языке, ориентированную... Систему автоматического распознавания и транслитерации текстов на классическом тибетском языке, ориентированную на старопечатные документы, выполненные с использованием тибетского слогового письма, восходящего к древнеиндийскому письму брахми, создала работающая в ИВМиМГ СО РАН студентка направления «Фундаментальная и прикладная лингвистика» Гуманитарного института Новосибирского государственного университета Анна Мурашкина. В своем исследовании она использовала изображения страниц классических тибетских текстов XVIII-XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН. ОБ этом CNews сообщили представители НГУ. «Актуальность моей работы обусловлена необходимостью сохранения и цифровой доступности тибетского культурного наследия, представленного в виде множества исторических рукописей. Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение. Однако со временем, под воздействием природных и антропогенных факторов, бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится до 70 тыс. единиц хроники, которые рискуют быть утерянными. Один из наиболее надежных способов сохранения и систематизации исторических документов — их оцифровка», — сказала Анна Мурашкина. Молодая исследовательница поставила перед собой задачу — с применением машинного обучения построить модель, которая распознавала бы символы тибетского алфавита с изображений, переводила в машиночитаемый вид и при этом показывала бы большую точность, чем уже существующие открытые решения, в том числе Tesseract. «Для этого я вручную выполнила лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Затем с учетом специфики тибетской графики разработала систему оценки качества оптического распознавания символов (OCR). Далее я провела сравнение существующих архитектур и выбрала модель сверточной нейросети, которая потребовала дообучения», — сказала Анна Мурашкина. Дообучение модели она реализовала на размеченном корпусе документов, и в результате был создан полный модульный алгоритм OCR, включающий этапы предобработки, сегментации, распознавания и постобработки. «Для меня ценность проекта заключается в том, что я помогла оцифровать архив, в котором хранится история – документы, созданные людьми прошлого, которые хотели передать свои знания будущим поколениям. Я рада, что помогаю перенести эти знания сквозь время, сохранить их и сделать доступными для более широкой аудитории. Мою разработку будут использовать сотрудники Института монголоведения, буддологии и тибетологии СО РАН. Также обсуждается возможность сотрудничества с Буддистским центром цифровых технологий, который проводит оцифровку архивов храмов и монастырей. В сотрудничестве с этой организацией мы расширим возможности оцифровки тибетских рукописей с помощью открытых ресурсов, разрабатываемых совместно с исследователями организаций разных стран, чтобы впоследствии каждый человек мог прикоснуться к этому бесценному наследию и ознакомиться с документами, которые находятся в храмах и хранилищах архивов», — сказала Анна Мурашкина. Адрес новости: https://corp.cnews.ru/news/line/2025-07-17_studentka_ngu_sozdala_prilozhenie |