На главную Наши проекты:
Журнал   ·   Discuz!ML   ·   Wiki   ·   DRKB   ·   Помощь проекту
ПРАВИЛА FAQ Помощь Участники Календарь Избранное RSS
msm.ru
! Внимательно прочитайте правила раздела
1. Запрещается публиковать материалы защищенные авторскими правами.
2. Запрещается публиковать новостные материалы без ссылки на источник
Модераторы: ANDLL, B.V.
  
    > Студентка НГУ создала приложение для распознавания, оцифровки и анализа классических тибетских текстов с применением машинного обучения
      Студентка НГУ создала приложение для распознавания, оцифровки и анализа классических тибетских текстов с применением машинного обучения

      Систему автоматического распознавания и транслитерации текстов на классическом тибетском языке, ориентированную...

      Систему автоматического распознавания и транслитерации текстов на классическом тибетском языке, ориентированную на старопечатные документы, выполненные с использованием тибетского слогового письма, восходящего к древнеиндийскому письму брахми, создала работающая в ИВМиМГ СО РАН студентка направления «Фундаментальная и прикладная лингвистика» Гуманитарного института Новосибирского государственного университета Анна Мурашкина. В своем исследовании она использовала изображения страниц классических тибетских текстов XVIII-XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАН. ОБ этом CNews сообщили представители НГУ.

      «Актуальность моей работы обусловлена необходимостью сохранения и цифровой доступности тибетского культурного наследия, представленного в виде множества исторических рукописей. Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение. Однако со временем, под воздействием природных и антропогенных факторов, бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится до 70 тыс. единиц хроники, которые рискуют быть утерянными. Один из наиболее надежных способов сохранения и систематизации исторических документов — их оцифровка», — сказала Анна Мурашкина.

      Молодая исследовательница поставила перед собой задачу — с применением машинного обучения построить модель, которая распознавала бы символы тибетского алфавита с изображений, переводила в машиночитаемый вид и при этом показывала бы большую точность, чем уже существующие открытые решения, в том числе Tesseract.

      «Для этого я вручную выполнила лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Затем с учетом специфики тибетской графики разработала систему оценки качества оптического распознавания символов (OCR). Далее я провела сравнение существующих архитектур и выбрала модель сверточной нейросети, которая потребовала дообучения», — сказала Анна Мурашкина.

      Дообучение модели она реализовала на размеченном корпусе документов, и в результате был создан полный модульный алгоритм OCR, включающий этапы предобработки, сегментации, распознавания и постобработки.

      «Для меня ценность проекта заключается в том, что я помогла оцифровать архив, в котором хранится история – документы, созданные людьми прошлого, которые хотели передать свои знания будущим поколениям. Я рада, что помогаю перенести эти знания сквозь время, сохранить их и сделать доступными для более широкой аудитории. Мою разработку будут использовать сотрудники Института монголоведения, буддологии и тибетологии СО РАН. Также обсуждается возможность сотрудничества с Буддистским центром цифровых технологий, который проводит оцифровку архивов храмов и монастырей. В сотрудничестве с этой организацией мы расширим возможности оцифровки тибетских рукописей с помощью открытых ресурсов, разрабатываемых совместно с исследователями организаций разных стран, чтобы впоследствии каждый человек мог прикоснуться к этому бесценному наследию и ознакомиться с документами, которые находятся в храмах и хранилищах архивов», — сказала Анна Мурашкина.

      Адрес новости:
      https://corp.cnews.ru/news/line/2025-07-17_studentka_ngu_sozdala_prilozhenie

      0 пользователей читают эту тему (0 гостей и 0 скрытых пользователей)
      0 пользователей:


      Рейтинг@Mail.ru
      [ Script execution time: 0,0124 ]   [ 15 queries used ]   [ Generated: 19.07.25, 13:05 GMT ]