22 марта 2023 года в Доме Российского исторического общества состоялся круглый стол на тему «Цифровизация письменного наследия России: проблемы и перспективы».
В ходе мероприятия были подведены итоги реализации совместного проекта Сбера и РИО «Digital Пётр», нацеленного на распознавание рукописей Петра I, а также рассмотрены перспективы развития цифровизации на примере арабографичных книг и тибетских рукописей.
Дискуссию открыл заместитель Министра науки и высшего образования Российской Федерации, член Президиума Российского исторического общества Константин Могилевский, отметивший глубину проникновения искусственного интеллекта во все сферы общественной жизни, в том числе в работу с архивными документами:
«Мы с вами находимся сейчас даже не на пороге, а уже на первом этапе бытования нового технологического уклада, связанного с цифровизацией всех сфер нашей жизни. С появлением искусственного интеллекта в тех сферах, в которых ещё год назад сложно было бы представить, что он сможет помочь человеку и даже в чём-то заменить человеческий труд. Это очень серьёзные вещи, которые происходят быстро. Те, кто сейчас не поймёт этих процессов во всех отраслях человеческой деятельности, рискуют безнадёжно отстать. Это касается и работы с письменным наследием».
«Большинство коллег из нашей сферы считают, что оцифровка — это сканирование. Если мы выйдем за пределы историко-архивного сообщества по всей стране, во всём мире оцифровка — это совсем другая организация процесса, это внедрение искусственного интеллекта <…> Поэтому необходимо приходить к пониманию того, что такое оцифровка в современном архивном деле в части, прежде всего, использования документов. Полагаю, коллеги подумают о том, как и в других направлениях архивного дела — хранении, учёте — может быть использован искусственный интеллект»,
— добавил Константин Могилевский.
Его мысль продолжил ВРИО председателя Правления Российского исторического общества Руслан Гагкуев, подчеркнувший востребованность использования искусственного интеллекта в исторической науке:
«Я убеждён, что тема цифровизации письменного наследия России для подавляющего большинства историков — вопрос насущный и важный. Все мы постоянно в нашей каждодневной практике так или иначе работаем с письменными документами, источниками, рукописными текстами. Это всегда, с одной стороны, очень волнительно и ответственно, а с другой стороны, конечно, время, которое в ряде случаев нам приходится тратить на осмысление этих источников, на чтение тех почерков, которые относятся даже к ХХ веку, я не говорю про более ранние, очень значительно. Надеюсь, современные технологии и искусственный интеллект смогут в ближайшем будущем облегчить нашу работу и проводить исследования более быстро и качественно».
В свою очередь, директор Санкт-Петербургского Института истории Российской академии наук, член Правления Российского исторического общества Алексей Сиренов наметил перспективы дальнейшего развития проекта «Digital Пётр» и отметил необходимость объединения усилий историков в работе по оцифровке документов:
«Мы сейчас видим, что по одному и тому же пути идут коллеги из разных научных центров. Сегодня у нас будет возможность познакомиться с результатами этой работы и с её ходом. Тут должна быть и Республика Татарстана, и Республика Бурятия и то, что мы делали с петровскими рукописями. Очевидно, что здесь нам нужно действовать скоординированно. Это, мне кажется, проблема, которую сегодняшний наш разговор может поставить и отчасти решить. Это не значит, что мы должны в одном ключе действовать, так как материалы разные. Тем не менее, координация здесь нужна, так как в конечном счёте мы делаем одно общее дело».
Подводя итоги дискуссии, Руслан Гагкуев подчеркнул значимость обсуждения проблем и перспектив цифровизации письменного наследия.
«По итогам работы круглого стола будем исходить из необходимости продолжения нашей работы, выработки практических мер»,
— резюмировал он.
Оцифровка документов Архивного фонда Российской Федерации и других архивных документов, которая ведётся уже несколько лет, даёт исследователям и посетителям архивов несколько неоспоримых преимуществ — это и возможность легко получить доступ к интересующему документу, и обеспечение его сохранности, и возможность высвобождения архивных площадей.
Оцифровка является комплексным и трудоёмким процессом. Перед началом непосредственного сканирования документов специалисты проводят экспертизу, определяют структуру исследуемого архивного фонда, качественные и количественные характеристики документов, выбирают технологию и оборудование для сканирования. На следующем этапе производится создание графических образов документов с помощью сканеров, результатом которого являются электронные копии документов, которые затем каталогизируются и записываются на носители информации. Ключевая стадия оцифровки — распознавание текста документов, позволяющее при дальнейшей работе с архивными фондами легко находить и изучать интересующий источник. Наиболее эффективно расшифровывают документы программы, основанные на технологиях искусственного интеллекта.
Работа над оцифровкой документов Архивного фонда Российской Федерации и других архивных документов, включая размещённые в государственных архивах субъектов Российской Федерации и муниципальных архивах, в том числе с применением технологий искусственного интеллекта, ведётся Минцифры России совместно с Росархивом и Российской академией наук в рамках поручения Президента Российской Федерации по итогам совместного заседания Госсовета и Совета по науке и образованию (Пр-290, п. 8). Значительный вклад в этот процесс внесло и поручение Президента по итогам конференции по искусственному интеллекту в 2020 году (Пр-2242, п. 2), во исполнение которого в регионах России были разработаны и утверждены стратегии цифровой трансформации ключевых отраслей экономики, социальной сферы, государственного управления, предусматривающие внедрение конкурентоспособного отечественного программного обеспечения и программно-аппаратных комплексов, созданных в том числе на основе технологий искусственного интеллекта.
Одним из наиболее крупных проектов в области оцифровки архивных документов с применением искусственного интеллекта является «Digital Пётр» — разработанный в преддверии 350-летия со дня рождения Петра I Российским историческим обществом, фондом «История Отечества» и Сбером проект, который позволяет за несколько секунд получить в максимально удобном и понятном формате расшифровку рукописей Петра Первого. В течение многих лет изучение выдающейся личности первого российского императора сдерживалось медленными темпами публикации его рукописного наследия. Первый сборник из серии «Письма и бумаги Петра Великого» вышел из печати ещё в 1887 году, однако и сегодня эта работа по-прежнему далека от своего завершения. Одной из причин её огромной трудоёмкости является неразборчивый почерк императора.
Решить эту проблемы и призван «Digital Пётр». В ходе работы над проектом в Санкт-Петербургском институте истории РАН была сформирована рабочая группа, состоящая из научных сотрудников — специалистов по истории Петровской эпохи, а также палеографии и археографии. Источниковой базой стали рукописи из собраний Санкт-Петербургского института истории РАН и Российского государственного архива древних актов. Командой проекта был выбран подход, основанный на нейронных сетях и глубоком обучении, с помощью которого на основе девяти тысяч строк петровских текстов разных лет параметры нейронной сети были адаптированы под конкретную задачу распознавания почерка императора. Благодаря технологиям компьютерного зрения, обработки естественного языка и графы знаний разработчикам проекта удалось добиться качества расшифровки в 97 %, при этом время распознавания составляет 35 страниц в минуту, тогда как у историков на расшифровку каждой страницы столь сложного почерка уходит по несколько часов. Подобное технологическое решение открывает новые перспективы не только в исследовании текстов Петра I, но и в изучении других рукописных документов. В настоящее время сотни тысяч документов по истории России XVII–XVIII веков остаются неизданными в том числе потому, что их чтение доступно только специалистам. Машинное распознавание скорописи существенно упростило бы задачу публикации таких источников.
Другим значимым проектом в сфере оцифровки архивных документов, основанным на технологиях искусственного интеллекта, стал «Поиск по архивам», разработанный Яндексом. Изначально команда проекта занималась генеалогическими исследованиями, но, столкнувшись с необходимостью вручную отсматривать множество сканов рукописных документов, чтобы найти информацию о родственниках, разработчики приняли решение во взаимодействии с архивными работниками создать сервис, с помощью нейронной сети автоматически распознающий рукописные тексты от XVIII до начала XX века.
Основой проекта стала технология оптического распознания символов — OCR, работа над использованием которой уже велась в Яндексе. Использовав первоначальную обучающую выборку в 2000 документов, команда проекта обучила нейронную сеть распознавать строки, расшифровывать их и группировать в смысловые блоки. На данный момент программа расшифровала уже более 4 миллионов страниц документов, которые теперь можно легко найти в поиске и прочесть, не тратя время на разбор рукописного текста.
22 февраля 2023 года состоялся Круглый стол «Цифровизация письменного наследия России: проблемы и перспективы»
22 февраля 2023 года состоялся Круглый стол «Цифровизация письменного наследия России: проблемы и перспективы»
SHAL7258.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7258.jpg
SHAL7281.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7281.jpg
SHAL7290.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7290.jpg
SHAL7387.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7387.jpg
SHAL7397.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7397.jpg
SHAL7446.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7446.jpg
SHAL7505.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7505.jpg
SHAL7525.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7525.jpg
SHAL7549.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7549.jpg
SHAL7555.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7555.jpg
SHAL7586.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7586.jpg
SHAL7636.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7636.jpg
SHAL7663.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7663.jpg
SHAL7680.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7680.jpg
SHAL7698.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7698.jpg
SHAL7709.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7709.jpg
SHAL7714.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7714.jpg
SHAL7725.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7725.jpg
SHAL7745.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7745.jpg
SHAL7748.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7748.jpg
SHAL7750.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7750.jpg
SHAL7781.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7781.jpg
SHAL7825.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7825.jpg
SHAL7840.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7840.jpg
SHAL7851.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7851.jpg
SHAL7872.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7872.jpg
SHAL7901.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7901.jpg
SHAL7905.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7905.jpg
SHAL7911.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7911.jpg
SHAL7921.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7921.jpg
SHAL7925.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7925.jpg
SHAL7950.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL7950.jpg
SHAL8007.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8007.jpg
SHAL8019.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8019.jpg
SHAL8035.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8035.jpg
SHAL8048.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8048.jpg
SHAL8056.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8056.jpg
SHAL8062.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8062.jpg
SHAL8124.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8124.jpg
SHAL8156.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8156.jpg
SHAL8267.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8267.jpg
SHAL8273.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8273.jpg
SHAL8415.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8415.jpg
SHAL8430.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8430.jpg
SHAL8441.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8441.jpg
SHAL8540.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8540.jpg
SHAL8567.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8567.jpg
SHAL8630.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8630.jpg
SHAL8653.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8653.jpg
SHAL8688.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8688.jpg
SHAL8731.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8731.jpg
SHAL8753.jpg
https://historyrussia.org/images/22032023_Digitalization/SHAL8753.jpg
Текст: Михаил Дорофеев
Фото: Александр Шалгин
Это демонстрационная версия модуля
Скачать полную версию модуля можно на сайте Joomla School