«Яндекс» сообщил о технологии распознавания и сервисе поиска текстов рукописей XVIII — начала XX веков

  

Компания «Яндекс» научила нейросети расшифровывать архивные записи со сложной дореволюционной орфографией, попробовать технологию в действии можно в сервисе «Поиск по архивам», говорится в официальном сообщении. Архив содержит более чем 2,5 миллиона...

Янв 25, 2023
«Яндекс» сообщил о технологии распознавания и сервисе поиска текстов рукописей XVIII — начала XX веков

Компания «Яндекс» научила нейросети расшифровывать архивные записи со сложной дореволюционной орфографией, попробовать технологию в действии можно в сервисе «Поиск по архивам», говорится в официальном сообщении.

Архив содержит более чем 2,5 миллиона распознанных (из изображения в текст) страниц исторических документов. Первым представленным в сервисе фондом стал Главархив Москвы, на материалах которого разработчики обучали нейросеть. Теперь база пополнилась документами из архивов Оренбургской и Новгородской областей.

«Новый алгоритм… учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов», – сказано в сообщении.

Искать можно по материалам XVIII — начала XX веков, которые, как сообщает компания, востребованы больше всего. Это метрические книги, исповедные ведомости и ревизские сказки с результатами переписи населения. Документы можно найти по каталогу или через строку поиска. Есть фильтры по годам, архивам, фондам и описям.