Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів

Автор(и)

DOI:

https://doi.org/10.28925/2311-259x.2021.3.9

Ключові слова:

лексикографія, Архівна картотека, електронна система «Архівна картотека», машинне розпізнавання, Transkribus, лексикографічна толока (краудсорсинг)

Анотація

Предметом дослідження є машинне розпізнавання рукописних матеріалів Архівної картотеки (АК) — лексико-фразеологічних матеріалів словникової комісії Всеукраїнської Академії наук, зокрема картотеки «Російсько-українського словника» 1924–1933 рр. за редакцією А. Кримського та С. Єфремова. Вивчення АК має наукове значення в контексті культурно-національного відродження в Україні на початку ХХ ст., а також у розвитку української мови, теорії та практики україністики ХХ — початку ХХІ ст. Актуальність і цінність АК стали передумовою переведення її матеріалів у цифровий формат: 2018 р. в Інституті української мови НАН України створено комп’ютерну систему «Архівна картотека», що в онлайні удоступнює матеріали насамперед у вигляді сканованих зображень. Проблема, яка потребує нагального розв’язання, — це переведення рукописних текстів у машинописний формат. Складність ручного розпізнавання спонукає до вивчення й застосування можливостей ресурсу Transkribus, що передбачає застосування методу машинного навчання. Метою розвідки є з’ясування шляхом аналізу, систематизації, класифікування та опису матеріалу особливостей підготовки карток АК для машинного опрацювання текстів. Новизна дослідження полягає в тому, що вперше розглянуто питання забезпечення двигуна HTR навчальними даними АК (завантаження на платформу, сегментування зображень на рядки й текстові ділянки, транскрибування вмісту кожної сторінки).

Головним результатом є з’ясування змісту підготовчого етапу, завданнями якого було усунення огріхів автоматичного сегментування: нетекстових елементів, непосутніх текстових елементів, некоректного автоматичного визначення текстового регіону чи рядка. Окреслено перспективи лексикографічної толоки в процесі розпізнавання карток, для чого передбачено використати колективний доступ до колекції транскрибованих документів у Transkribus. До розпізнавання ж карток вручну можна долучитися в межах нового проєкту «Усеукраїнська толока: Архівна картотека» — онлайнової платформи на сайті «АК».

Завантаження

Біографія автора

Оксана Тищенко, Інститут української мови НАН України

Кандидат філологічних наук, старший науковий співробітник відділу лексикології, лексикографії та структурно-математичної лінгвістики

Посилання

Arkhivna kartoteka [Archival Card Index] (2018–2021). https://ak.iul-nasu.org.ua

Danli, R. (2018). Mashiny chitayut arkhivnye dokumenty: programmnoe obespechenie dlya raspoznavaniya rukopisnogo teksta [The machines read archival documents: handwriting recognition software]. Blog Natsionalnykh Arkhivov Velikobritanii. http://blog.nationalarchives.gov.uk/blog/machines-reading-the-archivehandwritten-text-recognition-software/ Tsyt. za perekladom https://tsdea.archives.gov.ua/wp-content/uploads/2018/03/26032018_st.pdf

Krymskyi, A., Yefremov, S. (Ed.). (1924–1933). Rosiisko ukrainskyi slovnyk [Russian-Ukrainian Dictionary]. Vol. I–III.

Pozdran, Yu. (2018). Rosiisko-ukrainskyi slovnyk za redaktsiieiu A.Yu.Krymskoho ta S.O.Yefremova v istoryko-linhvistychnomu konteksti [“Russian-Ukrainian Dictionary” edited by A. Yu. Krymsky and S. O. Yefremov in the historical-linguistic context].

Rosiisko-ukrainski slovnykу [Russian-Ukrainian Dictionaries] (2021). https://r2u.org.ua

Transkribus (2021) https://readcoop.eu/transkribus/

Tyshchenko, O. (2016). Arkhivna kartoteka yak leksyko-iliustratyvna baza “Rosiisko-ukrainskoho slovnyka” za red. A. Yu. Krymskoho ta S. O. Yefremova. I. Leksychna kartoteka: istoriia stvorennia ta represii; II. Mikro- ta makrostruktura arkhivnoi kartoteky [The archival card index as the lexical and illustrative base of “Russian-Ukrainian dictionary” ed. A. Krymsky and S. Yefremov. I. Lexical card index: history of creation and repression; II. Micro- and macrostructure of archival lexical card index]. Ukrainska mova,2, 44–71; 3, 57–78.

Tyshchenko, O. (2020). Arkhivna kartoteka ukrainskoi movy v tsyfrovomu formati: vid pamiatky movy do suchasnoho leksykohrafichnoho instrumentariiu [Archival card index of the Ukrainian language in digital format: from a language monument to modern lexicographic tools]. Rocznik Slawistyczny, LXIX, 185–197.

Useukrainska toloka: Arkhivna kartoteka [All-Ukrainian Toloka: Archival Card Index] (2020) http://work.iul-nasu.org.ua

Downloads


Переглядів анотації: 282

Опубліковано

31.10.2021

Як цитувати

Тищенко, О. (2021). Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів. Синопсис: текст, контекст, медіа, 27(3), 184–190. https://doi.org/10.28925/2311-259x.2021.3.9

Номер

Розділ

Сучасні системи обробки мовних і текстових даних