Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів

Автор(и)

DOI:

https://doi.org/10.28925/2311-259x.2021.3.9

Ключові слова:

лексикографія, Архівна картотека, електронна система «Архівна картотека», машинне розпізнавання, Transkribus, лексикографічна толока (краудсорсинг)

Анотація

Предметом дослідження є машинне розпізнавання рукописних матеріалів Архівної картотеки (АК) — лексико-фразеологічних матеріалів словникової комісії Всеукраїнської Академії наук, зокрема картотеки «Російсько-українського словника» 1924–1933 рр. за редакцією А. Кримського та С. Єфремова. Вивчення АК має наукове значення в контексті культурно-національного відродження в Україні на початку ХХ ст., а також у розвитку української мови, теорії та практики україністики ХХ — початку ХХІ ст. Актуальність і цінність АК стали передумовою переведення її матеріалів у цифровий формат: 2018 р. в Інституті української мови НАН України створено комп’ютерну систему «Архівна картотека», що в онлайні удоступнює матеріали насамперед у вигляді сканованих зображень. Проблема, яка потребує нагального розв’язання, — це переведення рукописних текстів у машинописний формат. Складність ручного розпізнавання спонукає до вивчення й застосування можливостей ресурсу Transkribus, що передбачає застосування методу машинного навчання. Метою розвідки є з’ясування шляхом аналізу, систематизації, класифікування та опису матеріалу особливостей підготовки карток АК для машинного опрацювання текстів. Новизна дослідження полягає в тому, що вперше розглянуто питання забезпечення двигуна HTR навчальними даними АК (завантаження на платформу, сегментування зображень на рядки й текстові ділянки, транскрибування вмісту кожної сторінки).

Головним результатом є з’ясування змісту підготовчого етапу, завданнями якого було усунення огріхів автоматичного сегментування: нетекстових елементів, непосутніх текстових елементів, некоректного автоматичного визначення текстового регіону чи рядка. Окреслено перспективи лексикографічної толоки в процесі розпізнавання карток, для чого передбачено використати колективний доступ до колекції транскрибованих документів у Transkribus. До розпізнавання ж карток вручну можна долучитися в межах нового проєкту «Усеукраїнська толока: Архівна картотека» — онлайнової платформи на сайті «АК».

Завантаження

Дані завантаження ще не доступні.

Біографія автора

Оксана Тищенко, Інститут української мови НАН України

Кандидат філологічних наук, старший науковий співробітник відділу лексикології, лексикографії та структурно-математичної лінгвістики

Посилання

Arkhivna kartoteka [Archival Card Index] (2018–2021). https://ak.iul-nasu.org.ua

Danli, R. (2018). Mashiny chitayut arkhivnye dokumenty: programmnoe obespechenie dlya raspoznavaniya rukopisnogo teksta [The machines read archival documents: handwriting recognition software]. Blog Natsionalnykh Arkhivov Velikobritanii. http://blog.nationalarchives.gov.uk/blog/machines-reading-the-archivehandwritten-text-recognition-software/ Tsyt. za perekladom https://tsdea.archives.gov.ua/wp-content/uploads/2018/03/26032018_st.pdf

Krymskyi, A., Yefremov, S. (Ed.). (1924–1933). Rosiisko ukrainskyi slovnyk [Russian-Ukrainian Dictionary]. Vol. I–III.

Pozdran, Yu. (2018). Rosiisko-ukrainskyi slovnyk za redaktsiieiu A.Yu.Krymskoho ta S.O.Yefremova v istoryko-linhvistychnomu konteksti [“Russian-Ukrainian Dictionary” edited by A. Yu. Krymsky and S. O. Yefremov in the historical-linguistic context].

Rosiisko-ukrainski slovnykу [Russian-Ukrainian Dictionaries] (2021). https://r2u.org.ua

Transkribus (2021) https://readcoop.eu/transkribus/

Tyshchenko, O. (2016). Arkhivna kartoteka yak leksyko-iliustratyvna baza “Rosiisko-ukrainskoho slovnyka” za red. A. Yu. Krymskoho ta S. O. Yefremova. I. Leksychna kartoteka: istoriia stvorennia ta represii; II. Mikro- ta makrostruktura arkhivnoi kartoteky [The archival card index as the lexical and illustrative base of “Russian-Ukrainian dictionary” ed. A. Krymsky and S. Yefremov. I. Lexical card index: history of creation and repression; II. Micro- and macrostructure of archival lexical card index]. Ukrainska mova,2, 44–71; 3, 57–78.

Tyshchenko, O. (2020). Arkhivna kartoteka ukrainskoi movy v tsyfrovomu formati: vid pamiatky movy do suchasnoho leksykohrafichnoho instrumentariiu [Archival card index of the Ukrainian language in digital format: from a language monument to modern lexicographic tools]. Rocznik Slawistyczny, LXIX, 185–197.

Useukrainska toloka: Arkhivna kartoteka [All-Ukrainian Toloka: Archival Card Index] (2020) http://work.iul-nasu.org.ua

Downloads


Переглядів анотації: 212

Опубліковано

31.10.2021

Як цитувати

Тищенко, О. (2021). Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів. Синопсис: текст, контекст, медіа, 27(3), 184–190. https://doi.org/10.28925/2311-259x.2021.3.9

Номер

Розділ

Сучасні системи обробки мовних і текстових даних