Архівна картотека vs. Transkribus: машинне розпізнавання рукописних матеріалів
DOI:
https://doi.org/10.28925/2311-259x.2021.3.9Ключові слова:
лексикографія, Архівна картотека, електронна система «Архівна картотека», машинне розпізнавання, Transkribus, лексикографічна толока (краудсорсинг)Анотація
Предметом дослідження є машинне розпізнавання рукописних матеріалів Архівної картотеки (АК) — лексико-фразеологічних матеріалів словникової комісії Всеукраїнської Академії наук, зокрема картотеки «Російсько-українського словника» 1924–1933 рр. за редакцією А. Кримського та С. Єфремова. Вивчення АК має наукове значення в контексті культурно-національного відродження в Україні на початку ХХ ст., а також у розвитку української мови, теорії та практики україністики ХХ — початку ХХІ ст. Актуальність і цінність АК стали передумовою переведення її матеріалів у цифровий формат: 2018 р. в Інституті української мови НАН України створено комп’ютерну систему «Архівна картотека», що в онлайні удоступнює матеріали насамперед у вигляді сканованих зображень. Проблема, яка потребує нагального розв’язання, — це переведення рукописних текстів у машинописний формат. Складність ручного розпізнавання спонукає до вивчення й застосування можливостей ресурсу Transkribus, що передбачає застосування методу машинного навчання. Метою розвідки є з’ясування шляхом аналізу, систематизації, класифікування та опису матеріалу особливостей підготовки карток АК для машинного опрацювання текстів. Новизна дослідження полягає в тому, що вперше розглянуто питання забезпечення двигуна HTR навчальними даними АК (завантаження на платформу, сегментування зображень на рядки й текстові ділянки, транскрибування вмісту кожної сторінки).
Головним результатом є з’ясування змісту підготовчого етапу, завданнями якого було усунення огріхів автоматичного сегментування: нетекстових елементів, непосутніх текстових елементів, некоректного автоматичного визначення текстового регіону чи рядка. Окреслено перспективи лексикографічної толоки в процесі розпізнавання карток, для чого передбачено використати колективний доступ до колекції транскрибованих документів у Transkribus. До розпізнавання ж карток вручну можна долучитися в межах нового проєкту «Усеукраїнська толока: Архівна картотека» — онлайнової платформи на сайті «АК».
Завантаження
Посилання
Arkhivna kartoteka [Archival Card Index] (2018–2021). https://ak.iul-nasu.org.ua
Danli, R. (2018). Mashiny chitayut arkhivnye dokumenty: programmnoe obespechenie dlya raspoznavaniya rukopisnogo teksta [The machines read archival documents: handwriting recognition software]. Blog Natsionalnykh Arkhivov Velikobritanii. http://blog.nationalarchives.gov.uk/blog/machines-reading-the-archivehandwritten-text-recognition-software/ Tsyt. za perekladom https://tsdea.archives.gov.ua/wp-content/uploads/2018/03/26032018_st.pdf
Krymskyi, A., Yefremov, S. (Ed.). (1924–1933). Rosiisko ukrainskyi slovnyk [Russian-Ukrainian Dictionary]. Vol. I–III.
Pozdran, Yu. (2018). “Rosiisko-ukrainskyi slovnyk” za redaktsiieiu A.Yu.Krymskoho ta S.O.Yefremova v istoryko-linhvistychnomu konteksti [“Russian-Ukrainian Dictionary” edited by A. Yu. Krymsky and S. O. Yefremov in the historical-linguistic context].
Rosiisko-ukrainski slovnykу [Russian-Ukrainian Dictionaries] (2021). https://r2u.org.ua
Transkribus (2021) https://readcoop.eu/transkribus/
Tyshchenko, O. (2016). Arkhivna kartoteka yak leksyko-iliustratyvna baza “Rosiisko-ukrainskoho slovnyka” za red. A. Yu. Krymskoho ta S. O. Yefremova. I. Leksychna kartoteka: istoriia stvorennia ta represii; II. Mikro- ta makrostruktura arkhivnoi kartoteky [The archival card index as the lexical and illustrative base of “Russian-Ukrainian dictionary” ed. A. Krymsky and S. Yefremov. I. Lexical card index: history of creation and repression; II. Micro- and macrostructure of archival lexical card index]. Ukrainska mova,2, 44–71; 3, 57–78.
Tyshchenko, O. (2020). Arkhivna kartoteka ukrainskoi movy v tsyfrovomu formati: vid pamiatky movy do suchasnoho leksykohrafichnoho instrumentariiu [Archival card index of the Ukrainian language in digital format: from a language monument to modern lexicographic tools]. Rocznik Slawistyczny, LXIX, 185–197.
Useukrainska toloka: Arkhivna kartoteka [All-Ukrainian Toloka: Archival Card Index] (2020) http://work.iul-nasu.org.ua
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2021 Оксана Тищенко
Ця робота ліцензується відповідно до Creative Commons Attribution 4.0 International License.
Автори, які публікуються у цьому журналі, погоджуються з такими умовами:
- Автори залишають за собою право на авторство своєї роботи та передають журналу право першої публікації цієї роботи на умовах ліцензії Creative Commons Attribution License, котра дозволяє іншим особам вільно розповсюджувати опубліковану роботу з обов'язковим посиланням на авторів оригінальної роботи та першу публікацію роботи у цьому журналі.
- Автори мають право укладати самостійні додаткові угоди щодо неексклюзивного розповсюдження роботи у тому вигляді, в якому вона була опублікована цим журналом (наприклад, розміщувати роботу в електронному сховищі установи або публікувати у складі монографії), за умови збереження посилання на першу публікацію роботи у цьому журналі.
- Політика журналу дозволяє і заохочує розміщення авторами в мережі Інтернет (наприклад, у сховищах установ або на особистих веб-сайтах) рукопису роботи, як до подання цього рукопису до редакції, так і під час його редакційного опрацювання, оскільки це сприяє виникненню продуктивної наукової дискусії та позитивно позначається на оперативності та динаміці цитування опублікованої роботи (див. The Effect of Open Access).