Skip to content

Креирање додатних фајлова (OCR, транскрипт, титл…)

Креирањем додатних фајлова, попут горе наведених, обогаћујемо дигиталну колекцију и пружамо корисницима драгоцене информације. Претрага садржаја постала је стандард у дигиталним колекцијама а да би се то омогућило, потребно је обавити додатну обраду.

За штампане текстове користи се OCR. Најчешће коришћени бесплатни софтвер отвореног кода за ове намене је Tesseract. Tesseract има подршку за многе језике, ради брзо и има могућност извоза у различитим форматима, ALTO xml, HOCR, PDF, TSV и TXT. Неки софтвери за креирање дигиталних колекција су имплементирали Tesseract као опцију за OCR, док код других овај корак мора бити урађен пре отпремања. Уколико желите да урадите OCR фајлова пре отпремања ево и неких кратких објашњења о самом софтверу. Tesseract је софтвер подржан на свим оперативним системима GNU/Linux, macOS и Microsoft Windows. Првобитно је развијан без графичког интерфејса (GUI), тако да је коришћење софтвера било могуће искључиво помоћу командне линије али су временом развијене и апликације са графичким интерфејсом које су направљене за Tesseract. На следећем линку налази се званична листа доступних апликација, са њиховом подршком за оперативне системе и лиценцом под којом их је могуће користити tesseract-ocr.github.io/tessdoc

Бесплатни софтвери са листе који су се добро показали и редовно ажурирају су:

  • VietOCR, подржана инсталација на више оперативних система, могућност извоза фајлова неколико различитих формата, вишејезични OCR;
  • gimageReader, подржана инсталација на више оперативних система, извоз у txt, pdf и hocr формату, вишејезични OCR.

За аутоматско препознавање рукописа, постоји добро решење са подршком за тренирање модела (потребно је ручно преписати најмање 1000 линија) или користити унапред обучене моделе за разне старе рукописе eScriptorium. Овај бесплатни софтвер отвореног кода даје одличне резултате за руком писане документе и старије рукописе. Софтвер подржава увоз pdf, jpg, png фајлова такође, подржава увоз из zip фајлова, слика са транскриптима у alto фајловима или page xml додатних фајлова (погодни су за обуку модела). Инсталација софтвера је мало тежа, али документација покрива све кораке, уз мали напор може се брзо инсталирати. Након обављене транскрипције eScriptorium може да експортује фајлове у alto xml или page xml формату. Извоз у txt датотеке такође постоји као опција.

Инсталација софтвера, са упутством,доступна је путем следећег линка gitlab.com/scripta/escriptorium

На крају је аутоматска транскрипција аудио и видео материјала. Једно од главних проблема био је креирање титлова за аудио / видео садржај на не-енглеском језику. До пре пар година скоро сва решења за аутоматко генерисање титлова била су углавном за енглески. Са развојем AI ситуација се променила. OpenAI фондација je у септембру 2022. године објавила Whisper, вишејезични модел аутоматског препознавања говора. У међувремену Whisper је постао један од најчешће коришћених модела за ту сврху. Употреба овог модела није превише компликована, али је захтевала неко знање о Python-у и рад у виртуелном окружењу. Такође, један од великих проблема били су минимални хардверски захтеви, на пример мин. 10GB меморије на графичкој картици.

У међувремену објављене су новије верзије Whisper модела за чију употребу није потребна графичка карта са великом количином меморије већ за ту намену може послужити и компјутерски процесор са неким разумним временом за добијање резултата. Један од најчешће коришћених бесплатних софтвера за уређивање титлова, Subtitle Edit, користи Whisper као додатак програму за креирање титлова из аудио и видео садржаја. Избором опције “Audio to text” и Whisper додатка пружа нам се могућност избора више различитих Whisper модела. Некима од њих, као што су Faster Whisper, Whisper CPP ili Whisper CTranslate2 је потребно мање времена за креирање титлова. Након генерисања титлова, он може бити исправљен и извезен у .srt или .vtt формату за употребу у било којој дигиталној колекцији које препознаје овај формат. Whisper подржава и функцију превођења са свих доступних језика (преко 100) на енглески.

Више о овој функцији на овом линку: nikse.dk/subtitleedit/help#audio_to_text

Оно што може да буде потенцијални проблем је WER (Word Error Rate), односно прецизност модела у транскрипцији за одређени језик. Проценат прецизности за сваки језик је доступан на следећем линку: raw.githubusercontent.com/openai/whisper/main/language-breakdown

Инсталација Subtitle Edit је доступна преко следећег линка: github.com/SubtitleEdit