Skip to content

Чишћење и поправка радних фајлова

Чишћење и репарација радних фајлова је један од најчешћих корака у процесу дигитализације. Свака врста материјала може имати неку врсту оштећења па је због тога неопходно приступити њиховој поправци или чишћењу (репарација) као што је поменуто у претходном поглављу.

Књиге и остали штампани текстуални материјали

Најчешћи проблеми приликом скенирања оваквог типа грађе су подвучени текст од стране читаоца и забелешке на маргинама. Ако је аутор белешки важна особа у заједници и ако су ове белешке на маргинама од значаја онда их треба задржати, у супротном препорука је да се овакви “додаци” тексту уклоне. Ово је важно како би се избегли проблеми у процесу OCR-a (оптичког препознавања знакова), због тога што ће подвучени текст бити теже препознат.

Ако књига није потпуна (недостају странице), молимо вас да је не скенирате. Потребно је скенирати само комплетне књиге. Код скенирања осетљиве грађе водите рачуна како не би дошло до њеног оштећења приликом руковања, а овим процесом омогућавамо даље коршћење.

Постоје два начина који су у употреби приликом обраде скенираног штампаног текста. Први је да оставите боје какве јесу, нпр. ако је папир жут, коначна датотека мора бити у истој боји као и оригинал. Други је да очистите оригиналне боје и креирате црно-белу верзију скенираног документа. Први приступ вам даје слику вернију оригиналу, други приступ је бољи за OCR и даје боље резултате за екстракцију текста.

Наравно, ако је штампани материјал у боји, попут часописа итд., најбоље је оставити га у оригиналним бојама. Један од најбољих софтвера за чишћење и припрему штампаног материјала на више страница је ScanTailor. Постоји побољшана верзија под називом ScanTailor Advanced, која се и даље развија и има више опција. Може се инсталирати на Linux и Windows рачунарима.

Download from this link: github.com/ScanTailor-Advanced/scantailor-advanced/releases

Више о могућностима програма на следећем линку: github.com/ScanTailor-Advanced/scantailor-advanced

Овај софтвер нуди следеће алате:

  • Fix Orientation (служи за поправљање оријентације стране);
  • Split Pages (подела двостраног скена ако је грађа двострано скенирана, отворена књига);
  • Deskew (фина корекција ротације стране чији је циљ да текст на страни буде водораван а не под углом);
  • Select Content (програм аутоматски препознаје и бира текст или селекција целе стране);
  • Margins (служи за додавање маргина изабраном садржају из претходног корака);
  • Output (корак у којем се дефинишу опције резолуције, бира изглед излазног фајла црно-беле, у боји или мешовити, уклања прљавштина, флека и других неправилности, исправља деформације на страни).

Све датотеке се извозе у TIFF формату.

Пример оригиналног скена и очишћеног излазног фајла.

Raw Scan

Слика 1 Изворни скен

Clean Left

Слика 2 Обрађена страна 6

Clean Right

Слика 3 Обрађена страна 7

У овом примеру странице су извезене у црно-белом формату који доста смањује величину фајла. Оригинални скен је 7.6 Mb док су обрађене TIFF датотеке 48.6 Kb и 49.1 Kb у црно-белом формату. Црно-бели формат бинаризује слику само у црно-беле боје, уклања боју позадине и побољшава текст.

Доступан је и мешовити режим, ова опција је добра за комбиновање фотографије и текста на страници, програм препознаје и бира фотографију на страници и оставља је у оригиналном формату а текст се конвертује у црно-белој боји.

У овом процесу сенка која се јавља приликом скенирања на ободима стране може довести до црне боје на страници, експериментишите са опцијама како бисте добили најбоље резултате.

Остали типови слика

За друге типове слика нпр. старе фотографије, разгледнице, мапе, рукописи и слично главни проблем може представљати врста материјала од којих су сачињени, огреботине, оштрина и делови који недостају.

Gimp је један од најчешће коришћених софтвера отвореног кода за обраду фотографија као и једна од популарнијих бесплатних алтернатива Adobe Photoshop-а. Програм се редовно ажурира и доступан је за инсталирање на више различитих платформи GNU/Linux, macOS и Microsoft Windows. Gimp се може користити за обраду слика, промену величине, опсецање, побољшање контраста и још много тога. Инсталација програма се може преузети са следећег линка: gimp.org/downloads

У последњих неколико година развој вештачке интелигенције довео је до развоја модела отвореног кода који се користе за рестаурацију слике и лица. програм под именом chaiNNer развијан је тако да у себи прикупи што више AI модела за рестаурацију слике. Као и Gimp, chaiNNer се може инсталирати на GNU/Linux и Microsoft Windows рачунарима. Инсталацију програма можете преузети на следећем линку chainner.app/download

Рад у овом програму се заснива на чворовима, што подразумева повезивање чворова (који дефинишу корак) на снимку екрана види се једноставна композиција чворова.

caiNNer

Слика 5 chaiNNer снимак екрана (извор: github.com/chaiNNer-org/chaiNNer )

Више о доступним моделима и функцијама софтвера на следећем линку github.com/chaiNNer-org/chaiNNer

Аудио грађа

Као што смо видели у претходном поглављу, постоје различити носачи звука винилне плоче, аудио касете, CD-ови, чак и DVD-ови.

Најчешћи проблеми за винилне плоче су пуцкетања и шумови. Чак и када је плоча добро очишћена, овај проблем је уобичајен. За уклањање оваквих проблема можете користити Audacity софтвер. Једноставано упутство за уклањање оваквих проблема налази се на следећем линку support.audacityteam.org/repairing-audio/removing-clicks-pops

Код аудио касета најпроблематичнија је појава шума. Овај проблем се такође може решити у програму Audacity помоћу додатка за смањење шума. Кратко упутство је доступно на следећем линку: support.audacityteam.org/repairing-audio/noise-reduction-removal

CD-ови и DVD-ови су у дигиталном формату тако да већина њих нема класичних аналогних проблема.

У зависности од подршке у софтверу дигиталног репозиторијума, извезите аудио датотеке у mp3 или wav формату.

Видео грађа

Програми за обраду видео грађе имају додатке (plugins) који се користе за побољшање квалитета видеа, у зависности од софтвера постоје различита решења. Основно побољшање квалитета која су доступна: корекција боје и слике, смањење шума, подешавање баланса осветљења и контраста.

Kdenlive је мултиплатформски софтвер са пуно доступних додатака и може се преузети са следећег линка kdenlive.org/en/download.

Shotcut је још један мултиплатформски видео уређивач са широким избором додатака, може се преузети са овог линка shotcut.org/download.

Препорука је да видео материјал извезете у mp4 формату, који је најчешће коришћени формат за видео.