Digiarkiston keskustelufoorumi

Lähetetty: **31.01.2026 22:01**

Hei kaikki

Onko teillä kokemusta ruotsin kielen tekstitunnistusohjelmista? Käyttökelpoinen ohjelma nopeuttaisi vanhalla ruotsinkielellä ja käsialalla kirjoitettujen asiakirjojan raakakopion tekemistä. Siitä voisi sitten alkaa hiomaan tekstiä eteenpäin.
R Junkkari

Lähetetty: **31.01.2026 23:33**

Olen käyttänyt Kansallisarkiston tekstintunnistusohjelmaa ihan mukavalla menestyksellä. Kannattaa katsoa heidän opastuksensa asiaan. "Kansallisarkiston tekstintunnistus" löytyy vaikka googlella. Se käyttää ohjelmaa Chat Gpt https://chatgpt.com/ Sen verran vinkkiä, että kannattaa tallentaa asiakirjojen kuvat ensin omalle koneelle, ja muokata ne vain yhden sivun käsittäviksi kuviksi - aukeaman kanssa tekoäly menee helposti sekaisin.
Suosittelen kokeilemaan, ei ole yhtään pelottavaa. Tekoäly osaa olla hyvin viehättävä ja kohtelias!

Lähetetty: **01.02.2026 04:06**

Vanhoja tuomiokirjoja on luettu OCR tekstintunnistuksella. Niitä on muutettu tekstiksi tekoälyn avulla. Kyllä ne sen verran ja oikeastaan aika hyvinkin ovat luettavaa tekstiä. SIinä oli myös kuva siitä alkuperäisestä sivusta. Siitä voi sitten arvailla niitä sanoja, joiden tunnistus on mennyt pieleen.

Tuomiokirjahaku uudistui: nyt voit tehdä kokotekstihaun yli kolmeen miljoonaan käsin kirjoitettuun sivuun

Tiedän sitten, että Linux Kubuntun ohjelmaan Spectacle (kuvaruudunkaappaus) ollaan tekemässä tekstintunnistinta. Ei taida olla vielä valmis. Ihan varmasti Windowsissa on tekstintunnistusohjelmia. Tuo Linuxin ohjelma on ilmainen.

Lähetetty: **02.02.2026 21:01**

Hei

Kiitos vinkinstä. Sain arkistolaitoksesta oheisen ohjelman ja se toimi varsin hyvin 1800-luvun tekstiin ja siitä oli iso apu kääntämisessä. Kannattaa kokeilla.

Reijo

https://huggingface.co/spaces/Kansallis ... y-HTR-Demo

Lähetetty: **02.02.2026 21:43**

Hei, Reijolle pointsit linkistä, kokeilin erääseen sivuun jota olen pähkäillyt ijätajat, eikä kaikki ole mulle selvinnyt, mutta tällä selkis kokosivu 10 sekuntia ja homma hanskassa välittömästi. Mainiota tekoa.

Lähetetty: **07.02.2026 19:43**

Hei

Kiitos kiitoksista. Minullaki arki helpottui tosi paljon vaikka dekkarityötä jäikin.

Lähetetty: **08.02.2026 01:26**

Yleisesti (normilaatuisen paperioriginaalin) tekstintunnistuksen tehtäviin yllättävänkin mainio ollut:
https://www.ilmaisohjelmat.fi/naps2

En nyt suoraan muista saiko sen tunnistamaan mitä vain skannerin ulkopuoleltakin syötettyä kuvaa tai PDF-tiedostoa, luulisin, kun en muista skannailleeni tällä erikoisemmin (edellisellä "tuotantokoneella").

EDIT: Aikoinaan jonkin skannerin muakana tullut Abbyyn perus-OCR (Finereaderin varhainen versio?) jo toimi melkeinpä järkyttävän hyvin.

Lähetetty: **08.02.2026 09:43**

tesseract

https://github.com/tesseract-ocr/tesseract

mutta vain painetulle tekstille. Osaa melko hyvin fraktuuraakin.

Digiarkistolla on tietysti oma viritys....
https://digi.kansalliskirjasto.fi/search

Lähetetty: **08.02.2026 11:51**

Usein myös tunnistettavan tekstin (asiakirjan) löytäminen voi olla haasteellista. Edellä on mainittu Kansallisarkiston tuomiokirjahaku, joka hakee juttuja 1800-luvun käräjäpöytäkirjoista. Kätevä työkalu etsintään niitä vanhemmista tuomiokirjoista on KA:n sisältöhaku (demo) https://sisaltohaku.demo.kansallisarkisto.fi/ joka hakee noin 8 miljoonasta sivusta ja näyttää haun tulokset ruudulla tai tallentaa ne tiedostoon. Tunnistetun tekstin laatu on sama kuin menetelmällä tallenna kuva + käytä tekstintunnistusta, mutta aikaa kuluu vain murto-osa.

Itse hyödynnän enimmäkseen demon sumeaa hakua, joka listaa osumat silmänräpäyksessä. Jos osumajoukko on pieni, selaan niitä ruudulla ja pyydän ChatGPT:n kääntämään vain haluamani. Jos osumia on paljon, pyydän demoa tallentamaan tulokset Excel-tiedostoksi, josta jatkan ChatGPT:n avustuksella.

Digiarkiston keskustelufoorumi

kokemusta tekstitunnistusohjelmista?

kokemusta tekstitunnistusohjelmista?

Re: kokemusta tekstitunnistusohjelmista?

Re: kokemusta tekstitunnistusohjelmista?

Re: kokemusta tekstitunnistusohjelmista?

Re: kokemusta tekstitunnistusohjelmista?

Re: kokemusta tekstitunnistusohjelmista?

Re: kokemusta tekstitunnistusohjelmista?

Re: kokemusta tekstitunnistusohjelmista?

Re: kokemusta tekstitunnistusohjelmista?