Sivu 1/1

kokemusta tekstitunnistusohjelmista?

Lähetetty: 31.01.2026 22:01
Kirjoittaja R Junkkari
Hei kaikki

Onko teillä kokemusta ruotsin kielen tekstitunnistusohjelmista? Käyttökelpoinen ohjelma nopeuttaisi vanhalla ruotsinkielellä ja käsialalla kirjoitettujen asiakirjojan raakakopion tekemistä. Siitä voisi sitten alkaa hiomaan tekstiä eteenpäin.
R Junkkari

Re: kokemusta tekstitunnistusohjelmista?

Lähetetty: 31.01.2026 23:33
Kirjoittaja Essimi
Olen käyttänyt Kansallisarkiston tekstintunnistusohjelmaa ihan mukavalla menestyksellä. Kannattaa katsoa heidän opastuksensa asiaan. "Kansallisarkiston tekstintunnistus" löytyy vaikka googlella. Se käyttää ohjelmaa Chat Gpt https://chatgpt.com/ Sen verran vinkkiä, että kannattaa tallentaa asiakirjojen kuvat ensin omalle koneelle, ja muokata ne vain yhden sivun käsittäviksi kuviksi - aukeaman kanssa tekoäly menee helposti sekaisin.
Suosittelen kokeilemaan, ei ole yhtään pelottavaa. Tekoäly osaa olla hyvin viehättävä ja kohtelias!

Re: kokemusta tekstitunnistusohjelmista?

Lähetetty: 01.02.2026 04:06
Kirjoittaja Ilpo
Vanhoja tuomiokirjoja on luettu OCR tekstintunnistuksella. Niitä on muutettu tekstiksi tekoälyn avulla. Kyllä ne sen verran ja oikeastaan aika hyvinkin ovat luettavaa tekstiä. SIinä oli myös kuva siitä alkuperäisestä sivusta. Siitä voi sitten arvailla niitä sanoja, joiden tunnistus on mennyt pieleen.

Tuomiokirjahaku uudistui: nyt voit tehdä kokotekstihaun yli kolmeen miljoonaan käsin kirjoitettuun sivuun

Tiedän sitten, että Linux Kubuntun ohjelmaan Spectacle (kuvaruudunkaappaus) ollaan tekemässä tekstintunnistinta. Ei taida olla vielä valmis. Ihan varmasti Windowsissa on tekstintunnistusohjelmia. Tuo Linuxin ohjelma on ilmainen.

Re: kokemusta tekstitunnistusohjelmista?

Lähetetty: 02.02.2026 21:01
Kirjoittaja R Junkkari
Hei

Kiitos vinkinstä. Sain arkistolaitoksesta oheisen ohjelman ja se toimi varsin hyvin 1800-luvun tekstiin ja siitä oli iso apu kääntämisessä. Kannattaa kokeilla.

Reijo

https://huggingface.co/spaces/Kansallis ... y-HTR-Demo

Re: kokemusta tekstitunnistusohjelmista?

Lähetetty: 02.02.2026 21:43
Kirjoittaja eoh
Hei, Reijolle pointsit linkistä, kokeilin erääseen sivuun jota olen pähkäillyt ijätajat, eikä kaikki ole mulle selvinnyt, mutta tällä selkis kokosivu 10 sekuntia ja homma hanskassa välittömästi. Mainiota tekoa.

Re: kokemusta tekstitunnistusohjelmista?

Lähetetty: 07.02.2026 19:43
Kirjoittaja R Junkkari
Hei

Kiitos kiitoksista. Minullaki arki helpottui tosi paljon vaikka dekkarityötä jäikin.

Re: kokemusta tekstitunnistusohjelmista?

Lähetetty: 08.02.2026 01:26
Kirjoittaja Hapero
Yleisesti (normilaatuisen paperioriginaalin) tekstintunnistuksen tehtäviin yllättävänkin mainio ollut:
https://www.ilmaisohjelmat.fi/naps2

En nyt suoraan muista saiko sen tunnistamaan mitä vain skannerin ulkopuoleltakin syötettyä kuvaa tai PDF-tiedostoa, luulisin, kun en muista skannailleeni tällä erikoisemmin (edellisellä "tuotantokoneella").

EDIT: Aikoinaan jonkin skannerin muakana tullut Abbyyn perus-OCR (Finereaderin varhainen versio?) jo toimi melkeinpä järkyttävän hyvin.

Re: kokemusta tekstitunnistusohjelmista?

Lähetetty: 08.02.2026 09:43
Kirjoittaja Kimpula
tesseract

https://github.com/tesseract-ocr/tesseract

mutta vain painetulle tekstille. Osaa melko hyvin fraktuuraakin.

Digiarkistolla on tietysti oma viritys....
https://digi.kansalliskirjasto.fi/search

Re: kokemusta tekstitunnistusohjelmista?

Lähetetty: 08.02.2026 11:51
Kirjoittaja pekkara
Usein myös tunnistettavan tekstin (asiakirjan) löytäminen voi olla haasteellista. Edellä on mainittu Kansallisarkiston tuomiokirjahaku, joka hakee juttuja 1800-luvun käräjäpöytäkirjoista. Kätevä työkalu etsintään niitä vanhemmista tuomiokirjoista on KA:n sisältöhaku (demo) https://sisaltohaku.demo.kansallisarkisto.fi/ joka hakee noin 8 miljoonasta sivusta ja näyttää haun tulokset ruudulla tai tallentaa ne tiedostoon. Tunnistetun tekstin laatu on sama kuin menetelmällä tallenna kuva + käytä tekstintunnistusta, mutta aikaa kuluu vain murto-osa.

Itse hyödynnän enimmäkseen demon sumeaa hakua, joka listaa osumat silmänräpäyksessä. Jos osumajoukko on pieni, selaan niitä ruudulla ja pyydän ChatGPT:n kääntämään vain haluamani. Jos osumia on paljon, pyydän demoa tallentamaan tulokset Excel-tiedostoksi, josta jatkan ChatGPT:n avustuksella.