Seite 1 von 1

Hat schon jemand mit OCR gearbeitet?

Verfasst: 18. Dezember 2022, 08:54
von satmax
Hallo,

generelle Frage, hat schon jemand OCR in einem Projekt verwendet? Ich möchte aus PDFs Kundenaufträge in mein Programm importieren. Das geht sicher nicht ganz vollautomatisch, aber zumindest teilautomatisiert möchte ich es hinbekommen.

Tipps&Tricks worauf ich achten muss?

Gruß
Markus

Re: Hat schon jemand mit OCR gearbeitet?

Verfasst: 19. Dezember 2022, 06:51
von Herbert
Kommt drauf an, was du willst.
Wir verwenden das bei der automatischen Zuordnung von Kunden aufgrund bestehender Dokumente (finden der Adresse und je nach dem finden einer Kundennummer).
Es gibt ganz gute Beispiele auch vonPC-Soft, die ich aber noch suchen muss.
Wichtig ist, dass die PDF auch OCR-Fähig sind. Wir stellen fest, dass die meisten Scanner falsch eingewstellt sind.

Ganz automatisch läuft das bei uns nicht. Das Dokument vom Scanner her (in einem Ordner) wird mit einem Klick umgewandelt, erkannt und dem Kunden zugeordnet. Vorgängig haben wir Masken definiert, welche mittteilen, wo was (Kundennummer, Datum, Adresse, ev. Versichertennummer) zu finden ist.

Abgelegt wird das Ganze in einer SQL-Tabelle, umgeben von Informationen (dazu verknüpfte Tabelle). Man wil ja das Dokument später wieder finden und auch beim Aufrufen der Adresse gleich anezeigen können (vorerst alle Dokumente in einem Baum). Wir haben in der Schwiz im Sozialbereich mittlerweile Vorschrift, die Dokumente digital ablegen zu müssen, was ganz toll ist.

Re: Hat schon jemand mit OCR gearbeitet?

Verfasst: 19. Dezember 2022, 08:57
von satmax
>> dass die PDF auch OCR-Fähig sind.
Das verstehe ich nicht ganz. Im Prinzip liest Windev den Text ja aus eine Bitmap aus , da ist kein lesbarer Text enthalten.

Code: Alles auswählen

// Displays the image (PDF File) in the image control
IMG_OCR					= sFileName  
...
// Runs the OCR and displays the results in the Edit control
EDT_Results			= OCRExtractText(IMG_OCR)
Die meisten PDFs die ich zum einlesen habe werden per Mail übermittelt und nicht eingescannt.

Den Rest habe ich mir so ähnlich wie von dir beschrieben vorgestellt. Praktisch pro Kunde eine Art "Template" hinterlegen. Bei mir geht es nicht um Rechnungen, sondern um Ladeaufträge. Die haben jeweils eine total unterschiedliche Form und Aufbau... Aber daraus soll ich immer jeweils einen Auftrag erstellen...

Re: Hat schon jemand mit OCR gearbeitet?

Verfasst: 19. Dezember 2022, 18:29
von Herbert
Das .PDF muss ja jemand erstellen. Das kommt entweder aus einem Scanner oder einem Generator.
OCRextracttext verwende ich bewusst nicht, da die Qualität des Dokumentes oft nicht genügt. Kleines Beispiel ist das erhaschen eines Datums. Das kann in alles Formaten daher kommen 1.2.22, 01.02.22 usw. oder 1. Februar 2022 usw. bei einem 10. kann das OCR ein O (oh) anstatt einer 0 (Null) erkennen usw.
Man kann das aber. Musst aber all die Copyright-Dinger berücksichtigen.
Weiter müssen wir bei uns die Dinger ablegen und verlangen daher eigentlich PDF/A. Da ist OCR-Fähigkeit gegeben und gefordert. Momentan verwenden wir aber "normale" .pdf.

Bei uns ist nicht eine Rechnung, sondern eine Verfügung Basis. Diese schaut immer (bei verschiedene Verfügungstypen) mit gleichem Aufbau aus.

Hast du nichts Eindeutiges dabei, wie eine Kundennummer oder ein Text aus einem Logo? So könntest pro Kunde ein Template aufbauen, was aber aufwändig wird.