[HowTo] Papierloses Heim mit Paperless inkl. OCR

noob_at_pc

hm okay. Hatte ich noch keine Probleme, aber nutze ich tatsächlich zu selten. Ich scanne lieber ein...

teste ich mal

taker-`

Vllt. mache ich auch nur was falsch? Kannst ja mal berichten, ob es bei dir klappt und wenn ja, dann sagen, wie du das genau gemacht hast.

Testweise dann natürlich auch mit und ohne WLAN.

noob_at_pc

hm, bisher löfts und löfts

hab jetzt 10 verschiedene Fotos gemacht, 2 Android Geräte und auch verschiedene Vorgänge ... also mal nur ein Foto & Upload, mal mehrere Fotos und dann Upload.

Ohne Murren, Meckern und Schimpfen. Mal die logs durchschauen du musst

wir sind nun bei Version 2.11.6

Release Paperless-ngx v2.11.6 · paperless-ngx/paperless-ngx

paperless-ngx 2.11.6 NotePaperless-ngx v2.11.6 fixes an issue with one of our dependencies that prevented uploading files in version 2.11.5. "Bare-metal" users…

github.com

paar Bugfixes, gerade mit NLTK (Texterkennung) gab es Probleme die nun gefixt sind.

Ich habe für mich nun auch ein paar weitere Anpassungen entdeckt die hier und da helfen:

Gotenberg und Tika integriert
Einbinden von office Dokumenten und .eml Dateien (E-Mail)
Leistungsoptimierung
- 3 Werte in der Compose Datei:
  PAPERLESS_TASK_WORKERS: <num>
  PAPERLESS_THREADS_PER_WORKER: <num>
  PAPERLESS_WEBSERVER_WORKERS: <num>
  
  infos hierzu:
  https://docs.paperless-ngx.com/configuration/…EADS_PER_WORKER
  https://docs.paperless-ngx.com/configuration/…BSERVER_WORKERS
Arbeitsabläufe
- gerade wer Benutzerdefinierte Felder nutzt - hier kann ich diese automatisch zuordnen lassen
- zum Rechte Verwalten DAS must have
Integrationen Lexoffice
- für mich pers. super - Dokumente die ich in Paperless schmeiße landen zusätzlich automatisch im Lexoffice welches ich fürs Geschäft nutze. Endlich 1 Arbeitsvorgang statt 2
- https://forum.digitalisierung-mit-kopf.de/t/paperless-ng…-entwickelt/877

Alles in Allem - ein tolles Tool, immernoch Kommt auch mit größeren Zeichnungen super zurecht und die Erkennung von Normschrift gelingt sehr gut.

Xav

Hab paperless ngx als Docker auf meinem unraid laufen, erstes Dokument in den consume Ordner geschoben,

Fortschritsbalken läuft, das PDF ist im media Ordner, allerdings ist das PDF nicht durchsuchbar,

muss ich für die OCR noch was in den Einstellungen von paperless einstellen?

noob_at_pc

Kommt auf deine Docker Config drauf an. Ich habs direkt in meiner compose datei hinterlegt wie er OCRen soll, aber im Paperless selbst könnte man das auch einstellen ...

Unter enviroment ist das wichtig:

PAPERLESS_OCR_LANGUAGES: deu eng

Xav

Ok, da hab ich nur deu drin stehen, werde dann morgen noch eng dazufügen

noob_at_pc

ja gut, nur mit deutsch muss es ja auch laufen wenns deutscher Text ist. Daran sollte es nicht liegen...

woran hast du erkannt, dass das OCR nicht gehen soll?

Xav

Ich versuchte ein Wort das im Dokument vorkommt zu suchen, wurde nichts gefunden,

und ich dachte es wird ein weiteres PDF erzeugt, also das Orginal im media Ordner und das durchsuchbare PDF

noob_at_pc

im Doucments Pfad gibt es einmal das Archiv und das Original - Original bleibt wie es eingescannt wurde, Archiv sind die OCR Dokumente.

Wenn du im Paperless das Dokument auswählst kannst du oben einmal auf "Inhalt" gehen - da siehst du was er wie erkannt hat.

Wenn da ebenso wenig bis nichts da steht ...

in die logs von Paperless sowie dem Container mal reinschauen wenn das Dokument verarbeitet wird.

Zeig uns doch mal dein Paperless compose datei bzw wie du das Ding angelegt hast und gern ein Screenshot von dem Dokument ...

Xav

Ok OCR hat demnach funktioniert, hab ich falsch gedeutet.

Aber wie durchsuch ich nun das PDF

noob_at_pc

Du suchst im Paperless - entweder ganz oben die Suchleiste oder unter Dokumente und gibst den Begriff ein den du brauchst. Auf der dateiebene machst du eigentlich absolut garnichts. Höchstens was in den Consume Ordner direkt scannen lassen - rest geht über die Weboberfläche. In Diese kannst du ebenso überall eine Datei ziehen und diese wird dann verarbeitet im Hintergrund - egal wo du gerade bist im Paperless

Begriff eingeben:

Wenn du dann auf das Auge bei dem Dokument drückst öffnet es sich im Vollbild und markiert dir sogar Farblich deinen gesuchten Begriff.

btw - warum schiebst du die Docker Container direkt ins interne Netz? Kann man machen aber ... ist nicht ganz Sinn vom Docker. Aber das ist erstmal unwichtig im ersten Schritt ...

Xav

Zitat von noob_at_pc

btw - warum schiebst du die Docker Container direkt ins interne Netz? Kann man machen aber ... ist nicht ganz Sinn vom Docker. Aber das ist erstmal unwichtig im ersten Schritt ...

Danke erstmal für deine Antworten!

Zu der Frage Container ins intene Netz? Damit kann ich erst mal nix anfangen, hab an den Voreinstellungen ausser den"Dokumentenpfaden" nichts verändert.

noob_at_pc

bspw. beim Redis - dort ist eine IP aus dem 178er Netz angegeben, ich denke mal das ist dein lokales ... normal hängen docker container in einem eigenen virtuellen abgeschotteten Netzwerk auf dem Host und nicht direkt im Netzwerk. Aber ich kenn mich zu wenig / garnicht mit unraid aus

Xav

Das scheint mit der Einrichtung des Dockers als Host oder Bridge tun zu haben,

bin da aber auch nicht wirklich drinn, solang das so läuft wie ich mir das vorstelle, mach ich mir da leider auch keine Gedanken.

da_user

So...

ich bin jetzt dazugekommen mich auch mal auf Paperless(-ngx) zu stürzen und schon die ersten Dokumente da drinnen. Und natürlich tauchen gleich die ersten Fragen auf.

Einmal bzg. meinen Gehaltsabrechungen. Ich bekomme die kurz vor Monatsende für den aktuellen Monat. Und in dem Umschlag sind dann meist noch Rückrechnungen für die letzten 1-3 Monate dabei, weil natürlich div. Zuschläge erst berechnet werden können, wenn die jeweiligen Arbeitszeiten von der Personalabteilung bearbeitet wurde. Anfang des Jahres bekomme ich übrigens gerne mal zwei Umschläge. Da ist dann eine Rückrechnung für alle Monate des vergangenen Jahres dabei. Und gerne mal dann 2-3 Korrekturen dies Sozialabgaben-Jahresabrechnungs-Wisches.

Einscannen will ich da der Bequemlichkeit eigentlich immer den kompletten Umschlag, und irgendwie gehört sich das ja als eine Korrespondenz zusammen. Jetzt wäre aber natürlich schön, wenn Paperless aber:

das Datum mit Monat/Jahr speichert und nicht Tag.Monat.Jahr, bzw. es ein entsprechendes Feld gibt
bei ner Suche nach der Abrechnung mir auch die dazugehörigen Rückrechnungen (bzw. die PDFs in der die drinnen ist) anzeigt, bzw. ich halt einfach weiß, welche Monate in welchen Dokument sind.

Ich habe auch mal zwei Dokumentenköpfe angehängt. Einmal die erste Seite, das ist die Abrechnung für den laufenden Monat - September 2024 gleich ganz oben, ich hoffe das ist relativ selbsterklärend:

Und hier der Kopf für die Rückrechung für den Juli die dann die erste Seite der Rückrechnung ist (und interessanterweise auch die Seitennummer 1 trägt, obwohl da 3 m.E. richtiger wäre...)

Habt ihr da Ideen?

Und noch eine Frage:

Ich habe einen Drucker mit ADF der mir gescannte Dokumente per FTP auf mein OMV schiebt - aber nur einseitig. Gibts einen softwaretechnischen Weg, wie man Vorder- & Rückseite automatisch zusammenführen kann? ich persönlich denke da ja jetzt an ein Script/Programm dass einen speziellen Duplex-Eingangsordner überwacht. Sobald zwei Dokumente da drinnen liegen, geht das Mopped davon aus: erstes Dokument Seite 1, 3, 5,...; zweites Dokument Seite 2, 4, 6,... gießt das in ein PDF und schiebt das in einen anderen Ordner.
Hat da auch wer ne Idee?

noob_at_pc

100% hab ichs nicht ganz kapiert weil mir das einfach zu kompliziert ist so ein hin und her und wieder Rolle rückwärts ... also ... egal

zu 1. nö. Du hast immer einen Tag an dem das Ding nuneinmal erstellt wurde oder simpel per Post abgestemptel / ankam. Fertig. Ist ja nicht weiter erheblich der Tag ansich.

zu 2. - klar!

Du gehst oben Rechts auf "Benutzerdefiniertes Feld" und gibst dem Ding einen Namen und sagst Typ "Dokumentenzuordnung". Damit kannst du dann beliebig viele Dokumente diesem zuordnen. Das schöne dabei - es ist automatisch Rückwärts ebenso dann eingetragen. Sprich bei dem zugeordneten Dokument steht das aktuelle sofort mit drin.

Dann würde ich gleich eine Automatikregel erstellen für den Typ Gehaltsabrechnung, sodass immer dieses Benutzerdefinierte Feld enthalten ist. Wenn du willst kannst du weitere Felder hinzufügen wie "Rückrechnung bis" als Datumsfeld usw. Muss aber nicht.

Zu dem anderen Thema - einerseits geht das mit Paperless - dort kannst du auch Dokumente zusammenfügen, trennen usw., automatisieren kannst du das bspw. mit qpdf:

Code

qpdf --empty --pages file1.pdf file2.pdf -- merged.pdf

oder

qpdf --collate --pages ScanFronts.pdf 1-z ScanBacks.pdf z-1 -- Combined.pdf

So ganz raus hab ich noch nicht wie das automatisch mit paperless geht hmmm:

Feature: collate two single-sided multipage scans by brakhane · Pull Request #3784 · paperless-ngx/paperless-ngx

Proposed change Some ADF (like mine) only support single-sided scans, making scanning double-sided documents a bit annoying. This new feature enables…

github.com

da_user

Zitat von noob_at_pc

100% hab ichs nicht ganz kapiert weil mir das einfach zu kompliziert ist so ein hin und her und wieder Rolle rückwärts ... also ... egal

Wie unsere Gehaltsabrechnungen so halt sind.... Habe vor nicht allzu langer Zeit welche von meiner alten Firma in den Händen gehabt, die war schön simpel und einfach, und da hatte ich auch ähnliche Zuschläge... Keine Ahnung warum wir im öD das wieder so kompliziert machen müssen...

Zitat von noob_at_pc

zu 2. - klar!
Du gehst oben Rechts auf "Benutzerdefiniertes Feld" und gibst dem Ding einen Namen und sagst Typ "Dokumentenzuordnung". Damit kannst du dann beliebig viele Dokumente diesem zuordnen. Das schöne dabei - es ist automatisch Rückwärts ebenso dann eingetragen. Sprich bei dem zugeordneten Dokument steht das aktuelle sofort mit drin.
Dann würde ich gleich eine Automatikregel erstellen für den Typ Gehaltsabrechnung, sodass immer dieses Benutzerdefinierte Feld enthalten ist. Wenn du willst kannst du weitere Felder hinzufügen wie "Rückrechnung bis" als Datumsfeld usw. Muss aber nicht.

Ähm... ich vertehe jetzt auf's erste nur Bahnhof, aber ich guck mir das mal an.

Und automatisch Zusammenfügen guck ich mir auch an...

noob_at_pc

Ja hoffe ich hatte das richtig verstanden ansonsten nochmal aufmalen was du jetzt meintest / brauchst oder wie du dir das vorstellst das es gut wäre

da_user

Naja.. grundsätzlich will ich mir z.B. die Gehaltsabrechnung für Juli 2023 anzeigen lassen, bei der - rein theoretisch Stand jetzt - die Gehaltsabrechnungen 07/2023, 08/2023, 09/203 und 01/2024 aufploppen müssten, da im August und September Rückrechnungen erfolgt sind.

Übrigens habe ich in meinen Post das Bild vom Kopf der Rückrechnung vergessen. Ist jetzt drinnen. Es gibt quasi im Dokument "Gehaltsabrechnung" mehrmals den Wert 'für Monat/Jahr'.

noob_at_pc

Ja Dann passt mein beschriebenes. Wennndas so machst und das entsprechende Dokument aufrufst werden dir dann links die verknüpften Dokumente aufgelistet

[HowTo] Papierloses Heim mit Paperless inkl. OCR

Jetzt mitmachen!

Tags

Benutzer online in diesem Thema