[HowTo] Papierloses Heim mit Paperless inkl. OCR

  • hm okay. Hatte ich noch keine Probleme, aber nutze ich tatsächlich zu selten. Ich scanne lieber ein...

    teste ich mal :)

    das Einzige was am Ende zählt ist
    dass ihr lebt was ihr liebt und liebt wofür ihr lebt


    Kodi HTPC - W11 | AMD Athlon 3000G | Pioneer A 504R Bj. 96
    OMV NAS - NAS | Emby Server | LogitechMediaServer
    3x Logitech SqueezeBox & 3x RasPi PiCorePlayer
    Unifi Netzwerk | Sophos XGS Firewall | Agfeo TK | Kentix Security
    Loxone SmartHome

  • Vllt. mache ich auch nur was falsch? Kannst ja mal berichten, ob es bei dir klappt und wenn ja, dann sagen, wie du das genau gemacht hast.

    Testweise dann natürlich auch mit und ohne WLAN. :D

    Meine Geräte:
    Wohnzimmer: LG OLED55C17LB mit HDFury Diva Ambilight, Denon AVR-X2500H,AXAS E4HD Ultra DVB-C, NVIDIA ShieldTV Pro (2019), Teufel Ultima MK2 5.1-Set & Atmos Reflect Speaker
    Schlafzimmer: Samsung UE55KU6079, FireTV Stick 4k Max Gen.2, Teufel Cinebar One, Teufel Subwoofer T6
    Zubehör: Logitech Harmony 950 mit Hub, Amazon Alexa (2x Dot Gen.4, 2x Echo Show 5 Gen.2, 1x Echo Show 10 Gen.1), Philips Hue, Google Nest, Playstation 5 & PSVR2, Xbox Series X, Nintendo Switch, Meta Quest 3, PC

  • hm, bisher löfts und löfts

    hab jetzt 10 verschiedene Fotos gemacht, 2 Android Geräte und auch verschiedene Vorgänge ... also mal nur ein Foto & Upload, mal mehrere Fotos und dann Upload.

    Ohne Murren, Meckern und Schimpfen. Mal die logs durchschauen du musst ;)

    wir sind nun bei Version 2.11.6

    Release Paperless-ngx v2.11.6 · paperless-ngx/paperless-ngx
    paperless-ngx 2.11.6 NotePaperless-ngx v2.11.6 fixes an issue with one of our dependencies that prevented uploading files in version 2.11.5. "Bare-metal" users…
    github.com

    paar Bugfixes, gerade mit NLTK (Texterkennung) gab es Probleme die nun gefixt sind.

    Ich habe für mich nun auch ein paar weitere Anpassungen entdeckt die hier und da helfen:


    Alles in Allem - ein tolles Tool, immernoch :) Kommt auch mit größeren Zeichnungen super zurecht und die Erkennung von Normschrift gelingt sehr gut.

    das Einzige was am Ende zählt ist
    dass ihr lebt was ihr liebt und liebt wofür ihr lebt


    Kodi HTPC - W11 | AMD Athlon 3000G | Pioneer A 504R Bj. 96
    OMV NAS - NAS | Emby Server | LogitechMediaServer
    3x Logitech SqueezeBox & 3x RasPi PiCorePlayer
    Unifi Netzwerk | Sophos XGS Firewall | Agfeo TK | Kentix Security
    Loxone SmartHome

  • Hab paperless ngx als Docker auf meinem unraid laufen, erstes Dokument in den consume Ordner geschoben,

    Fortschritsbalken läuft, das PDF ist im media Ordner, allerdings ist das PDF nicht durchsuchbar,

    muss ich für die OCR noch was in den Einstellungen von paperless einstellen?

  • Kommt auf deine Docker Config drauf an. Ich habs direkt in meiner compose datei hinterlegt wie er OCRen soll, aber im Paperless selbst könnte man das auch einstellen ...

    Unter enviroment ist das wichtig:

    PAPERLESS_OCR_LANGUAGES: deu eng

    das Einzige was am Ende zählt ist
    dass ihr lebt was ihr liebt und liebt wofür ihr lebt


    Kodi HTPC - W11 | AMD Athlon 3000G | Pioneer A 504R Bj. 96
    OMV NAS - NAS | Emby Server | LogitechMediaServer
    3x Logitech SqueezeBox & 3x RasPi PiCorePlayer
    Unifi Netzwerk | Sophos XGS Firewall | Agfeo TK | Kentix Security
    Loxone SmartHome

  • ja gut, nur mit deutsch muss es ja auch laufen wenns deutscher Text ist. Daran sollte es nicht liegen...

    woran hast du erkannt, dass das OCR nicht gehen soll?

    das Einzige was am Ende zählt ist
    dass ihr lebt was ihr liebt und liebt wofür ihr lebt


    Kodi HTPC - W11 | AMD Athlon 3000G | Pioneer A 504R Bj. 96
    OMV NAS - NAS | Emby Server | LogitechMediaServer
    3x Logitech SqueezeBox & 3x RasPi PiCorePlayer
    Unifi Netzwerk | Sophos XGS Firewall | Agfeo TK | Kentix Security
    Loxone SmartHome

  • im Doucments Pfad gibt es einmal das Archiv und das Original - Original bleibt wie es eingescannt wurde, Archiv sind die OCR Dokumente.

    Wenn du im Paperless das Dokument auswählst kannst du oben einmal auf "Inhalt" gehen - da siehst du was er wie erkannt hat.


    Wenn da ebenso wenig bis nichts da steht ...

    in die logs von Paperless sowie dem Container mal reinschauen wenn das Dokument verarbeitet wird.

    Zeig uns doch mal dein Paperless compose datei bzw wie du das Ding angelegt hast und gern ein Screenshot von dem Dokument ...

    das Einzige was am Ende zählt ist
    dass ihr lebt was ihr liebt und liebt wofür ihr lebt


    Kodi HTPC - W11 | AMD Athlon 3000G | Pioneer A 504R Bj. 96
    OMV NAS - NAS | Emby Server | LogitechMediaServer
    3x Logitech SqueezeBox & 3x RasPi PiCorePlayer
    Unifi Netzwerk | Sophos XGS Firewall | Agfeo TK | Kentix Security
    Loxone SmartHome

  • Du suchst im Paperless - entweder ganz oben die Suchleiste oder unter Dokumente und gibst den Begriff ein den du brauchst. Auf der dateiebene machst du eigentlich absolut garnichts. Höchstens was in den Consume Ordner direkt scannen lassen - rest geht über die Weboberfläche. In Diese kannst du ebenso überall eine Datei ziehen und diese wird dann verarbeitet im Hintergrund - egal wo du gerade bist im Paperless

    Begriff eingeben:


    Wenn du dann auf das Auge bei dem Dokument drückst öffnet es sich im Vollbild und markiert dir sogar Farblich deinen gesuchten Begriff.



    btw - warum schiebst du die Docker Container direkt ins interne Netz? Kann man machen aber ... ist nicht ganz Sinn vom Docker. Aber das ist erstmal unwichtig im ersten Schritt ...

    das Einzige was am Ende zählt ist
    dass ihr lebt was ihr liebt und liebt wofür ihr lebt


    Kodi HTPC - W11 | AMD Athlon 3000G | Pioneer A 504R Bj. 96
    OMV NAS - NAS | Emby Server | LogitechMediaServer
    3x Logitech SqueezeBox & 3x RasPi PiCorePlayer
    Unifi Netzwerk | Sophos XGS Firewall | Agfeo TK | Kentix Security
    Loxone SmartHome

  • btw - warum schiebst du die Docker Container direkt ins interne Netz? Kann man machen aber ... ist nicht ganz Sinn vom Docker. Aber das ist erstmal unwichtig im ersten Schritt ...

    Danke erstmal für deine Antworten!

    Zu der Frage Container ins intene Netz? Damit kann ich erst mal nix anfangen, hab an den Voreinstellungen ausser den"Dokumentenpfaden" nichts verändert.

  • bspw. beim Redis - dort ist eine IP aus dem 178er Netz angegeben, ich denke mal das ist dein lokales ... normal hängen docker container in einem eigenen virtuellen abgeschotteten Netzwerk auf dem Host und nicht direkt im Netzwerk. Aber ich kenn mich zu wenig / garnicht mit unraid aus :(

    das Einzige was am Ende zählt ist
    dass ihr lebt was ihr liebt und liebt wofür ihr lebt


    Kodi HTPC - W11 | AMD Athlon 3000G | Pioneer A 504R Bj. 96
    OMV NAS - NAS | Emby Server | LogitechMediaServer
    3x Logitech SqueezeBox & 3x RasPi PiCorePlayer
    Unifi Netzwerk | Sophos XGS Firewall | Agfeo TK | Kentix Security
    Loxone SmartHome

  • So...

    ich bin jetzt dazugekommen mich auch mal auf Paperless(-ngx) zu stürzen und schon die ersten Dokumente da drinnen. Und natürlich tauchen gleich die ersten Fragen auf.

    Einmal bzg. meinen Gehaltsabrechungen. Ich bekomme die kurz vor Monatsende für den aktuellen Monat. Und in dem Umschlag sind dann meist noch Rückrechnungen für die letzten 1-3 Monate dabei, weil natürlich div. Zuschläge erst berechnet werden können, wenn die jeweiligen Arbeitszeiten von der Personalabteilung bearbeitet wurde. Anfang des Jahres bekomme ich übrigens gerne mal zwei Umschläge. Da ist dann eine Rückrechnung für alle Monate des vergangenen Jahres dabei. Und gerne mal dann 2-3 Korrekturen dies Sozialabgaben-Jahresabrechnungs-Wisches.

    Einscannen will ich da der Bequemlichkeit eigentlich immer den kompletten Umschlag, und irgendwie gehört sich das ja als eine Korrespondenz zusammen. Jetzt wäre aber natürlich schön, wenn Paperless aber:

    • das Datum mit Monat/Jahr speichert und nicht Tag.Monat.Jahr, bzw. es ein entsprechendes Feld gibt
    • bei ner Suche nach der Abrechnung mir auch die dazugehörigen Rückrechnungen (bzw. die PDFs in der die drinnen ist) anzeigt, bzw. ich halt einfach weiß, welche Monate in welchen Dokument sind.

    Ich habe auch mal zwei Dokumentenköpfe angehängt. Einmal die erste Seite, das ist die Abrechnung für den laufenden Monat - September 2024 gleich ganz oben, ich hoffe das ist relativ selbsterklärend:

    Und hier der Kopf für die Rückrechung für den Juli die dann die erste Seite der Rückrechnung ist (und interessanterweise auch die Seitennummer 1 trägt, obwohl da 3 m.E. richtiger wäre...)

    Habt ihr da Ideen?


    Und noch eine Frage:

    Ich habe einen Drucker mit ADF der mir gescannte Dokumente per FTP auf mein OMV schiebt - aber nur einseitig. Gibts einen softwaretechnischen Weg, wie man Vorder- & Rückseite automatisch zusammenführen kann? ich persönlich denke da ja jetzt an ein Script/Programm dass einen speziellen Duplex-Eingangsordner überwacht. Sobald zwei Dokumente da drinnen liegen, geht das Mopped davon aus: erstes Dokument Seite 1, 3, 5,...; zweites Dokument Seite 2, 4, 6,... gießt das in ein PDF und schiebt das in einen anderen Ordner.
    Hat da auch wer ne Idee?

    Zitat von root2

    Merke: Das "S" in "IoT" steht für Sicherheit!

    Einmal editiert, zuletzt von da_user (5. Oktober 2024 um 16:06)

  • 100% hab ichs nicht ganz kapiert weil mir das einfach zu kompliziert ist :D so ein hin und her und wieder Rolle rückwärts ... also ... egal :D

    zu 1. nö. Du hast immer einen Tag an dem das Ding nuneinmal erstellt wurde oder simpel per Post abgestemptel / ankam. Fertig. Ist ja nicht weiter erheblich der Tag ansich.

    zu 2. - klar!

    Du gehst oben Rechts auf "Benutzerdefiniertes Feld" und gibst dem Ding einen Namen und sagst Typ "Dokumentenzuordnung". Damit kannst du dann beliebig viele Dokumente diesem zuordnen. Das schöne dabei - es ist automatisch Rückwärts ebenso dann eingetragen. Sprich bei dem zugeordneten Dokument steht das aktuelle sofort mit drin.

    Dann würde ich gleich eine Automatikregel erstellen für den Typ Gehaltsabrechnung, sodass immer dieses Benutzerdefinierte Feld enthalten ist. Wenn du willst kannst du weitere Felder hinzufügen wie "Rückrechnung bis" als Datumsfeld usw. Muss aber nicht.




    Zu dem anderen Thema - einerseits geht das mit Paperless - dort kannst du auch Dokumente zusammenfügen, trennen usw., automatisieren kannst du das bspw. mit qpdf:

    Code
    qpdf --empty --pages file1.pdf file2.pdf -- merged.pdf

    oder

    qpdf --collate --pages ScanFronts.pdf 1-z ScanBacks.pdf z-1 -- Combined.pdf

    So ganz raus hab ich noch nicht wie das automatisch mit paperless geht hmmm:

    Feature: collate two single-sided multipage scans by brakhane · Pull Request #3784 · paperless-ngx/paperless-ngx
    Proposed change Some ADF (like mine) only support single-sided scans, making scanning double-sided documents a bit annoying. This new feature enables…
    github.com

    das Einzige was am Ende zählt ist
    dass ihr lebt was ihr liebt und liebt wofür ihr lebt


    Kodi HTPC - W11 | AMD Athlon 3000G | Pioneer A 504R Bj. 96
    OMV NAS - NAS | Emby Server | LogitechMediaServer
    3x Logitech SqueezeBox & 3x RasPi PiCorePlayer
    Unifi Netzwerk | Sophos XGS Firewall | Agfeo TK | Kentix Security
    Loxone SmartHome

  • 100% hab ichs nicht ganz kapiert weil mir das einfach zu kompliziert ist :D so ein hin und her und wieder Rolle rückwärts ... also ... egal :D

    Wie unsere Gehaltsabrechnungen so halt sind.... Habe vor nicht allzu langer Zeit welche von meiner alten Firma in den Händen gehabt, die war schön simpel und einfach, und da hatte ich auch ähnliche Zuschläge... Keine Ahnung warum wir im öD das wieder so kompliziert machen müssen...

    zu 2. - klar!

    Du gehst oben Rechts auf "Benutzerdefiniertes Feld" und gibst dem Ding einen Namen und sagst Typ "Dokumentenzuordnung". Damit kannst du dann beliebig viele Dokumente diesem zuordnen. Das schöne dabei - es ist automatisch Rückwärts ebenso dann eingetragen. Sprich bei dem zugeordneten Dokument steht das aktuelle sofort mit drin.

    Dann würde ich gleich eine Automatikregel erstellen für den Typ Gehaltsabrechnung, sodass immer dieses Benutzerdefinierte Feld enthalten ist. Wenn du willst kannst du weitere Felder hinzufügen wie "Rückrechnung bis" als Datumsfeld usw. Muss aber nicht.

    Ähm... ich vertehe jetzt auf's erste nur Bahnhof, aber ich guck mir das mal an.

    Und automatisch Zusammenfügen guck ich mir auch an...

    Zitat von root2

    Merke: Das "S" in "IoT" steht für Sicherheit!

  • Ja hoffe ich hatte das richtig verstanden [ah] ansonsten nochmal aufmalen was du jetzt meintest / brauchst oder wie du dir das vorstellst das es gut wäre :D

    das Einzige was am Ende zählt ist
    dass ihr lebt was ihr liebt und liebt wofür ihr lebt


    Kodi HTPC - W11 | AMD Athlon 3000G | Pioneer A 504R Bj. 96
    OMV NAS - NAS | Emby Server | LogitechMediaServer
    3x Logitech SqueezeBox & 3x RasPi PiCorePlayer
    Unifi Netzwerk | Sophos XGS Firewall | Agfeo TK | Kentix Security
    Loxone SmartHome

  • Naja.. grundsätzlich will ich mir z.B. die Gehaltsabrechnung für Juli 2023 anzeigen lassen, bei der - rein theoretisch Stand jetzt - die Gehaltsabrechnungen 07/2023, 08/2023, 09/203 und 01/2024 aufploppen müssten, da im August und September Rückrechnungen erfolgt sind.

    Übrigens habe ich in meinen Post das Bild vom Kopf der Rückrechnung vergessen. Ist jetzt drinnen. Es gibt quasi im Dokument "Gehaltsabrechnung" mehrmals den Wert 'für Monat/Jahr'.

    Zitat von root2

    Merke: Das "S" in "IoT" steht für Sicherheit!

  • Ja Dann passt mein beschriebenes. Wennndas so machst und das entsprechende Dokument aufrufst werden dir dann links die verknüpften Dokumente aufgelistet :)

    das Einzige was am Ende zählt ist
    dass ihr lebt was ihr liebt und liebt wofür ihr lebt


    Kodi HTPC - W11 | AMD Athlon 3000G | Pioneer A 504R Bj. 96
    OMV NAS - NAS | Emby Server | LogitechMediaServer
    3x Logitech SqueezeBox & 3x RasPi PiCorePlayer
    Unifi Netzwerk | Sophos XGS Firewall | Agfeo TK | Kentix Security
    Loxone SmartHome

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!