15 points
1 point

Danke für den Link. Das scheint interessant zu sein und werde ich mir anschauen.

PS: wie findet man eigentlich sowas? Kennst du dich einfach aus und weißt wonach du suchen musst oder hast du einen trick wie man der suchmaschine sinnvoll einfüttert, dass wenn man nach open source Texterkennung fragt nicht bloß tesseract rauskommt?

permalink
report
parent
reply
2 points

Ich habe mich Mal kurz beruflich mit solchen Sachen beschäftigt, weil wir tausende Laborberichte digitalisieren mussten. Da wir aber keine Softwareentwickler sind und meine Kenntnisse da bei weitem nicht reichen um sowas zuverlässig zu implementieren haben wir das dann letztlich von Studenten abtippen lassen ¯\_(ツ)_/¯

Auf DONUT war ein Arbeitskollege gestoßen, aber woher er das hatte weiß ich auch nicht.

permalink
report
parent
reply
1 point

Ach so ein persönlicher Abtippstudent wäre auch praktisch. :D Danke für die Info!

permalink
report
parent
reply
15 points

Ich glaub tesseract verwendet gar keine neuronalen Netze oder doch?

https://static.googleusercontent.com/media/research.google.com/de//pubs/archive/33418.pdf

permalink
report
reply
8 points

Eine Definition “Neuronale Netze” = KI gibt es nicht. Andere mathematische Methoden der heuristischen Mustererkennung könnte man genauso als KI bezeichnen oder eben beides nicht. Die meisten assoziieren moderne Deep Learning Systeme mit KI, aber eine feststehenden Definition ist das nicht. Liegt auch daran, dass schon für “Intelligenz” selbst verschiedene Definitionen existieren und das auch eher schwammig ist.

permalink
report
parent
reply
6 points

Laut LIESMICH ab version 4 schon:

Tesseract 4 adds a new neural net (LSTM) based OCR engine which is focused on line recognition, but also still supports the legacy Tesseract OCR engine of Tesseract 3 which works by recognizing character patterns.

permalink
report
parent
reply
2 points
*
Deleted by creator
permalink
report
parent
reply
10 points

So blöd es klingt und ich tesseract eigentlich mag, die Erkennung ist oft nicht sehr gut. Die kommerzielle Lösung von Adobe hat da mehr auf dem Kasten.

permalink
report
reply
5 points

pdfsandwich macht das recht zuverlässig und benutzt intern auch tesseract. Vermutlich mit besseren Parametern.

permalink
report
reply
6 points

Gerade ausprobiert. (Musste erst ein wenig in etc rumspielen, weil imagemagick wohl nicht genug rechte zum bearbeiten von pdfs hat) Das Ergebnis ist tatsächlich besser. Allerdings bin ich nur an der Textausgabe interessiert und nicht an einer durchsuchbaren pdf.

permalink
report
parent
reply
1 point

Dafür nehme ich pdftotext (glaube Teil von poppler).

Aber für dich wäre es vermutlich schlauer über debug modus, /proc/…/cmdline oder quellcode die settings für tesseract rauszufinden, die pdfsandwich verwendet, damit du dein frontend entsprechen konfigurieren kannst.

permalink
report
parent
reply
3 points

Welche OCR (KI) Anwendung hast du da denn verwendet?

permalink
report
reply
7 points
*

Steht dort, Tesseract. https://github.com/tesseract-ocr/tesseract

Edith: Oh, oder meinst du die GUI?

permalink
report
parent
reply
6 points

Falls er letzteres meint: OCRFeeder.

permalink
report
parent
reply
3 points

Danke, tesseract hatte ich übersehen und OCRFeeder kenne ich bisher nicht. Danke.

permalink
report
parent
reply

ich_iel

!ich_iel@feddit.de

Create post

Die offizielle Zweigstelle von ich_iel im Fediversum.

Alle Pfosten müssen den Titel ‘ich_iel’ haben, der Unterstrich darf durch ein beliebiges Symbol oder Bildschriftzeichen ersetzt werden. Ihr dürft euch frei entfalten!



📱 Empfohlene Schlaufon-Applikationen für Lassmich


Befreundete Kommunen:


Regeln:

1. Seid nett zueinander

Diskriminierung anderer Benutzer, Beleidigungen und Provokationen sind verboten.

2. Pfosten müssen den Titel 'ich_iel' oder 'ich iel' haben

Nur Pfosten mit dem Titel ‘ich_iel’ oder ‘ich iel’ sind zugelassen. Alle anderen werden automatisch entfernt.

Unterstrich oder Abstand dürfen durch ein beliebiges Textsymbol oder bis zu drei beliebige Emojis ersetzt werden.

3. Keine Hochwähl-Maimais oder (Eigen)werbung

Alle Pfosten, die um Hochwählis bitten oder Werbung beinhalten werden entfernt. Hiermit ist auch Eigenwerbung gemeint, z.b. für andere Gemeinschaften.

4. Keine Bildschirmschüsse von Unterhaltungen

Alle Pfosten, die Bildschirmschüsse von Unterhaltungen, wie beispielsweise aus WasistApplikaton oder Zwietracht zeigen, sind nicht erlaubt. Hierzu zählen auch Unterhaltungen mit KIs.

5. Keine kantigen Beiträge oder Meta-Beiträge

ich_iel ist kein kantiges Maimai-Brett. Meta-Beiträge, insbesondere über gelöschte oder gesperrte Beiträge, sind nicht erlaubt.

6. Keine Überfälle

Wer einen Überfall auf eine andere Gemeinschaft plant, muss diesen zuerst mit den Mods abklären. Brigadieren ist strengstens verboten.

7. Keine Ü40-Maimais

Maimais, die es bereits in die WasistApplikation-Familienplauderei geschafft haben oder von Rüdiger beim letzten Stammtisch herumgezeigt wurden, sind besser auf /c/ichbin40undlustig aufgehoben.

8. ich_iel ist eine humoristische Plattform

Alle Pfosten auf ich_iel müssen humorvoll gestaltet sein. Humor ist subjektiv, aber ein Pfosten muss zumindest einen humoristischen Anspruch haben. Die Atmosphäre auf ich_iel soll humorvoll und locker gehalten werden.

9. Keine Polemik, keine Köderbeiträge, keine Falschmeldungen

Beiträge, die wegen Polemik negativ auffallen, sind nicht gestattet. Desweiteren sind Pfosten nicht gestattet, die primär Empörung, Aufregung, Wut o.Ä. über ein (insbesonders, aber nicht nur) politisches Thema hervorrufen sollen. Die Verbreitung von Falschmeldungen ist bei uns nicht erlaubt.


Bitte beachtet auch die Regeln von Feddit.de

Community stats

  • 1

    Monthly active users

  • 5.6K

    Posts

  • 60K

    Comments