Nicht in der Lage zu extrahieren, die gescannte pdf-Datei mit der TesseractOCRConfig Apache Tika

Meine pdf-Datei enthält gescannte Bilder, und ich will zum extrahieren von text aus.

Was habe ich versucht : ich habe versucht, mit AutoDetectParsers aber keine Ausgabe.

Habe ich die Lösung in Apache Tika-Extrakt gescannten PDF-Dateien und auch Apache Tika Jira bei https://issues.apache.org/jira/browse/TIKA-1729 aber immer leerer string ohne Fehler.

Meine Konfiguration : Win 7 64-bit-Betriebssystem, JDK 1.8.0_45.

Jede Art von Hilfe ist willkommen.

  • Sie haben Tesseract installiert und an der Stelle in deiner config? Haben Sie versucht, nach dem Tika Troubleshooting Guide?
  • Ich bin mit maven zu installieren, alle Gläser, die gehören Tesseract. Ich habe genommen einen Blick auf die Troubleshooting-guide für Keine Inhalte Extrahiert problem. Ich habe die aktuellste version(1.13) der Apache-tika-app.jar und versucht, die GUI zu überprüfen, die Extraktion aber keine Ausgabe.
  • Tesseract ist nicht eine Java-Bibliothek, so dass Maven wird dir nicht helfen. Sie müssen downloaden und installieren Sie das native Programm für Ihr Betriebssystem
  • Ich möchte nicht jede software für diese. Ich will TesseractOCR java-api, die verwendet werden können, in meine java-Anwendung. Eh nur für den Spaß, den ich installiert tesseract-desktop-app und versuchte mein pdf, seine extrahieren einige falsche Wörter.
  • Tesseract ist ein natives Programm, das Sie herunterladen und getrennt installieren. Alle Tika Schiffen in den entsprechenden Wrapper für Tesseract, um es zu aktivieren verwendet zu werden, wenn installiert
  • Kann ich exctract Sie text aus einem gescannten pdf-Datei, ohne Installation von jedem nativen Programm in meinem system? Wenn Nein, dann wird es ziehen mich in eine Abhängigkeit von einem nativen Programm zu laufen meine java-Applikation, die ich vermeiden möchte.
  • Versuchen Sie softwarerecs.stackexchange.com
  • Vielen Dank für Ihre Hilfe. Ich habe Tesseract installiert und versucht zu laufen tesseract von tika mit new TesseractOCRConfig().setTesseractPath(tesseractFolder);. Ich kann leicht extrahieren von text aus Bildern, pdf-Datei mit einzelnen Bildes, aber nicht aus PDF-Dateien, wo mehrere Bilder vorhanden sind. Ich bekomme keine Fehler aber auch keine Ausgabe.
  • Dies hat mir geholfen link in der Lösung des Problems. Die Frage war : Tika sank die Unterstützung für das extrahieren von TIFF-Bildern aus PDF-Dateien in 1.13 und für die, die wir hinzufügen müssen, um eine weitere Abhängigkeit <dependency> <groupId>com.github.jai-imageio</groupId> <artifactId>jai-imageio-core</artifactId> <version>1.3.1</version> </dependency>. Danke.

InformationsquelleAutor Rana | 2016-09-29



One Reply
  1. 8

    Schritte zu Folgen, um dieses Problem zu lösen :

    1. Install Tesseract in Ihrem system mit Hilfe ‚tesseract-ocr-setup-3.05.00dev.exe‘ für Windows aus: https://sourceforge.net/projects/tesseract-ocr-alt/files/ und legen Sie dessen Position in Ihrer config.

      Java-code :

      Parser parser = new AutoDetectParser();
      BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
      TesseractOCRConfig config = new TesseractOCRConfig();
      config.setTesseractPath(tPath);
      PDFParserConfig pdfConfig = new PDFParserConfig();
      pdfConfig.setExtractInlineImages(true);
      pdfConfig.setExtractUniqueInlineImagesOnly(false); //set to false if pdf contains multiple images.
      ParseContext parseContext = new ParseContext();
      parseContext.set(TesseractOCRConfig.class, config);
      parseContext.set(PDFParserConfig.class, pdfConfig);
      //need to add this to make sure recursive parsing happens!
      parseContext.set(Parser.class, parser);
    2. Maven-Abhängigkeiten :

    <dependencies>
    <dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers</artifactId>
    <version>1.13</version>
    </dependency>
    <dependency>
    <groupId>com.levigo.jbig2</groupId>
    <artifactId>levigo-jbig2-imageio</artifactId>
    <version>1.6.5</version>
    </dependency>
    <dependency>
    <groupId>com.github.jai-imageio</groupId>
    <artifactId>jai-imageio-core</artifactId>
    <version>1.3.1</version>
    </dependency>
    </dependencies>

    Ich denke, es kann hilfreich sein. Danke.

    • Vielen Dank für diese. Hüten Sie sich vor der Lizenzierung Auswirkungen der Verwendung von levigo und jai. Wenn Sie Apache 2.0 kompatibel, wir würden eingebettet haben Sie.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.