Extrahieren von Text aus verschiedenen Dokumentenformaten
PDF und DOC sind heutzutage wahrscheinlich die gängigsten Endungen für digitale Dokumente. Das bedeutet, dass man einen PDF-Reader und eine DOC-kompatible App haben muss, sonst ist man verloren.
Glücklicherweise gibt es einen weiteren Trick, mit dem Sie PDF, DOC und andere gängige Dokumentformate lesen können, ohne die zugehörige Software installieren zu müssen. Verwenden Sie einfach das Text Mining Tool, ein einfaches Dienstprogramm, das den Text aus jeder Datei extrahiert, die Sie in das Programm laden, und ihn auf dem Bildschirm anzeigt. Anschließend müssen Sie den Text nur noch als einfaches Format speichern oder ihn zur späteren Verwendung direkt in die Zwischenablage kopieren.
>
Das Programm enthält keine weiteren Konfigurationsoptionen, wodurch es sehr einfach zu bedienen ist. Der Nachteil ist, dass es keine Möglichkeit gibt, die Ausgabe anzupassen. Während unserer Tests haben wir den Text aus einem PDF-Dokument gerippt und die resultierende TXT-Datei war völlig verstümmelt, wenn sie in Notepad geöffnet wurde (nicht, wenn sie in Wordpad geöffnet wurde).
Text Mining Tool ist eine gute Wahl, um Text aus PDF und DOC in einfache Dateien zu extrahieren. Beachten Sie, dass sowohl Format als auch Bilder verloren gehen.