Pytanie:
Potrzebujesz programu do usuwania informacji ze zeskanowanych dokumentów
thequantumguy01
2014-10-22 00:34:02 UTC
view on stackexchange narkive permalink

Mam około 200 skanów PDF, które wymagają systematycznego usuwania informacji. Ta informacja do usunięcia zawiera zestaw cyfr, które mogą mieć różną długość.

Obecny plan polega na wydrukowaniu każdego dokumentu, usunięciu informacji i ponownym zeskanowaniu. Miałem nadzieję, że uda się zautomatyzować ten proces.

Próbowałem użyć OCR programu Adobe Acrobat Pro, a następnie znaleźć i zamienić funkcje w programie Word, ale napotkałem kilka problemów. Nie mogę dowiedzieć się, jak wyszukiwać liczby w wielu dokumentach programu Word, a kiedy używam OCR w dokumentach w programie Adobe Acrobat, znajduje obrazy, które są na stronie i konwertuje je na tekst.

Jeśli jest Każde oprogramowanie, które może to zautomatyzować, byłoby naprawdę pomocne.

Czy te cyfry zawsze znajdują się w tym samym miejscu na stronie (np. W prawym dolnym rogu), czy też znajdują się w tekście?
Znajdują się one zawsze mniej więcej w tym samym miejscu. Są to jednak dokumenty zeskanowane, więc nie można zagwarantować dokładnej lokalizacji.
Pomyślałem, że rozmycie ustalonego zaznaczenia na wszystkich obrazach byłoby łatwiejsze niż drukowanie i OCR
Jeden odpowiedź:
user416
2014-10-22 12:52:39 UTC
view on stackexchange narkive permalink

Z twojego pytania / komentarzy wynika, że ​​pliki PDF zawierają tylko obrazy.

1) Wyodrębnij obrazy za pomocą ekstraktora obrazów PDF, takiego jak IweSoft PDF Image Extractor.

2) Rozmyj odpowiedni tekst na obrazach

3) Złóż obrazy z powrotem w nowy plik PDF za pomocą dowolnego narzędzia (do tworzenia plików PDF są setki opcje, więc nie będę się w to zagłębiał)

Problem, który znalazłem w tym przypadku, polega na tym, że pliki PDF mogą składać się z wielu stron, a po konwersji na obrazy dzielą się. Nie mogę znaleźć programu, który rozpozna te obrazy jako część jednego pliku i zbiorczo skonwertuje je z powrotem na pliki PDF.
Zakładałem jeden obraz na stronę. Kiedyś używałem ekstraktora (zapomniałem nazwy), który nazywał obrazy sekwencyjnie.


To pytanie i odpowiedź zostało automatycznie przetłumaczone z języka angielskiego.Oryginalna treść jest dostępna na stackexchange, za co dziękujemy za licencję cc by-sa 3.0, w ramach której jest rozpowszechniana.
Loading...