Potrzebujesz programu do usuwania informacji ze zeskanowanych dokumentów

thequantumguy01

2014-10-22 00:34:02 UTC

view on stackexchange narkive permalink

Mam około 200 skanów PDF, które wymagają systematycznego usuwania informacji. Ta informacja do usunięcia zawiera zestaw cyfr, które mogą mieć różną długość.

Obecny plan polega na wydrukowaniu każdego dokumentu, usunięciu informacji i ponownym zeskanowaniu. Miałem nadzieję, że uda się zautomatyzować ten proces.

Próbowałem użyć OCR programu Adobe Acrobat Pro, a następnie znaleźć i zamienić funkcje w programie Word, ale napotkałem kilka problemów. Nie mogę dowiedzieć się, jak wyszukiwać liczby w wielu dokumentach programu Word, a kiedy używam OCR w dokumentach w programie Adobe Acrobat, znajduje obrazy, które są na stronie i konwertuje je na tekst.

Jeśli jest Każde oprogramowanie, które może to zautomatyzować, byłoby naprawdę pomocne.

Czy te cyfry zawsze znajdują się w tym samym miejscu na stronie (np. W prawym dolnym rogu), czy też znajdują się w tekście?

Znajdują się one zawsze mniej więcej w tym samym miejscu. Są to jednak dokumenty zeskanowane, więc nie można zagwarantować dokładnej lokalizacji.

Pomyślałem, że rozmycie ustalonego zaznaczenia na wszystkich obrazach byłoby łatwiejsze niż drukowanie i OCR