Konwersja obrazu na tekst (PDF do Worda) za darmo z użyciem Google Drive – Poradniki na co dzień

Blog trochę się ostatnimi czasy „zastał”, ale ruszamy za to ze świeżym poradnikiem, który przyda się w szczególności osobom, które muszą „na wczoraj” przeanalizować, bądź przekopiować duże fragmenty tekstu, które niestety są zapisane w formie skanu PDF bez edycji, bądź w formie obrazów JPG/PNG. Będziecie mogli za darmo i z dosyć dużym powodzeniem znacznie przyspieszyć swoją pracę.

Pomysł na napisanie tego poradnika wpadł mi do głowy po bolesnych doświadczeniach w pracy. Za zadanie miałem analizę 600 faktur, do których miałem przypisać numery zamówień kurierskich. Jeżeli nie wiecie, jak one wyglądają, to wam zaprezentuję – składają się z kilkudziesięciu, maciupkich liter i cyfr – i na moje nieszczęście na każdym z wyciągów tych potwierdzeń był co prawda listing zawartości potwierdzeń, lecz potwierdzenia miały całkiem inną kolejność, niż listing. Same numery były na tyle podobne do siebie, że bez sensowne było ich analizowanie, gdyż odnalezienie każdego numeru oznaczało przeglądanie „w koło macieju” około 100 stron różnych numerów.

W takiej sytuacji już nie chodzi o zwyczajne oszczędzanie oczu, czy też wykazywanie się sprytem, lecz zwyczajne nie narażanie osoby zlecającej nam zadanie na błędy. Bo przy takiej liczbie cyfr zdradzi nas konstrukcja naszego mózgu, wzrok i zwyczajne zmęczenie.

Być może nie spotkacie się z tak skomplikowanym problemem, lecz będziecie mieli np. za zadanie zwyczajnie przepisać fragment tekstu. Po co jednak ten tekst przepisywać, jak w łatwy sposób można go zwyczajnie rozpoznać? Wszystko dzięki Dyskowi Google! Nie będziecie zatem musieli wydawać kupy pieniędzy na pakiety typu FineReader. Niestety programy OCR nie są doskonałe i pamiętajmy, że nawet przy skanie najwyższej jakości będziemy musieli zawsze nieco manualnie podłubać. Ale oszczędność czasu pół dnia versus 30 minut lajtowej edycji, to chyba różnica :-).

Wykorzystamy w tym poradniku technologię OCR. Nazwa to skrót od Optical Character Recognition. Polega ona na działaniu specjalnie zaprogramowanego silnika, który na podstawie wprowadzonych do niego kilkuset/tysięcy wzorców porównuje je z przedstawionym mu skanem / obrazkiem / zdjęciem i na tej podstawie rozpoznaje i przetwarza te obrazy na litery, wyrazy, zdania i następnie cały dokument. Technologia OCR nie jest wynalazkiem nowym, lecz dalej jest ona niedoskonała i wymaga ingerencji człowieka – ale może przyczynić się do znacznego skrócenia naszej pracy z dokumentem i eliminuje potrzebę żmudnego i błędogennego przepisywania dokumentu, na rzecz lajtowej pomocy dla programu przy rozpoznawaniu.

A więc czego potrzebujemy?

  1. Skanu naszego dokumentu – na raz nie więcej niż kilkadziesiąt stron (niestety mimo usilnych starań nie mogłem znaleźć dokładnego limitu stron, jednak przyjmijmy, że nie więcej, niż 10-20 stron na jeden plik) – w wysokiej jakości – tj. 200 dpi w górę, ale pamiętajmy żeby plik nie przekraczał paru megabajtów – z osobistego doświadczenia i testu wiem, że rozdzielczość większa niż 200 dpi nie daje praktycznie żadnej różnicy w jakości rozpoznawania tekstu – przy 200 i 600 dpi rozpoznanie było praktycznie identyczne!
  2. Dokument nie może być zbyt skomplikowany graficznie, a czcionka nie może być na nim jakoś kosmicznie miała – powiedzmy, że czcionka o rozmiarze 8 i niżej nie da nam najlepszych rezultatów. Pamiętajmy, że Google Drive nie odtworzy nam w miarę wiernie wyglądu dokumentu – do tego będziemy już potrzebowali FineReadera
  3. Potrzebujemy konta Google. I tyle. W momencie, gdy mamy smartfon z Androidem i na nim utworzone konto Gmail – albo po prostu mamy pocztę Gmail, już jesteśmy ustawieni.

Krok pierwszy.

Wpisujemy w przeglądarkę adres: http://drive.google.com. Wpisujemy dane logowania, jak do poczty Gmail albo dowolnej innej usługi Google – już od jakiegoś czasu Google ma jednolite konto „do wszystkiego”.

Krok drugi.

Widzimy panel Dysku Google. Możemy tutaj wrzucać sobie pliki, a do naszego konta jest przypisane aż 15GB. Dysk działa podobnie jak foldery w Windowsie, a aplikacja ma podobny interfejs.

Krok trzeci.

Przechodzimy w Windowsie do folderu, gdzie mamy nasz plik, który chcemy rozpoznać. Możemy zaznaczyć jeden albo kilka plików i wszystkie je wrzucić. Po prostu zaznaczamy plik/i i przeciągamy je do okienka z Dyskiem Google, aż pojawi się komunikat jak na obrazku poniżej.

Krok czwarty.

Upuszczamy pliki i czekamy, aż się wgrają do Dysku.

Krok piąty.

Pliki pojawią się w Dysku Google. Klikamy prawym przyciskiem myszy na dokument, który chcemy rozpoznać i wybieramy z menu kontekstowego opcję „Otwórz w…” -> „Dokumenty Google”.

Pojawi nam się okno ładowania… i voila. Jeżeli wszystko poszło dobrze i nie przedobrzyliśmy z rozmiarem dokumentu, po dosłownie chwili pojawi nam się rozpoznany dokument, nie rzadko z prawidłowo dopisaną czcionką. W opcji Plik -> Pobierz jako… możemy zapisać plik praktycznie w dowolnym formacie, nawet .DOCX i przeformatować / poprawić go w dowolnym programie do edycji tekstu. Możemy też zwyczajnie zaznaczyć tekst i go przekopiować. Możemy też po prostu wewnątrz Dokumentów lekko poprawić tekst i posłać go natychmiast dalej e-mailem – możliwości jest bez liku. Właśnie zaoszczędziliśmy palce, oczy i ustrzegliśmy się od błędów – chyba, że literówek.

 

Ciekawostka: W poprzedniej wersji Google Drive (Dysku Google), Dysk automatycznie rozpoznawał wszelkie wgrane obrazy na tekst. Prawdopodobnie z uwagi na konieczność oszczędzania mocy obliczeniowej serwerów w chmurze Google, zrezygnowano z tej opcji, a sam silnik przetwarzania nieco „schowano”, aby odciążyć nieco serwery. Z uwagi na fakt, iż wszelkie obliczenia w tym zakresie wykonują serwery o potężnej mocy obliczeniowej, rozpoznawanie trwa błyskawicznie. Gorzej jakbyśmy tego musieli dokonywać sami – pobierzcie sobie wersję próbną FineReader’a do porównania – rozpoznawanie trwa wieki! Trzeba jednak oddać, iż jest dokładniejsze.

Ciekawostka 2: Rozpoznawanie tekstu Google opiera się open-source’owym silniku tesseract, projekcie stworzonym przez programistów-hobbystów, a następnie przez nich porzuconym, którym zainteresowało się Google, które dalej rozwija tenże silnik – nadal na zasadach open-source.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *