| |
ABBYY FineReader XIX
| |
ABBYY FineReader XIX
Pierwsza aplikacja rozpoznająca wiele krojów czcionek
napisanych frakturą i gotykiem.
|
 |
Ogólne informacje:
ABBYY FineReader XIX to specjalna wersja oprogramowania do optycznego rozpoznawania
znaków FineReader, przeznaczona do rozpoznawania tekstów pisanych frakturą lub
pismem gotyckim z okresu pomiędzy 1800 a 1938 rokiem. Jego zadaniem jest przetwarzanie
zeskanowanych obrazów starych dokumentów, książek i pism na tekst elektroniczny,
umożliwiający cyfrową archiwizację i publikację. Program OCR obsługuje wiele krojów
pisma napisanych frakturą.
Dodatkowe informacje:
ABBYY FineReader XIX to pierwsza aplikacja obsługująca wiele krojów pisma do
rozpoznawania znaków pisanych frakturą, która umożliwia skanowanie i przetwarzanie
starych dokumentów, przy minimum "uczenia" i pracy ze słownikiem. Efekt
taki udało się osiągnąć dzięki połączeniu niezwykle inteligentnej technologii
i specjalistycznych badań językowych.
Systemy OCR analizują obraz tekstu i tworzą hipotezę odnośnie tego, jakie widnieją
na nim litery lub słowa. Hipotezy są następnie analizowane w kontekście i weryfikowane
przy użyciu zaawansowanych słowników OCR, powstałych na podstawie modeli języka.
Modele języka to komputerowe bazy danych opisujące słownictwo danego języka. Ponieważ
współczesne systemy OCR nie dysponują modelami języka dla starszych czcionek i
starszych odmian ortografii opracowano słowniki OCR przeznaczone dla tego konkretnego
okresu czasu. Powstały więc specjalne modele języka dla pięciu języków europejskich.
Modele języka dla czcionki Fraktur utworzono przy współudziale współpracującej
z ABBYY firmy ATAPY Software. Na etapie ich tworzenia przeanalizowano 10 różnych
słowników i ponad 105 książek opublikowanych pomiędzy 1808 a 1930 rokiem. Zasobami
językowymi zajęli się lingwiści, rozpoznając słowa, które zanikły w toku ewolucji
języków, a także identyfikując poprawne powiązania wzorców służące do synchronizowania
modeli języka z gramatyką poprawną dla konkretnego okresu czasu. Wymagało to ręcznego
porównania ponad 500 tys. słów z istniejącymi słownikami programu FineReader.
Weryfikacja wzorców gramatycznych i wariantów ewolucyjnych słów spowodowała,
że do współczesnych modeli języków dodano 159 brakujących historycznych wzorów
gramatycznych. Modele języków poddano następnie kompilacji i przetestowano je
na kontrolnej grupie dokumentów, zawierających dawne teksty.
Aby umożliwić rozpoznawanie czcionek frakturowych, zespół programistyczny firmy
ABBYY stworzył specjalne klasyfikatory (alfabety), zdolne do rozpoznawania symboli
czcionki Fraktur. W ramach tych prac utworzone zostały nowy wzorzec alfabetu -
baza obrazów, zawierająca ok. 2,5 tys. próbek dla każdego znaku - oraz testowa
baza przykładów, licząca 31 tys. stron tekstów z różnych źródeł. Mechanizm rozpoznawania
znaków został na ich podstawie "dostrojony" tak, aby radził sobie z
subtelnościami pisma frakturowego, takimi jak ligatury. Nowy alfabet został następnie
dodany do systemu i interfejsu FineReader.
Współpraca z najważniejszymi instytucjami zajmującymi się archiwizacją
tekstów
Program ABBYY FineReader XIX powstał również z myślą o potrzebach uniwersytetów
i centrów badawczych. Prace nad produktem prowadzone były przy współudziale międzynarodowej
organizacji METAe Project. METAe to konsorcjum bibliotek i firm zajmujących się
digitalizacją z całej Europy. Współpracują one przy tworzeniu oprogramowania METAe
Engine, zaprojektowanego specjalnie w celu uporządkowania obiegu zadań związanych
z archiwizacja i digitalizacją materiałów historycznych, takich jak książki, magazyny,
czasopisma i gazety. ABBYY FineReader XIX stanowić będzie podstawowy mechanizm,
pozwalający zarchiwizować niektóre z najcenniejszych dla Europy dokumentów historycznych.
W projekcie METAe uczestniczą m.in.: Uniwersytet w Innsbrucku (Austria), Uniwersytet
Florencki (Włochy), Bibliotéque Nationale de France, Norweska Biblioteka Narodowa,
fundacja Freiedricha-Eberta (Niemcy), CCS Compact Computer Systeme (Niemcy) oraz
biblioteka uniwersytetu Cornella (USA).
Dane techniczne:
Wymagania systemowe:
- Komputer z procesorem Intel® Pentium®/Celeron®/Xeon™, AMD
K6/Athlon™/ Duron™ lub kompatybilnym o min. częstotliwości 200 MHz
- Microsoft Windows 2003, Windows XP, Windows 2000, Windows NT 4.0 (z dodatkiem
serwisowym SP6 lub późniejszym), Windows Me/98 (praca z interfejsem zlokalizowanym
wymaga obsługi odpowiedniego języka)
- 64 MB pamięci RAM dla systemów Windows 2003/XP/2000/NT4.0; 32 MB pamięci
RAM dla systemów Windows Me/98. Dodatkowe 16 MB pamięci RAM dla każdego dodatkowego
procesora w systemach wieloprocesorowych
- 230 MB miejsca na dysku dla instalacji standardowej, 70 MB miejsca na dysku
na potrzeby programu
- Przeglądarka Microsoft® Internet Explorer 4.0 lub nowsza (pakiet zawiera
Microsoft® Internet Explorer 5.01)
- Skaner, kamera cyfrowa lub modem w 100% zgodne ze standardem TWAIN
- Karta graficzna i monitor (min. rozdzielczość 800x600)
- Klawiatura, mysz lub inne urządzenie wejściowe
Obsługiwane formaty obrazu:
- BMP: czarno-białe, w skali szarości, kolorowe
- PCX, DCX: czarno-białe, w skali szarości, kolorowe
- JPEG: w skali szarości, kolorowe
- JPEG 2000/Part1: w skali szarości, kolorowe
- PNG: obrazy czarno-białe, w skali szarości, kolorowe
- TIFF: obrazy czarno-białe, w skali szarości, kolorowe, wielostronicowe. Metody
kompresji: niespakowane, CCITT Group 3, CCITT Group 3 FAX(2D), CCITT Group 4,
PackBits, JPEG, ZIP
- PDF
Formaty zapisu dokumentów:
- Microsoft® Word XP, 2000, 97, 95
- RTF
- TXT
- Tekst Unicode
- Microsoft® Excel XP, 2000, 97, 95
- HTML 3.2/4.0
- HTML 3.2/4.0 Unicode
- DBF
- CSV
- PDF 3.0, 4.0
|
|