Monografia dotyczy transkrypcji fonematycznej tekstów języka polskiego. Zasadniczym osiągnięciem Autora jest sformułowanie i opracowanie pod kątem potrzeb tworzenia reguł transkrypcji fonematycznej koncepcji tak zwanej maszyny probabilistycznej (w skrócie MP). Jest to w pełni oryginalna, autorska koncepcja systemu uczącego się, który na podstawie danych empirycznych potrafi budować określone statystyki, a mając te statystyki - korzystać z nich w rozwiązywaniu określonych problemów - w tym także zagadnień adaptacyjnego doboru i rekonstrukcji reguł transkrypcji fonematycznej.
Data driven reconstruction of phonemic transcriptions rules
In this dissertation a new, data-driven method for minimum-context grapheme-tophoneme transcription rules is presented. We make use of decision trees constructed on the basis of an analysis of two aligned sign sequences which constitutie a training sample. It was shown how to evaluate whether the training sample has a sufficient size and evaluations of the sizes of the issued data structures. The method can be easily adopted for a long-distance correlations revealing.