Wpis z mikrobloga

Zastanawiam sie czy w ramach trenimgu nie wziać się za program do rozpoznawania reczniepisanych słów. Chodzi mi zwlaszcza o słowa w języku rosyjskim, ale tez polskim i niemieckim. Przydałoby mi się coś takiego w moich badaniach genealogicznych, bo mógłbym łatwo sam rozczytywać i tłumaczyc na polski i indeksować księgi parafialne.
Z wstepnego rozeznania mysle zeby sprobowac #tensorflow i #opencv . Ktoś próbował czegos takiego i moze polecic inne rozwiazania? Moze jest cos prawie gotowego opensourcowego co moznaby rozwinąć?

#programowanie #programista15k
  • 10
ludzie na forum dotyczacym #genealogia tlumacza akty po rosyjsku


@WilczurZnahor: A to jeszcze wtedy musiałbyś wziąć pod uwagę przedrewolucyjną ortografię, co dość dużo zmienia (zniknięcie liter і, ѳ, ѣ oraz w dużej mierze ъ bardzo zmienia kształt rosyjskiego tekstu) A co do genealogii i języka niemieckiego, to dodam, że dominujący 100 lat temu był Kurrentschrift, który zupełnie nie przypomina ani współczesnego pisma odręcznego, ani ówczesnego pisma odręcznego używanego przez Polaków: [↓]
vytah - > ludzie na forum dotyczacym #genealogia tlumacza akty po rosyjsku

@Wilczu...

źródło: comment_1636318022cv7h4FbjMDusTqEpO88nVP.jpg

Pobierz
@vytah: dzieki! To istotne informacje. Na poczatek chcialem rosyjski. Sądzisz ze te zmiany w rosyjskim bedą blokujące jesli chodzi o uzycie obecnej bazy reczniepisanych liter? Mozna orzygotowac wlasne datasety na podstawie aktów, choc to znacznie zwieksza czas pracy :)
Sądzisz ze te zmiany w rosyjskim bedą blokujące jesli chodzi o uzycie obecnej bazy reczniepisanych liter?


@WilczurZnahor: Ciężko powiedzieć, ale raczej tak. Występujące w końcówkach wielu nazwisk i przymiotników ій może być błędnie zinterpretowane jako ш lub т; ъ na końcu wyrazu jako ь, ч, г lub б; ѳ jako э, е lub о; ѣ to już w ogóle pole do popisu dla modelu do zgadywania. Biorąc pod uwagę, że interesują