На сайте в разделе книги есть два файла с тайско-русским словарем Морева - версия с распознанным текстом и просто pdf-файл (по сути картинки). В файле с распознанным текстом можно искать по тексту, но это не очень удобно по причине того что стандартный поиск в pdf-файле находит все вхождения, а нужно например найти как слово начинается. В связи с чем я решил "оцифровать" словарь Морева. Для этого в админке сайта создана страница с автодополнением тайских слов (они загружены из файла-словаря Volubilis), так же есть поле для заполнения страницы.

После того как слово добавлено в админке, на сайте появляется "перевод" на русский язык. На деле, пока что это просто ссылка на отсканированную страницу в словаре Морева. С 2021-12-16 по 2022-10-18 добавлено всего 1078 слов (тут надо бы написать о пропадающей время от времени мотивации к изучению иностранных языков, но об этом как нибудь в следующем посте). Когда начал писать этот пост поискал в Яндексе "словарь Морева" нашел сайт, который предлагает поиск с указанием страниц(ы). На деле там никакого полнотекстового поиска нет, просто отбрасываются диактрические значки, дальше в диапазоне слов ищется слово, которое по идее должно быть в словаре (на деле его там может и не быть). На страницах словаря Морева, в верхней части, написано с какого слова эта страница начинается, а каким словом заканчивается. Все что между этими словам и "ищется".

Зачем вообще весь этот геморой с добавлением слов, а тем более руками? Ответ достаточно простой: первое - чтобы научиться быстро печатать не глядя на клавиатуру, второе - закрепить навык чтения так чтобы это в мозгах осталось. Я достаточно рано научился читать еще до школы и читал много разных книг, в результате чего испортил себе зрение, но был в этом и положительный момент: я почти не делаю ошибок в тексте. Диктанты в школе я всегда писал на 4-5, хотя никогда не учил никаких правил. Да, я путался (и сейчас тоже) с запятыми, но с орфографией в целом проблем почти нет (разве что от невнимательности, а не от незнания как написать слово правильно). Если послушать различных полиглотов, что они говорят об эффективных методах изучения языка, то надо пробовать все что есть: чтение, слушать/смотреть, говорить на новом языке.

Изначально у меня был план взять распознать весь текст, например с помощью Tesseract OCR, а дальше уже закинуть все это в базу данных. Затем решил все таки перейти к способу, описанному выше, чтобы хотя бы тайские слова были записаны точно. Следующим этапом будет распознавание русского текста и добавление в базу только слов, без подробных описаний как в словаре, но пока это не точно.