Набрел на yarxi-pl — консольная версия яркси на перле. Подумал было сделать апгрейт бота, давно хотел в жаббере получить яркси, но решил что хуйня эта не нужная, ведь можно найти сложный путь всегда. Например, сделать словарь в формате EPWING, а для бота написать плагин который будет делать конект к eblook например, и не нужны будут больше шлюзы к dic.yahoo.co.jp, ведь похоже они берут все данные из этих словарей. Но да ладно, приоритет пока был дан на сам словарь яркси. Ну а дальше дело было за конвертором в EPWING.
Немного о самом EPWING-ге. Бинарная хрень, которая использует euc-jp кодировку из-за которой проблемы, делаются глифы которые не входят в euc-jp во внешне файлики которые именуются gaiji, а это начиная от простых символах которые и так часто используется
❶❷②① кончая радикалами. Готовят их с несколькими размерами. Потом эти глифы будут смотреться отвратительно относительно шрифтов в системе. Ну в яркси разве что «» кандидаты в gaiji, так что с этим возится не нужно. В цвет шрифта EPWING не может, только болт и италик может. Из готовых конверторов под прыщи есть FreePWING, на перле, годно сделали, трушно даже бы сказал. Дока на японском правда, но логику можно узнать скачав словари и их исходный код. Суть его в том что бы подготовить Makefile и парсер.Выше упоминал о yarxi-pl, который тоже на перле, так что подключив его пакеджи можно получить доступ к базе без того что бы самому парсить текстовые файлы, которые брейнфак напоминают. Не знаю, наверное на жаве и правда легко парсить такую хрень:
Кандзи файл
jr_kan:0708201247/1под-`a`3*tsugu*^01129*|A`*02984_|близкий#чему-л.#,напоминающий#что-л.#/#преф.#суб-,под-/#хим.#-истый;недо-/@0(1)/#сокр.#Азия/мел{^^z3374}`1:226,1:1093,1:1326,2:1012,2:362,2:584,2:721,3:724,3:725,3:654,4:1197,4:1340,4:1285,4:51062,4:657,5:33736,5:5111,6:38193`A43B81C0a7.14D3540E1331F1809G997`0|1[1]2[13]4[15]5[1]
Составные слова танго
jr_tan:16721740``aitai`&*1быть лицом к лицу&*5лично,с глазу на глаз&*5по взаимному соглашению ^128026_
Пока разобрался что к чему, день прошел. Зато минимум модификации кода yarxi-pl.
Скрин, слева консольный яркси yarxi-pl, ebview, lookup в емаксе
Страничка с проектом: http://code.google.com/p/yarxi-epwing/
Если обнаружите
? в словаре пишите, возможно пропустил символ которого нету в euc-jp.