Wpisy z tagiem 'Sphinx'.

  1. Polskie formy wyrazów dla Sphinx

    Maciej Kłak,

    Polski język trudna język. Na obecną chwilę Sphinx (wersja 2.2.9) nie oferuje żadnego lematyzatora oraz stemmera dla języka polskiego. Sytuacja pewnie szybko się nie zmieni, zatem jesteśmy zmuszeni korzystać z pliku wordforms.

    Autorzy Sphinxa oprócz niezbędnych programów oferują również narzędzie spelldump, które w założeniu ma służyć do tworzenia pliku wordforms w oparciu o słownik ispell lub MySpell. Jak pokazują doświadczenia, nie jest to rozwiązanie idealne, szerzej na ten temat możesz przeczytać na blogu Allegro.

    Niestety nie znalazłem nigdzie gotowane pliku bazującego na odmianach polskich słów, zatem postanowiłem go stworzyć samemu.

    Owoc mojej pracy wraz z konfiguracją znajdziesz na Githubie. Dodam tylko, że plik współpracuje tylko z najnowszą wersją Sphinxa.