Morfologik – usuwanie skrótów ze słownika

,

Korzystając z Morfologika jako stemmera Solr należy być świadomym, że w swoim słowniku zawiera również skróty. Niesie to ze sobą efekt, który nie zawsze jest pożądany. Dla przykładu, wyszukując frazę „office pl” otrzymujemy tokeny [office, pl, plac].
Co prawda można skorzystać z mechanizmu wyrazów chronionych, ale chyba lepszy rozwiązaniem jest usunięcie skrótów bezpośrednio ze słownika Morfologika.

Kompilacja słownika

1. Klonujemy repozytorium Mofrologika i przechodzimy do katalogu projektu.

2. Kompilujemy projekt.
Uwaga! Wymagany jest przynajmniej Maven w wersji 3.2.5

3. Dla wygody kopiujemy zawartość skompilowanego subprojektu morfologik-tools do nowego, tymczasowego katalogu.

4. Kopiujemy również oryginalny słownik polskiego.

5. Dekompilujemy powyższy słownik do pliku polish.txt.

6. Usunięcie skrótów zrealizujemy za pomocą skryptu, w tym celu tworzymy nowy plik wo-brev.php oraz wypełniamy go zawartością.

7. Uruchamiamy skrypt z punktu 6.

8. Zmieniamy nazwę pliku polish.info na polish-wo-brev.info.

9. Nowo powstały plik polish-wo-brev.txt kompilujemy.

Instalacja w Solr

1. Nowe pliki *.dist oraz *.info przenosimy do katalogu INSTALL_DIR/solr/server/resources

2. Definicja filtra w analzatorze wygląda następująco:

3. Restartujemy Solr i gotowe:)

Gotowy słownik możesz pobrać z mojego serwera.

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *