PHP

[php] mecab 사전에 한국어를 임의로 등록해보자

미스털이 사용자 2023. 9. 14. 10:26
반응형

 

문장에 여러가지 형태소가 존재한다. 여기서 명사 등의 체언을 뽑아내려 했다.

 

php를 지원해주는 mecab프로그램이 있어서 이를 설치했다.

 

그런데 문제가 발생했다. 위 사진처럼 튀르키예가 인식이 돼야하는데 인식이 안된다. "튀르" "키" "예"이런식으로 분리돼서 나오는 것이었다.

 

단어를 임의로 넣어야하는 상황.

 

1) 설치 했던 mecab-ko-dic폴더를 지우지 말아야한다! 이곳에 다시 들어가서 작업해야한다.

튀르키예는 지역이름이므로 place에 넣었다.

 

2) tools폴더로 간다.

cd ..

cd ./tools

 

3) 거시서 add-userdic.sh 쉘스크립트를 실행해준다.

만약 permission denied 메시지가 뜬다면

 

설치폴더로 복귀한 다음

cd ..

 

./autogen.sh를 실행하고

configure, make 등 다시 설치를 해준다.

 

그리고 나서 tools폴더로 가서

bash add-userdic.sh

이렇게 실행시켜준다.

 

 

4) 원래 설치폴더로 복귀

cd ..

 

5) 설치를 해준다.

make clean

make install

 

 

6) (이 단계는 주의 필요!)

cp sys.dic /usr/local/lib/mecab/dic/mecab-ko-dic/sys.dic

sys.dic을 덮어주는 명령인데 내가 했을 때엔 문제가 없었다.

 

 

7) 확인 및 완료

 

 

반응형