반응형
문장에 여러가지 형태소가 존재한다. 여기서 명사 등의 체언을 뽑아내려 했다.
php를 지원해주는 mecab프로그램이 있어서 이를 설치했다.
그런데 문제가 발생했다. 위 사진처럼 튀르키예가 인식이 돼야하는데 인식이 안된다. "튀르" "키" "예"이런식으로 분리돼서 나오는 것이었다.
단어를 임의로 넣어야하는 상황.
1) 설치 했던 mecab-ko-dic폴더를 지우지 말아야한다! 이곳에 다시 들어가서 작업해야한다.
튀르키예는 지역이름이므로 place에 넣었다.
2) tools폴더로 간다.
cd ..
cd ./tools
3) 거시서 add-userdic.sh 쉘스크립트를 실행해준다.
만약 permission denied 메시지가 뜬다면
설치폴더로 복귀한 다음
cd ..
./autogen.sh를 실행하고
configure, make 등 다시 설치를 해준다.
그리고 나서 tools폴더로 가서
bash add-userdic.sh
이렇게 실행시켜준다.
4) 원래 설치폴더로 복귀
cd ..
5) 설치를 해준다.
make clean
make install
6) (이 단계는 주의 필요!)
cp sys.dic /usr/local/lib/mecab/dic/mecab-ko-dic/sys.dic
sys.dic을 덮어주는 명령인데 내가 했을 때엔 문제가 없었다.
7) 확인 및 완료
반응형
'PHP' 카테고리의 다른 글
window.print() 사용할 때 css까지 잘 적용시키는 방법 (0) | 2023.10.05 |
---|---|
[mysql] 테그 검색에 최적화된 함수 : FIND_IN_SET (0) | 2023.09.20 |
[java] 문자열 관련 함수 응용 (substring, indexOf) (0) | 2023.09.11 |
[SQLITE] substring을 보완해줄 instr함수 (문자열 관련 함수) (0) | 2023.09.11 |
[정규표현식] 개행문자를 여러번(1~n번)포함한 문자열 추출하기 (0) | 2023.09.05 |