2017년 4월 11일 화요일

VIM 정규표현식과 한글

한글은 시스템 운영이나 보안 관점에서 분석할 필요가 없다. 시스템에 영향을 미치지 않기 때문. 하지만 의미 파악 관점에서는 분석이 필요할 수 있는데, VIM 정규표현식을 이용해서 한글을 검사할 때는 살짝 주의가 필요하다. 다음은 정규표현식 '[가-힣]'의 검사 결과.


VIM은 검사 결과가 다르다.


표현식의 범위를 조금씩 바꿔봤다. PCRE는 '[가-히]'부터 '[가-힢]'까지 모두 다음과 같은 결과를 보였다. 검사 범위가 정직하게 반영된다는 얘기.


그런데 VIM에서 '[가-힞]'부터 '[가-힣]'까지의 표현식은 제대로 검사하지 못한다.


결과적으로 VIM 정규표현식은 '[가-히]'부터 '[가-힝]'에서 가장 넓은 검사 범위를 보였다. 원인은 잘 모르겠다. VIM의 유니코드 지원이 완전하지 않은 듯. 


다행이라면 검사에 실패한 부분은 거의 쓰이지 않는 한글 조합이라는 것. '[가-힝]'만으로도 정상적으로 쓰이는 한글 조합 대부분을 검사할 수 있다는 뜻이다. 참고로 검사 범위를 유니코드로 지정하면 모든 한글 조합을 검사할 수 있다.


댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스