2021년 9월 11일 토요일

정규표현식 몰라도 된다

5일 중 3일을 정규표현식에 할애한 과정을 진행하다가 아차(?) 싶었던 첫 강의가 생각난다. 그렇게 정규표현식 비중을 줄이고 줄여서 현재 정규표현식 과정은 반나절 정도(..) 그럼에도 빠지지 않는 질문이 쉬운 정규표현식? 대체 방법? 

정규표현식이 쉬워지는 방법은 많이 써보는 수밖에 없다 보니 정규표현식을 사용하지 않고 원하는 테이블 구조를 만드는 방법에 대한 고민을 자주 한다. 일단 예제 데이터 생성.
| makeresults 
| eval url="/path1/a.php /path1/path2/b.php /path1/path2/path3/c.php"
| makemv delim=" " url
| mvexpand url
| table url


url 데이터에서 file 정보를 추출하고 싶다면? 역시 정규표현식 처리가 제일 간단하다. .*의 반복인 정규표현식도 매우 심플.
| eval file=replace(url, ".*/(.*)", "\1") 
| table url, file


url은 경로와 file 정보의 조합이며, /로 구분된다는 구조적 특징을 가지고 있다. 데이터 구조를 알고 있으니 /를 기준으로 .*과 같은 단순한 정규표현식 구문으로도 원하는 데이터 가공이 가능한 것.

정규표현식 몰라도 된다며?

데이터 구조의 특징을 똑같이 이용하면 정규표현식 몰라도 원하는 방향으로 데이터를 가공할 수 있다. 다음은 /를 기준으로 url 정보를 쪼개주는 eval 구문.
| eval file=split(url, "/") 
| table url, file


file 정보는 제일 마지막에 등장한다. 다음은 순서 번호를 이용해서 /를 기준으로 제일 마지막에 위치하는 문자열을 추출해주는 eval 구문. 처리 과정은 늘어났지만 정규표현식을 사용하지 않아도 같은 결과를 가져올 수 있다.
| eval file=split(url, "/") 
| eval file=mvindex(file, -1)
| table url, file


데이터를 알면 정규표현식을 이용한 데이터 가공도, 정규표현식을 배제한 데이터 가공도 모두 쉽다.
[정규표현식 3원칙]
1. 검사 대상 문자열에 대한 충분한 이해
2. 뚜렷한 검사 목적
3. 정규표현식에 대한 뚜렷한 이해

이 책이 끝날 때까지 이 3원칙, 특히 대상 문자열에 대한 이해의 중요성을 
지겹게 강조하는 나를 만나게 될 것이다 – 데이터 분석이 쉬워지는 정규표현식

관련 글

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스