2018년 2월 11일 일요일

Logstash 필터 geoip

Wireshark는 maxmind 데이베이스를 이용해서 IP의 지리정보 매핑을 지원한다.


그런데 엘라스틱도 같은 방식으로 해당 기능을 지원한다. 다음은 아파치 웹로그 연동을 위한 로그스태시 파이프라인 설정.
input {
 file {
  path => "D:/sample.log"
  start_position => "beginning"
 }
}
filter {
 grok { match => { "message" => "%{COMMONAPACHELOG}" } }
 date { match => [ "timestamp", "dd/MMM/yyyy:HH:mm:ss Z" ] }
 geoip { source => "clientip" }
}
output {
 elasticsearch {
  hosts => [ "localhost:9200" ]
 }
}

maxmind 데이터베이스는 이미 내장되어 있기 때문에 대상 필드를 geoip 필터로 지정해주기만 하면 됨. 다음은 필터링 결과. 국가 코드 및 이름, 위경도 정보 등이 보인다.


다음은 위경도 정보를 이용한 'Coordinate Map' 생성 결과.


이때 위경도 정보를 갖는 geoip.location 필드는 반드시 geo_point 데이터 타입을 가지고 있어야 하는데, 로그스태시 기본 인덱스명을 사용한다면 신경쓸 게 아무 것도 없다.


하지만 다음처럼 인덱스명을 별도로 지정하면 골치 아파짐.
output {
elasticsearch {
  hosts => [ "localhost:9200" ]
  index => "apache_log"
 }
}

인덱스명을 별도로 만들었더니 geo_point 타입의 geoip.location 필드가 사라진다.


당연히 지도 그리기는 실패.


이를 해결하는 가장 간단한 방법은 로그스태시 매핑 템플릿을 사용하도록 인덱스명에 logstash를 접두어로 붙이는 것이다. 인덱스명에 목숨 걸지 말자


그런데 지리정보 필드가 2개 이상이면? 

이때는 인덱스명에 logstash 접두어를 붙여도 소용이 없다. 로그스태시 매핑 템플릿의 geoip.location 필드는 하나뿐이기 때문.

2개 이상의 필드를 구분해서 지리정보를 매핑하려면 필드별로 별도의 geoip를 지정해줘야 한다. 일단 먼저 매핑부터 변경.


전체 매핑 구조는 다음과 같기 때문에, 구조에 맞춰서 매핑 편집 작업을 해주면 된다.
{
  "logstash-snort_log": {
    "mappings": {
      "doc": {
        "properties": {
          "geoip": {       
            "location": {
              "type": "geo_point"
            }
          }     
        }
      }
    }
  }
}

이제 geo_point 타입을 갖는 2개의 location 필드가 준비됐으니, 해당 location 필드와 대상 필드를 매칭해주는 필터 표현식을 작성하면 된다. 다음은 geoip 필터의 target 옵션을 이용해서 geoip를 분리해주는 필터 표현식.
filter {
  geoip {
    source => "inet_ntoa(c.ip_src)"
    target => "geoip_src"
  }

  geoip {
    source => "inet_ntoa(c.ip_dst)"
    target => "geoip_dst"
  }
}

로그 연동 결과는 다음과 같다. 기본 필드인 geoip.location 외에 2개의 location 필드가 추가됐음을 알 수 있다.


사실 geo_point 타입의 location 필드 없어도 국가 코드, 이름 등의 정보는 사용할 수 있기 때문에, 지도가 필요 없다면 인덱스명이나 매핑 편집 등은 신경쓰지 않아도 된다. 하지만 지도를 반드시 그려야겠다면 살짝 귀찮아질 각오를 해야 함.

관련 글

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스