2019년 11월 10일 일요일

Logstash 필터 useragent

웹 요청 트래픽에는 useragent라는 웹 요청을 시도할 때 사용된 도구에 대한 정보가 있다.


이걸 분석해보겠다고 예전엔 정규표현식으로 웹 로그의 useragent 문자열을 추출한 후, 유형과 운영체제 등을 일일이 분류하는 노가다를 했었는데(..)

'데이터 분석이 쉬워지는 정규표현식' 중

이걸 자동으로 해주는 useragent 필터

다음은 샘플 로그.
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; InfoPath.2; MS-RTC EA 2; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727) Havij
Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.1.2) Gecko/20070219 Firefox/2.0.0.2
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727) NOSEC.JSky/1.0

로그스태시 파이프라인 설정은 다음과 같다. 필터 실행 결과 필드가 너무 많아서 name 하나만 남겨 두고 remove_field 옵션으로 다 삭제.
input {
 file {
  path => "d:/test.log"
  start_position => "beginning"
  sincedb_path => "nul"
 }
}

filter {
 useragent { 
  source => "message"
  remove_field => [ "build", "os", "device", "os_name", "major", "minor", "os_major", "os_minor", "patch" ]
 }
}

output {
 stdout {}
}

다음은 실행 결과.
{
          "name" => "IE",
      "@version" => "1",
       "message" => "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; InfoPath.2; MS-RTC EA 2; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)\r",
          "path" => "d:/test.log",
    "@timestamp" => 2019-10-31T17:11:34.741Z,
          "host" => "MHKANG"
}
{
          "name" => "IE",
      "@version" => "1",
       "message" => "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727) Havij\r",
          "path" => "d:/test.log",
    "@timestamp" => 2019-10-31T17:11:34.742Z,
          "host" => "MHKANG"
}
{
          "name" => "Firefox",
      "@version" => "1",
       "message" => "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.1.2) Gecko/20070219 Firefox/2.0.0.2\r",
          "path" => "d:/test.log",
    "@timestamp" => 2019-10-31T17:11:34.742Z,
          "host" => "MHKANG"
}
{
          "name" => "IE",
      "@version" => "1",
       "message" => "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727) NOSEC.JSky/1.0\r",
          "path" => "d:/test.log",
    "@timestamp" => 2019-10-31T17:11:34.742Z,
          "host" => "MHKANG"
}

Havij와 JSky라는 웹 취약점 점검툴(=해킹툴)이 쓰였는데 그냥 IE로 표시된다. useragent 플러그인은 내부적으로 정규표현식을 사용하는데 Havij와 JSky를 검사하는 정규표현식이 없다는 얘기.

원하는 useragent 유형을 name 필드로 추출하려면 해당 useragent를 검사하는 정규표현식을 추가해야 한다. useragent 플러그인이 사용하는 정규표현식을 긁어와서 다음처럼 수정한 후, ua_regex.yaml로 저장했다.


다음은 수정된 로그스태시 파이프라인. regexes 옵션으로 수정된 정규표현식을 지정했으며, prefix 옵션은 useragent 플러그인이 추출하는 필드에 'agent_'란 접두어를 붙여서 가독성을 높여준다.
input {
 file {
  path => "d:/test.log"
  start_position => "beginning"
  sincedb_path => "nul"
 }
}

filter {
 useragent { 
  regexes => "d:/ua_regex.yaml"
  source => "message"
  prefix => "agent_"
  remove_field => [ "agent_build", "agent_os", "agent_device", "agent_os_name", "agent_major", "agent_minor", "agent_os_major", "agent_os_minor", "agent_patch" ]
 }
}

output {
 stdout {}
}

실행 결과, 의도대로 원하는 useragent 유형을 뽑아냈다.
{
          "host" => "MHKANG",
      "@version" => "1",
       "message" => "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; InfoPath.2; MS-RTC EA 2; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR 3.5.30729)\r",
          "path" => "d:/test.log",
    "@timestamp" => 2019-10-31T17:32:52.461Z,
    "agent_name" => "IE"
}
{
       "message" => "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727) Havij\r",
    "@timestamp" => 2019-10-31T17:32:52.462Z,
    "agent_name" => "Havij",
          "path" => "d:/test.log",
      "@version" => "1",
          "host" => "MHKANG"
}
{
          "host" => "MHKANG",
      "@version" => "1",
       "message" => "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.8.1.2) Gecko/20070219 Firefox/2.0.0.2\r",
          "path" => "d:/test.log",
    "@timestamp" => 2019-10-31T17:32:52.463Z,
    "agent_name" => "Firefox"
}
{
          "host" => "MHKANG",
      "@version" => "1",
       "message" => "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 2.0.50727) NOSEC.JSky/1.0\r",
          "path" => "d:/test.log",
    "@timestamp" => 2019-10-31T17:32:52.463Z,
    "agent_name" => "JSky"
}

다음은 내장된 정규표현식을 이용한 useragent 유형별 발생 추이.


다음은 수정된 정규표현식을 이용한 useragent 유형별 발생 추이.


해킹인지 아닌지는 URI를 까봐야 알 수 있겠지만, 이상징후 분석 관점에서는 useragent도 꽤 쓸만한 지표인 듯하다.

관련 글

댓글 없음:

댓글 쓰기

크리에이티브 커먼즈 라이선스