2025년 1월 14일 화요일

Logstash 필터 split

공백으로 구분된 데이터.
[2025-01-14T21:09:09,525][INFO ][logstash.agent           ] Pipelines running {:count=>1, :running_pipelines=>[:main], :non_running_pipelines=>[]}
{
    "message" => "a b c\r"
}

mutate 필터의 split 옵션을 적용하면 다중값 구조로 바뀐다.
filter {
 mutate {
  remove_field => ["host", "@version", "path", "@timestamp"]
  split => {"message" => " "}
 }
}

2025년 1월 13일 월요일

Filebeat의 processors - 5th

filebeat를 이용한 웹로그 전처리.
processors:
  - include_fields:
      fields: "message"
  - if.contains:
      message: "?"
    then:
      - dissect:
          tokenizer: '%{clientip} %{} %{} [%{timestamp} %{}] "%{method} %{url}?%{param} %{}" %{status} %{}'
          field: "message"
          target_prefix: "" 
    else:
      - dissect:
          tokenizer: '%{clientip} %{} %{} [%{timestamp} %{}] "%{method} %{url} %{}" %{status} %{}'
          field: "message"
          target_prefix: "" 

2025년 1월 4일 토요일

Thick data

맥킨지, 구글 등 쟁쟁한 이력을 자랑하는 백영재 문화인류학 박사의 2023년작. thick data라는 낯선 용어가 시선을 끈다. 두꺼워? 데이터가? 

뭔 말인가 했더니 인류학에서 뭔가를 관찰할 때 고유 맥락과 상황을 포함시켜 연구 대상을 더 구체적이고 풍부하게 묘사하는 thick description에서 따온 말이라고.

빅데이터는 표면상으로 드러난 데이터, thick data는 표면에서는 보이지 않는 배경과 맥락을 포함한 데이터라는게 저자의 설명.
빅데이터는 '무엇을 얼마나 '에 관해서만 설명할 수 있다면, thick data는 '어떤 맥락에서 왜 '에 관해 말해 준다...
오직 thick data만이 빅데이터가 매끈하게 정규화, 표준화하느라 의도적으로 외면한 인간의 실제 경험, 진짜 얼굴을 보여준다 (14페이지)

2024년 12월 31일 화요일

2024년에 있었던 일

2024년이 끝나가는구나? 아니다. 그냥 화요일이다. 일출 보러가자는 친구넘에게 해준 말. 니들 체력은 부럽다(..)


2024년 12월 29일 일요일

데이터 노가다 실수담 - 9th

스플렁크는 아파치 웹로그의 url 정보에서 경로를 제외한 파일 정보를 따로 추출해준다. 아파치만 해줌


2024년 11월 16일 토요일

구글 북 계정 중지(12.09 복원)

구글 콘텐츠 정책 위반으로 북 파트너 계정이 중지됐다. 


크리에이티브 커먼즈 라이선스