케세라세라: 2025

2025년 8월 7일 목요일

엘라스틱 Runtime field - 13th

uri에서 변수를 추출하는 런타임 필드.

Elasticsearch 9.0의 변화 - 5th

단일 노드 조건에서 버전 업그레이드는 매우 간단하다. data와 config 디렉토리만 덮어쓰면 됨. 그런데 'v9.0.3 -> v9.1.0' 업그레이드 과정에서 다음 에러 발생. 'v9.0.1 -> v9.0.3' 과정까지는 문제 없었는데(..)

PS D:\ELK\elasticsearch-9.1.0\bin> .\elasticsearch
java.lang.RuntimeException: starting java failed with [1]
output:
[0.003s][error][logging] Error opening log file 'logs/gc.log': No such file or directory
[0.003s][error][logging] Initialization of output 'file=logs/gc.log' using options 'filecount=32,filesize=64m' failed.
error:
Invalid -Xlog option '-Xlog:gc*,gc+age=trace,safepoint:file=logs/gc.log:utctime,level,pid,tags:filecount=32,filesize=64m', see error log for details.
Error: Could not create the Java Virtual Machine.

VIM 꼼수의 발견 - 12th

vim 명령 모드에서는 운영체제 명령어를 실행할 수 있다.

VIM vs AWK

vim을 이용한 월단위 시간 정보 요약.

데이터 노가다 실수담 - 12th

리눅스 secure 로그는 연도 정보를 기록하지 않는다. 다음은 filebeat의 시간 정보 파싱 프로세서.

processors:
  - include_fields:
      fields: "message"
  - dissect:
      field: "message"
      tokenizer: "%{timestamp->} %{+timestamp} %{+timestamp} %{} %{procs->} %{msg}"
      target_prefix: ""
  - timestamp:
      field: "timestamp"
      layouts:
        - "Jan 2 15:04:05"
        - "Jan 02 15:04:05"

CentOS7의 Splunk - 3rd

인덱서 서비스 등록. init 서비스로 등록된다.

[root@Splunk splunk]# bin/splunk enable boot-start                       
Init script installed at /etc/init.d/splunk.
Init script is configured to run at boot.
[root@Splunk splunk]#
[root@Splunk splunk]# ls /etc/init.d/
functions  netconsole  network  README  splunk  sshd
cs

우리 본성의 악한 천사

'우리 본성의 선한 천사', '지금 다시 계몽'으로 대중적 성공을 거둔 심리학자 스티븐 핑커 비평서.

종합하면, 앞의 17개 장은 '우리 본성의 선한 천사 '와 '지금 다시 계몽 '에 대한 최종적 비평에 다름없다. 이 비평의 전반적 평은 굉장이 부정적이다 (803 페이지)

미국과 영국의 역사학자 17인이 저술에 참여했는데 용어, 개념 정리부터 시작하는 모습에서 그들의 깊은 빡침이 느껴진다.

스티븐 핑커에게는 역사와 역사적 방법론에 대한 깊은 이해가 거의 없다. 자신이 언급하는 역사시대와 사람들에 대한 깊은 지식이 없는 핑커의 책은 그저 역사에 대한 오해에 근거한 일반화 모음집에 불과할 수밖에 없다 (400 페이지)

스플렁크와 엘라스틱의 인덱싱

경로 정보가 없는 윈도우 auditlog. 검색 결과에 하이라이트 표시가 되어 있다. 스플렁크는 empty값도 인덱싱을 하나?

Filebeat의 multi path

filebeat 설정.

filebeat.inputs:
- type: filestream
  id: my-filestream-id
  enabled: true
  paths:
    - d:\firewall.log
  prospector.scanner.fingerprint.enabled: false

filebeat.config.modules:
  path: ${path.config}/modules.d/*.yml
  reload.enabled: false

setup.template.settings:
  index.number_of_shards: 1

Elasticsearch 9.0의 변화 - 4th

엘라스틱은 30일 간의 유료 라이센스 체험 기능을 제공한다.

CentOS7의 Splunk - 2nd

스플렁크 RPM 설치 실패.

[root@Splunk ~]# rpm -ivh splunk-9.4.3-237ebbd22314.x86_64.rpm
error: splunk-9.4.3-237ebbd22314.x86_64.rpm: headerRead failed: hdr data: BAD, no. of bytes(19932197) out of range
error: splunk-9.4.3-237ebbd22314.x86_64.rpm cannot be installed
Colored by Color Scripter
cs

헤더 정보를 못 읽는다는 뜻인가? 설치 파일은 문제가 없는 것 같은데?

[root@Splunk ~]# file splunk-9.4.3-237ebbd22314.x86_64.rpm
splunk-9.4.3-237ebbd22314.x86_64.rpm: RPM v3.0 bin i386/x86_64 splunk-9.4.3-237ebbd22314
cs

Splunk의 데이터 전처리 - 3rd

스플렁크는 3단계의 윈도우 이벤트 전처리 과정을 제공한다. 이중 wel-eq-kv를 제외한 나머지는 모두 정규표현식으로 동작.

데이터 노가다 실수담 - 11th

3개의 필드로 이루어진 테이블. a가 있으면 c가 없고, c가 있으면 a가 없는 구조.

Elasticsearch 9.0의 변화 - 3rd

On master node

클러스터 마스터 노드 설정(elasticsearch.yml).

# Enable encryption and mutual authentication between cluster nodes
xpack.security.transport.ssl:
  enabled: true
  verification_mode: certificate
  keystore.path: certs/transport.p12
  truststore.path: certs/transport.p12
# Create a new cluster with the current node only
# Additional nodes can still join the cluster later
cluster.initial_master_nodes: ["192.168.31.177"]
 

Elasticsearch 9.0의 변화 - 2nd

stack mornitoring 실행하니 이런 에러가 뜬다. 개체 암호화키가 필요하다고?

에러 메시지 안 뜰 수도 있음

엘라스틱 Runtime field - 12th

잘 동작하는 정규표현식.

Splunk의 날짜 계산

최근 30일 데이터의 주간 단위 발생 통계. '월~일요일' 단위 집계 결과를 보여준다.

Splunk의 unix time

audit.log 연동. 소스타입 선택과 관계 없이 unix time을 잘 인식한다.

지금 경계선에서

저자 레베카 코스타. 예전에 읽다 용두사미 결론에 실망하며 덮었던 기억이 나는데 오랫만에 다시 읽어봄.

마야, 로마 등 사라진 문명은 그 복잡도가 인간의 인지 능력 한계까지 발전했을 때 망조가 들었다는 초반부는 재미있다. 관료제하의 모든 사람은 자신이 가장 무능해질 때까지 승진한다는 피터의 법칙이 떠오름.

유기체가 생존 가능성을 높이려면 유기체의 복잡성이 환경의 복잡성과 대등한 수준이 되어야 한다 (29 페이지)

사회의 해결 능력을 훌쩍 뛰어넘는 수준으로 문제가 복잡해지면, 사회가 더 이상 문제 해결책을 '사고 '할 수 없는 시점(인식 한계점)에 도달하게 되면 해결되지 않은 문제들은 다음 세대로 떠넘겨지고 결국 해당 문명을 낭떠러지 끝으로 밀어낸다 (36 페이지)

Beat processors - 7th

audit.log 연동.

processors:
  - include_fields:
      fields: "message"
  - copy_fields:
      fields:
        - from: message
          to: message2
  - replace:
      fields:
        - field: "message2"
          pattern: "\""
          replacement: ""
  - script:
      lang: javascript
      source: >

Filebeat 9.0의 변화

audit.log 연동.

filebeat.inputs:
- type: filestream
  id: my-filestream-id
  enabled: true
  paths:
    - d:\test.log

output.console:
  pretty: true

processors:
  - include_fields:
      fields: "message"

Logstash 필터 ruby - 8th

audit.log 연동.

filter {
 mutate {
  remove_field => ["@timestamp", "@version", "path", "host"]
 }

 kv {}

 dissect {
  mapping => {"msg" => "%{}(%{timestamp}:%{}"}
 }
}

filter {
 mutate {
  remove_field => ["@timestamp", "@version", "path", "host"]
 }

 dissect {
  mapping => {"message" => '%{}"%{}" %{status} %{}'}
  convert_datatype => {"status" => "int"}
 }

Logstash 필터 geoip - 2nd

geoip 필터를 이용하면 위경도를 포함한 ip 주소의 다양한 지리 정보를 사용할 수 있다.

{
    "message" => "122.213.34.56",
      "geoip" => {
             "longitude" => 139.6297,
                    "ip" => "122.213.34.56",
         "country_code3" => "JP",
              "latitude" => 35.5843,
              "timezone" => "Asia/Tokyo",
             "city_name" => "Chitose",
           "region_name" => "Kanagawa",
           "region_code" => "14",
              "location" => {
            "lat" => 35.5843,
            "lon" => 139.6297

ingest pipeline - 6th

로그스태시는 조건문으로 필터의 유기적인 실행 관계를 설정할 수 있다. beat processor도 마찬가지. 다음은 데이터 조건에 따라 달라지는 로그스태시 필터.

filter {
 mutate {
  remove_field => ["@timestamp", "@version", "path", "host"]
 }

 dissect {
  mapping => {"message" => '%{} "%{} %{uri} %{}" %{}'}
 }

- script:
    lang: javascript
    source: >
      function process(evt) 
        var str = evt.Get('message').split(';')
        evt.Put('result', str)
      }

{
  "@timestamp": "2025-02-27T03:49:19.802Z",
  "@metadata": {
    "beat": "filebeat",
    "type": "_doc",
    "version": "8.17.0"
  },
  "message": "type:  5 crl.root-x1.letsencrypt.org.edgekey.net;type:  5 e8652.dscx.akamaiedge.net;::ffff:23.207.177.83;",

Splunk 대시보드 - 3rd

스플렁크 대시보드 생성 시 조건 입력창은 다섯 가지인데 UI만 다를 뿐 기능은 모두 동일하다.

나라를 위해서 일한다는 거짓말

노한동 문체부 전 서기관이 10년 공직 경험을 바탕으로 쓴 자전 에세이.

전도유망한 30대 서기관이 공직을 그만두고 책을 쓴 이유는 무엇일까? 저자는 그 이유를 '비효율', '헛짓거리', '쓸데없는 일' 세 단어로 고백한다.

공직사회의 일이란 그저 관습에 따르거나 기관장을 빛내기 위한 거대한 비효율의 반복 (83페이지)

진짜 필요한 일이 아닌 헛짓거리에 자신의 인생을 갈아 넣으며 느끼는 공무원들의 자괴감 (188페이지)

공직사회는 일을 못한다. 관료가 게을러서도, 철밥통이어서도 아니다. 그저 쓸데없는 일이 너무 많아서다 (274페이지)

누가 그랬다. 노동 없는 삶은 부패하지만 영혼 없는 노동은 삶을 질식시킨다고.

Logstash 필터 ruby - 6th

캡쳐그룹 순서번호는 1부터 시작한다.

Logstash 필터 ruby - 5th

ruby 필터는 == 등의 비교 연산자를 지원하지 않는다. 다음은 include 메소드를 이용한 ? 검사.

ruby {
 code => "
  if event.get('message').include?('?')
   event.set('result', 'TRUE')
  else
   event.set('result', 'FALSE')
  end	
 "
}

Logstash 필터 split

공백으로 구분된 데이터.

[2025-01-14T21:09:09,525][INFO ][logstash.agent           ] Pipelines running {:count=>1, :running_pipelines=>[:main], :non_running_pipelines=>[]}
{
    "message" => "a b c\r"
}

mutate 필터의 split 옵션을 적용하면 다중값 구조로 바뀐다.

filter {
 mutate {
  remove_field => ["host", "@version", "path", "@timestamp"]
  split => {"message" => " "}
 }
}

Beat processors - 5th

filebeat를 이용한 웹로그 전처리.

processors:
  - include_fields:
      fields: "message"
  - if.contains:
      message: "?"
    then:
      - dissect:
          tokenizer: '%{clientip} %{} %{} [%{timestamp} %{}] "%{method} %{url}?%{param} %{}" %{status} %{}'
          field: "message"
          target_prefix: "" 
    else:
      - dissect:
          tokenizer: '%{clientip} %{} %{} [%{timestamp} %{}] "%{method} %{url} %{}" %{status} %{}'
          field: "message"
          target_prefix: ""

Thick data

맥킨지, 구글 등 쟁쟁한 이력을 자랑하는 백영재 문화인류학 박사의 2023년작. thick data라는 낯선 용어가 시선을 끈다. 두꺼워? 데이터가?

뭔 말인가 했더니 인류학에서 뭔가를 관찰할 때 고유 맥락과 상황을 포함시켜 연구 대상을 더 구체적이고 풍부하게 묘사하는 thick description에서 따온 말이라고.

빅데이터는 표면상으로 드러난 데이터, thick data는 표면에서는 보이지 않는 배경과 맥락을 포함한 데이터라는게 저자의 설명.

빅데이터는 '무엇을 얼마나 '에 관해서만 설명할 수 있다면, thick data는 '어떤 맥락에서 왜 '에 관해 말해 준다...

오직 thick data만이 빅데이터가 매끈하게 정규화, 표준화하느라 의도적으로 외면한 인간의 실제 경험, 진짜 얼굴을 보여준다 (14페이지)

페이지

2025년 8월 7일 목요일

2025년 8월 6일 수요일

2025년 8월 3일 일요일

2025년 7월 23일 수요일

2025년 7월 19일 토요일

2025년 7월 16일 수요일

2025년 7월 13일 일요일

2025년 7월 9일 수요일

2025년 6월 27일 금요일

2025년 6월 21일 토요일

2025년 6월 15일 일요일

2025년 6월 14일 토요일

2025년 6월 8일 일요일

2025년 5월 22일 목요일

2025년 5월 20일 화요일

2025년 5월 18일 일요일

2025년 5월 14일 수요일

2025년 5월 11일 일요일

2025년 5월 7일 수요일

2025년 5월 2일 금요일

2025년 4월 28일 월요일

2025년 4월 22일 화요일

2025년 4월 20일 일요일

2025년 4월 13일 일요일

2025년 4월 4일 금요일

2025년 3월 28일 금요일

2025년 3월 23일 일요일

2025년 3월 17일 월요일

2025년 3월 14일 금요일

2025년 3월 12일 수요일

2025년 3월 6일 목요일

2025년 3월 3일 월요일

2025년 2월 27일 목요일

2025년 2월 14일 금요일

2025년 1월 22일 수요일

2025년 1월 18일 토요일

2025년 1월 14일 화요일

2025년 1월 13일 월요일

2025년 1월 4일 토요일

크리에이티브 커먼즈 라이선스