구글 콘텐츠 정책 위반으로 북 파트너 계정이 중지됐다.
Easy to analyze if you are really curious about data
2024년 11월 16일 토요일
2024년 11월 10일 일요일
2024년 10월 29일 화요일
2024년 10월 20일 일요일
2024년 10월 17일 목요일
2024년 10월 13일 일요일
시리즈 완결 후기
elastic
- Data Anomaly Detection (20.01.09)
- Deep dive into web log (21.01.07)
- Deep dive into system log (21.04.20)
- Deep dive into windows event (22.08.20)
splunk
- Data Anomaly Detection (21.08.30)
- Deep dive into web log (23.07.26)
- Deep dive into secure log (23.10.09)
- Deep dive into windows event (24.10.07)
2024년 10월 6일 일요일
2024년 9월 29일 일요일
2024년 9월 11일 수요일
내가 처음이 아니다
하나의 로그스태시 파이프라인에서 서로 다른 데이터를 수집, 서로 다른 인덱스에 저장하는 구성에 대한 질문을 받았다. 방법은 input 구간에서 출처별로 수집 플러그인을 분리한 후, output 구간에서 조건에 따라 저장명을 달리하는 것.
input { file { path => "a.log" }
file { path => "b.log" }}
2024년 9월 4일 수요일
2024년 8월 22일 목요일
2024년 8월 18일 일요일
2024년 8월 11일 일요일
2024년 8월 7일 수요일
2024년 8월 2일 금요일
2024년 8월 1일 목요일
2024년 7월 28일 일요일
2024년 7월 24일 수요일
windows event 계정 정보
윈도우 주요 이벤트 몇몇은 작업 주관자를 의미하는 subject와 작업 대상인 target 정보를 제공한다. 다음은 윈도우 기본 이벤트 4688. target 정보 누락 발생. (subject와 target이 같다는 의미인 것 같기는 한데)
2024년 7월 7일 일요일
for loop test
확장자 추출.
root@MHKANG:~# echo -e "a.txt\nb.php"|grep -oP "[^.]+$"
txt
php
윈도우는 파이프를 이용한 리다이렉션이 안 된다.
D:\>echo a.txt & echo.b.php
a.txt
b.php
D:\>echo a.txt & echo.b.php | findstr php
a.txt
b.php
2024년 6월 30일 일요일
2024년 6월 23일 일요일
2024년 6월 16일 일요일
데이터 시인성 - 7th
가끔 데이터값의 누적과 차감 변화를 보고 싶을 때가 있다. 샘플 데이터 입력.
POST _bulk{"index": {"_index": "test"}}{"@timestamp": "2024-06-15T00:10:00.000Z", "cnt": 10}{"index": {"_index": "test"}}{"@timestamp": "2024-06-15T00:20:01.000Z", "cnt": 15}{"index": {"_index": "test"}}{"@timestamp": "2024-06-15T00:30:02.000Z", "cnt": 25}{"index": {"_index": "test"}}{"@timestamp": "2024-06-15T00:40:03.000Z", "cnt": 50}{"index": {"_index": "test"}}{"@timestamp": "2024-06-15T00:50:04.000Z", "cnt": 40}
2024년 6월 12일 수요일
2024년 6월 11일 화요일
2024년 6월 7일 금요일
2024년 6월 2일 일요일
데이터 분석이 쉬워지는 비법 - 4th
미국은 이미 2000년대 중반부터 머신러닝까지 동원해가며 이상징후 분석을 시도했다. 그 결과는? 미국에서 성공한, 그래서 유명한 기술은 반드시 한국에서도 유행한다.
이제 모든 웹 로그 이상징후 분석에 이 분석 흐름도를 적용하면 될까? 개인적으로는 제법 잘 동작할 것이라 생각한다. 웹 로그의 각 상태를 잘 분류한 후, 요청과 응답 간의 관계를 고려한 통계 분석을 실시하면 충분히 유의미한 결과를 뽑아낼 수 있을 것이다. 하지만 세상에 완벽은 없다. 만약 저 분석 흐름도가 100% 완벽하다면 이미 미국에서 유행했을테고, 전 세계는 앞다퉈 그 유행을 받아들이지 않았을까? - 엘라스틱서치로 알아보는 이상징후 분석
2024년 5월 28일 화요일
2024년 5월 26일 일요일
2024년 5월 23일 목요일
엘라스틱 필드 유형 변환
로그스태시는 별도 설정이 없는 한, 숫자를 포함한 모든 데이터를 텍스트로 처리한다.
dissect { mapping => {"message" => "%{} %{} %{} %{} %{} %{} %{} %{} %{} %{} %{} %{status} %{}"}}
{ "status" => "200", "message" => "2011-01-12 20:44:18 192.168.48.11 POST /book/index.asp page=187 80 - 192.168.175.190 Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv:1.8.1.2) - 200 0 0 0\r"}
2024년 5월 22일 수요일
ingest pipeline - 4th
ingest pipeline 추가. (v8.13.0)
PUT _ingest/pipeline/test-pipeline{ "processors": [ { "dissect": { "field": "message", "pattern": "%{timestamp} %{+timestamp} %{} %{method} %{url} %{param} %{} %{} %{clientip} %{user_agent} %{} %{status} %{}" }, "convert": { "field": "status", "type": "integer" },
2024년 5월 17일 금요일
2024년 5월 6일 월요일
2024년 4월 21일 일요일
2024년 4월 18일 목요일
2024년 4월 12일 금요일
Filebeat의 processors - 4th
processors: - timestamp: field: timestamp layouts: - '2006-01-02 15:04:05'
2024년 4월 1일 월요일
composable template forbids index auto creation
로그스태시의 동적 매핑을 사용하면 키워드 필드의 ignore_above 값이 256으로 고정된다.
{ "test": { "aliases": {}, "mappings": { "properties": { "message": { "type": "text", "fields": { "keyword": { "type": "keyword", "ignore_above": 256
2024년 3월 21일 목요일
2024년 3월 17일 일요일
2024년 3월 14일 목요일
Filebeat의 processors - 3rd
프로토콜별로 불필요한 필드는 지우고 싶다.
processors: - include_fields: fields: "message" - dissect: tokenizer: "%{timestamp} %{+timestamp} %{action} %{protocol} %{sip} %{dip} %{sport} %{dport} %{tcpflags} %{icmptype} %{icmpcode}" target_prefix: ""
2024년 3월 10일 일요일
2024년 3월 1일 금요일
머신러닝의 한계? - 2nd
스플렁크는 데이터 이상징후 분석 기능을 제공한다. 그중 발생 빈도, 표준편차 등의 계산 방식으로 비정상 정도를 산정한다는 anomalousvalue에 변수 고유개수 분석을 맡겨봤다.
2024년 2월 25일 일요일
2024년 2월 19일 월요일
2024년 2월 16일 금요일
2024년 2월 14일 수요일
2024년 2월 8일 목요일
가짜 노동
덴마크 출신 데니스 뇌르마르크, 아네르스 포그 옌센 공동 저작. 잘 쓰여진 책이라는 생각은 안 들지만 제목의 임팩트만큼은 상당하다.
거시경제학의 창시자 케인즈는 1930년대에 이런 예언을 했다고 한다. "2030년까지 평균 노동시간은 주 15시간이 될 것 "
산업혁명과 세계대전 이후 기술 발전으로 많은 분야의 노동 효율이 증가했다. 저자는 이런 배경에도 불구하고 노동 시간이 줄지 않는 이유로 '가짜 노동'을 지적한다. 가짜 노동?
저자는 의사, 간호사, 교사, 청소부 등 '필수 인력(?)'에 포함되지 않는, 주로 화이트칼라 '사무직'의 노동을 가짜 노동으로 바라본다(..)
가짜 노동하는 사무직의 탄생 (36페이지)
2024년 1월 28일 일요일
2024년 1월 27일 토요일
Mysql 설치 오류
기존 설치 과정.
[root@Centos7 ~]# rpm -ivh https://dev.mysql.com/get/mysql80-community-release-el7-7.noarch.rpmRetrieving https://dev.mysql.com/get/mysql80-community-release-el7-7.noarch.rpmwarning: /var/tmp/rpm-tmp.AwEiPw: Header V4 RSA/SHA256 Signature, key ID 3a79bd29: NOKEYPreparing... ################################# [100%]Updating / installing... 1:mysql80-community-release-el7-7 ################################# [100%]
2024년 1월 21일 일요일
피드 구독하기:
글 (Atom)