2025년 4월 4일 금요일

데이터 노가다 실수담 - 10th

url 중 파일 정보 비교. 파일과 디렉토리를 구분하지 않고 저장하는 file과 최소한의 검사를 거친 file2의 차이가 크다. 


하지만 그런 차이에도 불구하고 추이 변화는 비슷.


. 존재만을 검사하는 file2는 경로 정보를 저장할 가능성이 있다. 파일 존재만을 검사하는 file3과 합산 차이가 발생하는 이유. 하지만 일간 추이 변화는 역시 거의 동일.


확장자 정보 비교

ext 수치가 압도적인 이유는 . 검사에 실패했을 때 file 원본이 그대로 반환되기 때문.


file 사례와 같은 이유로 ext2와 ext3 역시 발생량 차이가 유의미해 보이지만 추이는 역시나 거의 비슷하다.


데이터 품질 관리에 너무 힘 빼지 말고 빅픽처를 보라는 뜻인가? 물론 상황에 따라 상태는 언제든 바뀔 수 있으니 차이나는 이유는 정확히 알아야겠지(..)

크리에이티브 커먼즈 라이선스