WIKIDOCS ANALYSIS BOARD

위키독스 분석 보드 — 2026-07-01

아침에 흩어져 오던 책별 분석 알림을 하나로 묶었습니다. 적용할 것과 개선할 것만 먼저 확인합니다.

2분석 책
7바로 적용
7개선 적용
2보류/스킵

수집 상태

batch 4.5시간 전 정상

SAS로 하는 기초 [[데이터 전처리]], 핸들링(Data handling)

book_id 2678 · 챕터 53

이 책은 SAS 초보자를 대상으로 테이블·라이브러리·PROC·포맷·IF·SET·MERGE·DO를 이용해 정형 데이터를 안전하게 생성·조회·변환·결합하는 기초 전처리 절차를 단계별 예제로 설명한다.

adopt 후보 3개, improve 4개, skip 1개 — 핵심 가치는 SAS 자체가 아니라 형님 시스템의 약점인 정량 평가·데이터 프로파일링·스키마 드리프트·한글 문자열 손실 방어를 아주 기초적인 언어로 다시 강제하게 만드는 데 있다.

ADOPT 3IMPROVE 4SKIP 1
  1. ADOPT PROC CONTENTS식 데이터셋 메타데이터 점검
    templates/agents/data_profile.py를 추가해 CSV·JSON·SQLite table·Markdown table 입력에 대해 rows, columns, dtypes, null_count, sample_values, file_size, encoding을 JSON으로 출력하게 한다. harness_integration.run_as_automation으로 감싸고, wikidocs_crawler.py·running FIT 분석·thesis analysis 데이터 적재 전후에 선택 호출하도록 HARNESS_DOMAIN_REGISTRY.md에 data-profile 도메인 매핑을 추가한다.
  2. IMPROVE KEEP/DROP의 단계별 칼럼 선택
    HARNESS_DOMAIN_REGISTRY.md에 데이터 파이프라인 모듈 규칙으로 input_columns, working_columns, output_columns 3단 스키마 필드를 추가한다. pre_write_harness_check.py에 CSV·JSON 처리 agent 신규 작성 시 이 3필드가 없으면 경고하는 체크를 추가한다.
  3. ADOPT 문자 길이·인코딩·한글 바이트 절단 위험
    obsidian_keywords PostToolUse 이후에 markdown_encoding_guard.py를 추가 실행하도록 hook 체인에 연결한다. 검사 항목은 파일 인코딩, 비정상 replacement character, 한글 중간 절단 의심 패턴, YAML 깨짐, 표 셀 길이 급감이다. 실패 시 harness_integration.run_as_automation의 텔레그램 에러 알림 경로를 사용한다.
  4. IMPROVE SET 행 결합 시 칼럼명 불일치와 결측 생성
    채널 브리지 SQLite 점검 스크립트에 schema_diff_report 기능을 추가한다. 4채널 record별 column set, missing column, extra column, null ratio를 출력하고 pipeline_observer.py가 batch 종료 시 요약하도록 연결한다.
  5. IMPROVE SET 행 결합 시 첫 번째 테이블 길이 기준으로 값이 잘리는 문제
    session_checkpoint.py 또는 monthly_summary 생성 경로에 before_len, after_len, max_field_len, truncated_flag를 기록하는 검증을 추가한다. HANDOFF.md 압축 후 원문 블록 대비 핵심 필드 손실 여부를 pipeline_observer.py에 남긴다.

AI와 빅데이터의 기본개념인 통계학 - SPSS와 python으로

book_id 7259 · 챕터 67

이 책은 SPSS 메뉴 조작과 Python 코드로 데이터 불러오기, 전처리, 시각화, 기술통계, 상관분석, 평균 비교까지 기초 통계 분석 절차를 반복 실습시키는 입문형 통계·데이터 분석 교재다.

adopt 후보 4개, improve 3개, skip 1개 — 핵심 가치는 고급 통계가 아니라 형님 시스템에 부족한 정량 평가·EDA·상관/검정 표준 레이어를 가장 낮은 복잡도로 붙일 수 있는 입문형 분석 체크리스트다.

ADOPT 4IMPROVE 3SKIP 1
  1. ADOPT SPSS SAV 파일과 값 레이블을 보존하는 데이터 로딩
    templates/agents/data_analysis_kit.py를 새로 만들고 load_sav_with_labels(path_or_url), apply_value_labels(df, label_maps), save_profile_report(df) 함수를 추가한다. HARNESS_DOMAIN_REGISTRY.md에는 data-analysis 도메인으로 매핑하고, agent_registry.py에는 'sav', 'spss', '값 레이블', '설문 데이터' 키워드를 등록한다.
  2. IMPROVE 파생변수 생성과 범주 재코딩
    templates/agents/data_analysis_kit.py에 transform_manifest 구조를 추가한다. 각 파생변수에 source_columns, formula, bins, labels, created_at을 JSON으로 저장하게 하고, pipeline_observer.py가 장기 batch에서 이 manifest를 체크포인트에 포함하도록 확장한다.
  3. ADOPT 가중치 설정 기반 빈도분석
    data-report SKILL에 'weighted_frequency' 섹션을 추가하고, templates/agents/data_analysis_kit.py에 weighted_value_counts(df, category_col, weight_col=None, normalize=True)를 구현한다. 자동화 성공률·시간 절약 리포트에도 단순 실행 건수와 가중 실행 시간을 분리해 표시한다.
  4. IMPROVE 기초 EDA 그래프 세트
    data-report SKILL에 EDA 기본 매트릭스를 추가한다. categorical은 빈도표·막대그래프, continuous는 기술통계·히스토그램·상자그림, two_continuous는 산점도·회귀선, group_vs_continuous는 그룹별 상자그림을 자동 생성하도록 템플릿을 보강한다.
  5. ADOPT 기술통계와 분포 진단
    pipeline_observer.py에 run_duration_seconds, retry_count, success_flag, output_count의 describe 통계를 추가한다. session_checkpoint.py에는 batch 단위 평균·표준편차·p50·p80·p95·왜도·첨도를 기록하는 metrics_summary 블록을 추가한다.