WIKIDOCS ANALYSIS BOARD
위키독스 분석 보드 — 2026-07-01
아침에 흩어져 오던 책별 분석 알림을 하나로 묶었습니다. 적용할 것과 개선할 것만 먼저 확인합니다.
2분석 책
7바로 적용
7개선 적용
2보류/스킵
수집 상태
batch 4.5시간 전 정상
SAS로 하는 기초 [[데이터 전처리]], 핸들링(Data handling)
book_id 2678 · 챕터 53이 책은 SAS 초보자를 대상으로 테이블·라이브러리·PROC·포맷·IF·SET·MERGE·DO를 이용해 정형 데이터를 안전하게 생성·조회·변환·결합하는 기초 전처리 절차를 단계별 예제로 설명한다.
adopt 후보 3개, improve 4개, skip 1개 — 핵심 가치는 SAS 자체가 아니라 형님 시스템의 약점인 정량 평가·데이터 프로파일링·스키마 드리프트·한글 문자열 손실 방어를 아주 기초적인 언어로 다시 강제하게 만드는 데 있다.
ADOPT 3IMPROVE 4SKIP 1
- ADOPT PROC CONTENTS식 데이터셋 메타데이터 점검
templates/agents/data_profile.py를 추가해 CSV·JSON·SQLite table·Markdown table 입력에 대해 rows, columns, dtypes, null_count, sample_values, file_size, encoding을 JSON으로 출력하게 한다. harness_integration.run_as_automation으로 감싸고, wikidocs_crawler.py·running FIT 분석·thesis analysis 데이터 적재 전후에 선택 호출하도록 HARNESS_DOMAIN_REGISTRY.md에 data-profile 도메인 매핑을 추가한다. - IMPROVE KEEP/DROP의 단계별 칼럼 선택
HARNESS_DOMAIN_REGISTRY.md에 데이터 파이프라인 모듈 규칙으로 input_columns, working_columns, output_columns 3단 스키마 필드를 추가한다. pre_write_harness_check.py에 CSV·JSON 처리 agent 신규 작성 시 이 3필드가 없으면 경고하는 체크를 추가한다. - ADOPT 문자 길이·인코딩·한글 바이트 절단 위험
obsidian_keywords PostToolUse 이후에 markdown_encoding_guard.py를 추가 실행하도록 hook 체인에 연결한다. 검사 항목은 파일 인코딩, 비정상 replacement character, 한글 중간 절단 의심 패턴, YAML 깨짐, 표 셀 길이 급감이다. 실패 시 harness_integration.run_as_automation의 텔레그램 에러 알림 경로를 사용한다. - IMPROVE SET 행 결합 시 칼럼명 불일치와 결측 생성
채널 브리지 SQLite 점검 스크립트에 schema_diff_report 기능을 추가한다. 4채널 record별 column set, missing column, extra column, null ratio를 출력하고 pipeline_observer.py가 batch 종료 시 요약하도록 연결한다. - IMPROVE SET 행 결합 시 첫 번째 테이블 길이 기준으로 값이 잘리는 문제
session_checkpoint.py 또는 monthly_summary 생성 경로에 before_len, after_len, max_field_len, truncated_flag를 기록하는 검증을 추가한다. HANDOFF.md 압축 후 원문 블록 대비 핵심 필드 손실 여부를 pipeline_observer.py에 남긴다.
AI와 빅데이터의 기본개념인 통계학 - SPSS와 python으로
book_id 7259 · 챕터 67이 책은 SPSS 메뉴 조작과 Python 코드로 데이터 불러오기, 전처리, 시각화, 기술통계, 상관분석, 평균 비교까지 기초 통계 분석 절차를 반복 실습시키는 입문형 통계·데이터 분석 교재다.
adopt 후보 4개, improve 3개, skip 1개 — 핵심 가치는 고급 통계가 아니라 형님 시스템에 부족한 정량 평가·EDA·상관/검정 표준 레이어를 가장 낮은 복잡도로 붙일 수 있는 입문형 분석 체크리스트다.
ADOPT 4IMPROVE 3SKIP 1
- ADOPT SPSS SAV 파일과 값 레이블을 보존하는 데이터 로딩
templates/agents/data_analysis_kit.py를 새로 만들고 load_sav_with_labels(path_or_url), apply_value_labels(df, label_maps), save_profile_report(df) 함수를 추가한다. HARNESS_DOMAIN_REGISTRY.md에는 data-analysis 도메인으로 매핑하고, agent_registry.py에는 'sav', 'spss', '값 레이블', '설문 데이터' 키워드를 등록한다. - IMPROVE 파생변수 생성과 범주 재코딩
templates/agents/data_analysis_kit.py에 transform_manifest 구조를 추가한다. 각 파생변수에 source_columns, formula, bins, labels, created_at을 JSON으로 저장하게 하고, pipeline_observer.py가 장기 batch에서 이 manifest를 체크포인트에 포함하도록 확장한다. - ADOPT 가중치 설정 기반 빈도분석
data-report SKILL에 'weighted_frequency' 섹션을 추가하고, templates/agents/data_analysis_kit.py에 weighted_value_counts(df, category_col, weight_col=None, normalize=True)를 구현한다. 자동화 성공률·시간 절약 리포트에도 단순 실행 건수와 가중 실행 시간을 분리해 표시한다. - IMPROVE 기초 EDA 그래프 세트
data-report SKILL에 EDA 기본 매트릭스를 추가한다. categorical은 빈도표·막대그래프, continuous는 기술통계·히스토그램·상자그림, two_continuous는 산점도·회귀선, group_vs_continuous는 그룹별 상자그림을 자동 생성하도록 템플릿을 보강한다. - ADOPT 기술통계와 분포 진단
pipeline_observer.py에 run_duration_seconds, retry_count, success_flag, output_count의 describe 통계를 추가한다. session_checkpoint.py에는 batch 단위 평균·표준편차·p50·p80·p95·왜도·첨도를 기록하는 metrics_summary 블록을 추가한다.