Analyzing Data for Cleaning
1 概述
使用流程: 用户上传数据文件 → 加载前5行 → LLM 智能分析生成 custom.yaml → 调用 cleaning_data.py 执行清洗 → LLM检查脚本生成的EDA报告并修复异常
核心原则: 永远不要加载整个数据集到 LLM 上下文,但必须加载前5行让 LLM 理解数据含义和业务语义。
2 快速参考
2.1 运行命令
# 优先级1:上传文件后(文件在工作目录)
python3 scripts/cleaning_data.py -c configs/custom.yaml -i 终端默认目录/数据文件名.csv
# 优先级2:指定路径
python3 scripts/cleaning_data.py -c configs/custom.yaml -i /path/to/data.csv
# 优先级3:使用 data/ 目录下的文件
python3 scripts/cleaning_data.py -c configs/custom.ya
[Description truncada. Veja o README completo no GitHub.]