从互联网拿内容
按平台选择正确方法,一步到位。先看平台路由表,再读对应 reference 文件。平台方法不行时,按品类降级链逐层深入——每层解决不同问题,能浅不深。
核心理念
能浅不深——先用最轻的方法(HTTP 请求),不行再加重量(浏览器渲染→反检测→AI 操作→手动控制)。成本递增,每层解决不同问题,不要跳层。
不适用场景
- 批量爬取/爬虫开发 → 这不是爬虫框架,是一次性内容获取工具
- 需要登录才能访问且用户未登录 → 告诉用户先登录对应平台,web-access CDP 可以接管已登录的 Chrome
- 下载付费内容/会员内容 → 不处理侵权场景
前置检查(每次使用前)
第1步:更新 opencli(npm 包)
npm update -g @jackwener/opencli
opencli 高频发版(每周 2-3 次),新命令经常加。不更新就用不到最新方法。
第2步:更新 opencli skills(npx 管理)
npx skills update -g -y
[Description truncada. Veja o README completo no GitHub.]