Esta habilidad proporciona transcripción local de audio/video vía Whisper, entrada de voz (dictado, push-to-talk) e incrustación de subtítulos estilo CapCut en MP4. Se activa para tareas como transcribir archivos, podcasts, contenido de redes sociales, speech-to-text local, diarización de hablantes y dictado por voz.
Design e Frontend#ai#apipor Mobiss11