这次技术方案把中心放在 AI Agent:平台并不是“单次问答页面”,而是把意图理解、任务编排、模型调用、外部工具执行、结果落库串成闭环。
1. AI Agent 的职责边界
Agent 负责三件事:第一,理解用户目标并拆成可执行步骤;第二,根据任务选择模型或 skill;第三,把执行轨迹回传给前端并写入会话记录。这样对话不仅有答案,还有可复盘的执行过程。
2. 模型层:文本与图像双引擎
主文本模型使用 Minimax 2.7,承担策略规划、内容生成、结构化输出。文生图使用 Minimax image-01 与 image-01-live:前者用于高质量封面生成,后者用于更快的交互式预览与迭代。
3. Skill 层:把 Agent 接到真实世界
Skill 是 Agent 的“执行手脚”。在本项目中,重点 skill 是小红书 CLI(xiaohongshu-cli),用于登录态检查、内容读取、互动与发布相关动作。Agent 通过 skill 把“建议”变成“可执行操作”。
项目地址:jackwener/xiaohongshu-cli
4. Agent 与平台连接方式
平台层提供统一 API 与会话容器,Agent 运行时通过 WebSocket 建立流式通道。用户消息先进入平台会话,再由 Agent 编排并调用模型/skill,增量结果实时推送到消息区,最终答案与关键执行信息落库。
5. 关键数据流
输入:用户目标与上下文。编排:Agent 生成子任务。执行:Minimax 2.7 或 image-01/image-01-live + xiaohongshu-cli。回传:流式文本与工具状态。沉淀:AgentSession 与 AgentMessage。复盘:基于历史会话优化下一轮策略。
6. 为什么这个连接方式有效
它把“模型能力”和“平台能力”分层:模型负责理解与生成,skill 负责执行与对接,小红书能力通过 CLI 统一封装,平台负责权限、会话与可观测性。这样既保证可扩展,也能快速接入新工具链。