微软为 Copilot 注入“脸”：Portraits 功能让 AI 助手有表情

为了提升语音交互体验，微软在 Copilot 中推出了实验性功能 Portraits，用户可选择风格化虚拟人像，让 AI 在语音对话时“露出表情”，增加交互的自然度和代入感。该功能已在美英加部分地区上线。

🧩 功能介绍：什么是 Copilot Portraits？

微软在 Copilot 实验室中加入了 “Portraits” 功能，目前向部分美国、英国、加拿大用户开放。用户可以在 40 多种风格化虚拟人像中挑选一个形象，然后在语音对话时，AI 会根据语境做出相应表情、头部动作甚至唇动同步回应。

这些虚拟人像并非卡通式，而是以“风格化人类”形象为基础。微软强调，这些形象不会呈现照片级真实面孔，以避免产生误导或仿真风险。

根据公开信息，这一功能背后使用的是微软研究院推出的 VASA-1 技术。该技术能够仅用一张图片，再结合语音 / 文本上下文，就实时生成表情、嘴形与头部动作的动画效果，无需复杂 3D 模型。

微软表示，用户提供一张头像即足够，系统会生成与语音交互一致的动态面部反馈。

目前 Portraits 功能只对 18 岁以上用户开放，并设有每日 / 单次会话时长限制，同时在界面上明确标注 “这是 AI 对话” 标识，避免用户将形象误认为真人。

此外，微软也强调，这些虚拟形象设计是风格化而非真实还原，目的是增加交互亲和力，而非制造混淆。

AI 助手过去主要通过文本和语音与用户互动。近年来，像 Amazon Alexa、Google Assistant 等也在尝试加入可视化交互（如带动画表情、头像等）以增强体验。但多数仍停留在 2D / 卡通层面。

微软这次把虚拟人像与语音同步响应整合，是向更具代入感、更“拟人化”的 AI 交互前进的一步。

在 X / Grok 生态下，也曾加入 3D / 虚拟形象功能，例如用户可以让 AI 出现为某个形象进行对话。
一些聊天机器人 / 虚拟形象服务（如 Character.AI、Replika 等）亦提供带表情 / 视觉反馈的角色形象，但很多缺乏语音 + 表情同步深度整合。

微软通过 VASA-1 技术，将“一张头像 + 对话内容”映射为动态表情，是一种更轻量、高效的可视化方案。

当 AI 拥有表情与“脸孔”时，其说话可能被用户感知得更具“情感色彩”，这使得 AI 输出的建议 /观点具有更强的说服力，这带来潜在的心理影响 / 信任操控风险。一些报告指出，如果表情与语调不一致，可能给用户带来错觉。

有研究认为，这类拟人化设计需要额外的约束与透明机制，否则易导致“AI 语境操控 / 情感欺骗”的问题。

用户提供头像 / 人像用于生成虚拟形象，其背后涉及面部特征、表情轨迹、动画映射等敏感数据。如何保障用户同意机制、数据存储安全、后续撤回 / 删除权限是必须在广泛上线前解决的问题。

一些用户对动态表情 / 动画可能敏感（如视觉障碍、神经类差异人群）。报告建议，系统应提供“静态 / 简化头像 / 关掉动画”的选项。

头像风格是否多元、是否能覆盖不同肤色 / 外貌 /文化背景，也是公平性 / 包容性设计需要考量的点。

实时动画 + 表情同步在算力 /性能上有要求。对于低端设备 /带宽受限条件下的用户可能体验不佳，这可能限制其普适性。

微软选择先在特定地区 /用户群试验，也是给自己留缓冲空间。将来能否在全球、各种设备上稳定运行，还要看后端优化、模型轻量化策略。

核心回顾

值得思考 / 我的疑问

金句送给你

“让 AI 有张脸，不是为了让它显得逼真，而是为了让交互少些冰冷，多些温度。”