ElevenLabs 没有经历缓慢的燃烧期。
产品从秘密开发到百万用户只用了五个月,再从百万用户到 11 亿美元独角兽又用了 12 个月,之后再用 24 个月冲到了 3.3 亿美元 ARR 和 110 亿美元 D 轮估值。整条弧线压缩在 46 个月内。 看起来像是运气,实则是一套由五个动作组成的模式,两位创始人连续执行了四遍。
配音论点是护城河
Mati Staniszewski(前 Palantir)和 Piotr Dabkowski(前 Google)在波兰长大,看着糟糕配音的美国影片长大。2020 年草拟出的第一个产品创意,正是为了解决这个问题——让声音能够跨越语言,同时保留说话者的情感。
这个洞察在一开始就预先将 ElevenLabs 锁定在两个大多数竞争对手没有做出的架构选择上:
- 从第一天起就是多语言。 2023 年 1 月的首个测试版上线时就支持英语和波兰语。2023 年 8 月的 Eleven Multilingual v2 覆盖了近 30 种语言,并能保留原讲者的口音。到 2025 年 6 月的 v3,语言数量已超过 70 种。
- 情感是一等输出。 不是"还算能听的文字转语音(TTS)",而是"能跨越语言壁垒传递情感的声音"。v3 中的音频标签语法——
[excited]、[whispers]、[laughing]——是这个论点从最初草图出发,六年后的自然终点。
以通用 TTS 为框架的竞争对手(Resemble、Murf、WellSaid Labs)优化的是旁白质量。ElevenLabs 优化的是跨语言情感传递。这个框架以一种最终在每次发布中都得到回报的方式,约束了产品路线图。
五个月的隐身期,然后是丑闻
ElevenLabs 于 2022 年 4 月注册成立,直到 2023 年 1 月 23 日才发布产品。也就是说,在任何用户接触产品之前,他们用了九个月做模型训练和基础设施建设。
随后的发布弧线在数天内就被压缩完毕:
| 日期 | 事件 |
|---|
| 2023 年 1 月 23 日 | 公开测试版 + 200 万美元种前轮融资宣布 |
| 2023 年 1 月 30 日 | 4chan 滥用语音克隆(Emma Watson、Joe Rogan、Ben Shapiro) |
| 2023 年 1 月 31 日 | ElevenLabs 上线付费专属语音克隆 + AI 检测工具 |
| 2023 年 6 月 | 注册用户突破 100 万——距发布仅五个月 |
4chan 事件是第一个差点终结这家公司的危机。然而 ElevenLabs 将其转化为一种被迫的信任姿态:语音克隆仅向付费且完成身份核验的用户开放,同时推出 AI 生成音频分类器,以及账户级别的可追溯性——所有这些都在几天内上线。
12 个月后,它再次如法炮制。2024 年 1 月 26 日,Pindrop 追踪到一条虚假拜登新罕布什尔州初选自动电话,溯源至 ElevenLabs。相关账户在 72 小时内被暂停,公司发表了明确的公开声明,拜登事件随后成为那一年所有"负责任的 AI"讨论中最常被引用的案例。
大多数公司会隐藏滥用事件。ElevenLabs 将每次事件都当作公开展示平台拥有可审计控制机制的机会。这种信任叙事最终发挥了真实的商业作用——Deutsche Telekom 和 2025 年的大型企业合同,都将运营纪律作为做出承诺的原因之一。
每轮融资都是一个产品捆绑包
看看这个节奏:
| 轮次 | 日期 | 捆绑发布 |
|---|
| 种前轮 200 万美元 | 2023 年 1 月 23 日 | 公开测试版 |
| A 轮 1900 万美元,估值约 1 亿美元 | 2023 年 6 月 21 日 | 新语音产品 |
| B 轮 8000 万美元,估值 11 亿美元 | 2024 年 1 月 22 日 | Voice Marketplace + Dubbing Studio + 移动端 SDK |
| C 轮 1.8 亿美元,估值 33 亿美元 | 2025 年 1 月 30 日 | 对话式 AI v1 已于 10 周前上线 |
| 员工二次出售 1 亿美元,估值 66 亿美元 | 2025 年 9 月 8 日 | 捆绑 2 亿美元 ARR 披露 |
| D 轮 5 亿美元,估值 110 亿美元 | 2026 年 2 月 4 日 | 捆绑 3.3 亿美元 ARR + IPO 话题 |
六轮融资,六个捆绑里程碑。每个公告窗口同时也是一个产品窗口。
底层逻辑很直接:一条单独的"获得 X 亿美元融资"公告,能给你 3-5 天的资本媒体报道。一条"X 亿美元融资 + Y 亿 ARR + 新产品"的捆绑公告,能在同一窗口同时获得资本媒体、开发者媒体、电信行业媒体和 SaaS 媒体的覆盖——而预算完全相同。
真正重要的平台跃迁
大多数 TTS 公司止步于 API 即产品。ElevenLabs 在 2024 年 11 月做出了一个深思熟虑的决定,迈向平台层。
对话式 AI v1(2024 年 11 月 18 日)将 TTS + STT(语音转文字)+ LLM 编排集成到了一个单一的智能体技术栈中。对话式 AI 2.0(2025 年 6 月 3 日)又新增了原生轮流对话、语言检测、多角色模式和批量外呼功能。
竞争格局由此改变。2024 年 11 月,ElevenLabs 面对的竞争对手是其他 TTS API(Cartesia、PlayHT、Resemble)。到 2025 年中,它面对的已是 Vapi、Retell,以及联络中心的老牌巨头(NICE、Genesys、Five9)——一个规模更大、合同金额更高的市场。
C 轮的战略投资人名单印证了同一个故事:新进战略股东包括 Deutsche Telekom、NTT DOCOMO Ventures、RingCentral Ventures、HubSpot Ventures 和 LG Technology Ventures(Salesforce Ventures 作为前几轮的返场投资人也在其中)。电信、CRM 和消费电子——而非创作者工具。向技术栈上层的跃迁,是吸引这些投资人的前提条件。
创作者分发免费完成了品牌建设
ElevenLabs 在 2024 年之前的可见营销预算很小。其用户获取机器是创作者优先的:
- 声音克隆在社交平台上原生传播。 TikTok 上的达斯·维达配音,Instagram 上的 Judy Garland朗读。产品输出本身就是传播单元。大多数 B2B 工具对此只能羡慕。
- 免费套餐就是营销。 慷慨的免费额度让创作者不断尝试,而这些尝试转化为 Reels、TikTok 和 YouTube 短视频。ElevenLabs 免费获得了品牌曝光。
- Voice Marketplace 作为飞轮。 创作者上传自定义声音,其他用户发现并使用,原创者从中获得收益。三方利益对齐,让 ElevenLabs 将病毒式内容作为副产品收割。
- Iconic Voices 作为 PR 先锋。 Garland / Dean / Reynolds / Olivier(2024 年 7 月)让 ElevenLabs 登上了 CNN、CBS 和 Variety——开发者工具公司几乎从未进入过这些媒体的报道圈。遗产授权角度是这个新闻钩子。
当 Mati Staniszewski 在 2024-2025 年间登上 Sequoia 的 Training Data、a16z Show 以及 Lenny 周边播客时,创始人即 IP 的模式直接转化为投资人叙事工作。受众与 TikTok 创作者截然不同,但复利机制相同。
模式的提炼
ElevenLabs 执行的六个动作。每一个都可以在任何 AI 基础设施赛道中复用。
- 从第一天起就将论点锁定在多语言、保留情感的框架上。 这个框架以一种让每次发布都像是在兑现同一个承诺的方式,约束了路线图(v2 → v3 → 音频标签)。
- 每轮融资至少捆绑一次产品发布。 相同的公告预算,3-4 倍的覆盖面。连续六轮,从未打破。
- 将滥用事件当作强制信任审计,而不是 PR 危机。 12 个月内两场丑闻,都被吸收为运营纪律的证明。电信和企业采购团队看的是应对方式,而不是事件本身。
- 在竞争对手之前向技术栈上层移动。 TTS API → 对话式平台是一次 11 周的跃进(2024 年 11 月对话式 AI v1 上线,2025 年 1 月 C 轮融资,电信战略股东已在船上)。留在 API 层的竞争对手如今正在一个更小的市场里卖东西。
- 让产品输出成为传播单元。 语音片段在 X、Instagram、TikTok 上原生自动播放。免费套餐将创作者转化为公司无需付费的品牌延伸层。
- 专门为投资人运营创始人即 IP 循环。 长篇播客(Training Data、a16z Show、Nothing Left Unsaid)的时机卡在两轮融资之间,而非期间。每轮新融资都发生在播客巡回之后,而非期间。
公开记录之外的事情
局外观察者看不到、但可能最重要的事情:
- 2022-2023 年模型训练的实际成本。 秘密开发期是昂贵的。种前轮金额(200 万美元)太少,不足以支撑一年的 GPU 工作——创始人很可能动用了个人资金。具体数字是私密的。
- 真实的免费转付费转化率。 ElevenLabs 在顶线 ARR 上一直很大方,但从未披露转化经济模型。2023 年 6 月的 100 万用户数字,可能意味着 5% 的付费率,也可能只有 0.5%——这个差距很重要。
- 企业销售动作的确切机制。 Deutsche Telekom 和 Revolut 是公开命名的客户。合同金额、销售周期长度和概念验证到成交的转化率,都没有公开。
- 与 Cartesia、PlayHT、Vapi、Retell 相比的竞争成本结构。 语音 AI 是 AI 基础设施中竞争最为激烈的赛道之一。ElevenLabs 每百万字符的利润率与竞争对手相比,是决定 IPO 叙事能否在 2026 年站稳脚跟的关键问题。
这些问题需要 Sacra 深度报告、The Information 的企业报道,以及 S-1 招股书来回答。仅凭公开痕迹,我们能拼出这个故事的 70%。最后 30%,锁在付费墙和 S-1 尽职调查里。