增长故事 · 第 05 期

ElevenLabs / ElevenLabs Inc.

不到四年,从隐秘的 TTS 押注到 110 亿美元的语音 AI 平台

ElevenLabs 在秘密开发 12 个月后,于 2023 年 1 月发布测试版。产品在数天内病毒式传播——先是创作者现象,然后是滥用丑闻,再后来成为媒体、出版商和语音智能体领域的默认语音基础设施。每轮融资都捆绑着一次模型发布,每次模型发布都重新定义了语音 AI 的能力上限。

12 分钟 阅读成立于 2022-0422 个事件9 篇深度拆解
EN中文
01时间线

ARR、估值与每一个 GTM 动作,汇集在一条时间线上。

事件按类型分为四个水平轨道。带光晕的标记点击后跳转至下方对应的深度拆解。悬停查看摘要;点击外链标记跳转至原始来源。

ProductFundingMediaClick for deep diveARRValuation
波兰隐身期创作者优先的病毒式增长平台建设期语音智能体超高速增长0$100M$200M$300M$400MARR$5.0B$10B$15BValuation2023202420252026$25M$90M$120M$200M$330M$12M$100M$1.1B$3.3B$6.6B$11B种前轮 200 万美元 + 公开测试版4chan 滥用丑闻Eleven Multilingual v2 正式…B 轮 8000 万美元,估值 11 亿美元 + …拜登深度伪造自动电话 + 账户封禁Iconic Voices:Garland、Dea…对话式 AI v1 上线C 轮 1.8 亿美元,估值 33 亿美元Eleven v3(测试版)发布员工二次出售 1 亿美元,估值 66 亿美元D 轮 5 亿美元,估值 110 亿美元 + IP…ProductFundingMedia
02平台组合

哪些渠道,在哪个阶段真正起作用。

ElevenLabs 对 6 个平台的用法各不相同。有些贯穿始终,有些是阶段性催化剂。

𝕏X(推特)
全阶段——承重结构

创始人 + 产品发布渠道

Mati Staniszewski(@matiii)和 @elevenlabsio 账号驱动了每一次重要发布。音频演示在 X 上的传播效果异常出色——语音片段推文可以自动播放,并且转发时原始音频一并附带,这是罕见的。每次模型发布都以片段长推首先落地。

⚡ Catalyst moment

Eleven v3 测试版发布推文(2025 年 6 月 5 日)——带有音频标签演示片段,由创始人、Karpathy 以及 AI 开发者圈转发。原生片段传播让 v3 在第一天就有了「全新品类」的感觉。

View tweet
✓ Works when

当产品输出本身就是可分享的内容单元时(音频片段、声音演示)。该平台会内嵌自动播放音频——让每次发布都是一个片段,而不是截图

✗ Don't expect

如果团队发布的是新闻稿式文字。语音 AI 圈子期待帖子里有新的音频,而不是博客链接

YouTube
拐点前 + 超高速增长期

演示放大 + 投资人叙事

两个层次并行:创始人长篇播客(Sequoia Training Data、a16z Show、Nothing Left Unsaid)与创作者教程。Mati Staniszewski 在 2025 年的投资人播客巡回,将外界对 ElevenLabs 的认知从「TTS 初创公司」重塑为「语音基础设施公司」。创作者教程则在后台持续推动自助注册转化。

⚡ Catalyst moment

Mati Staniszewski 登上 Sequoia Training Data(2025 年中)——这个长篇内容资产,是 a16z、ICONIQ 以及后来的 Sequoia 在每轮后续融资之前,在其 LP 和高管网络内部传阅的参考材料。

Watch episode
✓ Works when

当创始人能撑过 60-90 分钟的投资人级追问,且每一集都有新的产品演示时。创始人 + 创作者双层叠加,效果是复利式的

✗ Don't expect

无后续跟进的一次性主题演讲。这套模式只有在持续的访谈节奏下才奏效,单次亮相不行

YHacker News
隐身期 + 平台建设期

技术可信度验证器

Multilingual v2、对话式 AI v1、Eleven v3 和 Reader 都登上了 HN 首页,获得数百条评论。对话式 AI 于 2024 年 11 月上线时,HN 信号最为关键——它向 ElevenLabs 需要争取的开发者群体证明了平台跃迁在技术上是可信的。

⚡ Catalyst moment

对话式 AI v1 发布帖(2024 年 11 月)——首页登顶,获得严肃的技术审视。两个月后:33 亿美元 C 轮。

Read on HN
✓ Works when

当发布具有可量化的技术新意时——新模型、新架构、真实基准测试。HN 用户奖励能展现能力的演示

✗ Don't expect

不要发布「我们达到了 X 亿 ARR」或定价调整。HN 会惩罚商业通报式的定格方式

r/Reddit
创作者优先的病毒式增长期 + 持续

使用场景发现 + 用户留存层

r/ElevenLabs 及相关社区(r/AIVoiceCloning、r/audiobooks、r/IndieDev)成了创作者交流声音 ID、提示词技巧和使用场景模板的聚集地。与其说是获客渠道,不如说是激活渠道——新用户在这里学会如何在第一个小时内获得好的输出。

⚡ Catalyst moment

没有单一触发时刻。社区在 2023 年围绕免费套餐自然形成,并在 2024-2025 年间成熟为一个自助式支持中枢。

Open r/cursor
✓ Works when

当你拥有慷慨到让用户愿意主动分享作品的免费套餐时。社区从产品中涌现,而不是靠外联催生

✗ Don't expect

如果你尝试刷水军,社区几天内就会识破

inLinkedIn
语音智能体超高速增长期(企业端)

企业 + 投资人信号

Mati Staniszewski 的 LinkedIn 自 2025 年中起开始发挥实质性影响。ARR 里程碑、融资公告和客户案例以个人帖子的形式发布,并在 Deutsche Telekom 类型的企业采购网络中二次传播。相比典型的开发者工具公司,得分更高,因为语音智能体的买家是企业联络中心负责人,而非开发者。

⚡ Catalyst moment

Mati Staniszewski 发布 2 亿美元 ARR LinkedIn 帖子(2025 年 8 月)——在一条帖子里披露了数据、客户 logo 以及明确的「迈向 IPO」定位。为 9 月二次出售和 2 月 D 轮定下了基调。

View source
✓ Works when

当你的买家是企业客户,且你所在的品类是「语音基础设施 / 联络中心」时。所有 CIO 和客户体验负责人都在 LinkedIn 上,而不在 X 上

✗ Don't expect

面向纯创作者的发布。LinkedIn 受众不会像 X 用户那样对 v3 音频标签演示产生共鸣

Instagram
创作者优先的病毒式增长期

消费者创作者放大

对一家 B2B AI 公司来说得分异常高——且实至名归。声音克隆(达斯·维达、Iconic Voices、名人恶搞)经常在 ElevenLabs 毫不费力的情况下,从 TikTok 流转到 Instagram Reels。Reader 应用中 Judy Garland 和 James Dean 的演示天然契合这个格式。公司自己发得不多;创作者代劳了。

⚡ Catalyst moment

Iconic Voices 上线报道(2024 年 7 月)——Garland 朗读《绿野仙踪》的片段通过 CBS、CNN 和 Variety 的社交账号以 Instagram Reels 形式传播。主流媒体分发,零付费。

View source
✓ Works when

当产品输出兼具视觉和音频吸引力时(语音片段配名人面孔、视频演示)。Instagram 是 TikTok 创作者内容的下游,而非主渠道

✗ Don't expect

面向开发者的功能、API 发布和对话式 AI 配置相关内容。这些场景完全跳过 Instagram

03综合分析

完整的核心论点。

关于增长曲线真正驱动因素的宏观解读——在逐一拆解每个关键节点之前,先建立整体认知框架。

ElevenLabs 没有经历缓慢的燃烧期。

产品从秘密开发到百万用户只用了五个月,再从百万用户到 11 亿美元独角兽又用了 12 个月,之后再用 24 个月冲到了 3.3 亿美元 ARR 和 110 亿美元 D 轮估值。整条弧线压缩在 46 个月内。 看起来像是运气,实则是一套由五个动作组成的模式,两位创始人连续执行了四遍。

配音论点是护城河

Mati Staniszewski(前 Palantir)和 Piotr Dabkowski(前 Google)在波兰长大,看着糟糕配音的美国影片长大。2020 年草拟出的第一个产品创意,正是为了解决这个问题——让声音能够跨越语言,同时保留说话者的情感。

这个洞察在一开始就预先将 ElevenLabs 锁定在两个大多数竞争对手没有做出的架构选择上:

  • 从第一天起就是多语言。 2023 年 1 月的首个测试版上线时就支持英语和波兰语。2023 年 8 月的 Eleven Multilingual v2 覆盖了近 30 种语言,并能保留原讲者的口音。到 2025 年 6 月的 v3,语言数量已超过 70 种。
  • 情感是一等输出。 不是"还算能听的文字转语音(TTS)",而是"能跨越语言壁垒传递情感的声音"。v3 中的音频标签语法——[excited][whispers][laughing]——是这个论点从最初草图出发,六年后的自然终点。

以通用 TTS 为框架的竞争对手(Resemble、Murf、WellSaid Labs)优化的是旁白质量。ElevenLabs 优化的是跨语言情感传递。这个框架以一种最终在每次发布中都得到回报的方式,约束了产品路线图。

五个月的隐身期,然后是丑闻

ElevenLabs 于 2022 年 4 月注册成立,直到 2023 年 1 月 23 日才发布产品。也就是说,在任何用户接触产品之前,他们用了九个月做模型训练和基础设施建设。

随后的发布弧线在数天内就被压缩完毕:

日期事件
2023 年 1 月 23 日公开测试版 + 200 万美元种前轮融资宣布
2023 年 1 月 30 日4chan 滥用语音克隆(Emma Watson、Joe Rogan、Ben Shapiro)
2023 年 1 月 31 日ElevenLabs 上线付费专属语音克隆 + AI 检测工具
2023 年 6 月注册用户突破 100 万——距发布仅五个月

4chan 事件是第一个差点终结这家公司的危机。然而 ElevenLabs 将其转化为一种被迫的信任姿态:语音克隆仅向付费且完成身份核验的用户开放,同时推出 AI 生成音频分类器,以及账户级别的可追溯性——所有这些都在几天内上线。

12 个月后,它再次如法炮制。2024 年 1 月 26 日,Pindrop 追踪到一条虚假拜登新罕布什尔州初选自动电话,溯源至 ElevenLabs。相关账户在 72 小时内被暂停,公司发表了明确的公开声明,拜登事件随后成为那一年所有"负责任的 AI"讨论中最常被引用的案例。

大多数公司会隐藏滥用事件。ElevenLabs 将每次事件都当作公开展示平台拥有可审计控制机制的机会。这种信任叙事最终发挥了真实的商业作用——Deutsche Telekom 和 2025 年的大型企业合同,都将运营纪律作为做出承诺的原因之一。

每轮融资都是一个产品捆绑包

看看这个节奏:

轮次日期捆绑发布
种前轮 200 万美元2023 年 1 月 23 日公开测试版
A 轮 1900 万美元,估值约 1 亿美元2023 年 6 月 21 日新语音产品
B 轮 8000 万美元,估值 11 亿美元2024 年 1 月 22 日Voice Marketplace + Dubbing Studio + 移动端 SDK
C 轮 1.8 亿美元,估值 33 亿美元2025 年 1 月 30 日对话式 AI v1 已于 10 周前上线
员工二次出售 1 亿美元,估值 66 亿美元2025 年 9 月 8 日捆绑 2 亿美元 ARR 披露
D 轮 5 亿美元,估值 110 亿美元2026 年 2 月 4 日捆绑 3.3 亿美元 ARR + IPO 话题

六轮融资,六个捆绑里程碑。每个公告窗口同时也是一个产品窗口。

底层逻辑很直接:一条单独的"获得 X 亿美元融资"公告,能给你 3-5 天的资本媒体报道。一条"X 亿美元融资 + Y 亿 ARR + 新产品"的捆绑公告,能在同一窗口同时获得资本媒体、开发者媒体、电信行业媒体和 SaaS 媒体的覆盖——而预算完全相同。

真正重要的平台跃迁

大多数 TTS 公司止步于 API 即产品。ElevenLabs 在 2024 年 11 月做出了一个深思熟虑的决定,迈向平台层。

对话式 AI v1(2024 年 11 月 18 日)将 TTS + STT(语音转文字)+ LLM 编排集成到了一个单一的智能体技术栈中。对话式 AI 2.0(2025 年 6 月 3 日)又新增了原生轮流对话、语言检测、多角色模式和批量外呼功能。

竞争格局由此改变。2024 年 11 月,ElevenLabs 面对的竞争对手是其他 TTS API(Cartesia、PlayHT、Resemble)。到 2025 年中,它面对的已是 Vapi、Retell,以及联络中心的老牌巨头(NICE、Genesys、Five9)——一个规模更大、合同金额更高的市场。

C 轮的战略投资人名单印证了同一个故事:新进战略股东包括 Deutsche Telekom、NTT DOCOMO Ventures、RingCentral Ventures、HubSpot Ventures 和 LG Technology Ventures(Salesforce Ventures 作为前几轮的返场投资人也在其中)。电信、CRM 和消费电子——而非创作者工具。向技术栈上层的跃迁,是吸引这些投资人的前提条件。

创作者分发免费完成了品牌建设

ElevenLabs 在 2024 年之前的可见营销预算很小。其用户获取机器是创作者优先的:

  • 声音克隆在社交平台上原生传播。 TikTok 上的达斯·维达配音,Instagram 上的 Judy Garland朗读。产品输出本身就是传播单元。大多数 B2B 工具对此只能羡慕。
  • 免费套餐就是营销。 慷慨的免费额度让创作者不断尝试,而这些尝试转化为 Reels、TikTok 和 YouTube 短视频。ElevenLabs 免费获得了品牌曝光。
  • Voice Marketplace 作为飞轮。 创作者上传自定义声音,其他用户发现并使用,原创者从中获得收益。三方利益对齐,让 ElevenLabs 将病毒式内容作为副产品收割。
  • Iconic Voices 作为 PR 先锋。 Garland / Dean / Reynolds / Olivier(2024 年 7 月)让 ElevenLabs 登上了 CNN、CBS 和 Variety——开发者工具公司几乎从未进入过这些媒体的报道圈。遗产授权角度是这个新闻钩子。

当 Mati Staniszewski 在 2024-2025 年间登上 Sequoia 的 Training Data、a16z Show 以及 Lenny 周边播客时,创始人即 IP 的模式直接转化为投资人叙事工作。受众与 TikTok 创作者截然不同,但复利机制相同。

模式的提炼

ElevenLabs 执行的六个动作。每一个都可以在任何 AI 基础设施赛道中复用。

  1. 从第一天起就将论点锁定在多语言、保留情感的框架上。 这个框架以一种让每次发布都像是在兑现同一个承诺的方式,约束了路线图(v2 → v3 → 音频标签)。
  2. 每轮融资至少捆绑一次产品发布。 相同的公告预算,3-4 倍的覆盖面。连续六轮,从未打破。
  3. 将滥用事件当作强制信任审计,而不是 PR 危机。 12 个月内两场丑闻,都被吸收为运营纪律的证明。电信和企业采购团队看的是应对方式,而不是事件本身。
  4. 在竞争对手之前向技术栈上层移动。 TTS API → 对话式平台是一次 11 周的跃进(2024 年 11 月对话式 AI v1 上线,2025 年 1 月 C 轮融资,电信战略股东已在船上)。留在 API 层的竞争对手如今正在一个更小的市场里卖东西。
  5. 让产品输出成为传播单元。 语音片段在 X、Instagram、TikTok 上原生自动播放。免费套餐将创作者转化为公司无需付费的品牌延伸层。
  6. 专门为投资人运营创始人即 IP 循环。 长篇播客(Training Data、a16z Show、Nothing Left Unsaid)的时机卡在两轮融资之间,而非期间。每轮新融资都发生在播客巡回之后,而非期间。

公开记录之外的事情

局外观察者看不到、但可能最重要的事情:

  • 2022-2023 年模型训练的实际成本。 秘密开发期是昂贵的。种前轮金额(200 万美元)太少,不足以支撑一年的 GPU 工作——创始人很可能动用了个人资金。具体数字是私密的。
  • 真实的免费转付费转化率。 ElevenLabs 在顶线 ARR 上一直很大方,但从未披露转化经济模型。2023 年 6 月的 100 万用户数字,可能意味着 5% 的付费率,也可能只有 0.5%——这个差距很重要。
  • 企业销售动作的确切机制。 Deutsche Telekom 和 Revolut 是公开命名的客户。合同金额、销售周期长度和概念验证到成交的转化率,都没有公开。
  • 与 Cartesia、PlayHT、Vapi、Retell 相比的竞争成本结构。 语音 AI 是 AI 基础设施中竞争最为激烈的赛道之一。ElevenLabs 每百万字符的利润率与竞争对手相比,是决定 IPO 叙事能否在 2026 年站稳脚跟的关键问题。

这些问题需要 Sacra 深度报告、The Information 的企业报道,以及 S-1 招股书来回答。仅凭公开痕迹,我们能拼出这个故事的 70%。最后 30%,锁在付费墙和 S-1 尽职调查里。

04 / 012023-01-23
融资捆绑里程碑

200 万美元种前轮 + 公开测试版——这次捆绑发布如何在五个月内拉来 100 万用户(2023 年 1 月)

ElevenLabs 在秘密开发九个月后,同一周宣布融资并上线公开测试版。免费套餐和随手可分享的输出完成了剩下的事。

原始来源 ↗

2023 年 1 月 23 日。ElevenLabs 宣布完成由 Credo Ventures 领投、Concept Ventures 跟投的 200 万美元种前轮融资,并在同一天向公众开放文字转语音(TTS)测试版。英语和波兰语,免费套餐,无需排队候补。

五个月后的 2023 年 6 月,平台注册用户突破 100 万

先于发布的秘密押注

Mati Staniszewski(前 Palantir)和 Piotr Dabkowski(前 Google)于 2022 年 4 月注册成立 ElevenLabs。从 2022 年 4 月到 2023 年 1 月,公司实际上处于沉寂状态:没有公开网站,只有一个落地页,没有演示,没有媒体报道,没有产品。

对一家种前轮公司来说,九个月是漫长的秘密开发期。创始人用这段时间训练出了一个比公开可用方案明显更优的 TTS 模型——当时的替代品是 Microsoft Azure、Google Cloud TTS 和 Amazon Polly,相比之下它们听起来都是机器声。

保持沉默的纪律是这个故事里不太为人所知的部分。大多数种前轮创始人会在第 60 天就向小圈子发布漏洞版测试,因为他们想要反馈。ElevenLabs 一直等到模型质量超越竞品才出手。

三件事的捆绑:融资 + 测试版 + 免费套餐

2023 年 1 月 23 日,三件事同时发生:

  • 融资公告。 种前轮 200 万美元,领投方和跟投方公开披露。
  • 公开测试版上线。 任何人当天就可以注册。
  • 慷慨的免费套餐。 每月免费 10,000 个字符,付费计划起步 5 美元/月。

免费套餐是这一切的承重结构。一位创作者无需付费就能生成 30-60 秒的音频——足够做一个 TikTok、一段 YouTube 片头或一条 X 语音帖。他们生成的第一段音频,几乎一定会想要分享出去。

竞争对手提供什么ElevenLabs 提供什么
仅限 API,付费门槛约 50 美元/月起步免费 10,000 字符 + 最低 5 美元
机器人般的旁白声音有情感、像真人的输出
仅英语或稀薄的多语言支持英语 + 波兰语 + 通往 28 种更多语言的路径

这个定价并非为了打价格战。这是一个刻意的选择,旨在将产品推到长尾创作者面前——TikToker、播客主、独立游戏开发者、YouTuber——这些人会自然放大它。

"5 个月 100 万用户"的实际样貌

这波增长不靠付费推广。不靠 Product Hunt 冲榜(ElevenLabs 有上榜,但并不出众)。驱动机制是:

  • X(推特)音频片段。 用户发布"听听这个"的推文,内嵌 ElevenLabs 生成的声音。片段自动播放,每次分享都带着品牌。
  • Hacker News 提交。 测试版发布登上 HN 首页,技术好奇的开发者蜂拥注册试用。
  • TikTok 创作者使用。 朗读类内容的配音,尤其是"Reddit 故事"TikTok 系列,在 2-4 月迅速蔓延。
  • Reddit 讨论串。 r/MachineLearning、r/AIVoiceCloning、r/sidehustles 都将 ElevenLabs 推为好用的新工具。

这条增长曲线是产品与框架完美契合的标志——每个随意的用户都成为一个传播节点,因为输出本身就是传播单元。

一周后的 4chan 事件

同一次发布吸引来了用户,也吸引来了滥用者。2023 年 1 月 30 日,4chan 用户克隆了 Emma Watson、Joe Rogan 和 Ben Shapiro 的声音,生成了冒犯性内容。

ElevenLabs 在下一个工作日就给出了回应:付费专属语音克隆、AI 检测工具、按次生成可追溯。详细故事见下一篇深度解析——但值得在这里指出的是,这次滥用恰恰是带来用户增长的那份慷慨的副产品。

免费套餐让 ElevenLabs 获得了 100 万用户。身份核验后的付费声音克隆,则让公司避免了为此付出代价。

对 A 轮的复利效应

到 2023 年 6 月,ElevenLabs 平台上已有约 100 万用户。这个指标——可验证、可审计——以在冷启动状态下不可能实现的条件(1900 万美元,估值约 1 亿美元)关闭了 A 轮融资。

日期轮次估值触发因素
2023 年 1 月 23 日种前轮 200 万美元约 1200 万美元测试版上线
2023 年 6 月 21 日A 轮 1900 万美元约 1 亿美元100 万用户 + 语音新产品
2024 年 1 月 22 日B 轮 8000 万美元11 亿美元Multilingual v2 + Dubbing Studio

a16z、Nat Friedman 和 Daniel Gross 联合领投了 A 轮。Mike Krieger(Instagram)、Brendan Iribe(Oculus)、Mustafa Suleyman(DeepMind)和 Tim O'Reilly 作为天使投资人加入——这样的投资人阵容,通常不会出现在一家仅成立五个月的公司里。

用户里程碑让这轮融资成为可能。1 月的捆绑发布让用户里程碑成为可能。

来源

04 / 022023-01-30
媒体强制信任姿态

差点扼杀发布的 4chan 声音克隆丑闻——以及拯救了一切的 24 小时应对(2023 年 1 月)

公开测试版上线七天后,4chan 用户克隆名人声音发布辱骂内容。ElevenLabs 在下一个工作日便上线了付费专属克隆、AI 检测器和可追溯机制。这场危机成为了信任姿态的起点。

原始来源 ↗

2023 年 1 月 30 日——公开测试版上线后的第七天。Vice 报道称,4chan 用户利用 ElevenLabs 克隆了 Emma Watson 朗读《我的奋斗》的声音、Joe Rogan 和 Ben Shapiro 发表种族主义言论的声音,以及 David Attenborough 发出威胁的声音。

这篇报道随即登上 Slashdot、Futurism 和 OECD 人工智能事件数据库,48 小时内被所有报道 AI 风险的主流科技媒体转载。

在下一个工作日前,ElevenLabs 便落地了具体改进措施。这场危机成为了此后的运营模板。

4chan 究竟做了什么

4chan 的滥用行为利用的是免费套餐的声音克隆功能。只需一段 60 秒的目标声音样本,平台就能生成以该声音说出任意内容的新音频。

公开测试版上线不到一周内:

目标内容
Emma Watson朗读《我的奋斗》
Joe Rogan针对 AOC 的种族主义言论
Ben Shapiro针对少数族裔的仇恨内容
David Attenborough暴力威胁
Hillary Clinton跨性别恐惧内容

4chan 的帖子演变成了一份利用该产品进行骚扰的操作手册。Vice 发布报道时,截图已经在 X(推特)上四处传播。

对大多数种前轮初创公司来说,这是一个足以终结公司的事件。投资人撤资,媒体基调转负,产品永远被贴上滥用标签。

24 小时应对

ElevenLabs 在下一个工作日——1 月 31 日——做出了回应。公司发表声明,承认「日益增多的声音克隆滥用案例」,并上线了一系列立即生效的改进措施,同时公布了后续跟进计划:

约 24 小时内落地:

  1. 声音克隆限付费用户。 免费用户无法进行声音克隆。付费需要提供支付信息,形成审计轨迹。
  2. 按次生成可追溯。 每段生成的音频都可追溯到具体的生产账户。
  3. 人工审核路径。 克隆公众人物声音需要额外核验。

此后数月内落地: 4. AI 语音分类器。 一个免费的公共工具,可以分析任意音频片段并判断是否由 ElevenLabs 生成。于 2023 年 6 月随 A 轮融资同步发布——距 4chan 事件初始响应五个月,但对长期信任姿态至关重要。

初始响应是具体的行动,而不是"我们高度重视此事"式的表态。具体的安全措施,加上透明的跟进路线图。

速度比内容更重要。滥用事件病毒传播后不到一周,公司就给出了公开的技术答案。2024-2025 年间,大多数 AI 厂商面对类似事件需要数月才能做出响应。ElevenLabs 在成立第二周就树立了标杆。

为什么这次应对有效

4chan 事件本可以是灾难性的,但最终成为了一个标杆案例,原因有三。

1. 应对是技术层面的,而非法律层面的。 分类器是一个真正可用的工具,而不是一份服务条款更新。记者可以测试它,它有效。这与一篇关于"负责任 AI"的新闻稿是完全不同的可信度。

2. 可追溯性声明是可核实的。 ElevenLabs 能够(也确实做到了)将特定的滥用内容追溯到特定的账户并将其封禁。审计轨迹不是理论上的。

3. 公司没有否认上行空间。 CEO 没有声称声音克隆是安全的,而是承认滥用是这项技术的固有属性,平台需要持续的安全保障。这种框架——"是的,这是危险的,以下是我们如何管理它"——在此后三年的多次事件中始终经得起检验。

12 个月后重演的模式

4chan 应对方案成为了 ElevenLabs 每次遭遇滥用时运行的模板。最具影响力的一次重演发生在 2024 年 1 月 26 日——Pindrop 追踪到一条虚假拜登新罕布什尔州初选自动电话,溯源至 ElevenLabs。公司在 72 小时内封禁了相关账户,发表了明确的公开声明,拜登事件随后成为那一年最常被引用的"负责任 AI 厂商"案例。

事件公开回应用时具体行动
4chan 名人事件(2023 年 1 月)1 个工作日付费专属克隆 + 可追溯机制(分类器于 5 个月后的 2023 年 6 月发布)
拜登自动电话(2024 年 1 月)3 天账户封禁 + 公开声明 + 引用分类器

相同的模式,相同的速度,执行了两次——而且第二次发生时,应对模板已经预先构建好了。到 2024 年末,当 Deutsche Telekom 等企业采购团队对语音 AI 厂商进行尽职调查时,ElevenLabs 的事件应对履历成了加分项,而非减分项。

隐藏的 GTM 回报

这件事有一个反直觉的真相:ElevenLabs 并未因 4chan 事件流失用户。用户数从 1 月底的不足 10 万增长到 2023 年 6 月的 100 万。

实际发生的是:滥用报道在广告宣传产品能力。"ElevenLabs 能用 60 秒样本克隆任何声音"——这既是滥用向量,也是对该技术能力最有说服力的演示。那些需要合法声音克隆的用户——有声书旁白者、无障碍工具开发者、配音艺术家——看到的是同样的头条新闻。

强制信任姿态意味着 ElevenLabs 能够承接这波关注,而不会变成"那家深度伪造公司"。Cartesia、Resemble 和 PlayHT 在 2023-2024 年间获得了类似的能力报道,但没有同等级别的运营履历。事件应对差距转化为信任差距。

来源

04 / 032024-01-22
融资捆绑里程碑

B 轮 8000 万美元,估值 11 亿美元——21 个月的独角兽,一次公告里塞进了三次产品发布(2024 年 1 月)

ElevenLabs 的 B 轮公告在同一份新闻稿里附带了 Voice Marketplace、Dubbing Studio 和移动端 SDK。相同的公告预算,四倍的覆盖面。

原始来源 ↗

2024 年 1 月 22 日。ElevenLabs 宣布完成由 Andreessen Horowitz 领投、Sequoia Capital、Nat Friedman 和 Daniel Gross 参与的 8000 万美元 B 轮融资。估值:11 亿美元。成立 21 个月。

这是当时欧洲 AI 公司中速度最快的独角兽——而公告的主角根本不是这轮融资。

随融资同步的产品捆绑包

B 轮新闻稿在同一窗口宣布了四项发布:

产品内容
Voice Marketplace创作者上传声音、收益分享模型
Dubbing Studio带编辑控制的专业视频翻译
移动端 SDK面向应用开发者的 iOS / Android 语音集成
AI 语音分类器(再次强调)检测 AI 生成音频的公共工具(最初于 2023 年 6 月随 A 轮发布)

每一项单独拿出来都是一篇独立的报道。与 8000 万美元和 11 亿美元估值捆绑在一起,它们在四个不同的媒体类别引发了报道级联:

  • TechCrunch / Bloomberg / Forbes / Fortune — 融资轮次
  • Slator / VentureBeat / The Verge — Dubbing Studio
  • 9to5Mac / Android Central — 移动端 SDK
  • AI / ML 行业媒体 — AI 语音分类器和创作者市场

一次 B 轮公告,覆盖了四个新闻节拍。相同的公告支出,覆盖面扩大约 4 倍。

为什么这次捆绑在这里特别有效

这次捆绑不是随意为之。每次发布都在战略上与融资叙事绑定。

Voice Marketplace = "ElevenLabs 正在成为一个平台,而不是一个 TTS API。"这个重新定位支撑了 11 亿美元的独角兽估值。一个 TTS API 够不上 11 亿美元;一个拥有创作者网络效应的市场平台可以。

Dubbing Studio = "ElevenLabs 正在争夺媒体行业预算。"Slator 和 VentureBeat 的读者是大规模采购本地化的人——Netflix、Audible、Warner Bros. 的支出规模比独立创作者订阅高出一个数量级。

移动端 SDK = "ElevenLabs 正在成为基础设施。"应用开发者集成语音功能意味着循环性 API 收入,而非一次性创作者订阅。

AI 语音分类器(再次强调)= "ElevenLabs 是负责任 AI 厂商。"这是信任姿态建设——2024 年 1 月 22 日距离拜登自动电话事件曝光只有四天。将分类器纳入 B 轮叙事框架,帮助公司在拜登事件冲击下保住了叙事阵地。

投资人名单讲述的战略故事

A 轮是 Nat Friedman、Daniel Gross 和 a16z——AI 原生天使模式。

B 轮加入了 Sequoia(资本媒体信号),并保留了原有团队(延续性信号)。进入 2024 年时,投资人结构如下:

轮次领投方值得关注的参与方
种前轮(2023 年 1 月)Credo VenturesConcept Ventures
A 轮(2023 年 6 月)Nat Friedman / Daniel Gross / a16zMike Krieger、Brendan Iribe、Mustafa Suleyman、Tim O'Reilly
B 轮(2024 年 1 月)a16zSequoia、Nat Friedman、Daniel Gross

注意:a16z 连续两轮领投。这是一个有意义的信号——同一基金在连续轮次中领投,意味着内部对估值增长的信心强到足以在合伙人会议上为此背书。

21 个月里程碑

里程碑距成立月数
公开测试版9
100 万用户14
A 轮14
走出测试版 + Multilingual v216
B 轮 + 独角兽21

作为参考,2022-2024 年间 AI 基础设施公司达到独角兽估值的中位时间大约是 36-48 个月。ElevenLabs 用了 21 个月。

这种压缩是捆绑模式的产物。每轮融资为下一次产品发布扫清了跑道;每次产品发布支撑了下一轮的估值。这个两步棘轮反复运转了四次——种前轮、A 轮、B 轮、C 轮——从未中断。

四天后的拜登事件

B 轮的新闻周期仍在持续,拜登自动电话事件便于 2024 年 1 月 26 日曝光。时间上的巧合是偶然,但应对模板早在一年前的 4chan 事件后就已建立好。

ElevenLabs 在 72 小时内封禁了相关账户,发表了公开声明,而 AI 语音分类器(已成为 B 轮叙事的一部分)成为了"你们如何防止此类事件"这一问题的技术答案。

B 轮独角兽公告与拜登自动电话应对在同一周落地。嵌入融资公告的信任姿态,为两件事同时完成了商业工作。

来源

04 / 042024-01-26
媒体强制信任姿态

拜登自动电话深度伪造——72 小时封号如何变成企业销售材料(2024 年 1 月)

Pindrop 追踪到一条虚假拜登新罕布什尔州初选自动电话,溯源至 ElevenLabs。公司在 72 小时内封禁了相关账户。到年底,这次响应已被引用为企业采购决策的参考依据。

原始来源 ↗

2024 年 1 月 26 日,Pindrop Security 发布分析报告,追溯了数天前发送给数千名新罕布什尔州民主党初选选民的 AI 生成自动电话。该电话使用合成的拜登声音,要求人们不要去投票。

Pindrop 的法证分析将这段音频溯源至 ElevenLabs。

公司在当周末之前封禁了相关账户。Bloomberg、金融时报、华尔街日报、NBC、CNN、路透社和美联社均报道了这次响应。

事件时间线

这起事件在监管机构、媒体和 ElevenLabs 之间快速推进:

日期事件
1 月 21-22 日自动电话在新罕布什尔州初选前送达选民
1 月 23 日新罕布什尔州总检察长启动刑事调查
1 月 25 日Pindrop 完成法证分析,确认源头为 ElevenLabs
1 月 26 日Bloomberg 披露与 ElevenLabs 的关联;账户在 72 小时内被封禁
1 月 27 日FCC 宣布推进禁止 AI 生成自动电话的流程
2 月 8 日FCC 正式立法禁止语音电话中使用 AI 声音(援引此事件为直接起因)
2 月 23 日账户创建者身份公开(与 Steve Kramer / Lingo Telecom 有关联)

FCC 于 2 月 8 日通过的禁令明确援引了拜登事件作为直接触发原因。ElevenLabs 的技术成为监管立法中被点名的具体案例。

72 小时响应的实际内容

第一周内的三项具体行动:

1. 账户封禁。 生成该音频的用户被封禁。ElevenLabs 自 2023 年 1 月 4chan 事件以来已有的按次生成可追溯机制,使识别过程直接了当。

2. 公开声明。 "我们致力于防止语音 AI 工具的滥用,并对任何滥用事件高度重视。"语言直接,没有回避与该事件的技术关联。

3. AI 语音分类器再次引用。 最初于 2023 年 6 月随 A 轮融资发布的这个免费公共工具,被重新推出,作为"如何判断音频是否来自 ElevenLabs"这一问题的技术答案——Pindrop 使用了类似的方法。

这次响应没有包含:否认、推卸责任,或声称平台遭到了不公正针对。定性框架是直接承认,加上运营层面的证据。

为什么这树立了行业标杆

2024 年语音 AI 滥用事件波及了几乎所有主要厂商,但各家的应对模式大相径庭:

厂商2024 年主要事件公开响应
ElevenLabs拜登自动电话(1 月)72 小时封禁、公开声明、引用分类器
Cartesia公开事件有限2024 年无相关案例
PlayHT公开事件有限2024 年无相关案例
Microsoft(VALL-E)限制发布为规避此风险而保持模型私密

ElevenLabs 是唯一一家:a)产品被公开关联到高知名度选举干预事件,且 b)在不损失运营可信度的情况下承接了这次关联。

与 Microsoft VALL-E 处理方式的对比最具启示性。Microsoft 正是因为不想陷入这种境地,才将 VALL-E 保持私密。ElevenLabs 选择了公开站位并建立起运营肌肉。到 2025 年,市场对这种肌肉给予了回报。

对企业销售的影响

这套响应模板在 2024-2025 年的企业采购流程中产生了真实的商业回报。

到 Deutsche Telekom、NTT DOCOMO Ventures、RingCentral Ventures、HubSpot Ventures 和 LG Technology Ventures 加入 2025 年 1 月 C 轮融资时(Salesforce Ventures 作为返场投资人也在其中),语音 AI 厂商的尽职调查已经例行包含关于滥用处理的问题。ElevenLabs 能够提出一份 12 个月的运营履历:

  • 4chan 事件(2023 年 1 月)→ 付费专属克隆 + 可追溯机制
  • 拜登自动电话(2024 年 1 月)→ 72 小时封禁 + FCC 配合
  • 2024 年选举周期 → 无更多涉及 ElevenLabs 的高知名度事件

这份履历是在企业销售竞争中对抗 Cartesia 和 PlayHT 的差异化优势。多份 Sacra 和 Contrary Research 分析报告均将"滥用应对上的运营纪律"列为 ElevenLabs 赢得联络中心和电信 RFP 的原因之一。

"信任姿态即 GTM"的模式

这个模式罕见,值得明确命名:

  1. 高风险滥用事件 → 强制性公众关注
  2. 响应速度是可核实的信号 → 72 小时成为基准
  3. 具体技术安全措施已预先落地 → 响应是运营层面的,而非公关层面的
  4. 模式在多次事件中可信地复现 → 企业采购开始将此计入风险缓释
  5. 电信 / 企业 / 受监管行业合同成交 → 信任转化为营收

ElevenLabs 在 24 个月内运行了这个循环三次。每次迭代都为下一次奠基。到 C 轮时,信任姿态已在创造营收,而不仅仅是化解危机。

大多数厂商将滥用视为 PR 问题。ElevenLabs 将滥用视为一项持续的运营测试——测试这家公司是否能够维系企业信任。媒体免费完成了营销工作。

来源

04 / 052024-07-03
媒体受众边界突破

Iconic Voices——授权 Garland、Dean、Reynolds 和 Olivier,如何让 ElevenLabs 登上 CNN、CBS 和 Variety(2024 年 7 月)

获得遗产授权的四位好莱坞传奇 AI 声音克隆,将一次 Reader 应用功能发布变成了主流媒体头条。这次交易的结构,悄然重塑了公众对语音 AI 伦理的讨论框架。

原始来源 ↗

2024 年 7 月 3 日。ElevenLabs 宣布"Iconic Voices"——Judy Garland、James Dean、Burt Reynolds 和 Sir Laurence Olivier 的 AI 声音克隆——通过 CMG Worldwide 取得授权,并集成进一周前刚刚发布的 ElevenReader 应用。

48 小时内,这个故事出现在 CNN Business、CBS News、Variety、Tubefilter、Designboom、Tom's Guide 和 Entrepreneur Magazine。

让这一切成为可能的交易结构

这次授权不是临时拍板的。ElevenLabs 与 CMG Worldwide——代理 Garland、Dean、Reynolds 和 Olivier 遗产的比弗利山庄 IP 公司——构建了一套受限使用框架:

条款细节
使用场景仅限 Reader 应用——书籍、文章、PDF
声音范围声音不添加进 ElevenLabs 更广泛的音频数据库
遗产同意每个声音均获得对应遗产的单独授权
新内容生成不允许——声音仅限于朗读现有文字
家属背书Liza Minnelli(Garland 之女)发表公开声明

限制条件本身就是新闻角度。"AI 克隆已故名人"是一个恐怖片式的标题。"获遗产授权、家属背书、仅限有声书的 AI 声音克隆"是一个致敬式的标题。媒体采用了第二种定性框架,因为协议结构强制了这种定性。

为什么媒体争相报道

主流媒体几乎不报道语音 AI 基础设施发布。对话式 AI v1 在 2024 年 11 月上线——从产品意义上说可能是更重要的时刻——却只获得了 AI 行业媒体的报道。

Iconic Voices 获得主流媒体报道,有三个结构性原因:

1. 可辨识的文化符号。 Judy Garland 朗读《绿野仙踪》是一个不需要解释的故事。语音 AI 基础设施是需要解释的标题。文化符号承载了新闻节拍。

2. 预先化解伦理问题。 遗产授权 + 家属背书,在记者动笔之前就消除了伦理层面的异议。CBS、CNN 和 Variety 可以直接发布,无需附上"但这样做合适吗"的反驳段落。

3. 视频 + 音频传播单元。 平面媒体配上了"Garland 朗读"内容的视频片段。当同一媒体机构在社交账号发布剪辑版时,这些片段在 Instagram Reels、TikTok 和 YouTube Shorts 上原生传播。故事在各平台上免费扩散。

Iconic Voices 的发布,是罕见地登上 CBS 周日早间节目级别、而非仅限于 TechCrunch 的语音 AI 故事。交易结构是关键所在。

对品牌的实际影响

2024 年中期之前,ElevenLabs 的品牌形象是:

  • 在 AI / 开发者圈子内:业内最佳 TTS,慷慨的免费套餐,持续的滥用事件
  • 在 AI 圈子之外:那家让拜登深度伪造成为可能的公司

Iconic Voices 翻转了第二种形象。就在同一周,ElevenLabs 在 Variety 上因 Garland 和 Dean 获得好评的同时,也在主流媒体上明显走出了深度伪造的阴影。

媒体周期主导定性框架
2024 年 1-2 月拜登自动电话,AI 选举干预
2024 年 3-5 月市长克隆,持续的 AI 伦理争议
2024 年 6-8 月ElevenReader,Iconic Voices,有声书的未来
2024 年 9-11 月对话式 AI v1,平台跃迁

这次品牌建设对后续的事情至关重要。2025 年 1 月的 C 轮融资吸引了 Deutsche Telekom、NTT DOCOMO Ventures、HubSpot Ventures 和 Salesforce Ventures——这些战略投资人的内部推动者,如果面对的还是"那家深度伪造公司",很难在内部为这笔投资背书。Iconic Voices 之后,ElevenLabs 有了一个这些人可以在内部讲清楚的故事。

Reader 应用的角色

ElevenReader(2024 年 6 月 25 日发布)是让 Iconic Voices 变得合理的消费者端产品。没有一个让用户真正收听 Garland 朗读的地方,这个故事只是"ElevenLabs 授权了名人声音"——一条供应商公告,而非一个产品。

这次捆绑:

  • 2024 年 6 月 25 日:ElevenReader iOS 版上线(Android 随后跟进)。免费应用,以自然 AI 声音朗读任意文字。
  • 2024 年 7 月 3 日:Iconic Voices 合集在 Reader 内上线。Garland、Dean、Reynolds、Olivier 作为高级套餐。
  • 后续数月:更多授权声音持续加入;Reader 成为进入 ElevenLabs 生态的消费者入口。

Reader 发布与 Iconic Voices 发布之间八天的间隔是刻意设计的。Reader 建立了框架("一款面向书籍和文章的音频应用"),Iconic Voices 让这个框架变得值得报道。两者合力完成了单独任何一个都无法做到的事情。

竞争对手无法复制的东西

到 2024 年 7 月,每家语音 AI 厂商都能在给定样本的情况下克隆名人声音。这种能力已经商品化。

ElevenLabs 拥有而竞争对手没有的,是遗产关系基础设施。CMG Worldwide 不会与在滥用处理上没有建立运营信任的厂商签约。4chan 事件应对(2023 年 1 月)、拜登事件应对(2024 年 1 月)和公开的 AI 语音分类器,正是这次合作成为可能的原因。

Cartesia 和 PlayHT 可以在技术克隆质量上与 ElevenLabs 并驾齐驱。但两家都无法在 2024 年签成 CMG Worldwide 的授权合同。信任姿态成为了护城河。

来源

04 / 062024-11-18
产品技术叙事升维

对话式 AI v1——11 周内完成平台跃迁,彻底重塑销售动作(2024 年 11 月)

ElevenLabs 在 2024 年 11 月 18 日从 TTS API 变身为集成语音智能体平台。11 周后,电信和 CRM 战略投资人领投了 C 轮。这次向上迁移的速度,让竞争对手根本来不及反应。

原始来源 ↗

2024 年 11 月 18 日。ElevenLabs 上线对话式 AI v1——一个将 TTS、语音转文字(STT)和 LLM 编排整合进单一智能体技术栈的平台层。开发者现在可以直接在 ElevenLabs 开发者控制台内构建完整的对话智能体。

11 周后,C 轮融资以 33 亿美元估值完成,战略投资人来自电信、CRM 和联络中心领域。

这次发布实际上交付了什么

对话式 AI v1 是一个平台级产品,而不是一个功能。一个控制台,四个组件:

  • 语音(TTS):ElevenLabs 现有的 Eleven Multilingual v2 模型
  • 语音转文字:处理用户输入的原生 ASR(自动语音识别)
  • LLM 编排:可接入 OpenAI、Anthropic 或自托管 LLM
  • 知识库:以文件 / URL / 文本块作为智能体上下文

配置界面相当完整——声音、延迟、稳定性、对话长度、身份验证等。SDK 支持 Python、JavaScript、React 和 Swift,另提供 WebSocket API。

换句话说:开发者在一个地方就能构建一个可用的语音智能体,无需串联 5 个供应商。

为什么时机至关重要

语音智能体品类正在 2024 年末成形。当时的竞争格局:

厂商2024 年 11 月的定位技术栈
ElevenLabs最佳 TTS,现在是完整平台垂直集成
Vapi语音智能体平台,无自研 TTS最优第三方 API 拼接
Retell语音智能体平台,无自研 TTS最优第三方 API 拼接
Cartesia最强 TTS 竞争对手,无智能体层仅 TTS
PlayHTTTS,在构建智能体功能TTS + 薄智能体层
DeepgramSTT 领导者,在构建 TTSSTT + TTS,无智能体

ElevenLabs 是唯一同时拥有顶级自研 TTS 模型和完整智能体技术栈的厂商。Vapi 和 Retell 正在把 ElevenLabs 的 TTS 接入自己的技术栈——这使得平台跃迁直接构成了对它们的竞争威胁。

对话式 AI v1 的上线,实际上将 Vapi 和 Retell 的成本折叠进了 ElevenLabs 自己的平台。原本同时付费给 ElevenLabs TTS 和 Vapi 编排的开发者,现在可以合并这两笔账单。

11 周连锁

这次发布是一段紧密排布的时间线的第一步:

日期事件
2024 年 11 月 18 日对话式 AI v1 上线
2024 年 11 月末披露 ARR 达 9000 万美元(Sacra / The Information)
2024 年 12 月ARR 年底达 1.2 亿美元
2025 年 1 月C 轮条款单活动(被融资报道预示)
2025 年 1 月 30 日C 轮 1.8 亿美元,估值 33 亿美元
2025 年 2 月 22-23 日a16z + ElevenLabs 全球黑客马拉松(语音智能体主题)

从产品发布到融资关闭,仅用 11 周。这种速度的实现,需要以下三个前提条件同时成立:

  1. 预先存在的投资人关系(a16z + ICONIQ 已在跟进中)
  2. 可核实的营收拐点(2024 年全年 ARR 从 2500 万 → 9000 万 → 1.2 亿美元)
  3. 一次重新定义品类的产品发布

C 轮新进战略投资人名单——Deutsche Telekom、NTT DOCOMO Ventures、RingCentral Ventures、HubSpot Ventures 和 LG Technology Ventures(Salesforce Ventures 返场)——都因为对话式 AI v1 将 ElevenLabs 从 TTS 重新定位为电信和 CRM 基础设施而加入。

战略投资人实际上在买什么

四家电信 / CRM 战略投资人,各有明确的投资逻辑:

投资人战略角度
Deutsche Telekom欧洲 B2B 服务的语音智能体
NTT DOCOMO Ventures日本市场联络中心的语音智能体
RingCentral VenturesUCaaS / 联络中心语音集成
HubSpot Ventures中小企业 CRM 语音智能体层
LG Technology Ventures消费电子设备的语音界面

五位战略投资人,五条不同的企业集成路径。任何一家都不会投资一个 TTS API。所有人对语音智能体平台都有清晰的投资论点。

平台跃迁是吸引战略投资人的前提条件。ElevenLabs 从"有趣的 AI 初创公司"变成"潜在的基础设施合作伙伴",用了 11 周。

对话式 AI 2.0 的跟进

对话式 AI v1 是第一步。对话式 AI 2.0(2025 年 6 月 3 日)是可信度的延伸:

  • 原生轮流对话模型(处理犹豫、打断、填充词)
  • 集成语言检测(无需手动配置)
  • 多角色模式(单一智能体,多个人设)
  • 批量外呼(并发呼叫发起)

2.0 的发布刻意在 v1 发布七个月后——这个发布节奏传递出"这是我们主导的品类"的信号。Vapi 和 Retell 还在他们的第一或第二个平台迭代上。ElevenLabs 已经发布了两代产品。

节奏本身就是 GTM。不是单个功能。

平台跃迁对 ARR 曲线的影响

平台层的转变以纯 TTS 规模扩张无法实现的方式复利加速了营收曲线:

日期ARR驱动力
2024 年 Q12500 万美元TTS API + Dubbing Studio
2024 年 Q41.2 亿美元TTS 规模扩张 + 早期对话式 AI 采用
2025 年 8 月2 亿美元对话式 AI 2.0 + 企业合同
2025 年 12 月3.3 亿美元以上规模化语音智能体,企业接近总营收 50%

2024 年 Q4 → 2025 年 8 月的跳升(1.2 亿到 2 亿美元,仅八个月),是对话式 AI 营收开始在顶线上体现的阶段。2025 年 8 月 → 12 月的跳升(2 亿到 3.3 亿美元,仅五个月),是企业合同开始规模化成交的阶段。

没有 2024 年 11 月的对话式 AI v1,曲线会在 2 亿美元 ARR 附近趋于平稳——一家不错的 TTS 公司。有了对话式 AI v1,曲线继续压缩,一路延伸到 D 轮和 IPO 轨道。

来源

04 / 072025-01-30
融资捆绑里程碑

C 轮 1.8 亿美元,估值 33 亿美元——将 ElevenLabs 重新定义为语音基础设施的电信 / CRM 战略股东阵容(2025 年 1 月)

a16z 和 ICONIQ 联合领投,但真正的标题是新进战略投资人名单:Deutsche Telekom、NTT DOCOMO、RingCentral、HubSpot、LG Technology Ventures(Salesforce 为返场投资人)。C 轮不是资本——而是嵌入股权结构的分发通道。

原始来源 ↗

2025 年 1 月 30 日。ElevenLabs 宣布完成由 Andreessen Horowitz 和 ICONIQ Growth 联合领投的 1.8 亿美元 C 轮融资,估值 33 亿美元。这是 B 轮估值的三倍,距 B 轮仅 12 个月。

NEA、Sequoia、World Innovation Lab、Valor、Endeavor Catalyst 和 Lunate 也参与其中。ICONIQ 合伙人 Seth Pierrepont 加入董事会。

财经媒体关注的是估值跳升,战略意义在于战略投资人名单。

战略投资人模式

C 轮带来了五位新进战略投资人,各有重叠但不同的切入角度(Salesforce Ventures 作为前几轮返场投资人也在本轮中):

投资人从 ElevenLabs 购买什么战略向量
Deutsche Telekom欧洲 B2B 的语音智能体电信 / 中小企业
NTT DOCOMO Ventures日本联络中心的语音智能体亚太电信
RingCentral VenturesUCaaS 语音集成UCaaS / 联络中心
HubSpot Ventures中小企业 CRM 语音智能体层中小企业 CRM
LG Technology Ventures消费电子设备的语音界面消费硬件

五位新进战略投资人,五条不同的企业渠道。每一家在写支票之前都有了内部部署论点。

这是一种与 A 轮或 B 轮不同性质的融资。种前轮和 A 轮带来的是资本。B 轮带来的是资本 + 品牌(a16z + Sequoia)。这个战略阵容的 C 轮带来的是资本 + 品牌 + 分发通道——通过五条企业向量,而 ElevenLabs 靠自己可能需要花数年才能从底部逐一建立起来。

让这一切成为可能的 11 周时间线

C 轮在对话式 AI v1 于 2024 年 11 月上线后 11 周内关闭。这个序列是整个链条的关键动作:

日期事件
2024 年 11 月 18 日对话式 AI v1 上线
11 月末ARR 披露达 9000 万美元
2024 年 12 月 31 日年底 ARR 达 1.2 亿美元
2025 年 1 月 30 日C 轮关闭
2 月 22-23 日a16z + ElevenLabs 全球黑客马拉松(语音智能体主题)

11 月的平台跃迁将 ElevenLabs 定位为语音基础设施,而非 TTS API。战略投资人只能投资平台层故事,无法投资 TTS API 故事——电信和 CRM 采购团队不会将 TTS API 作为独立产品部署。

对话式 AI v1 完成了对战略投资人的招募。C 轮公告是关账。

这轮融资捆绑了什么

秉承 ElevenLabs 的一贯节奏,C 轮不是一次单独的公告,而是捆绑了:

  • 融资关闭(1.8 亿美元,估值 33 亿美元)
  • 董事会补充(ICONIQ 合伙人 Seth Pierrepont 加入)
  • 战略分发启动(Deutsche Telekom 合作关系信号)
  • 企业客户披露(在后续媒体报道中陆续揭示)——ARR 数据的披露引发了客户点名
  • a16z 黑客马拉松系列(两周后于 2 月 22-23 日宣布)

14 天窗口内,五个新闻节拍。相同的公告预算,覆盖面成倍扩大。

估值数学

过去 24 个月的估值轨迹:

轮次日期融资金额估值较上轮倍数
种前轮2023 年 1 月200 万美元约 1200 万美元
A 轮2023 年 6 月1900 万美元约 1 亿美元8.3×
B 轮2024 年 1 月8000 万美元11 亿美元11×
C 轮2025 年 1 月1.8 亿美元33 亿美元
二次出售2025 年 9 月1 亿美元(二次出售)66 亿美元
D 轮2026 年 2 月5 亿美元110 亿美元1.7×

C 轮 3 倍溢价低于 A 轮的 8 倍或 B 轮的 11 倍,但融资金额大得多。估值扩张从"叙事重定价"转向了"营收支撑"。

以 33 亿美元 / 1.2 亿美元 ARR 计算,倍数约为 27 倍。到 D 轮时,110 亿美元 / 3.3 亿美元 ARR,压缩至约 33 倍。从 C 轮到 D 轮,倍数保持相对稳定——这意味着估值增长是由 ARR 增长支撑的,而非重新定价驱动的。

为什么 C 轮是拐点轮次

每一轮之前都是一次台阶式跳升。C 轮是一次品类跃迁。

C 轮之前,ElevenLabs 是一家 AI 语音公司。C 轮之后——Deutsche Telekom、NTT DOCOMO、HubSpot、RingCentral 和 LG Technology Ventures 全部新入(Salesforce Ventures 返场)——ElevenLabs 是一家语音基础设施公司。这个标签的变化,打开了对 AI 厂商定位的竞争对手来说结构性不可用的企业合同。

Cartesia 和 PlayHT 在 2025 年仍能与 ElevenLabs 在 TTS 质量上持平。但两家都无法复制这张战略投资人阵容。Vapi 和 Retell 可以在智能体平台上匹敌;但两家都没有 Deutsche Telekom 这样的快速通道。

C 轮不是 ElevenLabs 最优秀的时刻。它是 ElevenLabs 在特定竞争维度上变得无法被复制的时刻——战略分发通道的获取。

对 D 轮的下游影响

2026 年 2 月的 D 轮(Sequoia 领投,5 亿美元,估值 110 亿美元)是 C 轮战略的验证轮次。2025 年 1 月加入的战略投资人,到 2025 年末已成为最大的企业客户——Deutsche Telekom 和 Revolut 在 D 轮报道中被公开点名。

飞轮:

  1. 对话式 AI v1 上线(2024 年 11 月)
  2. 战略投资人加入 C 轮(2025 年 1 月)
  3. 战略投资人内部部署 ElevenLabs(2025 年全年)
  4. 部署转化为企业合同(2025 年中至末)
  5. 企业合同推动 ARR 突破 3.3 亿美元(2025 年底)
  6. ARR 支撑 110 亿美元 D 轮(2026 年 2 月)

C 轮战略投资人不是一个营销噱头,而是未来 12 个月的 GTM 引擎。

来源

04 / 082025-06-05
产品技术叙事升维

Eleven v3——一套音频标签语法如何让语音 AI 感觉像一个全新品类(2025 年 6 月)

70 多种语言、多说话者对话,以及 [excited]、[whispers] 这样的内嵌标签。v3 测试版将声音合成变成了一种舞台指示语言——而演示片段在每个社交平台上原生传播,免费完成了发布推广工作。

原始来源 ↗

2025 年 6 月 5 日。ElevenLabs 发布 Eleven v3 公开测试版。70 多种语言、多说话者对话,以及一套新的音频标签语法——让开发者可以通过内嵌在文字中的标记来控制情感、语调和表达方式。

来自 @elevenlabsio 的发布推文被 Mati Staniszewski、Andrej Karpathy 以及 AI 开发者圈子转发。48 小时内,音频标签演示片段在 X、TikTok、Instagram Reels 和 YouTube Shorts 上广泛传播。

改变演示语法的标签系统

音频标签是用方括号包裹的词语,v3 模型将其解读为表演提示,而非普通文字:

"这太不可思议了![excited] 我没想到我们真的能做到。
[whispers] 但我们必须小心——他们可能还在监视着。
[laughing nervously] 我们现在怎么办?"

输出是一段单一的音频片段,包含三种截然不同的情感层次——兴奋、压低声音的紧张、紧张的笑声——全部通过标记控制,无需分开多次生成。

这是语音 AI 使用方式的一次转变。此前,要获得情感变化需要:

  1. 用不同提示分多次生成,再手动拼接
  2. 在源文字中进行语言方向描述("她兴奋地说"),但模型解读有限
  3. 针对每种情感单独微调一个模型

v3 将上述三种方式全部折叠进了内嵌语法。这种认知模型更接近写剧本,而不是调用 API。

演示语法对传播的重要性

大多数 TTS 升级以前后对比音频的形式发布,演示效果不佳,因为:

  • 提升是渐进的,在手机扬声器上很难听出差异
  • 前后对比需要用户依次收听两段音频
  • 可分享性低——一段片段就够了,两段片段是摩擦

v3 发布的是单段演示片段,但在一个音频文件内就包含了情感变化。15 秒的片段可以在同一段生成内从兴奋切换到低语再到笑声。"哇"的时刻完全自包含。

演示格式分享摩擦「新品类」感受
前后对比音频
单段多声音片段
单段音频标签驱动情感切换

格式和模型质量同样重要。v3 演示之所以病毒传播,是因为它契合社交平台的注意力跨度。

发布节奏:从 v1 到 v3,28 个月

模型发布节奏展示了刻意的步调:

模型发布时间间隔月数
测试版 TTS(英语 / 波兰语)2023 年 1 月
Eleven Multilingual v12023 年 5 月4
Eleven Multilingual v22023 年 8 月3
Eleven Turbo v22024 年 4 月8
Eleven Turbo v2.52024 年 8 月4
Eleven v3(测试版)2025 年 6 月10

Turbo v2.5 到 v3 之间 10 个月的间隔,是公司历史上最长的停顿。v3 是代际跃迁,而非迭代——发布定位与此相符:"有史以来表现力最强的文字转语音模型。"

这段停顿是战略性的。2024 年 11 月的对话式 AI v1 和 2025 年 6 月的对话式 AI 2.0 需要是这段时间的重心,因为平台跃迁是承重的 GTM 动作。v3 与对话式 AI 2.0 相隔仅两天发布(6 月 3 日和 6 月 5 日),将模型发布与平台发布捆绑在同一个公告窗口内。

传播如何扩散

v3 发布遵循了清晰的传播路径:

第 1 天(6 月 5 日)

  • @elevenlabsio 发布带有音频标签演示片段的发布推文
  • Mati Staniszewski 个人 X 账号放大转发
  • AI 开发者圈(Karpathy 及相关账号)转发

第 2-3 天

  • Hacker News 首页(Eleven v3 测试版讨论帖,数百条评论)
  • Product Hunt 发布(当日最佳产品)
  • VentureBeat / TechCrunch 报道音频标签语法

第 4-7 天

  • TikTok 和 Instagram Reels 上创作者演示开始涌现
  • YouTube 上音频标签使用教程出现
  • Reddit r/ElevenLabs、r/MachineLearning 讨论帖

第 2-4 周

  • 整合进创作者工作流(有声书旁白者、独立游戏开发者)
  • 第三方工具和 SDK 采用此语法
  • 使用场景内容(各类场景下最佳音频标签推荐)

传播之所以有效,是因为每个平台获得的是同一演示的不同格式。X 得到 30 秒音频长推,TikTok 得到 15 秒创作者短视频,YouTube 得到 5 分钟"音频标签用法"教程。同一次发布,四种格式,四类受众。

推动采用的定价策略

ElevenLabs 在 2025 年 6 月 30 日前提供 v3 测试版 80% 的额度折扣。这不是优惠,而是一种刻意的强制采用机制。

免费或入门套餐上的创作者可以生成 4-5 倍以上的音频。本会碰到用量上限的重度用户获得了足够的额度空间。到 6 月底,v3 已成为大多数用户工作流中的默认模型,因为在这段时间里它是最便宜的模型。

7 月 1 日折扣结束后,切换回旧模型的成本是重新学习的认知成本——要忘掉已经习惯的音频标签语法。大多数用户在恢复原价后仍然留在了 v3。

80% 折扣测试版,是 ElevenLabs 运行过的成本最低的用户群获取活动。等到定价恢复正常时,音频标签语法已经成为用户预期的标准。

v3 对竞争格局的影响

Cartesia、PlayHT、Resemble 等在 2025 年陆续发布了 TTS 升级。没有一家实现了 v3 的音频标签语法。最接近的是 OpenAI ChatGPT 的语音模式,有情感层次,但没有面向开发者的标记系统。

到 2025 年 Q4,"音频标签"已成为品类标准要求。评估自身路线图的厂商必须做出选择:发布 v3 同等级别的语法,或接受 ElevenLabs 将成为情感丰富语音工作的默认选项。

2026 年 2 月的 D 轮叙事大量援引了 v3 作为 ElevenLabs 不仅是平台领导者、更是模型领导者的证明。Sequoia 在本轮中担任领投方(而非此前各轮中的跟投方),传递出模型故事已经具备独立投资价值的信号。

来源

04 / 092026-02-04
融资捆绑里程碑

D 轮 5 亿美元,估值 110 亿美元——Sequoia 领投,IPO 轨道开启(2026 年 2 月)

Sequoia 从 a16z 和 ICONIQ 手中接过领投席位。Mati Staniszewski 向媒体表示公司正在「迈向 IPO」。估值在五个月内较 9 月的二次出售价格三倍增长。

原始来源 ↗

2026 年 2 月 4 日。ElevenLabs 宣布完成由 Sequoia Capital 领投,Andreessen Horowitz、ICONIQ、Lightspeed Venture Partners、Bond 和 Evantic Capital 参与的 5 亿美元 D 轮融资。估值:110 亿美元。

本轮估值是 2025 年 9 月员工二次出售价格(66 亿美元)的三倍——仅五个月之隔。ARR 于 D 轮前三周披露,2025 年底已超过 3.3 亿美元。

CEO Mati Staniszewski 向 TechCrunch 和 CNBC 表示,公司正在"迈向 IPO"。

领投方变更意味着什么

纵观六轮融资,领投方模式展示了公司的叙事弧线:

轮次领投方隐含框架
种前轮(2023 年 1 月)Credo Ventures欧洲早期 AI
A 轮(2023 年 6 月)a16z + Nat Friedman + Daniel GrossAI 原生天使 + a16z
B 轮(2024 年 1 月)a16z独角兽增长
C 轮(2025 年 1 月)a16z + ICONIQ平台 + 战略分发
二次出售(2025 年 9 月)Sequoia + ICONIQ(联合领投)通往成长期的过渡
D 轮(2026 年 2 月)SequoiaIPO 轨道

Sequoia 首次领投——在公司历史上从未发生过的事——就是这个信号。Sequoia 的后期增长基金在公司处于可信上市路径时才会领投。该基金的投资组合包括 Stripe、Klarna、Snowflake(上市前)和 Datadog(上市前)。

领投方变更是最直接的公开信号,表明 ElevenLabs 已进入 IPO 准备阵营。

捆绑的披露内容

秉承一贯节奏,D 轮没有单独引爆。这个公告窗口包含了:

披露内容细节
5 亿美元融资ElevenLabs 历史上最大一轮
110 亿美元估值较 C 轮估值 12 个月内增长 3.3 倍
3.3 亿美元以上 ARR2025 年底(2026 年 1 月 13 日披露)
Nvidia 投资再次强调——Nvidia 首次公布于 2025 年 9 月;D 轮叙事将其定位为基础设施级背书
企业客户Deutsche Telekom、Revolut 被公开点名
IPO 表态"迈向 IPO"——首次明确的 IPO 框架

六个新闻节拍,一个公告窗口。相同的公告预算,覆盖面成倍扩大——与 ElevenLabs 从种前轮起每轮融资都在执行的同一套打法。

为什么 Nvidia 投资分量如此之重

Nvidia 对 ElevenLabs 的战略投资最初于 2025 年 9 月公布——Tech.eu、Music Business Worldwide 等媒体当时进行了报道,Jensen Huang 也公开表示了对这家公司的背书。2026 年 2 月 D 轮的新闻周期在 IPO 轨道叙事成形之际再次强调了这一点。这传递出三重信号:

1. 战略客户与战略投资人的合二为一。 Nvidia 内部使用 ElevenLabs 进行音频生成。这张战略支票确认了一段既有的客户关系——2025 年 9 月的公告同时完成了交易披露和客户揭示,一个新闻周期做了两件事。

2. AI 基础设施认证。 Nvidia 的战略投资组合包括 CoreWeave、Lambda Labs、Hugging Face、Inflection(微软收购前)和 Cohere。跻身这份名单,将 ElevenLabs 置于 AI 基础设施品类,而非仅仅是语音 AI。

3. 市场深度验证。 Nvidia 的尽职调查流程异常严格。在 2025 年底通过 Nvidia 战略投资审查的公司,不是距离崩盘只有一年的公司——它处于基础设施级别的运营成熟度。

估值框架

从 C 轮到 D 轮的估值扩张数学:

日期ARR估值倍数
2025 年 1 月(C 轮)1.2 亿美元33 亿美元27×
2025 年 8 月2 亿美元53 亿美元(插值)27×
2025 年 9 月(二次出售)2 亿美元66 亿美元33×
2025 年 12 月(年底)3.3 亿美元90 亿美元(插值)27×
2026 年 2 月(D 轮)3.3 亿美元110 亿美元33×

倍数在 13 个月内保持在 27-33 倍的窄区间内。这是营收支撑的扩张,而非叙事重定价。

作为参考,2026 年初公开市场 AI 基础设施倍数:

  • Snowflake:约 12 倍 ARR
  • Datadog:约 14 倍 ARR
  • Cloudflare:约 18 倍 ARR
  • Palantir:约 30 倍 ARR
  • ElevenLabs(私有):33 倍 ARR

ElevenLabs 的 33 倍处于公开市场倍数的高端,但在合理范围内。按 5-10 亿美元 ARR 规模(预计 2027 年前后)的隐含 IPO 估值约为 150-250 亿美元——与 D 轮定价大体一致。

"迈向 IPO"在实践中意味着什么

Mati Staniszewski 的 IPO 表态对于一位 CEO 来说异常具体。大多数创始人会回避 IPO 话题;说出"迈向 IPO"是在公开设定预期。

这种表态之后,三件事会随之改变:

  1. 招聘画像转变。 CFO 和首席法务官的招聘成为优先事项。合规、审计和萨班斯-奥克斯利法案合规工作开始认真推进。
  2. 报告纪律收紧。 ARR 披露、客户点名和指标透明度从临时性变为常规性。
  3. 战略投资人关系深化。 C 轮的电信 / CRM 战略股东成为 IPO 叙事的锚定客户。

从注册成立到目标 IPO 轨道(2022 年 4 月 → 2026 年末 IPO 申报窗口),五年的弧线,压缩了企业软件公司历史上平均 8-12 年的上市时间线。

披露未说明的内容

D 轮的媒体报道刻意回避了三件事:

  • IPO 时间点。 "迈向"是开放式的。申报窗口可能是 2026 年末、2027 年中,或更远。
  • 竞争成本结构。 ElevenLabs 尚未披露毛利率或单位经济模型。语音 AI 的算力成本不低;利润率问题对 IPO 估值至关重要。
  • 战略投资人合同经济模型。 Deutsche Telekom 和 Revolut 被点名,但合同金额和承诺期限是私密信息。

这些问题将由 S-1 招股书最终回答。D 轮叙事说明公司走在正确的路上,S-1 将揭示这条路是否可持续。

来源

延伸阅读

GTM 实操 手册。

查看全部 →
growth10 min read

How Vercel Grew to a $9.3B Valuation in an 8-Year Substrate Play

阅读:How Vercel Grew to a $9.3B Valuati…
growth10 min read

Amjad Masad: How He Grew Replit From $10M to $253M ARR in 13 Months

阅读:Amjad Masad: How He Grew Replit Fr…
growth9 min read

James Hawkins: How He Grew PostHog to $50M ARR With Radical Transparency

阅读:James Hawkins: How He Grew PostHog…
growth10 min read

How Plaud Bootstrapped a $179 Voice Card to $250M ARR

阅读:How Plaud Bootstrapped a $179 Voic…
growth10 min read

How Oura Grew From a Kickstarter Ring to an $11B Health Platform

阅读:How Oura Grew From a Kickstarter R…
growth10 min read

Ivan Zhao: How He Grew Notion to 100M Users and $600M ARR

阅读:Ivan Zhao: How He Grew Notion to 1…
growth10 min read

Yuanming Hu: How He Quietly Grew Meshy to $40M ARR

阅读:Yuanming Hu: How He Quietly Grew M…
growth10 min read

How Manus Grew to $100M ARR in Nine Months — Then Beijing Killed the Exit

阅读:How Manus Grew to $100M ARR in Nin…
growth10 min read

How Linear Grew to $100M ARR on $35K of Marketing Spend

阅读:How Linear Grew to $100M ARR on $3…
growth10 min read

How Jasper Hit a $1.5B Valuation — Then ChatGPT Nearly Killed It 43 Days Later

阅读:How Jasper Hit a $1.5B Valuation —…
growth10 min read

How Humane Burned $230M on the AI Pin — and Sold the Wreckage for $116M

阅读:How Humane Burned $230M on the AI …
growth11 min read

How Hugging Face Became the GitHub of AI on a Failed Chatbot's Ashes

阅读:How Hugging Face Became the GitHub…
growth10 min read

Guillaume Moubeche: How He Bootstrapped Lemlist to $45M ARR

阅读:Guillaume Moubeche: How He Bootstr…
growth9 min read

Grant Lee: How He Grew Gamma to $100M ARR With 50 People

阅读:Grant Lee: How He Grew Gamma to $1…
growth10 min read

How Genspark Grew to $200M ARR in 11 Months After Abandoning 5M Users

阅读:How Genspark Grew to $200M ARR in …
growth10 min read

Mati Staniszewski: How He Grew ElevenLabs to $330M ARR in 46 Months

阅读:Mati Staniszewski: How He Grew Ele…
growth9 min read

Michael Truell: How Cursor Grew to $1B ARR in 24 Months

阅读:Michael Truell: How Cursor Grew to…
growth10 min read

Kareem Amin: How He Grew Clay to $100M ARR in an Eight-Year Overnight Success

阅读:Kareem Amin: How He Grew Clay to $…
growth10 min read

How Character.AI Went From a $1B Unicorn to a $2.7B Reverse-Acquihire

阅读:How Character.AI Went From a $1B U…
growth9 min read

Jaspar Carmichael-Jack: How Artisan's 'Stop Hiring Humans' Billboards Worked — and the Trust Debt Underneath

阅读:Jaspar Carmichael-Jack: How Artisa…
growth10 min read

Tim Zheng: How He Grew Apollo.io From Near-Death to $150M ARR

阅读:Tim Zheng: How He Grew Apollo.io F…
growth9 min read

Anton Osika: How He Grew Lovable to $400M ARR in 15 Months

阅读:Anton Osika: How He Grew Lovable t…
growth10 min read

Dario Amodei: How He Grew Anthropic to $30B ARR in 5 Years

阅读:Dario Amodei: How He Grew Anthropi…
distribution13 min read

How to Get Backlinks for Your Startup: The Free Founder's Playbook (2026)

阅读:How to Get Backlinks for Your Star…
outreach16 min read

Creator Outreach for Startups: The Complete Playbook (2026)

阅读:Creator Outreach for Startups: The…
discovery9 min read

How Much Do YouTubers Charge for Sponsorships? (2026 Rate Benchmarks)

阅读:How Much Do YouTubers Charge for S…
discovery10 min read

Substack Newsletter Sponsorships: Rates, ROI, and How to Pitch (2026)

阅读:Substack Newsletter Sponsorships: …
discovery11 min read

Podcast Sponsorships for Startups: A Founder's Playbook (2026)

阅读:Podcast Sponsorships for Startups:…
discovery14 min read

The Complete Guide to Influencer Marketing for Startups (2026)

阅读:The Complete Guide to Influencer M…
discovery10 min read

How to Find YouTube Creators for Your Startup (Not Just B2B SaaS)

阅读:How to Find YouTube Creators for Y…
discovery11 min read

How to Find Instagram Creators for B2C Apps and PLG Tools

阅读:How to Find Instagram Creators for…
outreach11 min read

Instagram & X DM Templates for Creator Outreach (with Reply Rate Benchmarks)

阅读:Instagram & X DM Templates for Cre…
outreach11 min read

How to Pitch Creators as a Startup (5 Cold Email Templates That Get Replies)

阅读:How to Pitch Creators as a Startup…
manage7 min read

Creator Partnership Management at Scale: From First DM to Long-Term ROI

阅读:Creator Partnership Management at …
distribution9 min read

The 2026 Startup Directory Submission Guide (Ranked by Traffic Value)

阅读:The 2026 Startup Directory Submiss…
research8 min read

How to Find Customer Pain Points on Reddit (Without Spending a Dollar)

阅读:How to Find Customer Pain Points o…