10月31日,由声网与 RTE 开发者社区联合主办的 Convo AI & RTE 2025 第十一届实时互联网大会以“AI 有声”为主题,汇聚了全球顶尖的 RTE&对话式 AI 专家、开发者、企业代表与生态伙伴,共同探讨实时互动(RTE)与对话式 AI (Convo AI) 深度融合的新场景、新架构与新机遇。
赵斌:RTE 服务量首破万亿分钟,对话式 AI 将成为下一代 AI Infra 重要部分
在今年的 RTE 2025 实时互联网大会开场演讲中,声网创始人兼 CEO 赵斌宣布,声网年度服务分钟数首次突破1万亿分钟,标志着 RTE 技术已成为不可或缺的关键基础设施。与此同时,视频高清化比例在过去两年增长超过10倍,海外市场720p 以上分辨率流量占比已超 80%,WebRTC 全球搜索热度呈现爆发式增长,这一切标志着实时互动行业正迎来新一轮创新热潮。

然而,在基础设施日趋完善的同时,产业依然面临着从"连通"到"对话"的本质挑战。当交互对象从“人与人” 扩展到 “人与AI”,实时互动在环境感知与交互自然度上仍存在明显缺陷。行业数据显示,仅21%的用户对现有 AI 对话体验满意,部分服务的用户流失率高到“不可接受”。究其根源,人类对话中仅有7%的信息来自语言内容,超过90%的信息感知依赖于语调、表情和肢体语言等非语言要素。要实现真正的“类人对话”,企业必须系统性攻克低延迟响应、自然打断、上下文管理、情感理解与表达等复杂挑战。
多模态大语言模型(LLM)的出现让计算机具备了类人的实时语音对话能力,为解决这些挑战带来了全新路径。赵斌表示,对话式 AI 正驱动 RTE 从能够 “正常对话” 到 “声情并茂”的关键跃迁,为 RTE 行业带来一个不可估量的全新市场。
Deepgram 和 Opus Research 调研显示,67%的企业已将语音 AI 智能体置于战略核心位置,84%的企业计划在未来一年增加相关投入。在开发者生态中,全球范围内也正掀起一场实时语音技术的新浪潮,对话式 AI 与语音智能体创业公司呈现爆发式增长态势。Y Combinator 近期的孵化团队中,语音智能体公司占比显著提升;ARK Invest 预测 AI 陪伴赛道有机会从3000万美元上涨到700-1500亿美元;声网对话式 AI 相关用量在2025年第三季度实现151%的环比增长,这一切都展现出强劲的市场需求。
而在众多应用场景中,对话式 AI 将在情感陪伴、智能硬件、在线教育三大场景中率先实现规模化落地。在大会现场,赵斌演示了 AI 客服的功能,充分展现了当前对话式 AI 在实时交互与场景理解方面取得的突破性进展。
为帮助企业和开发者把握这一历史机遇,声网在大会上正式发布了《2025 对话式 AI 发展白皮书》及《对话式 AI 好奇者手册 》,为行业提供了一套系统的实践指南。同时,声网推出了对话式 AI 引擎 2.0,对话式 AI 开发套件、对话式 AI 模型评测平台和对话式 AI Studio,加速对话式 AI 在实时互动行业的应用创新,开启 RTE+AI 的新篇章。
Tony Wang:从中国速度到全球共鸣,AI 出海需完成“心智跃迁”
Agora 联合创始人 Tony Wang 从全球化市场实践的独特角度,分享了中国 AI 企业在全球化进程中必须完成的“心智跃迁”。他指出,在 AI 技术全球化的浪潮中,出海已从 "可选项" 转变为 "必选项"。AI 的全球化进程不仅依赖于技术优势,更需要完成从“算法精度”到“心智广度”的认知跨越。他强调“信任”是超越技术的新竞争壁垒,中国 AI 企业的全球化不只是产品或速度的竞争,更是一场理解差异、建立信任的长期修炼,而这种信任源自透明的数据治理、商业共赢以及文化共情三个方面的系统构建。

韦青:构建智能组织新能力——技术融于无形,方见真正价值
微软(中国)首席技术官韦青在大会主题演讲中深入分享了他对技术本质与 AI 应用的深刻理解。他指出,真正伟大的技术应当“融于无形”。许多公司的成功并非依赖技术本身的先进性,而是源于对技术深刻理解,并基于这些理解来满足用户需求。以 WebRTC 为例,声网在2014至2015年选择这一当时并不被主流看好的标准,正是因为其洞察了未来十年开发者的需求与技术趋势,提前布局未来的发展方向。此外,他还提示开发者要回归用户体验和场景价值,关注技术背后的持续价值与长远动态,而非盲目追逐技术热词与短期风口。

从“人人连接”到“人机共生”,RTE 技术与对话式 AI 的融合正在重塑沟通的边界。未来,声网将继续与开发者、企业及合作伙伴共同推动实时互动生态的进化,迎接一个更加智能、实时、无处不在的交互新时代。




























