
除了对话,AI主导教学的能力更为关键。
作者|田思奇
编辑|栗子
中国孩子学英语,最常见的情况是:掌握几百上千个单词后,口语能力却突然停住。考试能拿高分,却无法在真实场景中自然开口——不是不会,是说不出来。
“孩子学到欧标A1/A2水平后,就没有合适的口语资源了。”斑马首席产品官修佳明说。最需要练口语的阶段,反而最难找到稳定可规模化的资源;真人外教虽然可能是优解,但专业训练不足、难以控制的教学质量和资质问题,让家长和机构都无从解决。
那么,一个理想的口语老师需要具备什么特质?或许它应该是超人类的:拥有永不疲惫的耐心、绝对精准的教学记忆、以及不受任何情绪影响的、恒定顶尖的教学水准。
基于这个判断,斑马团队意识到,能完美承接这一任务的,或许不再是人,而是一个真正意义上的AIAgent。“既然大模型天生擅长语言,我们能不能让它不仅会说,还能‘教’?”

这些细节勾勒出一个判断:儿童口语,也许是AIAgent最扎实的商业化入口之一。因为它直面一个严肃命题:教学的准确性。
1.口语瓶颈期与AI的必然性
在立项之初,斑马团队凭借其教育经验,将范围不断缩窄,最终聚焦于一个被长期忽视的痛点:口语瓶颈期。
其用户画像是:7到12岁,掌握300到1000的英语词汇,能进行初步阅读的学生,但口语表达却与读写能力严重脱节。他们渴望真实、有效、能引导其进行结构化表达的对话环境。而真人外教除了资源和资质稀缺外,更核心的问题在于一个普遍误区:“是外国人就能教英语”。
修佳明向「甲子光年」强调,语言教学是复杂的科学。许多外教缺乏系统训练,在临场压力下,“老师也会紧张,他不一定能采用最好的引导给到孩子,”甚至会因本能的“偷懒”,用“你说得不对,应该这样”的粗暴纠正方式打击孩子的积极性。
AI外教的设计,正是为了系统性规避这些人类瓶颈。它的教学水平由教研团队预设,因此是恒定的,并且能听懂孩子的中文意图。
在AI外教的教学中,孩子不需要在头脑中将一句话组织得尽善尽美后再开口。比如一个孩子说:“我昨天吃月饼……呃,就是那个round的。”真人外教可能会因听不懂“月饼”而卡顿,AI外教则能理解其意图并用英文承接:“You mean mooncakes? So yesterday you enjoyed mooncakes with your family?” 这个过程在不降低教学难度的前提下,帮助孩子将中文思维迁移到英语表达上。
面对孩子天马行空的表达,AI外教也能将其重新拉回教学轨道。当屏幕展示的是食物,孩子却偏要聊奥特曼时,它不会生硬地打断,而是会说:“Ultraman sounds cool! But look, in today’s story we are at a restaurant. Can you tell me which food Ultraman might choose?” 这种方式既未扼杀孩子的兴趣,也保证了教学目标的达成。

因此,AI外教并非真人外教的廉价替代品,而是为解决规模化、高质量口语教学难题提供的一种新解法。
基于此,斑马的产品开发路径与多数科技公司快速发布迭代的模式有所不同。从2023年8月立项到产品发布,团队花费近两年时间进行打磨。“我们做的时候也没有想到要做这么久,” 修佳明坦言。
这种做法,与硅谷创业圈流行的最小可行产品(MVP)理念存在根本差异。MVP的核心是用最小成本快速验证商业假设,但在教育领域,这种模式几乎没有试错空间。一次糟糕的学习体验,就可能挫伤孩子长期的学习兴趣。
因此,斑马的实践遵循从MVP发展出来的更严苛的原则:最小有效产品(Minimum Effective Product)。该理念要求产品在推向市场前,必须在核心教学效果和用户体验上,达到一个足够高且稳定的标准。
这一理念最极致的体现,是团队对“实时打断”功能的取舍。技术上,让AI在孩子犯错瞬间进行打断并纠正,无疑是先进的。然而,在超7000节内测中,团队发现该功能严重破坏了教学场景下的对话节奏和尊重感,反而打击了孩子的表达欲。面对技术炫技和真实教学体验的冲突,斑马选择了后者。

修佳明解释,这是对教育规律的尊重,因为口语能力的提升遵循螺旋式上升的节奏,很难按月衡量和交付成果。他对比道:“如果是跟大模型聊,最多也就是让你多一些交流经验。但斑马背后的教学体系做得比较缜密,能够让孩子一点一点地真的去把口语水平提上来。”
2. 为教学而生的AI,不是“好好先生”
如果将AI外教视为一个能独立完成教学任务的AI智能体,那么支撑它运转的并非一个通用大模型,而是一套围绕儿童口语教学,从数据、感知、决策到记忆全链路定制的系统。
一切从“听懂”开始。这是通用 AI 在儿童语言学习场景中最容易失败的环节。对于正在学习语言的孩子,被误解是最直接的挫败来源。因此,斑马首先打造的是一双真正听得懂孩子的“耳朵”,其核心来自两类独特数据。
第二类来自多年的真人外教一对一。数万小时教学语料让模型学习如何当老师——如何处理兴奋、走神、胆怯等不同情绪,如何引导、纠错、鼓励,而不是仅仅维持对话。
这两类数据,分别教会模型“听懂学生”和“像教师一样回应”。
接下来是口语教学中最棘手的难题:节奏感。为判断孩子是说完还是在思考,斑马开发了作为ASR前置的智能VAD(语音活动检测)策略。它结合音频能量、语义完整度和上下文环节动态判断,不依赖固定静音时间,从而在正确的节点自然接话。
在“说”的维度上,AI外教的TTS引擎经过专项训练,声音标准、温和,语速和重音可随教学需要调整。更底层的协作在于大模型承担了相当于“教学导演”的角色:控制动画、口型、重点词高亮等状态,实现对多模态教学节奏的实时编排,这是通用模型所无法胜任的。

真正让 AI外教 成为“能教”的 AI,是其内部的决策原则。通用大模型的本能是迎合用户,但在教学场景中,这会破坏学习结构。面对“我不想学了”“我们聊别的吧”,通用模型常会顺从,而 AI外教 会先安抚,再将对话带回教学主线。它能听懂中文,但从不输出中文,保证任务目标不被稀释。
这一切的核心是对“教学准确性”的追求。真人教师在压力下难以在瞬间做出最优判断,容易因紧张或疲惫出现跳级、越级或直接纠错的情况。而AI没有情绪与惰性,能稳定执行最合适的策略。修佳明认为:“它会充分思考,给出既不伤孩子信心,又能推进知识点的反馈。”因此在引导准确性上,AI 在很多环节甚至具备超越真人的稳定性。
但大模型不可避免地面临“幻觉”。在教学中,最危险的不是说错一句话,而是“卡住教学流程”。教学纲与互动路径都依赖模型按要求推进,只要某一环节未按预期返回响应,整个学习过程可能无法继续。对此,斑马构建了异常监测与自动回退机制,能实时捕捉到模型偏离教学任务的状态,将话题回溯一至两轮,重新拼接上下文,让学习回到主线。
让 AI外教不只是一段程序,而成为“能陪孩子长期学习的对象”的,是其多层记忆系统:
短期记忆:学习期间实时感知孩子情绪、兴趣和开口意愿,随之调整节奏与讲法。
即时记忆:学习后自动生成学习报告,对流利度、丰富度与准确度进行量化。
长期记忆:记录孩子的个性细节与曾提到的生活信息,例如宠物名字、喜欢的话题,并在后续学习中主动引用。例如孩子提到家里的猫“皮皮”,下一次一旦进入相关话题,AI外教会自然问:“How is Pi Pi doing these days?” 这种记忆能力让 AI 教师具备“同一个人教下去”的连续性。
这一切最终指向一个明确判断:AI外教并不是“更强的通用 AI”,而是一个为教学而生的AI。它的价值不在于知识面,而在于能否稳定、完整地教完25分钟的学习,并确保每一句输出都服务于学习目标。
这正是AI口语教学能否成为真正产品,而不是技术概念的关键分水岭。
3.AI商业化新路径:做深、不做宽
斑马口语的出现,标志着教育行业里第一个真正落地的AI Agent 老师成型了。这里的Agent,并不是指把通用大模型塞进一个外教皮肤里,而是指它能围绕明确的口语学习目标自主规划教学任务、推进流程、判断失误,并据此给出下一步引导。
它不等待指令,而是带着目标主动行动,这正是 AIAgent 的本质能力。

再次审视斑马给出的解法,可以看出这套产品哲学可以被总结为三个相互关联的原则,也正是斑马口语与“陪练式 AI”彻底区隔开的根本逻辑。
第一层,是对AI角色的重新定义:从工具进化到责任主体。
在绝大多数应用里,AI仍是一个增强型工具:用户提问,模型回答。对于交互的成败,责任主体是用户。用户提问的质量,决定了AI回答的价值。
而在斑马口语的系统里,教学效果的责任,明确转移到了AI身上。它要为教学进度、目标达成和突发状况全权负责。这种责任的转移,从根本上改变了产品的设计逻辑,同时极大地推高了技术门槛,重新划定了“为学习效果负责”的界线。
第二层,是对价值的重新计量:从体验好不好,转向结果可不可靠。
大部分AI应用在谈体验,语音是不是自然、界面是不是顺滑。但在口语教学这种场景里,家长最终关心的是:半年、一年之后,孩子到底有没有明显变化。这迫使产品设计从一开始就要绑定教学路径、评估体系以及可被验证的学习结果,而不是只针对某一节课的“爽感”做优化。
第三层,是对关系的重新想象:从一次性使用,到长期相处。
语言学习需要长期投入,这意味着系统不仅要在技术上跑得通,还要在情感层面站得住。斑马在AI外教身上叠加的记忆系统、人格设定和交互细节,本质上是在重建一种类似“固定老师”的长期关系。这也抬高了产品复用成本,但换来的是更强的留存和粘性预期。
在这三层判断之上,斑马走了一条相对“重”的路:
不是接入一个通用大模型就上线,而是从ASR、TTS、大模型微调到互动引擎都自己做,从语料建设到教学法设计也尽量掌握在内部。这种重投入,让token成本可控,服务稳定性更容易自洽,也给了他们时间去做两年的反复打磨。
当然,从行业视角看,这种路径并非对所有公司都适用。它对团队的工程能力、教研资源、资金耐力都有较高要求,也天然更适合客单价相对可观、用户愿意长期付费的领域。但它至少证明了一点:在教育这样结果导向的场景里,AI 产品是可以被当成一个完整的教学系统来构建,而不是一个挂在原有体系边上的智能插件。
这也让“AI+教育”这个被讨论了多年的命题,出现了一点新的变化:过去更多的想象是AI帮助老师减负,现在则通过斑马此次AI Agent的成功落地,开始出现AI 在某些高度标准化、又高度稀缺的教学环节里,直接承担主要角色的案例。
随着更多像这样的“超人类”老师在不同细分领域出现,AI之于教育的价值,将远不止于提效,而是真正成为推动教育个性化的一股核心力量。
(文中配图来源:斑马口语,封面来源:AI生成)