业界手机电脑测评视频 AI 苹果 iPhone 鸿蒙软件

智车数码学院游戏直播 5G 微软 Win10 Win11 专题

首页 > 科学探索>科技前沿

人美声甜 GPT，数学题哪里不会讲哪里

量子位 2023/4/18 12:56:01 责编：梦泽

评论：

大模型的颠覆和变革，还只是开始。

ChatGPT 一炮而红，重塑搜索、办公协同等多个场景和行业后，在线教育，被视为最重要的垂直场景 —— 毕竟大语言模型展示出的能力，正是之前在线教育、AI 老师所亟需的。

而且这种趋势已经开始，背靠大模型相关的在线教育应用，已经率先在海外火爆。

看过来！让 GPT 化身二次元美少女 AI 家教来讲数学题的方案，每步都有解法，再不用担心看见参考答案的“略”字：

人美声甜 GPT，数学题哪里不会讲哪里

基础到某个三角函数的定义，复杂到不同的解题方法与技巧，都能得到答案：

人美声甜 GPT，数学题哪里不会讲哪里

这就是最近在海外火爆的 AI 解题类应用，背后 App 已经在 App store 商店教育分类板块刷榜。

这种火爆在情理之中：背靠 LLM，加上二次元画风颇似《原神》—— 不得不说，真实拿捏住了流量密码。

在这之前，在线教育行业的主流“AI 家教”，背后的本质只是推荐算法，换句话说，就是推荐录好的教学视频或解题方法，但无法针对视频和方法中的某些细节给出解答。

而现在，LLM 涌现的解题准确性和语言理解能力，开始对之前可望不可即的技术实现带来了突破 —— 不是在线教育面临重塑，是整个教育产业正在面临重塑。

背后技术原理：GPT + 在线教育 =？

二次元美少女家教身后，就是 LLM 在 AI 自动解题方面发挥着作用。

基本思路是在原有流程的一头一尾，接入 LLM，与原有流程中的 CLM（可计算语言模型，Computational Language Model）形成 Joint Model 模式。

CLM，相比其他 AI 模型展现出不错的逻辑能力，不过它在语言理解能力和输出等方面，遇上如今包括 GPT-4 在内的大语言模型还是相形见绌。

Joint Model 模式，就是让 LLM 提供 NLP 能力，CLM 提供逻辑推理能力。

人美声甜 GPT，数学题哪里不会讲哪里

也就是说，现在的整个 AI 解题的过程是这样的：

题干输入 ——LLM 处理文本 ——CLM 解题 ——LLM 形成文本 —— 讲解输出

二者结合，能完成的推理任务比单个模型处理的更复杂，并在必要时收集相关数据。

由是，AI 家教能很好地理解题干内容，从而提供讲解。

在两端接入 LLM 之前，这条 AI 解题流程也能利用 CLM，提供 AI 家教所需的数理逻辑和推理能力。

主要依靠 CLM 对文本信息进行数据升维，把一维文字信息进行高维展开，让机器在同一时间接受文本背后诸如实体、关系、参数、知识等多维度的隐含信息，理解题干背后最终想要求解的东西是什么。

再对 CLM 进行“部分不召回”设定，即“不能保证 100% 做对的题，AI 不会输出结果”，从而保证 AI 家教的讲解和最终答案一定正确。

人美声甜 GPT，数学题哪里不会讲哪里

这也能解释为什么现在的 Joint Model 模式中，对 LLM 的应用重点在 NLP 领域，而非逻辑和推理能力上 ——

GPT-3.5 起，大模型毫无征兆地涌现出数理逻辑和推理能力，但它们既不稳定，也不绝对可靠，AI 家教无法在接入后直接落地使用。

与其执着于纠正 LLM 的“胡说八道”，不如转而重点利用它相对稳定发挥的 NLP 能力。

二次元美少女 AI 家教背后是谁

有意思的是，这位 AI 家教背后还是一家中国公司。

来自悉之智能，2017 年成立，核心创始团队都来自清北。

创始人兼 CEO 孙一乔，清华大学电子系 2017 届学生，在校期间参与搭建清华 XLP 超限学习团队，并深度参与校内某院系课程体系深度改革，带领数十人搭建了清华大学首个自适应学习引擎。

联合创始人兼 CPO 代佩霖，北京大学金融系毕业，曾入选福布斯亚洲 30 under30；算法合伙人林东生，也毕业于清华大学电子系，是悉之智能自研 CLM 背后的发明者之一。

人美声甜 GPT，数学题哪里不会讲哪里

几位合伙从一开始杀入 AI 教育行业，就主攻自动解题。

入局之初，还算赶上了个好时候，加上是国内第一家做出多模态解题家教的公司，成立次年就拿下新东方旗下“东方新创” 的 1000 万元天使轮融资。等到 2020 年，公司已完成近亿元 A 轮融资。

直到 2021 年经历双减风暴……

好在双减来临的同月，仍然顺利拿到 2000 万美金的 A + 轮融资，投资方是启明、经纬和真格等一线 VC。

但是，公司业务重心不得不开始向海外市场转移。

等到在新的市场站稳脚跟开拓市场，涌现逻辑能力的 ChatGPT 却突然现世，突破了业界的传统认知，也打乱了他们的阵脚：

我们原本以为 AI 不会这么快出现逻辑能力。

不仅低估了 OpenAI 在 GPT 系列上的进度，还低估了 GPT 涌现出的能力的强度。

早些时候，谷歌用一个 36B 的 LaTeX 数据集 Fine-tuning PaLM540B，在 MATH 上取得了 50 分。同一测试集上选出 CLM 覆盖的高中数学部分，悉之智得分在 70 分左右。

“比谷歌最引以为傲的 PaLM 得分高，也高于市场上的 Photomath 等产品，包括 ChatGPT3.5 最开始的解题能力得分也低于我们。”孙一乔边笑着复盘边挥舞胳膊，外化他的兴奋。

人美声甜 GPT，数学题哪里不会讲哪里

结果 GPT-4 光速出现，出场即碾压所有玩家的解题能力。

但他好像并不沮丧，“这一波就是全世界看 OpenAI 装逼嘛，惊得谷歌的下巴都掉下来了”。孙一乔的逻辑里，OpenAI 虐了全世界，悉之智能的 AI 又能虐其他人，“没什么不值得骄傲的。”

他还笑着补充，自家 AI 能力也不是为了刷榜好看，主要是能落到教育 AI 行业应用，这才是“至关重要”。

孙一乔很爱笑，熟悉他的人都这么说，尤其是在谈到 GPT 系列对传统带来颠覆性影响和可能性的时候。

3 月底，欧盟批准谷歌收购了我们在国际市场上最大的竞争对手，也是传统解题公司的代表 ——PhotoMath。

每每提到这点，孙一乔都嘴角上扬，难掩兴奋，要埋下头用双手捂脸数秒来平复心情。

PhotoMath 纳入谷歌麾下，有了技术、资金靠山，也代表着 PhotoMath 的一条快读通道被封死了 —— 这家数学应用程序公司接入 GPT-4 及后续 GPT 系列 API 的可能性几乎为零。

但是 GPT 和 CLM 的组合，可以让解题能力继续突破。

这也是孙一乔“不沮丧”的数据支撑。在一个 GPT-4 解题率为 82% 的测试集上，悉之最新 fine-tuning GPT 的 Joint Model 最新解题率在 92%。

究其原因，他的解释是 Joint Model 天然包含大量解耦好的 NLP 任务，最新工作中，团队把之前基于 Bert 的 CLM 换为 fine-tuning 后的 GPT，将 GPT 作为预训练模型，将 CLM 作为逻辑校验模型，继续提高解题上限。

人美声甜 GPT，数学题哪里不会讲哪里

孙一乔还表示，LLM 不只提升 AI 家教背后模型的 NLP 能力，对多模态交互也有不少帮助。

现在的 AI 家教形象，比以前声音更好听，形象也更好看。在接下来的计划中，对话交互能力也将得到增强，在授课过程中随时提问，都能得到 AI 家教的解答。

计划中，旗下 AI 家教还会拓展数学之外的学科版图，也将开启新一轮的融资。

人美声甜 GPT，数学题哪里不会讲哪里

深陷双减风暴之后，教育底色的公司们都逐渐找到了新的打法。

改弦更张的，如新东方，在直播领域大杀四方；继续探索在线教育之路的，悉之智能利用 LLM 提升解题能力，优化多模态交互，据悉，猿辅导也已经用 AIGC 在传统教育领域寻找新的机会。

LLM 能力应用在教育领域后，不知道继续深耕在线教育的这些公司里，谁又是新一轮的最大赢家？

本文来自微信公众号：量子位（ID：QbitAI），作者：衡宇

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

人美声甜 GPT，数学题哪里不会讲哪里

背后技术原理：GPT + 在线教育 =？

二次元美少女 AI 家教背后是谁

相关文章