讯飞星火V4.0发布会刘庆峰演讲实录
发布时间2024.07.01
6月27日,北京,科大讯飞举行讯飞星火升级发布会,星火大模型V4.0亮相。
科大讯飞董事长刘庆峰全程演讲,科大讯飞研究院院长刘聪真机实测,他们在回答两个关键问题:
今天,中国的大模型底座能力到底怎么样?
今天,风起云涌的大模型究竟如何应用落地?
升级发布的讯飞星火不仅在底座能力上全面对标GPT-4 Turbo,还落地各种应用场景服务每个人和每个企业。
懂你学习的AI助手,让每个孩子在一对一个性化教学中培养出主动思考的终身学习能力;
懂你健康的AI助手,让一家老小都能24小时被专业医疗守护;
懂你汽车的AI助手,让汽车“能说会聊”,把旅行枯燥的路途变成一路的欢乐;
懂你工作的AI助手,让每一位员工快速提炼会议共识和决议,高效输出尽早把工作完成;
懂你企业的AI助手,让小团队也有大能力,深入企业经营与服务场景,结合企业管理的真实情况,寻找业务痛点,帮助每个企业健康发展,保持竞争力。
这样的讯飞星火是每个人身边“懂你的AI助手”,是通用人工智能时代AI对每个人的表白。
“每一次人类文明进步的背后都有一个了不起的助手,每一代助手都有它的使命。”刘庆峰说,讯飞星火的使命是解放生产力、释放想象力,“希望通过我们的能力,成就每一个了不起的企业,帮助每一个人都成为了不起的自己。”
尊敬的各位领导、各位合作伙伴、各位院士专家、各位媒体朋友、线上的朋友们,大家好!热烈欢迎大家莅临讯飞星火V4.0的发布会现场。
这一年多来,以大模型为主要带动的通用人工智能浪潮在全球风起云涌、高潮迭起。随着大模型技术研发和产业应用的不断深入,大家越来越关注两个非常关键的核心问题。
第一,今天中国大模型的底座能力到底怎么样?在中美科技日益激烈的人工智能领域博弈下,去年10月17日,英伟达因为美国商务部的要求,对中国所有能训练大模型的智能算力全面断供。就在6月25日,OpenAI也正式通知将从7月9日开始终止所有来自中国的API申请。在这个背景下,热热闹闹、风起云涌的通用人工智能浪潮,到底有没有自主可控的国产底座能力做支撑,这决定了我们在这条路上到底能走多远,决定了通用人工智能这一波浪潮;相当于PC和互联网的诞生,在人类历史上有深刻的意义,而我们能不能享受这波红利,能不能成为美国之后全球智慧涌现的第二极?
第二,大模型将会改变信息分发获取的方式,改变人机交互方式,改变内容生产方式,也会改变我们的整个产业形态和竞争格局,改变科研范式,这是大家都能看到的大趋势和未来。Gartner预测,到2026年现在80%的企业都要用到通用人工智能,而今天这个数字是5%左右。
大模型在今天风起云涌、如此大的投入下,究竟怎么落地?美好的未来摆在这里,当前第一步该怎么以科学合理投入,才能让大模型真正的刚需价值能够落地,能够看得见、摸得着,能够用统计数据来证明应用成效。我想关于底座技术、关于应用落地,是今天所有的关心大模型、关心通用人工智能的研究机构、企业、高校、科研院所以及政府部门共同关心的话题。今天讯飞星火V4.0的发布,我特别想跟大家分享我们这两方面的看法,给出科大讯飞对这两个问题的答案。
实际上,从去年5月6日讯飞星火V1.0发布之后,大模型的各项能力都在快速提升,我们几乎每个月都会有一次非常重要的升级。以大家特别关注的文本写作为例,今天星火大模型写出来的东西已经不仅仅能让我们觉得不错,很多时候还会给我们很大的触动,给我们带来惊喜,甚至是感动。
今年6月7日上午,高考语文作文题新鲜出炉,当天中午就有很多人,包括机构、老师、投资人等,从各个角度来测星火在高考作文中的写作能力如何。非常自豪的是,大家都给了讯飞星火很高的评价。在“重庆日报新重庆客户端”上发布这篇文章,是6月7日12:10让大模型写的,在人工智能圈一个大佬云集的微信群里,被大家专门拿出来作为一个经典案例点赞。
大家可以看到,星火写的内容非常专业,很好地运用了排比、引用、论证等写作手法。当时有很多人给了评分,在满分是60分的情况下,最低的给了52分。大家读一下就会看到,在这中间有思辨的想法,引经据典也都写得非常好。这是没有任何人工干预生成的结果,是大模型自己写出来的,它的能力确实越来越强了。
当然,大家还会关心说今天大模型写作、写诗、作画能力在不断提升,而要真正地解决人类刚需的一个非常重要的标志就是科研,究竟大模型在赋能科研方面到底有没有成效?
以我们和中国科学技术大学生命学院刘海燕教授团队的合作为例,我们用大模型中基于条件扩散模型的蛋白质主链设计算法SCUBA-D,能够从头生成自然界不存在的蛋白质。实践证明这种生成的蛋白质在我们医学特别需要的领域中,它的结合亲和力与天然的蛋白质相当,甚至更强。最重要的是,我们把设计成功率从原来的0.1%提升到64%,提升了640倍,原来需要6个月做的设计,现在1天就做完了。这个已经不是在简单的科研验证阶段了,目前已经成功地设计了48个蛋白质,还在批量生产。这篇文章也在今年5月正式被《Nature》子刊接收,证明了我们在业界的领先地位。
我想说的是,大模型不仅可以写诗、作画,在改变工业、改变科研范式等方面已经实实在在发挥作用,包括我们和中国科学技术大学做的合成类的科学创新,比如说化学;还有与合肥综合性国家科学中心能源研究院合作,在推进大模型赋能核聚变整个过程中更快地预测、更好地应对各种各样的异常情况,这些都在快速推进之中,这是我们在科研上面的各种进展。
每个人都能够下载的讯飞星火APP,也正在给每个人带来福利。
安徽日报记者董一帆,她在使用讯飞智能办公本和讯飞智能录音笔之后,再结合星火大模型能力,就能够自动录音、自动转成文字、自动生成待办事项、自动生成新闻通稿。最后,她再给稿件注入一些“灵魂”和相应必要的修改,原来需要4个小时完成的工作,现在1个小时就可以完成。董一帆说,有了星火后,她终于有时间带家人一起去旅游了。
来自湖北的郭亮先生,他原来是个很活泼的人,但是因为在工作岗位上听力受损后,变得沉默寡言。自从孩子给他用了讯飞的智能助听器,这个助听器是由星火大模型在后台赋能的,可以精准地把背景噪音过滤掉,把声音中的有效信息的音量提升,而且根本不用到线下的专业机构检测(听损情况),坐在家里就能非常方便地检测。同时,助听器的成本是国外相关助听设备的十分之一,效果更好。郭亮先生和我们分享说,现在有了星火,他开始第一次出门和老朋友们谈天说地,重新恢复到年轻时候的诙谐幽默、善于交际的状态。
一位在重庆的70岁老人杨勇,他被朋友借走的养老钱迟迟得不到归还,有了星火,从法律援助上星火大模型教他应该怎么做,哪些应该留痕、应该如何获得帮助、如何去起诉,最后在不懂法的情况下,讯飞星火帮他要回了欠款。这些事情真实发生在我们每个人身边,可能将来就会关乎我们每个人或每个家庭中的某个亲属。
讯飞星火APP自去年9月正式全民开放后,目前在安卓端统计到已经累计下载了1.31亿次(安卓能够统计到下载量,苹果不公布下载量)。在安卓端,所有下载的大模型相关的APP中,讯飞星火APP的下载量在工具类排第一。工具类是指有通用大模型能力的APP,而不是娱乐相关的。讯飞星火APP中有写作、编程、工作、学习、生活、亲子、翻译等各种各样的助手,很多助手都是用户用了几百万甚至几千万次的。
讯飞星火APP的使用高峰期不是周末,而是工作日;不是晚上,而是工作日的上午9:30和下午3:30。这说明大家真正用星火来解决工作中的刚需问题。我们一直说大模型应该是解放生产力、释放每个人想象力的,从这些数据就可以看到。
另外,科大讯飞开始不断地把软件和硬件结合。讯飞录音笔、讯飞翻译机、讯飞智能鼠标、讯飞会议耳机等在今年的电商“618”上,销量又同比增长了70%。这是为什么?就是因为大模型所带来的智能硬件在真正解决刚需上又大大前进了一步,所以现在已经有很多用户在享受通用人工智能时代的红利。我们怎么跟上这个时代,怎么最先享受这个时代的红利?就得从这些看得见、摸得着的APP,看得见、摸得着的软硬件产品入手。
讯飞星火V4.0七大核心能力全面提升
全面对标GPT-4 Turbo
从去年5月6日的讯飞星火V1.0一路走到今天的讯飞星火V4.0的发布,有一点非常令我们自豪——讯飞星火大模型是基于全国产算力平台训练出来的。
去年10月24日,我们与华为联合软硬件一体化,科大讯飞提供了大量的算子库和算法资源,联合在安徽发布了中国首个国产万卡算力集群,这是中国第一个能训千亿以上浮点参数大模型的硬件平台。在这个硬件平台上,讯飞星火是中国第一个基于国产算力训练出来的全民开放的大模型。
什么叫全民开放大模型?就是国家网信办等八个部委联合认证,老百姓可以随即下载使用的大模型。当时是唯一的,今天讯飞星火V4.0发布还是唯一的,在全国产算力平台上训练的大模型,所有算法都是我们自主可控的,每一行码、每一个数据都是我们自己编写、自己清洗出来的大模型。一定程度上,今天星火大模型V4.0的发布对完全自主可控的大模型究竟走到了什么样的发展阶段,具有非常重要的标志意义。
那么在这个基础上,讯飞星火V4.0到底到了什么水平?
这是基于认知智能全国重点实验室和中国科学院人工智能产学研创新联盟、长三角人工智能产业链联盟,在去年6月份联合发布的国产通用认知智能大模型测评体系。这个体系一共有7个主要方面,涵盖了481个测试项,所有数据都是“背靠背”测试,数据都是随机动态产生的。非常高兴的是,讯飞星火V4.0已经实现了(大家公认最好的通用认知大模型)GPT-4 Turbo的对标,我们在文本生成、语言理解、知识问答、逻辑推理、数学这些能力上都已经实现超越,在代码和多模态能力上还有差距。
代码能力是我们非常关注的能力之一,因为它涉及未来的产业信息化和信息产业化的核心,而ChatGPT去年2月份通过谷歌二级程序员测试,当时的GPT-3.5用这个测试集只获得了60多分,GPT-4 Turbo今年1月份测试大概在80分,现在到86分,也在快速迭代和进步。我们预计在今年8月份,讯飞星火会达到现在86分以上的水平。
多模态能力还有所差距,是因为我们当前在文生视频上还没有算力,也不是下一步的核心重点,但是有生态伙伴一起做。
但在多模态方面,有一个非常重要的应用,就是图文识别。无论是医疗领域,能不能看懂电子病历、看懂体检报告;还是教育领域,能不能看懂笔记、看懂考卷;以及在司法、金融、科研、办公等各个领域的应用,图文识别能力都是至关重要的。
科大讯飞的图文大模型以及星火大模型中的图文能力,在国际上现在是先进的。我们与GPT-4o做了对比,因为GPT-4o在多模态方面,特别是图文上面比GPT-4 Turbo要强。所以,我们与5月14日OpenAI发布的GPT-4o最新版本相比,各个专门领域讯飞星火V4.0的效果都比它好,不仅仅在OCR直接识别上,关于版面的自动理解、更合理的版式认知结构等方面,我们都做得更强,从而使得今天要给大家看到的很多应用,它的落地更能够解决刚需。
在中文领域,讯飞星火V4.0实现了对标GPT-4 Turbo,那么在英文领域怎么样?这是国际各种主流机构给出来的,最主流的中英文测试集,绝大部分是英文,中间有理解推理、综合考试、数学科学和代码等维度的测试。大家可以看到,一共12项主流测试集,绝大部分是英文的,讯飞星火V4.0有8项实现了超越。这个数据大家可以直接调用我们的API自己去测,这是很令我们自豪的进展。
除了这些测试集,现在评判大模型技术的聪明程度,高考和中考也是最重要的例子。在刚结束的中高考,《中国科学报》做了一个各家大模型在高考语文、数学、英语中得分的综合报道,讯飞星火是最好的。各大高校、媒体也对高考语文、英语、数学和物理做了测试,讯飞星火都是排在最前面的;各家大模型在2024北京中考的表现,中国教育技术协会也做了评测,在中考数学的答题完成率和准确率上星火都是第一,语文、英语作业评价也非常高,均优于GPT-4o 的表现,这是最新鲜的实际对比的榜单。当然,在这中间也看到,星火大模型在数学、物理上面还有很大的空间要提升。
随着高考的题目越来越强调知识运用能力和综合素质,我们越来越看到大模型发展和前进的方向。今天其实除了给大家看这些结果,我们会通过一系列的演示让大家从实际场景中看到我们大模型应用的脚步。
我先举几个例子,比如说“复杂指令”,现在得到了很好的提升。我们要求它写一篇文章,可以提非常多的要求。例如对标题使用修饰手法、需要引经据典的情况以及要用成语等,它全部都能理解,这就是“复杂指令”的跟随能力。这项能力对大模型来说是很难的,大家如果去测就会发现星火的能力现在比GPT-4o和GPT-4 Turbo或其他大模型都要明显领先,这也是星火大模型将来解决各种复杂场景工作的基本能力。
在“复杂推理”方面,数学竞赛爱好者喜欢做的这道推理题,大部分人看了会头晕,机器也都可以做出来。
在“空间推理”方面,像这样一个问题:你在客厅里面这个人走来走去,但是球放在杯子里,把杯子倒过来,然后再问大模型“球在什么地方?”它一定要理解如果倒过来球就掉下来了这一前提,同时还需要知道是在什么地方倒的,要能够自己推测出来球在哪儿,这就是“空间推理”能力,也要进一步提升,我们说的具身智能要依靠大模型底层能力的提升是非常重要的方面。
另外,还要有“多模理解”能力,比如说刚才说的OCR识别,不光识别具体的体检报告、具体的笔记、具体的文书等,星火大模型还能够把多张图片整合在一起去理解,关于逻辑关系的“多模理解”,我觉得这是非常重要的。这一次,讯飞星火V4.0也有了非常大的提升,已经不仅仅是识别单张照片了。所以逻辑关系支撑下的多模理解,是下一步多场景切换的非常重要的底层能力。
还有一个非常重要的是大模型在学习和获取知识方面以及长文本能力方面,这段时间在业界引发热议。
什么叫长文本能力?给大模型一个非常多字的、很长的书籍或者一堆文章和资料内容,就可以去让它做要素抽取、做总结摘要,可以对它提问,还可以让它生成。但现在无论是国内各家还是GPT-4 Turbo、GPT-4o都面临一个困难:把这么多文本给大模型后,对它提问,它会回答,但是回答中间总有那么一部分比例是不靠谱的,是一本正经地胡说八道,但又没办法去核实,除非把这本书从头到尾看一遍,这样我们的效率就降低了。
随着星火长文本通用能力的提升,这一次我们在业界首发内容溯源功能。当你向星火提问,它回答完,会告诉你为什么这么回答,是参考了哪一段内容,这样当我们没有时间看全文的时候,只要去核实它的溯源就行了,这使得大模型的“幻觉”得到极大的降低。当然,不仅仅是长文本,也可以是长图文、长语音、一大段录音,拍的很多照片和文本放在一起,你可以随便问,大模型可以组合在一起,进行要素抽取、文档总结、问答等。
特别想说一下关于“英文溯源”,星火大模型不是把英文翻译成中文,然后去找对应的关系,而是真正基于英文自动训练出来的英文溯源能力。只有这样,你才能未来真正在各种英文的历史典籍、英文的科研资料中,真正地达到跟ChatGPT、OpenAI一样地对我们的科研人员提供相关的长文本溯源的帮助,所以这是非常关键的一项。
很多人使用大模型是从一年前的陌生,到现在慢慢开始靠近、尝试使用它。但在很多时候,我们发现无论是写文章、问答,或者给我们进行专业指导的时候,大多数只具备很强的通用性,它很正确但不具备针对性,可以说放之四海而皆准,但缺乏了个性化。当要写一封感谢信,回复一个邮件,或者要根据具体的工作资料写一个相关的调研报告或分析报告,就需要有个性化。
从“通用AI助手”到“懂你的AI助手”
这一次星火大模型非常重要的底层能力是什么?要让我们的通用人工智能从通用助手变成更懂你的AI助手,这中间的底层技术是什么?是需要能够有基于用户画像的个性化表达,要能够使用你的历史记忆学习,知道你的特点、关注什么、最想表达什么。其中,基于个人资料的增强学习可以是个人的工作资料,也可以是随时在网上找到的参考资料等。
这一次我们在星火APP和DESK上全新升级的核心,一是星火APP变得更加方便快捷,更有针对性地理解每个人需求,刚才说的AI人设,大家现在可以下载来体验,在DESK上也一样的。我们把大模型变得更加专业高效,其中一个非常重要的内容就是增加了“个人空间”,让你的文章写得更有个人特点,有人设,我们可以自己存放自己的学习、工作、生活与健康等相关内容,从而使得它更加个性化,更加具备自己的专业知识。
在讯飞星火APP上,还有一个叫智能体的功能,把我们每个人都关心的医疗助手、学习口语的英语听说助手,数学解题、代码等这些相关的、大家最喜欢用的功能全部都放在这里,做了非常方便快捷、可以调用的智能体。
另外,跟我们的智能硬件相结合,讯飞智能录音笔、讯飞翻译机等智能硬件和讯飞星火APP从数据贯穿、账号互联到操作联动都真正打通了。举例来说,用讯飞智能办公本录下一段政府开会的会议录音,马上同步到讯飞星火上,它就能写政府公文、写工作PPT、可以生成待办事项,并且发送邮件给相关人员。
打造每个人更便捷的助手,今天我们会给大家展示一些典型行业的应用,这些行业应用既是大家在大模型时代特别关注的一些应用,同时也给我们的合作伙伴、开发者更多的参考和借鉴。
星火医疗大模型再次升级
每个医生的AI诊疗助理 每个人的AI健康助手
首先是医疗,讯飞星火医疗大模型再次升级了。产业发展都要有核心的梦想来支撑。医疗领域的使命和愿景就是用人工智能打造每个医生的AI诊疗助理,打造每个人的AI健康助手。这件事情在过去几年之中,科大讯飞通过智医助理帮助基层医生进行诊疗,累计已经给出8.2亿次的辅助诊断,涉及的电子病历超过3亿个,一共修正了147万次的错误诊断,识别出来了7267万的用药错误和不合理处方。在这些能力持续积累的基础上以及讯飞星火V4.0不断升级进化,现在的医疗大模型始终走在业界前列。去年3月,GPT-4推出来的时候已经达到了美国执业医师资格考试的条件,而我们现在与最新的GPT-4 Turbo相比,无论在医学相关的知识问答、复杂的语义理解、专业文书生成,还是诊断治疗以及多轮对话的各项指标上,我们都已经实现了超越。
去年10月24日,我们推出的每个人的健康助手讯飞晓医APP,每个人都可以下载到自己手机上来使用,现在已经累计有1200万的下载量,用户好评率有98.8%,用户推荐率有42%,很多人表示讯飞晓医APP已经超出了预期。
举个例子,看病前你可以问晓医,它会告诉你这个情况到底严不严重,如果要看病建议到哪些科室、找谁,还可以生成就医小贴士。目前,讯飞晓医APP已经可以看1600种常见疾病。大家或许不知道,目前基层医生能够诊断的常见疾病是300种,有2000多种的常见症状,我们都可以自动判断;吃药的时候问晓医,有的药不能在一起吃,否则会有不良反应;一些有基础疾病或者孕妇、孩子不能吃的药,讯飞晓医APP都能够专门提醒。讯飞晓医APP可以识别有2800多种常见药品,理解26万个药品相互作用;体检之后很复杂的体检报告,我们看不懂的时候,可以直接问晓医,现在6000多种常见的检查检验,讯飞晓医APP都支持文字拍照的录入。在这个基础上,讯飞晓医APP这次进一步升级了,能够把个性化的电子病历检查报告以及过去问诊情况,在个人健康空间存下来,在看病、用药、检查时,给我们更深入更具体的帮助。
讯飞晓医已经通过了国家信息系统安全等级保护三级认证,也通过了中国泰尔实验室,国家信息通信研究院的数据安全检验报告等,所以大家可以放心,我们会保护大家在晓医后台的个人体检报告和其他信息的安全。
刚才看到的虽然是一个医疗的案例,但如果没有我们OCR识别技术的进步,没有文本溯源能力,没有针对指定内容的文本生成能力,刚才那些工作是没有办法做成的,我们可以在医疗领域把这件事情变成现实,在非常多的专用领域,我们一样可以照着这个逻辑把它实现。
今天不想给大家展示我们通用的各项能力的单个案例,而是想把它整合在解决社会刚需中。讯飞晓医每个人都可以下载免费版,现在就可以试用,在星火APP中,我们专门的智能体中第一个就放了晓医,它是可以解决社会刚需的。
星火教育大模型再次升级
每个老师的AI教学助理 每个孩子的AI学习助手
讯飞星火这些能力的进步,使星火教育大模型得到了提升。在教育中,让AI成为老师的助理,成为孩子的助手。实际上,我们在之前已经推出了很多因材施教的教育解决方案,无论是语文、数学、英语课程的学习,还是科学课、编程课以及心理健康等,科大讯飞有了一系列的解决方案。这一次,我们一方面提升大模型底座能力,一方面进一步提升多模态能力,尤其是面向教育复杂场景的图文识别效果,使我们能够给学校的老师和孩子们做得更多。
大家可以看到无论是语文、数学、英语能力等方面,还是OCR识别方面,讯飞星火最新版本都比GPT-4o明显要好,尤其在复杂公式的手写体上。当我们能够对数学、物理进行分析的时候,手写如果不能识别是很难解决问题的。大家可以看到如此复杂的手写公式,我们都可以高精度地识别出来。
星火智能批阅机重磅发布
有了这些能力,就能够为老师和孩子们带来一个全新的重磅产品,就是我们的星火智能批阅机,这个批阅机可以自动批改,把老师批改消耗的精力释放出来,让老师只看那些他应该看的错误点,批阅机通过批改自动地找出全班学习情况,给出分析,给出每个孩子学习路径的规划,而且能够软硬件一体化。
我们今天就是要把这些技术,从OCR识别到逻辑推理、知识图谱、到最近发展区的所有教育相关的技术,要整合在老师和同学们触手可及的软硬件产品中,其实这个设备一搬到教室,老师们就离不开了。老师节省了批改过程中的无效、低效、重复时间,就可以有时间分析孩子的状态,当我们更精准地对每个孩子的教学进行指导时,老师就可以腾出时间来关注孩子的心理健康,关注人的全面成长。陶行知提出的孩子的“六个自由”,最重要的是在师生减负的时候要让他有时间上的自由,而星火智能批阅机就会带来这方面的帮助。
大家可以看到,在这个技术上我们有很多专业的技术指标,自由排版不限格式,试题解析的准确率大于99%,孩子们可以随便涂抹等。多学科题型的智能批改都是95%以上的准确率,可以跟老师进行相应的校验。留痕打印,无论是涂改、褶皱,或者拿乱了次序,随便怎么排,它都可以自动准确打印出每个孩子的情况,因为我们是一整套自动化识别的。
所以在这我们可以看到,星火智能批阅机带来的帮助是批改减负,原来90分钟的作业批改时间可以变成5分钟,60分钟的学情统计时间可以变成1分钟。孩子们在这个过程中同样做相应的作业,他的错题解决率从50%提到73%。孩子进行做题学习,我们可以针对这个孩子告诉他,你要做5道题,只需要16分钟,不需要像原来那样的40-50分钟,因为老师可以精准地知道学生应该学什么。通过星火智能批阅机的自动批阅,把批阅、教研和个性化指导都联动在一起了。
讯飞AI学习机 启发互动式
AI 1对1答疑辅导全新升级
此外,我们给每个家庭、给孩子们的学习机也做了升级。星火大模型搭载的讯飞AI学习机一直在业界广受欢迎,我们当时也提出了做AI学习机的标准:能够对学情做分析,能够对学习内容做指导,能够让孩子在学的过程中得到正反馈,从而学习更有自信心。大家可以看到,讯飞AI学习机获得了很多的荣誉,也是用户净推荐率排名行业第一的产品。这一次,我们基于讯飞星火V4.0语言理解、多轮交互、图文识别能力的提升,以及讯飞在语音领域最新进展,我们在学习机上进一步实现超拟人的答疑辅导,讯飞AI学习机可以像一位老师、一位家长一样,循循善诱地给你进行相应的辅导。
很多的年轻家长妈妈看了这个以后非常兴奋,说这将是一个“最省妈妈”的学习机。不辅导的时候,都是母慈子孝,一辅导就鸡飞狗跳。将来学习机不再是简单的扫描、搜索给你一个答案,也不是简单推一个视频,而是基于我们最新的大模型能力的提升,可以实现超拟人的答疑辅学。给大家看一些数据,目前使用超拟人答疑辅学,孩子们独立学习的学习完成率从67%可以提到90%,错题解决率,解题的视频学习原来只有72%,而现在处理解决可以到93%。
大家可以看到家长们和孩子们的评价,因为有这样一个主动启发式的学习功能,孩子们更愿意主动思考,学习效率更高,自信心增强了,关键是家长不仅更放心,亲子关系更和谐了。我们刚才讲的AI答疑辅学功能,以及在教育领域落地的这些应用,它不仅在教育和医疗领域,相关的逻辑在各个行业场景都是可以参照落地的。核心能力就是多模态理解、多轮对话、指令跟随、语言理解、文本生成等,还有配合的数学能力。
星火语音大模型再升级
推动万物互联时代人机交互革命
我们观察到GPT-4o的发布,全世界都在进一步关注语音,其实在去年11月份的时候,Whisper已经发了他们OpenAI的整体语音技术,并把语音做成一个非常重要的方向。最近苹果的手机大家也看到了语音技术的进步,手机厂商对语音技术进一步产生了更大的关注,而且要用它来改变所有人机交互的方式。
人类社会进入到了万物智能互联的时代,越来越多的设备没有屏幕,离我们几米之外,不方便用键盘,不方便触摸。在越来越多的时候,我们需要更自然的人机对话,用户才能够得到更好地体验,更迅速地学习,获得相关生活中的帮助,我们更需要语音。
星火语音大模型再次升级,会使得万物互联时代下人机交互的革命进一步落得更透,这也是科大讯飞在1999年创业时就提出来了要实现人机信息沟通的无障碍。过去10年,从深度神经网络出台之后,科大讯飞一直引领着语音技术的发展。我们是全世界第一个让语音识别超过了专业速记员水平的公司,像这种会议转写的情况,机器翻译超过了99%的大学六级考生,通过了国家翻译师资格考试;个性化语音合成也给央视的节目进行配音;我们的多语种技术在2020年代表中国,在美国把讯飞列入实体清单之后,对中国极限施压的背景下,多语种技术依然保持了全球领先,解决了我们的汽车、手机、智能家居等出海“卡脖子”问题。
我们非常荣幸在几天前获得了国家科技进步奖一等奖,这也是中国人工智能领域在深度神经网络之后的第一个国家科技进步奖一等奖,当然也有中国科学技术大学、清华大学、华为、中国移动等合作伙伴共同努力的结果。
技术进一步发展使得我们在万物互联时代的人机交互标准被重新定义,它应该要实现多语言多方言的交互,在远距离、高噪音场合下也能够识别,能够全双工随时随地可以打断,可以支持多模态,语音、手势、嘴型等结合。大家关注的Open AI发布的GPT-4o中最重要的一个全双工功能,实际上使用的是科大讯飞2020年就在国际会议上提出来,在去年5月正式发布的国际标准。
目前,我们的语音识别在最主流的语种上已经继续保持了全球领先,这是多语种多方言免切换的演示,在相对安静的手机等各种场景下,还有更极限的场合,例如强干扰情况下“鸡尾酒会”的语音识别场景都能进行识别。
伴随着技术的最新进步,我们也有个专门的讯飞同传软硬一体的翻译系统,这个系统戴上去,我在上面讲话,你听到的就是英语,当然我们还有更多语种。同时,这个翻译系统是软硬一体化的,我在后台讲话,通过语音识别、翻译、语音合成,每个人戴着耳机就可以听到,从而实现大会同传、展厅同传以及各种旅游同传。一个人讲话所有人听,我们还会推出软硬一体化的设备,让各种语言混杂在一起可以随意开会,要把整个软件和硬件结合在一起,来解决现在社会的刚需。
将来,我们日常的机器人进入到各种高噪音环境下,在各种各样的服务场景下,有这样的能力,我们就不怕机器听不懂了。语音识别进入到规模化使用,当年我们在手机输入法上,在全球率先提出手机语音听写时代开始到来,它的标志是85%以上的准确率,到89%就可以全面使用了,现在我们的识别中,两个人混叠场景准确率已经到了91%,远超国际竞品,三混叠场景准确率更是完全不一样,我们准确率已经到了85%以上,但其他的只有20%多。在-5dB的高噪场景,噪音已经比我们人讲话还要高不少的情况下,我们依然能做到90%以上的准确率。
因为这些技术进步,我们从去年底到今年的国际连续最权威的语音识别比赛,一个是国际多通道语音分离和识别大赛CHiME-7,我们继续拿了全球第一;另一个是今年的上半年国际声学、语音和信号处理会议ICASSP 2024(International Conference on Acoustics, Speech, and Signal Processing)的旗舰赛事——国际车载多通道语音识别挑战赛(In-Car Multi-Channel Automatic Speech Recognition Challenge,ICMC-ASR) ,科大讯飞是全球第一,这个不是中文的,是英文和多语种的比赛。
今天,我们的语音交互已经搭载了5700多万辆的汽车,去年中国500多万辆汽车出海,成为中国出海的“新三样”,其中的多语种智能语音技术几乎全是科大讯飞提供的。不仅仅是语音,我们还将语音与大模型结合,与红旗、奇瑞、广汽合作,包括最近又和一汽签订了战略合作协议,越来越多的车企开始用我们“能听会说、能理解会思考”的汽车方案。
今天我们又再一次升级了星火汽车智能座舱,智能座舱中可以实现全双工交互,实现多语种多方言的免切换交流,多情感多模态的拟人交互,而且能够多模态感知,知道我们的身体健康程度,是否疲劳、血压过高、心跳过快;然后还可以贯穿内外信源,在车上完成真正的任务,因为我们有了语言理解,就可以更自由地对接外部信源了。
还有个非常重要的一个功能,就是一句话复刻,我们说一句话,大模型马上就可以模仿你的声音,当我们开车听到了孩子声音提醒我们注意安全,可能会给大家带来不一样的心理感受,提醒得更有温度。
这个能力在讯飞星火APP都可以去试了,只要一句话就可以模仿你的声音。除了一句话复刻,在车内还有更多真正解决刚需要求的功能。在我们舞台的右侧放了一辆汽车,这辆汽车是奇瑞的星纪元ET,为什么放奇瑞?因为奇瑞是中国汽车自主品牌出口连续20年排名第一的车企。现在,我们就在这个真车上,把这一次语音技术和大模型对接的相关功能给大家做个演示。
除了急速的语音对话、多方言多语种之外,还有一个非常重要的功能就是多模态的识别,它可以了解到你的身体参数,知道你是否疲劳驾驶、是否有异常情况。同时,我们在汽车的音效上还有一个非常重要的特点,通过AI大模型和音效结合,可以把十几万的国产车音效,做到比四五十万的车的音效还好,40多万的车可以超过柏林之声的音效。不仅音效提升,开车时可以随时要求去掉原唱,跟着它的伴唱、对唱、分享等,这些其实都是大模型带来的功能,
还有一个特别重要的能力是和内外部信息源进行打通,刚才演示中的点餐是真的已经点成了,发布会结束后就可以直接去吃饭了,真的让汽车对我们生活办公和娱乐空间做了非常好的拓展。
这种软硬一体化的方案除了在汽车中落地,在现在家电中也开始落地了。云端通过大模型理解、识别,在端侧,通过语音交互和最快速的本地多模态的识别,可以形成非常好的新一代家电方案,能够让冰箱、彩电等各种各样的家电变得更加易用、更加生动、更好玩。大家可以看到去年我们的大模型,相关的语音技术和大模型赋能智能家居、智能家电和C端硬件已经超过了2000万台,可以看到,如今大模型赋能智能家居、家电产业带来的蓬勃发展机会。
机器人超脑平台2.0正式发布
今天,还有特别重要的事情是发布讯飞机器人超脑平台2.0。随着大模型具身智能的帮助,今天的陪伴机器人,尤其是人形机器人开始进入到全新的发展阶段,未来如果没有陪伴机器人,老年社会的幸福是没有办法保障的。
通过大模型可以在后台做理解、做规划,在前端通过专门的硬件设备实现麦克风阵列,实现人脸、手势的各种识别,从而可以“听说看认”,最后再与机器人厂商共同来做具身模型,把这个能力开放给我们的合作伙伴。直接用科大讯飞的方案,每一个机器人厂商都可以定制自己的机器人超脑。我们在两年前就推出了讯飞超脑平台,是专门给机器人的机器人超脑平台1.0,现在已经有410家机器人企业,大概占了至少60%的机器人市场份额。
今天,机器人超脑平台进一步升级。升级的核心是后端星火超脑2.0的硬件版,能够极大地提升具身智能和最后相关的理解能力,包括任务规划和前端的摄像头、麦克风一体化的模块。刚才大家看到的极限情况下的多人说话,就是既有麦克风阵列又有摄像头,大家会后有兴趣可以自己去试。
星火大模型赋能企业
用智能体平台打造每个岗位专属助手
今天的最后一个环节是关于星火大模型赋能企业,如何更好地解决企业大模型应用的“最后一公里”问题。经过和大量的央国企和行业合作伙伴的共同探讨,我们觉得今天要用智能体平台打造每个岗位专属助手的时间已经到来。
随着讯飞星火V4.0的发布,通过智能体平台,星火大模型可以在企业落地,解决“人工智能+”行动的“最后一公里”的问题,是前所未有的机遇。在这之前,星火已经成功赋能了很多场景,无论是代码、数字劳动力,还是评标、客户、APP智能互动。我们与太平洋保险合作是从审计这个岗位做起的,包括客服和评标;此外,国家能源集团、中国石油等公司选了科大讯飞作为合作伙伴;同时,星火大模型赋能中国移动APP几亿用户,使中国移动APP更加智能、交互更顺畅。
通过这么多的场景可以看到,大模型赋能企业“人工智能+”行动有两个方面:一方面是大模型直接完成任务,讯飞星火一开始启用文本生成、语言理解、知识问答、逻辑推理和代码能力对应到下面相关的各种各样的工具,它自己就完成了,不需要借助任何外力。还有一种模式是以认知大模型为中心大脑,它调动各种专用模型,比如说振动的模型、味觉模型、气体模型,湿度模型等各种模型,然后配合相应的工具,再对接内外部的各种信源和数据,打通内部的办公OA、ERP系统,再对接外部实时性来联合完成任务,相当于用大模型来指挥调度一系列的能力,从而完成一个综合的任务。
在去年9月份发布的GPT-4V,OpenAI大模型在图文识别和理解分析能力上,上了一个大台阶,随后11月推出语音识别大模型Whisper,今年2月又推出了文生视频大模型Sora ,今年5月推出GPT-4o,看起来是一个又一个的热点,但实际上还是依托GPT-4的底层通用大模型能力。
以Sora为例,并不是外界所说的“对物理世界的认知进一步加强了”,而是通过GPT-4V的理解能力和生成能力,结合GPT-4V的“打标签”能力、传统的文生视频能力,用GPT方法做了重写,从而实现了Sora。本质上,与大模型在医疗领域做一个医疗专用模型,在教育领域做一个教育专用模型并没有本质差别,只要有算力、有数据,其实没有真正核心技术的壁垒。
我们要发展中国通用人工智能,整个产业一定要有大模型的底座能力,我们有很多人可以做专用系统,很多人可以做我刚才说的大模型所调用的各种专用的小系统。但是国家不能没有自主可控的通用大模型底座,这决定了我们本轮通用人工智能发展到底能走多远。我们这么热热闹闹的社会热点,这么多的投入,将来能不能真的走到红利兑现那一天,我觉得底座能力是至关重要的。
今天所有的企业一定要科学地认识到大模型能力的边界,我们可以举出很多成功的例子,也可以举出很多的坑、很多不行的地方,每一家都是如此,所以我们要给统计数据。比如医疗八十几分是什么概念,国家执业医师资格考试60分就可以通过了,我们要考协和医学院等分数最高的医学院,七十几分也就可以上了。大模型的能力并不是包治百病,并不是什么任务都能100%完成。但是可以大概把它分成这几块,一个是叫一般难度任务,用通用大模型底座就直接可做,比如说代码、文案、翻译这些,会用到文本生成、摘要这些能力,直接用底座就可以满足应用。
中等难度任务涉及了知识库、深度的客服,它需要定制优化后才能用,这一般来说必须要做SFT的专门优化,很多地方可以做到,现在在很多客服行业可以大幅提升效率。
还有很多高难度任务,比如说高难度数学推理、多阶的推理类的知识问答,以及开放域的通用智能体等,实际上是非常难的,需要更大的模型,还需要专门的算法去摸索,在这些领域中,它具有很强的不确定性。所以今天我们认清这个边界,每个企业就可以知道自己应该怎么去做。
实际上,今天企业要探讨的话题是我们怎么能用更少的算力、更高的效率来打造我们的专属模型和专属应用。我们企业可以拿通用底座来做自己的专用行业模型,一般来说一个月就可以上线,在底座能力上进一步提升。底座如果60分,专业模型可能会做到80分,然后有了专用的行业模型,每个企业或者企业的不同岗位,在针对私域的IT语料加上高质量的微调,又可以进一步提升,一周就可以完成。所以,我们现在希望与很多龙头企业打造行业模型,提供给行业内所有上下游公司。
通用大模型可以用底座的基本能力给很多行业直接赋能,特别是在那些小规模的模型上,可以更好地为大家提供服务。所以今天要把它落实,就需要看到不同尺寸的模型能够满足什么要求,从小的、到中等、到大的,同时必须要软硬件一体化,才能解决刚需。
各种场景优化定制怎么解决应用的“最后一公里”?讯飞星火V4.0在智能体上的能力进步,使我们这个目标可以更好地照进现实。这个是什么目标?我能不能用一句话提要求,大模型就能理解我的意图,然后分解出这句话所对应的各个步骤的任务,然后找到每个任务所对应的工具,让每个工具去调用内外部的各种信息,有的是内部信息,有的是外部信息,最后完成任务给出结果,这就叫智能体。简单地说,就是叫它干一件事,它能自动规划,找到工具自动完成。
大家可以看到,只要说一句话,系统就把后面所有东西都做了,已有工具的它调工具,没有工具它自己做,然后把它整个串成一体。以后你只要有任何一张会议彩页拍进来,这个彩页背后的所有你想关心的地方都可以给你找到。还比如,我想了解创始人的背景,想了解这个公司在国内外的市场地位、技术水平,它都可以更深度地帮你把内外部信息整合,给你答案。
一个又一个我们需要的专属助手,都可以用这种方式快速搭建起来。
而搭建企业智能体平台最重要的三项能力,一个是AI的原子能力,当然最核心的还是大模型的底层能力,你要有很多原子能力,比如人工智能开放平台上的各种各样的专有能力,会成为工具被它调用;第二个是各种外部信源,比如刚才联网搜了企查查上企业外部的各种信息,搜了互联网上企业最新的各类新闻报道;最后要打通公司内部系统,比如刚才发送邮件给它,它要打通内部系统,要去内部查询与我们公司有没有历史上的合作等。这三个能力构建起来,再有大模型能力,就可以搭建企业智能体了。在这方面,科大讯飞已经走在了行业前列,我们不仅有了基本能力,现在AI的原子能力有400多项,都来源于我们人工智能开放平台,而且已经集成了外部的90多个重要的信源,关乎到研、产、供、销、服、管各个领域,天气、股票、航班等这些全部都在。还打通了内部IT、ERP财务、法务、OA等系统。
星火企业智能体平台重磅发布
所以,今天我们将在这里重磅发布星火企业智能平台。所有到现场的企业,还有我们的合作伙伴,从今天开始都可以使用刚才说的我们有这么多能力的企业智能体平台。除了有这个平台,让大家自己快速去构建各种应用之外,我们也推出了首批32个企业从生产、科研、办公到管理中特别需要的相关智能体,如商机、销售、客服、科技情报以及编程等。
其实人工智能的编程上,我们的代码智能体现在已经可以在代码生成、架构设计、问答、测试、数据库优化以及审核6个场景上帮助我们,可以整合,也可以单独使用。现在,代码在科大讯飞内部的采纳率已经从去年10月份的30%,涨到了现在的52%。单元测试行覆盖率从30%提到50%。除了我刚才讲的各种代码测试集,我们这些指标在业内,目前是国内领先的,跟国外相比还有差距,我们在今年8月就会赶上现在GPT-4 turbo最新的水平。
在真实环境下的企业内部采纳率上,我们的数据指标也是现在业界领先的。大家都说,代码是连接虚拟世界和物理世界的桥梁,这个能力是中国大模型一定要抢占的核心能力。
给大家看两个智能体的案例,也是在前期与大量合作伙伴和企业客户沟通后,做出来的星火商机助手和星火评标助手。
星火商机助手不仅是在外部找到各种各样的商机线索,解决我们应知尽知,更重要的是极大地提升了每个一线客户经理的效率,同时能够自动地把公司的管理要求转换为对他工作的指导,员工缺了哪些商机相关内容没有填充、有哪些需要考虑,我们都会在过程中指导他。
星火评标助手,不光在过程中自动评标,自动解析投标文件的关键内容,自动给出每一家投标商资格证书有没有造假、涂改,有没有问题,然后根据各种各样的技术要求和商务要求自动评分,给出高低,还能够在过程中找到投标过程中可能潜在的异常点。另外,能够对于外部价格进行自动判断,比如说我们预中标的第一单位,它在历史上跟公司合作的所有价格,这一次跟原来相比怎么样,外部可公开找到的价格,它的价格怎么样,都能够自动进行判断,不仅仅能够进行人工智能评标,给出第一名、第二名。星火评标助手作为一个典型的人工智能应用案例,已经放在国资委网站上了。原来是帮助评标,现在能够帮助在外部找到更适合的人来参与投标;原来是投标的评标过程,现在不光是给出结果,还能够自动对接外部信源判断是否有异常、有虚假,找到疑似这些风险项,给出最终签单之前价格是否合理的内外部信息分析,从而可以使我们能够更好地降低采购成本。这个能力现在也已经几乎成为我们合作的所有央国企和行业客户都特别想用的能力。
只有自主可控的繁荣生态
才有中国通用人工智能的大未来
今天人工智能技术的发展绝不是一家公司可以把所有事情都做完的,在这个时代,做帝国注定要衰落,只有生态才能生生不息;必须是自主可控的繁荣生态,才有中国通用人工智能大未来。
我非常高兴地向大家报告,从今年1月30日讯飞星火V3.5发布以来,我们的开发者团队持续高速增长,目前已经增长到702万,这都是实名认证的开发者团队。海外开发者数量从34万增加到40万,大模型的直接相关开发者达到了57万,这些数据都还在快速增长中。
面向下一阶段的人工智能的发展,这一波通用人工智能浪潮,我们要打造新的生态。特别要关注到的,第一是源头技术生态。科大讯飞针对几百万开发者团队,我们希望只要有比较好的AI能力,不论是高校还是创业企业,都可以集成在我们的底层平台上,让几百万开发者团队都能够用起来。
过去18个月,用过我们人工智能能力的独立终端已经突破40亿。我们把源头技术生态打开来,让更多的英雄有用武之地。今天人工智能非常重要的一个特点是大平台加上英雄主义,所以我们把源头技术生态打开。智能体生态让无论是企业每个岗位的人,可以做自己岗位的助手,也可以做自己的个性化助手,做完以后都可以分享出来。在我们的平台上,我们将来会设计分享模式和商业机制,从而形成智能体的生态。只要你懂场景,只要你愿意自己去试,试完成功了,你就可以发布到我们的智能体生态上,让所有的一线洞察能力和经验成为整个商业体中的一环。还可以有应用生态,用原来的开发者生态来做各种应用,无论是创业,还是企业内部的应用。去年我们新增的几百万开发者团队中,有50%以上是企业应用。
最后行业生态是希望跟各个行业里面的龙头企业一道来打造整个行业模型,然后把这个行业模型提供给行业里面的生态伙伴来共享产业收益,目前我们已经和现在很多龙头企业在做这件事。
从源头智能体开发到行业生态,在推动的过程中,特别重要的是一定要底座技术的完全自主可控,否则可能我们就把大楼建在别人的院子里,建在沙滩上,随时会倒塌,要真正做到软硬件一体化,才能更深度地落地。
在这样大的发展过程中,我们一定要科学理性地认识到中美科技的综合差距。今天我们说讯飞星火V4.0对标GPT-4 turbo是全方位对标。但是我们同时要看到,一旦GPT-5发布,因为它的模型尺寸更大、训练时间更长、数据更多,又会把这个差距给拉开,甚至拉到一年以上。
当然,我们有信心快速追赶,而且是在完全国产算力自主可控算法和数据基础上来追赶,保证不出现代差,保证极限情况下,能够顶上扛上。我们既要认识到差距,又要有充分的信心,要能够科学理性地给出从源头技术、到生态、到产业应用落地的一整套打法,要以长期主义来打造真正自主可控的AI产业生态。
我们多语言的语音识别原来需要1万小时数据,现在只要100小时数据就能做到比原来1万小时还好的效果。在中国,一定要考虑用更小的算力、更小的数据,做出更优质的落地成果,这样才能够真正地在未来几年打赢这一场人工智能红利赋能产业的“仗”,但同时,整个社会还要加强源头技术创新的氛围,一定要看到中美之间的差距,才能够迎头赶上,绝不能盲目自信,盲目地认为我们都已经超越了。差距还是很大的,需要大家有充分清晰而又理性地认知。
在2017年国家的新一代人工智能规划出台之后,我们曾经专门做了一个企业宣传片,叫做《AI向人类的表白》。情景假设到2045年,人工智能可以了解所有成长的秘密,但绝对不可能替代母亲,了解所有教学的知识,但不可能替代老师,因为人类有AI所不具备的东西,那就是爱,就是同理心。随着大模型的进一步发展,到今天我们把大模型的基础能力、个性化能力以及智能体的能力提升到能够做更懂你的AI助手的时候,我们认为AI可以再一次对人类表白了。就像我们开场视频说的那样,每一次人类文明进步的背后都有一个了不起的助手,每一代助手都有它的使命。
今天,作为每个人的AI助手——“讯飞星火”,我们的使命就是要解放生产力、释放想象力。通过我们的能力,成就每一个了不起的企业,帮助每一个人都成为了不起的自己。我们期待着能够同大家一道,顶天立地,星火燎原。谢谢大家!
*文中数据来源于实际应用及第三方评测