与中国信息与通信技术学院的Wei Kai交谈:在AI的
作者:365bet体育投注 发布时间:2025-07-03 10:05
中国经济网络保留的所有权利 中国经济网络新媒体矩阵 在线音频 - 视觉节目许可证(0107190)(北京ICP040090) 与中国信息与通信技术学院的Wei Kai交谈:在AI的下半年,大型模型应该越来越多 2025年7月2日07:28资料来源:中国商人 世界上最好的模型在中国约为6,在美国有4个。文字|“中国商人”于今年2月变得流行,这对国家和世界来说是令人惊讶的。实际上,在此之前,中国信息与传播学院模型的大型模型(因此被称为中国信息与通信学院)注意到国内模型绩效的迅速改善,包括中国信息学院信息学院信息学院和C信息和通信的主任Wei Kai。魏凯说:“ 2024年,中国许多大型模型,包括G DeepSeek,从几个角度工作以继续提高模型性能,并且通常每个月都会看到新的发展。在我们的试验中,DeepSeek在2024年4月的模型性能的版本仍然很低。 It's open resource, which is a surprise." Communications Technology is a scientific institution directly under the Ministry of Industry and Information Technology, and conducts activities such as decision-making support, new technology research, standard development, inspection and trial, consulting services and international cooperation in the field of artificial artificial arts. In 2023, Wei Kai led her team to launch the "Fang Sheng" Big Model Benchmark Test System. Relying on the "Key Laboratory of Key Technologies and Application Evaluation他制定了测试标准,开发了测试平台和数据集,并定期在国内外测试了大型模型。目前已经建立了近700万个测试数据集。“ Fang Sheng” I战争状态期间的标准权重和提案,以及最早的现有权重,并衡量现有的标准。魏凯说:“国内外有许多大型基准模型基准,但是缺乏标准方法和测试系统,并且经常发生排名。我们推出了“ Fang Sheng”,以期促进大型基准试验模型的标准化。”到2024年底,工业和信息技术部建立了人工情报标准化技术委员会,Wei Kai曾担任秘书长,由日常活动领导。到6月底,“中国商人”接受了Wei Kai的采访。作为一名年长的专家,他目前有一个独特的大型模型和最受欢迎的代理商的独特视图。以下是内容的关键点:1。一些公司提供预培训,转向训练和代理。如何正确地使用模型的出色能力?创业或投资的这一部分不好增加。 2。真正的人工智能应用程序具有大型模型,一个数据库,知识基础和各种呼叫工具,并且不仅依赖于模型本身。 3。大型模型是一个操作系统,代理是其应用程序。 4。为什么现在的代理人纳格尔(Nagwill)有商人的机会?它可以理解直接的词,以了解人们的愿望。马努斯是单词的必不可少的模具,没有模型,并且光标是相同的。 5。拥有大量的C-End用户对改进模型功能的贡献有限。超级应用只有浅数据。该应用程序中没有大量数据,而是在行业中积累的知识。 6.被低估的Google和变压器,MoE,蒸馏和其他技术的外界首先是由Google提出的。 7。在AI的后半段,大型模型必须是信息的输出。尽管输出信息不是MA在目标上,它主要是做得很好。从AI组到AI代理的大型模型的主要目的更少,做更多的事情是Tomove的主要目的。以下是访谈的详细信息(剪切):DeepSeek是要优化“中国商人”:中国信息与通信技术学院试验的判断,这是模型的更好性能吗?魏凯(Wei Kai):根据我们去年的试验,汤伊·齐文(Tongyi Qianwen),迪皮斯克(Deepseek),杜巴(Dubao),霍尤恩(Hunyuan)和韦克森(Wenxin)等模型始终表现良好。我们还将尝试OpenAI,Anthropic和Google模型,它们的性能也很棒。根据最新的测试,在十大主要模型中,中国有大约6种型号,在美国有4个模型。但是第一个地方经常改变。 DeepSeek是去年12月最好的大型模型。春季庆祝活动后,Qianwen成为第一名,但很快Openai起床,然后Google Gemini也被抓获。我们注意到一种人的现象E最近更新了更新,这导致Top1模型可以在该位置保持较短和较短的时间。在过去的六个月中,基本模型经常进行更新,性能互相追逐,排名通常是旋转的,但是这些模型的新版本始终位于以前列表中的列表中。 “中国商人”:有人说,大型型号已成为一个食品市场,保质期只有3个月。 Wei Kai:现在可能不到3个月,但是现在会改变十天以上。去年5月,OpenAI的GPT-4O GPT-4O是最好的车型,首先拥有200天以上的历史。但是现在,每天一次的排名将改变,竞争特别激烈。这就是为什么今天的大型球员越来越少的原因,因为每次培训的成本至少要花费数百万美元,但保质期很小。完成培训后,您将继续练习几天。因此,支持变更在主要的大型模型中,您必须拥有强大的资源保证。 “中国企业家”:DeepSeek发布的R1-0528版本强调培训后。这是趋势吗?一些名人公司不再进行培训,并转向培训后。 Wei Kai:无论是训练后还是训练,都处于培训阶段。对于下游应用公司,他们将越来越多地参加培训过程。一些公司可能会进行一些微调,但是由于基本模型的技能快速迭代,因此较少的用户公司表现良好。对于大多数用户来说,如何通过工程技术(例如迅速的文字工程,搜索增强和工作流程)为特定场景产生智能的身体,从而充分刺激大型模型的功能。它变得越来越重要。将会有越来越多的创新和企业家围绕这种需求。 “中国商人”:如果可以是相同的大型模型,则与众不同正确使用? Wei Kai:您提出的大型模型的问题的质量决定了答案的质量。我们都可以很容易地理解经验,因此写快单词是技术性的。在直接单词的顶部,添加了工作流和代理。如果您看一下手动和光标(AI编程代理),他们不会创建基本模型,他们只会打电话给其他人。根据其他人的大型模式,高级代理商也将拥有高技术内容,并且不需要大量投资。 “中国企业家”:Zhipu AI告诉我们,他们将继续进行预训练并留在AGI方向。 Wei Kai:Zhipu技术团队很强大,并重新组织资源以主张长期投资。基本模型的竞争取决于技术和耐久性组的强度。如果有足够的“谷物”储备是关键。 “中国企业家”:您是否必须依靠大型模型的预培训来领导到Agi? Wei Kai:大型塔和计算和预培训的大型培训的投资对于提高模型的基本技能至关重要。预训练允许大型模型以大量的方式阅读和练习问题,这可以类比了解学校。这些数据是由人类积累的,从本质上讲,它们仍然向人们学习。但是,预训练不是提高模型功能的唯一方法。在训练后阶段使用加固研究的潜力也很大。研究采用率并不是很依赖人们给出的数据,而是强调从实践经验中学习,这与研究技能相当。目前,我们还应该谨慎地倾听大型模型的能力,而纳吉特(Nagit)相信大型模型可以做所有事情,这是不准确的。在工业应用中,我们需要了解该模型大型Capabiliti的界限通过详细的审查,将任务要求与模型功能准确匹配。让大型模型完成不好的工作,肯定会有问题。使用大型模型,建议专注于夺取模型的捐赠和逻辑功能,而不是盲目相信其提供的现实信息。 “中国商人”:将来可以消除这种幻想或错误吗? WEI KAI:一般的方向是减少幻觉,但是如果没有幻觉,目前的技术路线不能100%保证。大型模型生成的内容是神经网络参数的“关注”,而不是准确的查询。 “中国企业家”:插电式知识库可以解决这个问题吗? WEI KAI:将所有确定性项目放在数据库中并允许获得大型模型可以有效地减少产出的幻觉。像律师或法官一样,如果您想在适合法院时引用法律规定,您应该检查原始文本,以便确保完全准确。在某些严重的情况下,仍然需要使用确定性查询。因此,真正的人工智能应用程序具有大型模型,数据库,知识库和各种被称为的工具。它不仅依靠模型本身来满足需求。该模型本身就像中枢神经系统。它可以发送,但是很难100%准确,并且不会直接工作。它应该“工作”。功能仍然取决于调用其他工具,即代理。马努斯本质上是一组直接的单词“中国商人”:代理商今年引起了很多关注,为什么如此受欢迎? WEI KAI:代理实际上是一个以大型模型运行的软件,它具有理解和计划大型模型,调用专业工具并实施复杂操作的能力。实际上,该行业两年前提到了代理商。到-2023年中期,Artific的十大关键字信息与通信技术研究所发布的IAL情报已加入了代理商。在过去的两年中,由于提高了基本模型水平,代理商的情报水平继续出现。过去,代理商还必须依靠人们写快单词并进行工作流程,并告诉他们他们在第一步,第二步中的工作以及他们在第三步中所做的事情。当今的代理可以单独计划工作流程,并自行生成思想链。与两年前基于人造单词和工作流程的代理人相比,智能的水平得到了显着提高。人民的工作被撤回,AI变得更加自治。 “中国商人”:将来,在人为计算机的联系中,迅速单词不准确吗? Wei Kai:我记得当DeepSeek识别模型出现时,有一个特殊的教程说,用户不应该为销售词写作,如果不是,它将影响THe模型思维的独立过程。您不必关注今天的直接单词,直接的单词仍然非常重要。目前,该代理商已通过系统的迅速单词进行了精心设计。及时单词的写入越好,刺激模型的能力越完整,总体效果就越好。 “中国企业家”:面对大型模型时,大多数人真的不能问好问题,也不知道该问什么。 Wei Kai:在同一模型中,如果您给出好话和坏话,那么您得到的答案的水平与众不同。这是代理层或应用层公司的价值。 “中国企业家”:未来模式是否会继续改善当前代理商的企业家空间? Wei Kai:技术说话,大型模型是操作系统,而代理是一种应用程序。从功能上讲,代理就像是数字员工。将来,各种代理c上班将逐渐改变,所有人都可能有很多代理商,一些救生员和一些工作助理。 “中国企业家”:如果我们根据这种逻辑扣除,那么将来的“一人一公司”或超级个人也可以。魏凯:未来是可能的。代理商将成为数字员工,与数字员工合作时,能力将越来越强大。因此,将来,AI用户可能几乎拥有无限的数字员工,因此成为超级个人,并且有人可能“成千上万的部队”。从这个意义上讲,人类公司不是梦想。 “中国商人”:现在每个人都在谈论新入口的战斗。 Wei Kai:没有公司有明显的好处,现在处于银河系中。每个人都想接受它。手机操作系统制造商,一些智能硬件公司,超级应用程序制造商和新兴初创公司都希望获得用户的入口。 “中国企业家”:是GENT产品当前很友好?将来会改变吗?魏凯:还早。代理可能不是产品。用户可以构建一个 - 一个,但是操作非常可溶。将来,代理商将拥有一个很棒的市场,许多代理商涵盖了许多业务运营。因此,代理可能不是产品,Ofunit是许多功能的集合,但是代理商的开发平台可能是少数。 “中国企业家”:未来基本模型 +应用的模式是什么? Wei Kai:这可能是一个单数的基本模型,然后将其与垂直行业或非常成熟的代理的某些应用程序平台相结合,以产生数字劳动力市场。 “中国商人”:名人公司拥有超级应用程序,例如奇米在月球黑暗的一面,有大量用户。它可以使模型的功能更好吗?魏凯:这是两件事。不需要。超级应用只会累积浅数据,并且大量用户数据不会在该应用中。这因此,如果一个过多的聊天机器人类型应用程序没有附加到其他深层应用程序操作上,那么很难对其自己的数据飞轮进行bumuo。被低估的Google“中国企业家”:Google模型功能现在正在维护中。 WEI KAI:包括媒体在内的各种国内行业都要关注大型语言模型和聊天机器人的AI应用的开发,并在某种程度上关注Google DeepMind领导的AI路线。 DeepMind布局研究和在蛋白质,材料,生物学,数学等领域开发的垂直专业模型在促进科学发展的发展方面具有重要意义。如果它是工业化的,它将对现实经济产生重大影响。因此,AI大型模型轨道无止境,语言和多模式模型只是一个分支。 AI可用于变革和研发,这可以加快TA变化的速度并需要引起高度关注。“中国企业家”:Google毁了吗? Wei Kai:外界肯定会放慢Google。 Google已经建立了变形金刚,MoE,蒸馏和其他技术,而Google的大型Gemini的排名始终是之前的,包括概念和基本技术,例如云和大数据。查看Google布局的方向,这是真正的高价值场景。您为什么说聊天机器人找不到场景?因为聊天是这样的,但是DeepMind的探索是不同的。它可以优化过程流程并发现新药和新材料,这对现实经济至关重要。也有一些国内公司计划部署这些领域,但是它们的总体实力仍然有些脆弱,因为这在这方面非常困难。如果规模法证明了规模法,则可能是建模的道路,因此今天已经出现了发展。现在,即使是DeepMind的创始人Hassabis也获得了Chemistr的诺贝尔奖是的,引起每个人的兴趣,该领域的技术门槛很高,失败的风险也很高,需要长期投资。 “中国商人”:哈佛大学的Li Feifei博士是世界模型,称该模型不能仅基于物理世界深处的Wikamam。 WEI KAI:当前的大型模型无法正确理解空间关系,它也无法掌握时间序列,原因,物理定律等。大型语言模型师师是语言的分布 - 改变并通过语言来理解世界,这是简短且不可靠的。为了使AI实现普遍的智能,还必须建立世界模型。 “中国企业家”:阿吉何时会来? Wei Kai:我同意Sam Altman(Openai的联合创始人)和其他AGI的观点。他们认为这个词不是很重要。我们只需要注意,AI今天比昨天做得更好,明天比以前更好今天。识别目标并收集数据任务更容易。人工智能可以快速取得突破,并且比其他人做得更好。例如,自主驾驶是一项可以轻松识别目标并因此编程的任务,而这些字段是第一个突破。如今,不同的行业正在寻找这样的领导场景。从图灵·图灵(Turing Turing)到“中国商人”基准中的新一代试验:当凌晨26年,红杉中国宣布推出新的AI基准测试Xbench。为什么基准测试很重要? Wei Kai:今天,人工智能是基于神经网络训练的,但神经网络是黑匣子。您永远不知道它有多么有效。像学生一样,如何了解他们的好坏,他们需要测试,每月测试,每周测试,期中考试,大学入学评论等。今天的人工智能也是如此。神经网络训练称为发生或产生,结果不确定,因为它本质上是黑色盒子。只有通过测试,我们才能确定它是否达到了其能力。基准是测量大型模型水平的领导者。因此,当公司的每个大型公司都发布了IS新模式时,它将提到一个测试结果以说明其产品性能;内政部,公司的研发人员还应查看审查结果,以决定何时完成培训。如果没有实现目标,则需要继续培训。应用程序开发人员需要尝试大型型号,该模型易于使用并且不容易使用。总的来说,基准测试(基准)是导致技术的指挥棒,因此任何可以指定基准的人是指方向,因为关于神经网络人工智能的最强大的事情是只要您设定目标,就可以知道并接近目标。 “中国企业家”:“艺术研究所中国信息与通信技术与通信技术与通信技术和通信技术和通信技术和通信技术和通信技术和通信技术和通信技术和通信技术和通信技术和通信技术和通信技术和通信技术和通信技术和技术通信技术WEI KAI:secooia Chine Xbench XBENCH XBENCH,例如,AI可以是办公室文员和客户服务运营商,而不是主要集中于主题测试问题的早期基准,例如输入审查Incollege的评论或完成测试水平(GPQA)。主题测试对学院很重要,但实际上并不代表真正的用户情况。 AI有能力完成任务。我们的“ Fangsheng”大型台面RK测试是针对行业应用的实际方向,目的是促进AI工作并增强实际经济的能力。中国企业家》:代理协助,如何做。 WEI KAI:首先,我们的问题包括主题检查问题,并且添加了垂直行业的大量问题。例如,他们可以理解运营商的问题,我们更专注于行业应用问题。其次,该模型的重大测试很容易愚弄。许多基准数据集都是开放资源,将其与某些培训数据集中的人混合在一起。如果大型模型做了这些问题,那么当然可以正确回答它们。今天,我们的许多问题不是开放的资源,而是内部开发的。今天,我们的数据库也相对较大,其中有七或八百万个数据。每次尝试时,我们都会提取约10,000或20,000个问题。测试后,这些问题无效。第三,我们已经标准化了测试程序。我们公开了它,并在蓝皮书中写了它,每个人都使用了它。我们还介绍了同行评审,因此每个人都可以选择它。 “中国商人”:任何可以指定基准的人都可以指定AI。 Wei Kai:从2020年到现在的大型模型的发展已经过去了5年。每个人都以一个目标向前迈进,并在测试中追逐高MA Marka。为什么中国和美国之间的差距变窄?因为所有目的都是相同的,所以目标是明确的,并且路线是明确的(扩展)。在AI的下半年,需要再次考虑这个目标。当前的大型模型着重于生成内容,并向用户提供大量信息,这也会引起过多的信息,但实际上并不能减少人们的工作量。在下一个阶段,流出输出信息,改善思想的深度以及增强使用能力是基本方向,以及诸如理解意图的能力离子,工作计划,深入研究和软件工程变得非常重要。根据标准和试验,我们将指导和促进大型模型以应对行业的实际需求,使主要问题具有高价值方案的主要问题,并提高人工智能的效率以增强真实经济的能力。这是我们在施工系统上“ Fangsheng”大型基准测试的大型模型的方向。 (负责编辑:Sun Dan)
电话
020-66888888