通往AGI之路：阶跃星辰的万亿参数与多模态融合策略-时空热线

登录邮箱：1527511756@qq.com

当前位置：时空热线 >> 科技>>正文内容

通往AGI之路：阶跃星辰的万亿参数与多模态融合策略

2024年07月05日来源：时空热线

随着大模型智能水平的飞速提升，科技界对于AGI(通用人工智能)即将在几年内实现的预测声浪日益高涨。然而，在通向AGI的道路上，有哪些因素是必不可少的呢?这一问题已成为产业内备受关注的焦点。

根据智东西7月4日的报道，在世界人工智能大会(WAIC)2024上，大模型领域的独角兽企业——阶跃星辰，正式发布了其Step系列模型的“全家桶”版本。这其中包括了万亿参数语言大模型Step-2、千亿参数多模态大模型Step-1.5V以及图像生成大模型Step-1X。这三款模型分别对应了Scaling Law(规模定律)、多模态理解和多模态生成，同时也体现了阶跃星辰对于实现AGI目标的判断，即万亿参数和多模态融合是关键。

从首次亮相到正式发布，Step系列模型在参数规模和多模态能力上取得了显著进展。具体而言，Step-2在数理逻辑、编程、世界知识和指令遵循等方面已达到与GPT-4相当的水平;Step-1.5V则从图像理解升级到了视频理解;而Step-1X则全面支持600M、2B和8B三种参数量，在多模态理解和生成的统一技术路线上实现了重要突破。

在阶跃星辰创始人姜大昕看来，要攀登AGI这座高峰，“万亿参数”和“多模态融合”是不可或缺的。他指出，在AI的发展阶段中，早期的语言、视觉、声音等不同模态是独立发展的，每个模型主要学习如何更好地表达各自模态的特点。如今，不同模态开始走向融合，但仍面临理解能力和生成能力难以同时实现的痛点。最终，生成和理解需要统一在一个模型中，并与具身智能相结合，使模型成为机器人或其他硬件设备的“大脑”，引领其探索并与世界交互，从而实现AGI。

因此，多模态理解和生成的统一是通往AGI的必由之路。另一方面，根据Scaling Law，模型的参数量决定了其能力上限，因此全面进入万亿参数级别，甚至达到十万亿、百万亿参数量，是通往AGI的另一个核心要素。

行业内第一梯队的大模型公司是如何做的呢?以OpenAI为例，其最新发布的GPT-4o模型全面加强了语音和视频交互能力，而“大力出奇迹”的暴力美学也是其屡试不爽的模型训练方式。这恰好印证了Scaling Law和多模态融合这两个关键点，与阶跃星辰所选择的路径不谋而合。

在今年3月首次推出Step系列通用大模型并发布预览版后，经过100天的打磨，阶跃星辰在WAIC上正式发布了Step系列模型的“全家桶”版本。其中，Step-2在数理逻辑、编程、世界知识和指令遵循等方面已达到与GPT-4相当的水平。

在算法架构方面，目前MoE模型的训练方式主要分为两种：基于已有模型向上复用训练或从头开始训练。第一种方式对算力需求较低，训练效率更高，但容易出现同质化严重等问题。相比之下，从头训练虽然更具挑战性，但能获得更高的模型上限。在设计MoE架构时，阶跃星辰选择了自主研发的道路。通过部分专家共享参数、异构化专家设计等架构设计，Step-2中的每个“专家模型”都得到了充分训练，不仅总参数量达到了万亿级别，而且每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。

有了万亿参数的模型作为“老师”，Step-1.5V的推理能力大幅提升，可以根据图像内容进行各种高级推理任务，如解答数学题、编写代码、创作诗歌等。同时，基于创新的图文混排训练方法，Step-1.5V的感知能力增强，能够理解复杂的图表、流程图，并准确感知物理空间中复杂的几何位置。另一个重要的升级点是视频理解能力，Step-1.5V不仅能准确识别视频中的物体、人物和环境，还能理解视频的整体氛围和人物情绪。

首次亮相的图像生成大模型Step-1X采用了全链路自研的DiT模型架构，支持600M、2B、8B三种不同的参数量，以满足不同场景的需求。其中，600M适合对速度敏感的轻量级场景;2B是适用于日常使用的主力模型，效果和速度达到平衡;而8B则追求更高、更极致的生成效果。Step-1X具备优秀的语义对齐能力和指令遵循能力，并针对中国元素进行了深度优化，支持中国元素和文化内容，同时更符合国人的审美风格。

基于这一系列模型的能力，在彩色动画长片《大闹天宫》发行60周年之际，阶跃星辰与上海美术电影制片厂合作推出了一款H5 AI互动体验。根据用户上传的个人照片，大模型会识别人物特征，并结合《大闹天宫》的画风和角色进行风格迁移，生成新的肖像。在交互过程中，用户可以与大模型生成的剧情进行交谈，系统将根据用户的选择和回答分析其MBTI人格，并在天庭为其安排一项适合其人格的差事。

值得一提的是，阶跃星辰的Step系列通用大模型凭借技术创新和广泛的应用落地，入选了WAIC 2024 SAIL(Super AI Leader)之星，这意味着阶跃星辰在技术和应用方面获得了业界的高度认可。

自成立以来，阶跃星辰就在算力、数据、算法和系统四大要素上综合布局，坚定地投入到Scaling Law中。姜大昕认为，模型和产品的关系就像是灵魂和皮囊，“好看的皮囊千篇一律，有趣的灵魂万里挑一。”阶跃星辰希望通过“有趣的灵魂”来展示其产品的不同之处。

因此，从成立的第一天起，阶跃星辰就开始同时开发模型和应用产品。应用作为牵引和数据补充，模型与应用深度绑定，通过双轮驱动将两者都做到极致。在应用落地的过程中，仅仅依靠一家公司自身存在局限性，需要不同公司之间的生态合作才能促进技术的创新和发展，加速技术的落地应用，推动整个行业的持续进步。

通过自有产品和生态合作产品的结合，阶跃星辰积极探索了大模型的落地应用。在自有产品方面，阶跃星辰已发布了效率工具“跃问”和AI开放世界平台“冒泡鸭”两款自研产品，并已全面开放使用。其中，“跃问”作为一款个人效率助手，能够基于联网搜索、代码分析增强(POT)等能力，为用户提供信息查询、语言学习、创意写作、图文解读等多样化服务，帮助用户在工作、学习、生活等场景下解决问题。

在生态合作产品方面，阶跃星辰在内容创作、金融财经、消费娱乐等领域与合作伙伴达成了深度合作，共同发掘面向C端用户的创新应用。例如，在WAIC亮相的《大闹天宫》就是阶跃星辰与上海电影共同推出的一款AI互动体验产品，将先进的AI大模型技术与《大闹天宫》的情境深度融合，用当代全新的视角领略中国传统文化的魅力，回顾经典动画作品的艺术成就，同时也为创作者打开了更多想象空间。

在金融财经领域，阶跃星辰联合国泰君安和界面财联社推出了业内首家千亿级参数多模态证券垂直类大模型——君弘灵犀大模型。这是业内首个将大模型能力全面融入客户智能化服务体系中的案例，在智能投顾问答、投研内容生产和交互模式上为客户带来了新的体验。

从模型到应用，对AGI的追求始终贯穿着阶跃星辰的战略布局。通过构建开放、合作的生态系统，阶跃星辰正在推动AI技术的广泛应用和行业的共同发展。

在大模型领域“百花齐放”的背景下，越来越多的大厂高管投身于生成式AI创业，成为该赛道的主力军。据智东西统计，2023年至今，至少有25位大厂高管已投身生成式AI创业。这些创业公司所选择的细分赛道各不相同，涵盖了通用大模型、垂直大模型、生成式AI应用、AI基础设施、AI数据服务和AI咨询等全产业链环节。

其中，阶跃星辰作为一家模型与产品双管齐下的创业公司，始终用行动践行着对AGI的终极追求。Step系列通用大模型和多样化的自有、合作产品是阶跃星辰在通往AGI之路上交出的最新答卷，“万亿+多模”也将成为大模型企业格局的分水岭。

责任编辑：杜烽