当前位置：首页> 科技资讯 >摩尔线程“夸娥智算集群KUAE”最新1.2版来袭：64K长文本处理无忧

摩尔线程“夸娥智算集群KUAE”最新1.2版来袭：64K长文本处理无忧

时间：2024-10-21 01:29:48

编辑：同欣资源网

阅读：5

近日消息，摩尔线程最新发布的“夸娥智算集群 KUAE”1.2版本，在软硬件集成优化方面迈出了重要一步，不仅实现了对64K长文本的支持，还纳入了LLaMA2全系列、百川、雅意、Qwen2、Mixtral（MoE 8x7B）等多种大模型，显著增强了其在人工智能和高性能计算领域的服务能力，为用户提供了更加强大和多元化的智能计算解决方案。

整理此次更新内容如下：

MFU 提升 10%，最高可达 55%

新版本使用千卡集群训练千亿模型，MFU 提升 10%。

稠密模型集群训练 MFU 最高达到 55%。

Flash Attention2 优化

通过集成最新的 MUSA SDK 平台与优化后的 Flash Attention2 技术，结合新版 Torch MUSA 和算子融合，提升了大模型训练的效率与资源利用率，缩短训练周期并降低了整体成本。

64K 长文本支持

新版本增强了对长文本大模型训练的支持，优化处理长文本理解和生成任务的能力，能够更好地应对文档摘要、文章写作等复杂语言处理任务。

支持混合专家模型 MoE

MCCL 通信库完成 All2All 优化，针对 muDNN 算子在不同形状下的矩阵运算进行优化，以更好地支持 MoE（Mixture of Experts）大模型的训练。

断点续训

进一步提升大模型训练的 Checkpoint 读写性能，写入时间小于 2 秒，提高训练效率。

优化 DeepSpeed

实现了基于摩尔线程 GPU 集群的 DeepSpeed 与 Ulysses 的适配和性能优化，强化长文本训练支持。

适配国内外多款大模型，在 Hugging Face 上支持训练和微调主要开源大模型。

稳定性提升

千卡集群软硬件进一步成熟，实现连续无故障训练 15 天。

新版本引入了 KUAE Aegis 可靠性功能，加强对 GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

可视化 / 可观测

引入 PerfSight 性能监控系统，可实时显示模型训练过程中的资源消耗与性能分析数据。

内置模型库中新增大模型

KUAE 内置模型库 Model Zoo 新增 LLaMA2 全系列大模型、百川、雅意、Qwen2、Mixtral（MoE 8x7B）等模型。

摩尔线程 AI 旗舰产品夸娥（KUAE）智算集群解决方案从当前的千卡级别扩展至万卡规模，具备万 P 级浮点运算能力。摩尔线程将开展三个万卡集群项目，分别为青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目。

摩尔线程OpenCV-MUSA开源新纪元：全面兼容cv::cuda接口，加速计算机视觉应用

9月20日消息，摩尔线程成功完成了其自主开发的统一系统架构MUSA与开源计算机视觉库OpenCV的融合工作，并正式推出了OpenCV-MUSA的开源项目，这一举措将进一步促进计算机视觉技术在多元平台上的应用与发展。

摩尔线程OpenCV-MUSA开源新纪元：全面兼容cv::cuda接口，加速计算机视觉应用

OpenCV 作为计算机视觉领域最重要的开源库之一，为图像和视频处理的开发者和研究人员提供了强大且灵活的工具。OpenCV 在自动驾驶、医疗影像、安防监控、机器人视觉、增强现实和图像识别等多个领域得到广泛应用。

在现有 OpenCV 代码的基础上，摩尔线程新增了 MUSA 设备后端，并为多个算法模块提供了 MUSA 加速支持，同时对编译脚本也进行了适配。

目前 OpenCV-MUSA 已支持包括 core、mudev、musaarithm、musawarping、musafeatures2d、musafilters、musaimgproc、musaobjdetect、musastereo、musabgsegm、photo、stitching、superres、videostab、xfeatures2d 在内的多个模块。

OpenCV-MUSA 支持绝大部分 cv::cuda 命名空间下的数据结构及 API，尤其是 OpenCV 中为 GPU 设计的核心图像数据结构 GpuMat。开发者只需将现有 C++ 代码中的命名空间 cv::cuda 替换为 cv::musa，即可在 MUSA 设备上实现相同的功能。

摩尔线程MooER模型开源：音频理解新纪元，摩耳大模型引领创新

近日，摩尔线程公司近期宣布了一项重大举措，开源其创新成果——MooER（摩耳）音频理解大模型。作为业内首个在国产全功能GPU上完成训练与推理的大型语音模型，MooER的发布凸显了摩尔线程在人工智能技术创新方面的前沿地位，为开源社区贡献了宝贵的资源，同时也展现了其在推进本土化GPU应用上的深厚积累。

摩尔线程MooER模型开源：音频理解新纪元，摩耳大模型引领创新

MooER大模型在摩尔线程夸娥（KUAE）智算平台上，仅用38小时便完成了5000小时音频数据和伪标签的训练。这一成就得益于公司自研的创新算法和高效计算资源的结合。MooER不仅支持中文和英文的语音识别，还具备中译英的语音翻译能力，在多个语音识别领域的测试集中展现出优异表现。特别在Covost2中译英测试集中，MooER-5K取得了25.2的BLEU分数，接近工业级效果。

摩尔线程AI团队开源了推理代码和5000小时数据训练的模型，并计划进一步开源训练代码和基于8万小时数据训练的模型。MooER的模型结构包括Encoder、Adapter和Decoder三个部分，使用开源的Paraformer语音编码器、Qwen2-7B-instruct大语言模型来初始化Encoder和LLM模块。

在技术对比中，MooER-5K在中文和英文测试集上的表现均优于其他开源模型。摩尔线程通过这一开源项目，为数据资源和计算资源有限的开发者提供了宝贵的参考和支持。

国产摩尔线程MTT S50显卡登场：精巧单槽设计，配备8GB显存，规格紧随S80脚步

8月1日消息，摩尔线程官方宣布，MTT S50显卡的试用申请已在其官方网站正式启动。此次发布不仅开放了申请渠道，还首度公开了该显卡的外观设计与详细性能参数，吸引众多硬件爱好者和专业人士的关注。

国产摩尔线程MTT S50显卡登场：精巧单槽设计，配备8GB显存，规格紧随S80脚步

该显卡为单槽厚度，长和高分别为 264.4mm 和 126.6mm，采用了涡轮散热设计，官网显示定位“数字办公”产品。

摩尔线程 MTT S50 采用第一代 MUSA 架构，拥有 2048 个可编程 MUSA 核心，单精度浮点算力最高 5.2 TFLOPS，配备 8GB 显存，位宽为 256-bit，整卡功耗为 85W。

此外，该卡配有 1 个 HDMI 2.0 接口、2 个 DP 1.4 接口，支持 H.264、H.265、AV1 多路高清视频编解码，最高 8K 分辨率显示，还全面支持 DirectX、Vulkan 、OpenGL 和 OpenGL ES 等图形 API。

摩尔线程官网介绍称，在《英雄联盟》1080P 分辨率及最高画质设定下，MTT S50 能够为玩家提供“稳定性能表现”。同时，MTT S50 还能够在 Linux 平台上，为《反恐精英：全球攻势》、《刀塔 2》等多款热门游戏爱好者带来“流畅操作体验”。

AI 方面，MTT S50 提供对 DBNet、CRNN、Yolo、Restnet50 / 101 等主流 AI 模型，及对 PyTorch、TensorFlow、PaddlePaddle 框架的支持。

系统兼容性方面，MTT S50 显卡兼容 x86、Arm、LoongArch 等多种 CPU 架构，以及国产 Linux、国际 Linux、Windows 操作系统发行版。

从规格来看，MTT S50 的 MUSA 核心数和显存容量均为 MTT S80 的一半。早在 2022 年，闲鱼出现了一款 MTT S50 型号，卖家称该卡性能对标 GTX 1660。

本文导航

摩尔线程

热点文章