当前位置: 首页> 科技资讯 >摩尔线程“夸娥智算集群KUAE”最新1.2版来袭:64K长文本处理无忧

摩尔线程“夸娥智算集群KUAE”最新1.2版来袭:64K长文本处理无忧

时间:2024-10-21 01:29:48

编辑:同欣资源网

阅读:5

近日消息,摩尔线程最新发布的“夸娥智算集群 KUAE”1.2版本,在软硬件集成优化方面迈出了重要一步,不仅实现了对64K长文本的支持,还纳入了LLaMA2全系列、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等多种大模型,显著增强了其在人工智能和高性能计算领域的服务能力,为用户提供了更加强大和多元化的智能计算解决方案。

摩尔线程“夸娥智算集群KUAE”最新1.2版来袭:64K长文本处理无忧

整理此次更新内容如下:

MFU 提升 10%,最高可达 55%

新版本使用千卡集群训练千亿模型,MFU 提升 10%。

稠密模型集群训练 MFU 最高达到 55%。

Flash Attention2 优化

通过集成最新的 MUSA SDK 平台与优化后的 Flash Attention2 技术,结合新版 Torch MUSA 和算子融合,提升了大模型训练的效率与资源利用率,缩短训练周期并降低了整体成本。

64K 长文本支持

新版本增强了对长文本大模型训练的支持,优化处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。

支持混合专家模型 MoE

MCCL 通信库完成 All2All 优化,针对 muDNN 算子在不同形状下的矩阵运算进行优化,以更好地支持 MoE(Mixture of Experts)大模型的训练。

断点续训

进一步提升大模型训练的 Checkpoint 读写性能,写入时间小于 2 秒,提高训练效率。

优化 DeepSpeed

实现了基于摩尔线程 GPU 集群的 DeepSpeed 与 Ulysses 的适配和性能优化,强化长文本训练支持。

适配国内外多款大模型,在 Hugging Face 上支持训练和微调主要开源大模型。

稳定性提升

千卡集群软硬件进一步成熟,实现连续无故障训练 15 天。

新版本引入了 KUAE Aegis 可靠性功能,加强对 GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。

可视化 / 可观测

引入 PerfSight 性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据。

内置模型库中新增大模型

KUAE 内置模型库 Model Zoo 新增 LLaMA2 全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。

摩尔线程 AI 旗舰产品夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模,具备万 P 级浮点运算能力。摩尔线程将开展三个万卡集群项目,分别为青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目。

摩尔线程OpenCV-MUSA开源新纪元:全面兼容cv::cuda接口,加速计算机视觉应用

9月20日消息,摩尔线程成功完成了其自主开发的统一系统架构MUSA与开源计算机视觉库OpenCV的融合工作,并正式推出了OpenCV-MUSA的开源项目,这一举措将进一步促进计算机视觉技术在多元平台上的应用与发展。

摩尔线程OpenCV-MUSA开源新纪元:全面兼容cv::cuda接口,加速计算机视觉应用

OpenCV 作为计算机视觉领域最重要的开源库之一,为图像和视频处理的开发者和研究人员提供了强大且灵活的工具。OpenCV 在自动驾驶、医疗影像、安防监控、机器人视觉、增强现实和图像识别等多个领域得到广泛应用。

在现有 OpenCV 代码的基础上,摩尔线程新增了 MUSA 设备后端,并为多个算法模块提供了 MUSA 加速支持,同时对编译脚本也进行了适配。

目前 OpenCV-MUSA 已支持包括 core、mudev、musaarithm、musawarping、musafeatures2d、musafilters、musaimgproc、musaobjdetect、musastereo、musabgsegm、photo、stitching、superres、videostab、xfeatures2d 在内的多个模块。

OpenCV-MUSA 支持绝大部分 cv::cuda 命名空间下的数据结构及 API,尤其是 OpenCV 中为 GPU 设计的核心图像数据结构 GpuMat。开发者只需将现有 C++ 代码中的命名空间 cv::cuda 替换为 cv::musa,即可在 MUSA 设备上实现相同的功能。

摩尔线程MooER模型开源:音频理解新纪元,摩耳大模型引领创新

近日,摩尔线程公司近期宣布了一项重大举措,开源其创新成果——MooER(摩耳)音频理解大模型。作为业内首个在国产全功能GPU上完成训练与推理的大型语音模型,MooER的发布凸显了摩尔线程在人工智能技术创新方面的前沿地位,为开源社区贡献了宝贵的资源,同时也展现了其在推进本土化GPU应用上的深厚积累。

摩尔线程MooER模型开源:音频理解新纪元,摩耳大模型引领创新

MooER大模型在摩尔线程夸娥(KUAE)智算平台上,仅用38小时便完成了5000小时音频数据和伪标签的训练。这一成就得益于公司自研的创新算法和高效计算资源的结合。MooER不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力,在多个语音识别领域的测试集中展现出优异表现。特别在Covost2中译英测试集中,MooER-5K取得了25.2的BLEU分数,接近工业级效果。

摩尔线程AI团队开源了推理代码和5000小时数据训练的模型,并计划进一步开源训练代码和基于8万小时数据训练的模型。MooER的模型结构包括Encoder、Adapter和Decoder三个部分,使用开源的Paraformer语音编码器、Qwen2-7B-instruct大语言模型来初始化Encoder和LLM模块。

在技术对比中,MooER-5K在中文和英文测试集上的表现均优于其他开源模型。摩尔线程通过这一开源项目,为数据资源和计算资源有限的开发者提供了宝贵的参考和支持。

国产摩尔线程MTT S50显卡登场:精巧单槽设计,配备8GB显存,规格紧随S80脚步

8月1日消息,摩尔线程官方宣布,MTT S50显卡的试用申请已在其官方网站正式启动。此次发布不仅开放了申请渠道,还首度公开了该显卡的外观设计与详细性能参数,吸引众多硬件爱好者和专业人士的关注。

国产摩尔线程MTT S50显卡登场:精巧单槽设计,配备8GB显存,规格紧随S80脚步

该显卡为单槽厚度,长和高分别为 264.4mm 和 126.6mm,采用了涡轮散热设计,官网显示定位“数字办公”产品。

摩尔线程 MTT S50 采用第一代 MUSA 架构,拥有 2048 个可编程 MUSA 核心,单精度浮点算力最高 5.2 TFLOPS,配备 8GB 显存,位宽为 256-bit,整卡功耗为 85W。

此外,该卡配有 1 个 HDMI 2.0 接口、2 个 DP 1.4 接口,支持 H.264、H.265、AV1 多路高清视频编解码,最高 8K 分辨率显示,还全面支持 DirectX、Vulkan 、OpenGL 和 OpenGL ES 等图形 API。

摩尔线程官网介绍称,在《英雄联盟》1080P 分辨率及最高画质设定下,MTT S50 能够为玩家提供“稳定性能表现”。同时,MTT S50 还能够在 Linux 平台上,为《反恐精英:全球攻势》、《刀塔 2》等多款热门游戏爱好者带来“流畅操作体验”。

AI 方面,MTT S50 提供对 DBNet、CRNN、Yolo、Restnet50 / 101 等主流 AI 模型,及对 PyTorch、TensorFlow、PaddlePaddle 框架的支持。

系统兼容性方面,MTT S50 显卡兼容 x86、Arm、LoongArch 等多种 CPU 架构,以及国产 Linux、国际 Linux、Windows 操作系统发行版。

从规格来看,MTT S50 的 MUSA 核心数和显存容量均为 MTT S80 的一半。早在 2022 年,闲鱼出现了一款 MTT S50 型号,卖家称该卡性能对标 GTX 1660。

本文导航
最新上架

联系方式:tongxinyuesaocom@163.com

版权所有2023 tongxinyuesao.com AII版权所有备案号 渝ICP备20008086号-37