时间:2024-10-21 01:29:48
编辑:同欣资源网
阅读:5
近日消息,摩尔线程最新发布的“夸娥智算集群 KUAE”1.2版本,在软硬件集成优化方面迈出了重要一步,不仅实现了对64K长文本的支持,还纳入了LLaMA2全系列、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等多种大模型,显著增强了其在人工智能和高性能计算领域的服务能力,为用户提供了更加强大和多元化的智能计算解决方案。
整理此次更新内容如下:
MFU 提升 10%,最高可达 55%
新版本使用千卡集群训练千亿模型,MFU 提升 10%。
稠密模型集群训练 MFU 最高达到 55%。
Flash Attention2 优化
通过集成最新的 MUSA SDK 平台与优化后的 Flash Attention2 技术,结合新版 Torch MUSA 和算子融合,提升了大模型训练的效率与资源利用率,缩短训练周期并降低了整体成本。
64K 长文本支持
新版本增强了对长文本大模型训练的支持,优化处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。
支持混合专家模型 MoE
MCCL 通信库完成 All2All 优化,针对 muDNN 算子在不同形状下的矩阵运算进行优化,以更好地支持 MoE(Mixture of Experts)大模型的训练。
断点续训
进一步提升大模型训练的 Checkpoint 读写性能,写入时间小于 2 秒,提高训练效率。
优化 DeepSpeed
实现了基于摩尔线程 GPU 集群的 DeepSpeed 与 Ulysses 的适配和性能优化,强化长文本训练支持。
适配国内外多款大模型,在 Hugging Face 上支持训练和微调主要开源大模型。
稳定性提升
千卡集群软硬件进一步成熟,实现连续无故障训练 15 天。
新版本引入了 KUAE Aegis 可靠性功能,加强对 GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。
可视化 / 可观测
引入 PerfSight 性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据。
内置模型库中新增大模型
KUAE 内置模型库 Model Zoo 新增 LLaMA2 全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。
摩尔线程 AI 旗舰产品夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模,具备万 P 级浮点运算能力。摩尔线程将开展三个万卡集群项目,分别为青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目。
9月20日消息,摩尔线程成功完成了其自主开发的统一系统架构MUSA与开源计算机视觉库OpenCV的融合工作,并正式推出了OpenCV-MUSA的开源项目,这一举措将进一步促进计算机视觉技术在多元平台上的应用与发展。
OpenCV 作为计算机视觉领域最重要的开源库之一,为图像和视频处理的开发者和研究人员提供了强大且灵活的工具。OpenCV 在自动驾驶、医疗影像、安防监控、机器人视觉、增强现实和图像识别等多个领域得到广泛应用。
在现有 OpenCV 代码的基础上,摩尔线程新增了 MUSA 设备后端,并为多个算法模块提供了 MUSA 加速支持,同时对编译脚本也进行了适配。
目前 OpenCV-MUSA 已支持包括 core、mudev、musaarithm、musawarping、musafeatures2d、musafilters、musaimgproc、musaobjdetect、musastereo、musabgsegm、photo、stitching、superres、videostab、xfeatures2d 在内的多个模块。
OpenCV-MUSA 支持绝大部分 cv::cuda 命名空间下的数据结构及 API,尤其是 OpenCV 中为 GPU 设计的核心图像数据结构 GpuMat。开发者只需将现有 C++ 代码中的命名空间 cv::cuda 替换为 cv::musa,即可在 MUSA 设备上实现相同的功能。
近日,摩尔线程公司近期宣布了一项重大举措,开源其创新成果——MooER(摩耳)音频理解大模型。作为业内首个在国产全功能GPU上完成训练与推理的大型语音模型,MooER的发布凸显了摩尔线程在人工智能技术创新方面的前沿地位,为开源社区贡献了宝贵的资源,同时也展现了其在推进本土化GPU应用上的深厚积累。
MooER大模型在摩尔线程夸娥(KUAE)智算平台上,仅用38小时便完成了5000小时音频数据和伪标签的训练。这一成就得益于公司自研的创新算法和高效计算资源的结合。MooER不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力,在多个语音识别领域的测试集中展现出优异表现。特别在Covost2中译英测试集中,MooER-5K取得了25.2的BLEU分数,接近工业级效果。
摩尔线程AI团队开源了推理代码和5000小时数据训练的模型,并计划进一步开源训练代码和基于8万小时数据训练的模型。MooER的模型结构包括Encoder、Adapter和Decoder三个部分,使用开源的Paraformer语音编码器、Qwen2-7B-instruct大语言模型来初始化Encoder和LLM模块。
在技术对比中,MooER-5K在中文和英文测试集上的表现均优于其他开源模型。摩尔线程通过这一开源项目,为数据资源和计算资源有限的开发者提供了宝贵的参考和支持。
8月1日消息,摩尔线程官方宣布,MTT S50显卡的试用申请已在其官方网站正式启动。此次发布不仅开放了申请渠道,还首度公开了该显卡的外观设计与详细性能参数,吸引众多硬件爱好者和专业人士的关注。
该显卡为单槽厚度,长和高分别为 264.4mm 和 126.6mm,采用了涡轮散热设计,官网显示定位“数字办公”产品。
摩尔线程 MTT S50 采用第一代 MUSA 架构,拥有 2048 个可编程 MUSA 核心,单精度浮点算力最高 5.2 TFLOPS,配备 8GB 显存,位宽为 256-bit,整卡功耗为 85W。
此外,该卡配有 1 个 HDMI 2.0 接口、2 个 DP 1.4 接口,支持 H.264、H.265、AV1 多路高清视频编解码,最高 8K 分辨率显示,还全面支持 DirectX、Vulkan 、OpenGL 和 OpenGL ES 等图形 API。
摩尔线程官网介绍称,在《英雄联盟》1080P 分辨率及最高画质设定下,MTT S50 能够为玩家提供“稳定性能表现”。同时,MTT S50 还能够在 Linux 平台上,为《反恐精英:全球攻势》、《刀塔 2》等多款热门游戏爱好者带来“流畅操作体验”。
AI 方面,MTT S50 提供对 DBNet、CRNN、Yolo、Restnet50 / 101 等主流 AI 模型,及对 PyTorch、TensorFlow、PaddlePaddle 框架的支持。
系统兼容性方面,MTT S50 显卡兼容 x86、Arm、LoongArch 等多种 CPU 架构,以及国产 Linux、国际 Linux、Windows 操作系统发行版。
从规格来看,MTT S50 的 MUSA 核心数和显存容量均为 MTT S80 的一半。早在 2022 年,闲鱼出现了一款 MTT S50 型号,卖家称该卡性能对标 GTX 1660。
摩尔线程携手识因智能,成功适配“一叶轻舟”多模态大模型
AMD揭秘“Strix Halo”Zen 5 APU:RDNA 3.5图形核心,307平方毫米Die尺寸
雅达利发布7英寸安卓掌机Game Station Portable,内置超200款经典复古游戏畅玩体验
【独家:最新款《机械革命极光 Pro 笔记本》亮相,RTX4060 显卡+英特尔 i7-12650H 强势登场】
阅读:111
阅读:9
阅读:37
角色扮演99MB
2025-03-18
棋牌扑克264.64MB
棋牌扑克0KB
2025-03-17
角色扮演7.60MB
趣味益智80.37MB
冒险闯关42.57MB
社交通讯52.46MB
其他0KB
亲子教育9.53MB
新闻资讯12.30MB
社交通讯83.88MB
辅助应用9MB
联系方式:tongxinyuesaocom@163.com
版权所有2023 tongxinyuesao.com AII版权所有备案号 渝ICP备20008086号-37
摩尔线程“夸娥智算集群KUAE”最新1.2版来袭:64K长文本处理无忧
时间:2024-10-21 01:29:48
编辑:同欣资源网
阅读:5
近日消息,摩尔线程最新发布的“夸娥智算集群 KUAE”1.2版本,在软硬件集成优化方面迈出了重要一步,不仅实现了对64K长文本的支持,还纳入了LLaMA2全系列、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等多种大模型,显著增强了其在人工智能和高性能计算领域的服务能力,为用户提供了更加强大和多元化的智能计算解决方案。
整理此次更新内容如下:
MFU 提升 10%,最高可达 55%
新版本使用千卡集群训练千亿模型,MFU 提升 10%。
稠密模型集群训练 MFU 最高达到 55%。
Flash Attention2 优化
通过集成最新的 MUSA SDK 平台与优化后的 Flash Attention2 技术,结合新版 Torch MUSA 和算子融合,提升了大模型训练的效率与资源利用率,缩短训练周期并降低了整体成本。
64K 长文本支持
新版本增强了对长文本大模型训练的支持,优化处理长文本理解和生成任务的能力,能够更好地应对文档摘要、文章写作等复杂语言处理任务。
支持混合专家模型 MoE
MCCL 通信库完成 All2All 优化,针对 muDNN 算子在不同形状下的矩阵运算进行优化,以更好地支持 MoE(Mixture of Experts)大模型的训练。
断点续训
进一步提升大模型训练的 Checkpoint 读写性能,写入时间小于 2 秒,提高训练效率。
优化 DeepSpeed
实现了基于摩尔线程 GPU 集群的 DeepSpeed 与 Ulysses 的适配和性能优化,强化长文本训练支持。
适配国内外多款大模型,在 Hugging Face 上支持训练和微调主要开源大模型。
稳定性提升
千卡集群软硬件进一步成熟,实现连续无故障训练 15 天。
新版本引入了 KUAE Aegis 可靠性功能,加强对 GPU、显存、集合通信等方面的监控、自动诊断与故障恢复能力。
可视化 / 可观测
引入 PerfSight 性能监控系统,可实时显示模型训练过程中的资源消耗与性能分析数据。
内置模型库中新增大模型
KUAE 内置模型库 Model Zoo 新增 LLaMA2 全系列大模型、百川、雅意、Qwen2、Mixtral(MoE 8x7B)等模型。
摩尔线程 AI 旗舰产品夸娥(KUAE)智算集群解决方案从当前的千卡级别扩展至万卡规模,具备万 P 级浮点运算能力。摩尔线程将开展三个万卡集群项目,分别为青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目。
摩尔线程OpenCV-MUSA开源新纪元:全面兼容cv::cuda接口,加速计算机视觉应用
9月20日消息,摩尔线程成功完成了其自主开发的统一系统架构MUSA与开源计算机视觉库OpenCV的融合工作,并正式推出了OpenCV-MUSA的开源项目,这一举措将进一步促进计算机视觉技术在多元平台上的应用与发展。
OpenCV 作为计算机视觉领域最重要的开源库之一,为图像和视频处理的开发者和研究人员提供了强大且灵活的工具。OpenCV 在自动驾驶、医疗影像、安防监控、机器人视觉、增强现实和图像识别等多个领域得到广泛应用。
在现有 OpenCV 代码的基础上,摩尔线程新增了 MUSA 设备后端,并为多个算法模块提供了 MUSA 加速支持,同时对编译脚本也进行了适配。
目前 OpenCV-MUSA 已支持包括 core、mudev、musaarithm、musawarping、musafeatures2d、musafilters、musaimgproc、musaobjdetect、musastereo、musabgsegm、photo、stitching、superres、videostab、xfeatures2d 在内的多个模块。
OpenCV-MUSA 支持绝大部分 cv::cuda 命名空间下的数据结构及 API,尤其是 OpenCV 中为 GPU 设计的核心图像数据结构 GpuMat。开发者只需将现有 C++ 代码中的命名空间 cv::cuda 替换为 cv::musa,即可在 MUSA 设备上实现相同的功能。
摩尔线程MooER模型开源:音频理解新纪元,摩耳大模型引领创新
近日,摩尔线程公司近期宣布了一项重大举措,开源其创新成果——MooER(摩耳)音频理解大模型。作为业内首个在国产全功能GPU上完成训练与推理的大型语音模型,MooER的发布凸显了摩尔线程在人工智能技术创新方面的前沿地位,为开源社区贡献了宝贵的资源,同时也展现了其在推进本土化GPU应用上的深厚积累。
MooER大模型在摩尔线程夸娥(KUAE)智算平台上,仅用38小时便完成了5000小时音频数据和伪标签的训练。这一成就得益于公司自研的创新算法和高效计算资源的结合。MooER不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力,在多个语音识别领域的测试集中展现出优异表现。特别在Covost2中译英测试集中,MooER-5K取得了25.2的BLEU分数,接近工业级效果。
摩尔线程AI团队开源了推理代码和5000小时数据训练的模型,并计划进一步开源训练代码和基于8万小时数据训练的模型。MooER的模型结构包括Encoder、Adapter和Decoder三个部分,使用开源的Paraformer语音编码器、Qwen2-7B-instruct大语言模型来初始化Encoder和LLM模块。
在技术对比中,MooER-5K在中文和英文测试集上的表现均优于其他开源模型。摩尔线程通过这一开源项目,为数据资源和计算资源有限的开发者提供了宝贵的参考和支持。
国产摩尔线程MTT S50显卡登场:精巧单槽设计,配备8GB显存,规格紧随S80脚步
8月1日消息,摩尔线程官方宣布,MTT S50显卡的试用申请已在其官方网站正式启动。此次发布不仅开放了申请渠道,还首度公开了该显卡的外观设计与详细性能参数,吸引众多硬件爱好者和专业人士的关注。
该显卡为单槽厚度,长和高分别为 264.4mm 和 126.6mm,采用了涡轮散热设计,官网显示定位“数字办公”产品。
摩尔线程 MTT S50 采用第一代 MUSA 架构,拥有 2048 个可编程 MUSA 核心,单精度浮点算力最高 5.2 TFLOPS,配备 8GB 显存,位宽为 256-bit,整卡功耗为 85W。
此外,该卡配有 1 个 HDMI 2.0 接口、2 个 DP 1.4 接口,支持 H.264、H.265、AV1 多路高清视频编解码,最高 8K 分辨率显示,还全面支持 DirectX、Vulkan 、OpenGL 和 OpenGL ES 等图形 API。
摩尔线程官网介绍称,在《英雄联盟》1080P 分辨率及最高画质设定下,MTT S50 能够为玩家提供“稳定性能表现”。同时,MTT S50 还能够在 Linux 平台上,为《反恐精英:全球攻势》、《刀塔 2》等多款热门游戏爱好者带来“流畅操作体验”。
AI 方面,MTT S50 提供对 DBNet、CRNN、Yolo、Restnet50 / 101 等主流 AI 模型,及对 PyTorch、TensorFlow、PaddlePaddle 框架的支持。
系统兼容性方面,MTT S50 显卡兼容 x86、Arm、LoongArch 等多种 CPU 架构,以及国产 Linux、国际 Linux、Windows 操作系统发行版。
从规格来看,MTT S50 的 MUSA 核心数和显存容量均为 MTT S80 的一半。早在 2022 年,闲鱼出现了一款 MTT S50 型号,卖家称该卡性能对标 GTX 1660。
摩尔线程携手识因智能,成功适配“一叶轻舟”多模态大模型
2024-10-26AMD揭秘“Strix Halo”Zen 5 APU:RDNA 3.5图形核心,307平方毫米Die尺寸
2024-08-22雅达利发布7英寸安卓掌机Game Station Portable,内置超200款经典复古游戏畅玩体验
2024-11-17【独家:最新款《机械革命极光 Pro 笔记本》亮相,RTX4060 显卡+英特尔 i7-12650H 强势登场】
2024-10-06阅读:111
阅读:5
阅读:9
阅读:37
阅读:5
角色扮演99MB
2025-03-18
棋牌扑克264.64MB
2025-03-18
棋牌扑克0KB
2025-03-17
角色扮演7.60MB
2025-03-17
趣味益智80.37MB
2025-03-17
冒险闯关42.57MB
2025-03-17
社交通讯52.46MB
2025-03-18
其他0KB
2025-03-18
亲子教育9.53MB
2025-03-18
新闻资讯12.30MB
2025-03-18
社交通讯83.88MB
2025-03-18
辅助应用9MB
2025-03-18