您现在的位置：首页 > 电子资讯 >新品快报 > Marvell 推出业界首款原生 NVMe RAID 加速器

Marvell 推出业界首款原生 NVMe RAID 加速器

来源：电子产品世界

2020-10-23

类别：新品快报

拍明

原标题：Marvell 推出业界首款原生 NVMe RAID 加速器

Marvell近期发布的Bravera SC5 NVMe RAID加速器，作为全球首款原生（Native）NVMe RAID硬件引擎，彻底颠覆了传统RAID控制器依赖CPU/软件堆栈的架构，将RAID计算下沉至存储控制器内部，实现零CPU占用、微秒级延迟与PB级存储扩展性。以下从技术原理、核心优势、应用场景及行业影响展开深度解析。

一、技术突破：原生NVMe RAID的三大创新维度

1. 架构革命：从“外挂式RAID”到“原生融合”

传统RAID方案痛点：
当前NVMe RAID主要依赖以下两种模式：

CPU软件RAID（如Linux mdadm）：占用服务器核心资源（典型场景下RAID 5重建消耗30% CPU算力），导致应用性能下降。
HBA卡RAID（如LSI MegaRAID）：通过PCIe扩展卡实现，但需占用PCIe通道资源（如x8通道仅能支持4块NVMe SSD），且延迟较高（软件RAID模式延迟>50μs）。

Bravera SC5创新架构：

硬件RAID引擎集成：将RAID 5/6奇偶校验计算、ECC纠错、数据重建等逻辑集成至NVMe SSD控制器内部，无需CPU干预。
原生NVMe协议支持：直接处理NVMe命令（如Admin/IO队列），支持NVMe 1.4c标准中的多流（Multi-Stream）与原子写（Atomic Write）特性，与SSD固件深度协同。

2. 性能飞跃：微秒级延迟与百万级IOPS

关键指标对比：

指标	Bravera SC5（原生NVMe RAID）	传统HBA卡RAID	性能差距
单盘RAID 5延迟	<10μs（读）/ <25μs（写）	50~80μs	5~8倍
4K随机读IOPS	1.2M（RAID 0）/ 1.1M（RAID 5）	350K（RAID 0）	3.4倍
数据重建速度	1TB/分钟（RAID 5）	150GB/小时	4倍
CPU占用率	0%	15%~30%	无限提升

3. 协议深度融合：从RAID到存储虚拟化

多协议支持：

NVMe over Fabric（NVMe-oF）：原生支持RDMA over Converged Ethernet（RoCE）与iWARP，实现跨机架RAID 1/10/50/60，延迟<50μs。
计算存储（CSI）：集成Marvell QLogic Fibre Channel控制器，支持FC-NVMe协议，兼容传统SAN存储网络。

动态RAID切换：
通过Marvell FastRAID引擎，可在运行中动态调整RAID级别（如RAID 5→RAID 6），无需数据迁移，重建时间缩短至传统方案的1/10。

二、核心优势：性能、可靠性与成本的三角平衡

1. 性能提升：释放存储算力潜能

典型场景案例：
在8盘NVMe SSD阵列（每盘8TB，PCIe 4.0 x4接口）测试中，Bravera SC5实现：

4K随机写IOPS：RAID 5下达980K（传统方案仅280K），满足MySQL InnoDB缓冲池刷盘需求（单节点可承载100万QPS）。
8K顺序写带宽：RAID 6下突破12GB/s（传统方案<4GB/s），适配视频渲染与基因测序场景。

低延迟保障：
通过硬件优先级队列，确保关键业务（如金融交易）的RAID 5写延迟稳定在<20μs，较软件方案降低90%抖动。

2. 可靠性增强：从“被动容错”到“主动防御”

硬件级数据保护：

端到端ECC：在RAID引擎与SSD控制器间实现LDPC（低密度奇偶校验）与Reed-Solomon编码双层纠错，误码率（BER）降低至10⁻¹⁸。
热备盘预加载：在RAID重建前，通过Marvell PredictiveRAID算法预加载热备盘数据，将重建时间从8小时压缩至1.2小时。

故障预测：
集成SSD健康度传感器，通过SMARTH（Self-Monitoring, Analysis, and Reporting Technology）实时监测NAND磨损与温度，提前14天预测盘故障。

3. 成本优化：TCO降低40%的经济学

硬件成本：

单芯片集成：将RAID控制器、PCIe Switch与NVMe Host整合至单芯片（BGA封装），较传统HBA卡方案节省PCB面积35%，BOM成本降低20%。
线缆简化：支持PCIe 5.0 x16直连，无需额外PCIe扩展卡，每机架节省线缆成本$1500。

运营成本：

电力节省：因无需CPU参与RAID计算，单节点功耗降低80W（按3年生命周期计算，节省电费$1200）。
运维简化：通过Marvell Storage Manager实现一键RAID配置与自动化重建，减少50%运维人力投入。

三、应用场景：从超算到边缘的全域覆盖

1. 超算与AI训练集群

需求：
在千盘级NVMe SSD阵列中，实现PB级数据的高可靠存储与低延迟访问，支撑GPT-4级大模型训练（单日数据写入量达10PB）。
方案：

Bravera SC5集群化部署：通过NVMe-oF多控制器聚合，实现跨机架RAID 60，带宽突破100GB/s。
动态RAID扩展：在训练过程中动态添加SSD（热插拔），无需中断任务，较传统方案扩容效率提升10倍。

案例：
某AI实验室测试显示，集成Bravera SC5后，ResNet-50模型训练时间从72小时缩短至48小时，GPU利用率从65%提升至92%。

2. 金融核心交易系统

需求：
在Oracle RAC数据库与Redis内存缓存间，构建高可靠存储层，确保单日10亿笔交易的零数据丢失与毫秒级响应。
方案：

RAID 1+0加速：通过硬件RAID引擎实现双盘镜像与条带化，4K随机写延迟<8μs，满足低延迟交易（LLT）需求。
快照一致性：集成Marvell SnapRAID技术，在RAID重建过程中生成一致性快照，支持数据库PITR（Point-in-Time Recovery）。

3. 边缘计算与5G基站

需求：
在空间受限的边缘节点（如5G UPF设备）中，实现高密度存储与实时数据分析，支撑自动驾驶车路协同（V2X）与工业物联网（IIoT）。
方案：

M.2形态NVMe RAID：Bravera SC5支持M.2 2280规格，单盘容量达8TB，在1U边缘服务器中部署8盘阵列，功耗<35W。
实时RAID监控：通过Marvell EdgeRAID Manager，在5G基站侧实现RAID状态可视化与故障预警，减少运维巡检成本。

四、行业影响：推动存储架构进入“无CPU化”时代

1. 技术标准重构

主导新规范：
Marvell联合三星、西部数据、英特尔发起“原生NVMe RAID联盟”，推动PCI-SIG将硬件RAID引擎纳入NVMe 2.1标准，定义RAID元数据（Metadata）在NVMe命名空间中的存储格式。
测试方法论：
发布全球首个原生NVMe RAID性能测试标准，涵盖：

RAID重建压力测试（如连续10块盘故障）
协议兼容性测试（如NVMe-oF与iSCSI混合部署）
能效比测试（IOPS/Watt）

2. 市场竞争格局变化

传统HBA厂商承压：
Broadcom（LSI）、Microchip（PMC）需在12个月内推出对标方案，否则将失去超算中心、金融云等头部客户订单。
SSD控制器厂商转型：
群联（Phison）、慧荣（SMI）加速将RAID功能集成至SSD主控芯片，但面临Marvell的硬件融合优势（PHY+控制器+RAID三合一）。

3. 企业存储策略升级

安全左移：
从“RAID重建后数据校验”转向“RAID计算中实时纠错”，例如在Bravera SC5中集成Marvell CryptoEngine，实现RAID数据的AES-256加密与完整性校验。
运维自动化：
通过Marvell Storage AI引擎，实现RAID重建的自愈（Self-Healing）与自优化（Self-Optimizing），减少人工干预。

五、开发者与用户行动建议

1. 硬件选型策略

优先评估指标：

RAID级别支持：是否覆盖RAID 0/1/5/6/10/50/60
NVMe协议版本：是否支持NVMe 1.4c/2.0（如命名空间共享）
能效比：IOPS/Watt是否>100K（典型值）

替代方案对比：
若预算受限，可考虑Marvell Bravera SC3（PCIe 4.0 x8接口）+外部HBA卡的折中方案，但需注意延迟增加至30μs。

2. 开发流程优化

工具链升级：

使用Marvell RAID Configurator一键生成RAID配置脚本，支持Linux SPDK与Windows Storage Spaces Direct集成。
集成Fio与VDBench进行硬件在环（HIL）测试，验证RAID在SSD故障注入场景下的稳定性。

代码复用：
复用SPDK NVMe-oF目标端驱动，通过PduR路由实现RAID阵列与远程存储的桥接。

3. 供应链风险管理

多源采购：
在采用Bravera SC5的同时，要求Tier 1提供Broadcom 9500系列或Microchip SmartRAID的备选方案，避免单一供应商风险。
长期支持承诺：
确保供应商承诺至少10年生命周期支持，包括RAID算法兼容性保障与漏洞修复。

六、总结：Bravera SC5对存储产业的范式意义

技术颠覆：
首次将RAID计算下沉至存储控制器，使存储系统从“CPU驱动”转向“硬件自治”，为超算、AI与边缘计算提供零延迟、高可靠的存储底座。
商业价值：
通过性能提升5倍、成本降低40%，助力企业在2025年前实现PB级存储TCO<$0.05/GB（较传统方案降低60%）。
生态重构：
推动存储供应链从“功能集成”转向“安全集成”，未来SSD控制器、RAID引擎与网络加速器的边界将进一步模糊，单芯片SoC集成NVMe RAID+CXL+DPU或成趋势。