20年后重返独显战场!深度分析英特尔Xe GPU战略


20年后重返独显战场!深度分析英特尔Xe GPU战略文章插图
芯东西(公众号:aichip001)
编译 | 林卓玮
编辑 | 江心白
芯东西12月15日消息 , 近日 , EETimes对英特尔的显卡战略和发展前景进行了梳理分析 。
【20年后重返独显战场!深度分析英特尔Xe GPU战略】在他们看来 , 英特尔新发的Xe架构是为开发更多全场景适配显卡做铺垫 。 同时 , 英特尔近日发行的独立显卡“DG1”弥补了英特尔的技术短板 , 并将在市场上获得一定反响 。
英特尔在发布两款Xe GPU后 , 成功跻身独立显卡制造商行列 。 然而 , “参与”和“引领”之间有很大的区别 。 从休闲玩家的笔记本电脑到高端游戏台式机 , 从入门级安卓游戏硬件到超级计算机 , 英特尔的显卡战略几乎无所不包 。 很显然 , 英特尔想成为显卡领域的领导者 , 但是英特尔真的可以吗?
过去 , 计算机显卡主要有两种用途:游戏和专业可视化(ProViz) 。 游戏硬件包括街机、游戏机和个人电脑 。 ProViz硬件主要用于计算机辅助设计(CAD)、数字内容创建(DCC)、医学成像和各种视觉模拟需求 。 在2005年后 , GPU逐渐应用于各类高性能计算(HPC)应用 。
如今 , 计算机显卡的应用场景不再局限于游戏、ProViz或HPC , 但随着新应用场景的出现 , 适配问题愈发凸显 。 比如 , 高并行的GPU能为人工智能、深度学习(DL)/机器学习( ML)应用程序提供支持 , 但往往需要在传统的游戏和ProViz数据格式之外 , 获取额外的数据格式支持 。 云端游戏显卡和服务器端图形渲染应用专为游戏打造 , 但是这类显卡并非数据中心的最佳选择 。
若想成为显卡领跑者 , 英特尔必须开发全系列的显卡 , 涵盖传统用途、HPC和新兴应用场景 。 而这项任务的艰巨性无需多言 。
近几个月 , 英特尔终于推出了近20年来第一款独立显卡 , 同时透露了更多的显卡战略细节 。 我们现在就来领略一下英特尔的雄图大略 , 同时听取专家的分析意见 。
一、英特尔Xe架构:高度平行、用途多样三年前 , 英特尔再次投身独立显卡研发 , 邀请业界大牛Raja Koduri加入英特尔 , 成立核心和视觉计算小组(Core and Visual Computing Group)来专攻独立显卡 。
当时 , 英特尔明确表示 , 将以客户端、数据中心和高性能计算细分领域为服务对象 , 更好地处理人工智能、图形处理(游戏、模拟、ProViz、AR/VR等)、机器学习等高性能需求任务 。
为此 , 英特尔曾尝试推出代号为“Larrabee”的多核处理器 。 按照设想 , 这款显卡能够在满足图像处理需求的同时 , 承担高性能计算负载 。 然而 , 由于英特尔执意想采用x86架构 , 这次尝试最终失败了 。
Koduri掌舵后 , 英特尔开始研发高度平行架构“Xe” , Xe架构能够适应不同的工作负载需要 , 算力在TFLOPS(每秒万亿次的浮点运算)到ExaFLOPS(每秒百亿亿次的浮点运算)区间不等 , 具有较强的场景适应性 。
截至目前 , 英特尔已推出Xe-LP低功耗系列 , 用于集成核显、入门级独显 。 在未来几年 , 英特尔还计划发布三套Xe GPU架构 , 以满足不同工作负载需要 。
此外 , 为了确保Xe GPU(以及AI加速器、GPU、FPGA等)简单可用 , 英特尔面向软件开发团队推出了oneAPI工具包(统一编程模型)以及零级接口规范(仅针对AI、GPU、FPGA产品) 。
二、Xe-LP:96个EU , 内存带宽提高2倍!近20年来 , 英特尔尽管缺席独显市场 , 却一直活跃在集成显卡领域 , 针对低价、低能耗的电脑推出了Gen架构 。
Gen架构能够很好地适用于轻量级任务 , 但并不适用于数据中心等高性能要求任务 。 为此 , 英特尔推出了全新的Xe架构 。
针对入门级产品 , 英特尔推出了Xe-LP , 主要用于集成核显、入门级独显 。
和去年推出的Gen 11架构一样 , 英特尔Xe-LP架构也能全面支持DirectX 12_1 API 。 此外 , 新架构带来了明显的性能优势 , 借助英特尔10nm Superfin制程工艺实现了更高的频率潜力(最高可达1.7GHz , 上一代仅为1.1GHz) 。
20年后重返独显战场!深度分析英特尔Xe GPU战略文章插图
英特尔Xe-LP iGPU率先应用于第11代酷睿处理器“Tiger Lake” 。 Xe-LP iGPU的顶配版本具有96个执行单元(EU) , 运行速度可达1536 FP16 FLOPS/clock , 每周期Texel纹理、Pixel像素渲染能力也从32、16提升到48、24 。
内存子系统经改进 , 具有新的L1 Data Cache(数据高速缓存)、16 MB L3 Cache , 同时支持端到端压缩及新的Ringbus互连技术 , 与上一代产品相比 , 可将带宽提高2倍 。