侵权投诉

绕开CPU和内存,你浏览的内容或来自SSD的推荐

E4Life ? 2021-12-01 09:26 ? 次阅读
绕开CPU和内存,你浏览的内容或来自SSD的推荐

相信不少人都还记得今年AI芯片公司Esperanto发布的千核RISC-V处理器ET-SoC-1,随着这款7nm的芯片于第二季度成功流片返回后,Esperanto得以在芯片上运行代码,以及尝试新的应用方向,其中之一就是AI-SSD。在近期举办的三星Foundry活动上,Esperanto公开了自己AI-SSD的概念模型。

个性化推荐系统的挑战

在我们刷短视频、听歌和浏览社交网络时,一部分内容来自于我们已经关注的用户,但绝大多数来自于推荐系统的推送。推荐系统的准确程度很大程度决定了软件的用户体验,也是如今互联网经济系统的命脉。但这类推荐也往往是服务器上消耗最大的AI处理负载,优化推荐系统可以提高推荐系统的速度,减少在服务器上的成本。

DLRM深度学习推荐模型 / Meta

谈到推荐系统就不得不谈到嵌入,嵌入是当下推荐系统中关键的组成部分。尽管每家都有着不同的推荐模型,但或多或少都是采用查找嵌入表的方法来实现分类特征的处理。在这个过程中,嵌入表存储在DRAM中,而CPU对嵌入表进行操作,这就对内存带宽和内存容量提出了双重挑战。

在内存带宽上,像美团和腾讯等厂商纷纷采用多GPU加速的方式,充分利用GPU的带宽,但这种方式依然需要多个GPU或多个服务器的支持才能解决容量问题。固然厂商也可以选择像HBM这种大带宽的内存方案,但带来的成本提升也是巨大的。

根据Meta给出的说法,在Facebook社交网站的个性化推荐系统中,大规模的嵌入表可达到百万行以上,导致推荐模型的大小达到10GB左右,一个神经推荐模型中所有嵌入表甚至需要TB级别以上的空间。比如Meta旗下的Instagram已经在开发10TB的推荐模型,而百度的广告排名模型也达到了10TB。这种级别的容量需求对硬盘来说或许足够,但对于内存来说过于奢侈了。

因此为了解决容量问题,不少人也提出了SSD的存储解决方案,目前传统的SSD虽然可以毫不费力地存储下大规模推荐系统,但读取延迟和带宽都要更差一筹,从而显著降低推理的性能。

专为推荐而生的SSD

Esperanto与三星合作开发出了一种AI-SSD的概念模型,来研究将所有嵌入表处理全部移到SSD内部会有怎么样的影响,从而省去推荐系统中经过CPU和DRAM的环节。三星展示了使用Esperanto的ET-SoC-1芯片与其PM9A3 SSD结合的成果。

在AI-SSD中,所有嵌入表都被存储在SSD里,CPU负责所有的用户数据输入和深度神经网络,而SSD内部的ET-SoC-1负责嵌入表的查询和交互运算。此外由于选择了这种存内计算的方式,最小化了PCIe链路上的数据传输,降低了读写的高延迟,最终的分类数据直接交给CPU生成推荐结果。

AI-SSD带宽性能测试结果 / Esperanto

测试环节中,Esperanto选用了Meta的开源推荐模型DLRM,将AI-SSD与传统的CPU-SSD方式进行对比。在不同的模型配置下,AI-SSD实现了10到100倍的读取带宽提升,而且带宽随着使用核心数的上升还能继续线性提升。

要知道在这次测试中,Esperanto最多只用到了四个子节点(Minion Shire),每个节点只有32个核心。而一整个ET-SoC-1有34个子节点1088颗核心,如果所有计算单元全部用于SSD的话,提升幅度将达到数百倍以上,十分适合数据中心级别的SSD产品。而ET-SoC-1的扩展性也可以让它缩减核心数,用于一些边缘端的推荐系统。

拿计算换空间

不过即便用上了AI-SSD,这也是一种增加硬件成本的路线,除了不差钱的大公司会利用这种产品外,一些小的互联网应用可能并不会直接选择更换SSD的方式,如此一来,也就只有继续优化推荐模型一途。

佐治亚理工学院和Meta的研究院为DLRM提出了一种张量训练压缩的方式,名为TT-Rec。该方法通过将嵌入表分为多个小矩阵相乘的方式进行压缩,进一步降低嵌入表的大小,不过这多出来的计算是肯定躲不掉的额外消耗,好在其评估结果足够优秀。

在Kaggle和Terabyte数据集的测试训练下,TT-Rec分别将数据从2.16GB和12.57GB压缩至18.36MB和0.11GB,整体的大小压缩均在百倍以上,甚至可以做到几乎没有精度损失。而多出来的运算则反映到了训练时间上,分别增加了14.3%和13.9%。因此在实际使用中,必须对内存容量、模型精度和训练时间做出一定的取舍。

小结

尽管从推荐系统配置的角度来说,仍有不少可选的解决方案,但存算一体方面的研究已经全面铺开了。存储市场正在迅速与计算市场发生重叠,像三星、西数和希捷等存储厂商纷纷开始了这块的布局,传统的冯诺依曼架构也将被近数据处理替代。
收藏 人收藏
分享:

评论

求|咪乐|直播地址   飞机离最近的旧金山也有两个小时的路程,在降落旧金山之前,吴小波将患者身体放平,给他盖上了衣服保持体温,并将飞机上的简易氧气筒拿来对患者进行吸氧治疗。

相关推荐

国内首创!商汤科技携手赛诺菲打造实体器官移植术后风险预测系统

借助商汤智慧医疗AI技术,在中国国际进口博览会赛诺菲展台以及第三届赛诺菲“DREAM AND GO ....
发表于 12-01 15:38 ? 44次 阅读
国内首创!商汤科技携手赛诺菲打造实体器官移植术后风险预测系统

AI换脸的新用途,让人们充满了正能量

这两年一说到ai换脸,因为大多需要上传照片,不仅因为视频可能侵权,还涉及人脸隐私收集,几乎是臭名昭著....
的头像 火花 发表于 12-01 15:23 ? 113次 阅读
AI换脸的新用途,让人们充满了正能量

Zillow“炒房”失败,算法神话破灭了吗?

新冠时代,裁员、失业在全球范围内都是高频事件,我们似乎早就已经习惯了各种黑天鹅消息。不过美国地产平台....
的头像 脑极体 发表于 12-01 08:50 ? 196次 阅读
Zillow“炒房”失败,算法神话破灭了吗?

NVIDIA AI Enterprise 助力研究人员、医院攻克癌症

NVIDIA AI Enterprise 为在虚拟化基础设施上托管各种医疗健康和运营应用程序的组织简....
发表于 11-30 15:16 ? 228次 阅读
NVIDIA AI Enterprise 助力研究人员、医院攻克癌症

利用FLARE进行联邦学习:NVIDIA 将协作式AI带入医疗健康及其他领域

提供 NVIDIA FLARE 的源代码可为科研人员和平台开发者带来更多工具来定制其联邦学习解决方案....
发表于 11-30 15:13 ? 211次 阅读
利用FLARE进行联邦学习:NVIDIA 将协作式AI带入医疗健康及其他领域

旷视软硬一体化产品和解决方案推动数字经济和实体经济融合发展

首届中国网络文明大会在京开幕。中共中央总书记、国家主席、中央军委主席习近平向大会发来贺信,贺信中强调....
的头像 旷视MEGVII 发表于 11-30 14:36 ? 494次 阅读

海康威视AI开放平台的AI智能算法助力地铁运维智能化

为了进一步提升检修管理水平,海康威视针对地铁车库和地铁机房的检修场景,结合多种物联感知设备,通过海康....
的头像 海康威视 发表于 11-30 14:25 ? 428次 阅读

LeapMind发布超低功耗AI推理加速器IP“Efficiera v2版本”

Efficiera v2根据v1的使用记录和市场评测,扩大了应用范围,在保持最小配置的电路规模基础上....
发表于 11-30 14:21 ? 133次 阅读
LeapMind发布超低功耗AI推理加速器IP“Efficiera v2版本”

Samsung BESPOKE系列护理机:拥有更好的护衣方式

十一月份,天气突然转冷,关于厚衣服的护理洁净也就成为了网友们讨论的热门话题。羽绒服、棉衣等冬衣的洗护....
发表于 11-30 11:07 ? 12次 阅读
Samsung BESPOKE系列护理机:拥有更好的护衣方式

搭载NVIDIA Jetson Xavier NX的AI边缘计算终端FCU3001

如果您正从事人工智能边缘计算的项目开发,那么NVIDIA推出的Jetson Xavier NX平台绝....
发表于 11-30 10:52 ? 391次 阅读
搭载NVIDIA Jetson Xavier NX的AI边缘计算终端FCU3001

在打造全屋智能的产业链条中,为什么需要离线语音芯片?

智能家居不断升温,全屋智能作为终极想象,画面越来越清晰:集智能照明、安防、影音、家电控制于一体的整体....
的头像 高抚成 发表于 11-30 10:27 ? 11次 阅读
在打造全屋智能的产业链条中,为什么需要离线语音芯片?

企业决策智能项目的五种失败姿势

2021即将迎来最后一个月份。每到这时,关于未来的技术趋势预测总会见诸报端。前不久,Gartner公....
的头像 脑极体 发表于 11-30 08:38 ? 327次 阅读

新品发布 | 高算力“小魔盒”— AI边缘计算终端FCU3001来了

//高算力“小魔盒”如果您正从事人工智能边缘计算的项目开发,那么NVIDIA推出的JetsonXav....
的头像 栾新科 发表于 11-29 17:26 ? 25次 阅读
新品发布 | 高算力“小魔盒”— AI边缘计算终端FCU3001来了

科华数据驱动金融数据中心巡检进入「无人之境」

科华数据参编《数据中心巡检机器人应用技术白皮书》发布。 25日,由中数智慧信息技术研究院及行业设计院....
发表于 11-29 16:54 ? 8次 阅读
科华数据驱动金融数据中心巡检进入「无人之境」

活动预告 | 类脑技术如何开启下一代人工智能?

类脑智能,被视为人工智能的终极目标,随着第三次人工智能浪潮席卷而来,下一代人工智能即将开启。世界主要....
发表于 11-29 14:57 ? 92次 阅读
活动预告 | 类脑技术如何开启下一代人工智能?

超多游戏集中上线,你的盘还放得下吗?

今年年底这两个月,可以说是压轴3A游戏大作的集中发售期,至少有四五款非常值得一玩的3A游戏在等着玩家....
发表于 11-26 17:45 ? 24次 阅读
超多游戏集中上线,你的盘还放得下吗?

智算时代AI性能需求6年增长30万倍存储怎么办

/作者:浪潮信息首席架构师 叶毓睿 智算时代的序幕已经拉开,互联的万物,一切皆计算。智慧计算融入到千....
的头像 浪潮存储 发表于 11-26 14:52 ? 909次 阅读

边缘AI“金矿”:PC的智能和感知,Lattice sensAI有了新方案

电子发烧友网报道(文/黄晶晶)ABI研究数据表明,预计到2024年设备端的AI推理功能将覆盖近60%....
的头像 芯链 发表于 11-26 10:14 ? 606次 阅读
边缘AI“金矿”:PC的智能和感知,Lattice sensAI有了新方案

PCIe 4.0 SSD尚未起飞,就要迎战速度翻倍的5.0

PCIe 4.0 SSD 尚未起飞,就要迎战速度翻倍的5.0 ? 不久前,存储厂商才纷纷投入PCIe....
的头像 E4Life 发表于 11-25 09:33 ? 1959次 阅读
PCIe 4.0 SSD尚未起飞,就要迎战速度翻倍的5.0

风口上的低代码的这些变化与趋势 低代码还需要解决哪些问题?

在企业服务领域,今年低代码的概念非常火爆,最直观的感受是,从前这类分享都是几十人讨论的小沙龙。今年各....
的头像 脑极体 发表于 11-25 08:46 ? 769次 阅读

创略科技获7100万元B轮融资,饿了么、沃尔玛均是客户

11月16日创络(上海)数据科技有限公司(简称“创略科技”)正式宣布已完成7100万元B轮融资,本轮....
发表于 11-24 15:02 ? 20次 阅读
创略科技获7100万元B轮融资,饿了么、沃尔玛均是客户

全新版本莱迪思sensAI解决方案集合加速下一代客户端

与使用CPU来驱动AI应用的设备相比,采用sensAI开发,并在莱迪思FPGA上运行的AI计算设备的....
发表于 11-24 14:18 ? 590次 阅读

一知智能助力开发区数字强“治能” 争当排头兵

一知智能作为本土数字化改革实践地的先进高新技术企业,以业内领军的人机交互实力见长,充分发挥以首席科学....
的头像 话说科技 发表于 11-24 10:17 ? 775次 阅读

美光携手联发科率先完成 LPDDR5X 验证

美光科技今日宣布,MediaTek Inc. ( 联发科技 ) 已在其全新的 5G 旗舰智能手机芯片....
发表于 11-24 10:12 ? 1361次 阅读
美光携手联发科率先完成 LPDDR5X 验证

华为 告别大陆军时代

2010年,解放军提出建设强大的现代化新型陆军。其核心是摆脱长期“独立作战、包打天下”形成的意识,放....
的头像 脑极体 发表于 11-24 08:45 ? 1756次 阅读

雷军 1994 年写的诗一样的代码,我把它运行起来了!

点击上方“五分钟学算法”,选择“星标”公众号重磅干货,第一时间送达这是一段古董代码了,因为在1994....
发表于 11-23 18:06 ? 4次 阅读
雷军 1994 年写的诗一样的代码,我把它运行起来了!

雷军1994年写的诗一样的代码,我把它运行起来了!

Python实战社群Java实战社群长按识别下方二维码,按需求添加扫码关注添加客服进Python社群....
发表于 11-23 18:06 ? 14次 阅读
雷军1994年写的诗一样的代码,我把它运行起来了!

研华发布AIR-020超紧凑型AI智能推理系统搭载NVIDIA Jetson系列核心模块

研华科技宣布推出 AIR-020 系列人工智能推理系统,这是一款搭载NVIDIA Jetson 系列....
发表于 11-23 11:30 ? 1249次 阅读
研华发布AIR-020超紧凑型AI智能推理系统搭载NVIDIA Jetson系列核心模块

安捷数科与Graphcore携手,使用IPU进行气象预测、精准灌溉和防灾减灾

安捷数科与Graphcore的初期合作是基于IPU上ET0模型的科学计算项目,双方的技术团队使用了气....
的头像 西西 发表于 11-23 10:46 ? 1063次 阅读
安捷数科与Graphcore携手,使用IPU进行气象预测、精准灌溉和防灾减灾

三星宣布芯和半导体成为其SAFE EDA合作伙伴

据芯和官网报道, 在2021年5月,芯和半导体片上无源电磁场(EM)仿真套件已成功通过三星晶圆厂的8....
发表于 11-23 09:25 ? 516次 阅读
三星宣布芯和半导体成为其SAFE EDA合作伙伴

AI技术在气候问题面前是否能够大展身手

2021年是极端天气频繁的一年,美加的长时间高温、多国遭遇洪水,龙卷风登陆了中国内陆,让人不得不重视....
的头像 脑极体 发表于 11-22 21:47 ? 605次 阅读
AI技术在气候问题面前是否能够大展身手

大华物联数智平台服务千行百业数智化升级

大华企业平台3.0,以业务为导向打造具备行业Know-How的数智中台,面向企业私有云和公有云全覆盖....
的头像 大华股份 发表于 11-22 15:05 ? 1108次 阅读

三款PCIe3.0固态硬盘横评:谁的实际性能使用更佳?

随着各家存储品牌逐渐推出自己的PCIe4.0固态硬盘,给予玩家的选择越来越多。但如果是要搭配PCIe....
的头像 话说科技 发表于 11-22 14:48 ? 370次 阅读
三款PCIe3.0固态硬盘横评:谁的实际性能使用更佳?

AI助力,商汤科技联手上海电信打造云端医疗服务规模化发展新增长极

根据合作协议,商汤科技SenseCare?智慧诊疗平台将通过上海电信云网融合和5G专网为广大医疗机构....
发表于 11-22 14:17 ? 547次 阅读
AI助力,商汤科技联手上海电信打造云端医疗服务规模化发展新增长极

大华C970 PRO系列固态硬盘震撼上市,速度超7GB/s

近日,大华股份旗下子公司大华存储宣布即将推出一款支持PCIe Gen4.0 x4 的M.2 NVMe....
发表于 11-22 13:13 ? 32次 阅读
大华C970 PRO系列固态硬盘震撼上市,速度超7GB/s

NVIDIA赢得四项最新行业指标

在五项新的行业指标中,NVIDIA 赢得了其中的四项。这些指标聚焦于AI在高性能计算中的应用,是一种....
的头像 NVIDIA英伟达 发表于 11-21 10:57 ? 499次 阅读

华为芯片基础平台HUAWEI HiAI Foundation助力开发者高效灵活开发

自2017年麒麟970发布至今,端侧AI经历了开创先河到产业快速发展的巨变。一方面,麒麟芯片的AI性....
的头像 华为麒麟 发表于 11-20 15:33 ? 1312次 阅读

曙光提供计算能力支撑驱动医疗AI从实验走向应用

据悉,一项基于机器学习的大型死亡率研究,根据超声心动图结合电子病历数据预测患者生存率的准确性可达到9....
的头像 中科曙光 发表于 11-20 15:20 ? 2103次 阅读

清华大学发布元宇宙计划

近日,清华大学正式启动了“元宇宙特别计划”,计划将以AI定制和控制结合在一起,依托艺科元宇宙的资源优....
的头像 lhl545545 发表于 11-20 10:07 ? 741次 阅读

首创主动式智能场景 艾拉物联开创未来空间智能

传统的智能家居是一个个设备的组合,却接口壁垒重重,无法实现生态共享、协议互通,这是目前存在大量智能产....
的头像 鹰眼 发表于 11-19 14:46 ? 260次 阅读

摩尔线程与一流科技携手共同加速人工智能创新和应用

摩尔线程与北京一流科技有限公司(简称:一流科技)将展开深度技术合作,基于摩尔线程国产全功能GPU强大....
的头像 互联网科技 发表于 11-19 11:02 ? 230次 阅读

低代码+AI 新享科技帮企业解决信息化痛点

深秋的上海,气候宜人,由上海合见工业软件集团公司主办的产品发布会在黄浦江畔世博园区新办公区隆重召开,....
发表于 11-19 11:01 ? 41次 阅读
低代码+AI 新享科技帮企业解决信息化痛点

教你实现用Python自动玩王者荣耀

「王者荣耀」想必大家就算没有玩过,也都听过。 腾讯 AI Lab 开发的策略协作型“绝悟”,最强 A....
的头像 Linux爱好者 发表于 11-19 10:49 ? 333次 阅读
教你实现用Python自动玩王者荣耀

迎接医药物流数智化浪潮,用AI乘风破浪

随着两票制及带量采购等政策的深入,医药流通企业的成本压力不断上升;智慧物流已成为国家点名的促内循环抓....
的头像 旷视MEGVII 发表于 11-19 09:46 ? 322次 阅读

旷视助力廊坊构建疫情防控有力屏障

2021 年秋冬以来,国内疫情多有反复,甚至出现散点的规模性传播,不断变异的毒株能力与严峻的国际防疫....
的头像 旷视MEGVII 发表于 11-19 09:40 ? 439次 阅读

人工智能新力量,意法半导体Deep Edge AI 应运而生

 借助内置的低功耗传感器设计、高级AI事件检测、唤醒逻辑和实时边缘计算功能,传感器中的MLC极大地减....
发表于 11-18 11:22 ? 2357次 阅读
人工智能新力量,意法半导体Deep Edge AI 应运而生

NVIDIA高性能AI计算和高级算法助力解决停车难题

高性能 AI 计算和高级算法助力解决停车难题。 无论是侧方、垂直还是倾斜停车,都可能是结束驾驶时的一....
的头像 NVIDIA英伟达企业解决方案 发表于 11-18 09:59 ? 345次 阅读

多所大学采用NVIDIA系统和网络拓展研究工作

美国南方卫理公会大学使用 NVIDIA DGX SuperPOD 推动德克萨斯州北部地区进入 AI ....
的头像 NVIDIA英伟达企业解决方案 发表于 11-18 09:45 ? 317次 阅读

NVIDIA高性能AI计算和高级算法助力解决停车难题

高性能 AI 计算和高级算法助力解决停车难题。 无论是侧方、垂直还是倾斜停车,都可能是结束驾驶时的一....
的头像 NVIDIA英伟达 发表于 11-18 09:28 ? 236次 阅读

Atos和NVIDIA宣布成立卓越人工智能实验室

全新卓越人工智能实验室将借助高性能计算和AI,大规模解决科学难题 Atos和NVIDIA宣布成立卓越....
的头像 NVIDIA英伟达 发表于 11-18 09:19 ? 346次 阅读

DCPMM的相关资料推荐

Intel Optane DC Persistent Memory Module (PMM)持久内存英特尔已经公开讨论了一年多的Optane DC Persistent Me...
发表于 11-17 08:03 ? 0次 阅读

开放通道SSD有何作用

开放通道SSD是什么意思? 开放通道SSD有何作用? ...
发表于 11-09 06:27 ? 0次 阅读

使用M1芯片的MacBook带来的最大改变是什么

使用M1芯片的MacBook带来的最大改变是什么?有哪些好处?...
发表于 10-21 07:50 ? 202次 阅读

基于NAND的SSD是由哪些部分组成的

SSD是什么? 基于NAND的SSD是由哪些部分组成的?...
发表于 10-19 08:07 ? 0次 阅读

SSD与HDD的区别

存储市场上一直存在固态硬盘(SSD)和机械硬盘(HDD)的竞争。论综合性能,SSD远高于HDD,是大家选购存储设备时的理想选...
发表于 09-13 08:24 ? 0次 阅读

SSD固态硬盘坏掉前有什么征兆呢

随着SSD的流行,如今很多用户的电脑都用上了速度更快的固态硬盘。现在问题来了,固态硬盘容易坏吗?SSD固态硬盘坏掉前有什...
发表于 09-08 07:18 ? 0次 阅读

DMA往SSD中传输数据

我这里有一块ZXCU9eg的zynq板卡,想做一个将AD模块输出数据传输到SSD硬盘里的一个工程,由于刚接触到LINUX,很多东...
发表于 09-07 18:44 ? 606次 阅读

SSD组成主要部件是什么?主控、闪存及固件算法三者有什么关系?

SSD组成主要部件是什么? 主控、闪存及固件算法三者有什么关系? 对SLC、MLC及TLC闪存怎么理解呢? ...
发表于 06-18 08:47 ? 202次 阅读

内存参数具体代表着哪些作用?对应实际应用中会有哪些具体表现

内存测试数据怎么看? Seq连续读写性能是什么?有什么含义? Ran随机读写性能是什么?有什么含义? ...
发表于 06-18 07:59 ? 101次 阅读

关于emmc和固态硬盘SSD,这一篇讲透了

emmc和固态硬盘SSD有什么区别? emmc的特点是什么? 固态硬盘SSD有什么特点? ...
发表于 06-18 07:24 ? 505次 阅读
百度