爱Q生活网 - 专注网赚,赚钱,创业,项目,副业- 关注最新QQ活动动态,掌握QQ第一资讯

查看: 7|回复: 0

百亿文件不卡顿?YRCloudFile元数据技术揭秘

[复制链接]

4万

主题

0

回帖

13万

积分

论坛元老

Rank: 8Rank: 8

积分
139191
发表于 2025-10-2 12:50 | 显示全部楼层 |阅读模式
上周QCon大会上,焱融科技CTO张文涛聊的那事儿,说真话,戳中了很多AI圈儿的痛处,现在搞深度进修,数据就是地基,算力就是策动机。可练习模子就像熬粥,得频频加料搅拌,这时辰计较和存储之间的“递勺子”速度就出格关键。

你看Meta的数据,两年内存储容量翻了一倍,吞吐才能涨到本来的近四倍,咱国内有个客户更夸张,2022年到2024年,数据量每年猛增60T,要晓得2020年到2022年每年才涨20T。这数据爆炸式增加,间接致使一个题目:IO速度跟不上,GPU算力再强也得“干瞪眼”。就像你开车加了98号油,成果遇上堵车,油门踩到底也跑不起来。
AI练习这事儿,从数据收集到推理,每个环节都跟存储较劲,数据处置的时辰要兼容各类协议,练习的时辰又得对付海量小文件,推理时还得盯着KVCache的提早。最头疼的是海量小文件,打个例如,存1亿个小文件就像往抽屉里塞1亿张纸条,找起来麻烦不说,抽屉还轻易卡住,这实在是元数据性能在拖后腿。

YRCloudFile的妙招:先把性能拉满,再琢磨怎样省钱张文涛他们团队想的招儿挺成心机,他人做存储先想着压本钱,他们反其道而行之,先把性能做到极致,再琢磨怎样省钱。就像买车先追求百千米加速,再斟酌油耗。
他们家的YRCloudFile有个焦点设想:文件建立的时辰就把存储位置“钉死”,这样拜候数据时不用频频查元数据,就像你记熟了回家的路,闭着眼都能走。再配上Multi-Channel技术,把网卡带宽聚合起来,单节点吞吐才能间接翻倍。还有NUMA亲和性优化,避免内存拜候“绕远路”,AMD平台上这招能把带宽提升近四成。

对于海量小文件,YRCloudFile用了DentryHash架构,把目录和文件均匀散布在各个元数据节点上。更绝的是弱化POSIX语义,比如翻开文件这事,传统做法像走烦琐的审批流程,他们改成“刷脸快速通道”,性能一会儿提升10倍以上。跟CephFS比起来,一样存10亿文件,CephFS的性能衰减得利害,YRCloudFile却危如累卵。
省钱这块儿,他们玩起了“智能分层”,把常用的数据放高速存储层,不常用的扔到工具存储冷层。有个生物医药企业用了这招,把90天没碰的数据挪到冷层,本钱间接降了三成,而且需要用的时辰,10分钟就能把数据“搬”回热层,不迟误GPU干活。

从练习到推理:这存储计划把AI全流程放置大白了YRCloudFile在AI练习和推理场景里,表示都挺“抗打”,练习时支持GPUDirectStorage,削减数据搬运环节,搭配400Gb的高速收集,有客户用3个节点就撑起500台GPU办事器,IO期待时候从2小时紧缩到20分钟。
推理阶段更成心机,他们优化了KVCache,用存储来“偷”算力,举个例子,长高低文场景下,用了YRCloudFile后,提早降了13倍。高并发时高低文越长上风越明显,当高低文到10240时,吞吐量比原生存划高了近一半。这就比如图书馆治理员把常用的书都放在手边,你找书的速度自然快。

还有个DataInsight功用,简直是常识库的“搜索引擎”,某金融机构用它治理百亿条行业律例,秒级就能检索到成果,数据流转效力提升80%。现在这存储计划能支持200多个全闪节点,带宽接近10TBps,TCP客户端能接10万个,不管你是自动驾驶还是生物医药,数据量再大也能hold住。
最初说说未来计划,他们筹算上EC纠删码技术,还用QLCSSD提升存储密度,今后单TB本钱估计再降三成。再把工作负载扔给DPU处置,给GPU办事器“减负”。你看,这存储计划不但处理了当下的痛点,还在为未来的大模子提早铺路,究竟在AI这行,存储跟得上,算力才能真正“放飞自我”。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|爱Q生活网 - 专注网赚,赚钱,创业,项目,副业- 关注最新QQ活动动态,掌握QQ第一资讯  

GMT+8, 2025-10-3 05:06 , Processed in 1.069043 second(s), 27 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表