深度学习领域围绕着如何改进 Transformer 架构的讨论从未停歇。此前,许多研究者试图寻找能够完全替代 Transformer ...
点击上方“Deephub Imba”,关注公众号,好文章不错过 !DeepSeekMoE是一种创新的大规模语言模型架构,通过整合专家混合系统(Mixture of Experts, ...
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@ ...
近日,一篇由澳洲悉尼大学团队牵头完成的论文在 X 上引起关注,该校的博士生孙艺菲(Yifei Sun,音)是论文第一作者。 图 | Yifei Sun(来源:LinkedIn) 基于人类连接组计划的功能性磁共振成像数据,他们使用 Transformer 预测了人脑静息状态(human brain resting ...
它可利用GPU中的Tensor Core,通过AI完成游戏中的光线追踪,并渲染具有复杂几何形状的场景,可以用高保真度渲染出复杂的开放世界,同时减少伪影、不稳定性并降低VRAM使用。
自2017年推出以来,Transformer模型架构一直是人工智能的基础要素,推动了自然语言处理、机器翻译等领域的进步。不过,该模型在可扩展性、计算效率以及应对日益复杂任务等方面,仍面临着诸多挑战。而Titans模型架构的诞生,旨在通过整合受人类认知 ...
继公布全模态模型家族后,时隔5个月,MiniMax再亮相两大模型,且模型权重完全开源。而且与GPT-4o和Claude-3.5-Sonnet性能平起平坐,尤其在上下文窗口方面表现出色,处理能力甚至达到其他顶尖模型的 20 - 32倍。
Mamba架构最新进展:仅需1%计算量,新模型性能达SOTA。 能做到这一点,还多亏了Transformer。 通过将Transformer模型中的知识有效迁移到Mamba等替代架构中 ...
原子表示对于构建可靠和可转移的机器学习模型至关重要。在此,作者提出了基于变压器的通用原子嵌入来提高晶体性质的预测精度。
北京时间1月7日, 英伟达 在 CES 2025发布了备受期待的GeForce RTX 50系列显卡,首发产品包括RTX 5090(D)、RTX 5080、RTX 5070Ti和RTX 5070四个型号。GeForce RTX ...
现有的架构,如Hopfield网络、LSTM和Transformer会带来了二次方的时间和内存复杂度,限制了模型处理长序列的能力。 人类的记忆不是单一的过程,而是由短期记忆、工作记忆和长期记忆等不同系统组成,每个系统都有不同的功能和神经结构。 基于此,Google提出一种 ...