Transformer 7 - 搜索 News

8 天

与其颠覆 Transformer，不如专注改良 Attention？

深度学习领域围绕着如何改进 Transformer 架构的讨论从未停歇。此前，许多研究者试图寻找能够完全替代 Transformer ...

腾讯网1 天

DeepSeek背后的技术基石：DeepSeekMoE基于专家混合系统的大规模语言模型 ...

点击上方“Deephub Imba”,关注公众号,好文章不错过 !DeepSeekMoE是一种创新的大规模语言模型架构，通过整合专家混合系统(Mixture of Experts, ...

腾讯网3 天

线性扩散模型LiT来了，用极简线性注意力助力扩散模型AIPC时代端侧部署

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@ ...

来自MSN15 天

悉尼大学提出新Transformer架构，单时间点预测均方误差为0.0013

近日，一篇由澳洲悉尼大学团队牵头完成的论文在 X 上引起关注，该校的博士生孙艺菲（Yifei Sun，音）是论文第一作者。图 | Yifei Sun（来源：LinkedIn）基于人类连接组计划的功能性磁共振成像数据，他们使用 Transformer 预测了人脑静息状态（human brain resting ...

15 天

5090跑《黑神话》飙到200+帧，英伟达DLSS也用上Transformer了

它可利用GPU中的Tensor Core，通过AI完成游戏中的光线追踪，并渲染具有复杂几何形状的场景，可以用高保真度渲染出复杂的开放世界，同时减少伪影、不稳定性并降低VRAM使用。

9 天

胜过Transformer？谷歌推出新型AI模型架构Titans

自2017年推出以来，Transformer模型架构一直是人工智能的基础要素，推动了自然语言处理、机器翻译等领域的进步。不过，该模型在可扩展性、计算效率以及应对日益复杂任务等方面，仍面临着诸多挑战。而Titans模型架构的诞生，旨在通过整合受人类认知 ...

18 天

突破Transformer架构，MiniMax 01首次开源，海外开发者再一次被中国模型 ...

继公布全模态模型家族后，时隔5个月，MiniMax再亮相两大模型，且模型权重完全开源。而且与GPT-4o和Claude-3.5-Sonnet性能平起平坐，尤其在上下文窗口方面表现出色，处理能力甚至达到其他顶尖模型的 20 - 32倍。

来自MSN23 天

多亏Transformer，Mamba更强了！仅用1%计算量达新SOTA

Mamba架构最新进展：仅需1%计算量，新模型性能达SOTA。能做到这一点，还多亏了Transformer。通过将Transformer模型中的知识有效迁移到Mamba等替代架构中 ...

生物通3 天

变压器生成的原子嵌入，以提高预测精度的晶体性质与机器学习

原子表示对于构建可靠和可转移的机器学习模型至关重要。在此，作者提出了基于变压器的通用原子嵌入来提高晶体性质的预测精度。

4 天

Blackwell架构与DLSS4加持，技嘉RTX 5080 AERO雪鹰显卡首发评测

北京时间1月7日，英伟达在 CES 2025发布了备受期待的GeForce RTX 50系列显卡，首发产品包括RTX 5090（D）、RTX 5080、RTX 5070Ti和RTX 5070四个型号。GeForce RTX ...

来自MSN18 天

像人一样学会记忆，谷歌新架构Titans打破Transformer上下文限制

现有的架构，如Hopfield网络、LSTM和Transformer会带来了二次方的时间和内存复杂度，限制了模型处理长序列的能力。人类的记忆不是单一的过程，而是由短期记忆、工作记忆和长期记忆等不同系统组成，每个系统都有不同的功能和神经结构。基于此，Google提出一种 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果