搜索优化
English
全部
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
搜索
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
过去 30 天
时间不限
过去 1 小时
过去 24 小时
过去 7 天
按相关度排序
按时间排序
8 天
与其颠覆 Transformer,不如专注改良 Attention?
深度学习领域围绕着如何改进 Transformer 架构的讨论从未停歇。此前,许多研究者试图寻找能够完全替代 Transformer ...
腾讯网
1 天
DeepSeek背后的技术基石:DeepSeekMoE基于专家混合系统的大规模语言模型 ...
点击上方“Deephub Imba”,关注公众号,好文章不错过 !DeepSeekMoE是一种创新的大规模语言模型架构,通过整合专家混合系统(Mixture of Experts, ...
腾讯网
3 天
线性扩散模型LiT来了,用极简线性注意力助力扩散模型AIPC时代端侧部署
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@ ...
来自MSN
15 天
悉尼大学提出新Transformer架构,单时间点预测均方误差为0.0013
近日,一篇由澳洲悉尼大学团队牵头完成的论文在 X 上引起关注,该校的博士生孙艺菲(Yifei Sun,音)是论文第一作者。 图 | Yifei Sun(来源:LinkedIn) 基于人类连接组计划的功能性磁共振成像数据,他们使用 Transformer 预测了人脑静息状态(human brain resting ...
15 天
5090跑《黑神话》飙到200+帧,英伟达DLSS也用上Transformer了
它可利用GPU中的Tensor Core,通过AI完成游戏中的光线追踪,并渲染具有复杂几何形状的场景,可以用高保真度渲染出复杂的开放世界,同时减少伪影、不稳定性并降低VRAM使用。
9 天
胜过Transformer?谷歌推出新型AI模型架构Titans
自2017年推出以来,Transformer模型架构一直是人工智能的基础要素,推动了自然语言处理、机器翻译等领域的进步。不过,该模型在可扩展性、计算效率以及应对日益复杂任务等方面,仍面临着诸多挑战。而Titans模型架构的诞生,旨在通过整合受人类认知 ...
18 天
突破Transformer架构,MiniMax 01首次开源,海外开发者再一次被中国模型 ...
继公布全模态模型家族后,时隔5个月,MiniMax再亮相两大模型,且模型权重完全开源。而且与GPT-4o和Claude-3.5-Sonnet性能平起平坐,尤其在上下文窗口方面表现出色,处理能力甚至达到其他顶尖模型的 20 - 32倍。
来自MSN
23 天
多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
Mamba架构最新进展:仅需1%计算量,新模型性能达SOTA。 能做到这一点,还多亏了Transformer。 通过将Transformer模型中的知识有效迁移到Mamba等替代架构中 ...
生物通
3 天
变压器生成的原子嵌入,以提高预测精度的晶体性质与机器学习
原子表示对于构建可靠和可转移的机器学习模型至关重要。在此,作者提出了基于变压器的通用原子嵌入来提高晶体性质的预测精度。
4 天
Blackwell架构与DLSS4加持,技嘉RTX 5080 AERO雪鹰显卡首发评测
北京时间1月7日, 英伟达 在 CES 2025发布了备受期待的GeForce RTX 50系列显卡,首发产品包括RTX 5090(D)、RTX 5080、RTX 5070Ti和RTX 5070四个型号。GeForce RTX ...
来自MSN
18 天
像人一样学会记忆,谷歌新架构Titans打破Transformer上下文限制
现有的架构,如Hopfield网络、LSTM和Transformer会带来了二次方的时间和内存复杂度,限制了模型处理长序列的能力。 人类的记忆不是单一的过程,而是由短期记忆、工作记忆和长期记忆等不同系统组成,每个系统都有不同的功能和神经结构。 基于此,Google提出一种 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈