无残差连接训练深度 transformer；DeepMind 写代码 AI 登 Science 封面 00后购买木鱼增速超中年人2倍，赛博信徒敲不响解压“真经”三星S23 Ultra详细配置曝光首发高频版骁龙8 Gen2动辄10亿+估值，DPU能否撑起云和芯片产业的未来折叠屏iPad救不了平板电脑办公体验媲美PC！华为MatePad Pro 12.6英寸大内存版开售：5499元推特重推蓝V认证服务苹果用户得多交3美元！马斯克也无能为力抖音回应世界杯直播侵权，刘强东分享抗新冠经验，长江存储发布性能提升50%新闪存，比亚迪进军智利，这就是今天的其它大新闻！汉字起源！腾讯宣布要用AI破译甲骨文：残片3D建模3nm工艺！NVIDIA下一代显卡GPU首曝光：代号Blackwell中端神U天玑 8100 的继任者来了，这次还是一样能打。顺义航空航天产业奏响复工复产“交响曲”全系第二代骁龙8比苹果良心！小米13系列今晚发：超65万人预约

2022年12月12日下午12:07 • Web of Sicence • 阅读 184

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周的主要论文包括：第一次无残差连接或归一层也可以训练深度 Transformer 探索性研究，以及 DeepMind 携其写代码 AI AlphaCode 登上了 Science 编写代码的能力不亚于程序员。

目录：

Competition-level code generation with AlphaCode

Inverse scaling can become U-shaped

FedALA: Adaptive Local Aggregation for Personalized Federated Learning

An Efficient Training Approach for Very Large Scale Face Recognition

Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation

EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket

ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文(附音频)

论文 1：Competition-level code generation with AlphaCode

作者：YUJIA LI 等

论文地址：https://www.science.org/doi/10.1126/science.abq1158

摘要：今年年初，DeepMind 发布了基于 Transformer 的新模型 AlphaCode，该模型实现了大规模代码生成。AlphaCode 又在《Science》新论文上发表，研究上发表《Science》封面。

推荐：DeepMind 携 AlphaCode 登 Science 编写代码的能力不亚于程序员。

论文 2：Inverse scaling can become U-shaped

作者：Jason Wei 等

论文地址：https://arxiv.org/pdf/2211.02011.pdf

摘要：在许多任务中，语言模型越大，性能就越好。是否有一种情况：由于模型规模的增加，某些任务的结果会变得更糟？谷歌最近发表的一篇论文可能会给我们答案。获得 Inverse Scaling 奖励任务如下：Negation QA、Hindsight Neglect、Quote Repetition 和 Redefine Math。

推荐：模型越大，性能越差？谷歌收集了让大模型崩溃的任务，创造了新的基准。

论文 3：FedALA: Adaptive Local Aggregation for Personalized Federated Learning

作者：Jianqing Zhang 等

论文地址：https://arxiv.org/pdf/2212.01197.pdf

摘要：本文提出了一种自适应联邦学习的本地聚合方法，通过自动从整体模型中捕获客户机所需的信息来处理联邦学习中的统计异质性问题。作者对比了 11 个 SOTA 超越模型的最佳方法 3.27% 性能优异。作者最多将自适应本地聚合模块应用于其他联邦学习方法 24.19% 的提升。本文被 AAAI 2023 会议收录，下图为自适应本地聚合（ALA）过程。

推荐：超越 SOTA 3.27%，上交大提出了适应当地聚合的新方法。

论文 4：An Efficient Training Approach for Very Large Scale Face Recognition

作者：Kai Wang 等

论文地址：https://arxiv.org/pdf/2105.10375.pdf

摘要：本文主要介绍了现有的超大规模分类框架解决方案和低成本分类框架 FFC 相应的原理及 trick 介绍这篇文章 CVPR 2022 会议收录，下图为 SOTA 方法比较。

推荐：达摩院开源低成本大规模分类框架 FFC。

论文 5：Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation

作者：匿名

论文地址：https://openreview.net/pdf?id=NPrsUQgMjKK

摘要：ICLR 2023 盲审阶段的这篇论文首次证明没有残余连接或归一化层的情况下，也可能成功训练深度 transformer。为此，他们研究了深度无残差 transformer 有三种方法可以阻止信号传播和秩序崩溃。

具体来说，该方法采用以下组合：参数初始化、偏置矩阵和位置相关的重缩放，并强调 transformer 中信号传输的几种独特复杂性，包括与位置编码和因果掩蔽的交互。研究人员证明，他们的方法可以产生训练深度 transformer。

推荐：ICLR 在盲审阶段，被评为赞不绝口的论文:会是吗？ Transformer 架构创新大吗？

论文 6：EVA: Exploring the Limits of Masked Visual Representation Learning at Scale

作者：Yuxin Fang 等

论文地址：https://arxiv.org/pdf/2211.07636.pdf

摘要：智源开源简单强大，具有 10 视觉基础模型参数亿 EVA，结合最强的语义学习和最强的几何结构学习 ImageNet 分类、COCO 检测分割、Kinetics 在广泛的视觉感知任务中，如视频分类取得了最强的性能。

推荐：10 亿参数，多项 SOTA，智源开源视觉基础模型 EVA。

论文 7：Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket

作者：Nianhui Guo 等

论文地址：https://arxiv.org/pdf/2211.12933.pdf%E3%80%81

摘要：来自德国 Hasso Plattner 计算机系统工程研究所 Nianhui Guo 和 Haojin Yang 等待研究人员提出 BNext 模型，成为第一个 ImageNet 数据集上 top1 突破分类精度 80% 的 BNN。下图为基于 ImageNet 的 SOTA BNN 性能对比。、

推荐：首个在 ImageNet 上精度超过 80% 二值神经网络 BNext 问世。

ArXiv Weekly Radiostation

由楚航和罗若天共同发起的机器之心 ArXiv Weekly Radiostation，在 7 Papers 本周更重要的论文将被选中，包括 NLP、CV、ML 领域各 10 本文选取并提供音频形式的论文摘要，详细介绍如下：

本周 10 篇 NLP 精选论文为：

1. Toward Efficient Language Model Pretraining and Downstream Adaptation via Self-Evolution: A Case Study on SuperGLUE. ( from Yu Qiao, Xinbo Gao, Xiaoou Tang, Dacheng Tao )

2. Learning to Dub Movies via Hierarchical Prosody Models. ( from Ming-Hsuan Yang, Qingming Huang )

3. Improving Simultaneous Machine Translation with Monolingual Data. ( from Dacheng Tao )

4. Intermediate Entity-based Sparse Interpretable Representation Learning. ( from Joydeep Ghosh )

5. a survey on GPT-3. ( from Bhaskar Krishnamachari )

6. ZeroKBC: A Comprehensive Benchmark for Zero-Shot Knowledge Base Completion. ( from Hongming Zhang )

7. Constructing Highly Inductive Contexts for Dialogue Safety through Controllable Reverse Generation. ( from Minlie Huang )

8. KPT: Keyword-guided Pre-training for Grounded Dialog Generation. ( from Minlie Huang )

9. LawngNLI: A Long-Premise Benchmark for In-Domain Generalization from Short to Long Contexts and for Implication-Based Retrieval. ( from Dan Roth )

10. SoftCorrect: Error Correction with Soft Detection for Automatic Speech Recognition. ( from Xiang-Yang Li, Tie-Yan Liu )

本周 10 篇 CV 精选论文为：

1. NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors. ( from Leonidas Guibas, Dragomir Anguelov )

2. ALTO: Alternating Latent Topologies for Implicit 3D Reconstruction. ( from Leonidas Guibas )

3. Improving Zero-shot Generalization and Robustness of Multi-modal Models. ( from Ming-Hsuan Yang, Laurent Itti )

4. Self-supervised AutoFlow. ( from Ming-Hsuan Yang )

5. Consistency-Aware Anchor Pyramid Network for Crowd Localization. ( from Qingming Huang, Ming-Hsuan Yang, Nicu Sebe )

6. UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation. ( from Ming-Hsuan Yang ) 7. Progressive Multi-resolution Loss for Crowd Counting. ( from Qingming Huang, Ming-Hsuan Yang )

8. Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection. ( from Qingming Huang, Ming-Hsuan Yang )

9. AsyInst: Asymmetric Affinity with DepthGrad and Color for Box-Supervised Instance Segmentation. ( from Alan Yuille )

10. Discovering Class-Specific GAN Controls for Semantic Image Synthesis. ( from Bernt Schiele )

本周 10 篇 CV 精选论文为：

1. Learning Graph Search Heuristics. ( from Jure Leskovec, Pietro Li ò )

2. Multi-Rate VAE: Train Once, Get the Full Rate-Distortion Curve. ( from Jimmy Ba )

3. AL-iGAN: An Active Learning Framework for Tunnel Geological Reconstruction Based on TBM Operational Data. ( from Dacheng Tao )

4. Specifying Behavior Preference with Tiered Reward Functions. ( from Michael L. Littman )

5. Benchmarking AutoML algorithms on a collection of binary problems. ( from Jason H. Moore )

6. On the Global Solution of Soft k-Means. ( from Feiping Nie, Xuelong Li )

7. On the Importance of Clinical Notes in Multi-modal Learning for EHR Data. ( from Gunnar R tsch )

8. PRISM: Probabilistic Real-Time Inference in Spatial World Models. ( from Daniel Cremers )

9. Intervening With Confidence: Conformal Prescriptive Monitoring of Business Processes. ( from Marlon Dumas )

10. Contactless Oxygen Monitoring with Gated Transformer. ( from Dina Katabi )

THE END

转载请联系本微信官方账号授权

提交或寻求报告：content@jiqizhixin.com

托福家考有什么需要特别注意的吗？

上一篇 2022年12月12日下午12:06

托福家考会不会被hold呀?

下一篇 2022年12月12日下午12:08

Web of Sicence

井喷！2所985，发Science

最近，上海交通大学和中山大学分别增加了一篇文章Science。上海交通大学 12月9日，上海交通大学材料科学大学材料科学与工程学院，金属基复合材料国家重点实验室，联合上海硅酸盐研…

2022年12月12日
2451
Web of Sicence

清华大学重磅《Science》

陶瓷通常不是塑性变形，而是在载荷下容易断裂。如果陶瓷可以通过锤击、弯曲或拉伸而断裂，这将大大扩大这些材料的应用范围。因此，虽然共价键合陶瓷具有优异的性能，包括硬度、强度、化学惰性、…

2022年12月12日
3120
Web of Sicence

大爆发！上海交通大学，再发《Science》！

01 研究背景压电致动器可以直接将电信号转换为机械应变，已广泛应用于消费电子产品、交通运输、精密光学仪器、微机电系统和机器人等领域。到2026年，压电致动器领域占据主要份额的世界…

2022年12月13日
2630
Web of Sicence

加州理工让无人机长出腿：走路飞行无缝切换，还能玩滑板、走钢丝｜Sicence子刊

这款双足机器人，有亿点点不一样。最引人注目的是细腿高跟鞋，然后是双臂上的螺旋桨推进器。这不同寻常的组合是要做什么？先表演一个芜湖起飞，然后优雅地着陆，在走路与飞行之间平稳衔接…

2022年12月12日
2650
Web of Sicence

学术讲坛 | 贸大教师李晓洁在国际顶级期刊《Science》发表研究成果

最近，国际顶级期刊《Science》刊发《中国〈个人信息保护法〉：对研究的影响（Research under China’s personal information law）,马…

2022年12月13日
2480
Web of Sicence

Science撤回天使粒子论文，曾被视为诺奖级发现，4位华人主导

羿阁萧箫发自凹非寺量子位 | 公众号 QbitAI 一项量子计算领域的重磅研究，被Science撤稿了。这篇研究首次发现了“天使粒子”的存在证据，一度引发学界轰动。 “天…

2022年12月12日
2020
Web of Sicence

Science重磅：一篇被引2300余次的开创性论文，竟涉嫌造假

编译｜张晴丹一篇被引用2300多次的Nature论文，竟然涉嫌造假。北京时间7月22日凌晨，Science发表了一篇历时6个月的调查报告，指称美国明尼苏达大学神经学家Sylva…

2022年12月12日
2060
Web of Sicence

Sicence：人工皮肤重大进展，全新3D变体材料

本文的编译内容转自：http://tech.huanqiu.com/science/2017-10/11325046.html仅供参考学习。(只的视频就够了) 据外国媒体报道，康奈…

2022年12月12日
2430
Web of Sicence

华大集团历史上的今天 | Science鸟类专刊发表八周年

　　2014年12月12日，华大领导并与来自20多个国家的80多个机构的200多名科学家共同完成了一项大型鸟类研究，对48种鸟类进行了全面的基因组学研究，揭开了现代鸟类系统发现代鸟…

2022年12月13日
2260
Web of Sicence

【播出预告】周末上山挖化石玩？注意，这样做有可能违法……

原标题:【播出通知】周末上山挖化石？请注意，这样做可能是违法的…… 旅游、爬山，甚至走路有可能看到化石，我们能带走吗？能给朋友或买卖吗？云南省委办公室、云南省司法厅、云南省…

2022年12月12日
3910

相关推荐

芝士加速公众号