2026-07-03
15:35量子位精选 · 40

AI找出4种全新超导体,只用28个GPU时!人类此前完全未知

AI用28 GPU时发现4种人类未知的超导体
AI应用材料科学超导体
09:19量子位精选 · 50

世界模型的新用途:不做选手,去当裁判

世界模型提出新用途:作为评估AI agent行为的裁判,而非仅生成视频。
世界模型AI评估Agent
2026-07-02
20:37The Decoder:AI News精选 · 60

Fable 5 在 RLI 基准中达成 16.1% 自动化率,较八个月前提升六倍

Fable 5 在 RLI 自由职业任务自动化率达 16.1%,是 GPT-5.5 的 2.5 倍
自动化对比RLI
推荐理由:可对比最强模型的自动化能力,为工具选型提供数据
🎯 给屿鹿的选题角度:制作视频「AI 替你接单做设计?最新自动化测试谁更强」,用 RLI 结果说明 Codex 与竞品差距
20:10Hacker News精选 · 30

Is One Layer Enough? A Single Transformer Layer Matches Full-Parameter RL Train

论文发现单层Transformer在RL训练中可匹配全参数微调性能,挑战深层模型必要性。
TransforRL训练单层模型
14:44Hacker News精选 · 80

The gauge broke: devs felt 20% faster with AI, measured 19% slower

研究显示开发者使用AI编程时自感快20%,实测却慢19%,感觉与实情反差大。
AI编程效率实测开发者体验错觉
推荐理由:颠覆认知的实测结果,可警示盲目依赖AI,结合Codex做实操指南。
🎯 给屿鹿的选题角度:小红书图文/视频号口播:标题如'AI写代码真的更快?实测打脸',用此研究引出实测对比,教普通人如何用Codex真正提效,避免自欺欺人。
10:55Hacker News精选 · 70

Senior SWE-Bench: open-source benchmark that assesses agents as senior engineers

Senior SWE-Bench开源,评估AI代理作为高级软件工程师的多文件修复等复杂任务能力。
AI编程基准测试Agent软件工程
推荐理由:可作为实测对比Codex/GPT/Claude等高级编程能力的切入点。
🎯 给屿鹿的选题角度:实测对比Codex、Claude Code、Cursor在Senior SWE-Bench上的表现,分析谁更适合复杂项目,做成小红书图文或视频号避坑指南。
08:00HuggingFace Daily Pape精选 · 40

表示分布匹配(RDM)用于一步视觉生成

RDM方法一步生成图像,改进版iRDM在ImageNet达SOTA,并可后训练FLUX模型。
图像生成一步生成FLUX
08:00HuggingFace Daily Pape精选 · 30

Program-as-Weights:一种面向模糊函数的编程范式

PAW将模糊函数编译为神经制品,0.6B解释器性能匹敌32B模型,推理内存仅1/50。
模型压缩模糊函数端侧推理
08:00Apple Machine Learning精选 · 40

RL微调VLM的鲁棒性与思维链一致性研究

RL微调VLM提升准确率但降低思维链忠实性,存在准确性与鲁棒性权衡。
视觉语言模型强化学习鲁棒性
08:00Apple Machine Learning精选 · 30

VideoFlexTok:可变长度粗到细视频分词

VideoFlexTok用可变长度token序列高效表示视频,1.1B参数实现5.2B模型生成质量。
视频生成分词器模型压缩
08:00Apple Machine Learning精选 · 50

多智能体团队阻碍专家发挥

多智能体LLM系统中团队倾向于整合妥协,阻碍专家能力发挥,性能损失最高41.1%。
多智能体团队协作专家利用
06:48Hacker News精选 · 20

Healthy but Sedentary People Show Early Decline in Cellular Energy Production

研究发现健康但久坐者细胞能量生产早期下降。
健康久坐细胞能量
01:21Hacker News精选 · 50

Are readers generating fiction with AI models?

研究:读者正使用 AI 模型生成虚构作品。
AI生成虚构创作用户行为
2026-07-01
15:29量子位精选 · 30

群核科技三项成果入选ECCV 2026,联手英伟达等探索物理AI仿真平台

群核科技ECCV论文,联手英伟达探索物理AI仿真,与通用创作工具关联弱。
物理AI仿真ECCV
15:24量子位精选 · 40

Loop世界模型论文登顶Hugging Face,来自中国一家初创,周鸿祎陆奇都投了

Loop世界模型论文登顶HuggingFace,来自中国初创,研究方向与核心赛道无直接交集。
世界模型初创HuggingF
13:13Hacker News精选 · 30

Matrix Orthogonalization Improves Memory in Recurrent Models

矩阵正交化技术可改善循环神经网络记忆能力,为学术研究。
深度学习RNN记忆优化
06:32X:AI Safety Memes精选 · 30

AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题

AI通过prover-verifier LLM循环攻克9个未解数学难题,拟扩展至全科学。
LLM数学科学发现
06:08Hacker News精选 · 30

TabFM: A zero-shot foundation model for tabular data

Google 发布表格数据零样本基础模型 TabFM
表格数据基础模型Google
05:29Hacker News精选 · 30

Meta's brain-scanning system reads sentences non-invasively, code open source

Meta 开源非侵入式脑机接口系统,能从脑信号解码句子。
Meta脑机接口非侵入式
02:32Hugging Face精选 · 30

ScarfBench: Benchmarking AI Agents for Enterprise Java Framework Migration

AI代理企业Java框架迁移基准测试,与Codex/GPT工作流无直接关联。
基准测试Java迁移AI代理企业应用
2026-06-30
08:00OpenAI精选 · 20

Introducing GeneBench-Pro

OpenAI 发布 GeneBench-Pro 基准,测试 AI 在基因组学等领域的性能。
OpenAI基准测试生物学
08:00OpenAI精选 · 20

Inside Genebench-Pro

深入介绍 GeneBench-Pro 基准测试。
OpenAIGeneBenc生物学
06:18Hacker News精选 · 10

Scientists find molecular-level evidence for two structures in liquid water

科学家发现液态水中存在两种分子结构的证据
液态水分子结构科学研究
02:03Hacker News精选 · 60

Micro-Agent: Beat Frontier Models with Collaboration Inside Model API

vLLM 发布 Micro-Agent,利用模型 API 内部协作以超越前沿模型。
AI代理模型协作性能提升
推荐理由:多代理协作范式可能为 Codex 工作流设计带来新思路。
🎯 给屿鹿的选题角度:对比 Micro-Agent 与 Codex 的代理协作机制,探讨能否将类似模式引入 Codex 任务委派,适合社群技术讨论。
02:02Hugging Face精选 · 30

DiScoFormer: One transformer for density and score, across distributions

一种用于密度和分数估计的通用Transformer,跨分布使用。
Transfor学术论文
2026-06-29
22:33量子位精选 · 40

全球首个:隐空间世界模型,打通长时序双向物理因果链了!

研究人员发布全球首个隐空间世界模型,打通长时序双向物理因果链,具身智能公司新融资2亿美元。
世界模型具身智能融资
12:47Hacker News精选 · 20

Some Simple Economics of AGI

SSRN论文探讨通用人工智能(AGI)的简单经济学。
AGI经济学学术论文
06:32Hacker News精选 · 40

Knowledge Distillation of Black-Box Large Language Models

论文研究黑盒大语言模型的知识蒸馏方法,将大模型能力迁移至小模型。
知识蒸馏黑盒模型LLM模型压缩
03:06Hacker News精选 · 30

Do LLMs pass the mirror test?

博客探讨大型语言模型能否通过镜像测试,检验其自我认知能力。
LLM镜子测试自我认知
02:59Hacker News精选 · 0

Computer-Aided Language Development in Nonspeaking Children (1968) [pdf]

1968年论文:计算机辅助语言开发非言语儿童,与当前AI无关。
语言开发
2026-06-28
23:55Hacker News精选 · 10

Programmable Probabilistic Computer with 1M p-bits

关于包含 100 万 p-bit 的可编程概率计算机的学术论文。
概率计算硬件
2026-06-27
17:18Hacker News精选 · 40

DeepSeek open-sources inference optimizations with 60–85% faster generation [pdf]

DeepSeek 开源推理优化技术,声称生成速度提升60-85%。
DeepSeek推理优化开源
2026-06-26
11:47量子位精选 · 20

让机器人学会“预判接触”:它石智航牵头四大顶尖机构发布TacForeSight,破解精细操作难题

它石智航等发布机器人预判接触技术TacForeSight。
机器人预判
11:23量子位精选 · 40

英伟达MoE新开源:一行import,微调加速3.7倍

英伟达开源MoE训练加速方案,通过Transformers v5一行import微调加速3.7倍。
英伟达MoE训练加速
04:50Hacker News精选 · 10

Un-0: Generating Images with Coupled Oscillators

论文介绍用耦合振荡器生成图像的新方法
图像生成振荡器
04:12Hacker News精选 · 10

Parallel Parentheses Matching

并行括号匹配算法介绍
算法括号匹配
00:11Hugging Face精选 · 10

Which tokens does a hybrid model predict better?

学术文章分析混合模型 token 预测,与创作者赛道无关。
模型分析学术
2026-06-25
23:11Hacker News精选 · 10

Physicists Track and Trap the Elusive Neutrino

物理学家成功追踪和捕获中微子
物理学中微子
21:08Hacker News精选 · 50

Where every major LLM stands politically

分析各主流 LLM 的政治立场与偏见
LLM政治偏见分析工具
10:00OpenAI精选 · 80

How agents are transforming work

OpenAI 论文显示代理可完成更长更复杂的任务,扩大生产力边界。
Agent生产力OpenAI
推荐理由:官方背书代理能力升级,可用论文结论指导普通人构建 Codex/GPT 工作流。
🎯 给屿鹿的选题角度:解读论文核心发现:代理现在擅长多步骤、长时任务,做一份《一人公司代理任务清单》。社群分享:如何将复杂工作拆解给 Codex Agent,小红书图文对比传统方法与代理效率。
09:36Hacker News精选 · 10

Exploring the internal representations of Pangram 3.3.2

探索Pangram 3.3.2的内部表示,可能涉及字体或AI模型的嵌入空间分析。
内部表示AI模型
09:11Hacker News精选 · 30

Mixing Visual and Textual Code

一篇关于混合视觉与文本代码的论文,探讨在编程中结合视觉元素的可能性。
多模态编程视觉代码
2026-06-24
23:37Hacker News精选 · 20

Boffin claims Microsoft's "quantum leap" is invalid due to "basic Python errors"

研究者指出微软量子计算研究存在基础Python错误
量子计算错误
18:38量子位精选 · 20

1小时真机RL微调成功率破95%!HIL-ResRL:即插即用的VLA“外挂”神器

研究提出HIL-ResRL方法,1小时真机RL微调成功率超95%,针对VLA模型。
VLARL微调具身智能
10:21Hacker News精选 · 30

Qwen-AgentWorld: Language World Models for General Agents

Qwen-AgentWorld论文提出语言世界模型,用于通用Agent环境模拟与训练。
QwenAgent世界模型论文
10:12Hacker News精选 · 20

DiffusionBench: Towards Holistic Evaluation of Generative Diffusion Transformers

DiffusionBench:面向生成扩散变换器(DiT)的整体性评估基准开源项目。
评估基准扩散模型图像生成
02:24Hacker News精选 · 90

The End of Code Review: Coding Agents Supersede Human Inspection

论文声称编程代理将取代人工代码审查,引发HN热议
代码审查编程代理CodexAI取代人工
推荐理由:直接命中Codex实操对比:是否能做代码审查?适合做实测对比教程
🎯 给屿鹿的选题角度:视频号口播:用Codex实际审查代码,对比传统review,给出“AI能不能替代人审代码”的结论,附社群作业:让Codex审查你自己的项目
2026-06-23
22:40Hacker News精选 · 30

Lift4D: Harmonizing Single-View 3D Estimation for 4D Reconstruction In-the-Wild

学术论文 Lift4D 提出单视图 3D 估计用于 4D 重建。
3D重建学术论文
19:07Hacker News精选 · 50

The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"

新讨论旧论文:LLM训练于“A是B”却学不会“B是A”,揭示逻辑反转局限。
逆转诅咒LLM局限
16:31Hacker News精选 · 20

Show HN: Neural Particle Automata

神经粒子自动机:粒子可自由移动并自组织成复杂形态。
神经网络粒子自动机自组织模式形成
12:00arXiv cs.AI精选 · 10

On the Identifiability of User Adaptation in Co-Adaptive Neural Interfaces

论文分析共适应性神经接口中用户适应的可识别性问题。
神经接口可识别性
12:00arXiv cs.AI精选 · 60

Beyond Fixed Budgets: Characterizing the Inelasticity and Limitations of Tree-of-Thought Reasoning Strategies

论文揭示Tree-of-Thought推理策略的弹性和局限性。
思维树推理策略LLM
推荐理由:ToT是热门推理技巧,了解其局限性可帮助用户更高效使用AI。
🎯 给屿鹿的选题角度:出一期解读「ToT思维树并非万能」的口播,结合论文实测不同推理方法对比,给出适用场景建议,帮助创作者优化AI使用流程。
12:00arXiv cs.AI精选 · 10

The New Associationism: Lessons from Deep Learning

论文认为监督学习支持关联主义模型,探讨AI成功对人类学习的启示。
关联主义深度学习学习理论
10:28Hacker News精选 · 30

Ultralytics YOLO26: Unified Real-Time End-to-End Vision Models

YOLO26 统一实时端到端视觉模型发布,提升检测速度与精度。
YOLO目标检测计算机视觉
10:01Hacker News精选 · 90

VibeThinker: 3B param model that beats Opus 4.5 on reasoning with novel SFT+GRPO

VibeThinker: 3B模型用新训练方法在推理上击败Opus 4.5。
小模型推理能力模型训练降本增效
推荐理由:小模型击败大模型,适合演示低成本AI推理,契合一人公司提效。
🎯 给屿鹿的选题角度:制作短视频实测VibeThinker与Opus 4.5在逻辑题、商业分析等场景的表现,突出小模型省钱优势,引导观众思考如何用AI降本增效,结尾引导社群。
07:59Simon Willison精选 · 60

Prompt Injection as Role Confusion

Simon Willison将提示注入论文转化为博客,用角色混淆解读攻击原理。
提示注入AI安全提示词技巧
推荐理由:Simon的科普让提示注入风险更易懂,可提醒创作者防范AI输出被操控。
🎯 给屿鹿的选题角度:口播短视频拆解‘角色混淆’攻击,给出3个简单防护建议,比如限制系统提示、检查用户输入,帮助自媒体人安全使用AI。
2026-06-22
23:48Hacker News精选 · 60

A Theory of Why Prompt Injection Works

论文提出角色混淆理论解释提示注入成因,可为提示词安全提供底层认知。
提示注入AI 安全提示词
推荐理由:可转化为防注入技巧,切合提示词使用赛道,满足科普需求。
🎯 给屿鹿的选题角度:小红书图文/视频号口播:解析提示注入案例,教用户用分隔符、角色限定等方式规避风险,落点“让AI听话更安全”。
18:50Hacker News精选 · 60

LLMs do not merely reflect the bias of their training, they police it

LLMs不仅反映训练数据偏见,还会监管偏见,引发讨论。
LLM偏见观点
推荐理由:探讨LLM偏见行为,有助于理解模型特性,可转化为警示或避坑指南。
🎯 给屿鹿的选题角度:小红书图文:用通俗案例解释LLM如何“监管”偏见,落点提醒创作者注意AI输出多样性,避免内容同质化。
16:1536氪精选 · 50

逻辑智能低资源语音研究入选ICML 2026,将赴韩国首尔参会

逻辑智能SE-Bridge-TTS入选ICML,提升小语种语音合成的自然度和克隆能力。
语音合成小语种ICML
推荐理由:语音克隆可用于数字人口播,值得持续跟踪。
🎯 给屿鹿的选题角度:后续关注论文开源,可实测小语种克隆效果,制作《AI模拟小语种,数字人出海必备》教程。
06:16Hacker News精选 · 50

I Gave an AI a Civilization to Run. It Built a Nuke – Launching CivBench

CivBench基准测试:让AI管理文明,它造了核弹
AI智能体基准测试决策
2026-06-21
08:00Hacker News精选 · 60

Project Fetch: Phase Two

Anthropic发布Project Fetch第二阶段研究,提升AI从网络检索信息的能力。
AI Agent信息检索Anthropi
推荐理由:了解AI Agent获取实时信息的前沿,对测评AI工具有参考价值。
🎯 给屿鹿的选题角度:若开放测试,可实测其检索精度与速度,对比GPT等,制作小红书图文或视频,强调对一人公司调研提效的潜力。
07:04MarkTechPost精选 · 50

Cisco AI Introduces FAPO: Pipeline-Aware Prompt Optimization With Step-Level Failure Attribution and Claude Code Orchestration

Cisco开源FAPO:基于Claude Code自动优化多步LLM流水线的提示词工具
提示词优化Claude C工作流自动化开源工具
06:22Hacker News精选 · 10

Slow breathing modulates brain function and risk behavior

慢呼吸调节脑功能与风险行为
神经科学呼吸脑功能风险行为
2026-06-20
19:56量子位精选 · 40

陶哲轩12年前的预言,现在AI帮他兑现了

陶哲轩 12 年前预言 AI 将辅助数学研究,如今 AI 帮其实践。
AI 数学陶哲轩学术突破
06:37Hacker News精选 · 30

How do flocking birds and schools of fish move?

纽约大学新研究揭示鸟群和鱼群如何协调群体运动。
群体行为生物运动
2026-06-19
12:00arXiv cs.AI精选 · 20

Deontic Policies for Runtime Governance of Agentic AI Systems

提出对自主AI智能体进行运行时治理的义务政策,以应对安全与合规挑战。
智能体治理安全合规
12:00arXiv cs.AI精选 · 10

Measuring Curriculum Alignment across Topical Coverage, Competency, and Cognitive Depth: A Longitudinal Framework Applied to CS2013 and CS2023

提出衡量计算机科学课程与CS2013/CS2023标准对齐度的纵向框架。
课程对齐计算机教育
12:00arXiv cs.AI精选 · 20

Diffusion Language Models: An Experimental Analysis

对扩散语言模型进行实验分析,相较于自回归模型,探讨其生成范式。
扩散语言模型模型对比
12:00arXiv cs.AI精选 · 30

Hidden Anchors in Multi-Agent LLM Deliberation

揭示多智能体LLM审议中的隐藏锚点,解释审议为何有效及其局限。
多智能体LLM审议
12:00arXiv cs.AI精选 · 10

DeXposure-Claw: An Agentic System for DeFi Risk Supervision

提出针对去中心化金融风险监管的智能体系统DeXposure-Claw。
DeFi风险管理
12:00arXiv cs.AI精选 · 10

LLM Doesn't Know What It Doesn't Know: Detecting Epistemic Blind Spots via Cross-Model Attribution Divergence on Clinical Tabular Data

检测LLM在临床表格数据上的认知盲点,通过跨模型归因分歧。
LLM认知盲点临床数据
12:00arXiv cs.AI精选 · 10

REVEAL++: Differentiable Phenotypic Grouping for Vision-Language Retinal Modeling of Alzheimer's Disease Risk

利用视网膜图像建模阿尔茨海默病风险的视觉-语言对齐方法。
视网膜成像疾病预测
12:00arXiv cs.AI精选 · 40

Emergent Alignment

赋予LLM自我校准能力,通过训练使其识别并修正自身伦理无关输出。
LLM对齐自我纠正
12:00arXiv cs.AI精选 · 20

ITNet: A Learnable Integral Transform That Subsumes Convolution, Attention, and Recurrence

提出可学习积分变换ITNet,统一卷积、注意力和循环网络归纳偏置。
网络架构积分变换
12:00arXiv cs.AI精选 · 30

Uncertainty Decomposition for Clarification Seeking in LLM Agents

为交互式LLM智能体提供不确定性分解框架,以决定何时寻求澄清。
LLM智能体不确定性
03:25Hacker News精选 · 30

Integer Quantization: Deep Dive

一篇关于神经网络整数量化技术的深度解析文章。
模型压缩量化技术深度学习
02:13Hugging Face精选 · 40

MosaicLeaks: Can your research agent keep a secret?

HuggingFace发布MosaicLeaks基准,评估AI研究代理防止信息泄露能力。
Agent安全基准测试AI隐私
2026-06-18
17:14MarkTechPost精选 · 40

The KV Cache Compression Race: TurboQuant vs OSCAR vs EpiCache

比较TurboQuant、OSCAR、EpiCache三种KV缓存压缩方法,缓解长上下文内存瓶颈。
KV缓存长上下文模型压缩
17:12量子位精选 · 90

全员本科生!何恺明组新作:文生图,258M参数就够了

何恺明团队推出仅258M参数的文生图模型,作者多为本科生,参数极小。
文生图轻量模型何恺明
推荐理由:极小模型文生图,可能大幅降低AI生图门槛和成本,非常适合一人公司创作者。
🎯 给屿鹿的选题角度:待模型开源后,实测对比SDXL,展示在小红书封面生成上的速度与质量优势,突出低成本提效。
12:00arXiv cs.AI精选 · 20

NAVI-Orbital: First In-Orbit Demonstration of a Zero-Shot Vision-Language Model for Autonomous Earth Observation

首次在轨演示零样本视觉语言模型用于自主地球观测。
视觉语言模型地球观测在轨演示零样本
12:00arXiv cs.AI精选 · 30

CaVe-VLM-CoT: An Interpretable Vision-Language Model Framework

CaVe-VLM-CoT框架通过可解释推理链缓解VLM幻觉。
视觉语言模型可解释性推理链幻觉缓解
12:00arXiv cs.AI精选 · 30

Searching for Synergy in Shared Workspace Human-AI Collaboration

研究共享工作空间中人类与AI代理如何协同分工。
人机协作共享工作空间AI代理
12:00arXiv cs.AI精选 · 40

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench基准测试AI代理在长期战略游戏中的表现。
AI代理基准测试决策能力长期规划
12:00arXiv cs.AI精选 · 20

DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

DeFAb基准测试基础模型的可废止推理能力。
基础模型推理基准逻辑推理
12:00arXiv cs.AI精选 · 10

Optimizing Lithium Production Decisions under Geological, Demand, and Pricing Uncertainties: A POMDP Framework for Multi-Objective Decision Making

用POMDP框架优化锂矿生产中的不确定决策。
锂矿生产决策优化POMDP
12:00arXiv cs.AI精选 · 20

ForecastBench-Sim: A Simulated-World Forecasting Benchmark

ForecastBench-Sim提供模拟世界中的AI预测基准。
预测基准模拟世界AI系统
12:00arXiv cs.AI精选 · 20

What Must Generalist Agents Remember?

形式化分析通用智能体在跨域决策中需记忆的内容。
通用智能体记忆需求理论分析
12:00arXiv cs.AI精选 · 10

R2D-RL: A RoboCup 2D Soccer Environment for Multi-Agent Reinforcement Learning

开源RoboCup 2D足球环境用于多智能体强化学习。
多智能体强化学习机器人足球
12:00arXiv cs.AI精选 · 30

ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

提出基于LLM的智能体用户画像方法,用于网约车调度优化
大语言模型智能体用户画像网约车
10:28MarkTechPost精选 · 40

OpenAI Releases LifeSciBench, a 750-Task Benchmark Grading AI Models on Real Life-Science Research With Expert-Written Rubric

OpenAI发布LifeSciBench基准,用750个任务评估AI在真实生命科学研究的推理能力。
OpenAI基准测试生命科学
2026-06-17
23:26Hugging Face精选 · 40

MolmoMotion: Language-guided 3D motion forecasting

MolmoMotion 是一个语言引导的 3D 人体运动预测模型。
3D运动预测语言引导学术研究
23:00Google AI精选 · 40

New research shows how AMIE, our medical AI, could help manage health conditions.

Google医疗AI系统AMIE在复杂疾病管理中达到初级保健医生水平,研究发表于Nature。
AI医疗大模型对话系统
17:28Hacker News精选 · 70

Show HN: High-Res Neural Cellular Automata

神经网络元胞自动机可实时生成高清图案、PBR和3D纹理,支持自愈。
AI生图元胞自动机纹理生成
推荐理由:可实测的AI生图新工具,展示自我修复和纹理生成,适合制作新奇内容。
🎯 给屿鹿的选题角度:实测该工具,录制从种子生成图案、破坏后自动修复的过程,并演示导出纹理用于视频封面或设计素材,发布小红书图文或视频号口播,突出AI创意的降本增效。
15:44MarkTechPost精选 · 70

MiniMax Sparse Attention (MSA): a Two-Branch Block-Sparse Attention Trained on a 109B-Parameter MoE With a 3T-Token Budget

MiniMax发布稀疏注意力MSA,在109B模型上减少注意力计算28.4倍。
稀疏注意力MiniMax大模型效率
推荐理由:MiniMax新注意力技术可大幅降低大模型推理成本,影响未来AI应用。
🎯 给屿鹿的选题角度:用通俗比喻解读MSA原理,对比普通注意力与稀疏注意力的算力差异,结合“一人公司降本”落点,适合小红书图文,突出“更便宜的AI”。
13:49MarkTechPost精选 · 60

OpenAI’s Deployment Simulation Extends Pre-Deployment Risk Assessment to Agentic Coding Through Simulated Tool Calls

OpenAI发布部署模拟方法,通过重放对话评估新模型在智能编码等场景的风险
OpenAIAgent安全部署模拟智能编码
推荐理由:OpenAI在Agent安全评估的新方法,可转化为AI Agent风险探讨
🎯 给屿鹿的选题角度:视频号口播:“OpenAI如何确保AI Agent不乱来?”切入,解读部署模拟技术,落点创业者使用Agent的安全边界
12:00arXiv cs.AI精选 · 50

Beyond Parallel Sampling: Diverse Query Initialization for Agentic Search

论文提出多样化查询初始化方法,提升Agent搜索广度缩放效率,突破并行采样收益递减。
Agent搜索查询初始化测试时缩放论文
12:00arXiv cs.AI精选 · 20

When Rules Learn: A Self-Evolving Agent for Legal Case Retrieval

自进化智能体用于法律案例检索,通过规则学习提升精确匹配。
法律案例检索自进化智能体论文
12:00arXiv cs.AI精选 · 10

SkillChain-Gym: A Benchmark for Reskilling-Aware Production-Inventory Control under Disruptions

SkillChain-Gym基准测试用于评估生产库存控制中的技能重塑决策。
生产控制技能重塑基准
12:00arXiv cs.AI精选 · 10

Skill-Constrained Model Predictive Control for Resilient Manufacturing Supply Chains

技能约束模型预测控制方法用于弹性制造供应链管理。
模型预测控制制造供应链技能约束
12:00arXiv cs.AI精选 · 30

Nothing from Something: Can a Language Model Discover 0?

探究语言模型能否自主发现数字零的数学概念
数学推理语言模型
12:00arXiv cs.AI精选 · 40

Quantifying Consistency in LLM Logical Reasoning via Structural Uncertainty

通过结构不确定性量化LLM逻辑推理的一致性
推理评估一致性
12:00arXiv cs.AI精选 · 50

MemTrace: Probing What Final Accuracy Misses in Long-Term Memory

提出MemTrace评估LLM智能体长期记忆的一致性
智能体记忆评估
12:00arXiv cs.AI精选 · 30

SpeechDx: A Multi-Task Benchmark for Clinical Speech AI

临床语音AI多任务基准SpeechDx
语音识别医疗AI
12:00arXiv cs.AI精选 · 60

Distributed General-Purpose Agent Networks: Architecture, Key Mechanisms, and Prototypes

分布式通用智能体网络的架构、关键机制与原型
智能体网络分布式系统
推荐理由:分布式Agent网络可能成为未来人机协作基础设施,与一人公司提效潜在相关
🎯 给屿鹿的选题角度:解读分布式智能体如何通过协作实现复杂任务自动化,切入一人公司如何用多个AI Agent分工协作降低成本,适合小红书图文或视频号口播简析。
12:00arXiv cs.AI精选 · 30

Treatment Response Optimized Clinical Decision Support AI System via Digital Twin Simulation

利用数字孪生模拟优化临床决策支持的AI系统
数字孪生医疗AI
11:25Hacker News精选 · 20

Semiclassical Gravity Efficiently Solves NP-Complete Problems

论文声称半经典引力可高效解决NP完全问题
理论物理学NP完全量子计算
08:00OpenAI精选 · 50

Introducing LifeSciBench

OpenAI推出LifeSciBench,评估AI在生命科学真实研究任务的表现。
OpenAI基准测试生命科学
2026-06-16
23:46DeepMind精选 · 40

Securing the future of AI agents

DeepMind发布AI控制路线图,结合传统安全与实时监控保障AI智能体。
AI安全AI智能体DeepMind
19:07Hacker News精选 · 30

DuckDB Internals: Why Is DuckDB Fast? (Part 1)

技术文章分析DuckDB内部原理,解释其高性能原因。
DuckDB数据库性能优化
12:00arXiv cs.AI精选 · 30

A Definition of Good Explanations and the Challenges Explaining LLM Outputs

论文探讨了LLM输出解释的定义和挑战,偏向学术理论,实操转化难度高。
LLM可解释性解释质量
12:00arXiv cs.AI精选 · 70

Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

论文提出Dr-DCI框架,通过动态扩展工作区让智能体直接与大规模语料交互,提升Agent搜索效率。
Agent搜索动态工作区知识检索
推荐理由:提出让AI智能体像人类一样边搜边思考的方法,可能显著提升内容创作中的资料收集和信息整合效率。
🎯 给屿鹿的选题角度:解读Dr-DCI论文:如何用“动态工作区”让AI搜索效率翻倍?可制作小红书图文“我让AI学会了边找边想,做内容快多了”,展示对比案例,落点:一人公司用AI智能体做选题调研的提效技巧。
12:00arXiv cs.AI精选 · 30

Relational Structural Causal Models

论文提出关系结构因果模型,涉及因果推理基础理论,实操性较低。
因果模型
12:00arXiv cs.AI精选 · 50

Trust Between AI Agents: Measuring Formation, Breakage, and Recovery, with Implications for Governing Multi-Agent Systems

提出基于代价验证的行为度量,衡量AI智能体间信任的建立、破裂与恢复。
AI智能体信任测量多智能体系统
12:00arXiv cs.AI精选 · 50

PrologMCP: A Standardized Prolog Tool Interface for LLM Agents

提出PrologMCP接口,用符号推理增强LLM智能体的深度演绎任务性能。
LLM智能体符号推理PrologMCP
12:00arXiv cs.AI精选 · 20

Semantics-Enhanced Retrieval-Augmented Time Series Forecasting

语义增强的检索增强时间序列预测方法,利用语义信息改进检索。
时间序列预测RAG语义增强
12:00arXiv cs.AI精选 · 10

AI Engram: In Search of Memory Traces in Artificial Intelligence

提出几何框架识别深度神经网络中的AI印迹,类比生物记忆单位。
记忆痕迹AI理论几何框架
12:00arXiv cs.AI精选 · 40

Metric Match: A Subset Selection Approach to Evaluating LLM Judge Reliability

子集选择方法评估LLM裁判可靠性,减少对人工对齐的昂贵依赖。
LLM评估可靠性子集选择
12:00arXiv cs.AI精选 · 50

OSGuard: A Benchmark for Safety in Computer-Use Agents

引入OSGuard双粒度基准,评估计算机使用代理的任务成功与安全合规。
AI代理安全基准计算机使用
12:00arXiv cs.AI精选 · 10

Fusion is not one-size-fits-all: Cross-Modal Representation Alignment for Time-to-Event Modeling

基础模型驱动的跨模态对齐框架,用于CT影像与临床数据的时间到事件建模。
跨模态对齐医学AI时间到事件预测
08:00OpenAI精选 · 50

Predicting model behavior before release by simulating deployment

OpenAI推出部署模拟方法,用真实对话数据预测模型发布前行为,提升安全评估。
部署模拟模型安全OpenAI
2026-06-15
17:16MarkTechPost精选 · 40

Meet Flash-KMeans: An IO-Aware, Exact K-Means That Runs Over 200× Faster Than FAISS on GPUs

开源 GPU K-Means 比 FAISS 快 200 倍,精确无近似,基于 Triton 内核。
K-MeansGPU加速Triton开源
12:00arXiv cs.AI精选 · 20

A Deep Reinforcement Learning (DRL)-Based Transformer Method for Solving the Open Shop Scheduling Problem

DRL-Transformer方法解决开放式车间调度问题。
深度强化学习调度优化
12:00arXiv cs.AI精选 · 30

UP-NRPA: User Portrait based Nested Rollout Policy Adaptation for Planning with Large Language Models in Goal-oriented Dialogue Systems

基于用户画像的LLM对话策略规划框架UP-NRPA。
对话系统LLM智能体
12:00arXiv cs.AI精选 · 10

History of the Muddy Children Puzzle

追溯Muddy Children Puzzle历史起源的论文。
逻辑谜题
12:00arXiv cs.AI精选 · 70

Orchestra-o1: Omnimodal Agent Orchestration

Orchestra-o1: 全模态多智能体编排框架。
多智能体系统Agent编排Omnimoda
推荐理由:新的多模态Agent编排框架,可能影响未来Agent产品设计,值得关注。
🎯 给屿鹿的选题角度:可以出一期视频/图文,介绍Orchestra-o1的核心思路,并讨论它对未来AI应用的影响,落点在一人公司如何利用多Agent协作提效。
12:00arXiv cs.AI精选 · 60

Hybrid Open-Ended Tri-Evolution Makes Better Deep Researcher

Hybrid Open-Ended Tri-Evolution提升深度研究智能体性能。
深度研究智能体进化AI Resea
推荐理由:提升AI研究智能体的新方法,可能启发未来工具。
🎯 给屿鹿的选题角度:做个科普解读:这篇论文如何让AI像人类研究员一样进化?结合日常用AI做调研的场景,讨论未来可能性。
12:00arXiv cs.AI精选 · 70

WorkBench Revisited: Workplace Agents Two Years On

WorkBench重测:智能体两年任务成功率提升,有害行为减少
AI智能体基准测试职场自动化Claude
推荐理由:展示AI智能体在真实办公任务中的实测进展,对比两年前数据,适合做‘AI员工进化’选题
🎯 给屿鹿的选题角度:制作对比短视频:用两年前GPT-4与当前Claude Opus在邮件、文档等任务的完成率/失误率,突出‘现在哪些工作可放心交给AI’,引导评论分享体验
12:00arXiv cs.AI精选 · 30

Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP

对比两种方法移除LLM安全微调中的拒绝方向
安全对齐LLM表示工程
12:00arXiv cs.AI精选 · 40

YeasierAgent: Agentic Social Sandbox as a Canvas for Intent-Driven Creation of Platform-Agnostic Symbiotic Agent-Native Applications

提出YeasierAgent,基于共生智能体和叙事世界的应用构建范式
智能体应用叙事世界应用范式
12:00arXiv cs.AI精选 · 40

TwinBI: An Agentic Digital Twin for Efficient Augmented Interactions with Business Intelligence Dashboards

提出TwinBI,通过智能体数字孪生增强BI仪表盘交互
BI数字孪生智能体
12:00arXiv cs.AI精选 · 30

When Sample Selection Bias Precipitates Model Collapse

研究样本选择偏差如何加速模型崩溃
模型崩溃合成数据数据选择
2026-06-14
10:55Hacker News精选 · 50

Making Claude a Chemist

Anthropic 发布研究:让 Claude 扮演化学家执行推理与实验设计。
Claude化学推理能力
2026-06-13
10:02Hacker News精选 · 20

TycoonLE: A Jax reinforcement learning environment for long-horizon planning

Jax强化学习环境TycoonLE开源,面向长程规划任务训练。
强化学习Jax长程规划
04:14Hacker News精选 · 20

Can I Buy Your KV Cache?

论文探讨KV Cache交易市场,属于LLM推理优化,与创作者内容赛道关联弱。
KV CacheLLM推理
2026-06-12
20:00Hacker News精选 · 20

Maxproof

论文Maxproof涉及数学证明,与AI核心赛道无关。
论文数学证明
12:24Hacker News精选 · 20

Device Clock Generation

技术文章介绍设备时钟生成原理。
时钟硬件
12:00arXiv cs.AI精选 · 60

ToolSense: A Diagnostic Framework for Auditing Parametric Tool Knowledge in LLMs

ToolSense框架可诊断LLM代理的参数化工具知识,解决工具检索瓶颈。
AI智能体工具检索LLM
推荐理由:为AI Agent工具选择提供诊断思路,可引申为提升代理可靠性的实操话题。
🎯 给屿鹿的选题角度:可做一期「如何确保AI Agent选对工具?」的科普视频,结合实测Demo展示ToolSense思想在Coze或Dify中的简单应用,落点提升自动化工作流稳定性。
12:00arXiv cs.AI精选 · 70

Arbor: Tree Search as a Cognition Layer for Autonomous Agents

Arbor框架为自主Agent引入树搜索认知层,用于大规模状态动作空间决策。
AI智能体树搜索认知架构
推荐理由:树搜索增强Agent决策可启发复杂任务自动化思路,适合做「一人公司如何用Agent搞定多步复杂任务」的选题。
🎯 给屿鹿的选题角度:策划一期小红书图文,用信息图拆解树搜索如何让Agent更像人一样思考,结合案例演示通过Coze或AutoGPT实现多步决策,突出降本增效。
12:00arXiv cs.AI精选 · 60

Strategic Decision Support for AI Agents

论文探讨AI代理作为决策者、人类作为支持者的新型决策支持模式。
AI智能体决策支持人机协作
推荐理由:角色反转视角新颖,可延伸为「未来老板只需审核,AI员工做决策」的内容话题。
🎯 给屿鹿的选题角度:制作视频口播,讨论AI代理如何替老板做初步决策,结合自动化数据复盘工作流,展示一人公司管理提效的想象空间。
12:00arXiv cs.AI精选 · 30

Pythagoras-Prover: Advancing Efficient Formal Proving via Augmented Lean Formalisation

Pythagoras-Prover通过增强Lean形式化提升定理证明效率。
定理证明Lean
12:00arXiv cs.AI精选 · 20

PersonaDrive: Human-Style Retrieval-Augmented VLA Agents for Closed-Loop Driving Simulation

PersonaDrive提出检索增强VLA代理,模拟人类驾驶风格用于闭环仿真。
自动驾驶仿真
12:00arXiv cs.AI精选 · 50

"Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

研究通过模型尺度对比评估语言模型测谎器,构建信念验证模型有机体。
AI安全测谎模型审计
推荐理由:测谎话题有传播力,可轻科普,但离提效较远。
🎯 给屿鹿的选题角度:可做趣味科普图文「如何测试你的AI有没有撒谎?」,提及论文思路,但需注意转化实用性,否则易成纯猎奇。
12:00arXiv cs.AI精选 · 20

TrajGenAgent: A Hierarchical LLM Agent for Human Mobility Trajectory Generation

TrajGenAgent为LLM代理,用于生成人类移动轨迹数据。
轨迹生成LLM代理
12:00arXiv cs.AI精选 · 40

Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents

Evoflux方法让小型模型在推理时动态生成工具工作流
AI智能体工具工作流紧凑模型
12:00arXiv cs.AI精选 · 20

From AGI to ASI

论文探讨从AGI到ASI的演进路径与影响
AGIASI宏观展望
12:00arXiv cs.AI精选 · 20

Deployment-Centered Evaluation: Predicting Query-Level Rejection Risk in a Clinical LLM System

论文提出预测临床LLM系统查询级拒绝风险的部署评估方法
医疗LLM部署评估风险预测
08:45Hacker News精选 · 20

Deconstructing Datalog

解构Datalog查询语言的文章,作者发布研究论文。
Datalog查询语言论文
08:38Hacker News精选 · 0

Nobody ever gets credit for fixing problems that never happened (2002) [pdf]

MIT论文探讨预防问题却得不到认可的悖论。
MIT管理悖论
07:33Hacker News精选 · 0

Biological Evolution and Information Acquisition

生物进化与信息获取研究
生物进化信息获取
03:54Hacker News精选 · 30

Shall we play a game? – LLMs use tactical nukes in 95% of simulations

LLMs在95%的模拟中选择使用战术核武器,引发AI决策风险讨论。
AI安全LLM行为模拟研究
2026-06-11
19:00MIT Tech Review精选 · 70

Google DeepMind is worried about what happens when millions of agents start to interact

Google DeepMind资助研究数百万AI代理在线交互的潜在安全风险。
AI Agent安全DeepMind
推荐理由:AI代理规模化带来新风险,可做警示性观点内容吸引关注。
🎯 给屿鹿的选题角度:解读DeepMind对多代理交互风险的担忧,讨论一人公司使用多Agent的注意事项,制作视频口播观点。
12:00arXiv cs.AI精选 · 30

From Explicit Elements to Implicit Intent: A Predefined Library for Auditable Behavioral Inference

提出SemantiClean框架从电商会话数据提取语义信号。
行为推断电商
12:00arXiv cs.AI精选 · 40

Position: Hippocampal Explicit Memory Is the Cornerstone for AGI

论文主张显式记忆是实现AGI的基石。
AGI记忆模型
12:00arXiv cs.AI精选 · 50

Can AI Agents Synthesize Scientific Conclusions?

引入SciConBench评估科学AI智能体综合能力。
AI智能体科学综合
12:00arXiv cs.AI精选 · 50

Knowing When to Ask: Self-Gated Clarification for Hierarchical Language Agents

提出自门控澄清机制提升分层语言智能体表现。
AI智能体分层推理
12:00arXiv cs.AI精选 · 40

Automated Mediator for Human Negotiation: Pre-Mediation via a Structured LLM Pipeline

基于LLM的结构化预调解流程辅助人类谈判。
LLM应用调解
12:00arXiv cs.AI精选 · 50

INFRAMIND: Infrastructure-Aware Multi-Agent Orchestration

提出基础设施感知的多智能体编排方法INFRAMIND。
多智能体基础设施
12:00arXiv cs.AI精选 · 30

Forecasting Future Behavior as a Learning Task

将预测大推理模型未来行为作为学习任务建立信任。
模型行为信任
12:00arXiv cs.AI精选 · 60

Search Discipline for Long-Horizon Research Agents

论文研究长周期科研智能体的搜索纪律,指出聚合指标可能忽视科学有效性。
AI智能体科研自动化长周期任务
推荐理由:智能体前沿研究,可科普给受众看AI如何自动做科研提效。
🎯 给屿鹿的选题角度:做成图文科普:“AI智能体帮科学家做实验?靠谱吗?”拆解论文核心观点,落点在AI辅助决策的局限性。
12:00arXiv cs.AI精选 · 70

MoCA-Agent: A Market-of-Claims Code Agent for Financial and Numerical Reasoning

MoCA-Agent金融数值推理智能体,通过声明市场机制确保计算精确。
AI智能体金融推理代码生成
推荐理由:金融领域AI Agent可辅助老板快速分析财报,展现一人公司提效潜力。
🎯 给屿鹿的选题角度:实测对比:用MoCA-Agent与普通GPT算财报数据,看谁更准。小红书图文展示过程,标题“AI算账比会计还稳?”
12:00arXiv cs.AI精选 · 50

SkillJuror: Measuring How Agent Skill Organization Changes Runtime Behavior

SkillJuror研究技能组织方式对智能体行为的影响,提出渐进披露评估法。
AI智能体技能组织评估方法
07:35Hacker News精选 · 40

Deficient executive control in transformer attention

研究指出Transformer注意力机制存在执行控制缺陷。
Transfor注意力机制学术研究
推荐理由:学术论文,与实操提效关联度低。
00:11TechCrunch AI精选 · 60

How memory tools can make AI models worse

新研究发现AI记忆系统可能降低模型性能,并加剧谄媚倾向。
AI记忆模型性能谄媚倾向
推荐理由:可警示用户避免盲信AI记忆功能,提升内容可控性。
🎯 给屿鹿的选题角度:实测对比:开启与关闭记忆功能的ChatGPT输出差异,展示谄媚倾向实例,提供关闭记忆或重置技巧。落点:创作者如何避免AI盲目附和导致内容失真,适合小红书图文/视频口播。
2026-06-10
12:00arXiv cs.AI精选 · 40

Business World Model

论文提出企业AI工具转型需构建智能系统
AI转型商业模型
12:00arXiv cs.AI精选 · 60

Deployment-Time Memorization in Foundation-Model Agents

论文研究基础模型代理在部署时的记忆功能
AI智能体记忆隐私
推荐理由:探讨AI代理记忆用户互动的机制,与Agent赛道相关
🎯 给屿鹿的选题角度:可做一期视频:「AI代理会记住你什么?」,结合论文讨论记忆带来的便利与隐私风险,落地到如何安全使用Agent工具。
12:00arXiv cs.AI精选 · 30

Exploratory Responsiveness and Adaptive Rigidity under AI-Assisted Optimization

论文探讨AI辅助优化中的适应性僵化问题
AI优化
12:00arXiv cs.AI精选 · 20

Predictive Assistance and the Temporal Dynamics of Exploratory Compression

论文研究预测性AI如何压缩探索性搜索
认知科学
12:00arXiv cs.AI精选 · 50

From Senses to Decisions: The Information Flow of Auditory and Visual Perception in Multimodal LLMs

论文分析多模态LLM中视听信息流动路径
多模态LLM
12:00arXiv cs.AI精选 · 70

Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents

论文提出减少上下文可提升长任务LLM代理效率
AI智能体上下文工程效率
推荐理由:针对Agent工作流中的上下文溢出问题,提出效率优化方法,可转化为实操技巧
🎯 给屿鹿的选题角度:做一期实操内容:「如何让AI代理执行长任务不“失忆”?」,将论文中的上下文工程技巧转化为普通人能用的提示词策略,结合Coze或AutoGPT演示。
12:00arXiv cs.AI精选 · 20

Minimalist Genetic Programming

论文提出极简遗传编程方法
遗传编程
12:00arXiv cs.AI精选 · 30

Regimes: An Auditable, Held-Out-Gated Improvement Loop Demonstrated on LongMemEval with ActiveGraph

提出可审计的自主改进循环架构,并在LongMemEval上验证其效果。
AI Agent改进循环可审计性
12:00arXiv cs.AI精选 · 20

RealMath-Eval: Why SOTA Judges Struggle with Real Human Reasoning

研究发现顶尖LLM在评估真实人类数学推理过程时表现不佳。
LLM评估数学推理Reasonin
12:00arXiv cs.AI精选 · 20

Supervised Fine-tuning with Synthetic Rationale Data Hurts Real-World Disease Prediction

合成理由数据微调会损害阿尔茨海默症等疾病预测任务性能。
微调合成数据医疗预测
03:38Hugging Face精选 · 80

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

前沿ASR系统在语码转换语音上的基准测试,评估双语语音助手能力
语音智能体双语ASR客服
推荐理由:展示语音AI在多语场景的进展,直接帮助老板们搭建双语客服降低成本。
🎯 给屿鹿的选题角度:制作小红书图文或视频,标题‘AI语音客服能说中英混合了?实测双语效果’,演示如何用现成工具搭建双语语音助手,强调降本增效,引导社群。
2026-06-09
21:27Hacker News精选 · 60

Is Grep All You Need? How Agent Harnesses Reshape Agentic Search

论文研究Agent如何用类似grep的方法重塑Agentic Search。
AI Agent搜索论文
推荐理由:Agent搜索能力提升可帮内容创作者更准抓取灵感,是打造AI研究助手的关键。
🎯 给屿鹿的选题角度:视频号演示:把论文思路转化为实操,教用户用AI Agent做深度主题搜索,快速收集写作素材,突出“一人成团队”的研究提效。
13:53MarkTechPost精选 · 90

A New Study from Harvard and Perplexity Finds AI Agents Perform 26 Minutes of Autonomous Work per Session vs 33 Seconds for Search

哈佛与Perplexity研究发现:AI智能体单次会话平均自主工作26分钟,远超搜索助手的33秒。
AI智能体自主工作效率对比
推荐理由:直观数据展示AI智能体长时自主工作的提效潜力,适合吸引创业者。
🎯 给屿鹿的选题角度:拍口播视频,标题“AI帮我打工26分钟,我只花33秒”,实测自主代理连续完成任务,强调“一人顶一个团队”的降本增效。
12:00arXiv cs.AI精选 · 10

PathoSage: Towards Multi-Source Evidence Adjudication in Pathology via Experience-Aware Agentic Workflow

PathoSage论文:病理学多源证据裁决的智能体工作流,与创作者核心赛道无关。
医疗AI智能体
12:00arXiv cs.AI精选 · 30

OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs

OmniMem:面向流式音视频LLM的记忆压缩,学术底层技术,与创作者直接关联弱。
视频理解记忆压缩
12:00arXiv cs.AI精选 · 80

Syll: Open-Source Personal Automation with Cross-Surface Execution

Syll开源自托管个人AI代理,可跨API、Web、桌面等多种界面自动执行任务。
开源代理个人自动化跨界面执行
推荐理由:若可部署,能自动处理多平台重复操作,实现一人公司的多任务自动化。
🎯 给屿鹿的选题角度:做一个“开源工具Syll介绍”视频,展示其跨平台自动发帖、数据抓取的潜力,引导观众持续关注自动化提效。
12:00arXiv cs.AI精选 · 10

A case study of evaluating AI agents on a neuroscience data-to-discovery pipeline

评估AI智能体在神经科学数据发现管道上的案例研究,与创作者无关。
科学AI智能体
12:00arXiv cs.AI精选 · 20

Why Limit the Residual Stream to Layers and Not Tokens? Persistent Memory for Continuous Latent Reasoning

关于LLM残差流与连续潜在推理的理论研究,与直接应用关联弱。
LLM理论推理
12:00arXiv cs.AI精选 · 10

Automatic Extraction of Structured Information from Brain MRI Reports Using an Open-Weight Large Language Model

用LLM自动提取脑MRI报告结构化信息,医疗领域,不相关。
医疗AI信息提取
12:00arXiv cs.AI精选 · 50

Some hypotheses on how chatbots work in problem-solving-driven conversations. Large Language Models as confirmation of the Innovation Illusion

探讨聊天机器人在问题解决对话中的局限性,提出创新幻觉的假设。
聊天机器人局限性创新幻觉
12:00arXiv cs.AI精选 · 30

Land cover and flood type govern the detection limits of satellite-based flood mapping across diverse global flood events

卫星洪水制图检测限受土地覆盖和洪水类型影响
洪水制图遥感基础模型
12:00arXiv cs.AI精选 · 30

Reconstructing and forecasting disease trajectories of patients with Alzheimer's disease using routine data in resource-constrained settings

用常规数据重建和预测阿尔茨海默病患者疾病轨迹
医疗AI疾病预测
12:00arXiv cs.AI精选 · 40

Improving Multimodal Reasoning via Worst Dimension Optimization

通过最差维度优化改进多模态推理过程奖励模型
多模态推理奖励模型
02:57MarkTechPost精选 · 20

ClawHub Security Signals: A Coding Guide to End-to-End Security Signal Analysis and Verdict Classification on the AI Skills Dataset

ClawHub安全信号分析编码指南,评估AI技能数据集
安全分析AI技能
2026-06-07
14:25MarkTechPost精选 · 40

Meet Harness-1: A 20B Retrieval Subagent Trained With Reinforcement Learning Inside a Stateful Search Harness on gpt-oss-20b

Harness-1发布,一个20B检索子代理,在搜索框架中用强化学习训练。
检索代理强化学习搜索增强
2026-06-03
20:29AI News精选 · 20

How E.ON uses SAP S/4HANA to modernise the grid with AI

Direct Preference Optimization(DPO)在聊天机器人之外的应用探索。
DPO对齐技术
2026-05-27
08:00Hugging Face精选 · 30

Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL

TRL 中实现 Delta Weight Sync:一种高效传输万亿参数模型的方法。
大模型训练参数同步
2026-05-16
16:16DeepMind精选 · 10

Finding the molecular switches behind new infectious diseases

Co-Scientist 帮助识别新传染病的基因触发器。
AI 科学传染病
16:08DeepMind精选 · 10

Opening new paths in aging research

Co-Scientist 连接衰老研究的分散发现,生成新线索。
AI 科学衰老
16:00DeepMind精选 · 10

Accelerating discovery of liver disease mechanisms

Co-Scientist 加速肝病机制发现,解释药物差异性。
AI 科学肝病
15:53DeepMind精选 · 10

Uniting biological toolkits for a new approach to ALS

Co-Scientist 联合波士顿儿童医院和 MIT 探索 ALS 的 RNA 疗法。
AI 科学ALS
15:40DeepMind精选 · 10

Uncovering repurposed medicines to fight liver fibrosis

Co-Scientist 帮助发现肝纤维化的药物再利用。
AI 科学肝纤维化
11:14DeepMind精选 · 10

How WeatherNext helped the National Hurricane Center better predict Hurricane Melissa’s historic landfall in Jamaica

WeatherNext AI 模型助力预测飓风 Melissa 登陆,提前预警。
AI 天气预测飓风
2024-11-28
08:00Lilian Weng精选 · 40

Reward Hacking in Reinforcement Learning

强化学习中奖励黑客行为剖析:代理利用奖励函数漏洞获取高分。
强化学习奖励黑客漏洞
2024-07-07
08:00Lilian Weng精选 · 70

Extrinsic Hallucinations in LLMs

聚焦LLM的外在幻觉:生成违背事实的内容,探讨成因与缓解方案。
幻觉大模型内容真实性防幻觉
推荐理由:AI创作常见陷阱,可教用户如何避免胡编乱造,提升内容可信度。
🎯 给屿鹿的选题角度:小红书图文:《AI总爱编造事实?3个方法让它说真话》,结合RAG、来源验证等技巧,用案例对比演示。
2024-04-12
08:00Lilian Weng精选 · 80

Diffusion Models for Video Generation

扩散模型从图像合成迈向视频生成,梳理技术挑战与前沿进展。
视频生成扩散模型AI工具
推荐理由:最新视频生成技术综述,可横向对比主流工具,为创作者提供选型参考。
🎯 给屿鹿的选题角度:视频号实测:对比Runway、Pika等工具生成视频的质量,引用文中技术原理解释差异,最后推荐适合一人公司的视频AI工具。
2024-02-05
08:00Lilian Weng精选 · 60

Thinking about High-Quality Human Data

高质量人类数据是模型训练关键,探讨数据获取与质量评估方法。
数据质量人类标注提示词
推荐理由:提示词即数据,可借助高质量数据思维优化提示词设计,提升AI输出。
🎯 给屿鹿的选题角度:短视频:你的提示词是‘垃圾数据’吗?借鉴高质量数据标准,分享撰写有效提示词的5个原则。