SheepNav

AI 资讯

每日聚合最新人工智能动态

来源:TechCrunch清除筛选 ×

Elon Musk's xAI surprised the AI world when it made a deal to sell compute to Anthropic. Now we know how much it's worth.

TechCrunch11天前原文

OpenAI 宣称其新型推理模型成功证明了一个自 1946 年以来悬而未决的几何猜想。与七个月前 GPT-5 声称解决 10 个 Erdős 问题却遭数学家驳斥的尴尬不同,这次有多位知名数学家为结果背书。 ## 背景:从“翻车”到“翻盘” 去年,OpenAI 前 VP Kevin Weil 曾高调宣布 GPT-5 解决了 10 个 Erdős 问题并取得 11 个进展,随后被数学家指出这些“解决”只是复现了已有文献中的结果,并非原创证明。Yann LeCun 和 Demis Hassabis 等业界领袖纷纷嘲讽,Weil 不得不删除帖子。 ## 这次有何不同? 本次成果针对的是 Paul Erdős 于 1946 年提出的一个几何猜想。OpenAI 表示,其新推出的通用推理模型(非专门为数学设计)独立发现了一类全新的构造,证明“近似正方形网格是最优解”这一近 80 年的信念是错误的。数学家 Noga Alon、Melanie Wood 以及维护 Erdős 问题网站的 Thomas Bloom 均发表了支持性评论。Bloom 曾批评 OpenAI 之前的说法是“严重的误述”,但这次他评价道:“AI 正在帮助我们更全面地探索几个世纪以来建造的数学大教堂。” ## 意义与行业影响 OpenAI 强调,这是 AI 首次自主解决一个领域内的核心开放问题。该模型并非专攻数学,而是通用推理模型,这意味着 AI 已具备**维持长链推理**和**跨领域连接思想**的能力。这种能力可应用于生物学、物理学、工程学和医学等领域。 然而,业界仍需保持审慎:一次成功的验证并不能完全消除对 AI 数学推理可靠性的疑虑。但至少,这次有权威数学家的公开背书,让 OpenAI 的声明有了更坚实的依据。

TechCrunch11天前原文

Google 在 2026 年 I/O 大会上正式发布 **Pics**,一款面向 Google Workspace 的 AI 设计与图像生成应用,旨在让教师、小企业主等非专业用户也能轻松创建社交媒体图片、邀请函、营销素材等视觉内容。 ### 核心功能与差异化 Pics 的最大亮点在于**深度可编辑性**。用户通过文本提示生成图像后,可像在 Google Docs 中批注一样,点击任意元素并直接修改——例如更改邀请函上的时间,无需重新生成整个图像。这一交互由 **Gemini** 驱动的编辑层实现,克服了当前 AI 图像模型“一改全改”的痛点。 模型方面,Pics 搭载 **Nano Banana 2**,Google 称其擅长精准文字渲染、现实世界知识理解及细节视觉输出,为设计任务提供基础能力。 ### 竞争格局与战略意义 Pics 的发布标志着 Google 正式进入 AI 设计战场,直接对标 **Canva** 和 Anthropic 的 **Claude Design**。随着 AI 生成图像质量趋同,**易用性与编辑灵活性**成为新的竞争焦点。Google 将 Pics 原生集成于 Workspace,支持跨应用协作(如 Docs、Slides),意图通过生态优势锁定企业用户。 ### 可用性 Pics 目前向 I/O 参会测试者开放,计划于今年夏季面向 **Google AI Ultra** 订阅用户推出。 小结:Google 借助 Pics 展示了其在 AI 设计领域的野心——不仅提供生成能力,更强调**可控编辑**与**协作体验**,试图在快速增长的 AI 创意工具市场中占据一席之地。

TechCrunch12天前原文

Google 在 IO 2026 开发者大会上宣布为 Gmail 推出名为 **Gmail Live** 的对话式 AI 功能,让用户可以直接用自然语言向 Gemini 提问,快速找到收件箱中埋藏的信息。 ### 从关键词搜索到自然语言对话 以往在 Gmail 中查找邮件,用户需要输入关键词或发件人地址,再手动筛选结果。Gmail Live 改变了这一流程:用户可以直接说出“我的航班是几点的?”“牙医预约时间是多少?”“Airbnb 的进门密码是多少?”等问题,AI 会自动理解并给出答案。 产品负责人 Devanshi Bhandari 在演示中展示了该功能的强大之处:它能回答自然语言问题、处理后续追问,甚至在用户打断时灵活切换话题。例如,当用户询问孩子学校的“展示与讲述”项目后,接着问“那次班级旅行呢?”,AI 能够区分“field trip”和“trip”的细微差别,并准确提取相关信息。 ### 技术亮点:上下文理解与细节提取 Gmail Live 不仅能找到包含关键词的邮件,还能从邮件中提取更细粒度的信息,比如酒店房间号、活动具体时间等。即使邮件中没有明确提到人名,AI 也能根据上下文推断用户所指的对象。这种能力得益于 Gemini 模型对语义和对话语境的深度理解。 ### 行业背景:AI 落地的实用主义 在 AI 价值备受质疑的当下——尤其当大规模数据中心建设推高电价、引发公众不满时——Google 希望用 Gmail Live 这样贴近日常的实用功能,向外界证明 AI 的真实价值。找回一封“藏起来”的邮件是几乎每个人都经历过的痛点,一个简单的对话式搜索就能大幅提升效率。这也与 Google 一贯的“AI 优先”战略一致:将先进模型嵌入亿级用户产品,而非停留在实验室演示中。 ### 可用性与展望 Gmail Live 目前已在 Google I/O 上首次公开亮相,预计将逐步向 Gmail 用户开放。该功能支持语音输入,用户只需像使用 Gemini 或 ChatGPT 那样说出问题,即可获得即时回复。随着 AI 进一步融入办公和日常生活,Gmail Live 可能成为邮箱搜索的新基准。

TechCrunch12天前原文

在2026年Google I/O大会上,谷歌宣布为搜索引入全新的“信息代理”功能。与传统搜索每次都需要用户主动提问不同,这些AI代理可以在后台7×24小时持续运行,自动监控用户关注的主题,并在出现重要更新时主动推送通知。 ## 从“谷歌快讯”到“AI代理”的进化 谷歌早在2003年就推出了谷歌快讯(Google Alerts)服务,允许用户订阅关键词并接收邮件通知。而新一代的信息代理则在此基础上实现了质的飞跃——它不再只是简单地推送链接,而是能够**从多个来源综合信息**,解释事件的重要性,对比不同观点,并提供可操作的建议。 例如,如果你关注某只股票,代理可以全天监控市场活动,追踪突发新闻,总结财报,并在股价发生重大变化时及时提醒,同时附上摘要和详细链接。 ## 信息代理能做什么? 谷歌信息代理的应用场景非常广泛,几乎覆盖了日常信息跟踪的方方面面: - **金融市场**:监控特定公司、股价或经济趋势 - **旅行规划**:追踪航班价格波动,在降价时提醒 - **体育赛事**:跟进球队动态和比赛结果 - **新闻事件**:持续关注突发新闻的进展 - **生活服务**:监测电影票、天气、交通状况 - **求职租房**:跟踪岗位发布或房价变化 ## 如何使用? 用户只需在搜索的AI模式(AI Mode)中输入类似“**帮我关注《曼达洛人与格鲁古》附近的电影票**”这样的指令,谷歌就会自动创建对应的信息代理。当有相关更新时,谷歌应用会发送推送通知。用户还可以在AI模式历史中查看所有活跃的跟踪主题,随时管理、调整或关闭提醒。 ## 上线计划与搜索变革 该功能将于今年夏天率先面向美国的**Google AI Pro和Ultra订阅用户**推出,随后扩展到其他市场。 除了信息代理,谷歌还宣布了对搜索界面的大规模重新设计,包括一个重新构想的“智能搜索框”——这被描述为**25年来搜索最大的改变**。新界面支持更长、更口语化的查询,并引入了AI驱动的查询建议。 ## 行业意义 信息代理的推出标志着搜索引擎从“被动响应工具”向“主动智能助手”的关键转变。在AI代理竞争日益激烈的当下,谷歌正试图将搜索从单一的信息检索入口,升级为能够持续陪伴用户的**生活与工作中枢**。这不仅提升了用户粘性,也为个性化信息服务开辟了新的可能。

TechCrunch12天前原文

少年黑客转型网络安全专家,Shay Shwartz创立的Ocean公司近日获得2800万美元融资,旨在用AI对抗AI驱动的钓鱼攻击。 ## 从黑客到守护者 Shay Shwartz的职业生涯颇具戏剧性:16岁时他曾是一名黑客,靠攻击系统赚钱,但被捕后幡然醒悟,转而利用技术才能防御攻击。此后,他在以色列顶级国防和情报部门工作了近十年,参与过“铁穹”等重大项目,后加入被HPE收购的初创公司Axis。两年前,他终于创立了自己的公司——Ocean。 ## Ocean:AI驱动的邮件安全平台 Ocean是一个**自主式邮件安全平台**,专门应对AI驱动的钓鱼攻击。Shwartz指出,传统安全厂商如Proofpoint、Mimecast以及新秀Abnormal Security主要防御标准钓鱼攻击,但AI改变了游戏规则。过去,只有顶级黑客才能发起精准的鱼叉式钓鱼攻击,因为需要大量时间、研究和手动操作。而现在,“AI让整个过程自动化,攻击规模大幅扩大,”Shwartz表示,“我可以让LLM去了解你是谁,收集大量公开信息,然后创建极具针对性的钓鱼邮件。” Ocean的AI能**深入分析每封邮件的上下文**,检测欺诈和冒充行为。平台已为Kayak、Kingston Technology和Headspace等客户每月审查数十亿封邮件。其核心是一个**小型语言模型**,专为快速分析邮件、理解发件人意图并评估其与用户组织上下文的匹配度而设计。Shwartz比喻道:“这就像在每个门口安排一名守卫,让收件箱变得安全、卫生。” ## 融资与行业背景 本轮**2800万美元融资**由Lightspeed Venture Partners领投,Picture Capital和Cerca Partners参投,并吸引了多位知名天使投资人,包括Wiz联合创始人兼CEO Assaf Rappaport,以及Armis联合创始人Yevgeny Dibrov和Nadir Izrael(Armis近期以77.5亿美元出售给ServiceNow)。这表明,AI驱动的邮件安全领域正成为投资热点。 随着AI生成钓鱼邮件的成本降低、效率提升,传统防御手段面临挑战。Ocean的差异化在于其**上下文感知能力**,而非仅依赖规则或已知威胁特征。这种“行为分析+AI模型”的方法,有望在日益复杂的威胁环境中提供更主动的防护。 ## 小结 从少年黑客到“铁穹”研究员,再到创业者,Shwartz的经历印证了网络安全领域的攻防博弈。Ocean的融资和市场进展,也反映出业界对AI安全新范式的迫切需求。未来,能否持续迭代模型、应对新型攻击,将是Ocean能否在激烈竞争中立足的关键。

TechCrunch12天前原文

陪审团迅速驳回埃隆·马斯克对OpenAI联合创始人萨姆·奥特曼、格雷格·布罗克曼以及微软的诉讼,这一决定证实了法庭上的直观感受:马斯克的案件本身薄弱,部分原因在于他拖延太久才提起诉讼。上周的结案陈词中,OpenAI的律师逐点详述法律如何有利于其客户,而原告团队则聚焦奥特曼的诚信问题,并对有人不同意马斯克的指控表示难以置信。最终结果令一些人难以相信马斯克会败诉——包括他自己。马斯克在随后删除的帖子中称法官为“可怕的激进奥克兰法官”,并宣布计划上诉,声称“任何关注案件细节的人都会毫无疑问地认为,奥特曼和布罗克曼确实通过窃取慈善机构中饱私囊”。 但庭审揭示,奥特曼和布罗克曼并非唯一从OpenAI非营利投资中获益的人。马斯克及其法律团队试图将审判焦点对准奥特曼,但过程同样暴露了马斯克自身的问题。法庭上披露的一件事显示,马斯克曾以令人不安的相似方式从OpenAI获益。布罗克曼作证称,2017年马斯克要求他带一组OpenAI研究员到特斯拉总部协助自动驾驶团队几周。布罗克曼表示:“很明显我们无法拒绝。”他描述带领包括安德烈·卡帕斯、伊利亚·苏茨克弗和斯科特·格雷在内的顶尖科学家,为“士气低落”的特斯拉员工提供咨询。他们帮助提出改进车辆自动驾驶技术的方案,苏茨克弗甚至告诉团队,如果找到10000个棘手边缘案例的图像,就能修复软件。马斯克还要求布罗克曼推荐解雇员工,但遭拒绝。另一位知情人士证实了这一说法,并称特斯拉未就员工的时间和努力向OpenAI提供补偿。 马斯克案件的核心是,奥特曼、布罗克曼和OpenAI违反了慈善信托——马斯克为特定慈善目的捐款,而联合创始人却将其挪作他用。他还指控他们因OpenAI营利部门的股票及其他福利而获得不当得利。然而,庭审证据表明,马斯克本人也曾试图将OpenAI的资源用于个人商业利益,这削弱了他的道德立场。法官最终裁定,马斯克未能证明存在不可弥补的损害,且其长期沉默导致诉讼时效已过。此案不仅关乎法律,更折射出AI行业巨头之间复杂的关系与利益纠葛。

TechCrunch12天前原文

在2026年Google I/O大会上,谷歌宣布与**Warby Parker**和**Gentle Monster**合作,推出新一代AI智能眼镜。这款设备被定位为“音频眼镜”,用户可通过语音指令调用谷歌生态内的应用和服务,包括**Gemini**助手。眼镜将与Android和iOS设备配对,由三星参与设计,预计今年晚些时候上市。 谷歌并非初次涉足智能眼镜领域。多年前推出的**Google Glass**曾因隐私争议和“玻璃孔”(glassholes)的贬称而备受诟病。但如今市场环境已大不相同——以**Meta**为首的大公司以及众多初创企业正积极布局。Meta的Ray-Ban Stories系列已取得一定成功,而谷歌此次选择音频交互而非显示功能,旨在规避隐私问题,同时发挥其在语音助手和AI生态上的优势。 ### 产品亮点 - **语音交互**:用户可与眼镜对话完成操作,例如通过Gemini直接下单咖啡。 - **跨平台支持**:兼容安卓和iOS,降低使用门槛。 - **设计合作**:Warby Parker和Gentle Monster提供时尚镜框,三星负责硬件工程。 ### 行业背景 智能眼镜市场正从“噱头”转向实用。Meta的音频眼镜已证明语音交互的可行性,而谷歌此次押注AI助手Gemini,意图将其打造成核心卖点。不过,与Meta的Ray-Ban合作类似,谷歌也需解决电池续航、长时间佩戴舒适度以及隐私问题。 ### 小结 谷歌的“音频眼镜”策略更务实:避开AR显示的复杂技术,专注语音这一成熟交互方式。若定价合理,它可能成为继Pixel Buds后谷歌又一款成功的可穿戴设备。但面对Meta和众多初创公司的竞争,谷歌需要确保Gemini的响应速度和生态整合能力足够出色。

TechCrunch12天前原文

在2026年Google I/O大会上,谷歌宣布重返智能眼镜赛道,推出名为“音频眼镜”的新产品。该设备与Warby Parker和Gentle Monster合作设计,并由三星参与制造,支持Android和iOS设备。用户可通过语音指令与眼镜交互,借助Gemini等谷歌生态系统完成操作,例如语音下单咖啡。谷歌此前曾推出Google Glass,但因隐私问题饱受争议。如今,智能眼镜市场已发生显著变化,Meta等巨头及众多初创公司纷纷布局。谷歌此次以音频交互为切入点,强调实用性与生态整合,试图在竞争中占据一席之地。产品预计今年晚些时候上市。

TechCrunch12天前原文

Google DeepMind 在 Google I/O 大会上宣布,将 **街景(Street View)** 数据整合到 **Project Genie** 中,打造沉浸式、可交互的世界模拟器。用户不仅可以在熟悉的街道上漫步,还能调整天气、模拟罕见事件,为机器人训练、游戏开发、旅行规划等场景提供前所未有的真实感。 ## 从街景到“世界模拟器” Project Genie 是 Google 的通用世界模型,能够生成多样、交互的环境。过去,它通过文本或图像提示创建游戏世界;如今,结合 **20 年来积累的 2800 亿张街景图像**(覆盖 110 个国家),Genie 可以精确模拟现实街道的细节。DeepMind 研究员 Jack Parker-Holder 举例:一台即将在伦敦部署的机器人,很少见到阳光。Genie 可以模拟维多利亚式建筑上罕见的阳光反射,让机器人提前适应,避免被强光“惊吓”。 ## 场景:从旅行到灾难模拟 对于普通人,Genie 的街景模拟意味着更丰富的探索体验。你可以“走进”纽约的某个街区,将其切换为雪景,看看冬日的模样;或者模拟“后天”式的极端天气,感受环境变化。这种能力不仅用于娱乐,更在 **机器人训练** 和 **自动驾驶** 中发挥关键作用。Genie 3 此前已为 Waymo 提供模拟器,训练自动驾驶汽车应对“极罕见事件”,如龙卷风或偶遇大象。接入街景后,Waymo 可以针对更多城市的地理特征进行定制化训练。 ## 技术融合:现实与模拟的边界模糊 Google 将街景这一“真实世界的数据宝库”与 Genie 的生成能力结合,标志着世界模型从“虚构场景”迈向“现实镜像”。这不仅降低了机器人部署的成本(减少真实环境测试风险),也让用户能以前所未有的方式“预演”旅行或探索。不过,目前该功能仍处于研究预览阶段,仅面向部分 AI Ultra 订阅用户开放。未来,随着数据集的扩大和模型优化,我们或许很快就能在自己的手机上“穿越”到任何一条街,体验任意天气与事件。 ## 小结 Genie + Street View 的组合,让世界模型不再是科幻概念,而是触手可及的工具。无论是为机器人“预习”伦敦的阳光,还是为旅行者“预览”雪中的巴黎,这项技术都在重新定义我们与数字世界的互动方式。

TechCrunch12天前原文

谷歌在年度I/O开发者大会上发布了Gemini 3.5 Flash,这是其迄今为止最强大的编程和自主AI智能体模型。该模型能够独立执行复杂任务,甚至从零构建操作系统,标志着谷歌从对话式AI向智能体式AI的战略转变。 ## 性能飞跃:速度与质量兼得 **Gemini 3.5 Flash**在编码、智能体任务和多模态推理等几乎所有基准测试上超越了上一代旗舰模型**3.1 Pro**,同时延迟更低。DeepMind首席技术官Koray Kavukcuoglu透露,该模型速度比前沿模型快4倍,而经过优化的版本更是达到12倍提速,且质量不变。这种速度对于需要多智能体同时运行、处理长期任务的场景至关重要。 ## 从聊天到行动:智能体原生设计 谷歌不再将AI定位为“回答问题”的工具,而是转向能**自主规划、构建和迭代**的智能体。在I/O大会上,工程师Varun Mohan演示了多个智能体分工协作,在谷歌的智能体开发平台**Antigravity**中从零构建了一个完整操作系统。Kavukcuoglu表示,3.5 Flash与Antigravity协同开发,为智能体提供了原生的“工作环境”。同期发布的**Antigravity 2.0**是一款专为智能体优先开发设计的桌面应用。 ## 实际落地:银行与数据科学先行 谷歌称,3.5 Flash的智能体能力已在合作伙伴中产生实际影响。例如,银行和金融科技公司利用它自动化原本需要数周的工作流程,数据科学团队则在复杂数据环境中快速发现洞察。模型可自主运行数小时,但在遇到决策点或权限问题时,会暂停并请求用户输入,确保关键判断由人类掌控。 ## 未来蓝图:3.5 Pro协作模式 谷歌计划在后续发布**Gemini 3.5 Pro**,届时两者将形成分工:3.5 Pro负责全局规划与编排,而3.5 Flash则高效执行具体任务。这种“规划-执行”分离的架构,有望进一步释放智能体在复杂工作流中的潜力。 ## 小结 Gemini 3.5 Flash的发布,不仅是技术迭代,更代表了AI应用范式的转变。当模型能够自主执行任务、构建软件、管理项目时,AI的角色从“助手”升级为“协作者”。谷歌正用速度和智能体原生设计,抢占下一波AI落地的制高点。

TechCrunch12天前原文

在2026年Google I/O大会上,谷歌发布了全新的**AI信息代理(information agents)**功能,标志着搜索从被动响应向主动服务的重大转型。与传统的“一问一答”式搜索不同,信息代理能够在后台**7x24小时持续运行**,自动监控用户指定的主题,并在出现重要变化时主动推送通知。用户可以通过AI模式创建多个自定义代理,用于跟踪股价、航班价格、体育赛事、突发新闻、房价趋势等。代理不仅能汇总多源信息,还能解释事件的重要性、对比不同观点,并提供可操作的洞察。这一功能被视为**Google Alerts的进化版**,但远超简单的关键词提醒。信息代理将于今年夏天率先面向美国地区的**Google AI Pro和Ultra订阅用户**开放,后续扩展至更多市场。此外,谷歌还同期推出了搜索界面的大幅改版,包括更智能的搜索框和AI驱动的查询建议,以支持更长的对话式查询。

TechCrunch12天前原文

在今年的 **Google I/O** 大会上,谷歌宣布对搜索进行重大 AI 改造,标志着“十个蓝色链接”时代的终结。新的搜索体验不再以链接列表为核心,而是转变为由 AI 驱动的交互式体验,包括对话式回答、自主信息代理和个性化小工具。用户将能输入更长的自然语言查询,并获得 AI 生成的摘要及后续追问能力。此外,谷歌推出“信息代理”功能,可全天候监控网络变化并主动推送更新,这被视为 2003 年 **Google Alerts** 的进化版。这一转变将进一步减少用户对传统网页链接的点击,对依赖搜索流量的出版商构成新的挑战。

TechCrunch12天前原文

谷歌正在将其AI能力更深地植入Gmail。在近日的Google I/O大会上,这家科技巨头正式宣布推出**Gmail Live**——一项由Gemini驱动的会话式AI功能,让用户可以用自然语言语音提问,快速从海量收件箱中找到所需信息。 ## 从关键词搜索到自然对话 传统上,在Gmail中查找某封特定邮件需要输入关键词或发件人地址,但当你记不清准确信息时,搜索往往令人沮丧。例如,你可能只记得“下周的牙医预约”或“Airbnb的进门密码”,却难以通过零散的关键词精准定位。Gmail Live改变了这一体验:用户可以直接用自然语言提问,比如“我孩子学校活动的详细信息是什么?”或“底特律那趟航班的座位号是多少?”,AI会理解上下文并给出答案。 ## 理解上下文与多轮对话 根据谷歌产品负责人Devanshi Bhandari的演示,Gmail Live不仅能回答单次提问,还支持**多轮对话**。例如,用户先问“关于孩子的课堂展示项目”,接着可以追问“那班级旅行呢?”——AI能理解“旅行”与“实地考察”之间的细微差别,并自动关联到同一主题的邮件。更关键的是,它可以从邮件中提取非常具体的信息,比如**酒店房间号**,甚至能推断出用户指代的人,即使未明确提及姓名。 ## 场景价值:AI落地的“甜点” 在公众对AI价值产生质疑的当下,谷歌希望用这种“解决日常痛点”的功能来证明AI的实用性。几乎每个人都经历过在收件箱里翻找某封邮件的抓狂时刻——无论是寻找航班确认号还是孩子学校的活动详情。将AI用于这种高频、低门槛的场景,比抽象的技术演示更具说服力。Gmail Live正是谷歌展示其AI技术如何转化为消费者实际收益的一个缩影。 ## 功能扩展与未来 除了Gmail,谷歌还计划将类似语音技术引入其待办事项应用。虽然目前Gmail Live仍处于早期阶段,但它的推出标志着AI与日常工具的融合正从“被动搜索”转向“主动对话”。对于拥有超过18亿用户的Gmail而言,这一功能可能成为AI普及的重要催化剂。

TechCrunch12天前原文

谷歌正在将AI编程热潮直接引入Android应用开发领域。周二,该公司宣布在其基于网络的**Google AI Studio**中新增原生Android应用创建功能,将原本需要数周设置和编码的过程缩短至几分钟。同时,谷歌表示消费者将能够通过Gemini AI在Play商店和网络上找到所需应用,为开发者拓展了应用被发现的机会。 谷歌表示,这项新功能对两类人群都很有意义:希望快速原型新应用的资深开发者,以及首次尝试创建应用的初学者。通过提供基于网页工具的“氛围编码”能力来构建Android应用,谷歌正在与Cursor、Replit、Lovable、Claude Code等AI驱动开发工具展开竞争,同时也向非技术创作者开放了Android开发的大门。此举也代表着谷歌在桌面版Android Studio中通过Gemini提供AI编码支持后的进一步扩展。 据谷歌介绍,这些应用使用**Kotlin**编程语言和**Jetpack Compose**工具包构建,并支持与GPS、蓝牙、NFC等硬件传感器集成。不过,目前生成的应用仅供个人使用,向家人和朋友发布的计划仍在路线图中。谷歌建议该技术可用于创建个人工具、简单社交应用、硬件交互体验或AI驱动体验。 当前,应用开发者可以直接在网页浏览器中使用内置的**Android模拟器**预览和交互正在构建的应用。用户还可以通过USB线连接电脑,利用集成的**Android调试桥(adb)**将应用安装到手机上。对于希望进一步推进项目的用户,AI Studio可以自动创建应用记录、打包并上传至Google Play控制台的内部测试轨道,方便开发者持续迭代和更新。希望公开发布的用户可以通过下载zip文件或直接导出到GitHub,将项目移交给Android Studio。未来,谷歌计划允许创作者将应用发布给家人和朋友,并增加对Firebase集成的支持。

TechCrunch12天前原文

在今年的 Google I/O 开发者大会上,谷歌正式发布了 **Gemini Omni**,一个全新的多模态模型家族。与以往的多模态模型不同,Omni 并非简单地将文字、图像、音频和视频拼接在一起,而是能够**跨模态推理**,理解物理、文化、历史和科学知识,生成连贯且高质量的视频内容。 ### 从“理解”到“创造” 谷歌 CEO Sundar Pichai 在发布会上表示:“当我们在三年前首次推出 Gemini 时,它就原生支持多模态。但 Omni 的目标是让 AI 从预测文本转向模拟现实。” 以 Omni Flash 为起点,用户可以通过自然对话的方式,结合图片、音频、视频和文字作为输入,让模型生成或编辑视频。例如,输入“一个关于蛋白质折叠的黏土动画讲解”,Omni 不仅会生成一段定格动画风格的视频,还会自动配上画外音,用通俗的语言解释氨基酸链如何折叠成 α 螺旋和 β 折叠。 ### 不仅仅是视频生成 虽然 Omni 的首个应用聚焦于视频,但其长期愿景更为宏大。谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 透露,未来 Omni 将支持“从音频生成图像”或“从视频生成音频”等多种双向转换。谷歌已有专门的视频模型 Veo,但 DeepMind 产品管理总监 Nicole Brichtova 强调:“Omni 不是 Veo 的简单升级,而是将 Gemini 的推理能力与媒体模型的渲染能力相结合的下一步。” ### 防止滥用与安全措施 作为发布的一部分,用户还可以使用自己的数字分身创建视频(类似 OpenAI 在 Sora 中推出的 Cameo 功能)。为防止深度伪造,用户需要通过严格的身份验证流程。谷歌表示,所有由 Omni 生成的内容都将添加不可见的数字水印,并遵守现有的 AI 安全准则。 ### 行业影响 Gemini Omni 的发布标志着多模态 AI 从“理解内容”迈入“创造世界”的新阶段。过去,生成式 AI 主要依赖文本提示;如今,用户可以通过混合多种输入形式,更自然地表达创意。对于内容创作者、教育者和营销人员而言,Omni 可能大幅降低视频制作的门槛。 不过,Omni 目前仍处于早期阶段,首批功能仅支持视频生成,且仅面向部分开发者开放。谷歌计划在未来几个月内逐步扩大访问权限,并增加更多模态组合。

TechCrunch12天前原文

著名 AI 研究员 Andrej Karpathy 已正式加入 Anthropic,负责预训练相关工作。Karpathy 在 X 平台上宣布了这一消息,称“未来几年 LLM 前沿将尤为关键”,并表示非常兴奋能重返研发一线。 Karpathy 本周已开始在 Anthropic 工作,在团队负责人 Nick Joseph 的带领下参与预训练任务。预训练是赋予 Claude 核心知识与能力的关键阶段,也是构建前沿模型中最昂贵、计算最密集的环节之一。Anthropic 发言人透露,Karpathy 将组建一支新团队,专门利用 Claude 来加速预训练研究。 Karpathy 是少数能够打通 LLM 理论与大规模训练实践的顶尖研究者。Anthropic 邀请他组建这样的团队,释放出明确信号:其认为 AI 辅助研究(而非纯算力堆砌)才是与 OpenAI、Google 竞争的关键。 回顾 Karpathy 的职业生涯:他曾是 OpenAI 的创始成员之一,专注于深度学习和计算机视觉,2017 年离开加入特斯拉,领导了全自动驾驶(FSD)和 Autopilot 项目。2022 年离开特斯拉后,他重返 OpenAI 工作一年,2024 年再次离开并创立 Eureka Labs,致力于将 AI 助手应用于教育。虽然 Karpathy 表示仍对教育充满热情,并计划未来继续推进相关项目,但目前 Eureka Labs 进展不明。他还开设了在线课程《神经网络:从零到英雄》,并运营一个定期发布 LLM 和 AI 讲座的 YouTube 频道。 与此同时,Anthropic 还聘请了网络安全资深专家 Chris Rohlf 加入其前沿红队。该团队负责对高级 AI 模型进行压力测试,以应对严重威胁。Rohlf 拥有超过 20 年网络安全经验,曾任职于雅虎著名的“偏执狂”安全团队,并在 Meta 工作六年。他还曾是乔治城大学安全与新兴技术中心的研究员,专注于 CyberAI 项目。 Karpathy 的加入无疑将强化 Anthropic 在预训练领域的技术实力,也预示着 AI 行业人才争夺战进一步升级。

TechCrunch12天前原文

药物发现是工业界成本最高的失败领域之一——找到一种可行分子可能需要十年时间、花费数十亿美元,而大多数候选药物仍无法上市。一批AI初创公司曾承诺改变这一现状,但多数只是让本已技术娴熟的研究人员用起来更顺手。SandboxAQ认为,瓶颈不在于模型本身,而在于交互界面。 这家从Alphabet剥离、由谷歌前CEO Eric Schmidt担任董事长的公司,已与Anthropic合作,将其科学AI模型直接集成到Claude中。这意味着,药物发现和材料科学领域的强大工具现在可以通过对话界面访问,无需任何专用计算基础设施。SandboxAQ累计融资超过**9.5亿美元**,旗下拥有网络安全等多个业务线,但其最独特的产品是**大型定量模型(LQMs)**。 这些模型基于物理规则而非文本模式构建,能够执行量子化学计算、模拟分子动力学和微观动力学——即在实验室动手之前,就能预测候选分子在现实中的行为。SandboxAQ的LQM训练数据来自真实实验数据和科学方程,服务于**生物制药、金融服务、能源和先进材料**等总价值超过**50万亿美元**的定量经济领域。 与Chai Discovery和Isomorphic Labs等专注于构建更好模型的竞争对手不同,SandboxAQ押注于**可及性**。其AI模拟业务总经理Nadia Harhen表示:“我们首次将前沿定量模型部署在前沿大语言模型上,用户可以用自然语言访问。”此前,SandboxAQ的客户——通常是计算科学家或实验研究人员——需要自建数字基础设施来运行这些模型。如今,通过Claude的对话界面,这些专业能力被大幅降低了使用门槛。 这一整合意味着,非计算专业的研究人员也能直接利用最先进的量子化学和分子模拟能力。对于制药和材料行业来说,这或许比模型本身更关键:**让对的人用上对的工具**。

TechCrunch13天前原文

Anthropic 于周一宣布收购纽约初创公司 **Stainless**,后者由前 Stripe 工程师 Alex Rattray 创立,其开发的 SDK 生成工具曾被 OpenAI、Google、Cloudflare 等多家 AI 公司广泛使用。交易金额未公开,但据《The Information》此前报道,收购价超过 **3 亿美元**。Stainless 的投资者包括 Sequoia Capital 和 Andreessen Horowitz。 根据协议,Anthropic 将关停所有 Stainless 托管产品(包括 SDK 生成器),现有客户仍保留已生成 SDK 的所有权并可自由修改。Stainless 团队将加入 Anthropic,继续专注于 SDK 开发工作。 ### 战略意义:切断竞争对手的关键基础设施 Stainless 的核心技术在于 **自动生成和维护多语言 SDK**(支持 Python、TypeScript、Kotlin、Go、Java 等),使开发者能快速将 API 规格转化为生产就绪的代码库,并随 API 变更自动更新。这一能力对构建 **AI Agent** 的公司至关重要——Agent 需要与外部软件连接并代表用户完成任务。 此前,Stainless 为 Anthropic、OpenAI、Google、Replicate、Runway、Cloudflare 等多家 AI 公司提供服务。收购完成后,这些工具将 **仅限 Anthropic 内部使用**,竞争对手将失去这一关键基础设施供应商。Anthropic 表示,Stainless 的软件从早期阶段就为其所有官方 SDK 提供支持。 Rattray 在声明中称:“Anthropic 是最早信任我们的团队之一……看到开发者基于 Claude 构建的成果,让我们决定将团队整合到一起。” ### 行业影响 此次收购反映了 AI 领域的 **基础设施争夺战** 正在升级。随着 AI 模型能力趋同,底层开发工具和生态支持成为差异化竞争的关键。通过收购 Stainless,Anthropic 不仅强化了自身 SDK 能力,还削弱了竞争对手的开发效率。 对于 OpenAI、Google 等公司而言,失去 Stainless 意味着需要寻找替代方案或自建类似工具。短期内,这可能增加其 Agent 开发的复杂度和维护成本。长期来看,AI 公司对第三方基础设施的依赖将面临更多战略考量。 ### 小结 Anthropic 以 3 亿美元收购 Stainless,是一次典型的 **“战略防御+能力增强”** 操作:既巩固自身开发者生态,又对竞争对手形成卡位。在 AI Agent 快速发展的当下,SDK 工具的价值被进一步放大,这笔交易或将引发更多类似收购。

TechCrunch13天前原文

亚马逊于周一宣布,其智能助手 **Alexa+** 推出名为 **“Alexa Podcasts”** 的全新功能,用户只需说出感兴趣的话题,即可在几分钟内获得由AI生成的定制播客节目。该功能今日在美国上线,标志着Alexa正从问答助手向个性化AI内容创作平台转型。 ## 怎么玩:一句话生成播客 使用过程极为简单:用户对Alexa+说“帮我创建一个关于XX的播客”,Alexa+便会自动搜索信息、生成内容概要,并允许用户调整 **时长、语气和重点**。确认后,AI主播会以自然语音完成播报。节目生成后,用户会在Echo Show设备和Alexa App中收到通知,节目也会保存在App的“音乐”和“更多”板块中,方便回放。整个过程无需用户上传文档、撰写脚本或做任何预先规划。 ## 背后逻辑:从工具到创作者 这一功能是亚马逊将Alexa+重新定位为 **个性化AI内容创作者** 的关键一步。过去,Alexa主要负责回答问题或控制智能家居;现在,它开始主动生成定制内容。亚马逊强调,Alexa+通过与 **美联社、路透社、华盛顿邮报、时代周刊、福布斯、商业内幕、Politico、今日美国、康泰纳仕、赫斯特、Vox Media** 以及 **200多家美国地方报纸** 的内容合作协议,能获取实时信息,从而提升AI生成内容的准确性和可靠性。 ## 争议与挑战:AI播客靠谱吗? AI生成语音和自动化内容一直面临 **伦理、准确性和对传统创作者冲击** 的质疑。当播客覆盖新闻或复杂话题时,其可靠性尤为引人担忧。亚马逊虽然强调了与权威新闻机构的合作,但AI在事实核查、深度分析和观点平衡方面仍存短板。此外,AI主播的拟人化程度、版权归属等问题也可能引发行业讨论。 ## 未来展望:不止于播客 亚马逊透露,正在探索更多个性化AI音频形式,包括 **自定义新闻简报** 以及基于用户个人文档和信息生成的内容。这意味着,未来Alexa+不仅能为你播报全球新闻,还能将你的会议记录、读书笔记甚至私人日记转化为音频节目。 ## 小结 Alexa Podcasts的推出,让AI内容生成的门槛进一步降低——用户从被动的听众变成了主动的“策划者”。但技术便利背后,内容质量与伦理风险仍需平衡。对于亚马逊来说,这不仅是产品功能的升级,更是对 **AI+内容生态** 的一次大胆押注。

TechCrunch13天前原文