OpenAI 推出 AI 代理 Operator,DeepSeek 开源推理模型

IP归属:广东

Perplexity 竞购 TikTok 美国业务

据 CNBC 等多家海外媒体报道,AI 搜索引擎公司 Perplexity 近日向字节跳动提交了一份合并提案,计划与 TikTok 美国业务合并。根据知情人士透露,这项提案将创建一个新实体,包含 Perplexity、TikTok 美国业务以及新的资本合作伙伴。

图源:Getty Images

该合并方案的特点是允许字节跳动现有的大部分投资者保留其股权,同时能够为 Perplexity 带来更多视频内容资源。目前,Perplexity AI 的估值约为 90 亿美元,而 TikTok 美国业务的估值可能在 400 亿至 500 亿美元之间。

在美国政府要求字节跳动出售 TikTok 美国业务的背景下,Perplexity 认为采用合并而非收购的方式可能更容易获得字节跳动的认可。知情人士表示,最终交易价格将部分取决于字节跳动现有股东是否选择留在新实体或套现。

TikTok 于北京时间 1 月 19 日关停了在美国的服务,虽然在北京时间 20 日又开始陆续恢复相关服务,但目前 TikTok 仍然面临着在美国被禁的风险。

微软正在测试针对Windows 11的AI搜索功能

日前,微软宣布将在 Windows Insider Dev Channel 更新 (Build 26120.2992) 中,向开发人员推出针对Windows 11的AI搜索功能。

新的Copilot+ PC体验引入语义索引和传统索引,将使用户在查找电脑文件时无需记住文件名、文件内容中的确切单词或设置名称,只要在文件资源管理器、任务栏上的Windows搜索框中或是是设置中的搜索中输入提问,即可在Copilot+ PC上找到对应的文件。

图源:微软

增强的AI搜索功能由Copilot+电脑中的神经处理单元(NPU)提供支持,每秒可处理超过40万亿次操作(TOPS)。目前,该功能仅限于搜索本地存储位置的文件,支持离线处理本地复杂查询任务,未来,还计划在后续更新中扩展对OneDrive等云存储提供商的支持。

微软表示,该功能目前支持六种语言:中文、英文、法文、德文、日文和西班牙文,支持的文件格式包括文档的.txt、.pdf、.docx、.doc、.rtf、.pptx、.ppt、.xls、.xlsx,以及图像的.jpg/.jpeg、.png、.gif、.bmp.ico。

该功能正在逐步推广到使用搭载骁龙的Copilot+ PC的Windows预览体验成员,后续将支持AMD和 Intel Copilot+ PC。用户可以通过“设置”>“隐私和安全”>“搜索Windows”自定义索引位置,并启用“增强”索引以扩大覆盖范围。

Friend AI吊坠将推迟至三季度发货

AI初创公司Friend已经将其价值99美元的AI项链的首批批发货推迟到了今年第三季度。

Friend曾计划在第一季度向预购客户发货,但根据其联合创始人兼首席执行官Avi Schiffman的说法,Friend目前仍需要一些改进工作。“只有当你的设计完成了95%时,你才能开始制造电子产品”。而在此前给客户的电子邮件中,Avi Schiffman也透露,“预计到2月底产品原型完成时,我们将开始最后的冲刺。”

图源:网络

据悉,Friend目前拥有8名工程人员,并获得了来自Perplexity首席执行官Aravind Srinivas等投资者的850万美元资金。

作为人工智能研究的一部分,Friend在其网站Friend.com上推出了一个Web平台,主要功能包括允许人们与AI角色的随机示例交谈,但平台体验反响褒贬不一,因此,Schiffman在后来表示Friend将逐步减少聊天机器人体验。“虽然聊天机器人研究这确实证明了我们内部管理流量的能力,并且教会了我们很多关于数字陪伴的知识,但我希望我们还是只专注于硬件更好,我们已经意识到数字聊天机器人和具身伴侣不能很好地结合。”

DeepSeek 开源推理模型 DeepSeek-R1 系列

中国 AI 初创公司 DeepSeek(深度求索)近日发布了全新的开源大语言模型系列 DeepSeek-R1,该模型在数学、编程和推理任务等多个基准测试中展现出与 OpenAI o1 相当的性能表现。

该系列包含两个主要模型:DeepSeek-R1 和 DeepSeek-R1-Zero,均采用混合专家(MoE)架构,参数规模达到 6710 亿。其中,DeepSeek-R1-Zero 是首个完全通过强化学习训练的推理模型,无需监督微调即可实现类似人类的推理能力。不过该模型存在输出重复、可读性差等问题,因此团队在此基础上开发了 DeepSeek-R1。

图源:DeepSeek

在性能测试中,DeepSeek-R1 在 AIME 2024 数学测试中得分为 79.8%,MATH-500 测试中达到 97.3%,在 Codeforces 编程平台上的表现超过了 96.3% 的人类程序员。与 OpenAI o1-1217 相比,DeepSeek-R1 在多个基准测试中展现出相当甚至更优的性能。

价格方面,DeepSeek-R1 的使用成本仅为 OpenAI o1 的 5%-10%。具体来说,输入 token 的价格为每百万个 0.55 美元,输出 token 为每百万个 2.19 美元。

所有模型及其技术文档均已在 GitHub 和 Hugging Face 平台开源,采用 MIT 许可证发布,用户可以自由使用、微调和进行商业应用。

腾讯混元开源3D生成大模型2.0,
并上线业界首个一站式3D内容AI创作引擎

1月21日,腾讯混元宣布正式开源3D生成大模型2.0版本(Hunyuan3D-2.0),同时上线业界首个一站式3D内容AI创作引擎。

Hunyuan3D-2.0比起去年发布的1.0版本,在3D模型生成效果上有显著提升,在几何结构上更加精细,纹理色彩更加丰富。根据CLIP Maximum Mean Discrepancy (CMMD)、Frechet Inception Distance (FID)和CLIP-score指标,Hunyuan3D-2.0模型的整体表现,在业界处于领先梯队。

对游戏行业来说,Hunyuan3D-2.0模型支持支持端到端生成低多边形low-poly模型,可根据物体复杂程度,自适应生成几百至数千面的三角mesh,面数更低的同时可保证模型细节效果,用于游戏引擎渲染效果更佳。

图源:腾讯混元

得益于Hunyuan3D-2.0的强大功能,一同上线的腾讯混元3D AI创作引擎除了3D功能矩阵、3D编辑、3D生成工作流、创作素材库等多种基础的模型生成能力外,还内置3D动画、草图生3D、3D人物生成、3D小游戏创作等功能,可通过提示词或图片,调整节点生成参数,直接生成高质量3D模型。

目前,开发者可在GitHub、Hugging Face等技术社区下载混元3D 2.0模型,腾讯混元3D AI创作引擎网页端也已同步正式上线。

OpenAI、软银与甲骨文联手
打造 5000 亿美元 AI 数据中心项目

OpenAI、软银集团和甲骨文公司于 1 月 21 日在白宫宣布成立名为 The Stargate Project 的合资企业,计划在未来四年内投资高达 5000 亿美元,在美国建设大规模 AI 基础设施。该项目首期将投入 1000 亿美元,首个数据中心已在得克萨斯州开工建设。

图源:白宫

这一大型项目由软银和 OpenAI 主导,软银负责财务,OpenAI 负责运营,软银董事长孙正义将出任 The Stargate Project 董事长。项目的初始股权投资方包括软银、OpenAI、甲骨文和中东 AI 基金 MGX,技术合作伙伴包括微软、Arm 和英伟达。

The Stargate Project 的首个数据中心位于得克萨斯州阿比林市,预计到 2026 年年中电力需求将达到近 1 吉瓦。项目方表示,未来将在全美范围内评估更多潜在建设地点。

微软作为 OpenAI 的最大投资方和算力提供商,确认将继续作为 OpenAI 的主要云计算服务提供商,但也将允许 OpenAI 根据具体情况使用其他供应商的服务。

OpenAI 首席执行官 Sam Altman 表示,这将是"这个时代最重要的项目"。项目方声称,该计划不仅将支持美国再工业化,还将创造"数十万个"就业机会,并为保护美国及其盟友的国家安全提供战略支持。

值得注意的是,高盛预测到 2028 年,AI 将占数据中心电力需求的约 19%。麦肯锡报告显示,未来五年数据中心机械和电气系统的采购安装资本支出可能超过 2500 亿美元。不过,批评人士指出,大型数据中心项目往往创造的就业机会少于承诺,且可能对环境造成严重影响。

Databricks 完成 153 亿美元融资,将于今年进行 IPO

数据和人工智能公司 Databricks 今日宣布完成总额高达 153 亿美元的融资,其中包括 100 亿美元的 J 轮股权融资和 53 亿美元的债务融资。此轮融资使公司估值达到 620 亿美元。

图源:Databricks

值得关注的是,Meta 在最后时刻作为战略投资者加入了这轮融资。Databricks 首席执行官 Ali Ghodsi 表示,公司正与 Meta 的 Llama 团队密切合作,目前已有数千家客户在 Databricks 平台上使用 Llama 模型。

此外,卡塔尔主权财富基金 QIA、新加坡淡马锡和麦格理资本等知名投资机构也参与了这轮融资。债务融资则由摩根大通领投,巴克莱、花旗、高盛和摩根士丹利等金融机构参与。

Databricks 计划将这笔资金用于开发新的 AI 产品、进行收购,并扩大其国际市场营销业务。同时,部分资金将用于为现任和前任员工提供流动性以及支付相关税费。

Databricks 目前已服务超过 10000 家机构,包括 Block、康卡斯特、蔚来汽车和壳牌等知名企业。随着生成式人工智能的兴起,该公司的数据智能平台在帮助企业管理和分析数据方面发挥着关键作用。

关于公司上市计划,此前 Ghodsi 曾表示可能在 2025 年下半年进行首次公开募股(IPO)。

马斯克打脸特朗普5000亿美元AI计划:“他们没钱。”

美国总统特朗普和包括软银的孙正义、OpenAI的山姆·阿尔特曼、甲骨文的拉里·埃里森等众多科技领袖此前联手宣布了美国的“星际之门”AI项目,其中包括对AI基础设施的5000亿美元投资,以在美国建立大型数据中心,为美国的下一代人工智能提供动力。

然而不久之后,没有参与此次发布会的埃隆·马斯克就给该计划泼了一盆冷水,他在社交媒体X上直言不讳地表示:“他们实际上并没有钱。”并在随后的帖子中补充道,“有可靠消息称软银确实没有这笔钱。”

图源:网络

对于马斯克的说法,阿尔特曼表示马斯克是错误的,并邀请他查看正在进行的项目网站,该项目第一个数据中心已经选址马斯克旗下公司所在的德克萨斯州。

阿尔特曼回应称,“这对美国来说是件好事,我意识到对美国有利的并不总是对你的公司最有利的,但在你的新角色中,我希望你主要把美国放在首位。”

Google 向 Anthropic 追加 10 亿美元投资

Google 近日向人工智能公司 Anthropic 追加超过 10 亿美元投资。这笔新投资是在 Google 此前已投入的约 20 亿美元基础上的追加投资。

图源:Anthropic

与此同时,Anthropic 还即将完成由 Lightspeed Venture Partners 领投的 20 亿美元融资,这轮融资预计将使公司估值达到约 600 亿美元。值得注意的是,亚马逊此前已向 Anthropic 累计投资 80 亿美元,这是亚马逊历史上最大规模的风险投资。

成立于 2021 年的 Anthropic 主要以其 Claude 系列人工智能模型而闻名,是生成式人工智能领域的领军企业之一。公司首席执行官 Dario Amodei 在接受采访时表示:"目前我比以往任何时候都更有信心,我们正接近于开发出在几乎所有任务上都优于人类的 AI 系统。"

据知情人士透露,Anthropic 在 2023 年 12 月的年化收入已达到 10 亿美元,较上年同期增长约 10 倍。公司计划在今年推出新的 AI 模型,并为其 AI 助手 Claude 增加双向语音对话和网络访问功能。

Anthropic 发布 Citations 功能,AI 准确率提升 15%

Anthropic 于 2025 年 1 月 24 日宣布推出全新的 Citations(引用)功能。该功能现已在 Anthropic API 和谷歌云的 Vertex AI 平台上全面开放,支持 Claude 3.5 Sonnet 和 Claude 3.5 Haiku 两个模型。

图源:Anthropic

Citations 功能允许开发者向模型提供源文档,使 Claude 能够在生成回答时精确引用文档中的具体句子和段落,从而提供更可验证、更可信的输出结果。根据 Anthropic 内部评估,与自定义实现相比,Claude 内置的引用功能可将准确率提升高达 15%。

该功能在文档摘要、复杂问答和客户支持等场景中表现出色。以汤森路透公司为例,他们使用 Claude 为法律和税务专业人士提供服务的 CoCounsel 平台在采用 Citations 功能后,显著改善了 AI 生成内容的准确性和可信度。另一家用户 Endex 表示,Citations 功能帮助他们将源引用错误率从 10% 降低到 0%,且每个响应的引用数量增加了 20%。

关于定价,Citations 采用标准的基于 token 的计费模式。虽然处理文档可能会使用额外的输入 token,但用户无需为返回引用文本的输出 token 付费。以 100 页的源文档为例,使用 Claude 3.5 Sonnet 的成本约为 0.30 美元,使用 Claude 3.5 Haiku 则约为 0.08 美元。

OpenAI推出其第一个AI代理Operator

在周四的一场直播中,OpenAI正式发布其首个AI agent产品Operator。初步的研究预览版本可通过operator.chatgpt.com获得,并将很快集成到所有ChatGPT 客户端中。

图源:OpenAI

根据Sam Altman的介绍,Operator由计算机使用代理模型(CUA)提供支持,该模型将公司 GPT-4o 模型的视觉能力与OpenAI更高级模型的推理能力相结合。CUA经过训练与网站前端交互,这意味着该功能无需依赖特定的操作系统或网络API。

功能上看,Operator可以完成包括搜索网络、移动光标、点击网页等在内的人类大部分计算机操作。当ChatGPT用户激活Operator时,会弹出一个小窗口,显示代理用于完成任务的专用网络浏览器,以及代理正在执行的特定操作的说明。这意味着当Operator工作时,用户仍然可以控制屏幕。

在直播演示中,Altman和OpenAI研究人员将购物清单的图片上传到Operator,并要求其在购物网站上进行搜索,Operator在完成搜索产品、加入购物车等一系列操作后,还会询问研究人员是否准备好下订单。而除了购物之外,Operator也能完成诸如订购比赛门票、点外卖等操作。

同时,Operator还设计了人工接管功能,当Operator的操作出现异常时,用户可以通过按下标有“Take control”的按钮接管代理。

目前,所有200美元/每月ChatGPT Pro订阅计划的美国用户都可使用Operator,API则预计将在数周内推出。Altman承诺此功能最终将推出给其Plus、Team和Enterprise级别的更多用户。

卡普空将使用 Gemini 辅助游戏开发

卡普空技术总监阿部一树(Kazuki Abe)近日在接受 Google Cloud Japan 采访时透露,公司正在探索将生成式 AI 应用于游戏开发流程。这项技术主要用于解决游戏环境开发中大量创意构思的需求,而非游戏玩法、故事情节或角色设计等核心内容。

图源:Capcom

阿部一树解释说,游戏开发中最耗时耗力的环节之一是为游戏环境构思"数十万个独特创意"。他以电视机为例,在游戏中放置一台电视机时,开发团队需要从零开始设计其外观、品牌标志等所有细节,不能直接使用现实中已有的设计。每个游戏中这样的物件多达数万个,且每个物件都需要多份包含文字说明和示意图的提案。

为提高效率,阿部一树开发了一套原型系统,该系统运用 Gemini Pro、Gemini Flash 和 Imagen 等生成式 AI 模型,通过分析游戏设计文档来输出创意方案,并能够根据预设标准进行自我评估和优化。据报道,这套系统已获得卡普空开发团队的积极反馈,预计将显著降低开发成本。

卡普空表示,未来将进一步完善这一系统,并计划向外部合作伙伴开放使用,通过生成式 AI 节省的成本将用于提升游戏整体品质,最终使开发者和玩家都能从中受益。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10119654.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章