谷歌推出最新版Imagen 3和视频模型Veo 2,效果超越Sora
12月17日凌晨,谷歌DeepMind宣布推出新的视频生成模型Veo 2,并宣传其内部测试结果超越OpenAI的Sora。
谷歌表示,Veo 2对现实世界的物理学以及人类运动和表情的细微差别有更好的理解,同时Veo 2还了解电影摄影步骤,能指定生成的视频类型,指定镜头,提供专业的电影效果,并生成高达4K分辨率的视频。
图源:谷歌
此外,Veo 2创建的视频还将包含谷歌的元数据水印SynthID。谷歌称在内部测试中,在衡量 “整体偏好”(即观众更喜欢哪些视频)和 “及时遵守”(视频与人类创作者给出的指示的匹配程度)两项上,人类评估者更喜欢Veo,而不是Sora和其他人工智能模型。
目前,Veo 2可以在 Google Labs的VideoFX平台上使用,但仅限于候补名单。用户需要通过Google表单注册,并等待谷歌授予访问权限。
而除了Veo 2外,谷歌还推出了增强版的Imagen 3图像生成模型。谷歌声称Imagen 3可以接收包含艺术风格(如 anime 或 photorealism)的提示输入,并以更高的准确性呈现更多样化的艺术风格。“这些图像对提示更准确,并且包含更多细节。与其他模型相比,Imagen 3取得了最先进的结果。”
图源:谷歌
谷歌发布全新推理模型 Gemini 2.0 Flash Thinking
谷歌于 2024 年 12 月 19 日推出了新一代人工智能推理模型 Gemini 2.0 Flash Thinking,这是一个基于 Gemini 2.0 Flash 开发的实验性模型,旨在与 OpenAI 的 o1 系列模型展开竞争。
图源:谷歌
该模型最显著的特点是能够展示其推理过程,用户可以通过下拉菜单查看模型得出结论的每个步骤。这种透明度的设计回应了长期以来人们对 AI 是"黑匣子"的担忧。谷歌 DeepMind 首席科学家 Jeff Dean 表示,通过增加推理时间的计算量,该模型展现出了令人期待的结果。
在技术规格方面,Gemini 2.0 Flash Thinking 支持 32000 个 tokens 的输入(相当于 50-60 页文本),可以生成 8000 个 tokens 的输出响应。该模型还原生支持图像上传和分析功能,能够处理多模态数据。目前该模型已在谷歌 AI Studio 平台上线,开发者可以免费使用。
根据第三方评测机构 LM Arena 的分析,Gemini 2.0 Flash Thinking 在所有大语言模型类别中的表现居于榜首。
值得注意的是,此类推理模型需要更多的计算时间,通常会在响应时间上增加几秒到几分钟不等。谷歌 AI Studio 的产品负责人 Logan Kilpatrick 称这只是谷歌"推理之旅的第一步"。目前该模型的训练过程、架构、许可和成本等完整细节尚未公布。
英伟达发布全新 Jetson Orin Nano Super 开发套件
英伟达近日推出新一代 AI 开发套件 Jetson Orin Nano Super,这款掌上型设备以更实惠的价格为开发者、爱好者和学生提供了更强大的生成式 AI 计算能力。
图源:英伟达
该套件售价为 249 美元,较前代产品降价 50%。新品搭载 6 核 Arm Cortex-A78AE CPU 和基于安培架构的 GPU,配备 1024 个 CUDA 核心和 32 个 Tensor 核心。在性能方面,其 INT8 运算能力达到 67 TOPS,较前代提升 70%,内存带宽提升 50% 至 102GB/s。
硬件配置方面,开发套件包含板载 8GB DRAM,支持多达四个摄像头接口,可实现更高分辨率和帧率。接口方面配备千兆以太网、DisplayPort、四个 USB 3.2 Gen 2 Type-A 接口、USB-C 接口以及双 M.2 插槽。
值得一提的是,现有 Jetson Orin Nano 开发套件用户通过更新 JetPack SDK 也能获得类似的性能提升。该产品支持运行来自阿里巴巴、谷歌、Meta、微软等公司的主流生成式 AI 模型,可用于开发聊天机器人、视觉 AI 代理和 AI 机器人等应用。
字节跳动发布豆包视觉理解、3D生成等新模型
在12月18日举行的火山引擎Force大会上,字节跳动正式发布豆包视觉理解模型以及豆包3D生成模型,还有多款产品也迎来重要更新。
图源:字节跳动
其中豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务。
根据官方的说法,视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%。
豆包3D生成模型需要与火山引擎数字孪生平台veOmniverse结合使用,可以高效完成智能训练、数据合成和数字资产制作。
此外,豆包通用模型pro已全面对齐GPT-4o,使用价格仅为后者的1/8;音乐模型从生成60秒的简单结构,升级到生成3分钟的完整作品;文生图模型2.1版本已接入即梦AI和豆包App,实现了精准生成汉字和一句话P图的产品化能力。
2025年春季,字节还将推出具备更长视频生成能力的豆包视频生成模型1.5版,并很快上线豆包端到端实时语音模型,带来多角色演绎、方言转换等多种新功能。
OpenAI o1 API上线,并大幅下调服务费用
在第9天的技术分享直播中,OpenAI正式发布了o1模型的API,并对实时API进行大升级支持WebRTC。
即日起,OpenAI将向API使用等级5级的开发者开放o1 API访问权限。这意味着开发人员若想体验满血o1,必须在OpenAI 上花费至少1000美元,并且拥有自首次成功付款以来超过30天的帐户。
图源:网络
虽然开发人员此前就可以访问o1o1-preview 版本,并可以构建应用程序,但通过API发布的完整o1 模型带来了更高的性能、更低的延迟和新功能,使其更容易集成到实际应用程序中。
OpenAI 还为其API引入了新的定价,GPT-4o音频价格下调 60%,降至每百万输入token 40 美元,每百万输出token 80美元;缓存音频输入成本降低了87.5%,仅需每百万token 2.50美元;GPT-4o mini在保持体验的同时,音频价格设定为每百万输入token 10美元,每百万输出token 20美元,文本token每百万输入/输出分别为0.60美元和2.40美元。
除了定价,OpenAI还让开发者对实时API的响应有更多的控制权。开发人员还可以定制输入上下文,专注于对话的特定部分,并控制何时触发语音响应,以实现更准确、更无缝的交互。
此外,OpenAI还新增了偏好微调(Preference Fine-Tuning)功能,采用直接偏好优化(DPO)技术,使大型模型可以更精准地适应用户的个性化风格。
OpenAI推出电话服务功能,座机/老人机可用
在直播活动的第10天,OpenAI推出了一项能让座机/老人机用户也能使用ChatGPT的新功能。
图源:网络
根据OpenAI在直播中的展示,美国用户可以在任何可以拨打电话的设备上拨打 1-800-ChatGPT(1-800-242-8478)并直接跟ChatGPT对话,获取翻译、知识问答等相关服务,但每月调用ChatGPT的时长仅有15分钟。
国际号码用户则可以使用WhatsApp向ChatGPT发送消息,GPT-4o mini将为WhatsApp用户提供基础对话服务,且无需注册即可使用。
该功能的体验效果类似于使用OpenAI的高级语音模型与ChatGPT对话。OpenAI 表示,该功能非常适合无法连接到互联网的人群,方便这类人更方便地访问ChatGPT。
自动驾驶技术公司图森未来更名CreateAI,并发布首个大模型产品Ruyi
日前,国内自动驾驶技术公司图森未来宣布启用全新品牌,正式更名为CreateAI。
图源:CreateAI
同时,CreateAI还发布了其首个开源图生视频大模型产品“Ruyi”,该模型在帧间一致性,动作流畅度,色彩和构图方面均表现卓越,用户可以在Hugging face免费下载使用。
此外,CreateAI还宣布获著名武侠IP《金庸群侠传》正版授权,并将开发一款大型武侠开放世界RPG游戏。CreateAI还将与著名动画导演河森正治,以及顶级动画制作公司株式会社白组在《三体》IP方面展开合作,利用AIGC技术在内容创作方面实现更多突破。
据悉,图森未来成立于2015年9月,专注于大型货运卡车自动驾驶系统自主研发,创立初衷在于以L4级别(SAE标准)的无人驾驶卡车技术为全球物流运输行业赋能。
国内大模型独角兽智谱宣布完成新一轮30亿元融资
近日,国内大模型公司智谱完成新一轮30亿元人民币融资,投资方包括君联资本等老股东以及多家战投及国资。
据悉,该笔资金将主要用于智谱基座大模型的研发升级,进一步提升从回答简单问题到解决复杂推理和多模态任务的能力。
早在2021年9月,智谱就完成A轮过亿元融资,并在一年后又获数亿元人民币B轮融资。而在今年,智谱在年初被曝完成新一轮融资后,在9月份获中关村科学城以投前200亿元的估值领投的一笔融资,成为目前估值最高的大模型公司之一。
Perplexity 完成 5 亿美元融资并收购 Carbon
AI 搜索引擎公司 Perplexity 宣布完成 5 亿美元融资,企业估值达到 90 亿美元。此轮融资由机构风险投资合伙人(Institutional Venture Partners)领投,融资已于本月初完成。
图源:Perplexity
值得注意的是,Perplexity 的估值在今年实现飞速增长。年初时公司估值仅为 5.2 亿美元,到 6 月底增长至 30 亿美元,此次融资后估值更是实现三倍增长。这也是该公司今年内完成的第四轮融资。
与此同时,Perplexity 宣布收购专注于检索增强生成(RAG)技术的初创公司 Carbon。Carbon 的技术可以连接人工智能系统与 Google Docs、Slack、Notion 等外部数据源。这项收购将帮助 Perplexity 在明年初推出文件搜索功能,让用户能够搜索自己的文件和工作消息。
成立于 2022 年的 Perplexity AI 专注于提供实时信息,其搜索方式类似于 ChatGPT,但不是提供一系列链接,而是直接回答用户问题。据悉,该公司在今年 3 月已拥有超过 1500 万活跃用户。