GitHub严选,9大必看开源AI项目

IP归属:广东

开源对 AI 领域的影响可谓深远,其核心价值在于开放、协作和创新。通过开源,AI 技术的门槛大大降低,开发者可以自由获取、使用和修改代码,加速了 AI 的普及和发展。

TensorFlow、PyTorch 这样的机器学习框架,也是依托于开源社区才能发展成如今的行业标杆。Gork、LLaMA、StableLM、Dolly 等百亿,甚至上千亿参数规模的开源大语言模型,又为 AI 研究和应用提供了丰富的资源,也为开发者提供了更多选择,推动了 AI 大模型的军备竞赛。

开源对 AI 领域的贡献十分重大,但远不止于此。近日,全球最大的开源软件托管平台 GitHub 就宣布,经过精心筛选,他们将扶持以下这些开源 AI 项目。借着这次机会,不妨一起来看看这些 AI 领域的潜力之星,未来它们是否会成长为 AI 领域不可或缺的一个项目。

unsloth AI

图源:GitHub

unsloth 是一个 AI 模型微调工具,支持 Llama 3、Gemma、Phi-3 等。经过 unsloth 微调后,其速度相比以往可以提升 2-5 倍,内存占用更是可以减少 70%。unsloth 通过利用新兴技术和功能,在保持准确性的同时提高模型性能。以下是模型微调前后,性能表现和内存占用的对比:

图源:前方智能

Giskard

图源:GitHub

Giskard 是一个开源 Python 库,可自动检测 AI 应用程序中的性能、偏差和安全问题。Giskard 能够检测到的问题包括:AI 产生的幻觉、有害内容的产生、敏感信息泄露、刻板印象和歧视等。

Giskard 能够显著提升开源 AI 模型的质量,改进 AI 产品的安全性和合规性,也提升了 AI 模型的透明度。

Open WebUI

图源:GitHub

Open WebUI 是一个面向 LLM 的 WebUI,具有可扩展、功能丰富、自托管等特点,可完全离线运行。它支持各种 LLM 运行器,包括 Ollama 和 OpenAI 兼容的 API。Open WebUI 为在本地运行的 LLM 带来了更好的隐私保护、安全和卓越的性能。

特点: 直观界面:聊天界面借鉴了 ChatGPT,确保用户友好的体验; 轻松设置、无缝安装; 代码语法高亮:通过语法高亮功能享受更好的代码可读性; 完整的 Markdown 和 LaTeX 支持:通过全面的 Markdown 和 LaTeX 功能提升 LLM 体验,实现更丰富的互动。

LLMware.ai

图源:GitHub

LLMware 提供了一个统一的框架,用于构建基于 LLM 的应用程序(例如 RAG 和 Agents),LLMware 具备小型专业化的模型,可以私下部署,安全地与企业知识源集成,并且可以经济高效地调整和适应任何业务流程。

LLMware 有两个主要组成部分: RAG Pipeline —— 集成组件,用于将知识源连接到生成式 AI 模型的整个生命周期; 50 多个针对企业流程自动化关键任务进行微调的小型专业模型,包括基于事实的问答、分类、摘要和提取。

通过将这两个组件结合在一起,并整合领先的开源模型和底层技术,LLMware 提供了一套全面的工具,可以快速构建基于知识的企业 LLM 应用程序。

LangDrive

图源:GitHub

LangDrive 是一个开源的 AI 库,简化了使用私有数据训练、部署和查询开源大型语言模型 (LLM) 的过程,LangDrive 支持数据摄取、微调和部署,设置过程快速简单。它通过命令行界面、YAML 文件或 API 来训练和部署生产级的微调语言模型,通过抽象微调过程并减少微调的行数(从数百行减少到仅 10 行)来提高代码库的可维护性。

HackingBuddyGPT

图源:GitHub

如今,有越来越多的黑客开始利用 LLM 来发起网络攻击,为了更好地防御这一新威胁,安全研究人员也必须更多地了解 LLM 的能力,为未来可能会面临的安全问题做好准备。

HackingBuddyGPT 可以协助安全研究员运用大语言模型(LLM)找出新的网络威胁攻击路径,在不超过 50 行代码内就能解决安全问题。HackingBuddyGPT 可以让网络安全专家借助 AI 技术提高工作效率,进一步增强整个社会的网络防护水平。

HackingBuddyGPT 的目标是成为安全研究人员和渗透测试人员使用 LLM 进行安全测试的首选框架。

Web-Check

图源:GitHub

Web-Check 是个 OSINT 工具(开源情报工具),目的是帮助用户理解、优化和保护网站。调查人员能够使用开源软件收集和分析来自开放数据源的数据,并交叉引用这些数据,以提供准确的信息来源,并在不同信息之间建立联系。

Web-Check 可以让用户深入了解特定网站的内部运作:发现潜在的攻击路径、分析服务器架构、查看安全配置,并了解网站使用的技术。

目前 Web-Check 会记录的信息包括:IP 信息、SSL、DNS 记录、cookies、headers、域信息、服务器位置、开放端口、traceroute、DNS 安全扩展、网站性能、跟踪器、关联主机名等信息。未来 Web-Check 还会添加更多功能。

marimo

图源:GitHub

marimo 是一个面向 AI 和机器学习的下一代 Python Notebook,通过对 Python Notebook 重新改进,使其成为可重现、交互和可共享的 Python 程序,为 Python 社区提供了一个更好的编程环境。

运行一个单元格或与一个 UI 元素交互,marimo 会自动运行依赖的单元格(或将它们标记为过时),保持代码和输出一致。marimo 以纯 Python 存储,可作为脚本执行,并可部署为应用程序。

Talkd.ai

图源:GitHub

对于对 AI 感兴趣且在没有服务器维护知识的情况下部署 RAG 的程序员来说,Talkd.ai 是一款简化 LLM 部署的应用程序,可以花更少的时间编写代码,用更多的时间训练模型。

通过一个统一的 LLM Chat API,LLM 能够持续地理解并管理各种情境背景,预处理用户输入信息,并根据记忆库或者当前环境生成相应反馈。Talkd.ai 的开发者希望建立此项目能推动更广泛地运用 RAG 技术到各类大语言模型之中。

结尾

虽然最终入选的项目数量有些,但最初提交申请的项目涵盖了 ML 和 AI 框架、生物学和疾病发现、模型训练和微调工具、多模态和 3D AI 功能,以及从可穿戴设备到 AI 机器人等新兴产品和设备,这些项目涉及的编程语言也不仅仅是 AI 常用的 Python,还包括了 Rust、PHP、Ruby 和 JavaScript 等语言。

GitHub 将为入选的每个项目提供资源、社区帮助和专业知识指导,帮助每个项目的维护者快速实现他们的目标。项目将获得近 40 万美元的各种支持,以及 Azure AI 模型和 Copilot 的访问权限。

这些 AI 项目目前开发的时间还普遍不长,受到的关注度也比较低,但随着时间的推移,他们都有望成为每个 AI 开发者都依赖的技术,最终变成 AI 行业最具影响力的项目之一。感兴趣的开发者可以现在就访问 GitHub,关注这些开源项目并作出代码贡献。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10112848.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章