500行代码实现类似 Perplexity 的生成式搜索引擎
使用LLMs 和计算机视觉技术(GPT-4V)实现浏览器自动化操作工作流
一步完成将一张图片转换成另一张风格或特征的图片
自动分析视频,提取最有趣的部分,并对其进行裁剪以改善观看体验
开源AI搜索引擎
开源浏览器自动化操作Agents
使用日常设备在家中运行自己的人工智能集群
开源 Sora AI 视频生成器模板,Sora API 发布后可快速替换上线
OpenAI Sora资源大汇总
北大-兔展AIGC联合实验室实现开源 Sora的 Open-Sora 计划
好用的PC端的语音输入工具
通过摄像头将任何一张纸变成一架钢琴
“Do Anything Now” 论文中使用的 15,140 个 ChatGPT 提示
Windows Recall/Rewind.ai的开源替代
一体化端到端的 OCR 模型,可以处理各种复杂OCR任务
开源金融大模型
Android 开源、离线实时翻译应用,外语沟通神器
AI音频制作工具,支持语音克隆、LLM 预处理、RVC 增强和自动评估等
将 ArXiv.org 论文转为音频/视频
开源AI对冲基金
OpenAI Strawberry(o1) 和推理技术大汇总
ChatTTS资源大全,免费体验地址,音色库等
用于对科学文献 PDF 或文本文件进行高精度检索增强生成 (RAG) 的软件包
开源AI Agent平台,用于金融应用的大型语言模型
收集AI科技领域高质量信息源,避免信息差和信息茧房
开发大语言模型程序框架
将 nanoGPT 架构的完整推理用一个电子表格来实现,帮助更好了解 GPT 的工作原理
基于Stable Diffusion的文字转动画模型AnimateDiff的官方实现
使用 LLM校正来增强扫描 PDF 的 Tesseract OCR 输出
简易语音工具箱,提供了包括语音模型训练在内的多种自动化音频工具
适用于 Windows、MacOS 和 Ubuntu 的 GPT-4o
基于 Llama-3.1 70b on Groq 实现类似 OpenAI o1推理链的开源项目
微软Azure开源的自动为项目生成多语言翻译的工具
集导演、编剧、制片人和视频生成器于一体的Agent视频生成
大模型Token价格计算器
适用于 Apple Silicon 的 Whisper 语音识别模型的设备端推理工具
语音处理工具箱,支持本地语音识别、语音合成、说话人识别、VAD、声音事件检测、语种检测等
实时交互流式数字人,实现音视频同步对话。基本可以达到商用效果
开源多媒体AI内容搜索引擎
AI模型统一调用接口
阿里巴巴开源的新闻时间线摘要生成系统
吴恩达老师开源的AI 翻译 Agent
京东健康开源的音频驱动的数字人头项目
多个文本转语音 (TTS) 提供商的统一接口封装
虚拟 3D 空间中端到端电影自动化多代理框架
AI流行趋势发掘器,追踪X上的热门话题
一键转录YouTube视频,粘贴YouTube链接即可将视频音频转成文本
开源版 Cursor,类似项目: codeium ,continuedev
开源AI视频转动漫风格工具
在浏览器中运行大模型
语音文本基础模型和全双工口语对话框架
由发行ai16z Token Web3项目开源的AI agent框架
为AI Agent 构建的开源浏览器API
功能强大且多功能的AI文档解析器
3小时完全从0训练一个仅有26M的小参数GPT,最低仅需2G显卡即可推理训练!
用于长故事可视化的免训练迭代框架
开源AI PPT 生成器 ,Gamma 的开源替代
AI 图像搜索工具,提供基于内容、文本和视觉相似性的系统范围搜索,基于OpenAI的CLIP模型
阿里巴巴开源的Deep Research Agent
多智能体 AI 系统,自动将研究论文转换为交互式 AI 代理