2025-01-15

2025-01-15T00:00:00Z | 9 minute read | Updated at 2025-01-15T00:00:00Z

小狐狸

1. 月之暗面Kimi多模态图片理解模型 API 发布

月之暗面Kimi多模态图片理解模型 API 发布 2025年1月15日,北京月之暗面科技有限公司正式发布了全新多模态图片理解模型moonshot-v1-vision-preview,该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力,旨在帮助Kimi更好地理解世界。该Vision模型具备卓越的图像识别能力,能够识别复杂细节并区分相似对象,表现出色,尤其在OCR文字识别和图像理解方…

image.png

【总结】🖼️ Vision模型具备强大的图像识别能力,能够准确区分复杂细节和相似对象。📄 在OCR文字识别和图像理解方面表现优异,识别潦草手写内容的能力超越普通软件。💬 模型支持多轮对话和工具调用等特性,使用灵活,但不支持联网搜索。

2. MiniMax开源MiniMax-01全新系列模型

MiniMax开源MiniMax-01全新系列模型 MiniMax于2025年1月15日发布了其全新开源系列模型MiniMax-01,包含基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。该系列通过创新的线性注意力机制和超大参数量,实现了高效的长文本处理,性能与国际顶尖模型相当。 🧠 MiniMax-01系列模型采用创新的线性注意力机制,打破传统架构局限,支持长…

image.png

【总结】🧠 MiniMax-01系列模型采用创新的线性注意力机制,打破传统架构局限,支持长达400万token的上下文处理。💡 该系列模型在多项任务上追平了GPT-4o和Claude-3.5-Sonnet,尤其在长文任务中表现优异。💰 MiniMax以业内最低价格提供文本和多模态理解API服务,标准定价为输入token1元/百万token,输出token8元/百万token。详情链接:https://github.com/MiniMax-AI

3. 周鸿祎参演 AI 短剧开拍,AI做特效、AI硬件齐上阵

周鸿祎参演 AI 短剧开拍,AI做特效、AI硬件齐上阵 360集团创始人周鸿祎宣布参与拍摄国内首部AI短剧,该剧将在西安开机,计划于春节期间上线。短剧以穿越为主题,预计60集,旨在传递正能量并避免狗血剧情。周鸿祎希望通过短剧展示AI技术,促进其在日常生活中的普及,同时推动360的纳米AI搜索产品的发展。 🌟 短剧将在西安开机,计划春节上线,主题为穿越,预计60集。

image.png

【总结】🌟 短剧将在西安开机,计划春节上线,主题为穿越,预计60集。🤖 特效画面由纳米AI搜索生成,降低拍摄成本,提升视觉效果。📚 旨在普及AI知识,助力每个人掌握AI技术,消除数字鸿沟。

4. 阿里巴巴达摩院推出电商场景多模态大模型Valley2

阿里巴巴达摩院推出电商场景多模态大模型Valley2 阿里巴巴达摩院推出的Valley2是一款多模态大型语言模型,专为电商场景设计,旨在提升各领域的性能并拓展应用边界。该模型结合了先进的视觉编码器和创新的处理模块,展现了在多个基准测试中的卓越表现,标志着多模态语言模型的重大进展。 🌟 Valley2基于电商场景设计,采用Qwen2.5作为主干,结合SigLIP-384视觉编码器,提升多模态处理能力…

image.png

【总结】🌟 Valley2基于电商场景设计,采用Qwen2.5作为主干,结合SigLIP-384视觉编码器,提升多模态处理能力。📊 训练过程包括文本-视觉对齐和链式思维后训练,确保模型在复杂问题解决中的高效性。🏆 在多个公开基准测试中,Valley2表现卓越,尤其在电商领域的应用中超越同规模模型。详情链接:https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

5. ChatGPT智能体来了!上线“Tasks”功能:智能处理提醒和待办事项

ChatGPT智能体来了!上线“Tasks”功能:智能处理提醒和待办事项 OpenAI最近推出了ChatGPT的新功能“任务”,允许用户安排未来的操作和提醒,使其更像传统数字助理。该功能现已向Plus、Team和Pro订阅用户推送,用户可以简单地输入任务及时间,ChatGPT将处理这些需求。尽管目前仅限于付费用户。 ✅ 新功能“任务”允许用户安排未来的操作和提醒,提升ChatGPT的实用性。

image.png

【总结】✅ 新功能“任务”允许用户安排未来的操作和提醒,提升ChatGPT的实用性。🔔 用户可通过简单输入告知ChatGPT所需任务及时间,轻松管理日常事务。💼 当前仅向付费用户推出,尚不明确是否会面向免费用户,预计仍将是高级功能。

6. 小型文本转语音模型Kokoro-TTS,曾拿下TTS排行榜第一

小型文本转语音模型Kokoro-TTS,曾拿下TTS排行榜第一 Kokoro是一款新发布的语音合成模型,具有8200万参数,迅速在TTS领域崭露头角。其在Hugging Face平台上发布后,凭借仅用不到100小时的音频数据,便在排行榜上夺得第一,展现了超高的性价比。尽管目前存在声音克隆的局限性,但其训练过程的合规性和高效性为未来的发展奠定了基础。 🌟 Kokoro-82M 是一款新发布的语音合成…

image.png

【总结】🌟 Kokoro-82M 是一款新发布的语音合成模型,具有8200万参数,支持多种语音包。🎤 该模型在 TTS 领域表现卓越,曾在排行榜上排名 第一 ,仅用不到100小时的音频数据进行训练。📊 Kokoro 模型的训练采用了开放许可证的数据,确保合规性,但目前仍存在一些功能限制。详情链接:https://huggingface.co/hexgrad/Kokoro-82M

7. Topview AI推全球首个支持生成手拿产品的数字人Product Avatar

Topview AI推全球首个支持生成手拿产品的数字人Product Avatar Topview AI推出的“Product Avatar”数字人解决方案为电商行业带来了革命性的变化。商家只需上传产品图片,AI便能生成手持产品的数字人并进行口播讲解,极大地节省了拍摄时间和成本。该产品还支持多种语言和个性化定制,标志着电商营销进入AI驱动的新阶段。 🤖 AI数字人可快速生成,无需真人模特,节省时间…

image.png

【总结】🤖 AI数字人可快速生成,无需真人模特,节省时间和成本。🌍 支持1000多种数字人模特和28种语言,满足全球市场需求。🎥 灵活高效的产品展示模式,商家可随时更换产品,提升推广效率。详情链接:https://www.topview.ai/ai-product-avatar

8. 英伟达400万美投资 MetAI 几分钟将CAD文件转为3D世界

英伟达400万美投资 MetAI 几分钟将CAD文件转为3D世界 Nvidia最近对初创公司MetAI进行了400万美元的种子轮融资,旨在推动AI数字双胞胎技术的发展。MetAI专注于利用AI和3D技术迅速将CAD文件转换为功能性3D环境,大幅缩短数字双胞胎的创建时间。该公司计划在2025年将总部迁至美国,并扩大研发团队,以满足日益增长的市场需求。 🌟 Nvidia投资400万美元于初创公司Met…

image.png

【总结】🌟 Nvidia投资400万美元于初创公司MetAI,推动AI数字双胞胎技术发展。🤖 MetAI利用AI和3D技术将CAD文件快速转换为功能性3D环境,缩短数字双胞胎创建时间。🚀 MetAI计划在2025年将总部迁至美国,并扩大研发团队以应对日益增长的市场需求。

9. 讯飞星火4.0Turbo七大核心能力升级:数学、代码能力超GPT-4o

讯飞星火4.0Turbo七大核心能力升级:数学、代码能力超GPT-4o 讯飞星火4.0Turbo的全面升级标志着科大讯飞在人工智能领域的又一重大突破。此次升级不仅在文本生成、语言理解等七大核心能力上实现了显著提升,更在数学和代码能力方面超越了GPT-4o,尤其是在复杂数学问题的处理上展现出更强的能力。 🔢 数学能力显著提升,超越GPT-4o,能够处理复杂数学问题。

【总结】🔢 数学能力显著提升,超越GPT-4o,能够处理复杂数学问题。💻 新推出的星火深度推理模型X1,拥有1750亿参数,适用于深层次数据分析。📈 科大讯飞自2020年以来累计研发投入125亿元,支持AI技术的持续发展。

10. Gemini AI 实现视觉处理新突破:实时视频与静态图像同步分析

Gemini AI 实现视觉处理新突破:实时视频与静态图像同步分析 谷歌的Gemini AI最近在视觉处理领域取得了重要突破,能够同时处理实时视频和静态图像。这项技术通过实验性应用AnyChat展示,标志着人工智能在多流处理方面的进步。开发者可以利用Gemini的架构创建自定义平台,应用于教育、艺术等多个领域,展现出广泛的应用潜力。 🌟 Gemini AI实现实时视频与静态图像的同步处理,打破以往…

image.png

【总结】🌟 Gemini AI实现实时视频与静态图像的同步处理,打破以往限制。🎨 AnyChat平台展示了AI在教育、艺术等领域的广泛应用潜力。🚀 开发者可以轻松利用Gemini的技术构建自己的视觉AI应用。详情链接:https://huggingface.co/spaces/akhaliq/anychat

11. 科大讯飞星火同传语音大模型发布:达到人类专家译员水平

科大讯飞星火同传语音大模型发布:达到人类专家译员水平 科大讯飞今日发布了星火同传语音大模型,标志着国内首个具备端到端语音同传能力的大模型的问世。这一技术的推出,显著提升了翻译的流畅性和准确性,尤其在国际交流场合中表现出色。该模型支持多种语言的即时翻译,响应时间缩短至5秒以内,达到人类专家的翻译水平,预示着未来国际交流的便捷与高效。 🚀 星火同传语音大模型是国内首个具备端到端语音同传能力的大模型,显…

【总结】🚀 星火同传语音大模型是国内首个具备端到端语音同传能力的大模型,显著提升了翻译效果。🌍 该模型在英译中方面几乎实现无延迟,适合国际展会和旅游等场景使用。⚡ 支持流式翻译和自适应语速调节,翻译的自然度和流畅度大幅提升,超越了国际同类技术。

12. OpenBMB发布多模态模型MiniCPM-o2.6手机也能进行视觉和语音处理

OpenBMB发布多模态模型MiniCPM-o2.6手机也能进行视觉和语音处理 OpenBMB推出的MiniCPM-o2.6是一款具有80亿参数的多模态模型,旨在解决高计算资源需求与边缘设备兼容性之间的挑战。该模型在视觉、语音和语言处理方面表现出色,能够高效运行于智能手机和平板电脑上。通过模块化设计,MiniCPM-o2.6集成了多种强大组件,支持实时处理和多语言功能。 🌟 MiniCPM-o2….

image.png

【总结】🌟 MiniCPM-o2.6是一款具有80亿参数的多模态模型,能够在边缘设备上高效运行,支持视觉、语音和语言处理。🚀 该模型在OpenCompass基准测试中表现优异,视觉任务成绩超过GPT-4V,并具备多语言处理能力。🛠️ MiniCPM-o2.6具备实时处理、语音克隆和情感控制等功能,适用于教育、医疗等多个行业的创新应用。详情链接:https://huggingface.co/openbmb/MiniCPM-o-2_6

comments powered by Disqus

© 2019 - 2025 PhantomDream | AIGC Labs

AIGC小狐狸 | AIGC Research & Innovation | Contact: vortex750@hotmail.com

About Me

💼 With 9 years of hands-on algorithm engineering experience, I’ve also led teams for 5 years, guiding the development of cutting - edge solutions in various domains.

🖥️My expertise spans Computer Vision, Computer Graphics, and Combinatorial Optimization. These fields allow me to approach problems from multiple angles and create comprehensive solutions.

🔍My research interests include Diffusion, NerF, and AIGC(AI - Generated Content). These areas push the boundaries of what ’s possible in technology, enabling new forms of creativity and interaction.

Sponsor Me

如果你喜欢我的作品或者发现它们对你有所帮助,可以考虑给我买一杯咖啡 ☕️。这将激励我在未来创作和维护更多的项目。🦾

👉 请我喝一杯咖啡

If you like my works or find them helpful, please consider buying me a cup of coffee ☕️. It inspires me to create and maintain more projects in the future. 🦾

👉 Buy me a coffee