调研报告之大模型
1.前言
2025年春节期间,DeepSeek出现了,各个年轻人都知道这个东西,老板叫我去看看,能不能和业务进行结合,我始终想象不出来,一个做对话的工具,怎么能和实际的无人机飞控系统进行结合呢?
大模型(Large Language Models)指的是包含超大规模参数(通常在十亿个以上)的神经网络模型,这些模型在自然语言处理领域得到了广泛应用。大模型具有以下显著特征:巨大的规模、多任务学习、大数据训练、强大的计算资源、知识蒸馏。
常见的应用领域:自然语言处理(NLP)、语音识别、图像识别、推荐系统、聊天机器人、金融科技、智慧医疗。
【1】.大模型是什么 这里讲了大模型的定义,特点和应用方向。
【2】.大模型基础 本项目旨在作为一个大规模预训练语言模型的教程,从数据准备、模型构建、训练策略到模型评估与改进,以及模型在安全、隐私、环境和法律道德方面的方面来提供开源知识。
【3】.大模型能干什么 自然语言处理、计算机视觉、语音识别与合成、推荐系统、自动驾驶、医疗健康、金融风控、工业制造、其他领域。
【4】.直击DeepSeek技术真相,对我们究竟意味着什么? 这篇文章对DeepSeek的分析特别的有道理,第一个就是说不能神话,我蛮赞同的。
2.DeepSeek
671b 是 完全体的模型 , 这个需要 16 张 A100 显卡 才能跑起来 , 进行推理工作 , 显卡要几百万 ;
1.5b、7b、8b、14b、32b、70b 都是 完全体 671b 的蒸馏简化版本 , 功能要差很多 ;
1.5b 的版本 只需要 3090 显卡就可以跑起来 , 需要 6 ~ 8 GB 的显存 ;
7b 版本需要 4090 显卡跑起来 , 需要 16 ~ 24GB 的显存 ;
8b 及以上的版本 , 就需要 A100 显卡 , 需要 40G 以上的显存 , 普通人基本用不上这东西 , 十几万一张 ;
【1】.【AI 大模型】DeepSeek 大模型简介 ( DeepSeek-R1 和 DeepSeek-V3 大模型 | Python 调用 DeepSeek API | 本地部署 DeepSeek ) 这里各个模型的规模倒是介绍的比较详细的,各种模型需要的硬件不同。
【2】.手把手教你本地部署DeepSeek:享受AI带来的便利 这里使用 LMStudio客户端 进行了本地部署。1.5B适合体验/尝鲜的场景,只有大约3GB的文件,不做推荐。7B适合普通内容创作及开发测试场景,文件提升至8GB,推荐16GB内存+8GB显存,毕竟适合大多数用户。8B在7B的基础上更精细一些,适合对内容要求更高更精的场景,同样适合大多数用户。14B则提升至16GB,建议12核CPU+32GB内存+16GB显存,适合专业及深度内容创作场景。更高的参数规模需要的硬件太高,而且生成速度会更慢,所以不做推荐。
【3】.硅基流动携手华为云推出DeepSeek系列模型推理服务,赋能AI开发与应用丨华兴的朋友们 经过硅基流动和华为云团队连日攻坚,2025年2月1日,大模型云服务平台 SiliconCloud首发上线基于华为云昇腾云服务的DeepSeek-V3、DeepSeek-R1。
【4】.硅基流动调用 DeepSeek-V3 & R1:5 分钟快速上手指南 这是如何注册和使用硅基流动的官网访问 DeepSeek-V3 的方法。
【5】.完整的 671B DeepSeek R1 本地部署,详尽教程来了! 如何用 ollama 在本地部署 DeepSeek R1 671B(完整未蒸馏版本)模型,这篇文章提出了方法。
【6】.deepseek可以用来做什么?这个项目给出的答案 这是一个应用列表,比如:Chatbox、ChatGPT-Next-Web、Liubai、Pal - AI Chat Client (iOS)
【7】.【Deepseek】全网最全DeepSeek使用手册!学会了效率提高90%【建议收藏】 1.数据分析;
3.QVQ-72B-Preview
我在研究多模态的时候,推荐了一个 QVQ-72B-Preview 这个东西,说是开源的。
【1】.QVQ-72B-Preview:用智慧看世界
3.AI绘画
【1】.2024年10大最强AI绘画软件,四步完成在线AI画图!
4.多模态
多模态(Multimodality)是指集成和处理两种或两种以上不同类型的信息或数据的方法和技术。在机器学习和人工智能领域,多模态涉及的数据类型通常包括但不限于文本、图像、视频、音频和传感器数据。多模态系统的目的是利用来自多种模态的信息来提高任务的性能,提供更丰富的用户体验,或者获得更全面的数据分析结果。核心组成部分:
- Modality Encoder(模态编码器):负责将不同模态的输入数据编码为模型可理解的表示;
- Input Projector(输入投影器):将不同模态的输入数据映射到共享的语义空间;
- LLMs:大型语言模型,用于处理文本数据;
- Output Projector(输出投影器):将模型生成的输出映射回原始模态的空间;
- Modality Generator(模态生成器):根据输入数据生成对应的输出数据
【1】.通义发布最强开源多模态推理模型QVQ!
【2】.多模态大模型:基础架构 最详细的讲解教程没有之一 多模态大型语言模型(MLLM)是人工智能领域的前沿创新,它结合了语言和视觉模型的功能,可以处理复杂的任务,如视觉问答和图像字幕。这些模型利用大规模预训练,集成了多种数据模态,以显著提高其在各种应用程序中的性能。
【3】.o1多模态推理终于有了“开源版本”,阿里云通义QVQ一夜爆火 这里说明了一个 OVQ 的问题,举了几个例子。
【4】.SOTA多模态大模型!13个开源模型汇总,附论文和代码 NExT-GPT、DreamLLM、MoE-LLaVA、LEGO、InternLM-XComposer2、mPLUG-PaperOwl、LION、PixelLM、Vary-toy、LLaVA、MobileVLM、CogAgent
【5】.多模态大语言模型:让AI看图说话 1.背景;2.看图说话AI的基本构成:用于图像特征提取的深度视觉模型、融合视觉与文本特性的混合器、根据输入多模态信息生成文本的大语言模型;3.视觉/多模态特征提取;4.混合器:视觉与文本的交互
【6】.10分钟了解什么是多模态大模型 这篇文章对多模态和核心内容进行了整理和输出,1.什么是多模态 Multimodality;2.Multimodal Large Language Models 为什么还是Language Models;3.Modality Encoder 模态编码器;4.Input Projector 输入投影器;5.Output Projector 输出投影器;6.Modality Generator 模态生成器;7.