DeepSeek

4周前发布 109 0 0

DeepSeek 是一家在人工智能领域具有重要影响力的中国公司,以下是关于它的详细介绍: 公司概况 成立时间:2023 年。 总部地点:杭州,并在北京设有研发中心。 公司目标:专注于实现 AGI(人工通用智能),致力于开发更强大、更接近人类思维能力的 AI 技术。 核心技术 以 Transformer 架构为基础:deepseek...

所在地:
中華人民共和國
收录时间:
2025-02-08
DeepSeekDeepSeek
DeepSeek
DeepSeek 是一家在人工智能领域具有重要影响力的中国公司,以下是关于它的详细介绍:

公司概况

 

  • 成立时间:2023 年。
  • 总部地点:杭州,并在北京设有研发中心。
  • 公司目标:专注于实现 AGI(人工通用智能),致力于开发更强大、更接近人类思维能力的 AI 技术。

核心技术

 

  • 以 Transformer 架构为基础:deepseek 大语言模型系以 transformer 架构为基础,自主研发深度神经网络模型,基于注意力机制,通过海量语料数据进行预训练。
  • 混合专家(MoE)架构:自主研发的 MoE 架构,使模型在保持高效的同时能处理复杂任务。
  • 多技术融合:将多模态学习与自适应算法结合,还融合了自然语言处理和图像识别技术,在多模态任务中表现出色1

主要模型

 

  • DeepSeek LLM:2024 年 1 月 5 日发布,包含 670 亿参数,在 2 万亿 token 的数据集上训练,涵盖中英文,在推理、编码、数学和中文理解等方面表现出色。
  • DeepSeek Coder:2024 年 1 月 25 日发布,由一系列代码语言模型组成,在多种编程语言和基准测试中达开源代码模型先进性能。
  • DeepSeek Math:2024 年 2 月 5 日发布,以 DeepSeek Coder-v1.5 7B 为基础,在数学相关 token 等数据上预训练,在竞赛级 math 基准测试中成绩优异。
  • DeepSeek VL:2024 年 3 月 11 日发布,是开源视觉 – 语言模型,采用混合视觉编码器,在视觉 – 语言基准测试中有先进性能。
  • DeepSeek V2:2024 年 5 月 7 日发布,是强大的混合专家语言模型,以经济高效的训练和推理为特点,性能强且降低了训练成本。
  • DeepSeek Coder-V2:2024 年 6 月 17 日发布,是开源的混合专家代码语言模型,在代码特定任务中达与 GPT4-Turbo 相当的性能。
  • DeepSeek VL2:2024 年 12 月 13 日发布,是先进的大型混合专家视觉 – 语言模型系列,在多种任务中展现卓越能力。
  • DeepSeek V3:2024 年 12 月 26 日发布,在知识类任务上水平提升,在美国数学竞赛和全国高中数学联赛上大幅超过其他模型,生成速度大幅提高。

应用场景

 

  • 智能助手:提供更自然的对话交互,可应用于客服、教育等领域,能进行知识问答、写作辅助等。
  • 数据分析:能快速处理大量信息,辅助企业进行决策。
  • 科研辅助:帮助研究人员进行文献分析、实验模拟等。在医疗影像分析领域,可以同时结合图像数据和病历数据,做出比传统方法更为精准的诊断。

平台使用3

 

  • 官方平台:用户可以通过网页版或手机版使用,官网为https://chat.deepseek.com/,新用户可用手机号、邮箱或微信登录。
  • 本地部署:关注数据安全的用户可以选择本地部署,通过在个人电脑上安装蒸馏版 DeepSeek 来使用。
  • API 接入:有一定计算机知识的人士,可通过 API + 客户端的方式使用 DeepSeek,如选择 ChatBox 等客户端,并获取 API 密钥。

市场影响

 

  • DeepSeek 的 AI 助手上线后迅速登顶全球应用商店排行榜,其宣称 AI 模型能力可与 OpenAI 的最新版本媲美,但研发成本仅为其一小部分,所需计算资源也远远较少。
  • 其开放 AI 模型的举措,引发了全球 AI 领域对现有 AI 发展模式的质疑与反思,在技术和商业模式上给行业带来了新的思考和挑战。

数据统计

相关导航

暂无评论

none
暂无评论...