Blog Background
Community / Blog
Blog
All Articles Technical Articles Ecological Articles Best Practices Community Activities
大模型无缝切换,QwQ-32B 和 DeepSeek-R1 全都要
近期,通义千问发布最新推理模型 QwQ32B。 在各类基准测试中,拥有 320 亿参数的 QwQ 模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeekR1 媲美。这意味着: + 个人用户可以在更小的移动设备上、本地就能运行。 + 企业用户推理大模型 API 的调用成本,可再降 90%。 价格对比: 如果是通过调用官方 API 的方式: DeepSeek R1:$0.14/M 输入, $2.19/M 输出 QwQ32B:$0.20/M 输入, $0.20/M 输出 如果是通过云上自建的方式,例如阿里云 PAI: DeepSe...
johnlanni | 2025-03-10
大模型无缝切换,QwQ-32B 和 DeepSeek-R1  全都要
阿里云云原生团队招人,简历直推,专人负责,支持进度查询
01 中间件团队介绍 阿里云云原生中间件团队负责分布式软件和 AI Agent 基础设施的研发,致力于为阿里云数万家企业客户提供卓越的 AI 网关、API 网关和微服务产品,加速企业上云的进程和创新速度。同时,云原生中间件团队也服务着阿里集团众多核心业务和场景,是支撑双十一狂欢节的最核心团队之一。 我们的愿景和使命: ️ 引领 AI 中间件的潮流,打造世界一流的 AI 原生应用架构。 ️ 夯实分布式架构、构建 AI Agent 的基础设施,支撑百万台服务器和超万个系统的服务能力。 在这里,有世界一流的中间件产品和应用场景,有世界领先的企业互联网架构平台,融合最...
CH3CHO | 2025-02-28
阿里云云原生团队招人,简历直推,专人负责,支持进度查询
自建DeepSeek时代已来,联网搜索如何高效实现
一、开源LLM的新纪元:DeepSeek带来的技术平权 随着DeepSeek等高质量开源大模型的涌现,企业自建智能问答系统的成本已降低90%以上。基于7B/13B参数量的模型在常规GPU服务器上即可获得商业级响应效果,配合Higress开源AI网关的增强能力,开发者可快速构建具备实时联网搜索能力的智能问答系统。 二、Higress:零代码增强LLM的瑞士军刀 Higress作为云原生API网关,通过wasm插件提供开箱即用的AI增强能力: 主要能力矩阵: 联网搜索:实时接入互联网最新信息 智能路由:多模型负载均衡与自动兜底 安全防护:敏感词过滤与注入攻击防御 效能优化:...
CH3CHO | 2025-02-26
自建DeepSeek时代已来,联网搜索如何高效实现
AI 网关需要具备的10大基本能力
作者:望宸、澄潭 大模型主战场从训练转向推理,已经成为业内共识。越来越多的公司已经开始设计符满足企业内部需求和外部商业方向的大模型应用,并在生产环境中进行部署。这个过程中,我们遇到了一系列新的需求,这些需求与最初的大模型应用在 “概念验证阶段” 有所不同。这些新需求更多地源于对规模化和安全使用,其中,AI 网关成为被讨论较多的 AI 基础设施关键组件之一。 我们认为 AI 网关并不是独立于 API 网关的新形态,本质也是一种 API 网关,区别在于针对 AI 场景的新需求专门做了扩展,它既是 API 网关的继承,也是 API 网关的演进。因此我们从 API 视角,对 AI 网关的能...
CH3CHO | 2025-02-18
AI 网关需要具备的10大基本能力
玩转 DeepSeek:和 ChatGPT 对弈中国象棋
国外 up 主让 DeepSeek 跟 ChatGPT 下了一把国际象棋,DeepSeek 借助“孙子兵法”,让 ChatGPT 在优势局面下,直接认输: 如果让两个 AI 在中国象棋上对弈一把,效果会如何呢?话不多说,让我们直接来看看效果: 相比传统基于搜索算法等棋类 AI,至少目前看大模型没有太多优势。不过相比传统 AI,因为大模型可以输出一些聊天对话,会让棋局变得更有趣味性。 如果你对此感兴趣,可以看看下方的实现原理,在你自己的电脑上复现一把。 对弈实现原理 首先找了一个开源的基于终端命令行输出的象棋对弈程序: 因为是基于终端命令行的,棋局也很方便通过...
CH3CHO | 2025-02-14
玩转 DeepSeek:和 ChatGPT 对弈中国象棋
大模型应用部署过程中流量管控的常见需求和应对方案
作者:梧同、望宸 背景 目前,和 DeepSeek 相关的需求总结为两类: + 因官方 APP/Web 服务经常无法返回结果,各类云厂商、硬件或软件企业提供满血版或蒸馏版的 API + 算力服务,还有不少基于开源+家用计算和存储设备的本地部署方案,以分担 DeepSeek 官方的服务压力。 + 各行各业开始调用 DeepSeek API 来设计大模型应用,服务于企业内外部,关注应用的构建效率和稳定性。 此前,我们已经针对以上的第一点需求,发布了不少云端和本地的部署;本篇文章,将针对第二点需求,谈谈流量管理层的工程化方案。 DeepSeek 部署 由于 DeepSeek 开源了...
CH3CHO | 2025-02-10
大模型应用部署过程中流量管控的常见需求和应对方案
基于API网关践行API First开发实践
作者:泮圣伟(十眠) API 是连接数字生态系统中各应用的桥梁,是提升企业效率和数字化体验的关键。而 API First 开发模式的核心在于:以 API 为先,将其视为“头等公民”,在构建应用、服务及集成之前,应优先定义并设计 API 及其配套。API First 作为一种相对较新的开发模式,它已逐渐流行并获得业内的广泛认可。尤其是在微服务架构中,随着微服务的持续拆分,API 的数量呈指数级增长,API First 方法的优势与其重要性愈发突出。 什么是API First? API First 是一种开发模式,它优先于构建应用程序的其他组件,专注于 API 的创建和使用。这意味着首先...
CH3CHO | 2025-02-06
基于API网关践行API First开发实践
浏览量超10w的热图,描述 RAG 的主流架构
作者:望宸 大模型性能的持续提升,进一步挖掘了 RAG 的潜力,突破“检索拼贴”的原始范式。 详见下方“RAG 的定义、优势和常见架构” 这张图近期在国外社区传播比较多,结构化的描述了 RAG 的主流架构。RAG 用于提升大模型的生成效果,使得大模型更加智能,而持续提升的大模型语义和逻辑推理能力,又能更加精准的识别和应用专业知识库。本文将梳理 RAG 的基本信息,旨在获得更加清晰的理解。 目录 + 为什么需要 RAG + RAG 的定义、优势和常见架构 + 还有哪些方式,可以提升大模型的生成结果 + RAG 实践 为什么需要 RAG? 早期,大模型在进行训练的时...
CH3CHO | 2025-02-05
浏览量超10w的热图,描述 RAG 的主流架构
大模型推理服务全景图
作者:望宸 随着 DeepSeek R1 和 Qwen2.5Max 的发布,国内大模型推理需求激增,性能提升的主战场将从训练转移到推理。 由于无论是训练还是推理,如何提升性能都是业内讨论最多的话题之一。为什么是性能呢?做过在线业务工程化的人都知道,性能的提升,直接带来的效果有两个: + 计算资源成本的下降,更便宜 + 客户端体验的提升,内容生成更快 在大模型消耗计算资源多、客户端内容流式生成的场景下,性能显得尤为重要。。 推理性能的提升涉及底层硬件、模型层,以及其他各个软件中间件层的相互协同,因此了解大模型技术架构的全局视角,有助于我们对推理性能的优化方案进行评估和选型。...
CH3CHO | 2025-02-05
大模型推理服务全景图
Page 10 of 18