EXPERT VIEW · FIELD NOTE

破除算力迷信:AI投资的下一个范式是“数据优先”

本文深入探讨了当前AI领域投资过分关注算力增长的误区,并提出随着基础模型能力的普及,真正的竞争优势将从模型本身转移到拥有独特、高质量数据集的企业...
人工智能投资策略数据壁垒
李毅峰

李毅峰

高山资本 | 首席技术分析师 · 2025-08-26

核心观点

未来五年,所有对AI的投资,本质上都是对高质量、结构化数据的投资。算法的同质化将不可避免,而数据壁垒才是真正的护城河。

算力的“天花板”正在显现

当前,AI领域的军备竞赛主要围绕着TOPS(每秒万亿次运算)展开。从NVIDIA的H100到B200,算力的指数级增长似乎是推动AI能力跃升的唯一路径。然而,这种增长模式正面临三大瓶颈:

  1. 能源墙: 数据中心的能耗已成为一个巨大的问题。训练一个GPT-4级别的模型所消耗的电力,足以供应数千个家庭一年的用电量。这种能源消耗是不可持续的。
  2. 成本墙: 最先进的AI芯片价格高昂,且供应受限。只有少数科技巨头能够承担起训练前沿大模型的巨额成本,这正在导致创新的中心化。
  3. 数据墙: 高质量的训练数据正在变得比算力更稀缺。互联网上的公开数据已被几乎所有模型“消化”完毕,而模型在自己生成的合成数据上进行训练,又面临着“模型坍塌”的风险。

从“模型即护城河”到“数据即护城河”

随着Llama、Mistral等高性能开源模型的崛起,闭源模型的技术优势正在被迅速拉近。在不远的将来,对于大多数企业而言,基础模型的性能将不再是差异化优势,它们会像云计算一样,成为一种可按需获取的商品化资源。

届时,竞争的焦点将不可避免地转移到应用层。而在应用层,决定一个AI产品能否成功的关键,不再是你用了多大的模型,而是你用了多好、多独特的数据来对这个模型进行微调(Fine-tuning)和优化。

一个在特定行业(如医疗影像、金融风控、工业制造)拥有独特、闭环、高质量数据集的公司,即便使用一个中等规模的开源模型,其最终产品的性能也可能超越使用通用大模型但缺乏专业数据的竞争对手。

投资策略的转变

因此,投资者应该将目光从单纯的算力提供商,更多地转向以下三类公司:

  • 数据拥有者: 那些在其核心业务中自然产生并积累了大量结构化、高质量数据的行业龙头。
  • 数据处理者: 能够提供高效数据清洗、标注、合成和管理工具的公司。
  • 数据应用者: 能够将特定领域数据与AI模型深度结合,解决具体行业痛点的初创公司。

结论是明确的:算力是入场券,但数据才是决定胜负的王牌。