半年估值数亿，1000亿美元超级赛道跑出“AI猛兽”

2024-06-28 11:40 66 阅读 0 评论 44 点赞

声明:本文来自于微信公众号铅笔道（ID:pencilnews），作者:李祥邹蔚，授权靠谱客转载发布。

去年，谷歌发布了一份忧心忡忡的内部文件:“虽然谷歌与OpenAI（在大模型上）你追我赶，但双方都没有真正的护城河，因为第三股力量正在崛起——开源社区才是谷歌和OpenAI最大的敌人。”

谷歌的担忧正逐渐变成了现实。

马斯克的开源大模型公司xAI近期完成60亿美元B轮融资，估值达180亿美元;坚持开源的法国AI初创公司Mistral AI获得了6亿欧元投资，最新估值已逼近60亿欧元;知名大模型开源社区Hugging Face，估值也飙升到45亿美元。而在代码开源与托管领域，更是早已跑出了GitLab、GitHub等知名社区。

机器人 ai 人工智能 (2)

图源备注：图片由AI生成，图片授权服务商Midjourney

开源生态，正逐渐成为左右大模型发展的关键力量，可就在海外大模型开源进展如火如荼之际，中国的开源社区、开源生态却有些掉队。知乎上有一个热门问题“为什么中国出现不了Hugging Face?”

但这种情况正在改变。2023年，云计算和AI领域连续创业者陈冉，创办大模型开源社区OpenCSG（开放传神），为客户提供开源大模型产品及服务。成立不到半年，OpenCSG就拿到了联想创投、北京国信中数的投资，公司估值已达数亿元。

作为一名在开源和AI方面拥有20年经验的老兵，陈冉发现，大模型正带来前所未有的行业巨变，但大多数企业级用户既无法基于大模型开发应用，更无力训练出一个符合自身需求的模型，AI版“GitLab+Hugging Face”出现。

“大模型领域，开源非常重要，开源关乎商业模式，关乎产业链”陈冉告诉铅笔道，“组建开源社区、构建开源生态，很可能是打破OpenAI市场垄断的唯一方法。”

资料显示，2024年全球大模型市场规模将突破280亿美元，到2028年将突破1000亿美元。出海参与全球竞争、为全球企业服务，也是陈冉的梦想。“我想证明一下，中国也可以诞生开源领域优秀的创业公司，让投资人看到开源的商业价值。”

近日，铅笔道与陈冉就开源社区的商业模式、中国开源市场前景等话题做了交流，以下是对话精华。

-01-

铅笔道:作为AI老兵，是什么样的契机让你要在开源领域再做一家公司?

陈冉:我看到了AI时代开源将迎来颠覆性的机会，值得再创业一次。

工作20年，我一直做开源这件事。我上一家开源公司主要为B端客户提供本土化的代码服务以及数据支持，积累了1600万用户，成了国内最大的开源平台。

Hugging Face是一个优秀的大模型和数据集托管平台，类似于GitHub，但其主要针对科学家、算法工程师，却没有特别大的意愿去做to B生意。

在AI时代，我原先的积累刚好可以填补市场空白。我有搭建超大型线上开源社区的经验，也会做to B的生意，擅长为企业提供本地化服务和私有部署，还有1600万熟悉的用户。这一切要素叠加起来，意味着我可以在AI时代做成中国版“GitLab+Hugging Face”，对开源来说是历史性机会。

铅笔道:创立OpenCSG后，市场需求跟你原先设想的一样吗?

陈冉:基本一致。真正深入到市场后，我很快意识到“降本增效”已经成了大模型的当务之急。

在当下，大家共同面临的是“大模型好像比什么都重要，但无法真正应用到场景中”的困境，一个重要原因就是大模型成本太高。算力、数据处理、算法人才都很贵，OpenCSG初衷就是降低大模型的使用成本和门槛。

OpenCSG这个名字就代表着降本增效的公司理念。C即Converge（集合），代表算力的集合。因为大模型发展的最高优先级是算力，但中国的算力比较分散，因此需要通过高中低配算力——国产算力与国外算力分布式搭配，按需分配算力。

S即Software Refine（软件重塑），软件重塑就是通过大模型去生产代码，因为BAT等大厂把研发人员的工资炒得很高，同时人效很低。我们的理念是用大模型开发代码与交付，在软件定义的层面降本增效，最近刷屏的Starship就是主力产品。

G指Generative（生成式AI）。大模型是未来，但大模型一定要以开源的方式交付给客户，也就是我们所说的Open(开源开放)。国外有Gitlab和Hugging Face这样优秀的开源平台，但中国直到大模型时代，还一直缺这样的平台，这就是OpenCSG的机会。

铅笔道:GitLab已经是全球知名程序员社区，Hugging Face的估值也达到45亿美元，OpenCSG打算怎么走?

陈冉:最终目标肯定是走出去，跟GitLab和Hugging Face在全球竞争，因为中国有全世界最广大、最优质的研发人员，有软件人才基础。

但从更现实角度，当前还是要稳一些，先把用户规模和营收做扎实，再扩大规模。今年我们已经基本营收平衡。

铅笔道:市面上的主流大模型都还没有盈利，OpenCSG是怎么做到的?

陈冉:大模型本身并不值钱，我们把大模型的价值用开源的方式交付给客户，让客户真正为价值付费。

铅笔道:客户付费的点是什么?

陈冉:OpenCSG的商业模式类似于帮助客户搭建专属云，通过订阅付费模式，为客户提供搭建软件架构的能力，帮助客户定制大模型中的“专有云”。

我们有几款主力产品——CSGHub开源模型平台、悟空预训练模型、CSGCoder微调代码模型，以及刷新了大模型编程纪录的StarShip。

同时相比于MaaS（模型即服务）公司只提供开源大模型的接口，我们还会额外提供开源大模型的代码帮助公司进行Fine-tune(微调)和开发。在使用OpenCSG构架服务后，即使是没有开发能力的客户，只需要通过自然语言输入需求，就能快速生成基于大模型的软件。

铅笔道:听起来，OpenCSG要为大量用户做定制化服务，赚的像是份辛苦钱。

陈冉:不辛苦，因为我们是开源的方式，本质上客户自己组装出来的模型。

我们的模式类似于宁德时代做电池，蔚来、理想都可以基于电池做汽车，但电池和中控这样的核心技术是宁德时代自研的。

那OpenCSG已经制订了行业标准，搭好了开源平台，并且有成型产品，B端客户要享受企业级服务，就会付费。至于定制化需求，我们有一大堆合作伙伴，同时是开源协作的方式，只要客户给到核心数据，就能训练出他需要的模型。

-02-

铅笔道:像周鸿祎、杨立昆、朱啸虎等人都认为开源模型才是未来，你怎么看大模型的开源和闭源之争?

陈冉:我觉得开源和闭源之争是商业模式的竞争，就像iOS系统和安卓系统，没有好坏之分，两者也一直是并存的。

只是闭源一般都是某几个大厂在做，开源则强调全球协作，因为参与的人更多，场景越多，产品才能适配更多的人群，是共创共赢的思路。

只是对于中国来说，做开源的优先级一定是要高于闭源。

铅笔道:为什么这么说?

陈冉:因为中国的大多数企业并不具备做闭源的实力，哪有那么多人有钱去搞个闭源模型?还有个关键点，大模型未来的关键节点不是算力，甚至不是模型，而是核心数据集。

由于核心数据集一般在甲方（企业）手里，如果甲方把数据灌到一个商业版闭源模型，那训练出来的模型是归客户还是模型厂商?未来数据归属权和大模型归属权是说不清楚的。客户肯定想模型归自己所有，因为企业数据大多涉及核心机密。

所以我们坚持做CSGHub开源模型平台，为企业提供线上线下一体化服务。企业真正需要的应该是线上线下一体的平台，因为企业数据作为第一要素必须放到线下进行管理。为此，我们坚定做开源模式，让客户自己管理自己的数据资产。

铅笔道:优质的中文数据集数量不足，缺少优质数据是否会制约大模型未来的发展?

陈冉:我告诉你为什么，因为中国在上一个时代的数字化转型走得不通透。中国的互联网时代确实非常辉煌，但恰恰是辉煌“耽误”了一代基础技术的底层构造。因为各家应用公司都想着垄断数据、积累用户，导致开源一直发展不顺。

虽然国内也有很多优秀的开源项目和社区，但相比国际仍有差距。中国的开源文化并未像国际上那么成熟，缺少足够的理解和支持。在商业变现上，国内也没有踏出一条从开源技术孵化到商业变现成功（IPO）的闭环，适应中国国情的开源商业模式一直没有形成。

这些基础技术、软件积累的缺陷会在后期发展越来越被放大，在大模型时代更是如此。为什么我们一直处于追赶，因为任何技术的发展都是有规律的、持续迭代、相互依赖，最终形成新的创新。创新不可能来源于Nowhere，国内缺失了一些开源的环节。

铅笔道:那OpenCSG要走的这条路是不是特别艰险?

陈冉:再早三年这件事我都不愿意干，因为这件事在中国就属于是之前没做的事，你要补漏，所以你说困不困难?非常困难。但这又是创新的必要环节，你必须要做。

我坚定地认为中国需要开源生态，国家和政府也正在出台有利政策支持开源生态的发展，比如十四五规划提倡支持开源。

但开源不是某一家大模型公司能做成的，而需要搭建整个开源生态和社区。所以我只有坚定地做下去，相信总有一天开源生态会迎来爆发，因为开发者都能在社区中获利，就像商户能在淘宝里挣钱了，他们就愿意留在这个社区，你也就成了这个时代的淘宝。

-03-

铅笔道:一开始如何吸引众多开发者到OpenCSG，如何活跃社区?

陈冉:活跃社区有一个专业名词叫“牵引力”，我们主要有三个牵引力。

第一，为用户提供实时可用的算力，OpenCSG在线上的目标人群是研发人员，所以我们有一个算力交易平台，让所有研发人员能以最低成本、最低门槛使用大模型。并通过线上算力的分佣，实现研发人员降本增效，产生更多的agent。

第二，我们提供各种可靠的、可负担的开源模型选择。我们预训练了很多模型，比如悟空模型，还有其他很多开源模型，客户永远能找到量身定做的模型。

第三，我们足够便宜好用。

举个例子，我们很多企业客户实际上并没有额外经费，也不知道如何挑选适合自己的模型，但客户的痛点很明确——降本增效。在OpenCSG，因为有开源代码和预训练模型，客户只需要描述应用需求，OpenCSG就可以完成相应软件的代码生成。例如客户希望开发网站，仅通过描述网站各项功能，相应软件应用即可搭建起来，相比自己组建团队成本自然更低。

这些省下的人力成本，就转变成了给OpenCSG的订阅费。

铅笔道:很多开源社区希望营造一种“人人为我，我为人人”的社区氛围，在OpenCSG是否如此?

陈冉:人人为我，我为人人，这是一种情怀。但开源不是情怀，这是一种商业模式。

开源社区要不然帮别人挣钱，要不然帮别人省钱。社区的繁荣一定由利益驱动，很多人天天讲要做开源的领袖，要为开源文化做贡献，我只能说这是学术思维，更多企业做开源是为了盈利。

铅笔道:在市场竞争上，你担心Hugging Face吗?

陈冉:我一点都不担心Hugging Face。

当Hugging Face还在做线上的时候，我就在提私有的开源大模型托管模式（将技术授权给一家完全独立的本地公司，帮助企业更快更好地开发软件），我等于是在创造用户需求。

并且我已经盈利了，因为我清晰地知道:降本增效就是商业模式。大模型还没商业化，不代表围绕大模型不能产生商业模式——可以衍生出软件订阅、数据集交付、服务、商业版分发等模式。

包括估值，我已经是第三次创业了，我一直认为公司的估值一定要跟收入匹配，没必要为了融资虚估企业估值。还是那句话，客户为产品付费，永远付费的是价值点，那我就给企业客户带来价值，获得收入，稳扎稳打一些。

铅笔道:如果本土互联网大厂也想做跟OpenCSG类似的产品。

陈冉:大厂和创业公司的做法还是有很大不同。OpenCSG从诞生起就是原生的大模型公司，推出的都是基于Git的大模型开源产品，很多大厂尽管重视大模型，但也不可能把其他成熟业务全砍掉，在资源分配上决策就很慢。

铅笔道:在大模型时代，中国打造开源生态的最大困难是什么?