2023-06-25 12:49:37 来源 : 巴比特资讯
来源:Empower Labs
图片来源:由无界 AI工具生成
(资料图)
一个成立仅仅几周的团队,在没有产品,没有用户也没有运营经验却完成了1.05亿欧元的融资。这个memo(备忘录)帮它说服了Light Speed,谷歌前CEO Eric Schmidt等人。memo中强调了欧洲市场,AI安全,合规等方面,mistral认为他们使用与OpenAI截然不同的开源路线会最终让他建立优势并实现超越。从我读下来的感觉,这个memo显然写的很有技巧,也包含了一些bluff的成分。它很好的利用了欧洲社会当前在大语言模型上的FOMO心态完成了融资。
Mistral愿意是指法国南部的一种干强西北冷风,也是一种法国产两栖攻击舰的名字。这是世界上最领先的两栖攻击舰。这个名字体现了法兰西的骄傲。而创始团队的6个人也都来自法国,与其将它理解为欧洲大语言模型,我觉得它更像是一个法国大语言模型公司。他讲了一个好的欧洲故事,但它不会是欧洲的唯一。
作者 :mistral.ai
翻译:ChatGPT,王超
生成式AI是一项变革性技术
去年,我们看到生成式AI(能够根据文本和图像生成文本/图像的系统)有了惊人的加速发展。这些系统能够帮助人类:
● 创作出卓越的创新内容(文本、代码、图形)
● 比人类快数千倍地阅读、处理并总结无结构的内容流
● 通过自然语言或应用接口与世界互动,以前所未有的速度执行工作流程。
生成式AI的强大能力在ChatGPT发布后突然向公众展示出来。这类产品只有全球几个小团队正在制作,这些团队中有限的研究人员成为了阻碍在这个领域创造新经济的瓶颈。
生成式AI即将在所有行业提高生产力,并通过无缝提升人类思维的机器能力,创造出一个新的行业(2022年市场规模为100亿美元,预计到2030年将达到1100亿美元,预计年增长率为35%)。它是世界经济的变革性技术,将改变工作的本质并带来积极的社会变革。
正在形成的寡头垄断
生成式AI技术站在行业和学术界多年的研究的基础之上。通过将训练规模扩大到互联网级的数据,并通过人类反馈对模型进行矫正,最终实现了突破使这技术可以被大众使用,这些突破是由少数几个行业参与者实现的,其中最大的参与者(OpenAI)似乎对市场有着霸权意图。
这几家参与者训练生成式模型并将它们作为资产;他们为数千个为生产力提升创造产品的第三方提供服务,也通过类似聊天机器人的自有产品为公众提供服务。大量的第三方创业公司还在不断成立,基于这些生成式模型构建各种服务。
我们认为,在新兴的生成式AI市场中,大部分的价值来自于难以制造(hard-to-make)的技术,即生成模型本身。这些模型需要在数千台功能强大的机器上进行训练,处理来自高质量来源的万亿级别的数据,这构成了第一个高高的门槛。第二个重要的门槛在于组建经验丰富团队的难度,而mistral.ai处于一个有利的位置从而可以做到这件事。
目前(大语言模型)所有的主要参与者都位于美国,欧洲还未出现一个严肃的竞争对手。考虑到这种新技术的强大(和危险)性,这是一个重大的地缘政治问题。mistral.ai将成为提高生产力和创造力AI的欧洲领导者,并引导即将到来的新的工业革命。
当前的生成式AI并未满足市场需求
OpenAI及其当前的竞争者选择了封闭的技术路线,这将大幅度限制他们的市场覆盖率。在这种方式中,模型被保密,只通过文本到文本的API进行服务。这对商业带来以下重要问题:
● 希望使用生成式AI技术的机构被迫将他们的宝贵商业数据和敏感用户数据提供给一个黑箱模型,这种模型通常部署在公共云中。这带来了安全问题:保密的模型无法被检查以确保其输出是安全的,一次这类模型不可能在与安全高度相关的应用中被部署。这种情况也带来了法律问题,尤其是当公司将个人数据传输到其法律边界之外时,可能会受到域外法律管辖的问题。
● 只暴露模型的输出,而不是完全暴露模型,使其更难与其他组件(检索数据库,结构化输入,图像和声音)相连接。目前有数百种产品是通过互联模型的输出和输入来创建复合能力(如记忆,视觉等)。如果模型能作为白箱(透明模型)提供,这些产品将工作得更好,更快(比如The Flamingo将白盒的视觉和文本模型整合形成了文本+视觉模型)。
● 用来训练模型的数据是保密的,这意味着我们依赖的系统有无法确定的来源,并可能产生无法控制的输出。为解决此问题而做的过滤工作只能微弱而脆弱地保证模型不会输出可能已被训练过的敏感内容。这个问题在2023年4月导致了ChatGPT在意大利被禁止。
从欧洲打破市场格局
通过创立mistral.ai,我们计划采用与当前的封闭模式完全相反的立场训练先进的模型。我们的愿景是成为该领域的领先参与者,同时在欧洲及更广泛的行业中整合这些模型,发展出高价值的业务。
mistral.ai将成为生成式AI领域的研究领导者,在四年内成为市场上最领先的AI技术提供方。为了实现这个目标,我们首先会专注于几个关键的差异化特征,然后进行全面的研发工作,选择最有效的策略,以迈向对人类有实用价值的人工智能。
首先专注于欧洲市场会为我们提供一个有防御性的优势,而且我们在技术路线上的开放性立场将进一步提高我们的吸引力。在大型语言模型(LLM)领域的许多才华横溢的人才都来自欧洲的;我们的广泛经验表明,他们中的许多人愿意加入我们的项目。
相反的技术定位
我们早期的差异化因素,即我们竞争对手战略中的盲区,有以下这些:
● 采取更开放的模型开发方式。我们将以有许可的开源许可证(permissive open-source-software licence)发布模型,这将大大超越竞争对手。我们将发布工具以发挥这些白盒模型的力量,并围绕我们的商标创建开发者社区。这种方法在意识形态上与OpenAI形成了极大的差异,这将更好的吸引顶级研究人员,对于项目发展来说也会是一个强大的加速,因为它将为许多下游充满热情的开发者开启大门。这将提高我们的业务发展范围。我们将平衡我们的开源战略和经济利益,把最强大和最专业的模型保留给付费用户。
○ 我们将把1%的资金专门用于负责开源社区开发的非营利基金会。
● 无论是开源还是许可,我们的模型的内部(架构和训练权重)总是对我们的客户开放。这将允许与客户的工作流程更紧密地集成,他们的内容可以被送入深层模型的不同部分,而不是将所有内容序列化为输入文本,送到黑盒API。
● 加强对数据来源和数据控制的关注。我们的模型将在高质量数据内容(除了抓取的内容)上接受训练,我们将就此协商许可协议。这将使我们能够训练出比目前可用的模型(如Llama)更好的模型。使用深度参与的技术(混合专家和检索增强模型),我们将为模型提供可选的数据源访问:付费高级用户,特定模型可以专门用于金融/法律/等(这提供了相当大的性能提升)。使用类似的技术,我们的模型将能够针对具有不同公司知识产权权限的员工提供即时的差异化数据访问。
● 提供无与伦比的安全和隐私保证。我们的模型将可在私有云中部署,并可以选择直接在设备上部署,从而通过消除可能的问题流程,有效地将隐私问题降至最低。为此,我们将把我们的研发努力导向训练小而超级高效的模型,有效地提出市场最高的质量/成本比率的模型。我们的开源策略也将在部署我们的模型到关键行业(特别是双重行业和健康行业)时,保证其可审计性。
商业拓展
在商业方面,我们将为新兴的AI-as-a-service产业提供最有价值的技术模块,用生成式AI彻底改变商业工作流程。我们将与欧洲的集成商和工业客户共建集成解决方案,并从中获取极其有价值的反馈,以成为所有希望在欧洲利用AI的公司的主要工具。
与垂直领域的集成可以采取不同的市场形式,包括对模型(包括训练过的权重)的全面访问许可,根据需求对模型的专门化,与集成商/咨询公司合作建立完全集成解决方案的商业合同。如我们的路线图所详述,我们将在技术发展的同时探索并确定最佳方法。
如何成为AI领域的领导者
顶级的团队
创始团队由该领域的顶级研究人员组成,他们曾在DeepMind和Meta工作,同时也有经验丰富的法国连续创业者和有影响力的公共领袖。
● Arthur Mensch — CEO — DeepMind前首席研究科学家,LLM的几项主要贡献的首席作者:Chinchilla、Retro、Flamingo
● Guillaume Lample — 首席科学家 — 前Meta的高级研究科学家。领导Llama项目,这是Meta对大型语言模型领域的主要贡献
● Timothée Lacroix — CTO — 前Meta的软件工程师,Llama技术负责人
● Jean-Charles Samuelian ,Alan CEO
● Charles Gorintin , Alan CTO
● Cédric O , 前法国数字事务国务秘书
已经确定的前五名员工将是来自大型科技公司的富有经验的研究员。他们对欧洲和开源的观念极为热情,同时由于生成型AI的迅速发展导致一些公司不断进行组织重构,这也构成了他们从这些公司中离开的合适的时机。
基础设施和数据来源
要训练一个有竞争力的模型,需要用到exa-scale集群至少几个月的时间。我们打算租用这样的计算资源一整年,从而发展出不同能力的开源和商业模型。
我们已经在和顶级云服务提供商就租用计算资源在进行有竞争力的磋商(我们计划从夏天开始起步,到9月形成1536个H100的计算储备)。由于mistral.ai有着强大的欧洲基础,我们也将与新兴的欧洲云服务提供商合作,他们都在积极拓展深度学习计算服务。
在此之前我们已经训练过大规模的模型,这为我们提供了专业知识,使我们能够在训练效率上比公开的方法提高10-100倍——我们的创始人和早期员工都清楚地知道如何以给定的计算预算来训练最强的模型。
我们的早期投资者也是欧洲的内容提供商,并将为我们获取可以训练和微调模型的高质量数据集打开所有必要的大门。
与大客户共同进行场景的探索
创始团队已经在组织与主要的法国和欧洲商业机构进行商业探索。一个小的以产品为导向的团队(到年底6人)将在技术团队训练有价值的技术模块的同时开始发展业务。
模型团队将保持100%的专注于技术研发,以避免分心。
商业拓展将在第一代模型家族的开发同时开始,使用以下策略:
● 集中探索大型工业参与者的需求,由第三方集成商共同推进,这些集成商将被允许全面访问我们最好的(非开源)模型
● 与一些专注于生成式AI产品的小型新兴合作伙伴共同设计产品。
基于业务的探索将被用来驱动第二代模型的设计。
路线图
第一年
我们将训练两代模型,模型开发和商业集成同步推进。第一代将部分开源,依赖于团队熟练掌握的技术。它将验证我们的能力,满足客户,投资者和机构的需求。第二代模型将解决当前模型的重大缺陷,使其可以被企业安全且经济地使用。
训练最佳的开源标准模型
到2023年底,我们将训练一系列能大幅度超越ChatGPT 3.5和2023年3月版本Bard的文本生成模型,以及所有的开源解决方案。
这个系列将会开源;我们将参与社区在其基础上构建,使其成为开放的标准。
我们将提供与竞争者相同的服务接口并收取一定费用以收集第三方的使用数据,同时我们会创建一些免费的消费者应用,从而扩大品牌影响并获取第一方用户数据。
为商业需求定制并形成差异化
在接下来的六个月里,这些模型将配备用于内容搜索的语义嵌入模型,以及处理视觉输入的多模态插件。使用通过商业付费得到的高质量数据源进行再训练的特别模型也将被准备。
商业发展将与第一代模型系列的开发同时开始:我们打算在2024年第一季度末形成概念验证集成。
在技术方面,在2024年第一季度和第二季度,我们将重点关注两个被现有公司低估的主要方面:
● 训练一个足够小的模型,可以在16GB的笔记本电脑上运行,同时作为一个有用的AI助手
● 训练带有热插拔额外上下文的模型,允许的额外上下文可达数百万,有效地合并了语言模型和检索系统。
同时,通过合作伙伴关系和数据获取,训练和微调数据集将不断丰富。
到2024年第二季度底,我们打算:
● 分发最佳的开源文本生成模型,具有文本和视觉输出
● 拥有通用和专家模型,其价值/成本比是最高的之一
● 通过可扩展和多样化的可用API为第三方集成商提供模型能力
● 与一两个大型行业参与者建立特许商业关系,他们已经承诺使用我们的技术
下一阶段
与OpenAI等参与者竞争并超越他们将需要在后期进行大量投资(GPT-4花费了几亿美元)。我们第一年的目标是证明,我们是全球AI竞争中的最强团队之一,能够开发并推出能与最大玩家相抗衡的模型。我们作为大型语言模型(LLM)研究者的经验,将使我们在早期阶段比那些正在发现或转向该领域的公司更能有效利用资本。
mistral.ai的一个北极星将是安全性:我们将以一个良好的阶段性方式发布模型,确保我们的模型只能用于与我们的价值观一致的目的,为此,我们将向“红队”提供beta访问权限,以发现不适当的行为并纠正它们。
由此,我们将说服主要的公共和私人机构,相信我们能够构建出安全、可控并且高效的技术,让人类从这个科学突破中获益。而这将吸引机构和国家参与我们的A轮融资。在A轮中(2024年第三季度),我们预计需要筹集2亿美元,以训练出超越GPT-4能力的模型。
强大的财务支持将使我们能够在更大规模的基础设施上训练模型,从而巩固我们作为AI研究领导者的地位,并成为欧洲行业领域的首选供应商。
(全文完)