风君子博客5月7日消息,“每个公司都能访问相同的基础模型,但那些能够利用自己的数据构建具有真正商业价值的生成式人工智能应用的公司,将会是成功的公司。”
大模型火热两年多,从GPT3到GPT4,从Llama 2到Llama 3,从Claude 2到Claude3……全球范围内基础大模型能力不断被刷新新纪录。
然而企业在落地大模型应用时,到底应该如果构建自身的独特优势呢?
亚马逊云科技大中华区产品部总经理陈晓建表示:“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。数据是企业在生成式AI时代取得成功的关键。”
成式 AI 时代数据的重要性体现在:基础模型依赖于大规模高质量数据集,生成式AI的差异化优势来源于企业的专有数据,生成式AI应用产生的大量新数据也需要及时有效地加以管理和利用。
因此,陈晓建认为企业构建生成式AI应用需要具备三项关键的数据能力:
一、利用现有数据支持微调或预训练模型的能力
从原始数据集到训练出基础模型需要解决三个主要问题。
首先,需要找到合适的存储来承载海量数据。生成式AI基础模型诞生于大规模、高质量数据集。如果一本书按500KB算,现在的500T参数的模型已经有332亿本,相当于现存每个人类拥有4本书;
其次,清洗加工原始数据为高质量数据集。在数据清洗方面,企业面临着繁重的数据清洗加工任务。以公开搜集的2TB英文数据集为例,经过清洗、去重后变成1.2TB的数据,再经过分词处理成大约3000亿的tokens。
最后,对整个组织内数据的发现编目治理。企业面临的数据治理难题包括:难以找到分布在各帐户和地区的数据,数据访问的控制很难管理且容易出错,数据分析师访问权限不足且缺乏相对应的工具技能,不用户没有简单的数据协同环境,数据治理隐藏在各种工具中。
二、将企业数据快速结合模型产生独特价值的能力
基础模型自身有一定的局限性,例如缺乏垂直行业的专业知识,缺乏时效性,生成错误信息如幻觉问题等,以及用户敏感数据的隐私合规风险。
检索增强生成(Retrieval-Augmented Generation,RAG)技术被普遍认为是实现企业数据与基础模型结合的主要途径之一,它通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。
通过RAG,企业可以将自身的知识库、数据库等与生成式AI模型相结合,在生成过程中实时检索和利用企业内部的相关数据,从而提高生成结果的准确性、一致性和信息量。这个方法相对简便,适用场景包括知识时效性、控制幻觉、用户隐私数据保护、企业私域知识等。
三、有效处理新数据,助力生成式AI应用飞速发展的能力
对生成式AI应用程序而言,基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间,基础模型每次调用时长往往达到秒级。此外,每次调用基础模型也会增加成本。
很多企业反映,终端用户绝对大部分问题是类似甚至重复的。因此可以通过将之前问答生成的新数据存入缓存,从而在面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。
陈晓建强调:“亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。作为全球云计算的开创者和引领者,亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”(果青)