行业资讯
行业资讯
利用算法人为生成符合真实生活的情况,合成数据在多场景中应用
在人工智能领域,合成数据产业正逐渐成为关注的焦点。合成数据,即通过算法生成的模拟数据,可以用于训练、测试和验证AI模型,而无需依赖真实生活的数据集。这种数据具有一些显著的优势,比如能够保护隐私、减少对真实数据采集的依赖,以及在某些情况下提供更多样化的训练数据。
据咨询公司Gartner预测,到2024年,60%用于AI开发和分析的数据将会是合成数据;到2030年合成数据将彻底取代真实数据,成为AI模型所使用数据的主要来源。截至2022年,国外合成数据企业数量已经突破100家,市场规模正在逐步增长,预计2027年将达到11.5亿美元。合成数据得益于高质量、高效率和低成本,将是人工智能发展的重要支撑,更是数据要素市场“增量提质”不可或缺的有效手段。
合成数据产业发展迅速,已在金融、医疗、零售、工业等领域落地
合成数据作为真实数据的替代品,是利用算法人为生成出符合真实生活情况的数据,可以在数学或统计学上反映真实数据的属性。合成数据目前已应用在人工智能模型训练开发和仿真验证中,并在金融、医疗、零售、工业诸多产业领域中落地。由于合成数据是人为生成的,具有成本低廉和隐私保护优势,将解决真实数据应用过程中的痛点问题,如真实数据短缺、数据采集耗时费力、数据标注量大成本高和真实数据隐私泄露风险等。
合成数据的生成技术包括基于物理仿真、基于统计模型、基于机器学习等方式,生成式AI技术的进步将快速推动合成数据的产业发展。在合成数据的生产和应用过程中,数据质量的评估和对模型影响评估至关重要,此外还包括数据的管理、隐私保护、工具平台和开放共享诸多方面。
国外各大主流科技公司如英伟达、微软、亚马逊等瞄准合成数据领域,布局各类工具平台,为各种应用提供服务。合成数据目前已在自动驾驶、电商零售、医疗诊断等多行业开始应用,成为AI技术普及和提升的核心要素。
合成数据有望在自动驾驶等几大场景中发挥作用
在生成式人工智能时代,大模型表现与训练数据质量息息相关。高质量数据模型训练和应用过程中有着不可替代的重要性。合成数据或成为新路径。合成数据是通过算法和数学模型创建的数据。通过建模真实数据的分布,然后在该分布上进行采样,创建出新数据集,能够让合成数据模拟出真实数据中的统计模式和关系。在大模型训练中,合成数据能够发挥补充或替代真实数据的作用。
据媒体报道,OpenAI、Anthropic、DeepMind等公司都曾表态将探索在训练中引入合成数据的可能性。
数字中国研究院(福建)副院长邬群勇认为,合成数据可以提高模型训练的效率。一方面,合成数据可以根据特定的需求进行设计,比真实数据集更广泛,可确保满足特定的数据质量标准。另一方面,这类数据可以快速生成,几乎不需要人类标注,且不需要进行繁琐的数据清洗和预处理工作,可提高数据获取效率。
合成数据生成过程可能存在偏差或噪声,有观点认为数据的质量和真实性无法完全模拟客观世界。但在邬群勇看来,部分噪声数据对模型训练来说是必需的,有助于提高模型的鲁棒性。
对于饱受质疑的隐私安全顾虑,在第七届数字中国建设峰会上发布的《大模型训练数据白皮书》提到,合成数据可以替代个人特征数据,有助于用户隐私保护,解决数据获取合规性的问题。当前,类似 “猜你喜欢”功能的实现往往需要大量用户数据的参与。大模型理解力逐渐提高的当下,一方面,可以用合成数据替代用户数据训练模型;另一方面,用户的需求也可以通过与模型的自然语言交流被系统理解。整个过程在提升推荐匹配度的同时,还可以降低推荐模型对个人特征数据的依赖。
在可见的未来,合成数据将有望在几大场景发挥作用。首先,合成数据可应用于多模态数据的生成。利用模拟器生成的多模态场景数据还广泛应用于具身智能机器人、自动驾驶、AIforScience等场景的训练。
其次是高价值领域知识的生成。合成数据能通过对现有数据的深加工,将之前不能被用于训练的数据转化为可用。例如工业制造领域,利用合成数据,可以把生产、制造等工艺流程相关的原始数据,结合行业知识图谱,转化为可供大模型学习的工业语料,以缓解行业语料短缺的问题。
但是,合成数据应用的过程中还存在一些问题,一是合成数据的生产与应用流程尚未规范,二是合成数据的质量评估问题尚待解决。目前处于合成数据发展的初期,各大企业在合成数据的生产和应用上经验不足,依照真实数据的生产应用经验进行调整,缺少完备的合成数据生产流程规范与即开即用的工具。此外,合成的数据同样会出现质量问题,目前还缺少对于合成数据质量评估的维度和方法,来保障合成数据的质量。