网友提问 :1、大模型范式下的预训练阶段数据需求和传统的数据需求有什么区别?
2023-09-19 00:00:00
海天瑞声 (688787): 回答:大模型预训练阶段的数据需求和深度学习技术路线下的传统训练数据需求,两者在形态上基本一致,都是文本、语音和图像,但在数据规模、质量、来源等方面,预训练数据较传统训练数据会存在一定差异。例如,规模上,预训练数据的token量普遍在万亿量级,而传统模型数量则大约在10亿量级。从数据来源的角度看,由于大模型所需数据规模远超传统模型,因此其数据来源将更加丰富以满足规模化、多元化数据需求。具体来说,大模型数据来源除了来自传统的定向采集外,还将涉及版权数据、公共数据等新型海量高质量数据来源。此外,数据处理的核心技术也存在一定差异。例如,由于大模型预训练阶段的原料数据规模更大,因此大模型预训练数据更加注重数据清洗的工程化能力,在预训练阶段需要结合原料数据特点以及所涉及的主题、领域等,对海量数据完成高质量清洗,这对数据服务商的工程化数据处理能力以及过往服务经验的积累都提出了更高要求。
2023-09-19 00:00:00
海天瑞声最新互动问答
- 请问公司和华为大模型有没有合作
2023-09-20 16:05:39
- 特斯拉Dojo目前成了全球关注焦点,按照特斯拉的说法目前Dojo主要运用于,无人驾驶的数据训练。请问海天瑞声的无人驾驶业务是否也集中在无人驾驶的数据训练?还看到特斯拉的新闻,目前Dojo已经在进行视频数据训练,海天瑞声无人驾驶的数据训练方向是什么?与特斯拉的训练方向有什么共同点。 希望能够认真回答,不要复制之前的回复消息。感谢你在百忙中的回复,祝工作顺利。
2023-09-15 16:29:11
- 媒体报道贵司曾于今年4月与毫末智行达成战略合作,据悉毫末智行与特斯拉、华为、小鹏一样均属于量产自动驾驶第一梯队。能否介绍下此次战略合作以及与毫末智行合作的优势?
2023-09-15 16:29:11
- 5、客户也在做自己的算法,也可以用算法做预标注,海天瑞声的价值在哪里?
2023-09-08 00:00:00
- 4、大模型预训练会涉及到版权数据,在版权数据方面,海天的价值是什么?
2023-09-08 00:00:00
海天瑞声龙虎榜 | 海天瑞声大宗交易 | 海天瑞声股东人数 | 海天瑞声互动平台 |
海天瑞声财务分析 | 海天瑞声主营收入构成 | 海天瑞声流通股东 | 海天瑞声十大股东 |
海天瑞声
法定名称:北京海天瑞声科技股份有限公司
公司简介:
公司前身为北京海天瑞声科技有限公司,成立于2005年5月11日。
经营范围:
AI训练数据的研发设计、生产及销售业务。
注册地址北京市海淀区成府路28号4-801
办公地址北京市海淀区成府路28号4-801
主营收入