法国竞争监督机构对谷歌公司罚款2.5亿欧元,原因是谷歌在与媒体出版商的关系中违反了欧盟知识产权规则。监管机构称,谷歌的聊天机器人Bard(现名Gemini)在未通知的情况下使用出版商和新闻机构的内容进行了训练。
据了解,大模型的工作原理是先通过在大规模语料库上进行预训练,学习语言的统计规律,再通过优化和调整,不断提高预期结果输出的准确性。我国已于2023年8月起施行《生成式人工智能服务管理暂行办法》,规定了训练数据需要合法来源的数据和基础模型,不得侵犯他人知识产权。国金证券认为,训练语料价值或迎重估。
$中国科传(sh601858)$出版的期刊中有143种被SCI、ESCI收录,其中59种期刊处于Q1区,4种期刊国际同学科期刊排名第一;
$人民网(sh603000)$承建的传播内容认知全国重点实验室着力打造内容传播领域智能底座,并作为发起单位参与中国大模型语料数据联盟。
1. 科大讯飞(002230):中文语料“绝对龙头”
公司积累了超10万亿字中文语料资源,涵盖语音、文本、多模态数据,且通过合规审核的语料占比超90%,是百度文心一言、华为盘古大模型的核心语料供应商。近期放量大涨背后,是机构对其“语料+AI模型”协同布局的认可——语料业务收入占比已达20%,随着大模型训练需求爆发,该业务毛利率有望维持在45%以上,成为第二增长曲线。
2. 拓尔思(300229):文本语料“加工专家”
公司专注于中文文本挖掘与语料标注技术,拥有国内领先的NLP标注平台,能将原始语料转化为AI可训练的结构化数据。客户覆盖政府、金融、媒体等领域,近期中标人民日报语料库建设项目,订单金额超5亿元。机构预测,2025-2027年公司语料加工业务收入年复合增速超50%,是赛道中弹性较高的标的。
3. 中文在线(300364):多模态语料“储备黑马”
公司拥有超500万部数字内容版权,涵盖小说、有声书、动漫等多模态资源,是国内稀缺的“全品类语料库”。通过与字节跳动、腾讯AI合作,将文学IP转化为AI训练语料,2025年上半年语料相关收入同比增长180%。当前PE仅28倍,低于传媒行业平均水平,估值修复空间较大
ai语料库概念股中最新互动问答