包括OpenAI、谷歌、Meta和Anthropic在内的主要科技公司依靠来自知名出版商的高质量、受版权保护的材料来训练他们的大型语言模型(LLM) ;
这是根据一项研究由CNET、IGN和Mashable的母公司Ziff Davis进行的研究表明,高质量的内容在训练这些人工智能模型中起着至关重要的作用。研究表明,权威来源是人工智能公司训练数据集的首选,以提高模型的性能,但这些来源的贡献往往被忽视。
在这项研究中,Ziff-Davis的人工智能律师George Wukoson和首席技术官Joey Fortuna声称,人工智能公司根据搜索引擎排名高的权威网站的排名来选择培训数据。选择高质量和受欢迎的网站来改进这些模型,因为它们有良好的声誉。根据这项研究,这一策略使人工智能开发人员能够微调语言模型。
Ziff-Davis指出,Axel Springer、Future PLC、赫斯特、新闻集团和《纽约时报》等顶级内容提供商为训练数据集的开发做出了贡献。特别是,已经确定用于创建OpenAI GPT-3的OpenWebText2的12.04%来自这些值得信赖的出版商。
马克·扎克伯格(Mark Zuckerberg)也参与了围绕人工智能培训中内容使用的持续辩论。在一个最近的采访扎克伯格在接受The Verge采访时承认,人工智能的数据抓取具有挑战性,但也指出,个人创作者或出版商的内容可能没有那么大的影响力。他说“我认为,在这一宏伟计划中,个人创作者或出版商往往高估了其特定内容的价值。”;
出版商对人工智能公司提起诉讼
培训数据来源的保密性引起了出版商和消费者的担忧 ;《纽约时报》和《华尔街日报》最近对人工智能公司提起诉讼,称他们使用其内容违反了版权法 ;
虽然OpenAI已经加大了从《金融时报》和DotDash Meredith等媒体机构获得内容许可的力度,但几家人工智能公司仍然在没有适当许可的情况下工作。报告进一步指出“主要的LLM开发人员不再像以前那样披露他们的培训数据。” ;
虽然人工智能公司的价值在上升,但科技巨头和传统媒体公司之间的差距仍然很大。谷歌和Meta等科技巨头的估值分别为2.2万亿美元和1.5万亿美元,仍然处于生成人工智能的前沿,而OpenAI和Anthropic等初创公司的估值分别达到1570亿美元和400亿美元 ;
 ;另一方面,出版商仍在处理裁员和重组问题,这证明了适应越来越由人工智能定义的环境的财务压力。由于与用户生成和基于人工智能的内容的竞争,许多出版商在降低成本和员工方面面临挑战。