观察|大模型“幻觉”里的算力与数据，谁会先成为“赛点”？

发布时间:2023-07-09 21:59:48 来源：北京商报网

全球大模型群雄逐鹿，算力最先告急。今年5月29日，英伟达创始人黄仁勋断言，“我们已经达到生成式AI引爆点，从此全世界的每个角落都会有算力需求”。一天后，英伟达市值突破万亿美元，屹立世界之巅。

英伟达将世界的目光聚焦在了风云变幻的算力、显卡江湖。2023世界人工智能大会期间，有人直言，没有大算力做大模型就是天方夜谭。但也有人认为，数据要素在人工智能大模型的发展中具有关键性作用，决定了模型的训练质量、性能表现和应用领域的广度与深度。

(资料图片)

人们常把算力、算法、数据形容为人工智能的三驾马车，但这三驾马车之间可能也不是完全的并行关系。如果说算力是大模型的“根”，那数据或者说是高质量的语料库，或许就会成为算力的“根”。

一热一“冷”

大模型浪潮，率先将算力推至风口浪尖。2023世界人工智能大会上，算力成为大模型绝对的关键词之一。中国工程院院士、鹏城实验室主任高文把算力比作电力，认为没有大算力做大模型就是天方夜谭。华为轮值董事长胡厚崑也提到，大模型训练的效率或者是创新的速度，根本上取决于算力的大小。中国的算力已经成为一个越来越稀缺的资源。

大会期间，毕马威与联想集团联合发布《普慧算力开启新计算时代》报告。毕马威中国数字化赋能主管合伙人张庆杰在解读报告时提到，算力供给增速明显难以满足指数式爆发的需求，储备算力成为各行各业的必要举动。

据了解，深度学习出现之前，用于AI训练的算力增长大约每20个月翻一番；之后，用于AI训练的算力大约每6个月翻一番；2012年后，全球头部AI模型训练算力需求更是加速到每3个月至4个月翻一番，即平均每年算力增长幅度达到惊人的10倍；目前大模型发展如火如荼，训练算力需求有望扩张到原来的10-100倍，算力需求的指数级增长曲线将更加陡峭。

大模型对算力的需求是显而易见的，但更关键的点可能在于是否能把算力更高效地挖掘出来。一位芯片企业的技术人员对北京商报记者提到，一个模型上线需要用到很多硬件，如果只支撑了少量用户，就会因为太贵导致用户不买账，由此撑不起正向循环的情况，但太便宜又会出现亏本的问题。特别是到落地阶段，如何能够结合模型上的一些改进，把硬件的特性最大程度地发挥出来，就会变得非常重要。

“也就是说在训练阶段，大家对算力的追求可能是‘大’，这一方面能够做出更大的模型，另一方面也能够进行更快速的迭代。但到用户开始接受这个效果的时候，就要涉及到怎样做才能更划算的问题，也就是说在部署阶段，可能要更关注‘精’的问题，尽可能用相对少的算力实现最大程度的作用。”上述技术人员说道。

大会期间，比起对算力的探讨，数据就显得有些“冷清”了。“数据要素比大模型早好几年，大模型被‘炒’起来了，但数据要素却一直不温不火”，7月8日，在2023世界人工智能大会“大模型时代下的数据要素流通”论坛的主题演讲中，拓尔思(300229)总裁施水才开场便提出了这样一种现象，在他看来，这场论坛为人们认识数据要素流通提供了一个新的视角。

大模型“幻觉”

在上述论坛上，中国知网副总经理张宏伟表示，数据是人工智能的基石，数据的质量和数量最终决定人工智能水平高低，影响其安全性、可信性。施水才更是认为，高质量数据才是大模型价值跃迁的制胜法宝。

但当下的问题在于，数据并不都是高质量的。过去一段时间，一度出现“AI正在污染中文互联网”的讨论，而AI最让人诟病的就是“幻觉”问题，也就是人们常说的“一本正经地胡说八道”。

大模型“幻觉”也是人工智能大会期间被提到的高频词汇。施水才对北京商报记者提到，“幻觉”问题的出现，主要是因为大模型缺乏理论的支撑，因为其核心技术原理主要就是Transformer架构下的Next Token Prediction，即“下一个字符的预测”。另一方面大模型并不是越大越好，数据也不是越多越好，真正好的大模型是参数大小适中，数据高质量。

算力可以堆硬件，相比起来，优质数据的供给可能会复杂得多。上海数据交易所总经理汤奇峰认为，大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。

在接受北京商报记者采访时，上海数据交易所副总经理韦志林提到，从推动数字经济，推动数据作为生产要素的角度看，数据应该是最核心、最长远、最基础性的因素。“大模型的预训练对数据要求也特别高，必须在前期进行清洗、标注、标识，但围绕千行百业的数据训练，在数据供给方面也呈现出了许多问题和挑战。”

首要的就是头部厂商并不愿意开放数据。数据是生产要素，数据有价值，这些已经达成共识，但进行数据共享就一定会牵扯到安全问题，如何解决数据在共享过程中的安全机制至关重要。而数据的开放流通，也自然涉及收益分配，且数据流通过程中创造的新价值更多服务于企业内部，拿出去的动力还需进一步培育。

“所以从数据流通本身看，更多压力还存在供给侧这一方面，需要解决供给侧中产权制度问题、收益分配制度问题、安全问题、基础设施问题等，让数据流通更加便捷、更加合规。”韦志林表示，上海数据交易所作为国家战略的承接者，需要解决的就是这些问题。

据了解，7月8日，上海数据交易所启动语料数据生态创新合作伙伴计划，而在此前一天，上海数据交易所官网刚刚正式上线语料库，累计挂牌近30个语料数据产品，包含文本、音频、图像等多模态，覆盖金融、交通运输和医疗等领域。

汤奇峰称，语料库建设不是单一企业的责任，需要多方共同推进，如果每个企业都单独建设维护语料库，会拉低效率，也会增加企业成本，“数交所希望通过自己的努力加强数据要素建设提升语料库建设效率。”

北京商报记者杨月涵

（责任编辑：董萍萍）

观察|大模型“幻觉”里的算力与数据，谁会先成为“赛点”？

观察|大模型“幻觉”里的算力与数据，谁会先成为“赛点”？

阿里重大宣布！考虑回购蚂蚁股份

什么是兼容性列表（什么是“兼容性问题”）

证监会：将研究出台支持创业投资基金发展的具体举措

太强势，爱情中总喜欢占据主动权的三大生肖

环旭电子(601231.SH)6月合并营业收入47.34亿元 同比下降17.89%

机械内部构造怎么画_机械内部结构

城市里草坪上，闻花香听“四季”

无视2000万欧年薪！瞧不上沙超，不愿辅佐C罗，英超巨星欲投巴黎

内蒙古：“生态氧吧”等你来

两代人齐上阵 本土球迷猛增

保定回应公交停运：资金紧张、电池超期限，纯电公交被迫全部退出

宝贝即将+1！网友已经开始起名了…

市委七届六次全会精神解读：要“在推进共同富裕中展现新作为”上走在全省前列

江西省上饶市2023-06-25 22:43发布雷电黄色预警

数码宝贝5为什么不好看（数码宝贝5怎么回事阿）

来自财神的名人问候

台湾青年跨海来：触摸历史 收获好友 打破想象

《消失的十一层》「尺度」要超《狂飙》，陈数潘粤明主演

大模型“国家队”又有新面孔 中国移动发布“九天”人工智能行业大模型

现金支票盖章样本图片（现金支票盖章）

掘金创新药｜华东医药利拉鲁肽获批减重适应症，能否抢滩百亿减肥药市场？

中国气候变化蓝皮书（2023）正式发布：多项指标均创新高

19 【平泽元气】能通过的牌倍增！ 麻将读鸣牌训练 第三章1

“金小刀”发挥作用！徐巧芯自曝将加入侯友宜团队

定遗嘱的生效条件是什么

大S和徐妈索要6000万，才让汪小菲接走孩子，张兰还有更大的担忧

西兰花烧饼的做法?

聚焦高质量发展丨“江南煤都”展新颜 矿山修复赋能绿色发展

从《漫长的季节》到《八角笼中》，用角色用力挥拳丨史彭元自述

第四届“齐鲁杯”全省总展演今日启幕！为您打开语言艺术殿堂之门

福字的各种写法敬业福（福字的各种写法）

腾讯、财付通回应央行29.9亿元罚款：已完成自查整改工作

长春大学成人高考大专报名

三峡集团：有不法分子冒用公司领导和干部职工身份进行诈骗，已报案

深交所：本周对62起证券异常交易行为采取了自律监管措施

拼多多怎么开网店 ？需要哪些步骤？

泽连斯基无奈之际，普京却迎来好消息，数据说明一切

内蒙古启动防汛三级应急响应

吉利汽车：6月汽车销量13.79万辆，同比增长约9%

腾讯吴运声：聚焦技术底座、应用创新、助力科学计算，腾讯云MaaS能力再升级

荔枝+咖啡！这款很哇塞的特调冰饮你一定要试试！

LOL-LPL:Fofo沙皇禁军之墙关键回推拿下双杀，EDG 2比0击败LGD

滕州市民政局举办2023年枣庄市政府购买社会工作服务项目启动仪式

超1.6万辆混合动力版汽车被召回！涉思域、型格、致在

医渡科技出席腾讯云行业大模型及智能应用技术峰会

GYC青年说丨辛成乐：从南非来中国，向世界讲述真实的中国

商务部：世贸组织投资便利化协定成功结束文本谈判

恒大地产深圳公司被强制执行19亿

供销社概念股异动拉升，天鹅股份涨停

告别童年！你好青春！

苦丁茶茉莉毛尖

夏季5款神仙饮，女人味

2023年第一季度万亿俱乐部经济总量及增速

地铁四号线阜埠河站保洁态度

安博通：7月6日融资买入122.44万元，融资融券余额9470.73万元

95120全国疾控电话流调专用号码启用

吉利几何新能源限时补贴至高1.5万元

国家卫生健康委成立医疗应急工作专家组 涉22个学科

误读中资银行基本面不可取

早间公告：立中集团向不特定对象发行可转债申请获证监会同意注册批复

华媒控股（000607）：7月6日北向资金增持149.67万股

微软将参加科隆游戏展 动视暴雪或一同参展

居民楼起火，母亲无奈从四楼扔下满月婴儿，多方配合顺利接住

支付宝充话费在哪里充（支付宝充话费）

2023雨果奖入围名单公布 4位中国作家入围最佳短篇小说

浙江建投：拟受让西湖城投所持云辰置业51%股权

煮牛肉时有尿骚味怎么回事?

蓝色伙伴关系论坛：开放包容互利共赢，构建蓝色伙伴关系

近3个交易日股价涨幅累计超20% 金科：不存在未披露重大事项

水利部针对南方5省市启动水旱灾害防御Ⅳ级应急响应

故宫内小孩在家长监护下随地小便，故宫回应：十分重视，正核实处理

宁波海运(600798.SH)2022年度每股派0.03元 股权登记日为7月12日

泽连斯基没有完全控制乌克兰军队？美情报官员爆料CIA在乌秘密运作

近千份水果在街头供路人白领

焦点信息:2023年度超级稻确认品种发布

Threads上线两小时用户超200万！小扎11年来首发推文调侃马斯克|头条

10个高尔夫球场球洞被水泥封堵！原来是西班牙气候活动人士干的……

天天热议:长沙到南昌快递需要多久

环旭电子(601231.SH)6月合并营业收入47.34亿元同比下降17.89%

两代人齐上阵本土球迷猛增

台湾青年跨海来：触摸历史收获好友打破想象

大模型“国家队”又有新面孔中国移动发布“九天”人工智能行业大模型

19 【平泽元气】能通过的牌倍增！麻将读鸣牌训练第三章1

聚焦高质量发展丨“江南煤都”展新颜矿山修复赋能绿色发展

拼多多怎么开网店？需要哪些步骤？

国家卫生健康委成立医疗应急工作专家组涉22个学科

微软将参加科隆游戏展动视暴雪或一同参展

宁波海运(600798.SH)2022年度每股派0.03元股权登记日为7月12日

迈过影视寒冬？三年关停超60家效益差影院后万达电影实现扭亏-新要闻

广汽Acura怎么样及全新奥迪Q8多少钱环球观察

马斯克“现身”世界人工智能大会：谈到自动驾驶还评价了中国的人工智能环球热闻

紫金消防到机关企事业单位开展培训切实提高职工安全意识|世界播资讯

指接板和直拼板的价格差多少请教直拼板与指接板的区别|观速讯

定好闹钟！7月6日10点，近9万张大运门票上线销售！微头条

天天热议:市场监管总局和浙江省政府签署合作协议共同促进平台经济高质量发展

金融监管总局要求银行保险机构全面自查摸清网络和数据安全风险底数每日播报

为学生减负暑期校外培训治理工作这样做

有记录以来最热年份 7月3日是地球有记录以来最热一天基本情况讲解_世界热文

要闻：中信证券：新一轮生物类似药浪潮来临给予“强于大市”评级

亿纬锂能：公司荆门基地大圆柱产线今年年初开始试产现正在调试阶段世界今头条

湛江景点大全湛江十大旅游景点湛江旅游景点

昊帆生物中签号出炉共2.28万个每日消息

原生家庭不幸福的女孩远嫁_原生家庭不幸福的女孩资讯推荐

泉知道丨政策分散不好找？上海今起上线“集成式发布政策库”，归集3200余件热门政策世界微动态

闻“汛”而动多地多部门织密汛期安全“防护网” 最新资讯

坚持稳健货币政策防范汇率大起大落风险

如何消除脸上的痘痘和痘坑？世界聚看点

中心城区路边停车：封顶收费不便宜免费时长不够用_全球今日报