当前讯息：大型语言模型对编码来说是错误的吗?

首页 > 资讯 > > 内容页

当前讯息：大型语言模型对编码来说是错误的吗?

发表时间：2023-06-05 11:37:21 来源：机房360

当目标是准确性、一致性、精通游戏或找到一个正确答案时，强化学习模型会击败生成式人工智能。

像GPT-4这样的大型语言模型的兴起令人瞩目，它们能够生成高度流畅、自信的文本。可悲的是，炒作也是如此:微软的研究人员屏气地将微软资助的OpenAI GPT-4模型描述为展示“人工通用智能的火花”。

当然，除非微软指的是产生幻觉的倾向，生成的错误文本肯定是错误的。GPT还不擅长下棋和围棋等游戏，不擅长数学，编写的代码可能有错误和微妙的漏洞。

(资料图)

这并不意味着大型语言模型都是炒作。一点也不相反，这意味着我们在关于生成式人工智能(GenAI)的对话中需要一些视角，而不是夸大其词。

正如IEEESpectrum的一篇文章所详述的那样，一些专家，例如OpenAI的IlyaSutskever，认为添加带有人类反馈的强化学习可以消除LLM幻觉。但是其他人，比如Meta的YannLeCun和GeoffHinton(最近从Google退休)，认为大型语言模型中更根本的缺陷在起作用。两人都认为，大型语言模型缺乏非语言知识，而非语言知识对于理解语言所描述的潜在现实是至关重要的。

在一次采访中，Diffblue公司首席执行官MathewLodge认为，有一种更好的方法。他说，“小型、快速、运行成本低廉的强化学习模型，在从玩游戏到编写代码的各种任务中，都能轻松击败拥有千亿参数的大型语言模型。”

我们是否在错误的地方寻找人工智能黄金?

正如Lodge所说，生成式人工智能肯定有它的一席之地，但我们可能正试图将其强行引入强化学习更好的领域。以游戏为例。

国际象棋大师LevyRozman发布了一段他与ChatGPT对弈的视频。这个模型做出了一系列荒谬和非法的动作，包括捕捉自己的棋子。最好的开源国际象棋软件(Stockfish，它根本不使用神经网络)让ChatGPT在不到10步的时间里击败，因为大型语言模型找不到合法的走法。这是一个很好的证明，大型语言模型远远达不到通用人工智能的宣传，这并不是一个孤立的例子。

谷歌AlphaGo是目前最好的围棋人工智能，它是由强化学习驱动的。强化学习的工作原理是为一个问题生成不同的解决方案，尝试它们，使用结果来改进下一个建议，然后重复这个过程数千次以找到最佳结果。

在AlphaGo的例子中，人工智能会尝试不同的走法，并预测这是否是一个好走法，以及它是否有可能从这个位置赢得比赛。它使用反馈来“跟踪”有希望的移动序列，并生成其他可能的移动。其效果是对可能的移动进行搜索。

这个过程被称为概率搜索。你不可能尝试所有的招式(招式太多了)，但可以花时间搜索可能找到最佳招式的区域。这对于玩游戏来说非常有效。AlphaGo过去曾击败过围棋大师。AlphaGo并非万无一失，但它目前的表现比当今最好的大型语言模型还要好。

概率与准确性

当有证据表明大型语言模型的表现明显落后于其他类型的人工智能时，支持者认为大型语言模型“会变得更好”。然而，根据Lodge的说法，“如果我们同意这个观点，我们需要理解为什么他们会在这类任务中做得更好。”他继续说，这就是事情变得困难的地方，因为没有人能预测GPT-4对特定提示会产生什么效果。这种模式是人类无法解释的。他认为，这就是“‘即时工程’不存在的原因。”他强调，对于人工智能研究人员来说，证明大型语言模型的“涌现特性”存在也是一场斗争，更不用说预测它们了。

可以说，最好的论证是归纳法。GPT-4在一些语言任务上比GPT-3更好，因为它更大。因此，更大的模型会更好。

Lodge认为:“唯一的问题是，GPT-4仍在努力完成OpenAI指出的GPT-3所面临的挑战。数学就是其中之一;GPT-4在加法运算方面优于GPT-3，但在乘法和其他数学运算方面仍存在困难。

使语言模型更大并不能神奇地解决这些难题，甚至OpenAI也说更大的模型不是答案。原因归结为大型语言模型的基本性质，正如OpenAI论坛所指出的那样:“大型语言模型本质上是概率性的，并且通过根据他们在训练数据中观察到的模式生成可能的输出来运行。在数学和物理问题中，可能只有一个正确答案，而且生成这个答案的可能性非常低。”

相比之下，由强化学习驱动的人工智能在产生准确结果方面要好得多，因为这是一个寻求目标的人工智能过程。强化学习有意地朝着期望的目标迭代，旨在产生它能找到的最接近目标的最佳答案。Lodge指出，大型语言模型课程“并不是为了迭代或寻找目标而设计的。它们的设计目的是给出‘足够好’的一次或几次回答。”

“一次性”答案是模型产生的第一个答案，它是通过预测提示中的一系列单词而获得的。在“几次射击”方法中，模型被给予额外的样本或提示，以帮助它做出更好的预测。大型语言模型通常也会加入一些随机性(也就是说，它们是“随机的”)，以增加更好的回答的可能性，所以他们会对同样的问题给出不同的答案。

并不是说大型语言模型世界忽视了强化学习。GPT-4结合了“强化学习与人类反馈”(RLHF)。这意味着核心模型随后由人类操作员训练，使其更喜欢某些答案，但从根本上说，这不会改变模型首先生成的答案。例如，Lodge说，大型语言模型可能会生成以下选项来完成句子“韦恩•格雷茨基喜欢冰....”。

1.韦恩•格雷茨基喜欢冰淇淋。

2.韦恩•格雷茨基喜欢冰球。

3.韦恩•格雷茨基喜欢冰上钓鱼。

4.韦恩•格雷茨基喜欢滑冰。

5.韦恩•格雷茨基喜欢冰酒。

人工操作员对答案进行排序，可能会认为加拿大传奇冰球运动员更喜欢冰球和滑冰，尽管冰淇淋有着广泛的吸引力。人类的排名和更多的人类写的回答被用来训练模型。请注意，GPT-4并没有假装准确地知道韦恩•格雷茨基的偏好，只是在提示下最可能的完成。

最后，大型语言模型的设计并不是高度准确或一致的。在准确性和确定性行为之间存在一种权衡，以换取普遍性。对Lodge来说，所有这些都意味着，在大规模应用人工智能方面，强化学习击败了生成式人工智能。

将强化学习应用于软件

软件开发呢?正如我所写的，GenAI已经为那些使用GitHubCopilot或AmazonCodeWhisperer等工具提高生产力的开发人员提供了机会。这不是猜测——它已经发生了。这些工具根据集成开发环境中插入点前后的代码预测接下来可能出现的代码。

事实上，正如VisualStudio杂志的DavidRamel所言，最新版本的Copilot已经生成了61%的Java代码。对于那些担心这会减少软件开发人员工作的人，请记住，这些工具需要勤奋的人工监督来检查完成情况，并对其进行编辑，以使代码正确编译和运行。自IDE诞生之初，自动补全功能就一直是IDE的主要功能，而Copilot和其他代码生成器使它变得更加有用。但是大规模的自主编码(实际上需要编写61%的Java代码)就不是这样了。

然而，强化学习可以进行精确的大规模自主编码，Lodge说。当然，他这么说是出于既得利益:2019年，他的公司Diffblue发布了基于强化学习的商业单元测试编写工具Cover。Cover在没有人工干预的情况下编写完整的单元测试套件，使大规模自动化复杂的、容易出错的任务成为可能。

Lodge有偏见吗?绝对的。但他也有很多经验来支持他的信念，即强化学习在软件开发方面可以胜过GenAI。如今，Diffblue使用强化学习来搜索所有可能的测试方法的空间，为每个方法自动编写测试代码，并在编写的测试中选择最佳测试。强化学习的奖励函数基于各种标准，包括测试的覆盖率和美学，其中包括看起来像是人类编写的编码风格。该工具平均在一秒钟内为每种方法创建测试。

Lodge认为，如果目标是为一个没有人理解的程序自动编写10,000个单元测试，那么强化学习是唯一真正的解决方案。“大型语言模型无法竞争;人类没有办法有效地监督它们，并在这种规模上纠正它们的代码，使模型更大、更复杂并不能解决这个问题。”

结论:大型语言模型最强大的地方在于它们是通用语言处理器。他们可以完成没有受过明确训练的语言任务。这意味着他们可以在内容生成(文案)和许多其他事情上做得很好。Lodge强调:“但这并不能使大型语言模型成为人工智能模型的替代品，人工智能模型通常基于强化学习，后者更准确、更一致，而且可以大规模使用。”

x 广告

当前讯息：大型语言模型对编码来说是错误的吗?

当前讯息：大型语言模型对编码来说是错误的吗?

6月5日山东华鲁恒升液氨价格持稳

盐官观潮景区门票多少钱（盐官观潮景区）_当前热文

电脑屏幕oled与ips屏哪个好_ips屏幕和led屏幕哪个好|播资讯

网络舆情应对处置工作总结 网络舆情的应对与处置方法 世界观天下

环球头条：蒸蛋器的使用方法多少毫升水_蒸蛋器的使用方法

马云飞高寒_马云飞-今日聚焦

表里山河一词出自于哪里_表里山河一词出处

下雨的作文怎么写_下雨的作文 每日热讯

广州时代广场自助餐_广州时代广场在哪里|天天新视野

世界消息！广州珠江职业技术学院学费多少钱一年_广州珠江职业技术学院

孕妇吃炖鸡好还是燕窝好?

短讯！“无人机”为配网巡视插上“腾飞的翅膀”

每日热讯!调解委员会制作的调解协议书是否具有法律约束力

原神草之魔神介绍|焦点速讯

个税app注册不了怎么办（个税app注册不）

矩形螺纹实物应用（矩形螺纹用处）

《黄帝内经·灵枢·口问（上）》学习笔记一O七-世界最资讯

赛尔号星球大作战米卡怎么超进化_赛尔号星球大战米咔怎么超进化简介介绍|全球聚焦

环球滚动:孝昌：乡镇综合执法中心打通执法“最后一公里” 为基层治理赋能增效

全球头条：鼓楼区举行禁毒主题宣传活动

iPhone 14 Pro是现代电子产品的杰作_每日看点

洛克王国汇集电力（洛克王国电力宝宝激活步骤图）-天天新要闻

交警实测SUV盲区 结果令人后怕

全球新消息丨中国移动人工服务电话是多少_中国移动人工服务电话

《金庸群侠传5 雕塔版》自娱自乐&仙侠界&仙狐界三界合一版网盘下载链接开放啦！

测一测自己的名字好不好_测测自己名字的含义-全球实时

gif怎么压缩小一点_gif怎么压缩大小

跨区作业证，是方便不是麻烦 焦点速看

新消息丨神十五飞船离开空间站：即将踏上回家路

uc云盘的视频怎么弄到相册里（uc云盘）-当前热闻

环球新动态：全国党媒网站总编辑看“大美博州”

启辰大V DD-i超混动将于今日开启预售 纯电续航里程110公里|环球快看

惠安县气象台发布雷电黄色预警信号【2023-06-03】-当前热文

环球头条：老头的头 老头的大亅亅图片

每日时讯!为什么今年地方政府大卖停车场？

嘴凸不要紧，“眼凸”才拉垮，孙俪都深受其害，可惜了一张美人脸-全球看点

中国代表团：美国才是南海局势紧张的真正推手

卢泰文：紧抓三大方面，巩固三星市场领导地位

环球观点：给小里弗斯一个亿！这价钱你看合适吗？

事涉1470亿美元，印度戏耍俄罗斯，收到卢比没用？莫迪有个主意

毕个业，太贵了

《兰州牛肉面生产许可审查细则》将起草 省市场监管局公开征求意见

那些年歌词完整版_那些年歌词 全球滚动

全球百事通！俄罗斯或提议欧佩克+进行减产 推动油价短线冲高

云朵在天空飘荡写一段话50字五年级_讯息

天天快资讯丨618超值低价！399抢北通阿修罗3S游戏手柄

思无邪·长相守|天天信息

席慕容散文《时光》_泰戈尔经典散文诗

苹果零售店继续深入中国市场，未来几年或在上海温州佛山开新店

仅一家，每年要付 12 亿元？这一国家要求互联网巨头付费

【热闻】mx350和mx450区别

热文：支持工业投资再出新举措

人工智能决定杀人？美军测试中，AI为达目标尝试“杀死”操控员_环球看点

关于采茶的古诗_关于茶的古诗_全球即时

环球快资讯：傻白甜是夸人还是骂人 傻白甜是什么意思

矮行星上发现海洋（小行星上发现海洋）

滨化股份601678资金流向（滨化股份601678）

《表白吧！在毕业前》曝主题曲 回春丹乐队献唱 世界热讯

西北大学明德学院是公办的还是民办呢_西北大学明德学院 每日看点

国防部长李尚福重申中方在台湾问题上坚定立场 今日播报

今日快讯：柳絮什么时候飘的最多_柳絮是什么时候飘的

环球观热点：青岛楼市新政：非限购区域首套房首付比例最低调整为20％

天天视讯！盐池湾人物群像：常年一脚湿地一脚沼泽，只为守护黑颈鹤

央行公开市场本周净投放610亿元，隔夜Shibor跌至1.3%关口

全球报道:陈妍希生日合家欢，恩爱秀恩爱不忘。

港股异动 | 永泰生物-B(06978)涨超9% 近日携EAL亮相中关村论坛 机构指公司有望享受行业成长红利 天天百事通

快讯：志邦家居涨停 报于29.1元

香港特区政府发售近60亿美元绿色债券 增设10年期人民币债券

全球实时：农民麦田不是网红秀场

世界要闻：黑龙江大庆：司法救助为困难未成年人撑起“暖心伞”

车辆的设施不断更新英语_更新英语

日本再次要求苹果开放第三方应用商店 此前曾遭拒绝

广州出台“个转企”利好政策 世界微头条

要闻：辽宁开原现龙卷风：初步统计70多户受灾，十余名受伤群众已送医

即时焦点：中国医药：6月1日融券卖出13.13万股，融资融券余额6.54亿元

答的组词_答的组词有哪些 焦点关注

全球微资讯！五险是哪五险一金_五险是哪五险

中职学校植树节活动策划书5篇

网络舆情应对处置工作总结网络舆情的应对与处置方法世界观天下

下雨的作文怎么写_下雨的作文每日热讯

交警实测SUV盲区结果令人后怕

跨区作业证，是方便不是麻烦焦点速看

启辰大V DD-i超混动将于今日开启预售纯电续航里程110公里|环球快看

环球头条：老头的头老头的大亅亅图片

《兰州牛肉面生产许可审查细则》将起草省市场监管局公开征求意见

那些年歌词完整版_那些年歌词全球滚动

全球百事通！俄罗斯或提议欧佩克+进行减产推动油价短线冲高

环球快资讯：傻白甜是夸人还是骂人傻白甜是什么意思

《表白吧！在毕业前》曝主题曲回春丹乐队献唱世界热讯

西北大学明德学院是公办的还是民办呢_西北大学明德学院每日看点

国防部长李尚福重申中方在台湾问题上坚定立场今日播报

港股异动 | 永泰生物-B(06978)涨超9% 近日携EAL亮相中关村论坛机构指公司有望享受行业成长红利天天百事通

快讯：志邦家居涨停报于29.1元

香港特区政府发售近60亿美元绿色债券增设10年期人民币债券

日本再次要求苹果开放第三方应用商店此前曾遭拒绝

广州出台“个转企”利好政策世界微头条

答的组词_答的组词有哪些焦点关注

武昌水域风华社区：幸福枇杷节“议”出和谐邻里声，激发“居民自治”源动力天天微动态

2023 年 6 月最佳安卓智能手机特卖环球快资讯

篮球赔率分析彩客网（篮球赔率）每日快讯

每日快讯!【2023打卡中国】打卡大连大窑湾港海外网红博主对加深产业合作充满期待

摩根大通：中国股票或迎结构性重估机会对经济增速比较乐观

浩云科技(300448.SZ)拟10股派0.15元于6月8日除权除息

多地举行庆祝活动让孩子们在劳动体验中开拓视野

托卡古风民宿小镇什么时候出公测上线时间预告

恒指牛熊街货比(57:43)︱6月1日速递

每日视讯：云南怒江：“熊孩子”游戏充值上千元民警竭力挽损获锦旗

ST摩登：未在法定期限内披露2022年年报遭证监会立案全球实时

全球热议:长治这个团队，优秀！

印度据悉要求特斯拉提交本地电动汽车生产路线图，以确定政府优惠每日视点

【全球速看料】发挥金融组织“毛细血管”作用破除隐形壁垒支持民间投资发展

人到中年，能遇到心动的异性，也是一种幸福焦点简讯

东莞一社区干部平均月薪近2万元，工作人员称：这不算高，中等水平全球热闻

集体经营，让农地产出更高收益 ——来自昆山锦溪镇长云村的探索今日视点

【机会挖掘】数字人民币乘车码落地杭州相关产业链或受关注

最快或将年内发布丰田全新C-HR专利图曝光_今日热议