【火爆内容】我为ChatGPT4.0设置了七道数学证明关卡,猜猜它会闯过第几关??

ChatGPT2年前 (2023)发布 一起用AI
593 0 0

【火爆内容】我为ChatGPT4.0设置了七道数学证明关卡,猜猜它会闯过第几关??

一,

上一篇文章《ChatGPT的数学水平到底如何??》已经测试了ChatGPT3.0的数学水平,今天我们来测试ChatGPT4.0的数学水平,看看从3.0到4.0,ChatGPT的进步有多大。

在数学这个庞大的领域中,最能挑战人类心智水平的无疑就是数学证明。

所以,我们今天专门测试一下ChatGPT4.0的数学证明水平。我目前还接触不到GPT,所以我事先将问题写好,委托数感星球的靳博士转问GPT4.0,所以这次的测试要十分感谢他提供的帮助。

二,

为了更细致地测试GPT的数学证明水平,我决定设计7道关于素数无限性的证明关卡,按照从易到难的顺序排列。

首先要简单介绍一下素数的概念。素数是指大于1,且不能分解成两个更小的正整数乘积的正整数。例如:2,3,5,7,11,13,17,19,23,29 和 31 都是素数。但是 4,6,8,15,21和 24就不是素数,因为,4=2×2;6=2×3;8=2×4;15=3×5;21=3×7;24=3×8。

好了。我们的第一个关卡是

第1关,证明存在无限多个素数!

这大概是数学中最有名的证明的,用的是反证法,证明过程很简单,甚至连不少数学爱好者都会证明。所以我想这个应该不会难到ChatGPT。

第2关,4n+3型素数是指被4除余数为3的素数,比如7,11,19,23。证明存在无限多个4n+3型素数!

这个证明和第一个证明的方法几乎是一样的,但需要一点点更灵活的运用,所以这个证明也会难一些。

第3关,4n+1型素数是指被4除余数为1的素数,比如5,13,17,29。证明存在无限多个4n+1型素数!

和第一个第二个证明一样,这第三个证明也是用反证法,构造矛盾的方式也有些类似,但是更复杂,需要用到二次剩余理论。所以这第三个证明的难度已经明显加大了。

第4关,令k是任意一个大于2的整数。证明存在无限多个kn+1型素数!

和前三个证明相比,这第四个证明的难度又明显加大了。因为这个结论比较一般,而且还要用到分圆多项式的构造及其性质。这个漂亮的证明最早出现在E. Wendt, 1895年发表在 J. Reine Angew. Math. 上的论文中,在华罗庚的《数论导引》中也有这个证明。

第5关,令k是任意一个大于2的整数。证明存在无限多个kn-1型素数!

这第五个证明和第四个证明难度大致相当,不过还是会难一些,因为涉及到了比分圆多项式更复杂的一类多项式的构造及其性质。这是第二个证明结论的推广。关于这第五个证明,可以参考T. Nagell的《Introduction to Number Theory》或者我本人发布在美国数学月刊的文章《Infinitely Many Primes in the Arithmetic Progression kn − 1》

第6关,令a和b是两个互素的正整数,证明在等差数列{an+b}中存在无限多个素数!

这就是大名鼎鼎的Dirichlet定理,这个定理的标准证明需要用到解析数论中的Dirichlet函数。Dirichlet定理是前面五个证明结论的推广,所以运用Dirichlet定理就可以直接推导出前五个结论。

第7关,n^2+1型素数是指能写成平方数加1的形式的素数,比如5=2^2+1,17=4^2+137=6^2+1都是n^2+1型素数。证明存在无限多个n^2+1型素数

这是数论中一个非常困难的猜想,目前的人类数学水平根本无法撼动,如果ChatGPT能证明这个猜想,那整个数学界将被彻底颠覆。

三,、

GPT4能闯过第几关呢???

让我们拭目以待!!

第一关,顺利通过!

【火爆内容】我为ChatGPT4.0设置了七道数学证明关卡,猜猜它会闯过第几关??

第二关,顺利通过!!

注意证明过程中有个小瑕疵:(4m+1)(4n+1)=4(mn+m+n)+1, 不过这不影响整个证明的正确性

第三关通关失败了!

在这里,GPT4试图照搬上面的证明,到后面都无法自圆其说了。

前面说过,这个证明是不能照搬前面的证明的,需要用到二次剩余理论,但GPT4的整个证明过程中都没提及剩余理论。

不过,比起GPT3,GPT4还是有明显进步,GPT3第二关通关就失败了,下面是GPT3 的错误证明,整个证明过程显得有些胡说八道:

【火爆内容】我为ChatGPT4.0设置了七道数学证明关卡,猜猜它会闯过第几关??

四,

下面我们测试一下GPT在无理数证明上的表示。

上一篇文章中,我们发现ChatGPT3.0可以迅速正确地证明根号3 不是无理数,但是要求证明根号12不是无理数时,它就只会照搬先前的证明,闹了笑话:

我们来看ChatGPT4.0的表现:

这时,GPT4.0会懂得从两边推导提前3这个因子,由此来构造矛盾,这比起3.0是一个明显的进步,虽然证明过程中有个小笔误: “设a=2*2*3*k”

证明根号15不是无理数时,GPT也有同样出色的表现。当然了,证明过程中还是有点小瑕疵:由a必须是3和5的倍数,直接设出a=3*5*k。严格来讲,这里还需要简单运用一下算术基本定理。

其实整个证明过程只需要提前3这个因子就够了。

【火爆内容】我为ChatGPT4.0设置了七道数学证明关卡,猜猜它会闯过第几关??

为了测试GPT4.0在这个方向上能走多远,我开始加大证明难度,要求它证明下面这个更一般的结论,这个更一般的结论大致有两种证明,第一种是经典的证明,运用算术基本定理,第二种证明是利用运算封闭性,可以参考我在B站的视频

结果GPT4给出了一个错误的证明,注意“不能表示成正整数的平方”和“不能表示成有理数的平方”,这原本是两码事,需要你证明这是一码事。

看来,这个证明已经超出了GPT4的水平了。

另外,请注意混淆“不能表示成正整数的平方”和“不能表示成有理数的平方”,这种错误也经常出现在人类的初学者身上。

五,

上一篇文章发表之后,不少读者认为GPT是在照抄其他地方搜索到的答案,根本没有思维能力。其实,这是典型的误解。因为这两篇文章中测试的证明题绝大部分都是非常经典的,如果GPT真想抄答案的话,以它的检索能力,它完全可以抄到正确的答案。

注意,从目前我发现的GPT的证明错误中看,它所犯的错误都是我们人类容易犯的错误,包括一些简单的计算错误,笔误。

另外,我注意到一个普遍的现象,面对相似的,但证明难度不一样的证明题,它会经常模仿甚至照搬证明而出错。其实,这中模仿甚至照搬的现象在数学证明的初学者中是非常非常普遍的。

从上一篇测试文章中,我发现面对简单的归纳法证明,比如自然数平方求和公式,素数分解存在性证明等,GPT都能轻松胜任,但是面对较复杂的归纳法证明,比如素数分解唯一性证明时,它的证明思路就显得很混乱,两相比较之下,我能明显感受到它的数学逻辑推理能力的不成熟和局限性,这和刚开始接触数学证明的人的表现也是非常类似。

总之,目前GPT的数学表现中已经隐约出现了不少人类的特征。

另外,GPT进步也是非常显著的,如果说GPT3.0的数学水平和人类高中生相当的话,那么从今天的测试来看,GPT4.0的数学水平已经差不多是人类大学生的水平了。

听闻GPT5.0已经处在内部测试阶段,我非常期待GPT5.0来我这里闯关。

【火爆内容】我为ChatGPT4.0设置了七道数学证明关卡,猜猜它会闯过第几关??

[投稿须知】公众号《许兴华数学》诚邀全国各地中小学数学教师、教研员和数学爱好者热情投稿!来稿时请注意以下五点:

(1)来稿请注明真实姓名、工作单位、联系方式(无具体工作单位和真实姓名的投稿,一般都不会采用)。

(2)来稿一般要求同时用word文档和PDF格式的电子稿件(防止不同版本的Word打开时出现乱码)。另外,也接受少数著名教师的手写稿(手写稿必须清晰可读)。

(3)每篇文章请认真审查复核,防止错误发生,来稿文责自负。如有抄袭,则有可能被举报并受到有关著作版权部门的追责。

(4)投稿邮箱:chinamatha@163.com;或加主编微信xuxinghua168投稿(加时请注明:投稿).

(5)本公众号对优秀作者和名师一般会附上“作者简介”,以让广大读者更好地了解作者的研究成果和方向,以便进一步学习作者的相关数学思想或解题方法。

【推荐阅读】

《许兴华数学》解题研究大集

李鸿昌、许兴华等——解题研究:巧用“同构”妙解高考导数题

李兴无:一道全国高考数列压轴题的加强及其有趣推广

【教学研究】大彻大悟:弧度是怎么来的?为何要用弧度?

李鸿昌杨春波等:圆锥曲线中的定点问题.新高考版《高中数学一点一题型》新书预读.(许兴华数学)

许兴华——高考数学选择与填空题的常用解法大全(最新全面版)

2022年中国数学奥林匹克希望联盟夏令营试题(二)及参考答案

凌晨——高考研究:从今天起我想讲讲有关导数命题的技巧

许兴华——解题研究:几个均值不等式较难题目的解题分析

【解题研究】用“对数单身狗,指数找基友”研究高考导数难题(之二)

2022年全国高考各卷导数压轴题真题解答

2022年高考全国卷命题基本原则和总体思路(附九科全国卷试题评析)

何国飞——用伸缩变换破解湖北八市数学联考解析几何难题

许兴华——关于圆锥曲线中点弦问题的一些探讨(教学研究)

许兴华——解题研究:几个均值不等式较难题目的解题分析

许兴华——高考研究:含参数的导数问题解题方法例析

© 版权声明

相关文章