深度解密：AI写作检测“不靠谱”的两大元凶

编译 | 铭滟编辑 | 徐珊

智东西7月17日消息，据科技网站Ars Technica报道，斯坦福大学的研究专家和GPTZero（AI写作检测器）的作者均表明，AI写作检测器并不能准确判定一段文本是否由AI生成。这导致部分学生面对错误的检测结果，不得不自证清白。

AI写作检测器的原理是基于人类编写和AI生成的文本语料库，根据已有文本对提交系统的文本进行检测，判断是否由AI编写。这一过程导致的悖论是：AI可以模仿人类写作，人类也可以模仿AI写作。所以，专家认为，对于老师而言，不应当用AI写作检测来查验学生，而应当教会学生真正使用AI辅助写作，并且真正了解学生对已有知识的掌握程度。

一、AI检测背后的原理——经验性与变化性

如果你在GPTZero里上传美国宪法的文本，系统检测结果会显示，该文本“可能完全由AI编写”。这似乎在说，詹姆斯·麦迪逊（James Madison，美国宪法之父，是美国制宪会议代表及《美利坚合众国宪法》起草和签署人之一）是机器人。同样的，如果上传圣经的文本，GPTZero系统也会判定该文本是AI生成的。

▲当输入美国宪法部分文本时，GPTZero系统判定该文本是AI/GPT生成的

在外网，这一系列误判被广泛传播。要解释这些检测工具为什么会犯如此明显的错误，我们首先需要了解它们的工作原理。

不同的AI写作检测器使用的检测方法略有不同，但它们的原理基本相似，即以大量文本训练和推测规则为检测基础。这些文本和规则决定了系统判定上传的文本是更有可能是人类编写的还是AI生成的。

例如，GPTZero的文本来源是大量人类编写和AI生成的文本语料库，主要语料是英文散文。以此为基础，系统使用“经验性”（指依照既往经验，这种语言是否超出一般经验判断）和“变化性”（一般人类写作的句子会长短交替变化，这种变化是人类自然表达的结果）等属性来评估文本并进行判断。

在机器学习中，经验性是比较一段文本与AI模型训练过程中习得内容差距大小的衡量。AI公司Hugging Face的Margaret Mitchell博士说：“经验性就是，‘我觉得这句话是否合理’的功能。”

也就是说，经验性背后的逻辑是，AI生成的文本自然会最接近AI的训练数据，所以经验性越高。但问题在于，人类也可以高“经验性”写作，尤其是在法律写作或者其他类型的学术写作中，作者使用的语句都非常固定。

即使在日常交流对话中，也有很多高“经验性”的表达，比如我想要一杯水。但如果是“我想要一杯蜘蛛”，人类和AI都会对这句话感到不解，所以他的经验性就会很低。

▲“我想要一杯蜘蛛”的谷歌搜索结果只有一条，这种短语搭配的经验性就会很低。

所以在“经验性”的判定标准之下，美国宪法就被认为是AI生成的。原因在于，宪法的语言内容已经在AI训练数据中反复出现，所以AI检测系统作出了误判。

但是问题在于，人类完全可以创作常见的内容。人类也可以只使用常见短语进行表达，例如“我想要一杯咖啡”。所以，以经验性为基础判定是否是人类创作是不妥的。

▲圣经创世纪的一部分被标记为88.2%的AI由ZeroGPT生成

GPTZero判定文本的另一个标准是“变化性”，它评估的是整个文本中句子长度和结构的交替变化。

人类的写作风格通常会有变化，文本中句子的长度和结构都会有变化。例如，在一个长句后，我们会接一个短句。这种变化是很自然的。

与此相对的是，AI生成的文本比较稳定且统一。AI语言模型仍在起步阶段，生成的文本比较标准，长度和结构比较统一。这种稳定性可能会导致变化性分数较低，判定文本可能是AI生成的。

但是，变化性这个指标也不是万无一失的。人类也可以用高度结构化和一致的风格进行写作，导致变化性得分较低。反过来讲，我们也可以训练AI模型来模拟人类文本的变化性，从而提高其变化性得分。事实上，随着AI语言模型的迭代，它们的写作看起来越来越像人类的写作。

所以，依照前两个判定标准，AI写作检测并不能对一段文本是否是人类写的给出准确的判断。

二、部分学生成AI检测误判的受害者

部分教育工作者正在接受这种AI技术融入现实这一情况，并且积极推广使用ChatGPT等工具辅助学习。沃顿商学院的Ethan Mollick教授正是其中一员。

“没有工具可以可靠地检测ChatGPT-4/Bing/Bard写作。”Mollick教授最近在推特上写道。“现有的工具是以GPT-3.5为训练基准。它们的误报率很高（10%+），而且它们非常容易被误导。”并且，ChatGPT无法评估文本是否是由AI编写的，我们无法粘贴一段文本然后询问它是否由ChatGPT编写。

GPTZero的作者似乎意识到AI写作检测的未来是行不通的，表示他计划将他的公司从AI写作检测转向其他方向。他说：“我们正在构建探测器来捕捉用ChatGPT写作的学生。并且，下一个版本的GPTZero不会检测AI文本，而是帮助教师和学生一起使用AI，让AI参与教育。”

那么他又如何看待人们使用GPTZero查验学生学术不端？他表示：“我们不希望人们使用GPTZero来惩罚学生。在教育方面，应当停止个人对AI的依赖，比如一些教师会用AI检测来惩罚学生，一些教师则善于运用AI技术。政府和校方应当联合制定正确的政策来应对使用AI技术的学生，直到我们知道学生真正的学习进度，以及这个过程中AI的参与程度。

但是GPTZero并未解决误判的问题，其作者仍然宣传AI写作检测是“为教育工作者而建”。但是，使用这些高误判率的产品有可能对学生造成伤害，而唯一为此付出代价的，只有被冤枉的学生。

▲GPTZero网站的屏幕截图

《今日美国》曾报道过的一个案例，一名学生被指控使用AI工具作弊，被迫在荣誉委员会面前进行自我辩护。他的辩护包括展示他的谷歌文档历史和他的研究过程。尽管董事会没有发现作弊的证据，但为自己辩护的压力导致学生极为恐慌。类似的场景在美国已经上演了至少数十次。

对学术不端的常见处罚通常包括成绩不及格、留校察看、停学甚至开除，具体取决于违规行为的严重程度和频率。这个处罚的问题在于，使用有误判的技术作出这些严重指控，对学生而言是极为不公的。

三、AI写作可能永远无法被监测

在实践研究中，AI写作检测也有误报和歧视非英语母语人士的问题。2023年，马里兰大学研究人员的一项研究表明，AI写作检测在实际应用中表现一般，误报频率较高。

AI写作检测产品的研究员Simon Willison说：“这只是个‘万用灵药’（指毫无意义的产品）而已。尤其是很难证明这种产品是否有用时，每个人都希望这个系统能有用。”

除此之外，近期斯坦福大学研究人员的一项研究也表明，AI写作检测有可能歧视非英语母语人群。如果广泛使用AI写作检测，那么非英语母语人群的写作就会出现很高的误报率，他们会处在很被动的地位。

很明显，AI写作检测并非万无一失。人类可以像机器一样写作，机器也可以像人类一样写作。或许应当思考写作的核心问题：在机器辅助下，作者本人能不能理解他们在说什么？如果有人使用AI工具以超出他们能力范围之外进行写作，那么有能力的读者或老师应该很容易分辨。

AI辅助写作将继续存在，如果使用得当，AI可能会以更负责任和合乎道德的方式辅助写作。如果老师希望鼓励AI辅助工具的有效应用，可以提出以下问题：写作是否反映了作者的意志和知识储备？作者能确认所写的每个事件的真实性吗？

老师也可以在事后对学生的写作内容进行测验，看看他们的理解程度如何。写作不仅仅是知识的展示，而且是语言的表达。如果作者不能清晰叙述所写的每一个事实，AI就没有起到应有的辅助作用。

▲AI生成图像：机器人辅助学生学习

AI辅助写作仍是一项工具，工具则存在使用不当或熟练使用等情形。使用工具要依使用情景进行调整：你可以用画笔画一整面墙，或是创作蒙娜丽莎。这两种情况都是对该工具的适当使用，但每种方案所需的人的注意力和创造力都是不同的。同样，AI工具可以适当加速一些死记硬背的写作任务（比如生成文档摘要等），而更复杂的任务则需要更多的人的努力。任何事都没有非黑即白的解决方案。

目前，Mollick表示，尽管教育工作者对AI工具感到无措，但他不认为任何人都应该使用AI写作检测。Mollick表示，“我不是AI检测的技术专家，但我可以从一个使用AI的教育工作者的角度出发。截至目前，AI写作是无法被检测的，而且很可能继续如此。AI探测器的误报率很高，所以我不建议继续使用它们。”

结语：摆正AI的工具属性

无论是AI写作还是人类写作，其本质都是掌握和学习的过程，人类比AI更为独特的一点则是创新。一方面，老师们可以通过对学生增加其他考察方式的形式，来确保学生的知识掌握程度；另一方面，老师可以引领学生还原AI的工具属性，通过AI辅助研究和教学的进行。

如今生成式AI蓬勃发展，AI技术也逐步在各行业领域内落地扎根。各行业领域可以结合从业人员的从业经验和AI技术人员的技术知识，预先对可能出现的滥用行为进行技术处理，提前防范滥用行为。在使用AI技术的过程中，也应保持实时监测，及时制止和处罚相应的滥用及侵权行为。