像许多律师事务所一样，佳利律师事务所（Cleary gottlieb）依靠基因人工智能来处理无数的任务，从梳理数以百万计的电子邮件nic docu从自动化工作流到创建新的业务单元以提供ai作为服务。_5G_科技世界_爱云网

　　 AI in legal

　　公司法和你在电视上看到的完全不同。为了准备一个案件，150名律师可能会被派往偏远的仓库，梳理数千万积满灰尘的文件，或者追踪无定式的电子通信。这个过程被称为发现。

　　十多年来，律师事务所一直在使用机器学习和人工智能工具来帮助他们寻找书面记录和数字文件。但直到两年前OpenAI的生成式人工智能（genAI）会话聊天机器人ChatGPT问世，这项技术才变得容易使用，甚至连刚从法学院毕业的一年级律师都可以依靠它进行电子发现（eDiscovery）。

　　今天，你很难找到一家没有部署genAI的律师事务所，或者至少没有在加速发现和减少工作量方面进行试验。

　　无论出于何种意图和目的，今天没有一个从事法律工作的人在学校学习人工智能，这意味着公司有责任将快速发展的技术融入他们的工作场所，并培训年轻律师将人工智能能力与客户需求相匹配，同时对其产出负责。这是将人工智能转变为各种琐事的副驾驶的本质，从涉水处理数据到分析文档再到改进计费。

　　在这种情况下，长期从事IT工作的员工不再只是随叫随到地处理电脑故障和AV设置；他们已经走到了经营律师事务所的最前沿，处理人工智能在赢得案件、留住客户、增加收入方面的作用，并不可避免地帮助吸引最优秀、最聪明的新人才。跨国律师事务所佳利律师事务所（Cleary Gottlieb）就是最好的例子。

　　clearry已经能够大幅削减用于审前取证的律师数量，甚至还成立了一个技术部门和基因法律服务：ClearyX。（ClearyX本质上是一种套利游戏，它是一家将eDiscovery离岸外包和自动化电子工作流程的替代法律服务提供商。）

　　虽然Cleary欣然承认，基因人工智能在检索与案件相关的100%文件或总是创建准确的摘要方面并不完美，但人类也不是。在技术发展的这一点上，它在大多数情况下足以减少工作量和成本。

　　尽管如此，在定制一个大型语言模型以满足特定需求时，确实会出现一些案例，这些案例可能比部署数十名渴望证明自己的律师要昂贵得多。

　　《计算机世界》（Computerworld）就该公司如何使用基因人工智能工具与ClearyX首席执行官卡拉?斯旺斯伯格（Carla Swansburg）进行了对话。克里斯丁?马奥尼是ClearyX发现团队的法律顾问兼全球主管，卡拉?斯旺斯伯格是分布式账本技术（DLT）的CEO。以下是采访节选：

　　为什么在法律行业采用人工智能？马奥尼：“因为法律界看到了客户创造的信息和数据的爆炸式增长，通过律师团队仔细查看文件来消化这些信息变得越来越具有挑战性。这种爆发可能始于20年前。它变得越来越具有挑战性。

　　“我刚刚有一个案例，我们正在测量我们所看到的数据量，其中一个案例，我们必须分析15tb的数据。这是5000多万份文件，我们必须在几周内找出必须向对方提供的内容。

　　“其次，我们想找出文件中有趣的地方，以及支持我们主张的地方。浏览这类信息并掌握案件的传统方法已经不可行了。你现在需要将人工智能纳入分析过程。”

　　斯旺斯伯格：“特别是OpenAI和genAI的一个重大转变是，它们首次无处不在。每个人都听说了。其次，经验丰富的客户开始接近它——甚至包括那些以前没有接触过的华尔街公司和其他着眼于成本敏感性的大公司。

　　“快进到现在。有一点期望是，随着基因人工智能的出现，事情应该更快、更便宜。其次，人工智能通过自然语言处理的可访问性。第三件事是专门为法律专业设计的工具的爆炸式增长，这确实可以追溯到大约十年前，当时你有尽职调查工具和合同自动化工具。”

　　 christian maho<em></em>ney and carla swansburg of cleary gottlieb

　　客户对genAI使用的期望有何变化？斯旺斯伯格：“一年半前，我们收到客户的信息说，‘你们最好不要使用人工智能，因为它看起来真的很冒险。现在，我们收到客户的询问，‘你们是如何利用人工智能让我受益的，你们是如何利用它让你们的实践对我更有效的？’

　　“有很多变化的动态。历史上不愿接受这项技术的法律公司正在要求它——“我什么时候才能在我的实践中使用这种生成人工智能？”’”

　　律师的工作随着人工智能发生了怎样的变化？斯旺斯堡：“没有人去法学院做这些。我以前做诉讼律师的时候经常拿着便签翻看银行的箱子。没人想这么做。没有人愿意读100份租约来为你强调转让条款。好消息是（基因人工智能）正在向价值链的上游移动，但它是从人们本来就不想做的事情开始的。”

　　人工智能是否正在取代某些工作头衔，填补工作角色？马奥尼：“我想说，我们还没有到它取代整个工作类别的地步。这当然会提高我们的效率，如果我需要一个60人的律师团队来完成我正在做的工作，我现在可能需要一个45人的团队。这就是我们所说的效率。

　　“就在这个周末，我有60多名律师在处理一个案子。这是需要梳理的证据的大数据爆炸。

　　“我们正在使用人工智能来使用更复杂的工作流程。我说我看到60人减少到45人。但是，在这种情况下，15年前我可能会有150名律师来做这件事。那时候，人们会说，‘好吧，伙计们，这里有堆积如山的证据——去看看吧。’

　　“现在，我们正在使用几种人工智能策略来帮助分类我们需要提交的文件，以帮助缩小我们必须查看的内容数量。它帮助我们在看文件之前就进行总结，这样我们就有了一个总结，帮助我们更快地消化信息。”

　　斯旺斯伯格：“在我看来，人工智能还没有真正取代工作，但它正在改变你的工作方式。因此，它允许人们向价值链的上游移动一点。它消除了死记硬背和重复的工作。

　　“我们的经验是——我们已经尝试了很多语言模型和专门设计的工具——（基因人工智能工具）还不够好，无法取代我们所做的很多工作。对于尽职调查之类的事情，你肯定经常是对的。你需要知道你是否能得到转让的同意。在其他用例中，例如总结和初始起草，这类事情更容易理解。”

　　你发现的大数据是什么样子的？大部分都是非结构化的吗？马奥尼：“我的大多数数据集都是非结构化的。我们谈论的是某人笔记本电脑上的电子邮件和消息，或者文件服务器上文档存储库的一部分。如今，我们谈论的是Teams或移动设备等平台上的聊天。通常，我们会通过优秀的律师调查来定位这些收集，但很多时候我们需要梳理邮箱等非结构化数据源。我们正在做的是使用一个大的语言模型算法。

　　“我们正在审查一些样本，其中一些是随机的，其中一些是我们开发的训练方法，我们认为这些方法可以帮助模型更快地理解我们试图教它的内容。我们正在审查几千个文档，以训练模型来预测一个文档是否对另一方的文档请求做出响应。然后我们在数百万个文档上运行这个模型。我们发现，在整个迭代模型培训改进过程中，我们正在接近，有时甚至超过我们期望的150名律师团队查看所有这些文件的性能。

　　“所以，我们把它作为我们的出发点，有时是我们确定我们需要向对方提供什么的唯一过程。但是，一旦我们有了这个集合，我们就可以使用类似的过程来识别文档中的律师-当事人保密特权之类的东西。再一次，确定哪些文件对我们的倡导是有趣和有用的。

　　“现在我们还将其与生成式人工智能工作流程相结合，除了这种训练策略外，我们还确定了[文档]领域的小样本；我们还看到对部分数据集进行基于提示的基因查询，以查找支持我们倡导的文件。”

　　你是否发现了人工智能最初没有预料到的其他用途？Mahoney：“我们正在使用genAI来查看那些我们从未使用过老式关键字搜索的文件，因为它们没有任何文本。它们可以是图像或电影。我们创建了一个基因过程，使用一些真正的新算法来分析图像和视频文件等内容，以找到更多有趣的信息。

　　“当我们要求律师-客户特权时，我们还创建了genAI工作流程；我们得建立一份律师-当事人保密特权记录。我们已经创建了genAI工作流来帮助我们起草特权日志。这与使用genAI来总结文档的概念相同。我们使用它来总结文档的特权部分，但是以一种我们满足特权日志义务的方式总结它，而不透露特权建议是什么。

　　“然后，我们的许多人在循环实践正在查看这些人工智能结果并进行验证，在这里和那里进行一些改进，而不是完全依赖人工智能。这种验证的程度取决于任务是什么。”

　　人工智能有因错误和幻觉而偏离轨道的倾向。你如何解决这个问题？斯旺斯伯格：“在CJ的世界里，他们以百分比为基础——比如80%的准确率。对我们来说，很大程度上我们需要100%准确。我们做的很多事情，无论是合同分析和管理，还是交易尽职调查，我们都有一系列的背景材料。所以，产生幻觉的可能性是有限的。话虽如此，市场上的一些工具仍然会产生幻觉。所以，你会说，‘给我找到租赁财产的地址’它会完全编造一些东西。

　　“我们所做的一件关键事情，以及我们正在做的一些开发工作，就是说，‘在文件中告诉我参考的位置。因此，有一种快速简便的方法来验证信息。你有一个推荐信；你告诉我上面写了什么。你提取了它的一部分，所以我们有一个非常快速的验证方法。

　　“对我们来说，它总是一组离散的上下文文档。因此，我们首先可以通过提示和剪裁来解决他们想让我们使用的文件集，但其次，总是确认总是有一种方法来确保信息的来源。

　　“我们正在做的一些工作是，我们已经开发出一种方法来提示一个模型，告诉我们NDA的终止数据是什么时候？如果一个人在读它，他们通常能看出来。但保密协议有一个生效日期，然后有一个期限，可以用任何方式写成：两年，三年，然后通常还有持续的义务。

　　“所以如果你只是说，‘这份保密协议何时终止？“很多人工智能模型都会出错。但如果你生成一种方式来表达，“找出生效日期，找出条款，找出期限或持续义务”，它通常是100%准确的。它结合了重点上下文文档、适当的快速工程和验证过程。”

　　您是否使用检索增强生成（RAG）对这些模型进行微调，它在该任务中的效果如何？Mahoney：“我们正在使用RAG为大型语言模型如何响应以及它在响应中看到的内容设置护栏。我认为有时候这是法学硕士课程之外的一个很有用的工具。

　　“我还想说，尽管我们在探索领域更积极地使用法学硕士和基因人工智能，但卡拉描述的过程看起来完全一样。区别在于我们对错误的容忍度，这是验证过程的一部分。

　　“这是将它与人类的结果进行比较。在过去的几十年里，我们在电子发现的各种任务中发现，人类通常有75%的时间是正确的。所以，当我们研究法学硕士和基因人工智能时，我们要注意它是否运行良好，但我们也要注意不要把它定得太高。

　　“如果你在写一份简报，75%的准确率是可怕的，不可接受的。但是当你要浏览200万份文件时，这是完全可以接受的。这就是这个过程看起来有点不同的地方，尽管这个过程的结构在步骤上看起来是一样的。”

　　相对于Amazon、meta和OpenAI的大型专有模型，小型语言模型越来越受欢迎，因为您可以为每个应用程序的需求创建一个模型。你们使用什么样的人工智能模型？Mahoney：“我们实际上已经使用开放大型语言模型五年了。我们从当时最大的语言模型开始，但现在它可能更接近于小型语言模型。当我们在做监督学习时，我们经常使用BERT的一个版本。

　　“我们是非常法学硕士不可知论的，因为我们能够看到不同的任务，看看哪一个是适合一个特定的任务。对于图像分析或多媒体分析，我们使用最新最好的，例如ChatGPT Omni。它的独特之处在于具有起草[client-privilege]日志行的功能。根据数据，我们在GPT-4或GPT-3.5 Turbo之间切换。

　　“实际上，我们正在考虑在哪些方面可以获得合理的性能，并将其与成本等因素进行比较。”

　　价格是你在采用一种模式时考虑的一个问题吗？马奥尼：“不同的法学硕士有非常不同的价格点。对于我们的一些数据集，GPT 3.5 Turbo执行日志行的方式实际上非常好。所以，我们不想在GPT-4上花额外的钱。

　　“在小语言模型方面，我想说的是，我们正在进行调优，而不是为每个应用程序单独使用小语言模型....我们采用的是一个现有的模型——但我们所在的行业可能与模型建立的基础非常不同——我们在此基础上进行了一些微调，在模型开始对数据集进行预测之前，将模型引入数据集。”

　　所以，从本质上讲，一些法学硕士在某些任务上比其他人做得更好？马奥尼：“一些语言模型在某些任务上表现得更好，比如总结或精确定位。理想情况下，你有一个六个步骤的工作流程，你在不同的步骤使用不同的法学硕士。你永远不知道明天谁会在某方面或某方面做得更好。

　　“在OpenAI （llm）公开发布之前，我们就一直在使用它。我们一直在测试meta和Claude，并使用我们认为对特定任务最有意义的两个。”

　　数据科学家和分析师，提示工程师——你有什么角色或者你增加了什么角色来满足你的法学硕士需求？Swansburg：“对于CJ所做的工作，以及我们所做的工作，数据集越大，对数据科学家的需求就越大。所以，他确实和数据科学家一起工作。

　　“在我这边，就快速工程师而言，我们有优秀的软件开发人员可以为你做这件事。我们有纯粹的开发人员，也有处于中间位置的人，我们称之为“法律技术专家”。这些翻译人员接受客户和律师的要求，反馈这些要求，并对我们构建的平台进行定制。

　　“我们还没有数据科学家，因为我们使用的是离散的数据集。所以更多的是能够设计提示——我们现在的团队已经能够在开发人员方面做到这一点。随着我们的发展，现在我们正在招聘另外六名开发人员，我们将更加细致地寻找具有快速工程经验并使用llm和其他工具构建api的人。

　　“所以，它是不断变化的。”

　　您是否主要使用专有模型而不是开源模型？Mahoney：“现在，我们只是使用专有模型，将它们插入并测试它们——OpenAI是更常见的例子。我们通过诸如合同确定日期之类的提示来构建东西，以提取我们需要的数据，并根据系统正在摄取的内容的自动确定构建将生成的问题包。所有这些现在都在经受考验。

　　“其中一些真的很贵。像ChatGPT这样的东西非常容易获得。即使是企业模式也能做到这一点，而且它们易于使用且价格合理。”

　　如果法律部门和律师事务所已经在使用AI和ML，为什么还需要ClearyX ？Swansburg：“我们正试图建立一种比合同管理软件便宜得多的模式，并提供比许多供应商更高的质量和服务。

　　“很多公司没有人来拥有和运营这些项目。所以，他们有货架。他们购买合同生命周期管理工具，需要三年时间才能获得投资回报；人们不使用它，因为它不是定制设计的。所以，我们正在努力为客户建立定制的解决方案，以他们的方式工作，而且价格合理。

　　“我们不是风险资本所有的。我们是由合作伙伴拥有的，所以我们能够以正确的方式建造东西。我们不仅为佳利律师事务所的客户服务；我们也有获得外部客户的任务。

　　“我们开始认为我们将不再是一家开发公司。我们打算使用现有的解决方案，并使用api将它们编织在一起，但发生了一些事情。市场上的工具并没有按照我们的要求去做。我们无法以细致入微的方式定制它们，让客户真正乐于使用它们。

　　“另一个原因是人工智能无处不在，定制它们的能力比三年前要容易得多。所以，在过去的8个月左右的时间里，我们已经能够转向一些让我们更容易定制的东西，并与客户合作，找出他们想要的工作方式。”

像许多律师事务所一样，佳利律师事务所（Cleary gottlieb）依靠基因人工智能来处理无数的任务，从梳理数以百万计的电子邮件nic docu从自动化工作流到创建新的业务单元以提供ai作为服务。

相关推荐