Giskard的开源框架会在人工智能模型投入生产之前对其进行评估_网球_运动_爱云网

　　Giskard是一家法国初创公司，致力于大型语言模型的开源测试框架。它可以提醒开发人员注意偏见风险、安全漏洞以及模型产生有害或有毒内容的能力。

　　虽然围绕人工智能模型有很多炒作，但随着欧盟和其他国家的人工智能法案即将实施监管，机器学习测试系统也将迅速成为一个热门话题。开发人工智能模型的公司必须证明他们遵守了一套规则，并降低了风险，这样他们就不必支付巨额罚款。

　　Giskard是一家拥抱监管的人工智能初创公司，也是第一批专注于以更有效的方式进行测试的开发者工具之一。

　　“我之前在Dataiku工作过，特别是在NLP模型集成方面。我可以看到，当我负责测试时，当你想将它们应用于实际案例时，这两件事都不太好，而且很难比较供应商之间的表现，”Giskard联合创始人兼首席执行官亚历克斯·康姆西告诉我。

　　在Giskard的测试框架背后有三个组件。首先，该公司发布了一个开源Python库，可以集成到LLM项目中——更具体地说，是集成到检索增强生成(RAG)项目中。它在GitHub上已经很流行了，并且它与ML生态系统中的其他工具兼容，例如hugs Face, MLFlow, Weights & Biases, PyTorch, Tensorflow和Langchain。

　　在初始设置之后，Giskard会帮助您生成一个将在您的模型上定期使用的测试套件。这些测试涵盖了广泛的问题，如表现、幻觉、错误信息、非事实输出、偏见、数据泄露、有害内容生成和及时注射。

　　“有几个方面:你将有性能方面，这将是数据科学家首先考虑的事情。但从品牌形象的角度和现在从监管的角度来看，道德方面的问题越来越多，”康姆西说。

　　然后，开发人员可以将测试集成到持续集成和持续交付(CI/CD)管道中，以便每次对代码库进行新的迭代时都运行测试。例如，如果有问题，开发人员会在他们的GitHub存储库中收到扫描报告。

　　测试是根据模型的最终用例定制的。从事RAG工作的公司可以向Giskard提供对矢量数据库和知识库的访问，以便测试套件尽可能相关。例如，如果你正在构建一个聊天机器人，它可以根据IPCC的最新报告为你提供有关气候变化的信息，并使用OpenAI的法学硕士，那么Giskard测试将检查该模型是否会产生有关气候变化的错误信息，是否会自相矛盾等。

　　图片来源:Giskard

　　Giskard的第二个产品是AI质量中心，它可以帮助您调试大型语言模型并将其与其他模型进行比较。这个质量中心是吉斯卡德优质产品的一部分。在未来，这家初创公司希望能够生成证明模型符合法规的文档。

　　“我们开始将AI质量中心出售给法国银行(Banque de France)和L’orsamal等公司，帮助他们调试并找到错误的原因。在未来，我们将把所有的监管功能放在这里，”Combessie说。

　　该公司的第三种产品叫做LLMon。这是一个实时监控工具，可以在响应发送给用户之前评估LLM对最常见问题(毒性、幻觉、事实检查……)的回答。

　　它目前与使用OpenAI api和llm作为基础模型的公司合作，但该公司正在与hug Face, Anthropic等进行集成。

　　有几种方法可以规范人工智能模型。根据与人工智能生态系统中的人们的对话，目前尚不清楚人工智能法案是否适用于OpenAI、Anthropic、Mistral等公司的基础模型，还是只适用于应用用例。

　　在后一种情况下，Giskard似乎特别适合提醒开发人员使用外部数据丰富的llm(或者，正如AI研究人员所说，检索增强生成，RAG)的潜在滥用。

　　目前吉斯卡德手下有20个人。Combessie说:“我们看到了一个非常适合LLM客户的市场，所以我们将把团队规模扩大一倍，成为市场上最好的LLM杀毒软件。”

Giskard的开源框架会在人工智能模型投入生产之前对其进行评估

相关推荐