Giskard的开源框架会在人工智能模型投入生产之前对其进行评估
2025-06-27 09:20

Giskard的开源框架会在人工智能模型投入生产之前对其进行评估

  

  

  Giskard是一家法国初创公司,致力于大型语言模型的开源测试框架。它可以提醒开发人员注意偏见风险、安全漏洞以及模型产生有害或有毒内容的能力。

  虽然围绕人工智能模型有很多炒作,但随着欧盟和其他国家的人工智能法案即将实施监管,机器学习测试系统也将迅速成为一个热门话题。开发人工智能模型的公司必须证明他们遵守了一套规则,并降低了风险,这样他们就不必支付巨额罚款。

  Giskard是一家拥抱监管的人工智能初创公司,也是第一批专注于以更有效的方式进行测试的开发者工具之一。

  “我之前在Dataiku工作过,特别是在NLP模型集成方面。我可以看到,当我负责测试时,当你想将它们应用于实际案例时,这两件事都不太好,而且很难比较供应商之间的表现,”Giskard联合创始人兼首席执行官亚历克斯·康姆西告诉我。

  在Giskard的测试框架背后有三个组件。首先,该公司发布了一个开源Python库,可以集成到LLM项目中——更具体地说,是集成到检索增强生成(RAG)项目中。它在GitHub上已经很流行了,并且它与ML生态系统中的其他工具兼容,例如hugs Face, MLFlow, Weights & Biases, PyTorch, Tensorflow和Langchain。

  在初始设置之后,Giskard会帮助您生成一个将在您的模型上定期使用的测试套件。这些测试涵盖了广泛的问题,如表现、幻觉、错误信息、非事实输出、偏见、数据泄露、有害内容生成和及时注射。

  “有几个方面:你将有性能方面,这将是数据科学家首先考虑的事情。但从品牌形象的角度和现在从监管的角度来看,道德方面的问题越来越多,”康姆西说。

  然后,开发人员可以将测试集成到持续集成和持续交付(CI/CD)管道中,以便每次对代码库进行新的迭代时都运行测试。例如,如果有问题,开发人员会在他们的GitHub存储库中收到扫描报告。

  测试是根据模型的最终用例定制的。从事RAG工作的公司可以向Giskard提供对矢量数据库和知识库的访问,以便测试套件尽可能相关。例如,如果你正在构建一个聊天机器人,它可以根据IPCC的最新报告为你提供有关气候变化的信息,并使用OpenAI的法学硕士,那么Giskard测试将检查该模型是否会产生有关气候变化的错误信息,是否会自相矛盾等。

  图片来源:Giskard

  Giskard的第二个产品是AI质量中心,它可以帮助您调试大型语言模型并将其与其他模型进行比较。这个质量中心是吉斯卡德优质产品的一部分。在未来,这家初创公司希望能够生成证明模型符合法规的文档。

  “我们开始将AI质量中心出售给法国银行(Banque de France)和L’orsamal等公司,帮助他们调试并找到错误的原因。在未来,我们将把所有的监管功能放在这里,”Combessie说。

  该公司的第三种产品叫做LLMon。这是一个实时监控工具,可以在响应发送给用户之前评估LLM对最常见问题(毒性、幻觉、事实检查……)的回答。

  它目前与使用OpenAI api和llm作为基础模型的公司合作,但该公司正在与hug Face, Anthropic等进行集成。

  有几种方法可以规范人工智能模型。根据与人工智能生态系统中的人们的对话,目前尚不清楚人工智能法案是否适用于OpenAI、Anthropic、Mistral等公司的基础模型,还是只适用于应用用例。

  在后一种情况下,Giskard似乎特别适合提醒开发人员使用外部数据丰富的llm(或者,正如AI研究人员所说,检索增强生成,RAG)的潜在滥用。

  目前吉斯卡德手下有20个人。Combessie说:“我们看到了一个非常适合LLM客户的市场,所以我们将把团队规模扩大一倍,成为市场上最好的LLM杀毒软件。”

本内容为作者翻译自英文材料或转自网络,不代表本站立场,未经允许不得转载
如对本稿件有异议或投诉,请联系本站
想要了解世界的人,都在 爱云网

相关推荐