将东盟人工智能数据挑战转化为机遇_综合_爱云网

　　东南亚（SEA）地区正迅速成为人工智能领域的全球重镇。

　　根据IDC最近的预测，到2028年，亚太地区（包括东南亚）的人工智能和生成式人工智能支出预计将达到惊人的1100亿美元，年增长率为24%。

　　这一增长使亚太地区成为推动人工智能和相关技术进步的核心参与者。然而，随着人工智能模型的发展，对海量数据的需求也在不断增长——这种需求伴随着数据质量、隐私和过度训练风险方面的重大挑战。

　　数据泛滥和质量控制

　　为了理解这个规模，考虑一下：ChatGPT是在3000亿个单词上训练的。作为背景，每天读一本小说80年只占不到1%。即便是这个数字，与Databricks的DBRX等模型相比也相形见绌，后者在GPT-4之前接受了12万亿个数据点的训练。

　　专家警告说，最早到2026年，对训练数据的需求可能会超过全球公共人类文本数据的供应。

　　对于SEA来说，语言多样性、文化差异和不同的数据标准增加了复杂性，收集高质量、准确的数据变得更加困难。该地区的语言景观本身就构成了独特的挑战；该地区有1200多种语言，印度尼西亚有700多种语言，菲律宾有大约175种公认的语言。

　　这种巨大的语言多样性使标准化的数据收集和处理复杂化，因为自然语言处理（NLP）系统往往难以适应广泛的当地方言和语言。如果人工智能依赖于低质量或有偏见的数据，就有可能产生不可靠或有偏差的结果。还有更多的利害关系：数据隐私是一个至关重要的问题。如果没有谨慎的监管，收集更多数据的努力可能会破坏公众的信任。

　　过度训练问题

　　过度训练是一个明显的挑战。过于精细地调整训练数据的人工智能模型在应用于新信息时往往会失败，导致适应性和准确性有限。如果这些模型是在人工智能生成的数据上进行训练，问题就会加剧。这可能会导致偏见的反馈循环。

　　然而，合成数据或人工生成的数据也有其用途。它在自动驾驶汽车或生命科学等领域尤其有价值，因为这些领域的真实数据可能很少。通过生成模拟场景，人工智能模型可以学习和适应，即使在难以获得真实数据的情况下。

　　但这种方法并非没有成本。创建合成数据需要高强度的图形处理单元（GPU）处理，这转化为高能源需求和运营费用。从这个角度来看，人工智能行业目前的步伐开始看起来更像是一场马拉松，而不是短跑。

　　平衡长期成功的行为

　　无论是从数据还是潜在的后果来看，都有很多东西需要解释。虽然人工智能具有变革性的前景，但它也产生了一种“人工智能疲劳”。近90%的人工智能概念验证项目不会很快投入生产，这对许多期望快速回报的人来说是一个现实考验。

　　对于希望成功的组织来说，这是关于管理期望和采用持续的方法。虽然目前只有少数人工智能项目可能带来重大突破，但这少数几个项目有可能重塑整个行业。正如Everest Group最近指出的那样，人工智能之旅可能充满挑战，但它的长期回报使努力变得值得。

　　随着人工智能的不断发展，组织需要实用的策略来保持势头，而不会过度扩展资源。以下是如何最大限度地提高效率并为未来做好准备的方法。

　　采用小型语言模型

　　大型语言模型（llm）可能会得到大多数关注，但是较小的语言模型（slm）具有独特的优势。slm派生自llm，但经过细化以关注特定任务，允许组织根据特定需求定制模型。

　　想象一下，设计一个监控火车运行的系统。法学硕士，塞满了一般的信息，可能太广泛而无效。SLM,然而,可以训练具体操作指南和技术细节,使它更适合那份工作。

　　对于更广泛的问题，比如教孩子蝴蝶，法学硕士的广博知识可能会更好。虽然slm提供了效率和成本节约，但它们对高度集中的数据最有效——这是公司扩展人工智能应用程序时的一个重要考虑因素。

　　升级数据基础设施

　　gpu对于驱动当今的人工智能模型至关重要，但它们的高能耗需求可能与可持续发展目标相冲突。通过增强围绕gpu的基础设施，公司可以在提高性能的同时减少对环境的影响。考虑以下步骤以实现更平衡的基础设施：

　　-利用工具进行数据清理和标记。

　　-与致力于可持续发展的供应商合作。

　　—选择具有“能源之星”认证的存储选项。

　　-与具有环保意识的合作伙伴合作，优化绩效。

　　战略性地投资于可持续基础设施，支持人工智能的发展，而不会过度消耗电力。

　　人工智能是一个协作过程

　　通往有效的人工智能解决方案的道路并不简单，实现成功需要组织所有领域的投入。团队方法有助于减少偏见，并产生更实际的结果。无论您使用的是像Llama3这样的模型还是定制的SLM，关键是要使工具与您的目标相匹配。

　　确定你的组织的具体目标，明确你想要的结果，然后计划一个结构化的方法来实现它们。

　　人工智能还有很长的路要走

　　人工智能的发展更像是一场马拉松，而不是短跑，需要克服数据限制和模型过度训练等挑战。但人工智能的能力正在增长：像检索增强生成（RAG）这样的技术正在成为标准，更有效的SLM创建方法即将出现。

　　数据基础设施的现代化也有助于使人工智能系统更具可扩展性和生态友好性。

　　这段旅程可能很复杂，但在创新强劲、人工智能投资不断增加的东南亚，规模、简单性和可持续性的发展正使人工智能更接近一个平衡和有影响力的未来。

　　Joe Ong是日立万代（Hitachi Vantara）的副总裁兼东盟总经理，该公司是一家全球数据存储和基础设施解决方案提供商，包括各种数据管理服务和企业人工智能混合云解决方案。

将东盟人工智能数据挑战转化为机遇

相关推荐