快捷导航

五大AI平台对比:谁能成为你的财务顾问?

2025-1-6 09:06| 发布者: admin| 查看: 57| 评论: 0
摘要: 原文标题:Which Platform Builds the Best AI Agents? We Test ChatGPT, Claude, Gemini and More 原文作者:Jose Antonio Lanz 原文来源:https://decrypt.co/ 编译:Daisy, 火星财经哪个平台能打造最佳AI代理? ...
原文标题:Which Platform Builds the Best AI Agents? We Test ChatGPT, Claude, Gemini and More

原文作者:Jose Antonio Lanz

原文来源:https://decrypt.co/

编译:Daisy, 火星财经

哪个平台能打造最佳AI代理?我们测试了ChatGPT、Claude、Gemini及其他平台

动手对比五大领先平台,揭晓哪个最适合在日常场景中托管你的未来AI代理。


AI代理可以实现很多事情:从你的文档库中搜索信息、编写代码、抓取网页数据,到对复杂数据进行洞察和深刻分析,甚至更多。你还能打造一个虚拟办公室,由一群专注于不同任务的AI代理组成,像一支专业的数字员工团队一样协同工作。

但这到底有多难?如果一个普通人想打造自己的AI金融顾问,比如,不依赖API、不需要奇怪的编码、不用Github,哪个平台能为用户提供最佳支持?我们只想看看这些顶尖AI公司在帮助普通用户创建AI代理方面表现如何,而无需用户具备高超的技术技能。

当然,你付出多少就得到多少。在这种情况下,我们还想看看普通人设置一个代理的难易程度与每个平台交付结果的质量之间是否存在关联。

我们的实验将五大平台进行了对比:ChatGPT、Claude、Huggingface、Mistral AI 和 Gemini。每个平台都接受了相同的基本指令,要求创建一个财务顾问。

测试专注于平台的开箱即用能力。重点考察代理能否处理一个常见的情景——在这种情况下,帮助某人平衡 25,000 美元的投资与 30,000 美元的债务。我们还想看看它们分析交易图表的能力。我们避免使用额外的工具来提高代理的生产力,而是尝试采取最简单的方式。

简而言之,以下是我们的发现和模型排名:

平台排名

1)OpenAI 的 GPT(8.5/10)

  • 设置难易度:4/5
  • 结果质量:4.5/5

ChatGPT 是最均衡的平台,提供复杂的代理创建选项,同时具有引导式和手动选项,能够满足完全新手和有一定经验的用户的需求。

尽管最近的界面更新将一些功能埋藏在菜单中,但该平台在将复杂的用户需求转化为功能性代理方面表现出色。我们通过构建一个财务顾问来测试该模型,结果显示该代理具有出色的上下文意识和结构化问题解决能力,为债务管理和投资分配提供了详细且连贯的策略。

2) Google Gemini(7/10)

  • 设置难易度:4/5
  • 结果质量:3/5

Gemini 凭借其精致、直观的界面和优秀的错误处理脱颖而出。虽然需要更详细的提示才能获得最佳结果,但它对指令的字面解释创造了一致且可预测的结果。

该代理在提供财务建议时的咨询方式强调了在推荐之前收集上下文,类似于专业实践。然而,它在零样本响应中可能过于保守。

3) HuggingChat(6.5/10)

  • 设置难易度:2/5
  • 结果质量:4.5/5

这个开源平台提供了无与伦比的定制化和模型选择选项。对于那些寻求对每个细节拥有粒度控制的人来说,这是一个极好的选择,但对于那些寻求简便的用户来说,可能并不合适。(可以把它比作 Linux 系统与 macOS 系统的比较)。其复杂的时间框架和实用工具集成展示了其先进的能力。

我们构建了一个纯粹的代理,没有任何额外的功能。我们使用了 Nvidia 的 Nemomotron 作为基础大语言模型,其输出质量足以与 ChatGPT 相媲美。对开源阵营来说,不错。

4)Claude(5.5/10)

  • 设置难易度:2.5/5
  • 结果质量:3/5

Anthropic 的平台在特定领域表现出色,尤其是在需要大量上下文处理和代码解析的任务中。其简约的界面掩盖了其复杂的能力,但“可选”指令字段可能会让用户感到困惑。

我们的代理在提供建议时非常保守且模糊,但展示了良好的风险意识和战略思维。它需要更小心的提示才能真正发挥其潜力,但如果测试采用了适应性提示,这将违背假设相似条件的前提,因此并不公平。

5) Mistral AI(5/10)


设置难易度:2.5/5

结果质量:2.5/5

这个法国平台提供了独特的基于示例的学习和深度定制选项。然而,其面向开发者的界面和偶尔的语言切换问题为非技术用户创造了障碍。它还需要修改代理的配置,以适应不同模型执行诸如分析图像或处理代码等不同任务。这并不理想。

财务顾问在交互设计方面表现出了潜力,但在基本的数学验证上遇到了困难,输出结果最差。并不是说输出不好,但在零样本测试中,这是最不令人满意的。

深入分析


考虑到之前的排名,没有一种通用的解决方案,所有平台都有各自的优缺点。通过一些专注和细心的提示定制,某个平台的结果可能会有所不同,甚至超越其他平台。最终,所有的语言模型(LLM)都有各自不同的提示风格。

如果你想了解更多关于我们排名背后的理由,以下是我们对经验和代理结果的更深入分析。我们将所有代理配置为相同的系统提示,没有额外的参数和功能,并问它们相同的基本问题:“我有 25K 美元投资,并且有 30K 美元债务。为我制定一个财务计划。”

OpenAI

五大AI平台对比:谁能成为你的财务顾问?


ChatGPT的界面最近进行了更新,实际上使操作变得更加复杂。GPT创建选项现在隐藏在菜单中,但一旦找到,它提供了两种路径:一种是对话式设置,AI帮助构建你的代理;另一种是手动配置,适合那些确切知道自己想要什么的人。

OpenAI的GPT平台是一个功能齐全的“瑞士军刀”——它能读取代码、搜索网页、处理图像生成和分析。AI引导的设置过程使其特别适合新手,尽管对于需要精细控制的高级用户来说,可能会感觉有些限制。(例如,如果你要求模型更加具体或详细,它可能会改变整个系统提示,从而导致结果变差。)

在实际使用代理时,ChatGPT非常直接,界面清晰且易于理解。

五大AI平台对比:谁能成为你的财务顾问?


这些代理可以原生读取文档并理解图像,这使它们在其他平台中具有一定优势。

现在,来谈谈你通过基本提示可以创建的代理质量。我们创建的金融顾问MoneyGPT给我们展示了一场结构化问题解决的硕士课程,表现相当令人印象深刻。

除了其精确的资金分配——“$20,000用于高利债务”以及详细的投资组合拆分——该代理还展示了复杂的财务推理。它提供了一个五步走的路线图,不仅仅是一个清单,而是一个连贯的策略,考虑到了短期需求和长期规划。

五大AI平台对比:谁能成为你的财务顾问?


该代理的优势在于能够平衡细节和上下文。虽然它推荐了具体的投资组合(40% 投资于 S&P 500,30% 投资于债券),但它还解释了推荐背后的理由:“偿还高利债务就像是获得一个保证的投资回报。”这种上下文意识延伸到了长期规划,建议定期审查周期,并根据变化的情况调整策略。

然而,这种信息的丰富性也暴露出一个潜在的弱点:可能会因一次性提供过多的细节而让用户感到不知所措。虽然从技术上讲,它非常全面,但快速传递的具体分配、投资策略和监控计划,可能对金融新手来说显得有些令人生畏。

Google

总体来说,Google 的 Gemini 代理创建平台在美学上脱颖而出,拥有一个精致、直观的界面,使得代理创建过程几乎显得过于简单。系统对指令的字面解读有助于避免混淆,其简洁的用户界面也消除了人工智能开发中的压迫感。

然而,要从中获得优质结果,它需要更详细的提示。它不会理所当然地处理事物:简短的提示会给出低质量的回应。

五大AI平台对比:谁能成为你的财务顾问?


在后台,它拥有强大的功能——Google 支持的网页搜索集成、代码分析和图像处理能力,堪比 ChatGPT 的功能,但大多数依赖于微软的技术。

Gemini 的用户界面感觉像是由真正理解用户体验的人设计的。界面通过清晰的标签引导用户,一切信息都能在一个屏幕上显示。

五大AI平台对比:谁能成为你的财务顾问?


这种精致的方式使其特别吸引新手用户,尽管有经验的用户可能会觉得它缺乏更细致的控制。

我们将我们的代理命名为 MoneyGem,并要求它提供一份财务计划。它的咨询式方法展示了 Google 独特的问题解决方法。它没有直接给出答案,而是先提问了诸如“这是什么类型的债务?”和“你的利率是多少?”等问题——显示出它理解财务建议并非千篇一律。

它在提供建议之前强调收集背景信息,这与专业的财务规划实践一致,尽管这可能会让寻求快速答案的用户感到沮丧。

五大AI平台对比:谁能成为你的财务顾问?


A zero-shot回答并不有用。代理基本上表示它不了解用户,无法提供好的财务建议。在要求它做出假设并迫使它提供适合大多数场景的计划后,代理生成了一份非常保守的计划草案,但没有提供具体的投资建议。

然而,MoneyGem 最后给出了一个建议,即最大化税收优惠账户,如 401(k) 或 Roth IRA,以减少税收负担。不错。

你可以点击这里查看我们与 MoneyGem 的互动,并通过点击这个链接亲自试用该模型。

Mistral AI

Mistral 的代理配置过程有点复杂,远离了简易性。代理创建工具隐藏在其开发者控制台中,具有深度自定义选项,可能会让新手感到困惑,但却会让喜欢折腾的用户感到高兴。

其代理构建界面并不是 LeChat(聊天界面)的一部分,但一旦代理创建完成,它会出现在那里。

五大AI平台对比:谁能成为你的财务顾问?


我们非常喜欢的一点是,能够通过示例输入来塑造代理的行为和响应风格,这是目前其他平台没有提供的功能。不过,这里有一个奇怪的bug:在创建代理时,UI 突然切换到了法语,可能是因为公司是法国的。无论如何,我们无法切换回英语或西班牙语。

一旦代理创建完成,用户必须在正常的聊天界面中调用它才能使用。用户需要退出 Le Plateforme,进入 Le Chat,这并不是最直观的操作。不过,使用代理的 UI 相当直接,感觉就像其他 AI 聊天机器人一样。

五大AI平台对比:谁能成为你的财务顾问?


我们创建了我们的代理,并将其命名为 Le Money,以致敬 Mistral 的法国根基。其表现清晰地展示了 Mistral 在问题解决上的通用方法。它建议“将 10,000 美元留作应急资金,15,000 美元用于偿还债务,10,000 美元用于投资”,看似直白,但也表明该代理缺乏一些基本的数学验证。

35,000 美元的总额超出了可用资金 10,000 美元,这是一个基本错误,某些语言模型在优先考虑概念正确性而非数值准确性时可能会出现这样的错误。

然而,我们必须指出,表现最好的 LLM 已经有了很大改进,不会频繁出现这样的错误——至少没有像 Mistral 那样频繁。

五大AI平台对比:谁能成为你的财务顾问?


除此之外,Le Money 的计划并不非常详细,但它是唯一一个提供后续问题的代理,这些问题可以使互动更加流畅,并帮助它更好地理解用户的需求。

LeMoney 的完整计划可以在这里查看,代理可以在这里进行测试。

Anthropic

五大AI平台对比:谁能成为你的财务顾问?


Claude 的项目感觉不像是一个代理创建平台,更像是一个复杂的任务执行系统。界面简约,几乎过于简约,且不太直观。

这种极简主义的界面可能会让一些用户感到困惑。平台提供了一个基本的设置,并有一个“可选”的指令字段,感觉既不重要又至关重要:如果指令被标记为可选,那么 AI 代理如何知道它应该做什么?

其极简主义的界面感觉有些奇怪,但 Anthropic 一直以来并不以其 UI 设计闻名。配置模型的同一个窗口也是用来向其发出提示的。其功能主要集中在文本代码解读上,除此之外没有其他功能。网络搜索、图像处理和生成是 Anthropic 留给竞争对手的高级功能。

我们的代理,命名为 MoneyClaude,无法公开测试,因为 Anthropic 不允许。它在提供财务建议时采取了非常保守的立场,虽然回应在技术上是准确的,但内容却非常模糊——例如,“在减少债务和必要储蓄之间保持平衡”等。

五大AI平台对比:谁能成为你的财务顾问?


它请求了更多的信息,但至少在没有这些信息的情况下,提供了一个非常通用的策略,而无需进一步交互,这似乎比 Google 的方法更为理想。

Hugging Face

五大AI平台对比:谁能成为你的财务顾问?


这个开源平台独树一帜,是高级用户的天堂——也是初学者的潜在噩梦。它是唯一允许用户选择自己喜欢的语言模型的平台,提供前所未有的控制权来定义代理的基础。

此外,用户可以集成数十种不同的工具到他们的代理中,但每次只能同时激活三个。这一限制迫使用户仔细考虑每个特定用例最重要的功能,但这是其他任何模型无法提供的。

它是所有界面中最具可定制性的体验,拥有许多可调节的设置。结果是,这个平台可以创建比竞争对手更强大、更专业的代理,但只有在完全了解操作的人手中才会成功。

用户可以在 HuggingChat 上尝试他们的代理——无疑是高级用户的梦想。一旦创建了代理,使用起来非常简单。界面展示了一个包含代理名称、描述和照片的大卡片。它还允许用户分享代理的链接并调整其设置,所有这些都可以在卡片上直接完成。

五大AI平台对比:谁能成为你的财务顾问?


将我们的 HuggingMoney 代理投入测试后,我们发现它处理时间框架的方式展现了对财务规划心理学的更深入理解。它将规划分为“短期(0-24个月)、中期(24-60个月)和长期(超过60个月)”,这与专业的财务规划实践相符。

代理建议将“$0-$5,000 投资于流动性强、低风险的工具”,同时保持每月“$1,000-$1,500”的积极债务支付。这一建议乍一看,显示了对现金流管理的细致理解。

五大AI平台对比:谁能成为你的财务顾问?


另一个有趣的特点是,它将实用工具与理论建议相结合。除了建议 50/30/20 法则外,还推荐了具体的预算应用程序,并强调了税收优化——在高层战略和日常执行之间架起了一座桥梁。主要缺点?它在没有寻求确认的情况下对债务利率做出了假设。

为了提供有用的建议,它过于轻率地假设了许多事情。这个问题,即无论如何都想提供回应的冲动,可以通过更精准的提示来解决,但这是需要注意的。

鲜花

握手

雷人

路过

鸡蛋

关注我们:东远物联

抖音

微信咨询

咨询电话:

199-2833-9866

D-Think | 广州东远智能科技有限公司

地址:广州市白云区北太路1633号广州民营科技园科创中心2栋16楼

电话:+86 020-87227952 Email:iot@D-Think.cn

Copyright  ©2020  东远科技  粤ICP备2024254589号

免责申明:部分图文表述来自于网络,如有侵权请联系作者删除!