商业媒体也认为聊天机器人有很多潜在的好处,为了实现聊天机器人的潜力,市场上已有大量的资金投入到聊天机器人公司。聊天机器人必须要成功地被开发才能发挥出其最大潜力,但是有许多公开的聊天机器人失败案例可能会限制机器人的发展。有效的测试可以减少聊天机器人的故障。我们在本文中比较了7个聊天机器人测试框架,包括综合聊天机器人测试方法、聊天机器人测试软件和聊天机器人测试服务。
有哪些重要的聊天机器人测试理念?
测试标准
大多数测试方法缺乏标准化,因为很难量化测试用例所涵盖的对话频率,尤其是在机器人启动之前。目标应该是全面覆盖最可能出现的情况。例如,Chatbottest是一个开源项目,它提供了一个数据库120个问题来测试聊天机器人和用户体验。
他们提出的概念符合高斯分布的性质。测试机制大致分为三类。预期的场景、可能的场景和几乎不可能的场景。这种情景测试结构可以映射到sigma距离。
根据以往经验,在对几乎不可能的3-西格玛距离场景进行测试后,可以观察到聊天机器人在99%置信区间内的性能。由于人类使用语言的方式有无限多种,进一步测试的成本将会很高。
测试涵盖的范围
Chatbottest为测试提供了7个大类
- 个性:聊天机器人是否有匹配用户个性及当前对话主题的清晰声音/语调?
- 用户引导:用户是否理解聊天机器人的功能?如何开始就与机器人互动?
- 理解:请求、闲聊、习语、表情符号……聊天机器人能理解哪些内容?
- 回复:聊天机器人发送什么类型内容,回复得有多合理?与上下文相关吗?
- 导航:和聊天机器人对话是否容易进行?与聊天机器人交谈时,你是否有不知所措的感觉?
- 错误管理:聊天机器人处理所有可能发生的错误的能力如何?能从错误中恢复过来吗?
- 智能:聊天机器人有智能吗?能记住东西吗?能像人那样使用和管理上下文语境?
将这些理念付诸实践的聊天机器人测试框架有哪些?
Framework/software | Source code | Contributors on Github | Last commit on Github | Notes |
---|---|---|---|---|
Botium.at | Open | 13 | 21/Dec/2020 | Chatbot test automation |
chatbottest.com | Open | 3 | 8/Oct/2018 | Set of questions to standardize chatbot testing |
dimon.co | Propriatery | Chatbot test automation. Dimon has integration with major platforms such as Slack, Facebook Messenger, Telegram, and WeChat | ||
qbox.ai | Propriatery | NLP training data optimization | ||
Zypnos.com | Propriatery | Regression testing for chatbots |
聊天机器人测试的局限性是什么?
需要持续的投入以确保测试保持最新
虽然标准化测试至关重要,但它们需要与机器人的发展保持动态一致。例如,如果我们为特定的表达创建一个测试,测试内容是处理客户向客服代理提出的查询请求,那么我们需要确保在我们的聊天机器人应对其他语言时需要准备其他语言的类似测试。
这是一个普遍的现象。古德哈特定律指出,一旦一项社会或经济措施成为政策的目标,它就会失去最初使它有资格发挥这一作用的任何信息内容。因此,保持测试过程尽可能的动态性,可以使整个测试过程更有意义,并且可以减少聊天机器人的脆弱性。
测试会产生一种错误的安全感
正如上面所解释的,静态测试随着时间的推移会失去其相关性,但是大量的测试,不管它们是否是最新的,都会产生一种安全感。然而,正如科技行业的领导者所深知的那样,只有偏执狂才能生存。
查看我们以前的文章,了解更多关于聊天机器人的信息:
- 聊天机器人通用指南
- 用于测量聊天机器人性能的客观指标,以便您可以测量测试结果
- 聊天机器人成功的案例。我们建议阅读它,因为成功的案例很少,而且可以通过研究来了解聊天机器人成功的驱动因素
- 专注于a/b测试的聊天机器人测试指南
您在寻找人工智能解决方案吗?如果是的话,请告诉我们。我们可以为您的企业找到最好的人工智能合作伙伴。