-
2024各种NLP任务的模型都表现出刻板印象,而问答(QA)模型中的偏见尤其有害,因为输出的答案可能会被最终用户直接消费。已经有了评估QA模型偏差的数据集,而QA模型的偏差缓解技术仍未得到充分探索。在这项工作中,我们提出了BMBI,一种减轻偏见的方法
-
会话人工智能是人机交互的一个子类型,已经得到了广泛的采用。这些系统通常由大型语言模型(Large Language Models, llm)提供支持,这些模型使用检索增强生成(Retrieval Augmented Generation, RAG)来注入外部知识,这对解决幻觉等问题很有效。然而,用最少的人力来自动评估检索增强对话仍然是一个挑战
-
当用户想要使用语言模型(LM)助手(如ChatGPT)编写故事时,通常很难提供一个明确指定他们所有兴趣的提示。对于LM助手的提供者来说,也很难确保他们的输出故事来自没有版权问题的数据集。由于这些限制,我们提出了一种基于树的从粗到精(C2F)的故事生成
-
2024在面向任务的会话人工智能评估中,无监督方法与人类判断的相关性很差,而有监督方法缺乏泛化。大型语言模型(llm)的最新进展显示了跨NLP任务的强大的零射击和少射击能力。本文探讨了使用llm进行自动对话质量评估,在公共和专有的各种配置上进行了实验
-
2024随着信息检索(IR)、自然语言处理(NLP)和生成式人工智能(AI)的最新进展,数字助理在电子商务应用中无处不在。然而,顾客往往不确定或不知道如何有效地与这些助理交谈,以满足他们的购物需求。在这项工作中,我们强调提供客户的重要性