【OpenAI发布全能大模型:文图音任意组合输出 可实现人类级别响应】具体的是什么情况呢,跟随小编一起来看看!
5月14日凌晨,OpenAI发布最新多模态大模型 GPT-4o。GPT-4o的“o”代表“omni”,意为全能,与现有模型相比,它在视觉和音频理解方面尤其出色。GPT-4o可以在音频、视觉和文本中进行实时推理,接受文本、音频和图像的任何组合作为输入,并生成文本、音频和图像的任何组合进行输出。它可以最短在232毫秒内响应音频输入,平均为320毫秒,这与人类在对话中的响应时间相似。(澎湃新闻)
以上就是关于【OpenAI发布全能大模型:文图音任意组合输出 可实现人类级别响应】相关内容!
免责声明:本文由用户上传,如有侵权请联系删除!