News

智东西4月13日消息,近日,在OpenAI史上最贵模型GPT-4.5发布1个多月后,OpenAI联合创始人兼CEO萨姆·阿尔特曼(Sam Altman)与GPT-4.5的3位核心技术人员进行了一场45分钟的高信息量对谈,首次披露了这款模型 ...
作为解答,北京大学、中山大学等多家科研机构共同推出GPT-ImgEval,首次系统评估了GPT-4o在图像生成上的真实表现。
GPT-4o的强悍就在于用户可以随便上传一张图片多次修改,可以是AI生成的,也可以是自己拍的。比如,你可以上传一张全身照,把头型换成大波浪,把衣服换成购物车里的裙子看上身效果。它支持在现有的图片上去p图去修改,相当于我们不用学习PS这种具有高壁垒性质 ...
品玩4月14日讯,据月之暗面官方消息,月之暗面现已面向开源社区推出全新的视觉语言模型 Kimi-VL。 Kimi-VL采用了前一段时间发布的轻量级 MoE 模型 ...
遥想2023年3月14日,GPT-4正式发布,席卷全球,在全球掀起滔天巨浪,然后在两年内,引爆了全球AI大模型的寒武纪大爆发。 Perplexity CEO Aravind ...
最近,华为诺亚盘古研究团队联合香港大学推出了 ILLUME+,这款模型是 ILLUME 的升级版本,采用了双重视觉联合词表(DualViTok)和扩散解码器的创新设计,显著提升了语义理解和高保真图像生成能力。与当前现有的统一模型不同,ILLUME + ...
接下来是他在Nous Research的几位出色的队友:认知架构师Max Paperclips、领衔科学家Bloc、多智能体强化学习框架开发者Roger、AI基础设施专家Dmayhem、联创Mephisto、联创Emozilla。 创建图片 ...
随着“万物皆可吉卜力”的趋势兴起,GPT-4o的图像生成能力引起了极大关注。近日,北京大学、中山大学等研究机构联合推出的GPT-ImgEval,首次对GPT-4o的图像生成进行了系统性的评估,揭开了其背后的架构秘密,并探讨了其短板和未来发展。
除了对视觉解码器的分析,研究人员也深入探讨了视觉编码方式。他们指出,一些研究(如UniTok)认为基于向量量化(VQ)的编码器可能会削弱模型的语义理解能力。
备受瞩目的国内人工智能公司 Moonshot AI (月之暗面) 近日宣布,正式开源发布了两款全新的视觉语言模型—— Kimi-VL 与 Kimi-VL-Thinking 。这两款模型以其 轻量级的架构 和 卓越的多模态理解与推理能力 ,在多个关键基准测试中超越了包括 GPT-4o 在内的众多大型模型,引发行业广泛关注。