一图6种风格：腾讯混元大模型新增“文生图”功能，涵盖梵高风和日漫风

时间：2024-05-07 20:06:30 来源：网络整理编辑：知识

核心提示

北京时间10月26日，神州十七号发射圆满成功，神州十六号和神州十七号航天员乘组顺利会师太空，这意味着中国载人航天工程再次进入新的阶段。正是在同一日，腾讯混元大模型也迎来全新升级，其“文生图”功能正式对

北京时间10月26日，文生图神州十七号发射圆满成功，图种腾讯神州十六号和神州十七号航天员乘组顺利会师太空，风格这意味着中国载人航天工程再次进入新的混元和日阶段。正是大模在同一日，腾讯混元大模型也迎来全新升级，型新其“文生图”功能正式对外开放。增功

因此，盖梵高风在实际体验该功能时，漫风笔者选择以航天为主题，文生图先用该模型生成了两张火箭发射和宇航员的图种腾讯图片。

接着，风格笔者又输入了“在月亮面前站着一位宇航员”的混元和日提示词，分别生成了六种不同风格的大模图片。

在日漫动画风的型新图片中，浩瀚的宇宙广袤无垠，数不清的星子散发出璀璨的光芒，皎洁的月光既洒在了地球上，也洒在了宇航员的身上，整体风格清新深邃又充满想象力。

在梵高画风的图片中，色彩整体比较明快艳丽，层层叠叠的云朵包裹着月亮，周围有几颗小行星环绕，而穿着明黄色宇航服的宇航员身边，开出了一朵朵黄色的小花。

在赛博朋克风格的图片中，身穿帅酷风格宇航服的宇航员，似是站在城市数座高楼大厦的中央，背后一轮现代简约风格的月亮，散发出寂静幽深的光芒。

在像素插画风格的图片中，身穿白色宇航服的宇航员，似乎和地球、月球、冰山、大海等元素恰到好处地融为了一体，彰显出人与自然和谐相处的画面感。

在扁平插画风格的图片中，宇航员的宇航服由白、红两色合理搭配，月亮则从圆月变成了弯月，还有树木和草丛作为背景映衬，这样的画面稍显模糊和朦胧，但却能更好地引发观者的情怀和记忆。

在马赛克风格的图片中，整个画面由一块块微小的各类元素组装而成，由于元素细节和纹理处理得非常多姿多彩，因此昭示出颇为丰富的内涵，画面的主角宇航员和月球的形象，也充满了复古和神秘感。

新增“文生图”功能：从语义、结构和质感三方面提升生成图质量

从上述生成图和实际体验的过程可以发现，混元大模型的“文生图”功能主要具有以下几方面优势。

首先，可以生成人像、场景和自然景观等多种类型的图片，且生成图的真实感较强；其次，能够生成风格多样、美观大气的图片；同时，混元大模型在中文语义理解方面的能力很强，能够根据输入文本准确地生成想要的图片，甚至可以生成符合古诗词描述的图片。

那么，这些优势的背后，又得益于怎样的技术积淀？

作为一家最早在广告场景下探索AI自动生成图像的公司，腾讯对于文生图能力的促成非常强烈。在开发这项能力时，其面临着两种解决路径，一种是基于业界已有的开源模型做一些业务应用，另一种是自研一套原创的技术方案。

腾讯混元大模型文生图技术负责人芦清林表示：“从腾讯的业务背景来说，我们希望能够拥有比较好的应用自由度，以及对数据安全性的良好把握，所以我们选择从‘0-1’做一套完全自研的解决方案。这样在应用的过程中就能非常灵活，可以调整参数量，做各种各样的改造，安全性和透明性也非常高，输出更加可控。”

具体来说，这套全链路自研技术围绕算法模型、数据工程和系统平台三个方面演进，并有腾讯云强大的算力基础设施作为底层支撑。

从算法模型方面来讲，要打造业界头部的文生图功能，主要难点和挑战在于：对输入文本的语义理解不够精准，生成图片的结构不合理，以及画面的质感和细节不够丰富。

因此，混元大模型首先基于中英文双语进行建模，能够实现双语理解。其次，AI生成人物（例如人体骨架和手部）是影响图片内容合理性的关键，所以混元文生图不仅增强了算法模型的图像二维空间位置感知能力，还将人物中重要的先验信息引入生成过程，致力于在减少畸形率和错误率的同时，实现更为合理的图像结构生成。此外，基于多模型融合的方式，可以提升模型对细节的感知能力与生成效果，实现对花草树木、水面波纹等事物的细节生成。

从数据工程方面来讲，由于大多数图文匹配数据的质量较差，会导致生成图的效果和质量不稳定，因此需要通过工程化的方式，为模型训练、优化和升级提供进一步支撑。对此，研发团队先通过完善中文prompt（即输入到文生图模型的文字）来提升图文相关性，然后将训练数据分层和分级，最后通过自动化构建训练数据，加快模型迭代和效率提升。

从系统平台方面来讲，腾讯针对大模型训练和推理环节，自研了一站式机器学习平台Angel。据介绍，该平台包含AngelPTM和AngelHCF两大训练框架，前者提供高效的分布式训练解决方案，训练速度相较主流开源框架提升1倍，后者具备从蒸馏、微调、压缩到模型加速的完整能力，推理速度相比业界主流框架FasterTransformer提升1.3倍。

为了给大模型提供强大的算力基础设施，腾讯于2023年4月发布了新一代HCC高性能计算集群，采用最新一代星星海自研服务器，具备3.2T超高互联带宽，TB级吞吐能力和千万级IOPS。与此同时，还基于腾讯云AI训练加速引擎TACO Train，提供网络协议、AI框架、模型编译等多层级优化。

代码和数学能力实现较大提升，代码处理效果高出ChatGPT 6%以上

自9月7日混元大模型正式发布以来，其在代码和数学方面的能力迎来较大提升。

代码能力方面的革新主要体现在代码预训练技术和对抗训练技术两个方面，不仅能够帮助大模型从易到难逐渐掌握人类写代码的技术，还能提高模型的泛化性。据悉，在对32种主流语言代码文件、各类计算机书籍和博客进行学习之后，混元大模型的代码处理水平提升超过20%，代码处理效果高出ChatGPT 6%以上。并且，与Codellama等业界头部开源大模型相比，在公开测试集HumanEval上实现了10%至75%的提升。

例如，用户只需输入简单的指令，比如“帮我用前端语言实现一个贪吃蛇”，混元大模型便能快速自动生成可运行的代码，完成贪吃蛇小游戏的制作。将腾讯工蜂Copilot接入混元大模型，实现了根据注释生成对应代码，以及基于上下文智能补全代码的效果。另外，值得一提的是，混元大模型还支持包括Python、C++、Java等在内的多种语言指令生成。

据了解，目前腾讯内部已经有多个开发平台都接入了混元大模型，工程师们正在尝试使用大模型完成代码生成、代码补全、代码漏洞检测和修复、数据库查询等工作。

在数学能力方面，混元大模型也得到了超过15%的提升。该提升是腾讯团队在千亿大语言模型的基础上，对数理知识进行大幅扩充之后得到的。在此，需要说明的是，由于从互联网中公开获取的数据更偏重于文科内容，因此该团队从大量的书籍、论文和数据中获取数理知识，然后对这些底座数据进行优化配比，并关注大模型过程和结果的正确性，从而帮助其实现更强的泛化能力。

超过180个腾讯业务已接入混元大模型，通过API为千行百业客户提供服务

据悉，目前腾讯内部已有超过180个业务接入混元大模型，包括腾讯会议、腾讯文档、企业微信、腾讯广告等产品，涉及教育、金融、传媒等多个行业，覆盖智能问答、客服、内容创作、数据分析、代码助手等多个场景。

例如，基于腾讯会议可感受混元大模型带来的会议控制、会议问答和AI小助手等功能；基于腾讯文档可感受自动文档创作、文档编辑和表格公式生成等功能。在腾讯广告上，混元大模型可基于对广告商品的内容理解，更好地挖掘和打造标签，并通过对人类知识的理解推荐包含广告商品的文章，有利于提升营销效率。

腾讯机器学习平台算法负责人康战辉表示：“因为混元大模型扮演了通用模型的底座定位，所以公司内部所有的应用都会基于混元大模型做智能化的研发。”同时，其也透露，“至于腾讯其他的产品和应用要为用户提供什么能力和服务，会由业务自己做决定”。

在面向腾讯内部业务的同时，混元大模型还将借助API为千行百业的客户提供服务。目前已有来自零售、教育、金融、医疗、传媒、交通、政务等多个行业的客户，通过腾讯云调用混元大模型API。另据悉，在今年9月首批通过备案后，混元大模型还面向C端用户开放，用户只需通过小程序或网页端，就能与大模型直接对话。

除了推出千亿参数规模的主模型，腾讯基于Angel平台打造的7B和13B模型也首次亮相。据了解，这两款中小模型面向垂直领域，中英文效果整体优于国内外开源模型，能够满足各种垂直场景和业务需求。

现如今，大模型领域汇集了各路玩家，既包括大中型企业，又包括小型企业和创业公司，他们在开源和闭源等不同方向均开展了相应的探索。对于腾讯来说，其在发展大模型的过程中，希望能够更多地立足于业务，不仅发展以追求效果为主的大模型，也追求小模型在成本和效益之间的平衡。其会根据业务流量和商业模式不断调整模型底座，以便更好地赋能用户。同时，腾讯也正在不断强化混元大模型在音频、视频等各类模态上的处理能力，相信这些成果会在不远的未来向大众展现。

上一篇：孙红雷曝李冰冰单身下圣旨催婚

下一篇：红粉骷髅是什么意思？

一图6种风格：腾讯混元大模型新增“文生图”功能，涵盖梵高风和日漫风

推荐

热门