阿里更新Qwen-Image-2.0，中文AI生图终于不再“鬼画符”

作者: admin 分类: 评论分析发布时间: 2026-02-10 21:37

今年春节注定不平凡，大模型圈子也在筹备春晚，各大厂商纷纷在年底丢“王炸”。

先是前几天字节的Seedance2.0火遍海内外，以至于紧急叫停了上传真人作为参考的功能。

这事主要是知名博主影视飓风的Tim发现，上传自己真人照片之后，配音居然也是自己的。

或者在提示词中，要求使用Tim的配音，那么别人的照片也行，天知道字节用了多少Tim的视频去做训练。

所以目前真人参考生成这块是暂停支持了，听说会在2月底重新开放，但审核门槛肯定会有变化的。

比如跟Sora2一样，需要拍摄真人视频进行活体验证后，才能使用该真人去生成视频。

从行业健康发展来说，这是一件好事，要是谁都能拿别人的照片去胡乱生成视频，还能以假乱真，那还得了。

好吧，大概的就扯到这，今天是来介绍阿里扔出来的新王炸，可能没那么炸裂，因为是生图模型。

阿里千问Qwen的生图和编辑模型之前就受到过很大的关注，但国产的生图模型，向来无法解决中文渲染生成问题。

随便你挑一个模型，生成的中文要么错别字、要么乱码、要么扭曲，总之中国人自己都搞不定自己的文字生成图片。

反倒是谷歌的NanoBanana对于中文的渲染很好，一直被大家所称赞，那这次阿里发布Qwen-image-2.0，主打就是中文渲染。

Qwen-image-2.0模型具备以下能力特点：

1.更专业的文字渲染

支持1k token长指令，可直接生成专业级信息图（如PPT、海报、漫画等）。

文字渲染具备五大特性：

准：精准还原复杂排版与多语言文字（如中英混合、古诗词、瘦金体等）。

多：支持超长提示词，生成内容细节丰富（如测试报告、双语旅游海报）。

美：文字与图像自然融合，布局疏密有致（如水墨画题词、电影海报）。

真：模拟不同介质（玻璃白板、衣物、杂志）的材质光影，增强真实感。

齐：自动对齐多段落文字（如日历、漫画、图表）。

2.更细腻的真实质感

支持2K分辨率（2048×2048），细腻刻画人物肤质、自然景观、建筑纹理等写实场景。

3.更强的语义遵循

理解与生成一体化，支持“文生图”和“图生图”编辑功能，无需切换模型。

编辑能力提升：包括图片题词、多图合成、跨次元融合等复杂操作。

整个模型只有7B参数规模，在保证质量的同时提升生成速度。

跑分图老马就不给大家放了，现在的模型跑分就跟电脑娱乐大师跑分一样。分数看起来很牛，脚踏这个赶超那个，实际一用很拉垮。

既然Qwen-image-2.0是AI生图模型，下面老马就从文生图和图生图两个方向入手，给大家实际操作演示一下生图的效果。

差点忘了，目前Qwen-image-2.0可以通过更新到最新版的千问APP，在AI生图里面进行体验，如图：

另外一种就是电脑浏览器访问：https://chat.qwen.ai，登录账号后，在对话框点击“+”号，使用生成图像进行创作，如图：

阿里的云百炼平台也上线了API接口的邀请测试，有需要调用接口去测试的小伙伴可以去上面找找，不过阿里的魔搭社区目前没看到上线。

Qwen-image-2.0据江湖传闻也是一个开源的模型，不过可能得到春节后才会放出来，这意味着你可以本地部署玩玩，还能等大佬们出微调后的模型。

文生图

这次官方放出来的一些测试用例中，Qwen-image-2.0在PPT生成方面还可以，尤其是那种文字特别多，中英混杂的情况。

因此，PPT、中文字体生成、英文字体生成、漫画、手账卡片、信息图、海报、人物形象等都来测一遍看看。

下面演示的顺序分别是生成的效果，以及提示词，部分提示词是超长的，这也能充分体现Qwen-image-2.0支持1k token长指令的特点。

这张图片展示了一份名为 Agile Development Report 敏捷开发项目汇报 的信息图表，内容分为左、中、右三栏。左侧栏标题为 Agile Overview 敏捷概览。第一个板块标题是 Delivery Efficiency 交付效率，中间以大号绿色字体显示 +28 Story Points/Sprint，下方括号内注明 (+28 故事点 / 迭代)，底部文字为 基于燃尽图模型 (Based on Burndown Chart Model)。第二个板块标题是 Iteration ROI 迭代投入产出，中间显示大号绿色数字 1:5.2，底部文字为 迭代人力成本 ¥86,000 (Sprint Labor Cost ¥86,000)。第三个板块标题是 Sprint Health Score 迭代健康度评分，中间展示了一个绿色进度条图标，右侧数字为 4.8/5，底部文字为 通过全流程灰度验收 (Verified via Full-process Gray Acceptance)。第四个板块标题是 Next Sprint Plan 下一迭代计划，正文第一行为粗体的 Sprint23 全量交付 + 风险指标监控，第二行为 Sprint23 Full Delivery + Monitor Risk Metrics: Defect Rate, Delay Risk。中间栏标题为 Agile Workflow 敏捷全流程，各模块间通过黑色箭头表示流程关系。左上方的方框标题为 Project Objective 项目目标，内容是 提升迭代交付速率 (Boost Iteration Delivery Speed)。箭头指向右上方的方框 Sprint Planning 迭代规划 (Backlog vs Sprint)，其中包含两个看板界面示意图，左侧灰色图下标为 Original: Waterfall Mode，右侧带有绿色和蓝色块的敏捷看板图下标为 New: Agile Scrum。第二行左侧方框标题为 Task Breakdown 任务拆解，内容显示 User Story: 36 个 和 Sub-task: 112 个。右侧方框标题为 Resource Allocation 资源配置，内容显示 14 天迭代 (14 Days Sprint), n=12 人 / 团队 (Per Team)。第三行左侧方框标题为 Core Metric Tracking 核心指标追踪，下方有燃尽图、柱状图和盾牌三个图标，分别对应标签 Delivery Rate，Completion Rate，Defect Escape Rate。右侧方框标题为 Quality Check 质量校验，内容为 p<0.05, 95% Confidence Level, Effect Size=0.35 (Medium Effect)。第四行左侧方框标题为 Result Review 结果复盘，左侧列出了带有颜色圆点的条目：空心圆点 交付周期，实心绿点 需求完成率，空心圆点 线上缺陷率，右侧有一个绿色箭头指向文字 Winner 最优方案 (Significant Efficiency Improvement)。流程图最终指向右下角的方框 Release Recommendation 发布建议，内有一个绿色对勾图标，文字为 Full Launch 全量上线 (Roll out to 100% Production)。右侧栏标题为 Project Value 项目价值，是一个三行两列的数据表。表头跨列标题为 Mode 模式，分为深蓝色背景的 Waterfall 瀑布模式 和绿色背景的 Agile 敏捷模式。表格第一行左侧标签为 Delivery Cycle 交付周期，Waterfall 数据为 42 天，Agile 数据为 14 天，中间有一个带 -66.7% 的绿色向下箭头指向右侧，Agile 下方还有文字 p=0.001 ★ (Highly Significant)。表格第二行左侧标签为 Requirement Completion Rate 需求完成率，Waterfall 数据为 68.3%，Agile 数据为 89.5%，中间有一个带 +31.0% 的绿色箭头指向右侧，下方文字为 Δ=21.2pp (Percentage Points)。表格第三行左侧标签为 Online Defect Rate 线上缺陷率，Waterfall 数据为 8.7%，Agile 数据为 3.2%，中间有一个绿色向下箭头，下方文字为 -5.5pp p=0.015 (Significant)。

以上生成的PPT图片是中英混合的，说实话提示词挺复杂，涉及到了一些排版的需求，但最终效果还过得去，没有中文文字扭曲的情况出现。不过老马还是抽过一次卡的，第一次生成发现有些地方中文丢失。

中国古典水墨长卷风格，竖幅构图，画面自上而下、自右向左以行楷题写柳永《春江花月夜》全文：“春江潮水连海平，海上明月共潮生。\n 滟滟随波千万里，何处春江无月明。\n 江流宛转绕芳甸，月照花林皆似霰。\n 空里流霜不觉飞，汀上白沙看不见。\n 江天一色无纤尘，皎皎空中孤月轮。\n 江畔何人初见月？江月何年初照人？\n 人生代代无穷已，江月年年只相似。\n 不知江月待何人，但见长江送流水。\n 白云一片去悠悠，青枫浦上不胜愁。\n 谁家今夜扁舟子？何处相思明月楼？\n 可怜楼上月徘徊，应照离人妆镜台。\n 玉户帘中卷不去，捣衣砧上拂还来。\n 此时相望不相闻，愿逐月华流照君。\n 鸿雁长飞光不度，鱼龙潜跃水成文。\n 昨夜闲潭梦落花，可怜春半不还家。\n 江水流春去欲尽，江潭落月复西斜。\n 斜月沉沉藏海雾，碣石潇湘无限路。\n 不知乘月几人归，落月摇情满江树。”书法墨色浓淡相宜，飞白自然，笔锋遒劲中见婉转，行气连贯如流水；字迹略带微洇，仿宣纸渗透效果。背景为极简留白水墨意境：右下角绘一叶孤舟泊于浅滩，舟头微翘，缆绳轻系枯柳；左侧远景以淡墨晕染出层叠低垂的暮霭与空阔楚天，天际线处一抹青灰远山若隐若现；近景岸边斜出三两枝细柳，枝条纤柔，叶已疏落，承袭清秋萧瑟之气；柳梢悬一弯将隐未隐的残月，清冷微光映照薄雾中拂面的晓风痕迹（以几缕轻扬的柳丝与水纹示意）。整幅画气息沉郁隽永，哀而不伤，严格遵循宋词意境与传统文人画“诗书画一体”范式，无印章、无题跋、无现代元素。

这张使用行楷书写的《春节花月夜》图，老马使用自己的提示词时，死活生成不了，没办法用了官方案例的提示词修改了一下，总算是生成了。

但小问题还是有的，一是标点符号有点乱，二是支持的中文字体不多，行楷可以，换成行书就开始乱码了。

A wide-angle smartphone photograph of a modern glass whiteboard mounted on a wall inside a bright, airy office room with floor-to-ceiling windows overlooking the Great Wall of China winding across misty mountain ridges at golden hour — warm sunlight casts soft reflections and long shadows across the scene.Centered in the frame, a woman in her late 20s wearing a relaxed-fit white t-shirt prominently featuring a sleek "seedance2.0" logo in gradient blue typography is writing on the board with a fine-tip magnetic stylus.Her handwriting is natural, slightly imperfect, and expressive — with visible pressure variation, subtle smudges, and organic line weight — conveying authentic human authorship.In the lower-left corner of the glass surface, the photographer's faint but unmistakable reflection appears: blurred outline of a person holding a phone at arm's length, capturing the moment.On the left side of the whiteboard, clean, legible handwritten text appears in dark gray marker with exceptional stroke fidelity:'seedance2.0 Core Innovations:• Dynamic Motion Generation Engine: 2K-token motion instruction support for short videos, live streaming visuals & dynamic infographics — frame-perfect motion-text fusion, sophisticated dynamic scene composition, and complete rendering of high-volume motion content• Extreme Dynamic Realism: Native 4K resolution (3840×2160) at 30fps with microscopic detail on motion trajectories, fabric dynamic folds, natural scene fluidity & character action details• Unified Motion-Gen Omni Model: Video generation + motion editing in one model — full-stack multimodal motion understanding and generation capabilities seamlessly integrated• Lightweight High Efficiency: 4K dynamic visual generation in seconds — optimal balance between dynamic visual fidelity and real-time inference speed'On the right side of the whiteboard, vertically aligned technical notes in crisp marker:'Why It Matters:→ One model delivers hyper-realistic dynamic visuals AND frame-perfect motion-text rendering simultaneously→ One model powers both text-to-video generation AND precise motion editing without pipeline switching→ One model unifies deep multimodal motion understanding AND high-fidelity dynamic generation in a single lightweight architecture'In the bottom-right corner, a hand-drawn schematic in precise strokes:'[Multimodal Motion Encoder] → [Lightweight Diffusion Motion Decoder] → dynamic frames (4K@30fps)'— arrows flow with perspective depth, boxes feature soft shading, resolution & frame rate specs annotated in fine print.The glass surface exhibits realistic optical properties.Background includes minimalist wooden shelving with design magazines open to full-bleed infographics — one prominently displays a crisp cover reading "seedance" in bold modern typography — and a potted fiddle-leaf fig with individually rendered leaf veins partially visible out-of-focus.

这个也是基于官方用例改成的Seedance2.0模型介绍，手写在透明的黑板上，英文渲染的效果就不用说了，完全没毛病。

一个6x6格漫画，一共6行，每行6格。每一格之间有清晰的白色分割线，整体为**国风经典西游记漫画风格**，线条流畅工整，色彩古朴典雅，人物严格遵循《西游记》经典形象：唐僧身披锦襕袈裟、头戴僧帽，孙悟空黄毛金箍、手持金箍棒，猪八戒大耳长鼻、扛九齿钉耙，沙僧络腮胡、持降妖宝杖，场景为西游古风山路、妖化雷音寺、佛堂大殿，画面叙事连贯、细节饱满。第一排，从左到右依次为第一格：师徒四人牵着白龙马走在崇山峻岭的西行路上，远山云雾缭绕，唐僧勒马远望，面露欣喜。对话框：“前方山峦祥瑞，想必是快到灵山圣地了！”悟空抓耳挠腮，手搭凉棚眺望，眉头微皱。第二格：悟空纵身跳上云端俯瞰，只见山间藏着一座仿如灵山的寺院，妖气缭绕，悟空瞬间神色警惕，暗忖：“不好！此山妖气弥漫，绝非真雷音，是妖物作祟！”第三格：山路尽头出现一座气派寺院，山门上赫然写着“小雷音寺”四个金字，飞檐翘角仿如佛门圣地，唐僧双手合十，满眼虔诚。八戒、沙僧紧随其后，面露敬畏。第四格：唐僧指着牌匾激动行礼，对话框：“雷音寺在前，我等终得见佛祖！”悟空急忙上前阻拦，大喊：“师父！此乃假雷音，万万不可入内！”第五格：八戒撇嘴埋怨悟空，扛着钉耙嘟囔：“猴哥又胡言，明明是灵山雷音，扫了师父的兴！”沙僧也面露疑惑，站在唐僧身侧。第六格：唐僧执意不听劝阻，迈步走向寺门，语气坚定：“佛门圣地岂有虚假，悟空休得胡言，随我进寺参拜！”悟空无奈紧随，满脸戒备。第二排，从左到右依次为第一格：师徒踏入小雷音寺大殿，殿内端坐无数假罗汉、假金刚，庄严肃穆，正中莲台坐着一尊金光闪闪的假佛祖，气势唬人。第二格：唐僧、八戒、沙僧一见“佛祖”，立刻跪地磕头参拜，神情无比恭敬，唐僧默念佛经，虔诚叩首。第三格：悟空一眼识破假佛祖真身，火眼金睛金光乍现，大喝一声：“妖物休得伪装！竟敢假扮佛祖欺瞒我师！”第四格：悟空抡起金箍棒，纵身直扑莲台上的假佛祖，怒喝：“吃俺老孙一棒！”殿内假罗汉瞬间面露凶相，蠢蠢欲动。第五格：莲台上的黄眉老怪瞬间褪去佛祖伪装，现出妖身，手持短软狼牙棒，大笑：“孙悟空！你果然眼尖，今日定要将你师徒拿下！”第六格：殿内假罗汉、假金刚全部化作妖魔，手持兵器将师徒四人团团围住，黄眉老怪立于阵前，气焰嚣张。第三排，从左到右依次为第一格：黄眉老怪祭出金铙，金光一闪，直接将悟空罩在金铙之中，悟空在铙内拳打脚踢，金铙纹丝不动。第二格：唐僧、八戒、沙僧被妖魔擒住，捆绑在殿柱上，唐僧焦急大喊：“悟空！悟空何在！”八戒沙僧奋力挣扎，却无法挣脱。第三格：悟空在金铙内使出浑身解数，金箍棒撑、法术攻，金铙依旧紧闭，暗忖：“这妖物法宝厉害，我困在此处难脱身！”第四格：护法揭谛、六丁六甲暗中现身，围着金铙试图撬动，却毫无效果，众神面露焦急。第五格：护法揭谛驾云前往天庭求救，天庭众神听闻悟空被困，即刻点兵，准备前往小雷音寺相助。第六格：亢金龙奉玉帝旨意赶到，化作细龙，龙角钻进金铙缝隙，咬牙发力，将金铙顶开一道裂口。第四排，从左到右依次为第一格：悟空顺着裂口化作金光从金铙中脱出，身形一闪重回大殿，手持金箍棒怒视黄眉老怪：“妖物！俺老孙出来了！”第二格：悟空与黄眉老怪大战数十回合，金箍棒对狼牙棒，殿内沙石飞扬，妖魔与众神混战一团。第三格：黄眉老怪祭出人种袋，金光暴涨，将前来相助的天庭众神、八戒、沙僧尽数收进袋中，只剩悟空孤身一人。第四格：悟空见同伴被收，怒不可遏，抡棒猛攻，黄眉老怪再次挥动人种袋，悟空机敏纵身躲开。第五格：悟空见硬攻不敌，一个筋斗云跳出小雷音寺，落在山间，抓耳挠腮，愁思破敌之法。第六格：悟空端坐云端掐指一算，忽然眼前一亮，暗喜：“此妖乃弥勒佛麾下黄眉童儿，唯有东来佛祖能收服他！”第五排，从左到右依次为第一格：悟空驾筋斗云找到弥勒佛，躬身行礼，哭诉小雷音寺遭遇，弥勒佛抚须微笑，已有定计。第二格：弥勒佛与悟空一同来到小雷音寺山外，弥勒佛施法，将山间菜地化作瓜田，自己变作一位朴实瓜农。第三格：悟空变作一个熟透的大西瓜，藏在瓜田之中，弥勒佛坐在田边，静待黄眉老怪前来。第四格：黄眉老怪追出寺外，见瓜田口渴难耐，走到瓜农前，指着悟空变的西瓜：“老农，摘这个西瓜与我解渴！”第五格：黄眉老怪接过西瓜一口吞下，悟空在其腹内拳打脚踢，黄眉老怪腹痛倒地，满地打滚哀嚎。第六格：弥勒佛现出真身，伸手一指，人种袋、金铙自动飞回手中，黄眉老怪跪地求饶，被弥勒佛收服。第六排，从左到右依次为第一格：弥勒佛打开人种袋，放出唐僧、八戒、沙僧与众神，唐僧跪地向弥勒佛叩拜谢恩。第二格：小雷音寺瞬间崩塌，化作一片瓦砾，妖气散尽，山间重归清净，唐僧看着废墟，满脸愧色。第三格：唐僧向悟空致歉，对话框：“悟空，为师错怪你了，若非你识破妖计，我等早已遭难！”悟空挠头憨笑：“师父知错就好，西行本就多魔难！”第四格：八戒扛起钉耙，沙僧牵来白龙马，师徒四人整理行装，准备继续西行。第五格：师徒四人站在山间，向云端的弥勒佛挥手辞别，弥勒佛驾云离去，佛光普照。第六格：远景镜头，师徒四人牵着白龙马，踏上西行之路，背影渐行渐远，远方灵山隐约可见，天边祥云环绕，寓意西行路远、初心不改。

这是一张6×6的漫画，漫画除了画面多，文字也是比较多的。第一次生成效果还可以，就是文字漏掉了一些。于是第二次生成，发现格数不对了，但文字没太大问题。

帮我生成一张拼贴手帐风格的广州旅游笔记，上面记录着自己的行程以及路上的照片等，文字有中文、韩语和英语。

有一说一，三种语言的手账卡片生成，居然都没崩，当然中文文字数量少了一些，但整体画面美感都还不错。

请生成一张儿童识字小报《游乐园》，竖版 A4，学习小报版式，适合 5–9 岁孩子 认字与看图识物。 一、小报标题区（顶部） 顶部居中大标题：《游乐园识字小报》 风格：十字小报 / 儿童学习报感 文本要求：大字、醒目、卡通手写体、彩色描边 装饰：周围添加与 游乐园 相关的贴纸风装饰，颜色鲜艳 二、小报主体（中间主画面） 画面中心是一幅 卡通插画风的「游乐园」场景： 整体气氛：明亮、温暖、积极 构图：物体边界清晰，方便对应文字，不要过于拥挤。 场景分区与核心内容 核心区域 A（主要对象）：表现 游乐园 的核心活动（孩子们在玩游乐设施）。 核心区域 B（配套设施）：展示相关的工具或物品（售票、零食、指示设施）。 核心区域 C（环境背景）：体现环境特征（入口、路牌、彩旗、绿地等）。 主题人物 角色：1 位可爱卡通人物（身份：游乐园工作人员/游客小朋友皆可）。 动作：正在进行与场景相关的自然互动（如微笑指路、挥手欢迎、陪孩子玩）。 三、必画物体与识字清单（Generated Content） 请务必在画面中清晰绘制以下物体，并为其预留贴标签的位置： 1. 核心角色与设施： gōng zuò rén yuán 工作人员 shòu piào chù 售票处 guò shān chē 过山车 mó tiān lún 摩天轮 xuán zhuǎn mǎ 旋转木马 2. 常见物品/工具： piào 票 qì qiú 气球 bīng jī líng 冰淇淋 bào mǐ huā 爆米花 táng hú lu 糖葫芦 miàn jù 面具 wán jù 玩具 xiǎo qí zi 小旗子 3. 环境与装饰： rù kǒu 入口 chū kǒu 出口 zhǐ shì pái 指示牌 cǎi qí 彩旗 guǎng chǎng 广场 (注意：画面中的物体数量不限于此，但以上列表必须作为重点描绘对象；总计 18 个典型名词，适合 5–9 岁儿童识字。) 四、识字标注规则 对上述清单中的物体，贴上中文识字标签： 格式：两行制（第一行拼音带声调，第二行简体汉字）。 样式：彩色小贴纸风格，白底黑字或深色字，清晰可读。 排版：标签靠近对应的物体，不遮挡主体。 五、画风参数 风格：儿童绘本风 + 识字小报风 色彩：高饱和、明快、温暖 (High Saturation, Warm Tone) 质量：8k resolution, high detail, vector illustration style, clean lines.

海报的生成，老马没有选择生成电商类的，而是选择这样一种卡通识字小报的形式，中文文字多一些，画面元素也更丰富。当然，电影海报可以有。

一张虚构的东方武侠史诗海报《剑影红颜》（Sword & Beauty）。场景设置在一个云雾缭绕的古老山巅亭阁中。画面中央，陈坤（Chen Kun）身着飘逸的墨色长袍，长发束起，眼神深邃，手中握着一把未出鞘的古剑，剑柄上镶嵌着玉石，他正凝视前方。在他的左侧，周迅（Zhou Xun）身穿刺绣精美的绯红色古装，高耸的发髻上插着金步摇，她侧身回眸，眼神中带着一丝哀愁和决绝，手中拿着一管玉箫。桌上放着一壶清酒、两个酒杯和一卷竹简。背景是连绵不绝的水墨山水和一轮巨大的红日。最右侧的石灯笼里燃着烛火。左上角"博纳影业 出品"，下方"徐克导演作品"。右上角"金马奖 最佳动作设计"。顶部中央是奥斯卡金像奖标志，下方"ACADEMY AWARD® NOMINEE BEST INTERNATIONAL FEATURE"。主标题"剑影红颜"以苍劲有力的书法字体显示。标题下方注明"江湖之远，不敌你眉间朱砂"。底部列出"武术指导 袁和平"、"服装设计 叶锦添"。整体风格是唯美主义的东方奇幻，采用柔和的自然光和云雾效果，营造出仙气、悲壮和浪漫的氛围。色调以青绿、墨色和朱红为主。

生成一张信息图，高细节黑板粉笔手绘风格信息图，粗糙的石墨纹理，生动的粉笔线条和涂鸦插画，文本内容以白色和彩色粉笔字迹书写在黑板中央，模块化排版，8K分辨率，大师级杰作。唯一文本内容: 2026年2月10日AI领域重要动态大模型发布  • 微软发布Phi-4.5，支持多模态推理  • 面壁智能开源CPM-Bee 3.5，代码生成能力提升  • 昆仑万维天工AI搜索4.0上线，增强实时检索  技术突破  • 谷歌提出EfficientViT-LLM，视觉语言模型效率提升  • 斯坦福大学NeuroCache优化长序列处理  • 北大脑机接口实现高精度运动信号识别  产业合作  • 英伟达与沙特阿美共建AI能源实验室  • 蚂蚁集团与印尼央行合作数字支付风控  • 华为与中科院联合成立智能计算中心  应用落地  • 国家电网部署AI巡检系统，覆盖特高压线路  • 北京协和医院上线AI辅助诊断平台  • 深圳启用首条AI物流干线，吞吐量提升  政策治理 • 工信部发布AI安全评估指南，聚焦大模型风险  • 欧盟通过AI责任指令，明确事故赔偿规则  • 美国更新芯片出口限制，涉及先进制程设备 --ar 9:16

可以看到，信息图90%的中文文字渲染是OK的，极个别的文字还是出现了乱码的情况。不知道是不是2K分辨率的问题，4K会不会好一点。但目前体验只能生成2K，这个问题NanoBanana也会出现。

{"meta": {标题：英雄戏剧工作室肖像，“角色”：“世界级摄影师，专长于编辑人像摄影”，“美学”：“戏剧性、饱和的影棚灯光，营造出一种英雄气概”  },"约束": {"identity_anchor": {“来源”：“附图”“严格性”: “关键”，“说明”：“完美保留面部特征、肤色、发型和自然容貌，不做任何改变。”    },"clothing_anchor": {“来源”：“与参考照片完全一致”，“严格性”: “关键”，“说明”：“款式、颜色、材质和版型必须与原版完全一致，不得进行任何风格化改动。”    }  },"subject_details": {“表情”：“严肃、紧张、专注”“凝视”：“目光远离镜头，投向上方的空间”，“通用性”：“照明和角度适用于任何性别”  },“作品”： {“背景”：“饱和的纯橙红色背景，平滑强烈的渐变，没有图案，营造出‘热烈’的氛围”，"camera_angle": "低角度（从下往上拍摄）以营造支配感",“构图”：“中近景，重点突出面部和肩膀”  },“灯光”： {“调色板”：“以明亮的橙色和深红色为主色调”，"key_light": "强烈的定向光源，深邃的戏剧性阴影（明暗对比），强调面部结构"“背光”： “强烈的、富有表现力的轮廓光或彩色光晕，将主体与背景分隔开来”，“氛围”：神秘、紧张、对比强烈  },"technical_specs": {风格：照片写实主义，高细节“焦点”：“面部清晰对焦，背景平滑渐变”，"texture_quality": "保留自然毛孔和肌肤纹理"  },"combined_prompt_text": "世界级编辑肖像，戏剧化的影棚灯光，英雄气概。[保留参考照片身份]：面部特征、肤色、发型完全一致。[服装完全匹配]：合身度和材质均无任何改动。表情：严肃、紧张、专注，目光向上并看向远方。背景：饱和度高的纯橙红色，平滑强烈的渐变，营造出热烈的氛围。拍摄角度：从下方低角度拍摄，突出主体。构图：中近景。灯光：明亮的橙色和深红色调，强烈的明暗对比主光，强烈的轮廓光将主体与背景分离。技术：照片级真实感，细节丰富，面部清晰对焦，皮肤纹理和毛孔自然。"}

人像生成细腻了一些，光影效果不错，皮肤纹理跟毛孔等细节也处理到位了。

图生图

图生图的话，咱们主要看看图片的编辑能力，比如上传一张人像图，生成九宫格的组合图，这个也可以用于生成人物的三视图，道理是一样的，原图：

生成后的九宫格姿势组图：

根据我上传的图片，生成一个九宫格带不同拍照姿势的组图

又或者把上面的男人跟女人两张图，合并在一起生成一张合影图。

根据我上传的两张人物图，生成两个人物一起合影的照片，真实自然实拍效果

跨次元的合成也来一张，意思就是把卡通人物放到真实世界的场景中。比如把老马的卡通形象，放在广州塔的实拍照片中，效果如图。

使用图一的城市照片作为底图。请勿更改照片中的真实建筑、街道、车辆或人物。保持照片的真实性。图二的卡通形象正抱着小蛮腰建筑的腰部位置往上爬。该形象应采用扁平化的图形风格绘制，轮廓清晰，类似于壁画或海报插图。

Qwen-image-2.0其它的图片编辑能力其实都可以不用再测了，因为之前的Qwen-image-Edit模型就挺强的，这块动动嘴改改图片上的元素，换换风格，难度不大。

只是整体体验下来，Qwen-image-2.0并没有给老马很惊艳的感受。不像Seedance2.0这样的视频生成模型，玩了一天根本停不下来，一直没文化地直呼卧槽。

但有进步总比原地踏步要好，Qwen-image-2.0至少在中文渲染方向迈出了一步，虽然没有达到完美的境界，更无法平替或超越NanoBanana，继续卷，还是有机会的。

好了，以上就是今天的分享，欢迎关注、点赞、转发一键三连。有任何问题和需求，请在评论区留言，回见！

对了，老马最近刚创建了一个AI学习交流群，有兴趣进群的小伙伴可以添加老马微信号：immajiabin，添加好友时备注：进群。

AI生图 Qwen-Image-2.0 千问老板高管学AI

如果觉得我的文章对您有用，请随意赞赏。您的支持将鼓励我继续创作！

马佳彬

阿里更新Qwen-Image-2.0，中文AI生图终于不再“鬼画符”

发表回复取消回复

阿里更新Qwen-Image-2.0，中文AI生图终于不再“鬼画符”

发表回复 取消回复

发表回复取消回复