阿里更新Qwen-Image-2.0,中文AI生图终于不再“鬼画符”
今年春节注定不平凡,大模型圈子也在筹备春晚,各大厂商纷纷在年底丢“王炸”。
先是前几天字节的Seedance2.0火遍海内外,以至于紧急叫停了上传真人作为参考的功能。
这事主要是知名博主影视飓风的Tim发现,上传自己真人照片之后,配音居然也是自己的。
或者在提示词中,要求使用Tim的配音,那么别人的照片也行,天知道字节用了多少Tim的视频去做训练。
所以目前真人参考生成这块是暂停支持了,听说会在2月底重新开放,但审核门槛肯定会有变化的。
比如跟Sora2一样,需要拍摄真人视频进行活体验证后,才能使用该真人去生成视频。
从行业健康发展来说,这是一件好事,要是谁都能拿别人的照片去胡乱生成视频,还能以假乱真,那还得了。
好吧,大概的就扯到这,今天是来介绍阿里扔出来的新王炸,可能没那么炸裂,因为是生图模型。
阿里千问Qwen的生图和编辑模型之前就受到过很大的关注,但国产的生图模型,向来无法解决中文渲染生成问题。
随便你挑一个模型,生成的中文要么错别字、要么乱码、要么扭曲,总之中国人自己都搞不定自己的文字生成图片。
反倒是谷歌的NanoBanana对于中文的渲染很好,一直被大家所称赞,那这次阿里发布Qwen-image-2.0,主打就是中文渲染。
Qwen-image-2.0模型具备以下能力特点:
1.更专业的文字渲染
支持1k token长指令,可直接生成专业级信息图(如PPT、海报、漫画等)。
文字渲染具备五大特性:
准:精准还原复杂排版与多语言文字(如中英混合、古诗词、瘦金体等)。
多:支持超长提示词,生成内容细节丰富(如测试报告、双语旅游海报)。
美:文字与图像自然融合,布局疏密有致(如水墨画题词、电影海报)。
真:模拟不同介质(玻璃白板、衣物、杂志)的材质光影,增强真实感。
齐:自动对齐多段落文字(如日历、漫画、图表)。
2.更细腻的真实质感
支持2K分辨率(2048×2048),细腻刻画人物肤质、自然景观、建筑纹理等写实场景。
3.更强的语义遵循
理解与生成一体化,支持“文生图”和“图生图”编辑功能,无需切换模型。
编辑能力提升:包括图片题词、多图合成、跨次元融合等复杂操作。
整个模型只有7B参数规模,在保证质量的同时提升生成速度。
跑分图老马就不给大家放了,现在的模型跑分就跟电脑娱乐大师跑分一样。分数看起来很牛,脚踏这个赶超那个,实际一用很拉垮。
既然Qwen-image-2.0是AI生图模型,下面老马就从文生图和图生图两个方向入手,给大家实际操作演示一下生图的效果。
差点忘了,目前Qwen-image-2.0可以通过更新到最新版的千问APP,在AI生图里面进行体验,如图:
另外一种就是电脑浏览器访问:https://chat.qwen.ai,登录账号后,在对话框点击“+”号,使用生成图像进行创作,如图:
阿里的云百炼平台也上线了API接口的邀请测试,有需要调用接口去测试的小伙伴可以去上面找找,不过阿里的魔搭社区目前没看到上线。
Qwen-image-2.0据江湖传闻也是一个开源的模型,不过可能得到春节后才会放出来,这意味着你可以本地部署玩玩,还能等大佬们出微调后的模型。
文生图
这次官方放出来的一些测试用例中,Qwen-image-2.0在PPT生成方面还可以,尤其是那种文字特别多,中英混杂的情况。
因此,PPT、中文字体生成、英文字体生成、漫画、手账卡片、信息图、海报、人物形象等都来测一遍看看。
下面演示的顺序分别是生成的效果,以及提示词,部分提示词是超长的,这也能充分体现Qwen-image-2.0支持1k token长指令的特点。
这张图片展示了一份名为 Agile Development Report 敏捷开发项目汇报 的信息图表,内容分为左、中、右三栏。左侧栏标题为 Agile Overview 敏捷概览。第一个板块标题是 Delivery Efficiency 交付效率,中间以大号绿色字体显示 +28 Story Points/Sprint,下方括号内注明 (+28 故事点 / 迭代),底部文字为 基于燃尽图模型 (Based on Burndown Chart Model)。第二个板块标题是 Iteration ROI 迭代投入产出,中间显示大号绿色数字 1:5.2,底部文字为 迭代人力成本 ¥86,000 (Sprint Labor Cost ¥86,000)。第三个板块标题是 Sprint Health Score 迭代健康度评分,中间展示了一个绿色进度条图标,右侧数字为 4.8/5,底部文字为 通过全流程灰度验收 (Verified via Full-process Gray Acceptance)。第四个板块标题是 Next Sprint Plan 下一迭代计划,正文第一行为粗体的 Sprint23 全量交付 + 风险指标监控,第二行为 Sprint23 Full Delivery + Monitor Risk Metrics: Defect Rate, Delay Risk。中间栏标题为 Agile Workflow 敏捷全流程,各模块间通过黑色箭头表示流程关系。左上方的方框标题为 Project Objective 项目目标,内容是 提升迭代交付速率 (Boost Iteration Delivery Speed)。箭头指向右上方的方框 Sprint Planning 迭代规划 (Backlog vs Sprint),其中包含两个看板界面示意图,左侧灰色图下标为 Original: Waterfall Mode,右侧带有绿色和蓝色块的敏捷看板图下标为 New: Agile Scrum。第二行左侧方框标题为 Task Breakdown 任务拆解,内容显示 User Story: 36 个 和 Sub-task: 112 个。右侧方框标题为 Resource Allocation 资源配置,内容显示 14 天迭代 (14 Days Sprint), n=12 人 / 团队 (Per Team)。第三行左侧方框标题为 Core Metric Tracking 核心指标追踪,下方有燃尽图、柱状图和盾牌三个图标,分别对应标签 Delivery Rate,Completion Rate,Defect Escape Rate。右侧方框标题为 Quality Check 质量校验,内容为 p<0.05, 95% Confidence Level, Effect Size=0.35 (Medium Effect)。第四行左侧方框标题为 Result Review 结果复盘,左侧列出了带有颜色圆点的条目:空心圆点 交付周期,实心绿点 需求完成率,空心圆点 线上缺陷率,右侧有一个绿色箭头指向文字 Winner 最优方案 (Significant Efficiency Improvement)。流程图最终指向右下角的方框 Release Recommendation 发布建议,内有一个绿色对勾图标,文字为 Full Launch 全量上线 (Roll out to 100% Production)。右侧栏标题为 Project Value 项目价值,是一个三行两列的数据表。表头跨列标题为 Mode 模式,分为深蓝色背景的 Waterfall 瀑布模式 和绿色背景的 Agile 敏捷模式。表格第一行左侧标签为 Delivery Cycle 交付周期,Waterfall 数据为 42 天,Agile 数据为 14 天,中间有一个带 -66.7% 的绿色向下箭头指向右侧,Agile 下方还有文字 p=0.001 ★ (Highly Significant)。表格第二行左侧标签为 Requirement Completion Rate 需求完成率,Waterfall 数据为 68.3%,Agile 数据为 89.5%,中间有一个带 +31.0% 的绿色箭头指向右侧,下方文字为 Δ=21.2pp (Percentage Points)。表格第三行左侧标签为 Online Defect Rate 线上缺陷率,Waterfall 数据为 8.7%,Agile 数据为 3.2%,中间有一个绿色向下箭头,下方文字为 -5.5pp p=0.015 (Significant)。
以上生成的PPT图片是中英混合的,说实话提示词挺复杂,涉及到了一些排版的需求,但最终效果还过得去,没有中文文字扭曲的情况出现。不过老马还是抽过一次卡的,第一次生成发现有些地方中文丢失。
中国古典水墨长卷风格,竖幅构图,画面自上而下、自右向左以行楷题写柳永《春江花月夜》全文:“春江潮水连海平,海上明月共潮生。\n 滟滟随波千万里,何处春江无月明。\n 江流宛转绕芳甸,月照花林皆似霰。\n 空里流霜不觉飞,汀上白沙看不见。\n 江天一色无纤尘,皎皎空中孤月轮。\n 江畔何人初见月?江月何年初照人?\n 人生代代无穷已,江月年年只相似。\n 不知江月待何人,但见长江送流水。\n 白云一片去悠悠,青枫浦上不胜愁。\n 谁家今夜扁舟子?何处相思明月楼?\n 可怜楼上月徘徊,应照离人妆镜台。\n 玉户帘中卷不去,捣衣砧上拂还来。\n 此时相望不相闻,愿逐月华流照君。\n 鸿雁长飞光不度,鱼龙潜跃水成文。\n 昨夜闲潭梦落花,可怜春半不还家。\n 江水流春去欲尽,江潭落月复西斜。\n 斜月沉沉藏海雾,碣石潇湘无限路。\n 不知乘月几人归,落月摇情满江树。”书法墨色浓淡相宜,飞白自然,笔锋遒劲中见婉转,行气连贯如流水;字迹略带微洇,仿宣纸渗透效果。背景为极简留白水墨意境:右下角绘一叶孤舟泊于浅滩,舟头微翘,缆绳轻系枯柳;左侧远景以淡墨晕染出层叠低垂的暮霭与空阔楚天,天际线处一抹青灰远山若隐若现;近景岸边斜出三两枝细柳,枝条纤柔,叶已疏落,承袭清秋萧瑟之气;柳梢悬一弯将隐未隐的残月,清冷微光映照薄雾中拂面的晓风痕迹(以几缕轻扬的柳丝与水纹示意)。整幅画气息沉郁隽永,哀而不伤,严格遵循宋词意境与传统文人画“诗书画一体”范式,无印章、无题跋、无现代元素。
这张使用行楷书写的《春节花月夜》图,老马使用自己的提示词时,死活生成不了,没办法用了官方案例的提示词修改了一下,总算是生成了。
但小问题还是有的,一是标点符号有点乱,二是支持的中文字体不多,行楷可以,换成行书就开始乱码了。
A wide-angle smartphone photograph of a modern glass whiteboard mounted on a wall inside a bright, airy office room with floor-to-ceiling windows overlooking the Great Wall of China winding across misty mountain ridges at golden hour — warm sunlight casts soft reflections and long shadows across the scene.Centered in the frame, a woman in her late 20s wearing a relaxed-fit white t-shirt prominently featuring a sleek "seedance2.0" logo in gradient blue typography is writing on the board with a fine-tip magnetic stylus.Her handwriting is natural, slightly imperfect, and expressive — with visible pressure variation, subtle smudges, and organic line weight — conveying authentic human authorship.In the lower-left corner of the glass surface, the photographer's faint but unmistakable reflection appears: blurred outline of a person holding a phone at arm's length, capturing the moment.On the left side of the whiteboard, clean, legible handwritten text appears in dark gray marker with exceptional stroke fidelity:'seedance2.0 Core Innovations:• Dynamic Motion Generation Engine: 2K-token motion instruction support for short videos, live streaming visuals & dynamic infographics — frame-perfect motion-text fusion, sophisticated dynamic scene composition, and complete rendering of high-volume motion content• Extreme Dynamic Realism: Native 4K resolution (3840×2160) at 30fps with microscopic detail on motion trajectories, fabric dynamic folds, natural scene fluidity & character action details• Unified Motion-Gen Omni Model: Video generation + motion editing in one model — full-stack multimodal motion understanding and generation capabilities seamlessly integrated• Lightweight High Efficiency: 4K dynamic visual generation in seconds — optimal balance between dynamic visual fidelity and real-time inference speed'On the right side of the whiteboard, vertically aligned technical notes in crisp marker:'Why It Matters:→ One model delivers hyper-realistic dynamic visuals AND frame-perfect motion-text rendering simultaneously→ One model powers both text-to-video generation AND precise motion editing without pipeline switching→ One model unifies deep multimodal motion understanding AND high-fidelity dynamic generation in a single lightweight architecture'In the bottom-right corner, a hand-drawn schematic in precise strokes:'[Multimodal Motion Encoder] → [Lightweight Diffusion Motion Decoder] → dynamic frames (4K@30fps)'— arrows flow with perspective depth, boxes feature soft shading, resolution & frame rate specs annotated in fine print.The glass surface exhibits realistic optical properties.Background includes minimalist wooden shelving with design magazines open to full-bleed infographics — one prominently displays a crisp cover reading "seedance" in bold modern typography — and a potted fiddle-leaf fig with individually rendered leaf veins partially visible out-of-focus.
这个也是基于官方用例改成的Seedance2.0模型介绍,手写在透明的黑板上,英文渲染的效果就不用说了,完全没毛病。
一个6x6格漫画,一共6行,每行6格。每一格之间有清晰的白色分割线,整体为**国风经典西游记漫画风格**,线条流畅工整,色彩古朴典雅,人物严格遵循《西游记》经典形象:唐僧身披锦襕袈裟、头戴僧帽,孙悟空黄毛金箍、手持金箍棒,猪八戒大耳长鼻、扛九齿钉耙,沙僧络腮胡、持降妖宝杖,场景为西游古风山路、妖化雷音寺、佛堂大殿,画面叙事连贯、细节饱满。第一排,从左到右依次为第一格:师徒四人牵着白龙马走在崇山峻岭的西行路上,远山云雾缭绕,唐僧勒马远望,面露欣喜。对话框:“前方山峦祥瑞,想必是快到灵山圣地了!”悟空抓耳挠腮,手搭凉棚眺望,眉头微皱。第二格:悟空纵身跳上云端俯瞰,只见山间藏着一座仿如灵山的寺院,妖气缭绕,悟空瞬间神色警惕,暗忖:“不好!此山妖气弥漫,绝非真雷音,是妖物作祟!”第三格:山路尽头出现一座气派寺院,山门上赫然写着“小雷音寺”四个金字,飞檐翘角仿如佛门圣地,唐僧双手合十,满眼虔诚。八戒、沙僧紧随其后,面露敬畏。第四格:唐僧指着牌匾激动行礼,对话框:“雷音寺在前,我等终得见佛祖!”悟空急忙上前阻拦,大喊:“师父!此乃假雷音,万万不可入内!”第五格:八戒撇嘴埋怨悟空,扛着钉耙嘟囔:“猴哥又胡言,明明是灵山雷音,扫了师父的兴!”沙僧也面露疑惑,站在唐僧身侧。第六格:唐僧执意不听劝阻,迈步走向寺门,语气坚定:“佛门圣地岂有虚假,悟空休得胡言,随我进寺参拜!”悟空无奈紧随,满脸戒备。第二排,从左到右依次为第一格:师徒踏入小雷音寺大殿,殿内端坐无数假罗汉、假金刚,庄严肃穆,正中莲台坐着一尊金光闪闪的假佛祖,气势唬人。第二格:唐僧、八戒、沙僧一见“佛祖”,立刻跪地磕头参拜,神情无比恭敬,唐僧默念佛经,虔诚叩首。第三格:悟空一眼识破假佛祖真身,火眼金睛金光乍现,大喝一声:“妖物休得伪装!竟敢假扮佛祖欺瞒我师!”第四格:悟空抡起金箍棒,纵身直扑莲台上的假佛祖,怒喝:“吃俺老孙一棒!”殿内假罗汉瞬间面露凶相,蠢蠢欲动。第五格:莲台上的黄眉老怪瞬间褪去佛祖伪装,现出妖身,手持短软狼牙棒,大笑:“孙悟空!你果然眼尖,今日定要将你师徒拿下!”第六格:殿内假罗汉、假金刚全部化作妖魔,手持兵器将师徒四人团团围住,黄眉老怪立于阵前,气焰嚣张。第三排,从左到右依次为第一格:黄眉老怪祭出金铙,金光一闪,直接将悟空罩在金铙之中,悟空在铙内拳打脚踢,金铙纹丝不动。第二格:唐僧、八戒、沙僧被妖魔擒住,捆绑在殿柱上,唐僧焦急大喊:“悟空!悟空何在!”八戒沙僧奋力挣扎,却无法挣脱。第三格:悟空在金铙内使出浑身解数,金箍棒撑、法术攻,金铙依旧紧闭,暗忖:“这妖物法宝厉害,我困在此处难脱身!”第四格:护法揭谛、六丁六甲暗中现身,围着金铙试图撬动,却毫无效果,众神面露焦急。第五格:护法揭谛驾云前往天庭求救,天庭众神听闻悟空被困,即刻点兵,准备前往小雷音寺相助。第六格:亢金龙奉玉帝旨意赶到,化作细龙,龙角钻进金铙缝隙,咬牙发力,将金铙顶开一道裂口。第四排,从左到右依次为第一格:悟空顺着裂口化作金光从金铙中脱出,身形一闪重回大殿,手持金箍棒怒视黄眉老怪:“妖物!俺老孙出来了!”第二格:悟空与黄眉老怪大战数十回合,金箍棒对狼牙棒,殿内沙石飞扬,妖魔与众神混战一团。第三格:黄眉老怪祭出人种袋,金光暴涨,将前来相助的天庭众神、八戒、沙僧尽数收进袋中,只剩悟空孤身一人。第四格:悟空见同伴被收,怒不可遏,抡棒猛攻,黄眉老怪再次挥动人种袋,悟空机敏纵身躲开。第五格:悟空见硬攻不敌,一个筋斗云跳出小雷音寺,落在山间,抓耳挠腮,愁思破敌之法。第六格:悟空端坐云端掐指一算,忽然眼前一亮,暗喜:“此妖乃弥勒佛麾下黄眉童儿,唯有东来佛祖能收服他!”第五排,从左到右依次为第一格:悟空驾筋斗云找到弥勒佛,躬身行礼,哭诉小雷音寺遭遇,弥勒佛抚须微笑,已有定计。第二格:弥勒佛与悟空一同来到小雷音寺山外,弥勒佛施法,将山间菜地化作瓜田,自己变作一位朴实瓜农。第三格:悟空变作一个熟透的大西瓜,藏在瓜田之中,弥勒佛坐在田边,静待黄眉老怪前来。第四格:黄眉老怪追出寺外,见瓜田口渴难耐,走到瓜农前,指着悟空变的西瓜:“老农,摘这个西瓜与我解渴!”第五格:黄眉老怪接过西瓜一口吞下,悟空在其腹内拳打脚踢,黄眉老怪腹痛倒地,满地打滚哀嚎。第六格:弥勒佛现出真身,伸手一指,人种袋、金铙自动飞回手中,黄眉老怪跪地求饶,被弥勒佛收服。第六排,从左到右依次为第一格:弥勒佛打开人种袋,放出唐僧、八戒、沙僧与众神,唐僧跪地向弥勒佛叩拜谢恩。第二格:小雷音寺瞬间崩塌,化作一片瓦砾,妖气散尽,山间重归清净,唐僧看着废墟,满脸愧色。第三格:唐僧向悟空致歉,对话框:“悟空,为师错怪你了,若非你识破妖计,我等早已遭难!”悟空挠头憨笑:“师父知错就好,西行本就多魔难!”第四格:八戒扛起钉耙,沙僧牵来白龙马,师徒四人整理行装,准备继续西行。第五格:师徒四人站在山间,向云端的弥勒佛挥手辞别,弥勒佛驾云离去,佛光普照。第六格:远景镜头,师徒四人牵着白龙马,踏上西行之路,背影渐行渐远,远方灵山隐约可见,天边祥云环绕,寓意西行路远、初心不改。
这是一张6×6的漫画,漫画除了画面多,文字也是比较多的。第一次生成效果还可以,就是文字漏掉了一些。于是第二次生成,发现格数不对了,但文字没太大问题。
帮我生成一张拼贴手帐风格的广州旅游笔记,上面记录着自己的行程以及路上的照片等,文字有中文、韩语和英语。
有一说一,三种语言的手账卡片生成,居然都没崩,当然中文文字数量少了一些,但整体画面美感都还不错。
请生成一张儿童识字小报《游乐园》,竖版 A4,学习小报版式,适合 5–9 岁孩子 认字与看图识物。 一、小报标题区(顶部) 顶部居中大标题:《游乐园识字小报》 风格:十字小报 / 儿童学习报感 文本要求:大字、醒目、卡通手写体、彩色描边 装饰:周围添加与 游乐园 相关的贴纸风装饰,颜色鲜艳 二、小报主体(中间主画面) 画面中心是一幅 卡通插画风的「游乐园」场景: 整体气氛:明亮、温暖、积极 构图:物体边界清晰,方便对应文字,不要过于拥挤。 场景分区与核心内容 核心区域 A(主要对象):表现 游乐园 的核心活动(孩子们在玩游乐设施)。 核心区域 B(配套设施):展示相关的工具或物品(售票、零食、指示设施)。 核心区域 C(环境背景):体现环境特征(入口、路牌、彩旗、绿地等)。 主题人物 角色:1 位可爱卡通人物(身份:游乐园工作人员/游客小朋友皆可)。 动作:正在进行与场景相关的自然互动(如微笑指路、挥手欢迎、陪孩子玩)。 三、必画物体与识字清单(Generated Content) 请务必在画面中清晰绘制以下物体,并为其预留贴标签的位置: 1. 核心角色与设施: gōng zuò rén yuán 工作人员 shòu piào chù 售票处 guò shān chē 过山车 mó tiān lún 摩天轮 xuán zhuǎn mǎ 旋转木马 2. 常见物品/工具: piào 票 qì qiú 气球 bīng jī líng 冰淇淋 bào mǐ huā 爆米花 táng hú lu 糖葫芦 miàn jù 面具 wán jù 玩具 xiǎo qí zi 小旗子 3. 环境与装饰: rù kǒu 入口 chū kǒu 出口 zhǐ shì pái 指示牌 cǎi qí 彩旗 guǎng chǎng 广场 (注意:画面中的物体数量不限于此,但以上列表必须作为重点描绘对象;总计 18 个典型名词,适合 5–9 岁儿童识字。) 四、识字标注规则 对上述清单中的物体,贴上中文识字标签: 格式:两行制(第一行拼音带声调,第二行简体汉字)。 样式:彩色小贴纸风格,白底黑字或深色字,清晰可读。 排版:标签靠近对应的物体,不遮挡主体。 五、画风参数 风格:儿童绘本风 + 识字小报风 色彩:高饱和、明快、温暖 (High Saturation, Warm Tone) 质量:8k resolution, high detail, vector illustration style, clean lines.
海报的生成,老马没有选择生成电商类的,而是选择这样一种卡通识字小报的形式,中文文字多一些,画面元素也更丰富。当然,电影海报可以有。
一张虚构的东方武侠史诗海报《剑影红颜》(Sword & Beauty)。场景设置在一个云雾缭绕的古老山巅亭阁中。画面中央,陈坤(Chen Kun)身着飘逸的墨色长袍,长发束起,眼神深邃,手中握着一把未出鞘的古剑,剑柄上镶嵌着玉石,他正凝视前方。在他的左侧,周迅(Zhou Xun)身穿刺绣精美的绯红色古装,高耸的发髻上插着金步摇,她侧身回眸,眼神中带着一丝哀愁和决绝,手中拿着一管玉箫。桌上放着一壶清酒、两个酒杯和一卷竹简。背景是连绵不绝的水墨山水和一轮巨大的红日。最右侧的石灯笼里燃着烛火。左上角"博纳影业 出品",下方"徐克导演作品"。右上角"金马奖 最佳动作设计"。顶部中央是奥斯卡金像奖标志,下方"ACADEMY AWARD® NOMINEE BEST INTERNATIONAL FEATURE"。主标题"剑影红颜"以苍劲有力的书法字体显示。标题下方注明"江湖之远,不敌你眉间朱砂"。底部列出"武术指导 袁和平"、"服装设计 叶锦添"。整体风格是唯美主义的东方奇幻,采用柔和的自然光和云雾效果,营造出仙气、悲壮和浪漫的氛围。色调以青绿、墨色和朱红为主。
生成一张信息图,高细节黑板粉笔手绘风格信息图,粗糙的石墨纹理,生动的粉笔线条和涂鸦插画,文本内容以白色和彩色粉笔字迹书写在黑板中央,模块化排版,8K分辨率,大师级杰作。唯一文本内容: 2026年2月10日AI领域重要动态大模型发布 • 微软发布Phi-4.5,支持多模态推理 • 面壁智能开源CPM-Bee 3.5,代码生成能力提升 • 昆仑万维天工AI搜索4.0上线,增强实时检索 技术突破 • 谷歌提出EfficientViT-LLM,视觉语言模型效率提升 • 斯坦福大学NeuroCache优化长序列处理 • 北大脑机接口实现高精度运动信号识别 产业合作 • 英伟达与沙特阿美共建AI能源实验室 • 蚂蚁集团与印尼央行合作数字支付风控 • 华为与中科院联合成立智能计算中心 应用落地 • 国家电网部署AI巡检系统,覆盖特高压线路 • 北京协和医院上线AI辅助诊断平台 • 深圳启用首条AI物流干线,吞吐量提升 政策治理 • 工信部发布AI安全评估指南,聚焦大模型风险 • 欧盟通过AI责任指令,明确事故赔偿规则 • 美国更新芯片出口限制,涉及先进制程设备 --ar 9:16
可以看到,信息图90%的中文文字渲染是OK的,极个别的文字还是出现了乱码的情况。不知道是不是2K分辨率的问题,4K会不会好一点。但目前体验只能生成2K,这个问题NanoBanana也会出现。
{"meta": {标题:英雄戏剧工作室肖像,“角色”:“世界级摄影师,专长于编辑人像摄影”,“美学”:“戏剧性、饱和的影棚灯光,营造出一种英雄气概” },"约束": {"identity_anchor": {“来源”:“附图”“严格性”: “关键”,“说明”:“完美保留面部特征、肤色、发型和自然容貌,不做任何改变。” },"clothing_anchor": {“来源”:“与参考照片完全一致”,“严格性”: “关键”,“说明”:“款式、颜色、材质和版型必须与原版完全一致,不得进行任何风格化改动。” } },"subject_details": {“表情”:“严肃、紧张、专注”“凝视”:“目光远离镜头,投向上方的空间”,“通用性”:“照明和角度适用于任何性别” },“作品”: {“背景”:“饱和的纯橙红色背景,平滑强烈的渐变,没有图案,营造出‘热烈’的氛围”,"camera_angle": "低角度(从下往上拍摄)以营造支配感",“构图”:“中近景,重点突出面部和肩膀” },“灯光”: {“调色板”:“以明亮的橙色和深红色为主色调”,"key_light": "强烈的定向光源,深邃的戏剧性阴影(明暗对比),强调面部结构"“背光”: “强烈的、富有表现力的轮廓光或彩色光晕,将主体与背景分隔开来”,“氛围”:神秘、紧张、对比强烈 },"technical_specs": {风格:照片写实主义,高细节“焦点”:“面部清晰对焦,背景平滑渐变”,"texture_quality": "保留自然毛孔和肌肤纹理" },"combined_prompt_text": "世界级编辑肖像,戏剧化的影棚灯光,英雄气概。[保留参考照片身份]:面部特征、肤色、发型完全一致。[服装完全匹配]:合身度和材质均无任何改动。表情:严肃、紧张、专注,目光向上并看向远方。背景:饱和度高的纯橙红色,平滑强烈的渐变,营造出热烈的氛围。拍摄角度:从下方低角度拍摄,突出主体。构图:中近景。灯光:明亮的橙色和深红色调,强烈的明暗对比主光,强烈的轮廓光将主体与背景分离。技术:照片级真实感,细节丰富,面部清晰对焦,皮肤纹理和毛孔自然。"}
人像生成细腻了一些,光影效果不错,皮肤纹理跟毛孔等细节也处理到位了。
图生图
图生图的话,咱们主要看看图片的编辑能力,比如上传一张人像图,生成九宫格的组合图,这个也可以用于生成人物的三视图,道理是一样的,原图:
生成后的九宫格姿势组图:
根据我上传的图片,生成一个九宫格带不同拍照姿势的组图
又或者把上面的男人跟女人两张图,合并在一起生成一张合影图。
根据我上传的两张人物图,生成两个人物一起合影的照片,真实自然实拍效果
跨次元的合成也来一张,意思就是把卡通人物放到真实世界的场景中。比如把老马的卡通形象,放在广州塔的实拍照片中,效果如图。
使用图一的城市照片作为底图。请勿更改照片中的真实建筑、街道、车辆或人物。保持照片的真实性。图二的卡通形象正抱着小蛮腰建筑的腰部位置往上爬。该形象应采用扁平化的图形风格绘制,轮廓清晰,类似于壁画或海报插图。
Qwen-image-2.0其它的图片编辑能力其实都可以不用再测了,因为之前的Qwen-image-Edit模型就挺强的,这块动动嘴改改图片上的元素,换换风格,难度不大。
只是整体体验下来,Qwen-image-2.0并没有给老马很惊艳的感受。不像Seedance2.0这样的视频生成模型,玩了一天根本停不下来,一直没文化地直呼卧槽。
但有进步总比原地踏步要好,Qwen-image-2.0至少在中文渲染方向迈出了一步,虽然没有达到完美的境界,更无法平替或超越NanoBanana,继续卷,还是有机会的。
好了,以上就是今天的分享,欢迎关注、点赞、转发一键三连。有任何问题和需求,请在评论区留言,回见!
对了,老马最近刚创建了一个AI学习交流群,有兴趣进群的小伙伴可以添加老马微信号:immajiabin,添加好友时备注:进群。


