AI Inside 万事有万心
作者/IT 时报记者孙永会潘少颖
编辑/ 潘少颖孙妍
晨曦中,智能闹钟轻轻响起,新的一天开始了;厨房里,智能冰箱记录着食品的保质期,提醒主人及时消耗食物;办公室里,智能助手协助职场人士处理繁杂的工作;病房里,AI 机器人细心地照顾着病患,减轻医务人员的负担;学校里,智能教育系统为孩子们打开了知识大门。
除了可见,AI 技术还可用、可控。手机内一些熟知的应用也加持了 AI “基因”,既能为用户提供乐子,还能为上班族提供办公工具和点子,让工作增效,也让生活“有料”。
于是乎,这些有“ AI 基因”的 App 成为了我们生活中不可或缺的一部分。它们,不仅仅是一种工具,更是人类与数字世界之间的桥梁。做视频、写文档、玩游戏……希望这些 App 在新的一年中,助你在工作上锦上添花,生活中一路繁花。
大模型类:百模大战,有趣有灵魂
似乎没有哪个领域能离开大模型,更多的领域和大模型“亲密接触”,并且迭代速度不断加快,“硬核能力”不断提升,打造像人一样主动提问、又有“灵魂”的大模型。
文心一言:
信息、知识、灵感一应俱全
文心一言是百度发布的大语言模型,2023 年底,用户规模已突破 1 亿。该模型能够与人对话互动、回答问题、协助创作,高效便捷地帮助用户获取信息、知识和灵感。
近日,文心一言上线了数字分身功能。进入文心一言后,点击左上角的 AI 符号,即可创建“数字分身”。仅需一张照片,并依次填写姓名、声音、性格等信息,用户便可创建自己的数字分身。这个独特的虚拟伙伴,可以理解用户指令、与用户进行对话,并具备用户的个性化特征。
写文案、想点子、唠家常……在对话栏,《IT 时报》记者以“写一句冬天的文案”为要求,几秒内便得到一句较有逻辑和画面感的句子:“冬日里,雪花飘舞,大地银装素裹,一切都显得那么纯净和宁静。让我们在这个洁白的季节里,感受那份独特的宁静与温馨。”
社区专栏亦有智慧,AI 艺术字、AI 全家福、AI 人格测试、AI 画肖像、AI 科学分析姓名等,比如点击“ AI 科学分析姓名”后,出现的信息包括姓氏起源、姓名逐字分析、性格预测等,用户可以了解姓名的“前世今生”。
新展望
当然,文心一言会继续提升其自然语言处理(NLP)能力,包括更准确的语义理解、更丰富的对话生成、更精细的情感分析等。也可能会推出支持语音、图像、视频等多种输入方式的交互功能,让用户可以通过更多元化的方式与文心一言交互。
讯飞星火:
会识图创作 会做数学题
拍了美图想“秒发”一个图文并茂的朋友圈?张嘴就想画出脑海里突发奇想的图画?输入一段文字,一键就能生成声情并茂的短视频?
无论是图像描述、图像问答、识图创作还是文图生成、虚拟人合成,讯飞星火都能“拿捏”住。在经过几次迭代后,其能力也稳步增长,比如相较于 V2.0,V3.0 版主要提升了数学自动提炼规律、小样本学习等技术能力,同时提升落地应用能力。
不久前,科大讯飞发布了讯飞星火认知大模型 V3.5,不仅在数学、语言理解、语音交互能力上有了提升,还在核心技术上有了突破。如在数学问题解决的能力方面,新版具有更高的计算和推理能力,它不仅能够准确理解自然语言的深层含义,还能够根据上下文进行合理的推断和回答。此外,在进行多轮对话时,它还能够更好地保持话题的连贯性。
“星火大模型 3.0 已经整体超越 ChatGPT,医疗领域超越 GPT-4,2024 年上半年,我们将实现对标 GPT-4。”这是科大讯飞董事长刘庆峰定下的一个目标。实际上,讯飞星火 V3.5 已经在多项能力上直接对标 GPT-4,可以预见的是,接下去在更多领域会看到讯飞星火的身影。
剪辑类:AI 新玩法,让创作更多元
简化视频剪辑的流程,释放创造力,实现智能化的视频分析和理解,让创意迅速转化为触手可及的作品,这就是视频剪辑类 App 的作用,用 AI 让每个人都能挥洒创意与情感。
剪映:
AI 功能“全而智”
作为一款视频编辑软件,剪映主打全能好用,可以一键剪辑视频,自由掌控节奏快慢。此外,拥有海量的曲库和抖音独家歌曲,能让视频更加“声”动。在视频编辑和剪辑方面,用户可基于变速、变声、画布等基本视频要素进行编辑;在剪同款方面,用户可以根据卡点、美食、萌娃等模板进行创作;创作学院主要为用户提供脚本构思、拍摄、剪辑、调色和账号运营等方面的课程。
当视频软件和 AI 技术融合,会产生怎样的化学反应?
首页上的一键成片、图文成片、创作脚本、录屏、提词器、美颜、超清画质等要素体现了功能齐全和制作便利,而智慧则在 AI 作图、AI 商品图、AI 特效、智能抠图等功能上。以 AI 作图为例,《IT 时报》记者以“一个山村,有一个老人,在农田,有阳光”为关键词,在极短的时间内呈现出一个带有这些元素的生动画面。当点击“再次生成”时,同一关键词则会呈现出新图案。
火热的“ AI 玩法”存在于“剪同款”功能区,如某一风格的 AI 写真、一键 AI 变回儿时、一键生成 AI 婚纱照等玩法,模板多样,可选择性多。
剪映的多个 AI 功能可圈可点,比如利用 AI 技术对视频进行智能分析,快速识别视频中的精彩片段并剪辑等。2024 年,通过 AI 技术,剪映可能推出更加智能的语音识别功能,自动将视频中的对话转化为字幕,并支持多种语言;也可能会提供智能剪辑建议,根据视频内容,自动推荐适合的剪辑手法、特效和音效。
腾讯智影:
数字人出镜
“大家好,我是腾讯智影推出的数字人小天,很高兴认识大家。”数字人功能是该平台的一大亮点。小天、浩辰、依丹、冰璇四个角色各有“人设”,如浩辰有百余种播报语音,依丹适用于各类场景播报,冰璇则能 24 小时不间断地进行电商直播。登录后可发现,数字人的角色更为丰富,用户选择角色后可定制专属数字人形象,输入文字即可生成视频,在教育培训、知识科普、直播带货和新闻资讯等方面,这些数字人深受欢迎。
文字配音是腾讯智影的又一亮点功能,可直接将文本转化为语音,并提供近百种仿真声线,风格涵盖视频配音、文章播报、新闻播报、有声小说、内容朗诵等。此外,用户还可以选择磁性、甜美、二次元、亲切、温婉等音色。
除了上述两大功能,AI 绘画亦是重要功能。点击“进行创作”后,页面会提示输入关键词,以逗号分隔,同时,还会推荐画面比例和模型主题。
这是一个智能“工具箱”,有视频剪辑、智能抹除、文章转视频、写作助手、智能抠像、智能变声、智能转比例、视频解说等“魔法”。我们期待的是,随着 VR 和 AR 的发展,腾讯智影能将虚拟现实和增强现实技术融入视频创作中。用户可以轻松创建沉浸式视频内容,提供更真实的视觉体验。
绘画类:AI 是“神笔”,妙笔生花
对于绘画爱好者或需要快速生成多样化图像的用户来说,AI 绘画类 App 堪称“神器”,初学者也能迅速上手,还能支持多种绘画风格,个性化作品轻松呈现。
“咒语”一出 图片即来
Midjourney 问世于 2022 年 3 月,是一款主流绘画工具,2023 年 5 月开启中文版内测。整体而言,这是一款具有较高生成水平的工具,成为不少培训机构选择的应用。
“稻田里金灿灿的一片,农民正在丰收,有的在割稻谷,有的在田埂上休息。”进入 Midjourney 中文站,《IT 时报》记者输入“咒语”后,页面显示积分不足,购买积分后方可一次性生成 4 张质量较高的图片。
从官网 AI 机器人账号发布的内容来看,用户输入相关文字,便能获得对应的图片。这是 Midjourney 文生图的一种方式,描述越清晰明了,效果越佳,倘若不知如何描述,只要开启页面中的“自动优化咒语”,提交文案后便会自动优化原有文字。此外,其还有图生图、混合图等功能。
该软件亦提供模型范例,如真实质感、动漫质感、艺术增强等选项,还能识别广角镜头等视听语言或摄影术语。同时,用户还可以选择达 · 芬奇、毕加索等画家的艺术风格进行内容生成。
Midjourney 的优势在于入门快捷、出图效果较好、具有多变的风格,局限之处在于需要充值、费用较高、敏感内容受限制等。期待 Midjourney 能够进一步改进其算法和模型,或者引入更多的艺术元素和风格,生成高质量的绘画作品。
“用武之地”多
Stable Diffusion 是一款支持由文本生成图像的 AI 绘画工具,能够根据文本描述生成对应图像,也可以应用于其他任务,应用场景丰富。比如帮助企业和营销人员在社交媒体上达到广告和宣传的效果,模拟和预测病毒或疾病在人群中的传播过程,为防控策略提供科学依据。
在数字艺术创作领域,其结合图生图、ControlNet 等能力,辅助绘画工作者进行创作,还可以根据艺术家的涂鸦或线稿,为作品自动上色或生成草稿;在游戏设计方面,该软件可以辅助设计师设计游戏中的角色、场景、道具等素材。设计师只需要提供某一概念,就可以生成多种不同风格的画面,然后进行选择和修改,以实现节约时间的效果。此外,还在广告创意、教育应用、定制商品、界面设计和室内设计有“用武之地”。
不同于 Midjourney,Stable Diffusion 能够免费开源、无需联网便可进行本地部署、可安装插件和内容无限制等。不过,电脑配置要求较高、安装学习成本高是其不足之处。期待 Stable Diffusion 进一步提高生成图像的质量和精细度,包括更准确的颜色、更清晰的细节和更真实的纹理等方面。
文档类:打开新思路,提高办公效率
2023 年,AI 文档类 App 以前所未有的速度改变着工作与生活。从智能排版到自动纠错,从个性化模板到智能内容推荐,AI 助力用户更高效地完成文档创作与编辑。
“四大金刚”的智慧
WPS AI 是金山办公发布的具备大语言模型能力的人工智能应用,集成了深度学习算法和大数据技术,提供智能文档写作、数据分析、演示制作、阅读理解和问答、智能人机交互的能力,能够帮助用户生成 PPT、PDF、表格、报告等内容,让办公更加高效便捷。
在不同的端口,其能力有所不同,如 Windows 端具备文字 AI、表格写公式、一键生成 PPT 和 PDFchat 的能力,Mac 端的能力有 AIGC 和表格写公式,移动端主要为文字 AI。
如何唤醒 AI?
首先需要使用 AI 体验版本。在 Word 文档中,建一个空白文档,在空白处双击 Ctrl 键,页面即可弹出 AI 对话功能,用户可以输入问题或点击该对话框呈现的场景,如文章大纲、会议纪要、活动策划等;PPT 中的 AI 功能是新建文档界面中的智能创作,输入主题、页数等要素,演示 AI 可以一键生成内容大纲及完整幻灯片,还可体验图片推荐、排版美化、生成演讲稿等功能;打开 PDF 文件,点击右上角的“ WPS AI ”即可唤起相应功能,PDF AI “擅长”于总结长文信息、追溯原文、外文翻译提炼;表格 AI 可在界面中的菜单栏唤起,亦可在单元格内输入“ = ”,即可获得相关按钮,可以快速实现条件标记、生成公式、分析数据、筛选排序等操作,让数据分析和处理更高效。
从能力测试来看,WPS AI 一定程度上丰富了工作方法,提高了办公效率。在生成智能内容的基础上,或许需要 WPS AI 具备更强大的语义分析能力,它能够理解文档中的语义关系,提供智能化的修改建议,帮助用户优化文章结构、语法和表达方式。
石墨文档:
“ AI 助手”来帮你
作为一款在线协同文档办公软件,石墨文档中的主要功能包括多人协同编辑、“ @”进行任务分配、插入在线播放视频、划词评论、私密 / 公开分享、文档安全掌控、还原历史版本和历史记录追溯等。
“我是石小墨,在这个示例文档中,我将带领你迅速掌握石墨文档产品的功能特性。”进入 App 或者官方网页,在这位“助手”的引导下,用户可以了解操作过程,步骤详细,示例清晰。石墨文档细分出文档、表格、表单、幻灯片、思维导图等九大核心板块,且每个板块的核心功能、应用场景和亮点皆可在一张表格内一目了然,如文档的应用场景有项目管理、会议纪要、工作总结,亮点是轻量易用和多端协同。
通过创建按钮,用户可以新建文档、传统文档、表格、表单和文件夹,此外,还能上传已有文件,进行文字识别、语音速记,以及可以任意选择总结汇报、电商专题、新年精选、销售管理等模板。
AI 助手“石小墨”是石墨文档拥抱 AIGC 的体现,能够快速生成简历、合同、故事等。比如,用户给出简单诉求,“石小墨”就能在 1 分钟内完成一份条款清晰的合同初稿。期待“石小墨”的 AI 能够进行更复杂的数据整合分析工作,帮助用户提升工作效率。
游戏类:AI 创作故事,提升沉浸感
利用 AI 技术,游戏开发者自动生成游戏内容;AI 为 NPC 赋予更复杂的行为和决策能力,增加游戏的可玩性和趣味性……融合了 AI “基因”的游戏让玩家获得更多挑战和乐趣。
AI 地牢:
由玩家执导主演
这款游戏英文名为“ AI Dungeon ”,玩家可以选择多种场景和类型,如奇幻、神秘、赛博朋克、僵尸等,GPT-3 会根据输入的内容生成故事。此外,游戏会适应并响应玩家输入的大部分操作,将输入留空用作提示 AI 生成更多内容的一种方式。《AI 地牢》允许玩家撤销、重做或修改最近发生的事件,以增强游戏的叙事性。玩家还可以明确指示 AI,为以后的游戏部分“记住”某些元素,从而在后续游戏体验中保持连续性。
进入游戏网站,“一款基于文本的冒险故事游戏,由您执导(并主演),而 AI 则将其变为现实”的介绍映入眼帘,页面显示,此游戏可免费在线玩,也可根据提示获取应用程序。
玩家们认为《AI 地牢》具有较大的表演空间和趣味性,但并非所有笔记本的配置都能适用。期望 2024 年其普及性更高,登录渠道更加丰富。通过 AI 功能,期待游戏中的角色能够展现出更加丰富的行为表现,敌人能够更加智能和具有挑战性,环境与角色和玩家产生更多的互动,让玩家能够根据自己的喜好和风格来定制游戏角色和游戏体验。
图灵测试:
探索人类智能和人工智能
《图灵测试》是一款第一人称视角的益智游戏,也是冒险解谜游戏。游戏设定在未来,人工智能的先进程度已经与人类智能无法区分。
玩家将扮演工作于国际航天局的女工程师 Ava Turing,她发现了木星卫星木卫二的隐藏秘密,并由此引发出一段关于“自省和道德”的故事。在游戏中,玩家需要使用名为“能量操纵装置”的设备在机器之间转移能量,并以此来解谜。
因此,《图灵测试》中包含了一系列由 AI 控制的基地智能 TOM 发起的谜题和攻击,这些谜题由消失的机组人员留下,玩家需要运用智慧和策略解决这些谜题,逐步探索木卫二的核心。“能量操控装置”可以让玩家获得操控和转移能量的能力,这对于解决游戏中的谜题至关重要。
实际上,《图灵测试》不仅是一个冒险解谜的过程,更是一个关于人类本能、道德和生存的探索,提出了有关意识本质的问题,探讨了创造智能机器的伦理含义。
《图灵测试》提供的谜题具有挑战性和深刻性,期待游戏中呈现出的 AI 元素能够更加宽泛,即不仅体现在主题中,还可以在形式上进行创新。比如赋予 NPC(非玩家角色)更高级的智能和互动能力,设计出更智能、更富有挑战性的谜题解决方案,让玩家在解决谜题的过程中能够感受到 AI 的智慧和创造力。
排版/ 季嘉颖
图片/ 文心一言 讯飞星火 剪映 腾讯智影 WPS AI 石墨文档 MidjourneyStable DiffusionAI Dungeon《图灵测试》
来源/《IT 时报》公众号 vittimes