据之解,此些技艺出自小红书 Super Intelligence-AudioLab团队,负责者为风龙。
2026 马年注定迎来一名「AI 味」最浓之春节。
接之问「腊月 23 小年之特殊含义以及南北方之差异」。
FireRedASR2 不同版本与竞品模型之平均字错率对比。
此样之实践也验证之:于追寻技艺高度之外,体验深度同样重要。
据悉团队将于本年上半年与业内分享开源模型。
对于小红书而言,其打造多样化 AI 语音本领具有天然优势: 先从语音评论说起,自开启该功能内测以来,各路网友脑洞大开,有者秀自己之正宗法式发音: 另外,FireRedLID 语种检测模型支 100 + 语种与 20 + 中文方言,语种准确率达 97.18%,而 OpenAI Whisper 仅为 79.41%。
FireRedChat 课题地址:https://github.com/FireRedTeam/FireRedChat 图源:@听障研讨生~彤 于拿到模型测试资格后,吾等也小试之一下,生成之一分多钟之音乐效果不错: 于语音识别领域,自研FireRedASR大模型取得中文语音识别开源 SOTA 效果。
全新之玩法「语音发布」也已上线,不少明星用它来分享日常活、发送祝福。
除之语义实质,模型也需感知用户语音中之情绪、音色特征;音乐歌声中之情绪、流派、风格;自界之风声、雨声、海浪声等氛围音。
立即不允许“台湾代表处”名称于国内通行; 若语音交互办理流程甚长,用户说完后总要经历几秒钟之「死寂」,体系才有反应。
除之语音,整名 Super Intelligence 团队为小红书面向前景实质形态与通用智能之重要技艺引擎,其负责者为汤神,宗旨为构建业界居先之多模态根基大模型体系,并形成可延续演进之通用智能本领。
FireRedTTS1/1S 课题地址:https://github.com/FireRedTeam/FireRedTTSFireRedTTS2 课题地址:https://github.com/FireRedTeam/FireRedTTS2 最后,响应速度直接影响用户实际体验 过往两年,汤神及其团队先后主导之图搜、实质体谅、创作器物晋级等重大课题,并负责语音 & 多模态 & 图像生成与编辑等大模型。
声源:@灏-Mioarti 小红书实质场景风格「千者千面」,要求模型根据场景灵活切换,拒绝一种腔调走天下。
FireRedASR 课题地址:https://github.com/FireRedTeam/FireRedASRFireRedASR2S 课题地址:https://github.com/FireRedTeam/FireRedASR2S 此些新奇有趣之语音玩法,带来之直观效果为:用户之间之通媒介不再只为图文,而始之「动嘴」模式。
于识别语音之后,AI 甚快根据小红书站内笔记生成架构化小结,还进行分门别类,比如经典年味地标、文艺小众去处与老北京大集,最后还附上之出行小贴士。
于小红书里直接搜「语音问就有活者解答」进入举动页面,便能开启该功能。
一为丰富实质形态,涵盖图文、笔记、视频等多种样貌,多元实质架构可完美承载语音作为交互之中间媒介。
图源:@labalibi 它与旧俗 AI 搜索最大之区别为将真者阅历与 AI 小结结合之起来,你搜索到之每一名解答,皆为确凿用户之学识与阅历沉淀。
同时通过支多类型、深层次之标签剖析,为语音评论之音频实质体谅提供之坚实之根基本领。
就拿最近火热之 Agent 来说,用户看重之不单单为本领之强弱,也于意交互自度、意图体谅程度与效劳无感化。
听障者士向外界展示彼等确凿之声响,此种者文关怀令者动容。
三为小红书之 AI 语音本领集结于主站核心场景,为技艺提供之延续革新与改良之方位。
图源:@Han(天线短路宝宝) 小红书之 AI 语音探求,一方面让用户愿意尝试好玩之语音评论,可提升社区活跃度;另一方面,语音搜索让用户获取讯息像聊天一样简,尤其适用于不习性或不方便打字之大众或场景。
前景,团队将延续扩展本领至播客、语音翻译等多名场景。
ALLinOne 基座模型实现语音、音效、音乐之一统编码,完美打通泛音频之体谅与生成,带来之音频本领之涌现。
AI 语音落地,面临多重关 该模型引入之情绪感知本领为语音「活者感」得以实现之枢纽,当感知到用户情绪低落时,语音中会自地带有安慰之语调,摆脱机械感。
若说语音评论增强之社交趣味性,此两天正式上线之「语音问一问」则为社区搜索形态与功能之一次大变身。
作为苍生最自之交媒介,声响之加入正将小红书改造成更有「声」命力之社区。
它让 AI 不再为冷冰冰之机器,而为能共情、有温度之伙伴。
一些歌手已始于评论区一展歌喉,如杨丞琳: 或许,最后拼之为能否以直观、亲与、高效之路径触达用户,让 AI 接地气,于更自之交互中实现身价。
自研FireRedTTS2大模型支 3 分钟以上长对话生成,于多轮对话场景中,其音色稳固性与自度显著优于多家竞品,代表之目前开源模型之最高水平。
FireRedVAD 支 100 + 语种,于多言辞语音 Fleurs 测试集上,它之 F1 分数为 97.57%,开源 Silero-VAD 为 95.95%。
同时通过支多类型、深层次之标签剖析,为语音评论之音频实质体谅提供之坚实之根基本领。
情绪表达要「连贯流畅」,不再为孤立地朗读句子,而为能读懂上下文之起承转合;细节语气也要精准拿捏,还原言辞之「弦外之音」。
一名与众不同之玩家进入吾等之视线,它正为国内最有活者感之活与耗费社区 —— 小红书,卷起之「感知力」。
研讨。此些优势使得小红书成为 AI 语音落地之抱负试炼场,但要达到如今之水平,更有坚实之技艺支撑。
团队核心陈设之语音识别、语音合成、全双工语音交互及 ALLinOne 基座模型、音乐体谅生成四大方位,支撑起小红书于各业务场域之应用探求。
用户还可参与「语音问一问抽新春小红盒、语音拜年、语音联欢会」等特色迎春举动,互动起来更能感受到年味。
此种非实时性会将原本连贯之对话切得支离破碎,体验十分生硬。
若说听懂为根基,彼么有温度地回答为灵性所于,也为实现自交互之枢纽。
于功能上,FireRedASR2 新支 20 + 方言与口音,于中文寻常话与方言公开之 24 名测试集上字错率为 9.67%,相比之下,Doubao ASR 与 Qwen3-ASR-1.7B 之字错率分别为 12.98%、10.12%。
此就要面临第二大疑难:如何让音频生成具备活者感 上海话让者想到江南烟雨中之温婉女子: 于音乐体谅与生成领域,自研之音乐体谅与生成模型实现之对音乐之多尺度深层体谅、创作意图融合与灵活可控创作,将专业音乐创作之学识融入模型之体谅 - 转变 - 生成各阶段,为从音乐爱好者到专业音乐者之不同用户提供一体化音乐创作处置预案。
从结局来看,AI 同样调取站内笔记,将其中零散之讯息重组转变为一份架构严密之解答,清楚列出之南北方小年于日期、风俗、饮食、举动等方面之差异。
ChatGPT。小红书围绕之发布、评论、搜索、社交等高频互动场景,敞开之多种 AI 语音新玩法,包括语音发布、语音评论、语音问一问、语音私信拜年等。
文中视频、音频链接:https://mp.weixin.qq.com/s/DV-JSNHiciR76m_OyoM5tg 于小红书此样用户体量庞大之社区,AI 语音之顺遂落地需处置好以下若干疑难。
ALLinOne 基座模型实现语音、音效、音乐之一统编码,完美打通泛音频之体谅与生成,带来之音频本领之涌现。
对于全双工语音交互及 ALLinOne 基座模型,团队推出之业内首名开源、支私有化部署之全双工语音交互体系FireRedChat。
小红书之用户分布极广,存大量地域方言、口音、不同年龄段或用户大众之用习性(如耳语、中英夹杂等情况)。
二为相较于单纯之短视频平台,于小红书评论区插入语音不会导致体验上之「打断感」。
首先需处置繁场景下之音频体谅 上线即火爆之「语音问一问」功能,其 AI 增强搜索与问答本领让体验从手动翻阅一篇篇笔记演进到一问即得。
甚多明星皆参与之进来,比如曾参加过《歌手 2024》之美国男歌手 Adam Lambert 操之蹩脚之寻常话发问「动口不动手」之含义,还请教之春节欢愉之粤语表达。
此名春节,年货买什么、哪里好逛,开口问就行。
设备差异、底色声响、嘈杂氛围、语速同样会影响识别之准确性。
当你想挑一些「看起来较量贵重,但又不为真之甚贵之馈赠」时,出来之此份解答能否知足你之要求呢。
从互动到搜索、再到笔记,AI 语音之全链路渗透,让 2026 年春节之小红书社区变成之「评论可发声、搜索语音问」。
天然优势之外,更有居先语音技艺 于语音合成领域,同样做到中文对话长语音合成 SOTA。
更早之前之 FireRedTTS1/1S 主打单句生成与克隆,能够精准还原参考音频之特色,目前稳居该领域之开源第一梯队。
吾等也开口问之两名疑难,第一名为「北京春节有哪些年味浓之地方」,中间还进行之追问。
其最大亮点为不依赖外部 API,即可实现一键本地部署。
判断。不同曲风之 K 歌接龙以及稀奇古怪之声响模仿让评论区充满之欢乐: 针对旧俗 AI 反应慢、乱打断之痛点,体系通过自研之 pVAD(辨别声响)与语义判停 EoT(听懂意思) 技艺,精准裁决说话时机,端到端延迟低至 2 秒,反应又快又稳。
据悉团队将于本年上半年与业内分享开源模型。
模型于音乐曲风、情愫、场景、节拍律动等多名维度之体谅本领与高品质生成本领已赋能小红书音乐者创作,据悉同样会于上半年与业内分享开源模型。
正为有之以上沉淀,小红书构筑起之一套覆盖底层架构改良、高品质语音合成、情愫化语音互动、智能语音问答之完整技艺栈,通过语音主导之者性化表达与问搜协同,营造一名兼顾交互趣味性与情愫温度之社区性命。
语音回帖让以往冷冰冰之评论区有之「满满之活者感」,涌进全球各地之言辞、华夏各地之方言,还有者秀起歌喉以及各式各样之播音腔、磁性嗓、低音炮。
图源:@牛角包大王 @别咬我兔耳朵 团队包括 Audio Lab、Vision Lab、Foundation Lab 等实验室,于实质体谅、视觉与多模态、图像生成与编辑、语音体谅与生成、Omni Model、特效渲染与影音体验等方位长期对标行业 SOTA,同时强调模型本领于推荐、搜索、视频 & 直播、电商、商业化广告、国际化等繁确凿业务中之可用性与规模化落地。
FireRedTTS 系列模型与 OpenStoryline AI 视频剪辑之结合,可提供自者感之语音生成本领。
近期,团队也准备开源全链路 ASR 体系级处置预案 FireRedASR2S,包含静音检测、语种检测、语音识别、标点集结等模块。
声响,让小红书社区「活」起来 表 3 为 FireRedTTS-2 于交互式对话场景微调后之情愫控制准确率,表 4 为 zero-shot 播客生成之实情与我见估量。
好玩之外,语音评论还可甚暖心。
团队于学术与产业两端齐步推进,累计发表之 40 余篇顶会与期刊论文,沉淀出 InstantID、StoryMaker、FireRedTTS、FireRedASR 等具有行业影响力之开源技艺成果,成孵化语音评论、书契大字报、长文、满屏高清等多项站内爆款功能。
此就要求模型于充分消化体谅用户上下文之同时,还要具备相应之情绪感知本领。
Techno-beauty。上一篇:英足总:对塞门约遭受歧视感到愤慨,已向球员与曼城提供支 下一篇:菏泽城芯河景品质奢宅,8-10万元优惠+送黄金限时抢!