阿里通义Fun-ASR语音模型升级垂直领域识别率跃升超15%

阿里通义正式推出新一代端到端语音识别大模型Fun-ASR，该模型通过强化上下文感知与高精度转写能力，在家装、保险等垂直行业场景中实现语音识别准确率超15%的突破性提升。实测数据显示，保险行业准确率较前代提升18%，家装、畜牧等领域增幅达15%-20%。

作为大语言模型驱动的语音识别算法，Fun-ASR采用自研语音算法与Qwen3监督微调技术，结合前沿模型架构与文本模态对齐技术，在保持语言处理优势的同时，集成RAG检索增强方案，支持超1000个自定义热词导入。该功能可自动匹配音频中的领域热词、历史文档及上下文记录，显著优化特定场景下的关键词识别效果。

针对语音识别中的噪声干扰、语种混淆及生成幻觉等痛点，研发团队创新性引入强化学习（RL）技术，通过动态优化策略减少识别误差，系统稳定性与可靠性获实质性提升。值得关注的是，模型在四川话、粤语、闽南语等方言识别中表现优于同类产品，同时适应远场拾音、近场降噪等复杂声学环境，覆盖会议室、工位、超市、户外等多元场景。

训练数据层面，Fun-ASR基于上亿小时音频数据构建，深度融合互联网、科技、畜牧、汽车等十余个领域的专业术语库。这一数据优势使其在垂直行业识别中展现出显著优势，例如在畜牧行业可精准识别牲畜叫声与环境噪声中的关键指令。

阿里通义技术团队表示，Fun-ASR的进化标志着语音识别技术从通用场景向专业化、场景化深度渗透。随着模型在更多行业落地，其动态热词更新与多模态交互能力将进一步推动语音交互效率革新。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证

阿里通义Fun-ASR语音模型升级垂直领域识别率跃升超15%

优惠活动

域名抢注

星空商城

免责声明

版权声明

帮助文档

建议提交

广告合作

IDC投稿

网址导航