阿里云智能语音交互

产品介绍 & 接口文档
阿里云智能语音交互服务导览-编程知识网

阿里云iDST的智能语音交互服务主要有以下几个大类:

  • 语音识别服务ASR :将语音转换成文字的能力快速集成,打造出“能听”的应用。
  • 语音合成服务TTS :将文字转换为声音的能力快速集成,打造出“会说”的应用。
  • 自然语音处理NLU :集语义解析、智能问答、意图识别等功能于一体,让应用具备理解能力。

语音识别服务ASR:

**在线 实时 短语音识别:一句话识别

  • 支持流式和非流式的语音识别模式
  • 应用模式: 语音输入法、语音搜索、语音助手等
  • 应用领域:YunOS、支付宝语音搜索、天猫魔盒、手机淘宝、聚划算等

在线 实时 长语音识别:实时长语音识别

  • 应用领域:直播实时转写、会议记录、语音笔记

在线 非实时 长语音文件识别:录音文件识别服务

  • 支持单轨/双轨的wav格式、MP3格式的语音文件识别
  • 目前只支持8k和16k的采样率;
  • 支持普通话识别
  • 应用领域:客服质检领域等

语音合成服务TTS:

在线 实时 语音合成: 语音合成

  • 实时播报
  • 应用领域:钉钉语音电话、菜鸟物流信息播报、新闻播报

在线 实时 语音合成 批量工具: TTS批量合成工具

  • 语音合成测试、批量处理
  • 应用领域:有声小说

智能对话平台

智能对话平台: 智能对话平台

  • 智能对话平台,能够让您在这上面快速搭建自己的对话机器人。
  • 应用领域:智能客服、教育、医疗等

自然语音处理NLU:

在线 语音识别+自然语音处理: 自然语音理解

  • 聊天对话:语音助手就像一个聊天机器人,能和用户直接对话
  • 获取信息:根据用户不同的需要,可以通过语音助手来了解信息,要知天下百事,就问语音助手。
  • 操控手机:能用语音控制手机的操作,打电话、发短信,直接说“打电话给XX”或者“发短信给XX” 非常简便
  • 通过语法、语义、语用的分析,获取自然语言的语义表示。
  • 领域列表:应用、餐厅、休闲娱乐、地图、火车票、飞机票、影院、美食团购、酒店、汽车限行、导航、实时路况、天气、公交站点、地铁站点、热映电影、股票、快递、违章、视频、音乐、优惠券、体育赛事、闹钟、提醒、电视频道