Title of the Presentation

[Pages:11]Microsoft TechDays 2007 - Lisboa

27/03/2007 11:10 AM

DEV017

Novas APIs para Reconhecimento e S?ntese de Fala em Portugu?s para Aplica??es Cliente e Servidor

Pedro Silva Santos i-pedros@, Lead Software Development Engineer Microsoft Language Development Center

e

Miguel Dias Miguel.Dias@,Director

Patrocinadores



2007 Microsoft Corporation. All rights reserved.

This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.

1

Microsoft TechDays 2007 - Lisboa

27/03/2007 11:10 AM

MLDC - Microsoft Language Development Center, Portugal

? Criado um Microsoft | Development Center em Portugal Cria??o em Novembro de 2005 e in?cio da opera??o em Mar?o de 2006 Miguel Dias (Director, FTE) + 8 colaboradores (Engenheiros e Linguistas) Um dos 4 Centros de Desenvolvimento Microsoft na Europa e o 1? fora de Redmond (EUA) dedicado ao desenvolvimento local da linguagem. Expans?o do grupo de componentes de processamento de fala da Microsoft, baseado em Redmond, EUA Co-suportado pelo PRIME ?NITEC

App MSS

Miss?o de longo termo e linhas de ac??o do MLDC

Miss?o de Longo Termo

Expandir o desenvolvimento local das tecnologias de linguagem na regi?o da EMEA, para um conjunto de produtos e platformas Microsoft (Vista, Exchange, Office, Mobilidade, Media Center, Xbox)

In?cio na l?ngua Portuguesa

Linhas de Ac??o :

1. Linhas de coopera??o com as universidades e institutos de I&D mais inovadores em Portugal e na regi?o da EMEA, nos dom?nios da fala e da l?ngua natural

2. Desenvolvimento de recursos e tecnologias da linguagem em Portugal e na EMEA

3. Participa??o em projectos de I&D em cons?rcio nos programas Nacionais (FCT, PRIME-IDEA, PRIME-NITEC) e Europeus (FP7)

Resultados - Tecnologia

Pacote de Linguagem em Portugu?s Europeu e Brasileiro para aplica??es telef?nicas e W indows

Euro PT Connect : Sistema de atendimento telef?nico autom?tico na subsidi?ria Portuguesa baseado em Microsoft Speech Server 2007 (300 nomes)

Vers?o Brasileira pronta e em instala??o na respectiva subsidi?ria (2007)

user (caller)

user (callee)

1

2 PBX 3

Microsoft Speech Server,

Web Server,

SQL Server

2007 Microsoft Corporation. All rights reserved.

This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.

2

Microsoft TechDays 2007 - Lisboa

27/03/2007 11:10 AM

Desafios para 2007 e 2008

Projectos a decorrer:

1. VoxCorp: ? Contrato com INESC-ID (L2F) para transfer?ncia de metodologias de aquisi??o de corpus de fala telef?nica, visando a localiza??o do Exchange UM ? Comunica??es Unificadas ? Obten??o de outros corpus de Fala em Portugu?s Europeu.

2. Voice Command: localiza??o em Portugu?s Europeu e Brasileiro (com ISEL)

3. TTS ("Text-to-Speech"): Sistemas de S?ntese de Fala em Portugu?s Europeu e do Brasil (com a Microsoft ATC - China)

4. Media Center controlado por fala (Portugu?s + Ingl?s) com cancelamento de eco e de audio (com FCUL e Microsoft Research)

5. Acoustics: Reconhecimento de Fala de Ingl?s pronunciado por Portugueses (com FCUL)

6. Desenvolvimento de ferramentas internas para Anota??o (TransSpeech) e Modela??o Ac?stica (Lingo 1.0),com o grupo de fala de Redmond ? EUA

7. SpeechApps: Demonstradores de Fala em Portugu?s Europeu para Windows (com Univ Coimbra, INESC-ID ? IMMI, ISCTE ? ADETTI e SbH ? Solutions by Heart)

TalkToMe

Agenda

O Microsoft Language Development Center (MLDC) Tecnologias de fala:

Reconhecimento de fala. S?ntese de texto-para-fala.

Desenvolvimento de aplica??es Speech (client-side)

A managed API SpeechFX. Desenvolvimento e demos.

Desenvolvimento de aplica??es Speech (server-side).

Office Communications Server 2007: Speech Server. Desenvolvimento e demos.

Downloads p?blicos e recursos:

Cliente + servidor Bits da fala para Portugu?s!

Speech Recognition

Transformar

Amplitude

Tempo

Em:

" ? f?cil

n?s reconhecermos fala"

2007 Microsoft Corporation. All rights reserved.

This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.

3

Microsoft TechDays 2007 - Lisboa

27/03/2007 11:10 AM

Speech Recognition - SR

Ou Reconhecimento Autom?tico de Fala. Caracter?sticas de um sistema de SR:

Modos de opera??o:

Comando e controlo, Ditado (ou fala espont?nea)

Depend?ncia ao falante. Adapta??o ao falante. Principais m?tricas de avalia??o: precis?o e velocidade

Speech Recognition

Como funciona

Hidden Markov Models: modelos estat?sticos baseados em probabilidades. A Fala ? uma s?rie de palavras. Cada palavra consiste numa s?rie de sons (fonemas). Confidence scoring.

Amplitude

Text-to-speech synthesis

Transformar "? f?cil sintetizar fala"

Em

Tempo

Text-to-speech synthesis - TTS

S?ntese de texto para fala. Produ??o artificial de fala humana. Tipicamente, convertendo uma representa??o textual para fala num formato de audio. Como funciona? T?cnicas:

Concatenative synthesis Formant Articulatory HMMs

A voice font: a fala do talento de voz armazenado como um conjunto de segmentos de sons individuais.

2007 Microsoft Corporation. All rights reserved.

This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.

4

Microsoft TechDays 2007 - Lisboa

27/03/2007 11:10 AM

Engines and Language Packs

Microsoft Speech Technology. Dois principais core engines:

O engine de SR. O engine de TTS. Independentes da l?ngua.

Speech Language Packs: ficheiros espec?ficos por l?ngua. Tipicamente, LPs cont?m:

language-dependent recognizer data. language-dependent synthesizer data.

Desenvolvimento de aplica??es Speech (client-side)

A nova API de Speech

.NET Framework 3

WPF

WCF

WWF Cardspace SpeechFX!!

A API managed SpeechFX. O que est? no namespace System.Speech:

System.Speech.Recognition System.Speech.Synthesis

Dispon?vel publicamente no .NET Framework 3.0

A nova API de Speech

O que j? vem no Vista:

Runtime .NET Framework 3.0, incluindo SpeechFX. O reconhecedor de Ingl?s (Franc?s, Alem?o, Espanhol, Japon?s e Chin?s tamb?m dispon?veis). O sintetizador de Ingl?s ? a voz "Anna". O "Windows Speech Recognition User Experience" Para XP: download do .NF3.0

2007 Microsoft Corporation. All rights reserved.

This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.

5

Microsoft TechDays 2007 - Lisboa

27/03/2007 11:10 AM

System.Speech.Synthesizer

Como usar?

SpeechSynthesizer synthesizer = new SpeechSynthesizer(); synthesizer.Speak("Ol? mundo!");

Inclui suporte para custom spoken pronunciations, standard XML SSML W3C, gravar output para wave file, alterar velocidade de s?ntese e volume.

System.Speech.Recognition

Como usar?

Construir uma gram?tica. Carregar a gram?tica no reconhecedor. Registar eventos (SpeechRecognized, SpeechHypothesized, SpeechDetected, ...) Come?ar o reconhecimento...! Inclui suporte para gram?ticas complexas, semantic values, standard XML SRGS W 3C, input de wave file, recognition confidence value, recognition alternate choices.

System.Speech.Recognition

Como usar?

SpeechRecognitionEngine recognizer = new SpeechRecognitionEngine(new System.Globalization.CultureInfo("en-us"));

void init() {

Choices pizzaChoices = new Choices(); pizzaChoices.AddPhrase("I'd like a cheese pizza"); pizzaChoices.AddPhrase("I'd like a pepperoni pizza"); pizzaChoices.AddPhrase("I'd like a large pepperoni pizza"); Grammar pizzaGrammar = new Grammar(new GrammarBuilder(pizzaChoices)); recognizer.LoadGrammar(pizzaGrammar);

pizzaGrammar.SpeechRecognized += new EventHandler(PizzaGrammar_SpeechRecognized); recognizer.Recognize(..); } void PizzaGrammar_SpeechRecognized(object sender, RecognitionEventArgs e) { MessageBox.Show(e.Result.Text); }

Um cliente simples com SR + TTS.

2007 Microsoft Corporation. All rights reserved.

This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.

6

Microsoft TechDays 2007 - Lisboa

27/03/2007 11:10 AM

Integrar Speech numa aplica??o existente: "Speech Wiki"

Viatecla "Brisa"

Desenvolvimento de aplica??es Speech (server-side).

Speech Server 2007 no Office Communications Server 2007

Speech Server (2007) est? inclu?do no Microsoft? Office Communications Server 2007 Principais componentes:

Authoring and debugging Reporting, Analysis and Tuning Telephony Operations, Administration, Maintenance

2007 Microsoft Corporation. All rights reserved.

This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.

7

Microsoft TechDays 2007 - Lisboa

27/03/2007 11:10 AM

Supported Languages

Speech Server (2007) suporta Speech Recognition em:

North American English

American Spanish

Canadian French UK English German

Suporte planeado de Speech Synthesis no OCS2007 RTM:

Language Chinese (Mandarin) Chinese (Traditional) Dutch English English English French French German Italian Japanese Korean Portuguese Spanish Spanish Swedish

Country/Region Chi na Ta i wa n Netherl a nds Aus tra l i a United Kingdom North America Canada France Germany I ta l y Japan Korea Bra zi l Spa i n Ameri ca s Sweden

Ex UM TTS Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e Ava i l a bl e

Ex UM SR OCS SR

OCS TTS Pl a nned Pl a nned

Ava i l a bl e

Ava i l a ble

Available Available Available

Available Available Available

Available Available

Pl a nned

Available Available

Pl a nned

Pl a nned

Pl a nned

Pl a nned

Pl a nned

Available Available

From Speech Server

to UC Application Server

FY07

FY08

Office Communications Server 2007, UC Application Server PDC2007 Preview Beyond the communications silos!

FY04

ASR/TTS/DTMF Telephony Multimodal Authoring Tools Languages: US English

Office Communications Server 2007,

Speech Server

Native VoIP interfaces

.NET programming model

HMIHY support

FY05

VoiceXML support Authoring enhancements

Reporting enhancements

Data Warehousing for log files

R2 Tuning tools

NA Spanish, NA French Simplified topologies

lang

pa

cks

Globalized; additional language packs Increased engine accuracy & scale

Improved engine scalability

Better developer experience

Additional TDM and VoIP

HMIHY resource kit

MOM Pack

Speech Server (2007) uses the Windows Workflow Foundation

Visual Designer in Visual Studio 2005

A Workflow

Custom Activity Library Windows Workflow Foundation

Base Activity Library Runtime

Office Communications Server Speech Server Host Process

An Activity

Key Workflow Concepts

Workflows are a set of activities

The workflow itself is an Activity

Activities are the building blocks

Unit of Reuse Unit of Execution

An Activity has associated properties, conditions and events Developers can build their own Custom Activity Libraries A Workflow runs within a Host Process: a server or an application

2007 Microsoft Corporation. All rights reserved.

This presentation is for informational purposes only. Microsoft makes no warranties, express or implied, in this summary.

8

................
................

In order to avoid copyright disputes, this page is only a partial summary.

Google Online Preview   Download