Inlämning av Examensarbete / Submission of Thesis

Yasir Masood Malik MEE09:69, pp. 47. ING/School of Engineering, 2009.

The work

Författare / Author: Yasir Masood Malik
malik_yasir2@yahoo.com
Titel / Title: Speaker Localization, tracking and remote speech pickup in a conference room.
Översatt titel / Translated title: Speaker Lokalisering, spårning och avlägsna tal pickup i ett konferensrum
Abstrakt Abstract:

Effective speech communication using microphone Array is getting significant research in speech acquisition methods such as speaker localization and tracking. Localization techniques play an important role for automatic camera in videoconferencing system and for other human machine interfaces. To locate the accurate Direction Of Arrival (DOA) from the source, it is necessary to design a suitable microphone array system with minimum internal hardware noise and more efficient localization algorithm.
There are many algorithms developed for estimating the number of sources and locating the DOA, such as Bayesian algorithm, kalman filtering, Generalized Cross Correlation (GCC) and Steered Response Power (SRP) algorithm. But SRP algorithm with its steered beam forming technique for speaker localization is more robust using microphone array. The Phase Alignment Transform (PHAT) has gained a lot of attention in the recent research for its quite robust response in low noise, but reverberant environment.
So combining SRP-PHAT will become the robust localizer in reverberant environment. This project aims at designing and installing a remote speech pickup system functioning as a frontend to a VoIP system in the biometric lab. A large microphone array is designed and installed on the ceiling of the biometric lab and integrated it with a signal processing software suit for speaker localization and tracking, SRP-PHAT algorithm is used as a localizer.
Experiments were done on real time recorded data of human talkers. The algorithm gives accurate DOA from the dominant speaker and is suitable for real time processing.

Populärvetenskaplig beskrivning / Popular science summary: Effektiv talkommunikation med mikrofoner blir betydande forskning inom metoder tal förvärv som talare lokalisering och spårning. Localization tekniker spelar en viktig roll för automatisk kamera i videokonferenssystem och för andra människors maskin gränssnitt. För att hitta exakt Direction of Arrival (DOA) från källan, är det nödvändigt att utforma ett lämpligt system mikrofoner med minsta inre hårdvara buller och effektivare lokalisering algoritm.
Det finns många algoritmer utvecklats för att uppskatta antalet källor och placera DOA, såsom Bayesian algoritm, Kalman filtrering, Generalized Cross Correlation (GCC) och styrde Response Power (SRP) algoritm. Men SRP algoritm med de styrda strålar teknik för högtalare lokalisering är mer robust med mikrofoner. Fas Justering Transform (PHAT) har fått stor uppmärksamhet i den senaste forskningen för dess ganska robust svar i lågt brus, men efterklangsfält miljö.
Så kombinera SRP-PHAT kommer att bli den robusta localizer i efterklangsfält miljö. Detta projekt syftar till att utforma och installera ett fjärrsystem tal pickup fungerar som ett gränssnitt till ett VoIP-system i biometriska labbet. En stor mikrofoner är konstruerad och installerad på taket av biometriska labbet och integrerat den med en signal programvara passar för högtalare lokalisering och spårning, SRP-PHAT algoritm används som localizer.
Experiment gjordes på realtid registrerade uppgifter mänskliga talare. Algoritmen ger exakta DOA från den dominerande högtalare och är lämplig för realtidsbearbetning.
Ämnesord / Subject: Signalbehandling - Signal Processing

Nyckelord / Keywords: Speaker Localization, tracking, SRP-PHAT.

Publication info

Dokument id / Document id:
Program:/ Programme Magisterprogram i Elektroteknik / Master of Science in Electrical Engineering
Registreringsdatum / Date of registration: 11/02/2009
Uppsatstyp / Type of thesis: Masterarbete/Master's Thesis (120 credits)

Context

Handledare / Supervisor: Dr. Mikael Nilsson
mikael.nilsson@bth.se
Examinator / Examiner: Dr. Mikael Nilsson
Organisation / Organisation: Blekinge Institute of Technology
Institution / School: ING/School of Engineering

+46 455 38 50 00
I samarbete med / In co-operation with: Department of Signal Processing.
Anmärkningar / Comments:

Cell number: 0046-700183434

Files & Access

Bifogad uppsats fil(er) / Files attached: thesisreport.pdf (708 kB, öppnas i nytt fönster)