publications

An up-to-date list is available on

2024

Arxiv

Domain Adaptation for Contrastive Audio-Language Models

Soham Deshmukh, Rita Singh, and Bhiksha Raj

arXiv preprint arXiv:2402.09585 2024

PDF
Arxiv

PAM: Prompting Audio-Language Models for Audio Quality Assessment

Soham Deshmukh, Dareen Alharthi, Benjamin Elizalde, Hannes Gamper, Mahmoud Al Ismail, Rita Singh, Bhiksha Raj, and Huaming Wang

arXiv preprint arXiv:2402.00282 2024

PDF Code

2023

Arxiv

LoFT: Local Proxy Fine-tuning For Improving Transferability Of Adversarial Attacks Against Large Language Model

Muhammad Ahmed Shah, Roshan Sharma, Hira Dhamyal, Raphael Olivier, Ankit Shah, Dareen Alharthi, Hazim T Bukhari, Massa Baali, Soham Deshmukh, Michael Kuhlmann, Bhiksha Raj, and Rita Singh

arXiv preprint arXiv:2310.04445 2023

PDF
ICASSP 24

Prompting Audios Using Acoustic Properties For Emotion Representation

Hira Dhamyal, Benjamin Elizalde, Soham Deshmukh, Huaming Wang, Bhiksha Raj, and Rita Singh

arXiv preprint arXiv:2310.02298 2023

PDF
ICASSP 24

Training Audio Captioning Models without Audio

Soham Deshmukh, Benjamin Elizalde, Dimitra Emmanouilidou, Bhiksha Raj, Rita Singh, and Huaming Wang

arXiv preprint arXiv:2309.05767 2023

PDF Code
ICASSP 24

Natural Language Supervision for General-Purpose Audio Representations

Benjamin Elizalde, Soham Deshmukh, and Huaming Wang

arXiv preprint arXiv:2309.05767 2023

PDF Code
NeurIPS 23

Pengi 🐧: An Audio Language Model for Audio Tasks

Soham Deshmukh, Benjamin Elizalde, Rita Singh, and Huaming Wang

arXiv preprint arXiv:2305.11834 2023

PDF Code Slides
INTERSPEECH 23

Audio Retrieval with WavText5K and CLAP Training

Soham Deshmukh, Benjamin Elizalde, and Huaming Wang

In Proc. INTERSPEECH 2023

PDF Code Slides

2022

ICASSP 23

Multi-View Learning for Speech Emotion Recognition

Daniel Tompkins, Dimitra Emmanouilidou, Soham Deshmukh, and Benjamin Elizalde

In International Conference on Acoustics, Speech and Signal Processing Jun 2022

PDF
ICASSP 23

CLAP 👏: Learning Audio Concepts From Natural Language Supervision

Benjamin Elizalde, Soham Deshmukh, Mahmoud Al Ismail, and Huaming Wang

arXiv preprint arXiv:2206.04769 Jun 2022

arXiv PDF Code

2021

INTERSPEECH 21

Improving weakly supervised sound event detection with self-supervised auxiliary tasks

Soham Deshmukh, Bhiksha Raj, and Rita Singh

Jun 2021

arXiv PDF Code Slides
ICASSP 21

Detection of Covid-19 Through the Analysis of Vocal Fold Oscillations

Mahmoud Al Ismail, Soham Deshmukh, and Rita Singh

In ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Jun 2021

arXiv PDF Poster Slides
ICASSP 21

Interpreting Glottal Flow Dynamics for Detecting Covid-19 From Voice

Soham Deshmukh, Mahmoud Al Ismail, and Rita Singh

In ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) Jun 2021

arXiv PDF Poster Slides

2020

MS project

Multi-Task Learning for Interpretable Weakly Labelled Sound Event Detection

Soham Deshmukh, Bhiksha Raj, and Rita Singh

Jun 2020

arXiv PDF Code

2019

ICIIT 2019

Temporal and Stochastic Modelling of Attacker Behaviour

Rahul Rade, Soham Deshmukh, Ruturaj Nene, Amey S. Wadekar, and Ajay Unny

In Advances in Data Science Jun 2019

PDF

2018

CICT 2018

Tackling Toxic Online Communication with Recurrent Capsule Networks

Soham Deshmukh, and Rahul Rade

In 2018 Conference on Information and Communication Technology (CICT) Jun 2018

PDF