Nghiên cứu về nhận dạng thực thể và nhận dạng giọng nói đã được thực hiện từ lâu và đạt được những thành tựu nhất định. Tuy nhiên bài toán trích xuất thực thể từ một đoạn âm thanh lại khó hơn rất nhiều do sự khác biệt lớn giữa nội dung đầu ra của hệ thống nhận dạng giọng với đầu vào của nhận dạng thực thể. Nghiên cứu này đề xuất phương pháp để có thể kết hợp hai hệ thống độc lập này, đồng thời đưa ra một bộ dữ liệu để có thể đánh giá một hệ thống trích xuất thực thể trong một đoạn âm thanh.