[Phỏng vấn] Thiết kế lấy người dùng làm trung tâm: Khám phá nghiên cứu chuyên sâu đằng sau tính năng Audio Eraser

Hãy hình dung bạn đang ghi lại màn trình diễn nhạc đường phố đầy ngẫu hứng, nhưng tiếng còi xe lại lấn át đi các giai điệu – hoặc khi bạn quay vlog tại một quán cà phê, tiếng ồn xung quanh khiến cuộc trò chuyện trở nên gần như không thể nghe rõ.

 

Tính năng Lọc âm thanh (Audio Eraser), ra mắt trên Galaxy S25 series, được thiết kế nhằm giải quyết những tình huống như trên bằng cách giảm thiểu tiếng ồn không mong muốn và tăng cường âm thanh mong muốn được giữ lại, giúp người dùng tạo ra những video sống động hơn.[1] Các tính năng Galaxy AI như Audio Eraser – được phát triển dựa trên sự thấu hiểu sâu sắc nhu cầu của người dùng – là thành quả từ những nỗ lực không ngừng từ đội ngũ Samsung Research và Ngành hàng Trải nghiệm Di động (MX) tại Samsung Electronics.

 

Samsung Newsroom đã có cơ hội trò chuyện cùng các chuyên gia công nghệ âm thanh từ Bộ phận Giải pháp AI tại Samsung Research để khám phá sâu hơn về quá trình phát triển tính năng đột phá này.

 

Samsung Mobile Galaxy S25 series Audio Eraser Galaxy AI Samsung Research interview main1

▲ (Từ trái sang) Kyoungbo Min, Hejung Yang, Hosang Sung và Jiwon Kim từ Bộ phận Giải pháp AI tại Samsung Research

 

 

Phát hiện nguồn âm thanh: Tương lai của công nghệ âm thanh thế hệ mới

Tính năng Audio Eraser cho phép người dùng điều chỉnh âm thanh trong video bằng cách loại bỏ tiếng ồn không mong muốn và tăng cường phần âm thanh mà họ muốn làm nổi bật. Tính năng này nhanh chóng quét video để phát hiện và phân loại âm thanh theo từng nhóm, và đặc biệt có thể áp dụng không chỉ cho các video do người dùng tự quay mà còn cho cả những video được chia sẻ hoặc nhận từ người khác.

 

Tương tự như cách tính năng Xóa vật thể Object Eraser đã nâng tầm khả năng chỉnh sửa hình ảnh và trải nghiệm người dùng khi ra mắt trên Galaxy S21 series, Audio Eraser được phát triển để mang đến trải nghiệm đa phương toàn diện hơn – vừa nâng cao phần nghe, vừa hoàn thiện phần nhìn.

 

Samsung Mobile Galaxy S25 series Audio Eraser Galaxy AI Samsung Research interview main2

▲ Audio Eraser cho phép người dùng điều chỉnh âm thanh theo từng loại trong video.

 

 

Cải tiến các mô hình phát hiện và tách nguồn âm thanh

Audio Eraser có khả năng nhận diện sáu loại âm thanh — giọng nói, nhạc, tiếng gió, âm thanh thiên nhiên, tiếng ồn đám đông và tiếng ồn xung quanh. Sử dụng công nghệ phát hiện nguồn âm thanh, tính năng này nhanh chóng xác định các âm thanh xuất hiện trong video cũng như vị trí của chúng. Sau đó, thông qua công nghệ tách nguồn âm thanh, tính năng tiến hành cô lập và phân loại từng loại âm thanh vào các nhóm riêng biệt.

 

Để xây dựng các mô hình AI có khả năng phát hiện và tách biệt các loại âm thanh khác nhau, nhóm nghiên cứu đã bắt đầu bằng cách thu thập bộ dữ liệu đào tạo mạnh mẽ. Họ mô phỏng nhiều tình huống ghi hình video thực tế để tạo ra các tập dữ liệu âm thanh đa dạng — và thậm chí còn đi thực tế để ghi lại trực tiếp những âm thanh đời thường hàng ngày.

 

“Tiếng gió là một trong những yếu tố khó xử lý nhất”, Hejung Yang từ Bộ phận Giải pháp AI tại Samsung Research cho biết. “Bên cạnh việc tinh chỉnh công nghệ mô phỏng tiếng gió, chúng tôi còn nâng cấp bộ dữ liệu bằng cách tự mình ghi lại âm thanh gió thực tế ngoài trời bất cứ khi nào có gió mạnh — kể cả sau giờ làm hay vào cuối tuần”.

 

Ngoài ra, nhóm nghiên cứu còn dành nhiều thời gian để cải thiện hiệu suất của mô hình phân tách nguồn âm thanh bằng cách xem xét cẩn thận vô số đoạn video clip vô số lần.

 

“Mỗi kỹ sư phát triển đã phân tích và so sánh hơn 1.000 mẫu âm thanh mỗi tuần trong nhiều điều kiện khác nhau”, Jiwon Kim cho biết. “Thông qua các thử nghiệm liên tục, chúng tôi đã tìm ra mô hình phân tách âm thanh hiệu quả nhất nhằm đảm bảo chất lượng và độ nhất quán trong kết quả đầu ra”.

 

Samsung Mobile Galaxy S25 series Audio Eraser Galaxy AI Samsung Research interview main3

▲ Các nhà nghiên cứu của Samsung đang nghiên cứu phát triển công nghệ âm thanh cho Audio Eraser.

 

 

Mang đến trải nghiệm âm thanh lấy người dùng làm trung tâm

Khi Audio Eraser hoạt động trực tiếp trên thiết bị, Audio Eraser mang đến trải nghiệm người dùng vượt trội với khả năng chỉnh sửa âm thanh theo thời gian thực, đồng thời đảm bảo quyền riêng tư được bảo vệ tối đa. Thành công của Audio Eraser có được là nhờ vào bề dày kinh nghiệm của Samsung trong việc phát triển các tính năng AI mạnh mẽ và tối ưu hóa trên thiết bị.

 

“Chúng tôi tập trung phát triển các mô hình AI và thuật toán có khả năng xử lý nhanh ngay trên thiết bị,” ông Hosang Sung chia sẻ. “Rất nhiều nỗ lực đã được đầu tư để tạo ra một giải pháp AI tối ưu, hoạt động mượt mà với mức tiêu thụ năng lượng thấp.”

 

Nhờ được hỗ trợ bởi một nền tảng nghiên cứu AI vững mạnh, Samsung Research tiếp tục nâng cao năng lực trong lĩnh vực công nghệ âm thanh tiên tiến.

 

“Chúng tôi cam kết phát triển các giải pháp thế hệ mới giúp nâng cao khả năng sử dụng của thiết bị di động,” ông Hoonyoung Cho, Phó Chủ tịch kiêm Trưởng nhóm Giải pháp AI tại Samsung Research, cho biết. “Thông qua các công nghệ kiểm soát âm thanh và nâng cao chất lượng âm thanh, chúng tôi hướng đến việc mang lại trải nghiệm nghe thực sự chọn lọc và cá nhân hóa.”

 

Samsung Mobile Galaxy S25 series Audio Eraser Galaxy AI Samsung Research interview main4

 

 

Hợp tác tích hợp với các nhóm phát triển sản phẩm

Việc chuyển đổi nghiên cứu tiên tiến thành giải pháp sẵn sàng cho người tiêu dùng đã đặt ra một loạt thách thức mới. Chẳng hạn như, khi chỉnh sửa video và âm thanh cùng lúc, quá trình phát lại cần phải mượt mà và không bị gián đoạn. Ngoài ra, việc xử lý video dài hơn một giờ đòi hỏi công nghệ chuyên biệt có khả năng hoàn thành nhiệm vụ trong cùng một khoảng thời gian.

 

Để giải quyết những thách thức này, Samsung Research đã phối hợp chặt chẽ cùng bộ phận Kinh doanh và Trải nghiệm Di động — từ việc đề xuất các ý tưởng lấy người dùng làm trọng tâm, đến việc thử nghiệm nhiều lần các kỹ thuật tối ưu hóa phần mềm và đánh giá chất lượng âm thanh. Hai bên cùng nhau thử nghiệm nhiều phương pháp để tìm ra giải pháp hiệu quả nhất.

 

Sự hợp tác này đã từng chứng minh tính hiệu quả trong quá trình phát triển Galaxy Buds3 series (Buds3, Buds3 Pro). Khi nhu cầu nghe trong môi trường ồn ào ngày càng tăng — từ việc thưởng thức âm nhạc hay các nội dung truyền thông, cho đến việc đàm thoại rõ ràng hơn — công nghệ Chống Ồn Chủ Động (ANC) đang dần trở thành tính năng không thể thiếu của tai nghe không dây. Samsung đã đặt ra tiêu chuẩn mới với công nghệ Adaptive ANC độc quyền, cho phép Galaxy Buds3 series tự động thích ứng với điều kiện đeo khác nhau của từng người dùng cũng như các thay đổi về độ vừa vặn khi đeo trong thời gian dài, từ đó mang lại hiệu suất chống ồn tối ưu.

 

Vì tai nghe được đeo trực tiếp vào tai, sự phối hợp chặt chẽ giữa các nhóm phần cứng và phần mềm là là vô cùng quan trọng để hoàn thiện các thông số kỹ thuật và tối ưu hóa công nghệ ANC.

 

“Chúng tôi đã phát triển nhiều thuật toán từ trước để phù hợp với các điều kiện phần cứng khác nhau,” ông Kyoungbo Min chia sẻ. “Thông qua các mô phỏng chuyên sâu, chúng tôi đã chuẩn bị một giải pháp có thể dễ dàng điều chỉnh cho bất kỳ chipset hay thiết bị nào. Quá trình phát triển bao gồm nhiều lần chỉnh sửa và cải tiến, nhưng nhờ sự hợp tác chặt chẽ giữa nhóm nghiên cứu tiên tiến và nhóm phát triển sản phẩm, quá trình thương mại hóa đã được đẩy nhanh.”

 

Samsung Mobile Galaxy S25 series Audio Eraser Galaxy AI Samsung Research interview main5

 

Tách nguồn âm là một lĩnh vực cốt lõi của công nghệ âm thanh thế hệ tiếp theo, và Samsung vẫn đang tiếp tục thúc đẩy những đổi mới nền tảng trong lĩnh vực này. Với khả năng khai thác tối đa công nghệ tách nguồn âm, Audio Eraser mở ra tiềm năng mở rộng sang nhiều ứng dụng mới. Sự phát triển không ngừng của Galaxy AI hứa hẹn sẽ mang đến nhiều tính năng trực quan và hữu ích hơn nữa cho người dùng trong tương lai.

 

 

[1] Kết quả có thể khác nhau tùy theo video dựa vào cách các âm thanh xuất hiện trong video. Yêu cầu đăng nhập Samsung Account. Một số loại âm thanh có thể được phát hiện như giọng nói, âm nhạc, tiếng gió, thiên nhiên, đám đông và tiếng ồn. Khả năng phát hiện âm thanh thực tế có thể khác nhau tùy thuộc vào nguồn âm thanh và điều kiện của video. Độ chính xác của kết quả không được đảm bảo.