Cách Alexa lắng nghe các từ đánh thức

Spread the love

Alexa luôn lắng nghe nhưng không liên tục ghi âm. Nó không gửi bất kỳ thứ gì đến các máy chủ đám mây cho đến khi nghe thấy bạn nói từ đánh thức (Alexa, Echo hoặc Computer). Nhưng lắng nghe những lời cảnh tỉnh khó hơn bạn tưởng.

Phần cứng Echo không phải là tất cả những gì thông minh. Nếu không có internet, bất kỳ yêu cầu hoặc câu hỏi nào bạn đặt ra sẽ không thành công. Điều này là do các lệnh của bạn được gửi đến đám mây để giải thích và đưa ra quyết định. Amazon không muốn mọi cuộc trò chuyện của bạn trước loa thông minh đều được ghi lại mà thay vào đó, chỉ các lệnh bạn đưa ra cho loa thông minh. Vì lý do này, công ty sử dụng một lời cảnh tỉnh để thu hút sự chú ý của loa thông minh. Để thực hiện điều này, Amazon sử dụng kết hợp các micrô được tinh chỉnh, bộ đệm bộ nhớ ngắn và đào tạo mạng thần kinh.

Micrô tinh chỉnh Xác định giọng nói của bạn

Đèn LED màu xanh nhạt sẽ luôn hướng về hướng giọng nói của bạn.

Loa trợ lý giọng nói, như Echo và Echo Dot, thường có nhiều micrô tích hợp. Ví dụ, Echo Dot có bảy. Mảng đó cung cấp cho các thiết bị một số khả năng, từ nghe các lệnh được nói ở xa, đến tách tiếng ồn xung quanh khỏi giọng nói.

Cái sau đặc biệt hữu ích cho việc phát hiện từ đánh thức. Sử dụng nhiều micrô, Echo có thể xác định chính xác vị trí của bạn so với nơi nó đang ngồi và nghe theo hướng đó trong khi bỏ qua phần còn lại của căn phòng.

Bạn thấy điều này hoạt động bất cứ khi nào bạn sử dụng từ đánh thức. Đứng về phía một Echo hoặc Echo Dot và nói lời đánh thức. Lưu ý rằng chiếc nhẫn sáng lên với màu xanh lam đậm và sau đó là màu xanh lam nhạt hơn khi nó quay tròn và “hướng” về phía bạn. Bây giờ, di chuyển vài bước sang một bên và nói từ đánh thức một lần nữa. Chú ý những ánh sáng xanh nhạt đi theo bạn.

  Làm thế nào để chọn tốt nhất

Biết bạn đang ở đâu, giúp thiết bị tập trung vào bạn tốt hơn và điều chỉnh tiếng ồn từ nơi khác.

Bộ nhớ ngắn giúp loa không bị giữ quá nhiều

Thiết bị Echo có nhiều dung lượng lưu trữ, nhưng chúng không sử dụng nhiều. Theo Rohit Prasad, Phó chủ tịch Amazon kiêm Nhà khoa học trưởng của Trí tuệ nhân tạo Alexa, một Echo vật lý chỉ có thể lưu trữ một vài giây âm thanh.

Bằng cách giảm khả năng của nó, Amazon không chỉ cung cấp cho bạn nhiều quyền riêng tư hơn (đó là nơi ít lưu trữ giọng nói của bạn hơn) mà còn ngăn Echo nghe toàn bộ cuộc trò chuyện, hạn chế sự tập trung của nó vào việc tìm từ đánh thức.

Hãy tưởng tượng bạn có một cuộn băng cát-xét dài ba giây và một máy ghi âm. Giả sử sau khi đến cuối, cuộn băng lặp đi lặp lại từ đầu. Nếu bạn bắt đầu ghi âm một cuộc trò chuyện, mọi thứ bạn nói bốn giây trước sẽ bị xóa và ngay lập tức được ghi lại. Đó là những gì Amazon Echo làm.

Nó ghi liên tục nhưng xóa sạch mọi thứ nó vừa ghi cùng một lúc. Khoảng thời gian chú ý ngắn đó có nghĩa là tất cả những gì nó có thể nghe được là từ “Alexa” và không nhiều hơn thế. Tuy nhiên, ba giây là đủ dài để từ đó được ghi lại, kiểm tra và hành động một cách thích hợp.

Huấn luyện mạng thần kinh giúp so khớp mẫu

Biểu diễn các lớp được sử dụng bởi các thuật toán của Amazon.

Cuối cùng, Amazon phụ thuộc vào đào tạo mạng thần kinh để dạy Echo cách đối sánh mẫu. Giống như các hình thức học máy khác, Amazon đào tạo các thuật toán của mình bằng cách cung cấp cho nó từng trường hợp của từ Alexa (hoặc Máy tính hoặc Echo, tùy thuộc vào từ đánh thức mà công ty đang đào tạo).

  Cách thiết lập tài khoản Spotify Kids

Ý tưởng là bao gồm mọi chi tiết và điểm nhấn, cũng như bối cảnh. Amazon muốn Echo của bạn nhận ra sự khác biệt khi bạn đang nói chuyện với nó, khi bạn đang nói về nó hoặc, có thể, khi bạn đang nói chuyện với một người tên là Alexa. Mic định hướng cũng hỗ trợ thực hiện mục tiêu đó.

Với mỗi từ mà Echo nghe được, nó chạy âm thanh qua các lớp thuật toán. Mỗi lớp được thiết kế để loại trừ dương tính giả, tìm kiếm bí danh âm thanh hoặc manh mối ngữ cảnh. Nếu kiểm tra một lớp vượt qua, từ đó sẽ chuyển sang mục tiếp theo. Cuối cùng, khi thiết bị cục bộ quyết định rằng nó đã nghe thấy lời đánh thức, nó sẽ bắt đầu ghi lại và chuyển âm thanh đến các máy chủ đám mây của Amazon. Amazon sử dụng bốn thuật toán: một thuật toán cho mỗi từ đánh thức (Alexa, Máy tính, Echo) và một cho Alexa Guard, xử lý các âm thanh cụ thể, chẳng hạn như tiếng kính vỡ, giống như một lời cảnh tỉnh.

Nhưng ngay cả khi một trận đấu xảy ra, Amazon vẫn thực hiện các bước kiểm tra phức tạp hơn. Bạn có nhận thấy rằng khi ai đó nói từ Alexa trên một chương trình truyền hình hoặc quảng cáo, nó thường không nhận được phản hồi từ Echo của bạn? Đó là bởi vì Amazon cũng thực hiện kiểm tra đám mây.

Kiểm tra đám mây loại bỏ một số khẳng định sai

Điều này quảng cáo Alexa vui nhộn sẽ không đánh thức Echo của bạn.

Khi các công ty tạo quảng cáo có Alexa, họ có thể gửi âm thanh đến Amazon. Công ty chạy âm thanh thông qua các thuật toán đối sánh mẫu tương tự được sử dụng để xác định từ đánh thức. Khi cá thể chính xác đó được lập danh mục đầy đủ, nó sẽ được thêm vào cơ sở dữ liệu.

  Cách tải xuống các ứng dụng không còn lâu nữa trong App Store trên điện thoại của bạn

Là một phần của quy trình khi tiếp cận với đám mây, Echo của bạn bao gồm thông tin về từ đánh thức mà nó đã nghe và kiểm tra cơ sở dữ liệu đó. Bất cứ khi nào nó tìm thấy một kết quả trùng khớp, Amazon sẽ hướng dẫn Echo của bạn bỏ qua lời đánh thức, tắt và loại bỏ mọi âm thanh đã ghi.

Ngoài ra, Amazon kiểm tra các trường hợp của từ đánh thức được nói đồng thời. Không phải mọi công ty đều gửi âm thanh cho Amazon, vì vậy công ty đã đưa ra một giải pháp sao lưu mới. Sau khi kiểm tra sự trùng khớp cơ sở dữ liệu, công ty sẽ so sánh dấu ấn từ đánh thức với bất kỳ trường hợp nào khác xuất hiện cùng lúc. Không có khả năng hai người nói Alexa đồng thời sẽ nghe hoàn toàn giống nhau, vì vậy nếu có sự trùng khớp, Amazon biết đó có thể là một chương trình thương mại hoặc truyền hình và bỏ qua yêu cầu.

Bất chấp tất cả các cuộc kiểm tra, kết quả dương tính giả vẫn xảy ra. Bạn có thể nghe những gì Echo của bạn đã ghi lại tại Trung tâm bảo mật của Amazonvà bạn có thể sẽ tìm thấy ít nhất một dương tính giả trong nhóm. Nhưng công nghệ này liên tục được cải tiến và cuối cùng, Amazon muốn nó hoạt động mà không cần một lời cảnh báo nào cả.

x