Alexa, Siri và Google không hiểu lời bạn nói

Spread the love

Các trợ lý giọng nói như Alexa, Google Assistant và Siri đã có một chặng đường dài trong vài năm qua. Tuy nhiên, đối với tất cả những cải tiến của họ, có một điều kìm hãm họ: Họ không hiểu bạn. Họ phụ thuộc quá nhiều vào các lệnh thoại cụ thể.

Nhận dạng giọng nói chỉ là một trò ảo thuật

Trợ lý giọng nói không hiểu bạn. Không thực sự, dù sao. Khi bạn nói chuyện với Google Home hoặc Amazon Echo, về cơ bản nó sẽ chuyển đổi các từ của bạn thành một chuỗi văn bản và sau đó so sánh nó với các lệnh mong đợi. Nếu nó tìm thấy một kết quả phù hợp chính xác, thì nó sẽ tuân theo một tập hợp các hướng dẫn. Nếu không, nó sẽ tìm kiếm một giải pháp thay thế những việc cần làm dựa trên những thông tin mà nó có, và nếu điều đó không hiệu quả, bạn sẽ nhận được một thông báo thất bại, chẳng hạn như “Tôi xin lỗi, nhưng tôi không biết điều đó . ” Nó không chỉ đơn thuần là trò ảo thuật tay để đánh lừa bạn nghĩ rằng nó hiểu.

Nó không thể sử dụng các manh mối theo ngữ cảnh để đưa ra phỏng đoán tốt nhất hoặc thậm chí sử dụng sự hiểu biết về các chủ đề tương tự để đưa ra quyết định của mình. Cũng không khó để tăng cường trợ lý giọng nói. Trong khi bạn có thể hỏi Alexa “Bạn có làm việc cho NSA không?” và nhận được câu trả lời, nếu bạn hỏi “Bạn có bí mật là thành viên của NSA không?” bạn nhận được câu trả lời “Tôi không biết câu trả lời đó” (ít nhất là tại thời điểm viết bài này).

Con người, những người thực sự hiểu lời nói, không hoạt động như thế này. Giả sử bạn hỏi một con người, “Cái gì là klarvain trên bầu trời? Một cái có hình vòm và có đầy đủ các màu sọc như đỏ, cam, vàng và xanh lam. ” Mặc dù klarvain là một từ bịa đặt, nhưng người bạn hỏi có thể tìm ra từ ngữ cảnh mà bạn đang mô tả cầu vồng.

  Cách nghe Spotify ngoại tuyến trên Samsung Watch

Trong khi bạn có thể tranh luận rằng con người đang chuyển lời nói thành ý tưởng, thì con người có thể áp dụng kiến ​​thức và hiểu biết để đưa ra câu trả lời. Nếu bạn hỏi một con người rằng liệu họ có bí mật làm việc cho NSA hay không, họ sẽ cho bạn câu trả lời có hoặc không, ngay cả khi câu trả lời đó là dối trá. Một con người sẽ không nói “Tôi không biết cái đó” cho một câu hỏi như thế. Rằng con người có thể nói dối là một cái gì đó đi kèm với sự hiểu biết thực sự.

Trợ lý giọng nói không thể vượt quá lập trình của họ

Trợ lý giọng nói cuối cùng bị giới hạn trong các thông số mong đợi được lập trình và việc lang thang bên ngoài chúng sẽ phá vỡ quy trình. Thực tế đó cho thấy khi các thiết bị của bên thứ ba xuất hiện. Thông thường, lệnh tương tác với các lệnh đó rất khó sử dụng, có nghĩa là “yêu cầu nhà sản xuất thiết bị ra lệnh đối số tùy chọn”. Một ví dụ chính xác sẽ là: “Yêu cầu Whirlpool tạm dừng máy sấy.” Đối với một ví dụ thậm chí khó nhớ hơn, Kỹ năng Geneva Alexa điều khiển một số lò GE. Người sử dụng kỹ năng cần nhớ “nói với Geneva” chứ không phải “nói với GE” sau đó là phần còn lại của lệnh. Và trong khi bạn có thể yêu cầu lò làm nóng trước đến 350 độ, bạn không thể yêu cầu tăng nhiệt độ thêm 50 độ nữa. Mặc dù vậy, một con người có thể làm theo những yêu cầu này.

Amazon và Google đã làm việc rất chăm chỉ để vượt qua những trở ngại này, và điều đó cho thấy. Nơi mà trước đây bạn phải làm theo trình tự trên để điều khiển khóa thông minh, bây giờ bạn có thể nói “khóa cửa trước”. Alexa đã từng bối rối khi “kể cho tôi một câu chuyện đùa về con chó”, nhưng hôm nay hãy yêu cầu một câu chuyện và nó sẽ hoạt động. Họ đã thêm các biến thể cho các lệnh bạn sử dụng, nhưng cuối cùng bạn vẫn phải biết lệnh phù hợp để nói. Bạn cần sử dụng đúng cú pháp, đúng thứ tự.

  Cách bật thông báo có mức độ ưu tiên cao cho Gmail

Và nếu bạn nghĩ rằng điều đó nghe giống một dòng lệnh thì bạn không sai.

Trợ lý giọng nói là một dòng lệnh ưa thích

Dòng lệnh được định nghĩa hẹp để thực hiện các tác vụ đơn giản, nhưng chỉ khi bạn biết cú pháp thích hợp. Nếu bạn bỏ qua cú pháp đúng đó và nhập dyr thay vì dir, thì dấu nhắc lệnh sẽ đưa ra thông báo lỗi. Bạn có thể sử dụng bí danh để dễ nhớ các lệnh hơn, nhưng bạn phải biết các lệnh ban đầu là gì, cách chúng hoạt động và cách sử dụng bí danh hiệu quả. Nếu bạn không dành thời gian để tìm hiểu các dòng lệnh bên trong và ngoài dòng lệnh, bạn sẽ không bao giờ hiểu được nhiều điều từ nó.

Trợ lý giọng nói cũng không khác. Bạn cần biết cách chính xác để nói một lệnh hoặc đặt một câu hỏi. Và bạn cần biết cách thiết lập nhóm cho Google và Alexa, tại sao nhóm thiết bị của bạn lại cần thiết và cách đặt tên cho các thiết bị thông minh của bạn. Nếu bạn không làm theo các bước cần thiết này, bạn sẽ cảm thấy thất vọng khi yêu cầu trợ lý giọng nói của mình tắt nghiên cứu chỉ để được hỏi, “nghiên cứu nào” nên được tắt.

Ngay cả khi bạn sử dụng đúng cú pháp theo đúng thứ tự, quá trình này có thể không thành công. Hoặc với phản hồi sai được đưa ra hoặc một kết quả đáng ngạc nhiên. Hai Google Homes trong cùng một ngôi nhà có thể cung cấp thời tiết cho các vị trí hơi khác nhau mặc dù chúng có quyền truy cập vào cùng một thông tin tài khoản người dùng và kết nối internet.

Trong ví dụ trên, lệnh “Đặt hẹn giờ trong nửa giờ” được đưa ra. Trung tâm Google Home đã tạo một bộ hẹn giờ có tên là “Giờ” và sau đó hỏi bộ hẹn giờ sẽ kéo dài bao lâu. Và lặp lại cùng một lệnh ba lần khác vẫn hoạt động chính xác và tạo ra bộ hẹn giờ 30 phút. Sử dụng lệnh “Đặt hẹn giờ trong 30 phút” hoạt động chính xác trên cơ sở nhất quán hơn.

  Cách tìm Spotify của bạn được gói vào năm 2020

Mặc dù việc nói chuyện với Google Home hoặc Echo có thể trôi chảy hơn, nhưng các trợ lý giọng nói và dòng lệnh hoạt động theo cùng một cách. Bạn có thể không cần học một ngôn ngữ mới, nhưng bạn cần học một phương ngữ mới.

Hiểu biết hạn hẹp về trợ lý giọng nói sẽ hạn chế sự phát triển

Không điều nào trong số này ngăn cản các trợ lý giọng nói như Google Assistant và Alexa hoạt động đủ tốt (mặc dù Cortana là một câu chuyện khác). Trợ lý Google và Alexa và tìm kiếm trực tuyến các câu hỏi một cách thận trọng, mặc dù không ngạc nhiên khi Google tìm kiếm tốt hơn và có thể trả lời các câu hỏi cơ bản như chuyển đổi đo lường và toán học đơn giản. Với một ngôi nhà thông minh được thiết lập chính xác và người dùng được đào tạo bài bản, hầu hết các lệnh nhà thông minh sẽ hoạt động như dự kiến. Nhưng điều này đến nhờ công việc và nỗ lực, không phải do trí tuệ hiểu biết.

Bộ hẹn giờ và Báo thức thường đơn giản. Đặt tên theo thời gian đã được thêm vào, sau đó khả năng thêm thời gian vào bộ đếm thời gian. Chúng chuyển từ đơn giản sang phức tạp hơn. Trợ lý giọng nói có thể trả lời nhiều câu hỏi hơn và mỗi ngày lại mang đến những kỹ năng và tính năng mới. Nhưng đó không phải là sản phẩm của sự phát triển bản thân mà đến từ việc học hỏi và hiểu biết.

Và không cái nào trong số đó mang lại khả năng vốn có để sử dụng cái đã biết để tiếp cận cái chưa biết. Đối với mọi lệnh và câu hỏi hoạt động, sẽ luôn có ba lệnh không hoạt động. Nếu không có một bước đột phá nào trong AI mang lại khả năng hiểu biết giống như con người, thì Trợ lý giọng nói hoàn toàn không phải là trợ lý. Chúng chỉ là các dòng lệnh thoại — hữu ích trong trường hợp phù hợp nhưng bị giới hạn trong những trường hợp mà chúng đã được lập trình để hiểu.

Nói cách khác: máy móc đang học mọi thứ, nhưng không thể hiểu được chúng.

x