Cuộc đại chiến giữa máy và người trong cờ vây (Phần I)

by , under Uncategorized

 

CUỘC ĐẠI CHIẾN GIỮA

MÁY VÀ NGƯỜI TRONG

CỜ VÂY (Phần I)

AI đấu với AI: AlphaGo Zero tự-dạy

Đã đánh bại tiền thân của nó1

Tác giả: Larry Greenemeier2, 18 tháng 10, 2017

(Courtesy of Scientific American)

Người dịch: Võ Thành Minh Tuệ & Nguyễn Xuân Xanh

Lời nói đầu của người dịch. Đúng 20 năm trước, 1997, trong một cuộc đối đầu giữa người với máy, Deep Blue của IBM đã đánh bại đại kiện tướng cờ vua thế giới Garry Kasparov, gây chấn động dư luận. Nhưng từ nhiều thập niên qua, người ta tin rằng cờ vây cổ đại khó có thể bị đánh bại bởi các máy tính (máy tính) do tính chất tinh tế và phức tạp của nó mà chỉ bộ óc con người mới làm chủ được. Cờ vua là một trận đánh, trong khi cờ vây được ví là một cuộc chiến tranh toàn diện. Nhưng rồi vài năm qua, các đại kiện tướng cờ vây thế giới lần lược bị đánh bại bởi một hệ thống trí tuệ nhân tạo có tên AlphaGo, gây sửng sốt thế giới. Và mới đây, tới phiên một loại trí tuệ nhân tạo (AI) có tên AlphaGo Zero lại có thể đánh bại được phiên bản thứ nhất đã từng chiến thắng oanh liệt. Trong khi AlphaGo được mô phỏng theo cách cổ điển của Deep Blue, tức dựa lên vô số data kinh nghiệm của các kỳ thủ cờ vua đi trước, thì AlphaGo Zero lại hoạt động độc lập với DNA trí tuệ tổng hợp của con người. Nó có thể tự dạytự học, tự tương tác với nó, và hoàn thiện năng lực chỉ trong vòng 40 ngày (!) để có thể đánh bại tri thức tích lũy hàng ngàn năm của con người. Đó là một sự rẽ nhánh của ngành trí tuệ nhân tạo? Cảm hứng, ngưỡng mộ, kính sợ, và lo âu về những ứng dụng của nó trong tương lai? Bài viết dưới đây nói về sự kiện đó.

Phần mềm chơi cờ vây (Go) của DeepMind – cái đã thống lãnh cuộc cạnh tranh của nó với con người – nay đã tốt hơn.

AI versus AI: Self-Taught AlphaGo Zero Vanquishes Its Predecessor

(Saran Poroong Getty Images)

Đầu năm nay, phần mềm trí tuệ thông minh AlphaGo kết thúc 2.500 năm3 thống trị của con người trên bàn cờ vây. Không hài lòng với chiến thắng 3-0 trước đối thủ hàng đầu (Ke Jie) của thế giới, Cty Công nghệ DeepMind, công ty sáng tạo nên AlphaGo, đã công bố vào ngày thứ tư một phiên bản được nâng cao − AlphaGo Zero – phiên bản mà công ty nói đã đánh bại một cách “sạch sẽ” tiền thân của nó trong một cuộc giáp mặt-AI với nhau, chiến thắng tất cả 100 bàn đã được chơi. Nhưng điều có lẽ còn quan trọng hơn các chiến thắng này là làm sao mà AlphaGo Zero đã lấn át vượt trội như thế. Không giống như AlphaGo ban đầu, cái mà DeepMind huấn luyện qua thời gian bằng cách sử dụng các số lượng lớn của tri thức con người, có sự giám sát, lần này algorit (thuật toán) của hệ thống mới đã tự dạy cho nó để biết làm chủ cuộc chơi.

AlphaGo đánh với Lee Sedol (phải) (Tạp chí Wired)

AI (trí tuệ nhân tạo) làm cho máy tính nhận dạng được gương mặt, làm những cuộc giới thiệu mua hàng trực tuyến, và thực hiện cả việc đậu xe song song. Máy tính thu nhận những khả năng này từ các “algorit học” (learning algorithms), được con người viết ra, và nạp những số lượng lớn của các data huấn luyện vào mạng nơ-ron (thần kinh) nhân tạo (được đặt tên như thế vì khả năng của nó xử lý thông tin theo cách thức dựa trên cấu trúc tế bào nơ-ron của não một cách lỏng lẻo). Quá trình này được gọi là máy học (machine learning). Trong trường hợp của AlphaGo, điều này liên quan đến việc phân tích hàng triệu các nước đi mà các chuyên gia người cờ vây đã từng chơi, và thông qua việc chơi đi chơi lại rất nhiều ván cờ với chính nó để củng cố những điều nó đã học được. AlphaGo đã đánh bại Ke Jie, kỳ thủ cờ vây hàng đầu thế giới – vào tháng Năm4. Tháng 3, 2016, nó đã đánh bại một kỳ thủ hàng đầu khác, Lee Sedol5, với sự trợ lực của các mạng nơ-ron (neural networks) mà các máy tính của chúng đòi hỏi 48 đơn vị xử lý tenxơ (tensor processing units, TPU) – (là) các microchip chuyên môn hóa được thiết kế đặc biệt cho sự huấn luyện mạng nơ-ron. (Xem: TPU: Chip của Tương lai.)

Sự huấn luyện của AlphaGo Zero sử dụng bốn TPU và một mạng nơ-ron duy nhất, mạng mà ban đầu chẳng biết gì về cờ vây. Trí tuệ nhân tạo, AI, đã học mà không cần sự giám sát – nó đơn giản tự chơi với nó, và chẳng bao lâu nó đã đoán trước được những bước đi của nó, và có thể hình dung chúng sẽ ảnh hưởng đến kết cục của ván cờ như thế nào. “Kỹ thuật này mạnh hơn các phiên bản trước của AlphaGo bởi vì nó không còn bị ràng buộc bởi các giới hạn của tri thức con người”, theo như một bài viết blog của người đồng sáng lập Demis Hassabis của DeepMind, và David Silver, người hướng dẫn nhóm nghiên cứu học tăng cường (reinforcement learning) của công ty. (DeepMind là một đơn vị của Alphabet, Inc., công ty mẹ của Google.) Một vấn đề với AI là luôn luôn phải dựa lên tri thức con người, do đó thông tin như thế có thể quá đắt, quá không tin cậy, hay đơn giản không tồn tại trong những hoàn cảnh nhất định. “Nếu những kỹ thuật tương tự có thể được áp dụng cho những bài toán có cấu trúc khác như sự cuốn gấp protein (protein folding), giảm bớt sự tiêu thụ năng lượng, hay đi tìm các vật liệu mới có tính cách mạng, các bứt phá tìm được sẽ có tiềm năng ảnh hưởng tốt lên xã hội”, bài viết blog nói.

AlphaGo Zero nghĩ ra ngay cả các chiến lược bất-quy ước của riêng nó. Cờ vây tiêu biểu chơi bằng cách sử dụng các “viên đá” nhuộm màu đen hay trắng trên một bàn cờ với 19×19 dòng kẻ. Mỗi người chơi đặt các viên đá (tại các nút giao điểm) với mục tiêu bao vây các viên đá của đối phương. “Trong lúc huấn luyện, AlphaGo Zero đã khám phá, chơi và cuối cùng học cách chọn ưu tiên cho một loạt các biến thể của định thức (joseki, chuỗi nước đi) trước đây chưa được biết”, phát ngôn viên Jon Fildes của DeepMind nói. Cờ vây điển hình bắt đầu với những nước đi trong các góc của đường kẻ, cho phép một người chơi tạo được một vị thế toàn cục tốt cho bàn cờ. “Như nước đi thứ 37 trong ván thứ hai được chơi đấu với Lee Sedol, những khoảng khắc của cảm hứng thuật toán cho chúng ta một cái nhìn thoáng qua của tính sáng tạo của AlphaGo và tiềm năng của AI”, người phát ngôn nói thêm. An Young-gil, một tay chơi cờ vây chuyên nghiệp của Nam Hàn có trình độ đệ-bát-đẳng (cao nhất là đệ-cửu-đẳng) đã lọc ra được nước thứ 37 là nước “hiếm hoi và làm cho mê hồn” ngay sau cuộc đấu tháng 3, 2016.

Nghiên cứu của DeepMind mô tả “một kết quả kỹ thuật rất ấn tượng; và cả hai, khả năng của chúng để làm điều đó – và khả năng của chúng huấn luyện hệ thống trong vòng 40 ngày, trên bốn TPU – là đáng kể”, Oren Etzioni, Tổng giám đốc của Viện nghiên cứu Allen về Trí tuệ nhân tạo (AI2) nói, một tổ chức mà người đồng sáng lập của Microsoft, Paul Allen, đã thành lập trong năm 2014 để tập trung vào những lợi ích tiềm năng của AI. “Trong khi nhiều người đã sử dụng [học tăng cường] trước đây, những mặt kỹ thuật của công trình là mới mẻ.”

Thành công của AlphaGo Zero báo trước điềm hay cho sự làm bá chủ của AI đối với các trò chơi, Etzioni nói. Nhưng “tôi vẫn nghĩ sẽ là điều sai lầm nếu tin rằng chúng ta đã học được điều gì tổng quát về tư duy và về sự học cho trí thông minh nói chung”, ông nói. “Cách tiếp cận này sẽ không hoạt động được trong những bài toán có cấu trúc không thích hợp như hiểu biết ngôn ngữ tự nhiên, hay robotic, ở đó không gian trạng thái (state space) là phức tạp hơn, và không có một hàm tối ưu” (objective function, loss function) rõ ràng.

Sự tập luyện không cần giám sát là chìa khóa thành công để cuối cùng tạo ra AI có thể tự suy nghĩ cho mình, Etzioni nói, nhưng “còn cần đến nhiều nghiên cứu hơn bên ngoài các giới hạn của các trò chơi bảng, và những chức năng khách quan tiền-định (predefined) trước khi các máy tính có bắt đầu tư duy ngoài chiếc hộp./. (Xem tiếp Phần II)


Chú giải:

  1. Bài gốc: https://www.scientificamerican.com/article/ai-versus-ai-self-taught-alphago-zero-vanquishes-its-predecessor/. (Courtesy of Scientific American)
  2. Larry Greenemeier là chủ bút liên kết của mục công nghệ cho Scientific American, lãnh vực bao gồm một số đề tài liên quan đến công nghệ, trong đó có biotech, máy tính, công nghệ quân sự, công nghệ nano và robot.
  3. Cờ vây tồn tại ở Trung Quốc 2.500 năm
  4. Trận đấu 3 ván từ ngày 23-27/5/2017, diễn ra ở Trung Quốc. Ke Jie là đại kiện tướng thế giới đệ cửu đẳng người Trung Quốc. Ông mất đi giải thưởng 1.5 triệu đô la Mỹ. Sau khi AlphaGo chiến thắng, Hội cờ vây Trung Quốc trao tặng AlphaGo hàm “đệ cửu đẳng”.
  5. Đây là trận đấu từ ngày 9-15/3/2016, diễn ra tại Hàn Quốc. Lee có hàm đệ cửu đẳng, là nhà vô địch thế giới 18 lần, một tài năng đặc biệt trong làng cờ vây, được xem là “anh hùng quốc gia” của Hàn Quốc. Sau khi nhiều kiện tướng cờ vây thất bại, người ta hy vọng Lee Sedol có thể thắng được AlphaGo. Trận đấu có 5 ván. Ba ván đầu AlphaGo thắng liên tiếp, trước sự kinh hoàng của Lee. Ván thứ 4 Lee thắng lại. Nhưng ván thứ 5 AlphaGo thắng tiếp. Lee đã vuột mất giải thưởng một triệu đô la Mỹ. Sau trận đấu, Hiệp hội cờ vây Hàn Quốc Korea Baduk Association đã trao tặng cho AlphaGo hàm “đệ cửu đẳng”.