Vì sao
người ta nói nhiều về ChatGPT?
Thierry Poibeau
Huỳnh Thiện Quốc Việt dịch
Posted on 10/02/2023 by Boxit
VN
https://boxitvn.online/?p=83001
Việc ChatGPT
ra mắt vào ngày 30 tháng 11 vừa qua đã đánh dấu một cột mốc mới trong sự
phát triển các công nghệ về xử lý ngôn ngữ. Trong mọi trường hợp, đây là lần đầu
tiên một hệ thống AI, kết quả trực tiếp từ công trình nghiên cứu, đã khơi dậy sự
nhiệt tình như thế: nhiều bài viết đã xuất hiện trên các báo chuyên ngành cũng
như trên các báo phổ thông. ChatGPT (hay OpenAI, công ty phát triển ChatGPT, hoặc
cả hai) đã đều đặn dẫn đầu xu hướng trên Twitter cho đến tận hôm nay.
Vì sao có một tiếng vang lớn như thế? Liệu các
khả năng của ChatGPT có đánh dấu một bước ngoặt khác so với các công nghệ trước
đây trong việc tạo ra các văn bản hay không?
.
Có thể trò chuyện với ChatGPT
Rõ ràng, ChatGPT đã cho phép một bước nhảy vọt
về chất: nó có khả năng trả lời hầu hết mọi tra vấn bằng ngôn ngữ tự nhiên,
theo cách thường phù hợp.
GPT2, rồi GPT3 – các mô hình ngôn ngữ trước
đây do OpenAI phát triển – đã tỏ ra rất mạnh trong việc tạo ra văn bản từ một
vài chữ hoặc cụm từ được đưa ra dưới dạng lời nhắc (cái được gọi là “prompt [nhắc
lời]”): người ta thường nói đến “con vẹt” (stochastic parrots/con vẹt ngẫu
nhiên), như đề xuất của Emily
Bender, và nhiều nhà
nghiên cứu phê
bình khác về các kỹ thuật này.
Thật vậy, người ta có thể nói rằng các hệ thống
này tạo ra văn bản từ những mẫu câu được rút ra từ kho ngữ liệu khổng lồ mà các
hệ thống này có sẵn… ngay cả khi phải diễn đạt hình ảnh con vẹt này một cách
tinh tế: các hệ thống không lặp lại các đoạn trích từng chữ một, mà tạo ra một
cách tổng quát một văn bản gốc bằng cách sử dụng lại, diễn giải lại, kết hợp
các yếu tố thấy được trong nhiều ngữ liệu khác nhau.
ChatGPT lấy lại các đặc điểm đó, nhưng phần
“chat” (đối thoại) sẽ bổ sung một khía cạnh hoàn toàn khác, và thường có vẻ loè
bịp.
Hệ thống không còn tạo ra chỉ một đoạn văn từ
một câu được đưa ra từ lúc đầu. Giờ đây, nó có thể trả lời, một cách chính xác,
những câu hỏi đơn giản cũng như những câu hỏi phức tạp, nó có thể cung cấp các
yếu tố lập luận, nói nhiều thứ ngôn ngữ khác nhau, phân tích hoặc phát triển một
mã tin học, trong số nhiều thứ khác nữa.
Ví dụ: nếu được hỏi liệu hai nhân vật có thể gặp
nhau hay không, hệ thống sẽ có khả năng xác định ngày tháng tương ứng với sự tồn
tại của các nhân vật, so sánh
các ngày tháng đó và suy diễn câu trả lời từ đó. Đây là thứ tầm thường đối
với con người, nhưng chưa có hệ thống nào, cho đến nay, có thể trả lời loại câu
hỏi này một cách chính xác như thế, nếu không có tính chuyên môn cao.
Ngoài ngôn ngữ, ChatGPT còn có thể cung cấp các
yếu tố lập
luận toán học (nhưng thường là sai)
và đặc biệt là phân tích mã
tin học.
Trên quan điểm này, ChatGPT đã đi trước một bước
so với các đối thủ cạnh tranh.
.
ChatGPT, một hệ thống khép kín
Liên quan đến hoạt động của hệ thống, khó có
thể nói gì hơn, bởi vì OpenAI, dù mang tên gọi là open [mở], nhưng lại phát triển
các hệ thống đóng. Điều đó có nghĩa là không thể tiếp cận mã tin học (mã nguồn)
được sử dụng, và hiện nay phần lớn các nghiên cứu gắn liền với Chat GPT vẫn là
một bí mật công nghiệp – mặc dù, tất nhiên, đã có nhiều
nhóm khác đang nghiên cứu về các hệ thống tương tự, và cũng
dựa trên cơ sở kỹ thuật học sâu. Vì thế, người ta có một ý tưởng về những gì được
OpenAI sử dụng.
Nhiều công ty khác đã duy trì một mô hình cởi
mở hơn, chẳng
hạn như Meta với các công trình được tiến hành ở FAIR, thường là các dự án
mở và được công bố tại các hội nghị chính trong lĩnh vực này. Nhưng, nói chung,
người ta đang ngày càng chứng kiến nhiều nghiên cứu khép kín. Ví dụ, trong khi
Apple luôn có một mô hình phát triển riêng
tư và rất bí mật, thì Deepmind lại có một mô hình mở và có lẽ mở ít hơn một
chút, bởi vì giờ
đây công ty đang nằm dưới sự kiểm soát của Google.
Tự thân hệ thống ChatGPT
có thể trở thành một thương phẩm: OpenAI được tài trợ bởi Microsoft, công ty có
thể quyết định đóng cửa quyền truy cập vào hệ thống vào một ngày nào đó, nếu điều
đó có lợi cho họ.
.
Khi thử nghiệm ChatGPT, bạn đã đóng góp (một cách
miễn phí) để cải thiện nó
Trong khi chờ đợi, OpenAI hưởng lợi từ sự phổ
biến rộng rãi mà công cụ của họ mang lại, cũng như hưởng lợi từ tất cả các mối
tương tác của người dùng với ChatGPT. Nếu người dùng báo rằng câu trả lời không
tốt, hoặc yêu cầu công cụ điều chỉnh lại câu trả lời có tính đến một yếu tố bổ
sung, thì đó là bấy nhiêu lượng thông tin mà hệ thống lưu trữ được và có thể sử
dụng lại để tinh chỉnh câu trả lời vào một lần sau, theo yêu cầu đã được đưa ra
hoặc theo một yêu cầu tương tự. Khi thử
nghiệm ChatGPT, chúng ta
đang làm việc miễn phí cho OpenAI!
Quay trở lại với chính hệ thống, phần đối thoại
chính là thứ tạo nên sức mạnh và nét riêng biệt của ChatGPT (so với GPT3 chẳng
hạn). Đây không còn là một mô hình ngôn ngữ “đơn giản” có khả năng tạo ra văn bản
“trên từng cây số”, mà là một hệ thống đối thoại thực sự. ChatGPT hẳn đã hưởng
lợi từ hàng triệu hoặc hàng tỷ ví dụ được
đánh giá bởi con người, và giai đoạn hiện tại – giai đoạn mà hàng trăm
nghìn người dùng đang “chơi” gần như miễn phí với hệ thống – vẫn còn có thể
giúp nó liên tục cải tiến, bởi vì, tất nhiên, tất cả các mối tương tác đều được
ghi lại và được khai thác vì mục đích cải tiến này.
Hiện tại, việc truy cập vào kho dữ liệu hàng tỷ
ngữ liệu để hiệu chỉnh một mô hình ngôn ngữ theo kiểu “GPT” là khá đơn giản, ít
nhất là đối với những ngôn ngữ được phổ biến rộng rãi trên Internet.
Nhưng những dữ liệu giúp hiệu chỉnh ChatGPT (đối
thoại, tương tác với con người), tự thân chúng, không được công khai, và đây là
điều mang lại cho OpenAI một lợi thế đáng kể so với đối thủ cạnh tranh.
Ví dụ: Google có nhiều
nguồn dữ liệu khác nhau, nhưng có lẽ cũng khả dĩ khai thác được đối với loại hệ
thống này – đặc biệt khi Google đã phát triển, từ nhiều năm qua, một đồ
thị kiến thức, có khả năng đưa ra câu trả lời với độ tin cậy cao hơn
ChatGPT. Đặc biệt, việc phân tích các chuỗi tra vấn từ công cụ tìm kiếm Google
có thể cung cấp những thông tin có giá trị để hướng dẫn sự tương tác với người
dùng… Tuy nhiên, trong khi chờ đợi, chính OpenAI là bên có sẵn ChatGPT, chứ
không phải Google: OpenAI có lợi thế hơn.
.
ChatGPT đã vượt qua các vòng thử nghiệm đầu tiên
Trên thực tế, ngay cả khi có khả năng vượt qua những
giới hạn của ChatGPT, thì hệ thống vẫn từ chối giải thích cách thức tạo ra
một quả bom, tạo ra những câu chuyện khiêu dâm, hoặc cho thấy cảm xúc (ChatGPT
thường trả lời rằng ChatGPT là một cỗ máy, rằng ChatGPT
không có cảm xúc hoặc cá tính). OpenAI rõ ràng đã có sự quan tâm đến cách
thức truyền thông của họ. Công ty cũng đã hết sức quan tâm đến việc “che chắn”
hệ thống, giúp hệ thống làm thất bại hầu hết những cạm bẫy có thể làm hỏng loại
ứng dụng này trong vài giờ, điều thường xảy ra đối với các hệ thống mở cho công
chúng.
Ví dụ, chúng ta có thể kể đến Meta, vào tháng
11 năm ngoái, đã phải rút
lại hệ thống có tên gọi là “Galactica” sau hai ngày ra mắt trên mạng.
Galactica đã được luyện tập trong lĩnh vực khoa học và được thiết kế để cung cấp
dịch vụ cho các nhà nghiên cứu. Lần đầu tiên nó được quảng cáo là có khả năng viết
các bài báo khoa học, một cách tự động, từ một lời nhắc… trước khi công ty
làm rõ Galactica chỉ là một công cụ hỗ trợ cho công việc viết bài. Nhưng chiến
lược truyền thông đáng tiếc này đã gây ra một cuộc tranh cãi, buộc Meta phải
nhanh chóng gỡ bỏ Galactica.
.
Thierry
Poibeau
Ngược lại, ChatGPT vẫn hiện diện trực tuyến
trên mạng, và luôn khơi dậy nhiều đam mê từ một lượng lớn công chúng. Tuy
nhiên, vẫn có nhiều câu hỏi được đặt ra: Mức độ tác động của ChatGPT sẽ ra sao?
Những ứng dụng nào khác sẽ phát sinh từ nó? Và công ty OpenAI (và Microsoft,
nhà đầu tư chính của nó) nhắm đến mô hình kinh tế nào?
T.P.
*
Thierry
Poibeau là giám đốc nghiên cứu tại Trung tâm nghiên cứu quốc gia của
Pháp (CNRS), Ecole Normale Supérieure (ENS) – PSL
Nguồn bản gốc: “ChatGPT
: pourquoi tout le monde en parle ?”, The Conversation, ngày
11/01/2023.
Nguồn bản dịch: phantichkinhte123.com
No comments:
Post a Comment