Tomoblog

Claude Shannon và sự ra đời của kỷ nguyên thông tin - II

Một bit là lượng thông tin nảy sinh từ một phép chọn giữa hai lựa chọn khả dĩ như nhau. Do vậy, “một dụng cụ với hai trạng thái cân bằng … có thể lưu trữ một bit thông tin.” Tính bit của một dụng cụ như vậy – một công tắc với hai vị trí, một đồng xu với hai mặt, một chữ số với hai trạng thái – không nằm ở kết quả của lựa chọn, mà nằm ở số lựa chọn khả dĩ và xác suất của lựa chọn. Hai dụng cụ như vậy sẽ biểu diễn bốn lựa chọn cả thảy, và sẽ lưu trữ được hai bit. Bởi vì thước đo của Shannon là lôgarít (cơ số 2), số lượng các bit tăng gấp đôi mỗi khi số lượng lựa chọn được bình phương lên.

Claude Shannon và sự ra đời của kỷ nguyên thông tin - II

Đây gần như là bối cảnh về lý thuyết thông tin khi Claude Shannon chọn chủ đề này. Những gì bắt đầu từ thế kỷ 19 như một nhận thức là chúng ta có thể nói chuyện chính xác hơn khi ở xa nếu bằng cách nào đó chúng ta có thể lượng hóa thông điệp của mình, gần như đã chín muồi thành một ngành khoa học mới. Mỗi bước tiến là một bước lên mức trừu tượng cao hơn. Thông tin là dòng điện đi qua một đường truyền. Thông tin là một số lượng các kí tự mà máy điện tín gửi đi. Thông tin là lựa chọn giữa các ký hiệu. Ở mỗi lần lặp lại, tính cụ thể phai nhạt dần đi.

Khi Shannon nghiền ngẫm tất cả những điều này trong suốt một thập kỷ ở căn hộ cử nhân của ông ở West Village, hay đằng sau cánh cửa đóng kín ở Bell Labs, có vẻ như khoa học thông tin gần như tạm ngưng lại. Chính bản thân Hartley vẫn đang làm việc ở Bell Labs, một nhà khoa học gần như nghỉ hưu khi Shannon vào làm việc, nhưng đã quá xa khỏi dòng chảy chính để cả hai có thể hợp tác một cách hiệu quả. Bước đi kế tiếp và mang tính quyết định sau Hartley chỉ có thể đến cùng thiên tài và thời gian. Chúng ta có thể nói, nhờ đã biết trước, rằng nếu các bước tiến là hiển nhiên, thì chắc chắn nó đã không yên vị suốt 20 năm. Nếu bước tiến ấy là hiển nhiên, chắc chắn nó đã không gây ngạc nhiên đến vậy khi xuất hiện.

Nó xuất hiện như một vụ nổ bom vậy,” Pierce nói.

Ngay từ đầu, bài báo mang tính bước ngoặt của Shannon, “Một lý thuyết toán học của thông tin” đã giải thích rằng, ông đã tóm tắt có hệ thống những gì sâu sắc nhất từ những người đi trước trong khoa học thông tin. Nơi Nyquist sử dụng khái niệm mơ hồ “tin tức” và Hartley vật lộn để giải thích giá trị của việc loại bỏ yếu tố tâm lý và ngữ nghĩa, Shannon mặc định rằng ý nghĩa có thể được loại bỏ. Cùng cách thức ấy, ông đã sẵn sàng chấp nhận rằng thông tin đo mức tự do của lựa chọn: Điều khiến thông điệp thú vị đó là chúng được “chọn từ một tập hợp các thông điệp khả dĩ.” Nó sẽ thỏa mãn trực giác của chúng ta, ông đồng ý, nếu chúng ta quy định rằng lượng thông tin trên hai tấm thẻ đục lỗ gấp đôi (thay vì bằng bình phương) lượng thông tin trên một tấm, hay hai kênh điện tử sẽ mang lượng thông tin gấp đôi một kênh.

Đó là món nợ của Shannon. Những gì ông đã làm tiếp đó thể hiện tham vọng của ông. Mỗi hệ truyền thông – không chỉ những hệ có ở năm 1948, không chỉ hệ tạo bởi đôi bàn tay con người, mà là bất kỳ hệ có thể nhận thức nào – cũng có thể lược giản được về một bản chất đơn giản đến kỳ lạ.

12920_59727fa212140da7999b9e659b3196aa

  • Nguồn thông tin phát ra một thông điệp.

  • Nguồn phát mã hóa thông điệp thành một dạng có thể gửi đi như một tín hiệu.

  • Kênh là môi trường mà tín hiệu truyền qua.

  • Nguồn nhiễu biểu thị sự xoắn vặn và đứt gãy làm sai lạc tín hiệu trên đường đến nguồn thu.

  • Nguồn thu giải mã thông điệp, đảo ngược những hành động của nguồn phát.

  • Đích đến là người nhận thông điệp.

Vẻ đẹp của mẫu hình đơn giản hóa này nằm ở tính phổ dụng của nó. Đấy là một câu chuyện mà các thông điệp buộc lòng phải tiến hóa – các thông điệp của con người, thông điệp trong một mạng, giữa các nơron, trong máu. Bạn nói vào điện thoại (một nguồn); điện thoại mã hóa áp lực âm thanh từ giọng nói của bạn thành một tín hiệu điện (nguồn phát); tín hiệu đi qua một đường truyền (kênh); tín hiệu trong một đường truyền gần đó giao thoa với nó (nhiễu); tín hiệu được giải mã ngược (nguồn thu); âm thanh tới tai người nghe ở đầu bên kia (đích đến).

Ở một trong những tế bào của bạn, một dải ADN chứa cách thức tạo ra một protein (nguồn thông tin); chỉ dẫn được mã hóa trong một dải đưa tin ARN (nguồn phát); dải đưa tin ARN mang mã tới vị trí tổng hợp protein (kênh); một trong các “kí tự” trong mã ARN được tráo đổi một cách ngẫu nhiên trong một “đột biến điểm” (nhiễu); mỗi mã ba “ký tự” được dịch thành một amino axit, đơn vị cơ sở tạo nên protein (nguồn nhận); amino axit chuyển thành một dãy protein, và chỉ dẫn của ADN đã được thực hiện (đích đến).

Sáu ô này đủ mềm dẻo để áp dụng cho những thông điệp mà thế giới vẫn chưa nhận thức được – những thông điệp mà Shannon đã lót sẵn đường, ở đây. Chúng chứa đựng giọng của con người như những sóng điện từ nảy vào các vệ tinh và thùng kỹ thuật số vô tận của Internet. Chúng đi đôi với những mã viết trên ADN. Mặc dù còn năm năm nữa khám phá về các phân tử mới xuất hiện, nhưng Shannon có thể được coi là người đầu tiên nhận thức về gen của chúng ta như những đơn vị mang thông tin, một bước nhảy đầy sáng tạo, xóa nhòa biên giới giữa các thông điệp cơ học, điện tử và sinh học.

Dẫu vậy, đầu tiên Shannon thấy rằng khoa học thông tin vẫn thất bại trong việc đặt ra đặc điểm quan trọng của thông tin: bản chất ngẫu nhiên của nó. Khi Nyquist và Hartley định nghĩa nó như một lựa chọn từ một tập các ký hiệu, họ đã giả định rằng mỗi lựa chọn từ tập hợp này sẽ có xác suất bằng nhau, và sẽ độc lập với các ký hiệu được chọn trước đó. Đúng là có một số lựa chọn như vậy, Shannon phản bác. Nhưng chỉ một số mà thôi. Ví dụ, một đồng xu chuẩn có xác suất sấp ngửa là 50-50. Những lựa chọn giản đơn nhất – sấp hay ngửa, có hay không, 1 hay 0 – là những thông điệp đơn giản nhất có thể tồn tại. Thực tế nó là dạng thông điệp phù hợp với các tư duy của Hartley. Nó là đường cơ sở cho thước đo đích thực của thông tin.

12923_fb45343c4635769a36c5072e04b6b978

Các ngành khoa học mới đòi hỏi các đơn vị đo mới – như thể để chứng minh rằng những khái niệm mà chúng ngụ ý cuối cùng cũng mô tả được bằng các con số. Đơn vị mới cho khoa học của Shannon là để biểu diễn tình huống cơ sở của lựa chọn. Bởi vì nó là một lựa chọn giữa 0 hay 1, nó là một “chữ số nhị phân.” Trong phần cộng tác duy nhất mà Shannon chấp nhận trong toàn bộ dự án, ông đặt câu hỏi trên bàn ăn trưa của các đồng nghiệp của mình ở Bell Labs nhằm đề xuất một cái tên sinh động hơn. Binitbigit được cân nhắc và loại bỏ, nhưng đề xuất cuối cùng do John Tukey, một giáo sư của Princeton làm việc ở Bell đưa ra. Bit.

Một bit là lượng thông tin nảy sinh từ một phép chọn giữa hai lựa chọn khả dĩ như nhau. Do vậy, “một dụng cụ với hai trạng thái cân bằng … có thể lưu trữ một bit thông tin.” Tính bit của một dụng cụ như vậy – một công tắc với hai vị trí, một đồng xu với hai mặt, một chữ số với hai trạng thái – không nằm ở kết quả của lựa chọn, mà nằm ở số lựa chọn khả dĩ và xác suất của lựa chọn. Hai dụng cụ như vậy sẽ biểu diễn bốn lựa chọn cả thảy, và sẽ lưu trữ được hai bit. Bởi vì thước đo của Shannon là lôgarít (cơ số 2), số lượng các bit tăng gấp đôi mỗi khi số lượng lựa chọn được bình phương lên.

12919_44788404a9a7eee60c80ad849e3efb7b

Vậy hãy nghĩ về ví dụ ở một thái cực đối nghịch: Tưởng tượng một đồng xu với hai mặt ngửa. Bạn tung bao nhiêu lần cũng được – nó có cho bạn bất cứ thông tin nào không? Shannon nhấn mạnh rằng không. Nó không cho bạn biết rằng, bạn vẫn chưa biết: Nó không giải quyết tính bất định.

Thông tin thực sự đo gì? Nó đo tính bất định mà chúng ta vượt qua. Nó đo xác suất học được cái gì đó chúng ta chưa học được. Hay cụ thể hơn: khi một thứ gì đó mang thông tin về thứ khác – như việc đọc một mét cho chúng ta biết về một đại lượng vật lý, hay một quyển sách kể ta nghe về một cuộc đời – lượng thông tin nó mang phản ánh sự giản lược về tính bất định của đối tượng. Thông điệp mà giải quyết mức bất định lớn nhất – được lựa chọn từ những dải ký hiệu rộng nhất với nhiều kỳ dị nhất – thì giàu có nhất về mặt thông tin. Nhưng ở đâu có mức xác định hoàn hảo, ở đó không có thông tin: Chẳng có gì để nói đến nó cả.

Một vài lựa chọn thì như vậy. Nhưng không phải tất cả các đồng xu đều chuẩn.

Bạn có thề đã nói sự thật, toàn bộ sự thật, và không có gì ngoài sự thật?” Bao nhiêu lần trong lịch sử các lời thề ở phòng xử án có câu trả lời không ngoài gì hơn là “Có”? Bởi vì chỉ có một câu trả lời là thực sự tưởng tượng được, câu trả lời này không mang lại cho chúng ta thông tin gì mới – ta có thể đoán trước được nó. Điều này cũng đúng với hầu hết các nghi thức của con người, tất cả những dịp khi lời nói của chúng ta được quy định, và được kỳ vọng một cách chắc chắn (“Bạn có lấy người đàn ông này không … ?”). Và khi chúng ta tách biệt ý nghĩa khỏi thông tin, chúng ta thấy rằng một vài trong số hầu hết các lời nói có nghĩa của mình lại hóa ra ít thông tin nhất.

Chúng ta có thể đã thử tập trung vào số lần nhỏ nhoi mà ở đó lời thề bị từ chối hay cô dâu rời khỏi án thờ. Nhưng dưới ngôn ngữ của Shannon, lượng thông tin có thể thu được hay mất mát không nằm trong một lựa chọn nhất định mà ở xác suất học được cái gì mới mẻ với bất kỳ lựa chọn cho sẵn nào. Một đồng xu nặng về mặt ngửa hơn sẽ thỉnh thoảng rơi sấp – nhưng bởi vì đồng xu thì quá dễ dự đoán ở mức trung bình, nó cũng nghèo nàn về mặt thông tin.

Vẫn như vậy, các trường hợp thú vị nhất nằm ở hai thái cực của hoàn toàn bất định và hoàn toàn dự đoán được: trong địa hạt rộng lớn của các đồng xu không chuẩn. Gần như mọi thông điệp gửi đi và thu nhận được trong thế giới thực là một đồng xu không chuẩn, và lượng thông tin có thể mất mát hay thu được thay đổi theo độ thiếu chuẩn xác. Ở đây, Shannon đã chỉ ra mức thông tin có thể mất mát hay thu nhận được trong một đồng xu được tung lên trong đó xác suất cho một mặt (gọi là p) thay đổi từ 50 đến 100%.

12922_be590ce170386babcf557b982eee50b4

Trường hợp xác suất 50-50 cho ta một cực đại của một bit, nhưng mức ngạc nhiên trượt một cách ổn định khi lựa chọn dễ dự đoán được hơn theo bất kỳ hướng nào, cho đến khi chúng ta chạm đến lựa chọn có thể dự đoán được một cách hoàn hảo nhất, vốn không cho chúng ta biết gì cả. Trường hợp đặc biệt 50-50 vẫn mô tả được bằng định luật của Hartley. Nhưng giờ đây rõ ràng lý thuyết của Hartley đã bị lý thuyết của Shannon làm tan nát: nó có hiệu quả với mọi tập xác suất. Cuối cùng, độ đo thực sự của thông tin phụ thuộc vào những xác suất này:

H = -p log p – q log q

Ở đây, pq là các xác suất của hai kết quả – của bất kỳ mặt nào của đồng xu, hay của bất kỳ ký hiệu nào có thể được gửi đi – mà cộng lại với nhau bằng 100% (khi có nhiều hơn hai ký hiệu là khả dĩ, chúng ta có thể thêm các xác suất vào phương trình.) Số các bit trong thông điệp (H) nằm trên tính bất định của nó: xác suất càng gần bằng nhau, chúng ta càng bất định về kết quả, và kết quả càng gây ngạc nhiên cho chúng ta. Và khi chúng ta trượt khỏi sự cân bằng, mức bất định cần được giải quyết cũng trượt theo. Do vậy, hãy nghĩ về H như thước đo cho “độ gây ngạc nhiên trung bình” của đồng xu. Hãy để các con số chạy với một đồng xu không chuẩn, rơi ngửa 70% và bạn thấy rằng việc tung nó truyền đạt một thông điệp có giá trị khoảng 0,9 bit.

Giờ đây, mục tiêu của tất cả những điều này không chỉ đơn giản là chỉ trích số chính xác các bit trong mỗi thông điệp nhận thức được: Trong bối cảnh phức tạp hơn một đồng xu được tung lên, các xác suất có thể nhân lên và sẽ khó xác định xác suất chính xác cho mỗi tình huống hơn. Quan điểm của Shannon là buộc các đồng nghiệp phải nghĩ về thông tin bằng xác suất và tính bất định. Nó phá vỡ truyền thống của Nyquist và Hartley đồng thời giúp phần còn lại trong nghiên cứu của Shannon phát triển – mặc dù, đúng với phong cách, ông đã gạt nó đi rất hiển nhiên: “Tôi không cho là nó khó đến thế.”

Khó hay không, thì nó vẫn mới và hé lộ nhiều khả năng trong việc truyền đạt thông tin và chế ngự nhiễu. Chúng ta có thể biến những xác suất không công bằng thành những điểm có lợi cho ta.

Thực tế, với một bó cực nhiều thông điệp, các ký hiệu không biểu hiện như những đồng xu chuẩn. Ký hiệu được gửi đi hiện tại phụ thuộc theo những cách quan trọng và có thể dự đoán được, vào ký hiệu vừa mới được gửi đi. Bởi vì những quy tắc này đưa ra một số quy luật nhất định khả dĩ hơn và một số quy luật hầu như bất khả, những ngôn ngữ như tiếng Anh có ít thông tin hoàn toàn bất định và thông tin tối đa hơn nhiều. Từ góc nhìn của nhà lý thuyết thông tin, các ngôn ngữ của chúng ta là dễ dự đoán khủng khiếp hầu như tẻ ngắt. Và tính dự đoán được này là công cụ căn bản của những người giải mã, một thứ mà Shannon đã quá quen thuộc từ công trình trong Thế chiến II dưới vai trò một nhà mật mã.

Chúng ta có thể tìm được một ví dụ cụ thể cho giá trị của tính dự đoán được cho việc giải mã trong câu chuyện mà Shannon rất ưa thích khi còn thơ ấu: "Con Bọ Vàng" của Edgar Allan Poe. Ở đỉnh điểm của câu chuyện, kẻ săn kho báu lệch lạc Ông Legrand giải thích làm thế nào mà ông ta lại khám phá ra một kho báu bị chôn vùi của một tên cướp biển bằng cách giải mã khối mật mã tưởng như không thể hiểu nổi này:

53‡‡†305))6*;4826)4‡.)4‡);806*;48†8’60))85;]8*:‡*8†83 (88)5*†;46(;88*96*?;8)*‡(;485);5*†2:*‡(;4956*2(5*-4)8’8*; 40 69285);)6†8)4‡‡;1(‡9;48081;8:8‡1;48†85;4)485†528806*81 (‡9;48;(88;4(‡?34;48)4‡;161;:188;‡?;

Ông ta bắt đầu, như mọi người giải mã giỏi làm, bằng cách đếm tần suất xuất hiện của các ký hiệu. Ký hiệu "8" xuất hiện nhiều hơn hết thảy, 34 lần. Thực tế nhỏ nhoi này là chìa khóa để bẻ gãy toàn bộ cấu trúc này. Ở đây, những lời đã khắc sâu trong lòng Shannon từ khi còn là một cậu bé, là cách Ngài Legrand đã giải thích nó:

Hiện nay, trong tiếng Anh, kí tự xuất hiện nhiều nhất là e... Hiếm khi thấy một câu đơn lẻ với độ dài tùy ý trong đó nó không phải kí tự phổ biến. ...

Vì kí tự xuất hiện nhiều nhất của ta là 8, chúng ta sẽ bắt đầu bằng cách giả định nó là e của bảng chữ cái thông thường. ...

Giờ đây, trong tất cả các từ thuộc ngôn ngữ này, từ "the" là từ phổ biến nhất; bởi thế, ta hãy xem, liệu có cách sắp đặt ba kí tự theo cùng một thứ tự, kí tự cuối cùng là 8 hay không. Nếu chúng ta khám phá ra sự lặp lại của những kí tự ấy, rất có thể chúng biểu thị từ "the". Sau khi xem xét, ta thấy rằng không ít hơn bảy lần cách sắp xếp này xuất hiện, các kí tự là ;48. Bởi thế, ta có thể giả định rằng, dấu ; biểu thị kí tự t, 4 biểu thị kí tự h, và 8 biểu thị kí tự e - giả định với 8 và e giờ đã được kiểm chứng một cách chắc chắn. Ta đã tiến được một bước rất xa.

Là công trình của một tên cướp biển biết chữ, mật mã này đủ dễ để phá. Những mật mã phức tạp hơn sẽ dùng tới bất cứ mưu mẹo nào để cản trở việc đếm tần suất: đổi bảng mã từng phần trong thông điệp, loại bỏ nguyên âm đôi và phụ âm đôi, đơn giản làm thế mà không đụng tới kí tự "e". Mật mã mà Shannon đã giúp phát triển trong thời chiến còn xoắn não hơn. Nhưng cuối cùng, việc giải mã vẫn sẽ khả dĩ, và sẽ như thế, bởi vì bất cứ thông điệp nào cũng gặp khó vì thực tế giao tiếp của con người. Tự thân giao tiếp khiến nó có tính dự đoán được.

Phần lớn những gì ta nói có thể không nói cũng được

Đó là trực giác của những người giải mã thời đại cũ mà Shannon đã hình thức hóa trong công trình của mình về lý thuyết thông tin: Ta có thể giải mã được là vì các thông điệp của chúng ta đều ít, rất ít, tính bất định. Chắc chắn hơn, không phải công trình của Shannon về mật mã đã dẫn ông tới đột phá của mình trong lý thuyết thông tin: Ông đã bắt đầu nghĩ về thông tin nhiều năm trước khi bắt đầu nghĩ về mật mã dưới bất kỳ hình thức nào - thực tế, trước đó, ông đã biết rằng mình sẽ dành vài năm hoạt động như một người giải mã phục vụ chính phủ Hoa Kỳ. Cùng lúc đó, công trình nghiên cứu của ông về thông tin và về mật mã đã phát triển từ một nguồn đơn lẻ: niềm ưa thích bản chất thống kê không thể kiểm định được của các thông điệp, và trực giác rằng việc nắm vững bản chất này có thể làm tăng thêm sức mạnh truyền thông của chúng ta. Như Shannon đã nói, tất cả đều là "thông tin, lúc thì cố gắng che đậy nó, và lúc khác thì cố gắng truyền tải nó."

Trong ngôn ngữ của lý thuyết thông tin, đặc điểm của các thông điệp khiến việc bẻ khóa mật mã trở nên khả dĩ là tính dư thừa. Nhà sử học về mật mã, David Kahn, đã giải thích điều đó như sau: "Nói đơn giản, tính dư thừa có nghĩa là có nhiều biểu tượng được truyền tải trong một thông điệp hơn thực sự cần để tạo ra thông tin." Thông tin giải quyết tính bất định của chúng ta; tính dư thừa lại là mọi phần của thông điệp mà không mang tới cho ta bất cứ điều gì mới mẻ. Bất cứ khi nào có thể đoán về những gì diễn ra tiếp theo, ta đang thấy sự hiện diện của tính dư thừa. Các chữ cái có thể mang tính dư thừa: bởi vì U hầu hết đi sau Q, tự thân U không mang tới cho ta cái gì mới mẻ cả. Chúng ta có thể lờ nó đi, và bên cạnh đó nhiều kí tự khác nữa. Như Shannon đã nói, "MST PPL HV LTTL DFFCLTY N RDNG THS SNTNC.”

Các từ ngữ cũng có thể mang tính dư thừa: "the" luôn hầu như là một hình thức ngữ pháp, và thường thì có thể tẩy nó đi mà không mấy ảnh hưởng đến việc hiểu của chúng ta. Nhà mật mã cướp biển của Poe sẽ khôn ngoan cắt bỏ sự dư thừa trong thông điệp của mình bằng cách loại bỏ tất cả các từ "the" hay ";48" - ngay từ ban đầu Ông Legrand đã khai thác hiệu ứng này. Toàn bộ thông điệp có thể mang tính dư thừa: Trong tất cả những trường hợp đồng xu không chuẩn trong đó tất cả những đáp án của chúng ta đều đã được biết trước, ta có thể nói và nói và không diễn đạt được gì mới. Theo cách hiểu thông tin của Shannon, các biểu tượng dư thừa là tất cả những cái ta không cần đến - mọi kí tự, từ, hay dòng mà ta có thể cắt bỏ mà không gây hại tới thông tin.

Và nếu tính dư thừa này phát triển khỏi những luật lệ vốn kiểm soát sự tự do của chúng ta, thì nó cũng bị những vấn đề thực tiễn trong giao tiếp giữa chúng ta bức chế. Mọi ngôn ngữ của con người đều mang tính dư thừa rất cao. Từ góc nhìn vô tư của nhà lý thuyết thông tin, phần lớn những gì ta nói - dù là không theo quy ước, hay ngữ pháp, hay thói quen - đều có thể không cần được nói ra. Trong lý thuyết thông tin của mình, Shannon đã đoán rằng sự phong phú của những văn bản tiếng Anh trên toàn thế giới có thể bị cắt đi một nửa mà không làm mất bất cứ thông tin gì: "Khi chúng ta viết tiếng Anh, một nửa những gì ta viết được cấu trúc của ngôn ngữ xác định, và một nửa được tự do lựa chọn." Sau này, đánh giá về tính dư thừa của ông lên tới 80%: chỉ một trong năm kí tự là thực sự mang thông tin.

Như vậy, Shannon đề xuất, chúng ta may mắn vì sự dư thừa của ta không cao hơn. Nếu không, sẽ không có các câu đố ô chữ. Ở mức dư thừa bằng không, "bất cứ chuỗi các kí tự nào cũng là một đoạn có lý trong ngôn ngữ và bất cứ mảng các kí tự hai chiều nào cũng tạo thành một câu đố ô chữ." Ở mức dư thừa cao hơn, có rất ít các câu khả dĩ và số lượng những giao cắt tiềm tàng giảm đi: nếu tiếng Anh dư thừa hơn nữa, sẽ gần như không thể tạo ra các câu đố. Mặt khác, nếu tiếng Anh ít dư thừa hơn chút, Shannon ức đoán, chúng ta sẽ điền vào các câu đố ô chữ ba chiều.

Hiểu được tính dư thừa, chúng ta có thể vận dụng chúng tùy ý, cũng như kỷ nguyên trước đó các kỹ sư đã nghiên cứu và nghịch ngợm với hơi nước và nhiệt vậy. Dĩ nhiên, loài người đã từng trải nghiệm sự dư thừa này với các phép thử sai của họ trong nhiều thế kỷ. Chúng ta cắt bỏ những gì dư thừa khi chúng ta ghi tốc ký, khi gán biệt danh cho ai đó, khi sáng tạo ra các biệt ngữ để cô đọng lại một khối ý nghĩa ("phía bên trái tàu khi bạn đang quay mặt về phía trước") thành một cụm đơn giản ("cửa tàu"). Chúng ta thêm vào sự dư thừa khi nói "V như trong Victor" để giúp người nghe dễ hiểu hơn, khi ta nói quẩn quanh những điều hiển nhiên, ngay cả khi ta lặp lại chính mình. Nhưng chính Shannon đã chỉ ra sự thống nhất mang tính khái niệm ẩn sau tất cả những hành động này và hơn thế nữa. Trong căn cốt của Kỷ nguyên Thông tin của ta - một khi các dây dẫn và các bộ vi xử lý bị tước mất, một khi các dòng 0 và 1 bị tách biệt - ta tìm thấy hai định luật cơ bản về truyền thông của Shannon. Cùng với nhau chúng nói về hai cách xử lý tính dư thừa: loại bỏ nó và thêm nó vào.

Mọi tín hiệu đều có thể bị nhiễu. Mọi thông điệp đều có thể bị suy sụp, bóp méo và thay đổi tần số.

Để bắt đầu thì, ta có thể gửi một thông điệp nhanh đến thế nào? Shannon đã chỉ ra, điều đó tùy thuộc, vào mức dư thừa mà chúng ta có thể rút ra khỏi nó. Thông điệp hiệu quả nhất thực ra sẽ giống như một chuỗi những văn tự ngẫu nhiên: Mỗi ký hiệu mới sẽ cung cấp thông tin nhiều nhất có thể, và như thế ngạc nhiên nhất có thể. Không một ký hiệu nào bị lãng phí. Do đó tốc độ mà ta có thể giao tiếp trên một kênh cho trước tùy thuộc vào cách chúng ta mã hóa các thông điệp của mình: cách ta đóng gói chúng, cô đọng (compact) nhất có thể, để chuyển đi. Định lý đầu tiên của Shannon phát biểu rằng có một điểm compact cực đại cho bất cứ nguồn thông điệp nào. Chúng ta đã chạm tới những giới hạn của truyền thông khi mọi ký hiệu cho ta biết cái gì đó mới.

Và bởi vì giờ đây chúng ta có một thước đo chính xác cho thông tin, bit, ta cũng đã biết một thông điệp có thể được nén nhiều đến đâu trước khi nó đạt đến điểm kỳ dị hoàn hảo đó. Đó là một trong những điều đẹp đẽ của một ý tưởng vật lý về thông tin, một bit đứng ngang hàng với mét và gam: phép chứng minh cho hiệu quả của sự truyền thông không chỉ phụ thuộc vào môi trường nói chuyện, vào độ dày dây dẫn hay khoảng tần số của một tín hiệu vô tuyến, mà còn phụ thuộc vào thứ gì đó có thể đo được, có thể xác định được trong bản thân thông điệp. Và như vậy, những gì còn lại, là công việc của sự mã hóa nguồn tin: xây dựng những hệ thống tin cậy để rút ra sự thừa thãi từ tất cả những thông điệp dư thừa quá con người ở nguồn, và tái tạo chúng ở đích. Shannon, cùng với kỹ sư Robert Fano, Học viện Công nghệ Massachusetts, đã đặt ra một khởi đầu quan trọng theo hướng này.

Nhưng các thông điệp của ta cũng được truyền đi dưới sự đe dọa. Mọi tín hiệu đều có khả năng bị nhiễu. Mọi thông điệp đều có khả năng bị suy sụp, bóp méo và thay đổi tần số, và hầu hết những thông điệp tham vọng nhất, những xung phức tạp nhất gửi đi trên những khoảng cách xa xôi nhất, là dễ bị bóp méo nhất. Lúc nào đó sớm thôi - không phải vào thời 1948, mà trong đời của Shannon và các đồng nghiệp Bell Labs của ông - ngành truyền thông của con người đã sắp sửa đạt tới những giới hạn cho tham vọng của nó, nhưng chỉ khi có thể giải quyết được nhiễu.

Đó là ý chính của định lý cơ bản thứ hai của Shannon. Không giống định luật đầu tiên của ông, vốn tạm thời cắt bỏ nhiễu từ phương trình, định luật thứ hai đã tiền giả định một thế giới ồn ào đầy thực tế, và chỉ cho chúng ta thấy các biên của sự chính xác và tốc độ bên trong thế giới ấy. Việc hiểu những biên này đã đòi hỏi một đánh giá không đơn giản là những gì chúng ta muốn nói mà còn là những gì chúng ta ngụ ý khi nói điều đó: các đặc tính của kênh mà thông điệp của chúng ta được gửi đi, bất kể kênh của chúng ta là một đường điện tín hay là một sợi cáp quang.

Bài báo của Shannon là bài đầu tiên định nghĩa khái niệm dung lượng kênh, số các bit trên giây mà một kênh có thể xử lý chính xác. Ông đã chứng minh được một mối quan hệ tường minh giữa dung lượng kênh và hai đặc tính khác của nó: băng thông (hay khoảng tần số nó có thể điều tiết) và tỉ số tín hiệu trên nhiễu của nó. Mặc dù vậy, thực tế mang tính đột phá về dung lượng kênh không chỉ đơn giản là nó có thể được đánh đổi [với băng thông hoặc tỉ số tín hiệu trên nhiễu]. Bởi vì có một trần cứng - một "giới hạn tốc độ" theo bit trên giây - cho sự truyền thông chính xác trong bất cứ môi trường nào. Vượt qua ngưỡng này, cái sẽ nhanh chóng được đặt tên là giới hạn Shannon, sự chính xác của chúng ta tan vỡ.

Shannon đưa ra một mục tiêu cho mọi thế hệ kỹ sư sau này hướng đến, cũng như một cách biết khi nào họ đang lãng phí thời gian đeo đuổi những thứ vô vọng. Theo một cách nào đó, ông đã cho họ cái họ đang theo đuổi kể từ những năm tháng của điện báo vào thế kỷ 19: một phương trình đưa thông điệp và môi trường vào một khuôn khổ của cùng các định luật.

Như thế lẽ ra cũng đủ rồi. Nhưng có vẻ như tùy thuộc vào góc nhìn của mỗi người mà chính bước tiếp theo là kỳ diệu hay không thể nhận thức được. Bên dưới giới hạn tốc độ của kênh, chúng ta có thể tạo ra các thông điệp chính xác như mình mong muốn – gần như hoàn toàn, chúng ta có thể khiến chúng chính xác tuyệt đối, tự do hoàn toàn khỏi nhiễu. Đó là khám phá xa nhất mà Shannon chạm tới: cái mà Fano đã gọi là "không biết, không thể nghĩ nổi," cho tới khi Shannon nghĩ về nó.

Trước Shannon, hiểu biết thông thường là chúng ta phải chịu đựng nhiễu. Lời hứa của Shannon về một sự chính xác tuyệt đối là thứ gì đó mới mẻ một cách căn bản. (Bằng ngôn ngữ kỹ thuật, đó là một lời hứa về tỉ lệ sai số "nhỏ tùy ý": một tỉ lệ sai số nhỏ tùy ý ta muốn, và muốn trả cho.) Với giáo sư kỹ thuật James Massey, đó là một lời hứa mà trên tất cả khiến lý thuyết Shannon mang tính "Copernic": tính Copernic theo nghĩa nó đã khiến những điều hiển nhiên trở nên đáng ngờ một cách hiệu quả và đã cách mạng hóa hiểu biết của chúng ta về thế giới. Cũng giống như chuyện "hiển nhiên" là Mặt trời quay quanh Trái đất, câu trả lời chính xác nhất cho nhiễu "hiển nhiên" liên quan tới các kênh vật lý của truyền thông, với sức mạnh và độ lớn tín hiệu của chúng.

Shannon đã đề xuất một cách nhìn đối ngược đánh bật những quan niệm cũ. Hãy lờ kênh vật lý đi và chấp nhận những giới hạn của nó: Chúng ta có thể vượt qua nhiễu bằng cách xử lý các thông điệp của mình. Câu trả lời cho nhiễu không nằm ở chỗ chúng ta nói to đến đâu mà nằm ở cách chúng ta nói cái ta nói.

Năm 1858, khi cáp điện báo vượt Đại Tây Dương thử nghiệm đầu tiên bị hỏng chỉ sau 28 ngày hoạt động, những người vận hành cáp đã cố gắng đối phó với những tín hiệu sút kém bằng cách lặp lại chúng. Thông điệp cuối cùng vượt Đại Tây Dương là một bản thu những câu lặp: "Xin vui lòng nhắc lại." "Gửi chậm hơn." "Đúng rồi. Đúng rồi." Thực tế, Shannon đã chỉ ra rằng những người đánh chữ bị bao vây ở Ireland và Newfoundland về căn bản đã đúng, đã giải quyết được vấn đề mà không hề biết. Họ có lẽ đã nói, chỉ nếu họ từng đọc bài báo của Shannon, "Làm ơn thêm vào sự dư thừa."

Theo một cách nào đó thì điều này là đủ hiển nhiên: Việc nhắc lại hai lần cùng một thứ trong một căn phòng ồn ào chính là một cách thêm vào sự dư thừa, trên một giả định chưa rõ ràng là tự thân cùng một lỗi sai không bao giờ xảy ra ở một nơi hai lần liên tiếp. Mặc dù vậy, với Shannon, còn có rất nhiều vấn đề hơn thế. Tính có thể đoán trước về ngôn ngữ của chúng ta, sự thất bại bẩm sinh trong việc cực đại hóa thông tin, thực ra là sự bảo vệ tốt nhất của chúng ta trước sai lầm. Với Shannon, chìa khóa nằm ở mật mã. Ông đã chỉ ra rằng chúng ta phải đủ khả năng để viết mật mã, trong đó sự dư thừa hoạt động như một tấm khiên: các mật mã trong đó không có một bit nào là bắt buộc, và do vậy các mật mã trong đó bất cứ bit nào cũng có thể hấp thụ những hư hại của nhiễu.

Shannon đã không viết ra các mật mã trong bài báo năm 1948 của mình, nhưng ông đã chứng minh rằng chúng phải tồn tại. Bí mật cho sự truyền thông chính xác không phải hét lên trong một căn phòng đông đúc, không phải ghép thêm nhiều cuộn từ vào hệ thống điện báo, không gửi tín hiệu tivi hai lần lên trời. Chúng ta chỉ cần đưa ra tín hiệu thông mình hơn.

Chừng nào ta còn lưu tâm tới tốc độ giới hạn của kênh thì sẽ không có giới hạn nào cho sự chính xác của ta, không có giới hạn nào cho mức nhiễu mà từ đó người nghe có thể nghe ta. Bất cứ thông điệp nào cũng có thể được gửi đi mà không có lỗi - chúng ta có thể truyền bất cứ tin nào với bất cứ độ phức tạp nào tới bất cứ ai ở bất cứ khoảng cách nào - nếu nó được dịch thành 1 và 0.

Cũng như tất cả các hệ thống truyền thông đều có một cấu trúc cơ bản chung, tất cả những thông điệp họ gửi đều có một sự giống nhau về tính chất. "Cho tới thời điểm đó, mọi người đã nghĩ rằng truyền thông bao gồm việc cố gắng tìm cách truyền tin bằng ngôn ngữ viết, ngôn ngữ nói, hình ảnh, video, và tất cả những thứ khác - tất cả những thứ này sẽ đòi hỏi cách truyền tin khác nhau," Robert Gallager, đồng nghiệp của Shannon nói. "Claude nói không, bạn có thể chuyển tất cả chúng thành các chữ số nhị phân. Và rồi bạn có thể tìm cách truyền các chữ số nhị phân." Bạn có thể mã hóa bất cứ thông điệp nào thành một dòng các bit, mà không cần phải biết chúng sẽ đi đâu; bạn có thể truyền dẫn một cách hiệu quả và đáng tin cậy bất cứ dòng các bit nào, mà không cần phải biết chúng đã đến từ đâu. Như nhà lý thuyết thông tin Dave Forney nói, "các bit là giao thức phổ quát."

Theo thời gian, các luồng tư duy được phát triển trong bài báo 77 trang của Shannon trên Bell System Technical Journal đã giúp khởi sinh một thế giới số: các vệ tinh nói với mặt đất bằng mã nhị phân, những đĩa chơi nhạc qua các vết ố và vết xước (bởi vì thiết bị lưu trữ chỉ là một kênh khác và vết xước thì cũng chỉ là một nhiễu khác), thông tin của thế giới chảy nhỏ giọt vào những hình chữ nhật đen 2 inch.

Shannon sẽ sống để thấy "thông tin" chuyển từ tên của một lý thuyết thành tên của một kỷ nguyên. "Magna Carta của Kỷ nguyên Thông tin," Scientific American đã gọi bài báo năm 1948 của ông như vậy vài thập kỷ sau này. "Không có công trình của Claude, có thể sẽ không có mạng internet mà ta thấy ngày nay," một lời khen ngợi điển hình. Và tiếp nữa: "Một đóng góp lớn cho nền văn minh." "Một manh mối phổ quát để giải quyết những bài toán trong các ngành khác nhau của khoa học." "Tôi đọc lại nó mỗi năm, và không hề thấy bớt ngạc nhiên. Tôi chắc rằng mỗi lần tôi lại thấy mình thông minh hơn." "Tôi không biết công trình của thiên tài nào vĩ đại hơn trong biên niên của tư tưởng thông tin."

Shannon 32 tuổi vào năm 1948. Đã từ lâu trong giới toán học phổ biến một cách nhìn rằng 30 là tuổi mà một nhà toán học phải hoàn thành công trình lỗi lạc nhất của mình; nỗi sợ tuổi già của nhà toán học chuyên nghiệp cũng không khác với của vận động viên chuyên nghiệp là bao. "Với hầu hết mọi người, 30 đơn giản là vạch ngăn cách giữa tuổi trẻ và tuổi trưởng thành," người viết tiểu sử của John Nash, Sylvia Nasar viết, "nhưng các nhà toán học xem nghề nghiệp của họ là trò chơi của một chàng trai trẻ, thế nên tuổi 30 báo hiệu thứ gì đó ảm đạm hơn nhiều."

Shannon muộn hai năm so với tiêu chuẩn đó, nhưng ông đã làm được.