בדאון-טאון של רדווד-סיטי, במשרדי החברה Nuementa שהקים, ג'ף הוקינס וחבורתו עובדים על מודל ממוחשב של קליפת המוח, וליתר דיוק ה-neocortex, מין שמיכה מקווצ'צ'ת של ניורונים שדחוסה בחלק החיצוני של המוח האנושי. הניאוקורטקס מעבד את המידע שמגיע מהחושים שלנו, וגם מעורב בשפה, הסקה, ופעולות מוטוריות. הגישה של הוקינס אומרת שהאלגוריתם שהניאוקורטקס מפעיל בכל אחד מאיזוריו השונים הוא זהה, לא משנה אם זה ראייה, שמיעה או מישוש. כל מה שהניאוקורטקס עושה הוא לקבל קלט ולחזות מה הולך להיות הקלט הבא. איך בדיוק? את זה הוא מנסה לגלות. לא באמצעות ניתוח של המוח במעבדה, ולא באמצעות מחקרים פסיכולוגיים קוגניטיביים או fMRI, אלא באמצעות בנייה של מערכת ממוחשבת ענקית שמתנהגת לפי עקרונות הניאוקורטקס, וניסוי וטעייה בה.
אחרי הוקינס אני עוקב כבר כמה שנים, מאז שקראתי את סיפרו, 'על התבונה' (On Intelligence), ממש לפני שהתחלתי את הדוקטורט. הוקינס מצביע על שני עקרונות מנחים בניאוקורטקס, חיזוי רצפים ומבנה היררכי, ומעלה נימוקים משכנעים שאפשר להשתמש בעקרונות אלו כדי לבנות מכונות נבונות. הספר, שיצא ב-2004, זכה לתהודה רבה, ומצא את דרכו למדפי הספרים של פרופסורים רבים לבינה מלאכותית. אנדרו אנג, פרופסור ידוע לבינה מלאכותית (וממנהיגי גישת ה-Deep Learning), הודה בפני שהוא קונה ארגזים של הספר הזה ומחלק עותקים שלו לדוקטורנטים חדשים. "זה ספר מעורר השראה ברמות".

On Intelligence. מעורר השראה ברמות.
הרעיון שאפשר ללמוד מהמוח האנושי איך לבנות מכונות נבונות אינו פופולרי, בלשון המעטה, בחוגי מדעי המחשב. ליבי היה איתו כשסיפר, בפתיחת הספר, על נסיונו הכושל להתקבל לדוקטורט ב-MIT בראשית שנות השמונים, כשהצהיר בפני הפרופסורים לבינה מלאכותית שהוא רוצה ללמוד את המוח:
“It was like running into a brick wall. MIT was the mother-ship of AI…To these scientists, vision, language, robotics and mathematics were just programming problems…Studying brains would limit your thinking…They didn’t believe that you needed to study real brains to understand intelligence and build intelligent machines”.
אז הוקינס לא הלך לאקדמיה. במקום זה הוא הלך לתעשייה, ואת מיומנותו בזיהוי תבניות ניצל כדי לפתח טכנולוגיה חדשנית שמאפשרת למחשב לזהות אותיות הנכתבות בכתב יד באמצעות עט אלקטרוני. נשמע מוכר? כן,כן, הוא האיש שעמד מאחורי ה-Palm Pilot.
במשך כל התקופה הזו, הוא טוען, האובססיה שלו ללמוד את המוח נותרה על כנה, ואחרי שעשה את הונו, החליט להפנות אותו ואת מרצו בחזרה על משוא תשוקתו – להבין כיצד המוח מעבד אינפורמציה, ולבנות מכונה שתפעל לפי אותם העקרונות. ב-2002 הוא הקים את ה-Redwood Neuroscience Institute בברקלי שמארח חוקרים רבים וכיום מנוהל בידי חברו מיודענו ברונו אולשהאוזן. את החברה Numenta הוא הקים ב-2005, זמן קצת לאחר פרסום "על התבונה", על מנת ליישם בפועל את הרעיונות שהעלה בספר.
בניגוד לניורונים של רשתות ניורונים ושל Deep Learning, שלא עושים הרבה יותר מחישוב של צירופים ליניאריים, הניורונים במודל של הוקינס מתנהגים באופן שדומה הרבה יותר לניורונים אמיתיים. הם יכולים לדכא ניורונים אחרים, ליצור סינאפסות ודנדריטים, ולקבל גם קלט רוחבי (מאותה שכבת ניורונים) וגם מלמטה (מהשכבות שקרובות יותר לחושים). אולם, ההבדל החשוב ביותר הוא שהם יכולים לחזות את ההפעלה של עצמם. זה מאפשר למודל ללמוד שרשראות של אירועים, תבניות נתונים המתרחשות בזמן כמו גם במרחב. לכן המודל של הוקינס לא רק מייצג את הקלט הנוכחי, אלא גם מנחש מה הקלט הבא עומד להיות.

משמאל לימין: ניורון אמיתי, ניורון מלאכותי (מרשת ניורונים), ניורון של Numenta. אתרי דנדריטים מסומנים בצבע. מתוך המסמך של ניומנטה.
במהלך שנות קיומה המעטות Numenta פרסמה כמה מסמכים שמפרטים את המודל שלהם עד לרמת הפסאודו-קוד. בנוסף, הם הוציאו ספריית תוכנה וניסו ליצור קהילת משתמשים שתשתמש במודל שלהם. אולם, בזמן שבכינוסי AI גישת ה-Deep Leaning התחילה לצבור תאוצה, לא הרבה ידיעות הגיעו מ-Numenta. כאחד מאותם סטודנטים שקיבלו השראה מגישתו המרעננת של הוקינס, הייתי סקרן לדעת מה לא עבד. הייתי אף יותר סקרן לשמוע על פריצת הדרך אליה אמר לי (לפני הפגישה) שהגיע לאחרונה. גיליתי אדם מבריק, הניצוץ עדיין בעיניו והלהט בדבריו, ידען, דעתן, ובטוח בעצמו. להלן הראיון:
Jeff Hawkins, something didn’t work the way you expected?
“Initially, we thought it would be 3-5 years before we had a commercial application. It took us 6 years. In January of 2011 we switched from a ‘research’ company to a ‘product’ company. After a year of experimenting with the new algorithms, a business opportunity surfaced and we decided to take it. We are working on a product now, and when it’s ready we’ll see how it works. But you all will have to wait since we’re in stealth mode.”
Tell me about the breakthrough.
“The big advance 18 months ago is about taking temporal sequences of data and forming a stable representation for them, and then using it to make predictions. It has a tight relationship to Neuroscience. The new algorithm, which we call the Cortical Learning Algorithm (CLA), is a beautiful mesh between top-down theoretical needs and bottom-up biological detail. They both inform one another. One thing that came out of this is a very detailed model on the role of dendritic segments. Most of the computation in the neuron is in the dendrites.”
“In thanksgiving 2009, the concepts behind CLA started. I remember this because over the holiday I read the book Dendrites. Read it cover to cover twice. I had a theory about how neurons will learn sequences and I wanted to see if it is biologically real, so this was a test for the theory. The breakthrough was that the same cells that learn to represent the input have to also learn the sequences. There aren’t any other cells – Biology tells you that. We spent a year implementing the algorithms that followed from this breakthrough, and at the end of 2010 we set out to build a business out of that, including outside funding.”
“One exciting thing was to learn that each cell could look at a sub-sample of the cells nearby, and form connections to those that were active prior to this one becoming active. Mathematically you only need to connect to twenty or so of the active cells – that is sufficient to predict your own activity even though the overall pattern you are trying to recognize can consist of hundreds or thousands of cells. Each cell can participate in many different patterns resulting in a distributed sequence memory. That was one key insight, and was different than what we had implemented before.”
What was the crisis that led to the breakthrough?
“We had spent 5 years trying to figure out how to learn sequences of patterns in complex large data streams. We tried many approaches, most of them from Machine Learning. At the time, one of the co-founders of the company was Dileep George. He is more of a math guy, and would come up with mathematical techniques, but it turned out to be a really hard problem. Finding temporal structure and stable representation in a messy data-stream – that’s hard. In the fall of 2009 I said, ‘Let me go back to biology. Here is how I think neurons would do it.’”
Isn’t it ironic? Earlier you mentioned how AI professors said that studying brains would limit your thinking. It turned out that relying on Machine Learning methods could limit your thinking.
“You have to do both. You want to understand the concepts of Machine Learning – it helped seeing why all the other techniques didn’t work. You have to have a conceptual framework of the problem you are trying to solve. Then you can look at the Neuroscience and take a guess on how to do this.”
How do you know if the changes you are making to the model are good or not?
“There are two categories for the answer – one is to look at neuroscience, and the other is methods for machine intelligence. In the Neuroscience realm there are many predictions that we can make, and those can be tested. If our theories explain a vast array of neuroscience observations then it tells us that we’re on the right track. In the Machine Learning world they don’t care about that, only how well it works on practical problems. In our case that remains to be seen. To the extent you can solve a problem that no one was able to solve before, people will take notice.”
But you are not trying to optimize any particular task?
“Is your brain optimizing a particular task? There’s something called the ‘no free lunch theorem’. It says that no one algorithm is best for everything. Generally, if you take a particular task and you put five PhDs in a room, they will come to a pretty good solution. But from a business perspective that is not a scalable solution. That is not how the brain does it. The neocortex uses a pretty generic algorithm. It’s not the best algorithm but it can solve a large class of problems up to a certain level of proficiency.”
A one-size-fits-all algorithm?
“The neocortex is like that, not necessarily the rest of the brain (for example, the retina is very specific). If you are born without sight, your visual cortex becomes sensitive to touch or sound. If I practice how to use a new tool, an area of the brain becomes dedicated to it. Today Machine Learning is not easy – it has a broken business model. You’ve got to have a bunch of Stanford graduates to solve problems. The question is if we can make it any easier.”
Do you think that the Deep Learning approach is addressing these issues?
“Conceptually it’s similar. I am happy to see the interest in Deep Learning. I was also happy to see the interest in Neural Networks, but they didn’t go far enough. They stopped too soon. The risk with Deep Learning is that they will have quick early success and then they’ll stop there, which is what happened with Neural Networks.”
They stopped too soon?
“Early neural network researchers had success on simple problems, but they didn’t continue to evolve the technology. They got hung up on doing better on very simple tasks. Clearly the brain is a neural network, right? But most artificial neural networks are not biological at all. I don’t think that approach can succeed with such simple networks. I determined very early that any brain model has to explain how the brain makes huge amounts of predictions. It requires a temporal memory that learns what follows what. It’s inherent in the brain. If a neural network has no concept of time, you will not capture a huge portion of what brains do. Most Deep Learning algorithms do not have a concept of time.
Is it more important to you to understand the brain better or to build better algorithms for AI?
“My number one has always been to understand how the brain works. I want to understand what my brain is, who I am and how my brain works. I wrote in my book about my eye opening experience reading the Scientific American article by Francis Crick in September 1979. I was 22 at the time. Crick said that we have lots of data but ‘no theoretical framework’ for understanding it. I said to myself, ‘Oh Gosh – we can do this. What else could be more interesting to work on in your life?’ It became a personal goal, and I’ve learned so much by now that I feel I’ve met that goal. There is no reason we can’t build a machine that will work like this, and that’s exciting. We can build machines that are faster and smarter than humans, and that can solve problems that we have difficulty with. I find discovery of knowledge is the most exciting thing.”
לקריאה נוספת: