Home Màquina v: Els ordinadors poden cuinar, Escriure i pintar millor que nosaltres?

Man v Machine: Can Computers Cook, Write and Paint Better Than Us?

La intel·ligència artificial ara pot guanyar un partit, reconèixer la seva cara, fins i tot recórrer contra el tiquet d'aparcament. Però, pot fer les coses fins i tot els éssers humans troben complicat?


Desenvolupat per Guardian.co.ukAquest article titulat “V home màquina: poden cuinar ordinadors, escriure i pintar millor que nosaltres?” va ser escrit per Leo Benedictus, per a The Guardian el dissabte 4 de juny de 2016 08.00 UTC

un vídeo, per a mi, va canviar tot. És imatges del vell joc d'Atari Breakout, aquella en què es llisca una paleta d'esquerra a dreta al llarg de la part inferior de la pantalla, tractant de destruir els maons fent rebotar una pilota a elles. És possible que hagi llegit sobre el jugador del joc: un algoritme desenvolupat per DeepMind, la companyia britànica d'intel·ligència artificial la AlphaGo programa també va vèncer a un dels millors jugadors alguna vegada, llegeix Sedol, a principis d'aquest any.

Potser es pot esperar un ordinador per ser bo en els jocs d'ordinador? Una vegada que sàpiguen què fer, que sens dubte el fa més ràpid i més consistent que qualsevol ésser humà. El jugador de desbloqueig de DeepMind res sabia, però. No s'ha programat amb instruccions sobre com funciona el joc; que ni tan sols se li va dir com utilitzar els controls. Tot el que tenia era la imatge a la pantalla i la comanda per tractar d'aconseguir tants punts com sigui possible.

Veure el vídeo. Primerament, la paleta deixa caure la pilota en l'oblit, sabent hi ha millor. Eventualment, simplement tafanejava, que colpeja la pilota de tornada, destrueix un maó i obté un punt, per la qual cosa reconeix això i ho fa més sovint. Després de dues hores de pràctica, o al voltant 300 jocs, s'ha convertit en veritat una bona, millor que tu o jo mai serà. Llavors, després d'uns 600 jocs, les coses es posen fantasmagòric. L'algorisme comença apuntant al mateix punt, un cop rere altre, per tal d'excavar a través dels maons a l'espai darrere. Un cop allà, com qualsevol jugador sap Breakout, la pilota rebota al voltant d'una estona, la recopilació de punts gratis. És una bona estratègia que l'equip se li va ocórrer en la seva pròpia.

"Quan els nostres investigadors van veure això, que en realitat els commocionat,"CEO de DeepMind, Demis Hassabis, dir a una audiència en una conferència tecnològica a París. Tu pots veure la seva demostració, massa, i sentir els riures i aplaudiments quan la màquina es dóna compte de la seva estratègia de cau. L'ordinador s'ha convertit intel·ligent, una mica com nosaltres.

"Intel·ligència artificial" es tracta només dels més antics i més publicitat de les frases de moda de tot computació. La idea va ser plantejada per primera vegada de debò Alan Turing a Màquines i intel·ligència, la 1950 de paper en què va proposar el que es coneix com la prova de Turing: si una màquina podria convèncer a vostè a través de la conversa que era humana, que estava fent tant com qualsevol ésser humà podia per demostrar que estava pensant realment. Però el terme IA no s'utilitza generalment fins 1955, Quan matemàtic nord-americà John McCarthy va proposar una conferència per experts. Això es va dur a terme l'any següent, i des de llavors el camp s'ha quedat en un cicle de dues dècades més o menys de la mania i la desesperació. (Els investigadors encara tenen un nou terme - "hivern AI" - per descriure els seus encanteris de moda. Els anys 1970 i 1990 van ser especialment dures.)

Avui en dia hi ha una nova mania, que es veu diferent dels altres: que cap en la butxaca. Un telèfon pot vèncer al campió mundial d'escacs, reconèixer cançons a la ràdio i fotos dels seus fills, i traduir la seva veu en un altre idioma. El robot Nao foto amb Yotam Ottolenghi pot caminar sobre dues cames, parlar, trobar una pilota i fins i tot la dansa. (És un robot, encara que, no AI: no es pot dissenyar un menú.)

Escoltar sobre els avenços de l'AI, vostè no necessita un expert per dir-li al ser excitat, o espantat. Que acaba de començar a tenir la sensació: la intel·ligència és aquí. Està clar que Google té la sensació, massa, perquè va comprar DeepMind de $ 650 milions rumorejat. En 2013, Facebook va llançar el seu propi projecte, amb plans per desenvolupar el reconeixement facial i llenguatge natural per al lloc. Els desenvolupadors ja han començat a treballar en chatbots intel·ligents, el que els usuaris de Facebook podran convocar utilitzant el seu servei de Messenger.

Fins aquí, els ordinadors no han estat "intel·ligent" en absolut, o per un estret marge pel. Han estat bons en tasques fàcils que ens enlluernen, com les matemàtiques, però dolent en els que donem per fet, els quals resulten ser seriosament dur. L'acte de caminar és una cosa que els moderns robots aprenen com nadons i encara lluita amb; Arreglar tasques bàsiques segueixen sent somnis llunyans. "Un exemple és la facilitat amb la qual vostè o jo podríem fer una tassa de te a la cuina d'una altra persona,"Diu El professor Alan Winfield, un expert en robòtica de la Universitat de l'Oest d'Anglaterra. "No és un robot al planeta que podria fer això."

Per entendre per què ser humà és tan difícil, pensar en com es pot aconseguir un ordinador per reconèixer les persones a partir de fotografies. sense AI, vostè ha de saber com ho fas a tu mateix primer, per tal de programar l'ordinador. Vostè ha de recollir i pensar en tots els possibles patrons, colors i formes de les cares, i com canviar a la llum i en diferents angles - i vostè ha de saber el que és important i el que és només fang a la lent. amb AI, vostè no ha d'explicar: que acaba de donar una muntanya de dades reals a un ordinador i deixar que aprengui. Com es dissenya el programari d'aprenentatge segueix sent una qüestió esotèrica, la província d'uns científics de la computació cobejats, però està clar que tenen un guanyador mitjançant el disseny d'estructures de processament de dades basat lliurement en les estructures al cervell. (Això es diu "aprenentatge profund".) Quant a les muntanyes de dades reals, bé, això és el que Google, Facebook, Amazones, Uber i tota la resta passa que els que per aquí.

En aquesta etapa, encara no sabem que utilitza la IA resultarà millor. Josh Newlan, un codificador de Califòrnia que treballa a Xangai, es va avorrir amb l'escolta de trucades de conferència sense fi, així va construir un cert programari per escoltar per ell. Ara, cada vegada que el nom de Newlan s'esmenta, el seu equip a l'instant li envia una transcripció de l'última mitja hora, espera 15 segon, després reprodueix un enregistrament d'ell dient:, "Ho sento, No em vaig adonar que el meu micròfon estava en silenci ". L'any passat, Josh Browder, un adolescent britànic, construït una advocat artificial lliure que fa una crida en contra de multes d'estacionament; que planeja construir una altra per guiar els refugiats a través dels sistemes jurídics estrangers. Les possibilitats són ... Bé, potser un algoritme pot comptar les possibilitats.

Així es ments una màquina de dia superar a la nostra pròpia? Els investigadors jo us he parlat són cautelosos, i fer esforços per emfatitzar el que les seves màquines no poden fer. Però vaig decidir posar a prova AI: pot planejar un dinar, així com Ottolenghi? Pot el meu retrat? És la tecnologia d'intel·ligència artificial encara - o està començant a ser intel·ligents, de veritat?

La prova de cocció

Bé, Jo dic que no és horrible. Els éssers humans han servit meu pitjor. Encara que francament el nom que d'IBM Watson Xef dóna aquest plat ("Salsa de fetge de pollastre salat") és gairebé tan apetitosa com es mereix.

Per ser justos en Xef Watson, i al propi xef-columnista del Guardian Weekend Yotam Ottolenghi, Els havia fixat una tasca. Vaig demanar un plat a base de quatre ingredients que semblava pertànyer a cap part prop de l'altra: fetges de pollastre, iogurt grec, wasabi i tequila. Es podria afegir qualsevol altra cosa que li agrada, però els quatre havien d'estar al plat acabat, el que m'agradaria cuinar i menjar. Xef Watson no va vacil·lar, instantàniament em dóna dues salses per a pasta. Ottolenghi va ser més perspicaç. "Quan vaig arribar al desafiament que vaig pensar, "Això no funcionarà,' ", Em diu.

Jo pensava el mateix. O almenys jo pensava que anava a acabar de menjar dos plats que van aconseguir estar bé tot i els seus ingredients, en lloc de a causa d'elles. De fet - i m'ho pensa una arrossegament, però ¿i què - la recepta de Ottolenghi va ser una revelació: fetge i ceba i una reducció del tequila, servit amb una poma, rave, remolatxa i col xicoira, amb un wasabi i iogurt vestidor. El plat pot tenir poc sentit en el paper, però vaig devorar una sensació de plat que cada element pertanyia. (I vinagreta espessa amb iogurt i wasabi en lloc de mostassa: seriosament, prova-ho.) Ottolenghi tells me the recipe is just a whisker short of publishable.

The thing is, that dish took him and his team three days to perfect. They were able to taste and discuss flavours, textures, de color, temperatures, in a way that Watson can’t – although there have been “discussions” about adding a feedback mechanism in future, Chef Watson’s lead engineer, Florian Pinel, tells me. “A recipe is such a complex thing,” Ottolenghi says. “It’s difficult for me even to understand how a computer would approach it.”

Yotam Ottolenghi and Chef Watson’s dishes
Yotam Ottolenghi and Chef Watson’s dishes Fotografia: Jay Brooks for the Guardian

Watson was first built by IBM to win the television gameshow Jeopardy! a 2011. In some ways it was a misleading challenge, perquè per a un equip de la part dura d'un qüestionari és la comprensió de les preguntes, sense saber les respostes; per als éssers humans, que és al revés. Però Watson va guanyar, i la seva tecnologia va començar a ser aplicat en altres llocs, incloent com a cuiner, la generació de noves receptes a força de 10,000 exemples reals presos de la revista Bon Appétit.

Primer, el programari havia de "ingerir" aquestes receptes, ja que l'equip es va posar Watson. Una gran quantitat de còmput va entrar en la comprensió de quins eren els ingredients, la forma en què es van preparar, quant de temps es cuinen durant, per tal de ser capaç d'explicar com usar-los en nous plats. (El procés encara pot anar malament. Fins i tot ara Xef Watson recomana un ingredient anomenat "Mol·lusc", que s'explica amablement és "el sisè llarga durada àlbum de Ween".)

Un problema més gran estava tractant de donar a la màquina un sentit del gust. "És bastant fàcil per a un ordinador per crear una combinació,"Diu Pinel, "Però com es pot avaluar una?"Watson va ser ensenyat a considerar cada ingredient com una combinació de compostos de gust específiques - dels quals hi ha milers - i després combinar els ingredients compostos que tenien en comú. (aquest principi, maridatge, està ben establert entre els éssers humans.) Finalment, el programari genera instruccions pas a pas que tenen sentit per a un cuiner humana. L'èmfasi està en sorpreses en lloc de farina de planificació pràctica. "Xef Watson és realment allà per inspirar,"Pinel explica. Cada recepta ve amb el recordatori de "utilitzar la seva pròpia creativitat i el judici".

I necessito. El primer pas és "pa julivert de fulla plana", el qual no és una bona idea. estic fent, eficaçment, un porc amb espècies cuinada a foc lent i ragú de vedella, incloent tots els meus quatre ingredients, però, per estrany que Watson també inclou cogombre i em segueix dient que "assaonar amb pebre de Jamaica", els quals es neguen a fer-ho per principi. al final, Tinc una rica salsa amb un gust més aviat a prop del corral, però no és comestible. No puc provar el wasabi o el tequila, la qual cosa estic content per.

Yotam Ottolenghi amb robot Nao
Yotam Ottolenghi amb robot Nao cedit per cortesia de l'escola primària Heber, Londres. Fotografia: Jay Brooks. Styling: llegeix Flude

Watson és intel·ligent i la tasca és dura, però estic disposat a dir que això no és més que una mica de diversió per als empollons d'aliments, fins que em deté Ottolenghi. "Crec que la idea de cocció lenta dels fetges amb una mica de carn és gran,", Diu. "S'intensifica el sabor. Tot es reuniran. Si hagués de començar de nou amb aquesta recepta, òbviament, el iogurt no encaixa - però m'agradaria deixar la pell de taronja existeix, algunes de les espècies. No crec que és una molt mala recepta. Podria funcionar ".

Veredicte Watson amaga la raresa dels ingredients, Ottolenghi, però els fa cantar.

La prova d'escriptura

Poseu poc artífex de la paraula al costat de les màquines temibles d'IBM i Google, i sembla que computacionalment avançat com una calculadora de butxaca. No obstant això, mentre Watson palpentes a través del seu aprenentatge, Artífex de la paraula ja està en marxa. Si vostè llegeix els informes de borsa de l'Associated Press, o el periodisme esportiu de Yahoo, there is a good chance you’ll think they were written by a person.

Wordsmith is an artificial writer. Developed by a company in North Carolina called Automated Insights, it plucks the most interesting nuggets from a dataset and uses them to structure an article (or email, or product listing). When it comes across really big news, it uses more emotive language. It varies diction and syntax to make its work more readable. Even a clumsy robot chef can have its uses, but writing for human readers must be smooth. Hooked up to a voice-recognition device such as Trobo a Amazon, Wordsmith can even respond to a spoken human question – about the performance of one’s investments, say – with a thoughtfully spoken answer, announcing what’s interesting first, and leaving out what isn’t interesting at all. If you didn’t know the trick, you’d think Hal 9000 had arrived.

The trick is this: Wordsmith does the part of writing that people don’t realise is easy. Locky Stewart from Automated Insights gives me a tutorial. You write into Wordsmith a sentence such as, “New ABC figures show that the New York Inquirer’s circulation rose 3% in April.” Then you play around. La 3% has come from your data, so you select the word “rose” and write a rule, known as a “branch”, which will change the word “rose” to the phrase “shot up” if the percentage is more than 5%. Then you branch “rose” to become “fell” if the percentage is negative. If the percentage is -5% or lower, “rose” becomes “plummeted”.

Then you feed it synonyms. So “plummeted” can also be “fell sharply by”. “The Inquirer’s circulation” can be “circulation at the Inquirer”. “Shot up” can be “soared” and so on. Then you add more sentences, perhaps about online traffic, or about which days’ print copies sold best, or about comparisons year-on-year. Then you get clever. You tell Wordsmith to put the sentences with the most newsworthy information first, defined perhaps as those that feature the greatest percentage changes. Maybe you add a branch to say that a result is “the best/worst performance among the quality titles”. Hell, you can even teach it some old Fleet Street tricks, so that if circulation plummets the piece begins “Editor Charles Kane is facing fierce criticism as”, but if circulation has “shot up” this becomes “Charles Kane has silenced critics with news that”. Insert “more” or “again” or “continues” if you get the same thing two months in a row.

“The artificial intelligence is actually the human intelligence that is building the network of logic,” Stewart says, “the same network you would use when writing a story. It could have been developed 10 o 15 fa anys que, in code, but to make it work at this scale has only been possible lately.” Clearly it takes longer to prepare an article on Wordsmith than to write one conventionally, but once you’ve done so, the computer can publish a fresh newspaper circulation story every month, on every newspaper, within seconds of receiving the information. It can publish millions of stories in minutes – or publish only some of them, if the data doesn’t reach a given threshold of newsworthiness. Thus it becomes an automated editor, massa, with adjustable tastes in thoroughness, frequency and hysteria.

For Wordsmith’s task, I suggest football: it’s a field that produces a lot of data and has a readership that wants personalised articles. Guardian football writer Jacob Steinberg volunteers to take on the computer, and I provide a table of facts from the recent Premier League: last season’s league position and this season’s position at Christmas and at the end, goals scored and conceded, top scorer’s name and total, value of summer transfers and a quote from the manager.

Working solely from this data, computer and human must each write a review of the season for a given club. Steinberg chooses Leicester City on the basis that its numbers should contain a story that anyone would see. Wordsmith doesn’t need to choose. It will do all 20.

And in fact both computer and human quickly produce quite similar work:

Leicester City footballer Jamie Vardy

Both Steinberg and Wordsmith deliver dramatic first sentences. Perhaps keen to sound authentic, Automated Insights use some clever tricks to put feeling into the latter’s article, astutely guessing that Leicester were “hoping to finish in the top 10 after a 14th place finish last season”. I look through Wordsmith’s other articles and Southampton, having finished seventh last season, have “eyes on a European spot”, while Manchester City “began the season dreaming of a league title after finishing second”.

Conversely, Steinberg digs more meaningfully into the numbers, showing that Jamie Vardy not only scored 24 goals, but that this was a higher percentage of his team’s goals than was managed by all but two other players. Knowing how Wordsmith works, per descomptat, one could easily set it up to do the same. In fact looking through it, Steinberg’s entire article could have been created by a skilled Wordsmith programmer – with the exception of one line. “It’s a magical season,” he quotes the Leicester manager as saying, before adding, “justifiably so, given that a summer expenditure of £26.7m on transfers made them the eighth lowest spenders”. That “justifiably so” shows a writer who actually understands what he is writing.

Veredicte Steinberg is a much better writer, unless you want 20 data-heavy articles in 10 acta.

The painting test

A laptop wants me to smile. “It’s in a good mood," Simon Colton diu. He knows because he’s the scientist who programmed it. We are in the Science Museum in London, where the Painting Fool, as it is called, is giving a public demonstration. It’s important that I don’t show my teeth, Colton says, because something about the light makes them look green to the Painting Fool.

From my toothless smile the laptop creates a “conception” of what it would like to paint, based on its mood. The mood comes from a “sentiment analysis” of recent Guardian articles, as it happens (on average reading the Guardian is a downer, aparentment, apart from the stuff about gardening). Yesterday the Fool was in such a bad mood that it sent someone away unpainted; today it is feeling “positive”.

Next the Fool attempts to paint with a simulated brush and a simulated hand (actually, an image of Colton’s hand) on the screen behind me. It learned to reflect its mood from the work of Dan Ventura, another computer scientist, at Brigham Young University in Utah, who trained a neural network to recognise the emotional attributes of images by sitting thousands of people in front of tens of thousands of paintings and asking them to tag each one with whatever adjectives came to mind. The Fool now knows that bright colours reflect a good mood, and “pencils with tight hatching” create a picture that is “cold”. When it is done, it prints out a page with a typed self-critique. “Overall, this is quite a bright portrait,” it says. “That’s OK, but my style has lowered the level of bright here. So I’m a bit annoyed about that.”

Here along with us, intrigued but too busy at her easel to watch, és Sarah Jane Moon, an artist who exhibits with the Royal Society of Portrait Painters. She doesn’t want to see my teeth, qualsevol dels dos. “We paint from life,"Diu ella, “and you can’t hold a smile for sitting upon sitting. That’s why all the traditional portraits show quite relaxed features.”

The Painting Fool is a special machine, and even slightly famous, but I can’t deny that Moon is almost all of why I’m excited to be here. The feeling of being painted by a real person, having them look at you and think about you, is exciting and flattering. Sentiment analysis and training data, D'altra banda, don’t add up to anything whose view of me I care about, and the finished portraits do not change my mind. Moon’s is a lovely, real thing, which feels straight away like one person seen by another. The Fool’s three efforts have qualities I like, but mostly they look like photographs that have gone through some kind of software filter. Colton insists the Fool is here “to learn to be better” but I look and think: so what?

Painting of Leo Benedictus by Sarah Jane Moon
Leo Benedictus as seen by Sarah Jane Moon…
Painting of Leo Benedictus by the Painting Fool computer
…and as imagined by the Painting Fool laptop. Fotografia: Murray Ballard

Then I think some more. For one thing, it turns out that art is more mechanical than I’d realised. “I try to look at Leo as an abstract set of shapes, formes, de color, tones,” Moon tells Colton, “to get away from the fact that that’s a nose. Because when you start to do that, you get caught up in what you think looks like a nose.”

“What the software does is break it down into colour regions,” Colton says.

"Sí, exactament,” Moon agrees. “I think that’s what the best painters do. It’s transcribing.” Afterwards she tells me she felt a kind of “kinship” with the software as they worked side by side.

Més important, I realise that what matters isn’t how the machine paints; it’s how I see. Moon I understand, Jo crec que. She’s a person and I know how that feels, so I care about her picture. But what does it feel like to be the Painting Fool? Is that what its portraits are trying to tell me?

Veredicte Moon’s painting is far richer; the Fool is still learning and has centuries of practice to go.

The translation test

Google Translate was the first piece of proper science fiction to come true, i it’s already a decade old. In many ways it typifies where AI has got to. Useful, segur; impressive, without question; but still clunky as hell, despite big improvements.

If you haven’t used it, it works like this: enter text or web links in any of 103 supported languages and you get a rough translation seconds later in any of the others. The app on your phone will transcribe what you say and then speak it back, traduït (32 languages supported); it can replace the text of a foreign language sign or menu wherever you point the camera. No explanation is needed of how cool that is (and it’s free).

Globally, half a billion people use Google Translate each month, mostly those who don’t speak English (which is 80% of people) but who want to understand the internet (which is 50% Anglès). “Most of our growth, and actually most of our traffic, comes from developing or emerging markets such as Brazil, Indonesia, Índia, Tailàndia,” says Barak Turovsky, head of product management and user experience at Google Translate. It’s surprisingly popular for dating, massa, he adds. “Things like ‘I love you’ and ‘You have beautiful eyes’, that’s very prevalent.”

The software has always used a form of statistical machine learning: scouring the internet for already translated text – UN declarations, EU documents – and mapping the likelihood of certain words and phrases corresponding to one another. The more data it gathers, the better it gets, but the improvement levelled off a couple of years ago. Soon, Turovsky says, they will deploy new deep learning algorithms, which will produce much more fluent translations.

Tot i això, there are limits, and some seem fundamental when you talk to a human translator and realise how subtle their work is. Ros Schwartz i Anne de Freyman volunteer for this task. Both are professional French/English translators, and I need two because, in order to judge how good the translation is without being fluent in both languages, we need to translate twice – once out of English into French, once back again. Google Translate keeps no memory of the original and can do the same thing.

I choose a short passage of distinctive but not especially wild or ambiguous prose from the beginning of Herzog by Saul Bellow. Translators normally require context, so I tell Schwartz and De Freyman that it comes from a famous mid-century American novel.

Within a few days, Schwartz and De Freyman return a very smooth facsimile of the original text. Here and there some nuances have not survived, but the passage remains a pleasure to read, and the main meanings come across exactly.

Google Translate takes only a few seconds, and the result is both impressive and inadequate, weirdly good in places, in others weirdly bad – turning “he” into “it” and concocting the idea that Herzog is in love. Miraculously, it keeps “cracked” as a description of the hero. French has no word that combines the sense of “broken” and “mad” that cracked coveys in English, so De Freyman makes it “cinglé”, which comes back from Schwartz as “crazy”.

“Google Translate would look at statistical probability and say, what does ‘cracked’ mean?” Turovsky explains. “And statistically, it will try to decide whether it means ‘cracked’ or ‘crazy’ or whatever. que, for a machine, is a non-trivial task.” Nor is it simple for a human, even though we find it easy. You’d have to ask whether Bellow could have meant that Herzog was “cracked” as in physically fractured. Then you’d have to assume not, because human bodies don’t generally do that. So you’d wonder what he did mean and assume instead, if you were not already familiar with the usage, that he must mean “crazy”, because you understand the rest of what you’ve read. But to do all this, wouldn’t Google Translate have to be pretty much conscious, I ask? Turovsky laughs. “I don’t think I’m qualified to answer that question.”

Veredicte Some bullseyes and howlers from Google Translate, while Schwartz and De Freyman are fluent and exact.

guardian.co.uk © Guardian News & Mitjana Ltd 2010

Articles relacionats