VLEVA update MFK, nieuwe voorstellen en EU werkprogramma
Voor degenen die zich ooit hebben afgevraagd hoeveel verschillende boeken er in de wereld zijn, heeft Google een antwoord voor u: 129.864.880, volgens Leonid Taycher, een Google-softwareingenieur die werkt aan het Google Books-project.
Het aantal schatten van boeken in de wereld is meer dan een oefening in nieuwsgierigheid voor de zoekgigant: het biedt ook een routekaart van een deel van het werk dat nog moet worden gedaan om te voldoen aan het ambitieuze doel van het bedrijf om alle informatie over de wereld te organiseren.
"Wanneer je maakt deel uit van een bedrijf dat alle boeken in de wereld probeert te digitaliseren, de eerste vraag die je vaak krijgt is: 'Hoeveel boeken zijn er eigenlijk?', 'legde Taycher uit in een blogpost waarin de schatting werd aangekondigd.
[Verder lezen: de beste tv-streamingdiensten]Om tot een redelijke benadering te komen, startte het bedrijf met het opnemen van boekinformatie uit meerdere catalogussystemen, zoals het International Standard Book Numbers (ISBN).
Dergelijke catalogi bieden, hoewel nuttig, geen definitieve telling echter. Zo zijn ISBN-nummers alleen sinds de jaren zestig aan boeken toegewezen en worden ze meestal alleen in de westerse landen gebruikt.
Er zijn ook meerdere boeken toegewezen aan individuele ISBN-nummers en de uitgever heeft ISBN-nummers toegewezen aan andere items dan boeken. zoals t-shirts en dvd's.
Dus Google-technici hebben programma's geschreven om ongeveer 150 van dergelijke catalogi en mappen te doorzoeken en zoveel mogelijk dubbele vermeldingen te verwijderen.
Het bedrijf moest ook een aantal moeilijke beslissingen over wat wel en niet een boek is, legde Taycher uit.
Zo worden bijvoorbeeld softcover en hardcoveredities van een tekst geteld als twee boeken, net als de vele verschillende versies van een populaire tekst, zoals Shakespeare's 'Hamlet', vanwege de voorwoorden en commentaren die ze kunnen bevatten. Serienummers kunnen tellen als afzonderlijke boeken of als verzamelde werken.
Vanaf juni heeft het bedrijf 12 miljoen boeken gescand, volgens een presentatie van Jon Engineering, manager van Google Books, Jon Orwant tijdens de jaarlijkse technische conferentie van USENIX in Boston. Deze boeken zijn in ongeveer 480 talen geschreven (waaronder 3 boeken in de Klingon-taal van Star Trek).
Het bedrijf is van plan binnen een decennium het scannen van bestaande boeken te voltooien. De resulterende virtuele collectie zal bestaan uit vier miljard pagina's en twee biljoen woorden, zei Orwant.
Ongeveer 20 procent van de boeken in de wereld bevindt zich in het publieke domein, legde Orwant uit. Ongeveer 10 tot 15 procent van deze boeken is in druk. De overige boeken - de overgrote meerderheid van alle titels - vallen nog onder het auteursrecht maar zijn niet meer gedrukt. Google is bezig met het lenen van kopieën van deze boeken om ze te digitaliseren, van ongeveer 40 grote bibliotheken wereldwijd.
Het is deze handeling van scannen in boeken die niet meer worden afgedrukt, maar die nog steeds vallen onder auteursrecht dat is nageleefd met enig verzet van de uitgeverij.
Het bedrijf wacht nu op een uitspraak van de Amerikaanse District Court voor het zuidelijke district van New York, of deze boeken kunnen worden gescand.
In 2005, het Auteursgilde en de Association of American Publishers diende afzonderlijk class-action rechtszaken in tegen de zoekgigant, waarbij hij beweerde dat het bedrijf auteursrechten schendt door de boeken te scannen.
Google heeft beweerd dat het digitale kopieën wil verkopen van deze anders niet-originele boeken afdrukken en royalties opzij zetten zodat de auteurs kunnen claimen. Het bedrijf hoopt ook fragmenten van deze boeken te kunnen onthullen bij zoekopdrachten op het web en beweert dat dit gebruik onder de Amerikaanse Fair Use-doctrine valt.
Scannen in alle boeken ter wereld zal naast het verbeteren van zoekopdrachten ook andere voordelen opleveren, legde Orwant uit. Zodra al deze volumes zijn gedigitaliseerd, kan hun inhoud worden onderworpen aan analyse, wat kan leiden tot nieuwe inzichten. Taalkundigen kunnen ontdekken wanneer bepaalde woorden wijdverspreid zijn gebruikt of wie er voor het eerst begint met het gebruik van deze woorden.
De Zoeken naar boeken met Google kan ook helpen bij het beantwoorden van enkele openstaande historische vragen: het kan bijvoorbeeld het debat over de vraag of Isaac Newton en Gottfried Leibniz - of iemand anders geheel - calculus heeft bedacht.
"We kunnen niet alleen zoeken naar een zin maar voor een concept, "verklaarde Orwant. "We kunnen alle verschillende manieren nemen [dat het idee van] oneindigheid kan worden verbogen, dat in verschillende talen vertalen en tegelijkertijd een zoekopdracht uitvoeren."
"Mijn hoop is dat als we veel meer van ons gaan blootstellen Met deze verzameling kunnen mensen zo vragen stellen die ze eerder niet hebben kunnen stellen, "zei hij.
Redacteur van de IDG-nieuwsdienst Juan Carlos Perez heeft bijgedragen aan dit rapport.
Joab Jackson dekt bedrijfssoftware en algemeen technologie breaking news voor The IDG News Service. Volg Joab op Twitter op @Joab_Jackson. Het e-mailadres van Joab is [email protected]
Sony EBook Store biedt klassieke boeken die zijn gedigitaliseerd door Google
Public-Domain-boeken van vóór 1923 die zijn gedigitaliseerd voor Zoeken naar boeken met Google zijn beschikbaar voor gratis voor gebruikers van Sony Reader.
Spotgoederen vinden Black Friday-deals
Flickr: Alamy
Stieg Larsson verkoopt één miljoen Kindle-boeken
De auteur van de Millennium Trilogy wordt de eerste platinakoper op de e-reader van Amazon.