Android

Google Researcher target Web's Structured Data

Meet our machine learning makers

Meet our machine learning makers
Anonim

Internetzoekmachines hebben voornamelijk gericht op het kruipen van tekst op webpagina's, maar Google onderzoekt knelpunten over het analyseren en organiseren van gestructureerde gegevens, zei een bedrijfsonderzoeker vrijdag.

"Er zijn veel gestructureerde gegevens op het web en we zijn het niet goed doet om het aan onze gebruikers te presenteren, "zei Alon Halevy tijdens een toespraak op de New England Database Day-conferentie aan het Massachusetts Institute of Technology,

Halevy verwees gedeeltelijk naar zogenaamde" deep web "bronnen, zoals de databases die achter form-driven websites zoals Cars.com of Realtor.com zitten. Google heeft al geruime tijd vragen naar verschillende formulieren ingediend, de resulterende webpagina's opgevraagd en opgenomen in de zoekindex als de informatie er nuttig uitziet.

[Lees meer: ​​de beste tv-streamingdiensten]

Maar het bedrijf heeft ook wil de gegevens analyseren die te vinden zijn in gestructureerde tabellen op veel websites, zei Halevy, en bood als voorbeeld een tabel op een webpagina met de Amerikaanse presidenten.

En er zijn veel van die tabellen - de index van Google is 14 miljard van hen, volgens Halevy. Hij "realiseerde zich al snel dat meer dan 98 procent hiervan niet zo interessant is", maar zelfs na een aanzienlijke filtering blijven er ongeveer 154 miljoen tabellen over die moeten worden geïndexeerd.

Een van de belangrijkste doelen van Google is om resultaten te leveren die "aspecten" organiseren "van een zoekopdracht, met name een verkennend onderzoek zoals" Vietnam-reizen ", in tegenstelling tot een vraag voor een specifiek feit zoals" Vietnam-bevolking ", zei Halevy. De vorige zoekopdracht zou bijvoorbeeld informatie opleveren over visumvereisten, weer- en reispakketten.

Het idee heeft echo's van de zoekdienst aangeboden door Kosmix, maar Google wil verder gaan, aldus Halevy. "Kosmix geeft je een 'aspect', maar het is gekoppeld aan een informatiebron," zei hij.

Zoeken naar "Vietnam-reizen" op Kosmix geeft een georganiseerde reeks resultaten, inclusief restaurantrecensies van de New York Times, afbeeldingen van Yahoo en Flickr, winkelinformatie van Shopping.com en algemene webresultaten van Google.

"In ons geval zijn alle aspecten misschien alleen zoekresultaten op het web, maar we organiseren ze anders," zei Halevy.