Skip to content

Hanging Together

the OCLC Research blog

  • Home
  • About
  • Subscribe to Hanging Together
Main Menu
Artificial Intelligence (AI) / Metadata

Efficiënt ontdubbelen in WorldCat: hoe AI en catalogiseerwerk elkaar versterken

June 30, 2025June 30, 2025 - by Bemal Rajapatirana

In onze blogpost uit 2023, “Machine Learning en WorldCat“, vertelden we voor het eerst hoe we machine learning inzetten om dubbele records in WorldCat op te sporen en samen te voegen.

Het verwijderen van dubbele records is altijd belangrijk voor de kwaliteit van WorldCat. Het maakt catalogiseren efficiënter en verbetert de algehele kwaliteit. Nu bibliografische gegevens sneller dan ooit binnenstromen, moeten we ervoor zorgen dat records nauwkeurig, samenhangend en toegankelijk blijven. En dat in hoog tempo.

Met AI kunnen we het ontdubbelen van gegevens snel en efficiënt opschalen. Toch blijft menselijke kennis en ervaring belangrijk voor het succes. Bij OCLC hebben we geïnvesteerd in een hybride aanpak: we gebruiken AI om enorme hoeveelheden data te verwerken, terwijl catalogiseerders en OCLC-experts de belangrijkste beslissingen blijven nemen.

Van papieren strookjes naar machine learning

Voordat ik bij OCLC kwam, werkte ik al aan het verbeteren van bibliografische gegevens. Het samenvoegen van dubbele records deden we toen nog helemaal handmatig. Bibliotheken stuurden ons papieren strookjes met mogelijke duplicaten, vaak voorzien van uitleg van een catalogiseerder.

We sorteerden duizenden strookjes in archiefkasten: groene strookjes voor boeken, blauwe voor niet-boeken en roze voor series. De hoeveelheid strookjes was zo groot dat we zelfs kantoormeubilair moesten gebruiken om ze op te slaan. Je kon uiteindelijk nergens meer een pen of notitieblok vinden.

A cluttered office storage room filled with tall cabinets and shelves overflowing with stacks of colorful paper folders in pink, green, and yellow. The papers are piled on top of cabinets, spilling out of shelves, and scattered on the floor, creating a chaotic and disorganized environment. Bright fluorescent lighting illuminates the space, emphasizing the abundance of materials.
Deze afbeelding is gemaakt met AI en geeft een indruk van hoe de rommelige gangen eruitzagen waar we de duplicaatstrookjes bewaarden. Het ziet er hier veel netter uit dan het in werkelijkheid was.

Als ik erop terugkijk, zie ik hoe vooruitziend die gezamenlijke inspanning was. Het was langzaam en methodisch werk, maar het liet zien hoe zorgvuldig we toen te werk gingen. Elk strookje stond voor een beslissing, een stukje menselijk oordeel dat bepaalde of records in ons systeem werden samengevoegd of behouden. Ondanks ons harde werk konden we het nooit helemaal bijhouden. De stapel duplicaten bleef groeien en we liepen altijd achter de feiten aan.

Het verschil met nu is enorm. Sinds ik bij OCLC werk met AI-gestuurde ontdubbeling, besef ik pas hoe veel efficiënter we dit tegenwoordig kunnen aanpakken. Wat vroeger jaren duurde, doen we nu in weken, met meer nauwkeurigheid en in meer talen, schriften en materiaaltypes dan ooit tevoren. Toch blijft de kern van het werk hetzelfde: menselijke expertise is onmisbaar. AI is geen wondermiddel. Het leert van onze catalogiseringsnormen, ons professionele oordeel en onze correcties.

Door een hybride aanpak te gebruiken, waarbij machine learning het zware werk doet en menselijke controle het proces stuurt en verfijnt, kunnen we een balans vinden tussen snelheid en precisie. Zo bouwen we voort op het beste van beide werelden.

Innovatie en zorgvuldigheid in balans houden in WorldCat

Al tientallen jaren werken catalogiseerders, metadatabeheerders en OCLC-teams samen om de betrouwbaarheid van WorldCat te waarborgen. Zo blijft het een hoogwaardige, betrouwbare bron voor bibliotheken en onderzoekers. Het verwijderen van dubbele records is een belangrijk onderdeel van deze inspanning. Het zorgt ervoor dat alles overzichtelijker wordt, makkelijker doorzoekbaar is en beter uitwisselbaar is tussen verschillende systemen.

Met AI kunnen we dubbele records nu op een nieuwe manier aanpakken. Hierdoor kunnen we veel meer duplicaten opsporen en samenvoegen dan ooit tevoren. De belangrijkste uitdaging is om AI verantwoord en transparant toe te passen, zodat het aansluit bij professionele catalogiseringsnormen.

Deze schaalbare aanpak sluit naadloos aan bij onze langdurige rol als beheerders van gedeelde bibliografische gegevens. AI biedt ons de kans om menselijke expertise te versterken, zonder deze te vervangen.

Een nieuwe kijk op ontdubbeling

Tot nu toe gebruikten we vaste algoritmes en veel handwerk om dubbele records samen te voegen. Dit werkte wel, maar had duidelijke grenzen.

Met de AI-gestuurde ontdubbelingsmethoden van OCLC kunnen we nu veel meer bereiken:

  • Meer talen en schriften: Ons machine learning-algoritme verwerkt efficiënt niet-Latijnse schriften en records in allerlei talen. Hierdoor kunnen we sneller duplicaten opsporen in wereldwijde collecties.
  • Meer soorten records: AI herkent duplicaten in een breder scala aan bibliografische gegevens. Ook helpt het ons bij materiaaltypes die eerder lastig waren om te ontdubbelen.
  • Bescherming van zeldzame en speciale collecties: Bij zeldzame en unieke materialen zetten we geen AI in. Zo blijven bijzondere items in archieven en speciale collecties goed beschermd.

Dankzij deze verbeteringen kunnen we de metadata van WorldCat verder verbeteren, met aandacht voor meer materialen en talen. Dit stelt ons in staat om de kwaliteit van data verantwoord te verhogen.

Wat “verantwoorde AI” in de praktijk betekent

De term ‘AI’ is breed en roept bij sommigen scepsis op. Dat is begrijpelijk. Verschillende AI-toepassingen brengen vragen met zich mee over vooroordelen, nauwkeurigheid en betrouwbaarheid.

Onze aanpak is gebaseerd op een paar belangrijke principes:

  • AI als aanvulling op menselijke expertise: AI is bedoeld om mensen te ondersteunen, niet te vervangen. We hebben menselijke controle en het labelen van data ingebouwd, zodat onze AI-modellen leren volgens de beste catalogiseringspraktijken.
  • Efficiëntie zonder concessies aan kwaliteit: Onze AI is ontwikkeld om slim met computercapaciteit om te gaan, zonder dat dit ten koste gaat van de nauwkeurigheid en kwaliteit van de records.
  • Duurzaamheid: We zorgen ervoor dat onze systemen niet meer computerkracht gebruiken dan nodig. Zo blijven de resultaten goed, zonder verspilling. Door AI slim in te zetten, blijft ontdubbeling betaalbaar en toekomstbestendig, terwijl we blijven groeien.

Het doel is niet om mensen te vervangen, maar om hun kennis en tijd beter te benutten. Catalogiseerders kunnen zich daardoor richten op werk dat echt waarde toevoegt voor hun gebruikers, in plaats van eindeloos dubbele records op te ruimen.

Daarnaast spelen catalogiseerders en onze ervaren OCLC-medewerkers een actieve rol in dit proces. Door gegevens te labelen en feedback te geven, helpen zij AI steeds beter te worden in het herkennen en verwerken van duplicaten.

AI als gezamenlijke inspanning en de weg vooruit

Ik mis de stapels papieren strookjes en het elk kwartaal opruimen van archiefkasten niet, maar ik waardeer wel wat ze symboliseerden: zorgvuldigheid en toewijding. AI vervangt die zorgvuldigheid niet, maar bouwt erop voort en tilt het naar een hoger niveau.

Terwijl de tools zich blijven ontwikkelen, blijven onze principes hetzelfde. OCLC gebruikt al lange tijd technologie om bibliotheken te helpen bij het beheren van hun catalogi en collecties. Nu passen we diezelfde aanpak toe op AI: doelgericht, effectief en geworteld in onze gedeelde toewijding aan de kwaliteit van metadata.

Deze manier van innoveren stelt bibliotheken in staat om te voldoen aan veranderende behoeften en waarde te blijven leveren aan hun gebruikers.

Doe mee met OCLC’s datalabeling-initiatief en help de rol van AI bij het ontdubbelen verbeteren.

AI-gestuurde ontdubbeling is een gezamenlijke inspanning die voortdurend wordt verfijnd dankzij de input van de gemeenschap en professionele controle. Jouw bijdrage heeft direct invloed op de kwaliteit en efficiëntie van WorldCat. Daarmee komt het de hele bibliotheekgemeenschap ten goede.

Zo kun je deelnemen (informatie in het Engels):

  • Interface voor datalabeling (WorldShare-login vereist)
  • Deelname-instructies (pdf)
  • Veelgestelde vragen (FAQs) (pdf)

Dit is een Nederlandse vertaling van de blogpost “Scaling de-duplication in WorldCat: Balancing AI innovation with cataloging care“.

A person with shoulder-length, dark curly hair wearing a black, high-collared top with a visible zipper. The background is a plain light gray, emphasizing the individual's hair texture and clothing details.
Bemal Rajapatirana

Bemal Rajapatirana is the Director of WorldCat Data Management.  She leads initiatives on WorldCat data quality, evolution, and new data ecosystems serving libraries worldwide.

OCLC Research

Hanging Together is the blog of OCLC Research. Learn more about OCLC Research on our website.

Stay Connected

Sign up to have Hanging Together updates sent directly to your inbox and to keep up with the latest news about OCLC Research.

Links

  • Next – OCLC Blog
  • OCLC Research
  • OCLC Research Library Partnership
  • WebJunction

Categories

  • Archives and Special Collections (61)
  • Artificial Intelligence (AI) (26)
  • Born-Digital Special Collections (4)
  • Collaboration (31)
  • Collections (3)
  • Collective Collections (13)
  • Data Science (13)
  • Digital Preservation (6)
  • Digitization (5)
  • Equity, Diversity, Inclusion (EDI) (98)
  • Evolving Scholarly Record (2)
  • Higher Education Future (7)
  • Identifiers (27)
  • Infrastructure and Standards Support (31)
  • Libraries (14)
  • Libraries Archives and Museums (15)
  • Libraries in the Enterprise (2)
  • Library Futures (11)
  • Library Management (11)
  • Linked Data (52)
  • Measurement and Behaviors (4)
  • Metadata (108)
  • Miscellaneous (12)
  • Modeling new services (1)
  • Museums (1)
  • New Model Library (2)
  • Open Access (21)
  • Renovating Descriptive Practice (17)
  • Research Data Management (29)
  • Research Information Management (31)
  • Research Library Partnership (123)
  • Research support (65)
  • Resource Sharing (10)
  • SHARES (10)
  • Social Interoperability (35)
  • Supporting Scholarship (6)
  • Systemwide Organization (2)
  • User Behavior Studies and Synthesis (16)
  • Web Archiving (7)
  • WebJunction (7)
  • Wikimedia (15)

Share Buttons

  • Bluesky
  • Facebook
  • Linkedin
  • Twitter
  • Outlook
  • Gmail
  • Yahoo Mail
  • Email

Recent Comments

  • Tony Ferguson on Rising to the challenge: How the SHARES resource sharing community navigated a global disruption to international shipping
  • Isabel Quintana on Werewolves in WorldCat
  • Cynthia Hall on Werewolves in WorldCat
  • Millie N. Horsfall on Backlogs and beyond: AI in primary cataloging workflows
  • Isabel Quintana on World of cats meets real cat: My thoughts on the ultimate library quilt

Categories

Archives

More about OCLC Research

Visit our web site.

Recent Posts

  • Building effective workflows for oral history projects: Collaboration, structure, and AI innovation
  • Werewolves in WorldCat
  • Autonomy to alliance: Unpacking the motivations for library partnership
  • Striking the right balance: Opportunities and challenges of AI in metadata workflows
  • Examining the role of AI in institutional repository workflows

Policy Links

  • Code of Conduct
  • Terms of Use
  • Privacy Statement

Admin.

  • Log in
  • Entries feed
  • Comments feed
  • WordPress.org

Cookies used on Hanging Together
© 2024 OCLC || ISSN 2771-4802