CiteSeer X -CiteSeerX


CiteSeer x
Art der Website
Bibliographische Datenbank
Eigentümer Pennsylvania State University College für Informationswissenschaften und Technologie
URL citeseerx .ist .psu .edu Bearbeite dies bei Wikidata
Anmeldung Optional
Gestartet 2008 ; vor 13 Jahren / 1997 ; Vor 24 Jahren ( 2008 ) ( 1997 )
Aktueller Status Aktiv
Inhaltslizenz
Creative Commons BY-NC-SA-Lizenz

CiteSeer x (ursprünglich CiteSeer genannt ) ist eine öffentliche Suchmaschine und digitale Bibliothek für wissenschaftliche Arbeiten, hauptsächlich in den Bereichen Informatik und Informationswissenschaft . CiteSeer gilt als Vorläufer akademischer Suchtools wie Google Scholar und Microsoft Academic Search . CiteSeer-ähnliche Engines und Archive sammeln normalerweise nur Dokumente von öffentlich zugänglichen Websites und crawlen keine Publisher-Websites. Aus diesem Grund sind Autoren, deren Dokumente frei verfügbar sind, eher im Index vertreten.

Das Ziel von CiteSeer ist es, die Verbreitung und den Zugang zu akademischer und wissenschaftlicher Literatur zu verbessern. Als gemeinnütziger Dienst, der von jedem frei genutzt werden kann, wurde er als Teil der Open-Access- Bewegung betrachtet, die versucht, das akademische und wissenschaftliche Publizieren zu verändern, um einen besseren Zugang zu wissenschaftlicher Literatur zu ermöglichen. CiteSeer stellte Open Archives Initiative- Metadaten aller indizierten Dokumente kostenlos zur Verfügung und verknüpft indizierte Dokumente, wenn möglich, mit anderen Metadatenquellen wie DBLP und dem ACM-Portal . Um offene Daten zu fördern , gibt CiteSeer x seine Daten für nicht-kommerzielle Zwecke unter einer Creative Commons-Lizenz weiter.

CiteSeer änderte einmal seinen Namen in ResearchIndex und änderte ihn dann wieder zurück.

Geschichte

CiteSeer und CiteSeer.IST

CiteSeer wurde 1997 von den Forschern Lee Giles , Kurt Bollacker und Steve Lawrence während ihrer Zeit am NEC Research Institute (jetzt NEC Labs ), Princeton, New Jersey , USA, entwickelt. Das Ziel von CiteSeer war es, akademische und wissenschaftliche Dokumente im Web aktiv zu crawlen und zu sammeln und eine autonome Zitationsindizierung zu verwenden, um eine Abfrage nach Zitat oder nach Dokument zu ermöglichen und sie nach Zitationswirkung zu ordnen . An einem Punkt wurde es ResearchIndex genannt.

CiteSeer wurde 1998 veröffentlicht und hatte viele neue Funktionen, die zu dieser Zeit in akademischen Suchmaschinen nicht verfügbar waren. Diese enthielten:

  • Autonomous Citation Indexing erstellte automatisch einen Zitationsindex, der für die Literaturrecherche und -bewertung verwendet werden kann.
  • Zitationsstatistiken und zugehörige Dokumente wurden für alle in der Datenbank zitierten Artikel berechnet, nicht nur für die indizierten Artikel.
  • Referenzverknüpfung, die das Durchsuchen der Datenbank mithilfe von Zitationslinks ermöglicht.
  • Zitationskontext zeigt den Kontext von Zitaten zu einem bestimmten Artikel, sodass ein Forscher schnell und einfach sehen kann, was andere Forscher zu einem interessanten Artikel zu sagen haben.
  • Zugehörige Dokumente wurden anhand von Zitations- und wortbasierten Maßnahmen dargestellt, und für jedes Dokument wird eine aktive und ständig aktualisierte Bibliographie angezeigt.

CiteSeer wurde am 11. September 2001 ein US- Patent Nr. 6289342 mit dem Titel " Autonomous Citation Indexing and Literature Browsing using Citation Context " erteilt. Das Patent wurde am 20. Mai 1998 eingereicht und hat Priorität bis zum 5. Januar 1998. Eine Fortsetzung Patent (US-Patent # 6738780) wurde am 16. Mai 2001 eingereicht und am 18. Mai 2004 erteilt.

Nach NEC wurde es 2004 als CiteSeer.IST im World Wide Web des College of Information Sciences and Technology der Pennsylvania State University gehostet und umfasste über 700.000 Dokumente. Für verbesserten Zugang, Leistung und Forschung wurden ähnliche Versionen von CiteSeer von Universitäten wie dem Massachusetts Institute of Technology , der Universität Zürich und der National University of Singapore unterstützt . Diese Versionen von CiteSeer erwiesen sich jedoch als schwierig zu warten und sind nicht mehr verfügbar. Da CiteSeer nur frei verfügbare Artikel im Web indiziert und keinen Zugriff auf Herausgeber-Metadaten hat, gibt es weniger Zitationen zurück als Websites wie Google Scholar , die über Herausgeber-Metadaten verfügen.

CiteSeer wurde seit 2005 aufgrund von Einschränkungen im Architekturdesign nicht umfassend aktualisiert. Es enthielt eine repräsentative Auswahl von Forschungsdokumenten in der Informatik und Informationswissenschaft, war jedoch in Bezug auf die Abdeckung begrenzt, da es sich auf Beiträge beschränkte, die öffentlich zugänglich sind, normalerweise auf der Homepage eines Autors, oder von einem Autor eingereicht wurden. Um einige dieser Einschränkungen zu überwinden, wurde eine modulare Open-Source-Architektur für CiteSeer entwickelt – CiteSeer x .

CiteSeer x

CiteSeer x ersetzte CiteSeer und alle Anfragen an CiteSeer wurden umgeleitet. CiteSeer x ist eine öffentliche Suchmaschine und eine digitale Bibliothek und ein Repositorium für wissenschaftliche und wissenschaftliche Arbeiten hauptsächlich mit dem Schwerpunkt Informatik und Informationswissenschaft . In letzter Zeit hat CiteSeer x jedoch in andere wissenschaftliche Bereiche wie Wirtschaft, Physik und andere expandiert. Es wurde 2008 veröffentlicht und basiert lose auf der vorherigen CiteSeer-Suchmaschine und digitalen Bibliothek und basiert auf einer neuen Open-Source- Infrastruktur, SeerSuite, sowie neuen Algorithmen und deren Implementierungen. Es wurde von Forschern Dr. Isaac Councill und Dr. C. entwickelte Lee Giles an der Hochschule für Informatik und Informationstechnik , Pennsylvania State University . Es unterstützt weiterhin die von CiteSeer skizzierten Ziele, akademische und wissenschaftliche Dokumente im öffentlichen Web aktiv zu crawlen und zu sammeln und eine Zitationsabfrage nach Zitaten und ein Ranking von Dokumenten nach der Wirkung von Zitaten zu verwenden. Derzeit sind oder waren Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen und Shuyi Zheng aktiv an seiner Entwicklung beteiligt. Vor kurzem wurde eine Tabellensuchfunktion eingeführt. Es wurde von der National Science Foundation , der NASA und Microsoft Research finanziert .

CiteSeer x wird weiterhin als eines der weltweit führenden Repositorien bewertet und wurde im Juli 2010 als Nummer 1 eingestuft. Es umfasst derzeit über 6 Millionen Dokumente mit fast 6 Millionen einzigartigen Autoren und 120 Millionen Zitationen.

CiteSeer x teilt seine Software, Daten, Datenbanken und Metadaten auch mit anderen Forschern, derzeit von Amazon S3 und von rsync . Seine neue modulare Open-Source-Architektur und -Software (zuvor auf SourceForge, aber jetzt auf GitHub verfügbar ) basiert auf Apache Solr und anderen Apache- und Open-Source-Tools, die es ermöglichen, eine Testumgebung für neue Algorithmen für das Sammeln von Dokumenten, das Ranking, die Indizierung und die Informationen zu sein Extraktion.

CiteSeer x speichert einige gescannte PDF-Dateien zwischen. Daher enthält jede Seite einen DMCA- Link, der verwendet werden kann, um Urheberrechtsverletzungen zu melden.

Aktuelle Funktionen

Automatisierte Informationsextraktion

CiteSeer x verwendet automatisierte Informationsextraktionstools , die normalerweise auf maschinellen Lernmethoden wie ParsCit basieren, um wissenschaftliche Dokumentmetadaten wie Titel, Autoren, Zusammenfassung, Zitate usw. zu extrahieren. Daher gibt es manchmal Fehler bei Autoren und Titeln. Andere akademische Suchmaschinen haben ähnliche Fehler.

Konzentriertes Krabbeln

CiteSeer x crawlt öffentlich verfügbare wissenschaftliche Dokumente hauptsächlich von Autoren-Webseiten und anderen offenen Ressourcen und hat keinen Zugriff auf Herausgeber-Metadaten. Daher ist die Anzahl der Zitationen in CiteSeer x normalerweise geringer als in Google Scholar und Microsoft Academic Search, die Zugriff auf die Metadaten des Herausgebers haben.

Verwendungszweck

CiteSeer x hat weltweit fast 1 Million Nutzer basierend auf eindeutigen IP-Adressen und hat täglich Millionen von Zugriffen. Die jährlichen Downloads von Dokument-PDFs beliefen sich im Jahr 2015 auf fast 200 Millionen.

Daten

CiteSeer x- Daten werden regelmäßig unter einer Creative Commons BY-NC-SA-Lizenz mit Forschern weltweit geteilt und wurden und werden in vielen Experimenten und Wettbewerben verwendet.

Dank der OAI-PMH Endpunkt ist CiteSeerX ein offenes Archiv und dessen Inhalt wie ein indiziert Institutional Repository in akademischen Suchmaschinen , zum Beispiel BASE und Unpaywall Verbraucher.

Andere SeerSuite-basierte Suchmaschinen

Das CiteSeer-Modell wurde auf wissenschaftliche Dokumente im Business mit SmealSearch und im E-Business mit eBizSearch erweitert . Diese wurden jedoch nicht von ihren Sponsoren gepflegt. Eine ältere Version von beiden konnte einmal bei BizSeer.IST gefunden werden , ist aber nicht mehr in Betrieb.

Andere Seer-ähnliche Such- und Aufbewahrungssysteme wurden für die Chemie, Chem X Seer, und für die Archäologie, ArchSeer, gebaut. Ein anderer wurde für die robots.txt-Dateisuche entwickelt, BotSeer . All dies basiert auf dem Open-Source-Tool SeerSuite , das den Open-Source-Indexer Lucene verwendet .

Siehe auch

Verweise

Weiterlesen

Externe Links