balaur @ geekmeet
Post on 01-Jul-2015
676 Views
Preview:
DESCRIPTION
TRANSCRIPT
EchipaMircea Silviu Cristian
Caută joburi
API & Widget
• API– Indexare
– Căutare (folosit de jobincluj.ro si 1000eu.ro)
• Widget
Job trends
Bucuresti
Python vs Ruby
Tehnologii
Javascript
bash
Tehnologii backend
BeautifulSoup
Facebook Apache Thrift
Tehnologii Frontend
Google Vis. API
Alte tehnologii
routes
pycrypto
rsync
glade
Arhitectura
Indexing pipeline
...
URLs
HTML
Thriftjobs
Data
• 60+ GB
• No MySQL– Read-only
– Secvential
– Shard-uri Thrift
– Bloom filters
Pipeline
• Bash rulează (Job-uri în paralel / secvențial)
Testing
• import unittest
• Testing framework
Job Editor
glade
Logging
• 4 niveluri– DEBUG, INFO, WARN, ERROR
• Why?– Troubleshooting
– Profiling
– Goodies
Logging → Status
Xapian
• Pro– Scris în C/C++
– API compact, mic
– Foarte rapid la căutare
– Imbunătățit activ
• Contra– Mai încet la indexare
– Index mai mare (trends index ~4.5G)
Xapian@balaur.ro
• Relevanță custom
• Custom spelling suggestions
• Elimină duplicatele
• Random shuffle
Show me the QPS
+ caching
Întrebări?http://balaur.ro/contact
top related